Documente Academic
Documente Profesional
Documente Cultură
TERITORIALE
Babucea Ana-Gabriela, prof. univ. dr.
Universitatea Constantin Brncui Trgu Jiu
Abstract: Cluster analysis classifies a set of observations into two or more mutually
exclusive unknown groups based on combinations of interval variables and it has proven to
be very useful. The classification aim is grouping the objects between their similarities and
so providing a synthetic description or a cut of data.
The aim of this paper is using cluster analysis to classify the Romanias regions by
monthly average net nominal wages by the activities of the national economy.
1. Introducere
Analiza comparativ a regiunilor rii devine deci cu att mai important cu ct se
pune tot mai insistent problema globalizrii, ori globalizarea poate fi privit ca manifestare
i la nivel naional dac avem n vedere dezvoltarea armonioas a regiunilor i reducerea
diferenelor dintre nivelurile de dezvoltare a acestora.
Politica de dezvoltare regional este un concept relativ nou pentru Romnia.
ncepnd cu 1998, ara a fost structurat n 8 regiuni de dezvoltare, grupnd cele 42 judee
existente. Datele statistice arat c Romnia a intrat n procesul de tranziie avnd un nivel
relativ sczut al disparitilor regionale, comparativ cu alte state. Aceste dispariti ns au
crescut rapid i n mod deosebit ntre Bucureti i restul rii.
(x
yi )
(1)
d ( x , y ) = ( xi y i )
(2)
(3)
- Distana City Block sau Manhattan (suma abaterilor) calculat ca diferen medie
ntre dimensiuni:
d ( x , y ) = xi y i
(4)
pp
d ( x , y ) = xi y i
i
(5)
- Distana Power:
1
p r
d ( x , y ) = xi y i
i
(6)
unde p, r parametrii;
Determinarea acestor distane presupune un volum de calcul destul de mare i prin
urmare se apeleaz la prelucrarea automat a datelor cu pachete de programe specializate
de tipul SYSTAT, STATISTICA sau SPSS.
Pe baza distanelor calculate cu una dintre funciile distan de mai sus se
construiete matricea distanelor care este un tabel n care liniile sunt elementele, iar
coloanele sunt variabilele analizate. Aceast matrice mai poart numele i de matricea
similitudinilor dintre obiecte sau matricea indicilor de proximitate. Pasul urmtor privete
alegerea algoritmului de grupare i presupune alegerea unor reguli de determinare a
distanelor dintre clusteri. Exist dou categorii de metode generale de clustering ierarhice:
separatorii i aglomerative.
Tehnicile separatorii ncep prin preluarea unui singur grup, fragmentnd acel grup
n subgrupe, acele subgrupe la rndul lor n subgrupe i aa mai departe pn cnd fiecare
individ (obiect) formeaz propriul subgrup. Tehnicile aglomerative ncep cu fiecare obiect
reprezentnd un grup i apoi acestea se combin n grupe asemntoare pn cnd se
ajunge la un singur grup. n orice caz, rezultatul aplicrii acestor tehnici sunt cel mai bine
312
descrise de dendograme sau de arborii binari, unde obiectele sunt reprezentate ca noduri,
iar ramurile indic grupurile coninnd acel obiect.
Lungimea ramurii indic distana dintre subgrupurile pe care le unete. Distana
dintre grupe poate fi calculat la rndul ei aplicnd mai multe metode. Cele mai uzuale
dintre metodele de calcul a distanelor dintre grupe sunt:
- metoda legturii simple sau a celui mai apropiat vecin (SINGLE sau nearest
neighbor n SPSS/WIN) calculeaz distana dintre dou subgrupuri ca distana minim
ntre oricare dintre doi membri ai subgrupurile distincte respective;
- metoda legturii totale sau a celui mai ndeprtat vecin (COMPLETE sau furthest
neighbor n SPSS/WIN) implic calculul distanelor dintre grupe la fiecare pas ca maximul
distanei dintre oricare dou obiecte din grupe diferite;
- metoda legturii centrale (Centroid method n SPSS/WIN) calculeaz distanele
dintre subgrupuri la fiecare pas ca medie a distanelor dintre obiectele a dou subgrupuri.
- metoda BAVERAGE (Between groups linkage n SPSS) care implic calculul
mediei distanelor dintre elementele celor dou grupe;
- metoda WAVERAGE (Within-groups linkage n SPSS) care presupune alegerea
acelei perichi de clusteri pentru care media distanelor dintre elementele posibilului cluster
reunit pentru fiecare pereche de clusteri existeni la acel moment este cea mai mic;
- metoda WARD (Wards method n SPSS) n care se determin pentru fiecare cluster
media fiecrei variabile, distana dintre clusteri fiind determinat ca medie a distanelor de
la elementul mediu la toate elementele celuilalt cluster;
- metoda MEDIAN (Median clustering n SPSS) care presupune determinarea
distanei dintre mediile corespunztoare celor doi clusteri.
Dendograma este una dintre metodele de reprezentare a gruprilor putnd furniza o
sintez cu privire la clasificare. O dendogram care difereniaz clar grupele de obiecte va
avea distane mici la ramurile mai ndeprtate ale arborelui i diferene mari la ramurile
apropiate. Cnd distanele dintre ramurile ndeprtate sunt mari comparativ cu ramurile
apropiate, atunci gruparea nu este chiar eficace, iar dendograma va trebui interpretat cu
pruden. Dendograma poate fi util i pentru identificarea acelor obiecte care nu pot fi
alturate nici unui grup fiind excepii ale structurii de grupare i care nu se altur nici unui
grup pn la ultimul pas.
Analiza cluster presupune deci parcurgerea urmtoarelor etape:
- identificarea i nregistrarea variabilelor semnificative n gruparea elementelor;
- calculul distanelor dintre elemente i determinatrea matricei similaritilor;
- alegerea algoritmului de cluster pentru generarea grupelor i interpretarea
dendogramei.
specific.
Pentru construirea matricei similitudinilor ca msur a distanei s-a folosit ptratul
distanei euclidiene, iar ca algoritm de grupare metoda Ward apelndu-se la pachetul de
programe SPSS. Matricea similitudinilor are 8 linii i 8 coloane.
n tabelul nr. 2 este prezentat aceast matrice, pe baza creia se vor forma grupele.
n figura 1 se pot observa posibilitile de grupare a celor 8 regiuni ale Romniei
dac avem n vedere asemnrile privind ctigul salarial nominal mediu lunar al
populaiei civile ocupate n diverse domenii de activitate ale economiei naionale.
Fig. 2. Clasificarea regiunilor Romniei dup ctigul salarial nominal mediu lunar al
populaiei civile ocupate n domeniile de activitate ale economiei naionale
economice, celelalte regiuni ale rii sunt asemntoare din punctul de vedere analizat.
Dispariti n dezvoltarea economic i social exist i la nivel intraregional existnd nc
un numr important de judee unde predomin un singur tip de activitate economic, de
regul n ntreprinderi de Stat, care ocup o pondere foarte mare a populaiei ocupate.
4. Concluzii
Algoritmii cluster sunt destul de complicai pentru a putea fi instrumentai manual,
utilizarea pachetelor de programe specializate fac ns din analiza de cluster o metod de
clasificare la ndemna nespecialistilor. Totui trebuie avut n vedere faptul c metoda de
clasificare cluster va determina ntotdeauna o grupare. Gruprile rezultate se pot sau nu
dovedi utile pentru clasificarea obiectelor. Dac gruprile fac diferen ntre variabilele
nefolositoare gruprii i acele diferenieri sunt utile, atunci analiza de clustering este util.
Metodele analizei de cluster nefiind clar stabilite, existnd mai multe opiuni cu
precdere atunci cnd se apeleaz la pachetele de programe statistice, aceastea fiind nc
deschise criticii deseori gsindu-ne n situaia de a fi nevoii a ncerca mai multe variante
pn cnd s ajungem la o structur a datelor convenabil.
5. Bibliografie:
1. Anderberg, M. R., Cluster Analysis for Applications, New York: Academic Press, 1973;
2. Babucea, A. G., Algoritmi de clasificare utiliznd analiza de cluster i SPSS/WIN,
Lucrrile sesiunii international de comunicri tiinifice Integrare european n contextul
globalizrii, 2003, Piteti, Editura AGIR, ISBN 973-8466-02-4, p.409-418;
3. Babucea, A. G., Analiza Cluster n statistica teritorial, Volumul Simpozionul stiintific
international Universitaria ROPET 2003, Petrosani, pag.15-18, Editura Universitas,
ISBN 973-8260-37-X;
4. Furtun, T. F., Algoritmi de clasificare n statistica teritorial, Revista de statistic, nr.
2/2002, p. 72-80;
5. Johnson, R. A., Wichern, D. W., Applied Multivariate Statistical Analysis (3rd Edition)
New Jersey: Prentice Hall, 1992;
315
316
CTIGUL SALARIAL NOMINAL MEDIU NET LUNAR, PE ACTIVITI ALE ECONOMIEI NAIONALE - 2003
Lei/salariat
Nr.
crt.
Tabelul nr. 1.
REGIUNEA
Judeul
NORD-EST
Bacu, Botoani, Iai, Neam,
Suceava, Vaslui
SUD-EST
2
Brila, Buzu, Constana,
Galai, Tulcea, Vrancea
SUD
Arge, Clrai, Dmbovia,
3
Giurgiu, Ialomia, Prahova,
Teleorman
SUD-VEST
4
Dolj, Gorj, Mehedini, Olt,
Vlcea
VEST
5
Arad, Cara-Severin,
Hunedoara, Timi
NORD-VEST
6 Bihor, Bistria-Nsud, Cluj,
Maramure, Satu Mare, Slaj
CENTRU
7
Alba, Braov, Covasna,
Harghita, Mure, Sibiu
BUCURETI
8
Ilfov, Municipiul Bucureti
SURSA: Anuarul statistic 2004
Silvicultur,
exploatare
Agricultur
Industrie
forestier i
ec. vnatului
4089955
2925432
4272847
3850006
299884 2797509
9
3538806
2689193
5208600
4588863
307841 3165376
0
6738499
9378970
3551002
6407259
4867400
3920127
3454903 3538806
3618340
3307289
5020467
3967495
331799 2773906
4
6381718
10248871
4669265
6130259
4614418
3894763
3203082 3618340
3622616
3597827
5810986
4229799
310472 2769780
4
6087832
9712919
3806872
6323225
5073307
4234666
3487388 3622616
4792965
3892431
3768107
5166499
428849 3284106
6
2759832
6461385
9568871
4423103
6519912
4621452
3847251 4792965
4068533
3818752
4343310
4213999
340411 3127015
0
5797448
10562129
3931141
6698627
5028731
4120212
3820539 4068533
3790137
3918079
4451884
4096393
337043 3129332
2
6233418
10376759
4311670
6280891
4599443
4060908
3642012 3790137
4086195
3254639
5169593
4514791
523627 4662267
6
8252807
17223889
5530684
8835984
4680659
4624007
6015093 4086195
Construc
Hoteluri i
Comer
ii
restaurante
Activiti Tranzacii
Sntate
Transport i
Pot i
financiare, imobiliare Administraie
i
Alte
nvmnt
depozitare telecomunicaii bancare i
public
i alte
asisten activiti
de asigurri servicii
social
6215158
10421624
3691188
6815313 4688286
4251360
3449052 4089955
1 Nord-Est
2 Sud-Est
3611778088960,000
3 Sud
2720023969792,000
3359828344832,000
3611778088960,000
2720023969792,000 3359828344832,000
4116611072000,000 2231432642560,000 2385169612800,000
76860176203776,000 74778090143744,000 64887896145920,000
1745267720192,000 5267910557696,000 3026782781440,000
2170529775616,000 4446954192896,000 1280957743104,000
74451051872256,000 88262064472064,000 76447574130688,000
5 Vest
6 Nord-Vest
7 Centru
4116611072000,000 76860176203776,000 1745267720192,000 2170529775616,000
2231432642560,000 74778090143744,000 5267910557696,000 4446954192896,000
2385169612800,000 64887896145920,000 3026782781440,000 1280957743104,000
69004043485184,000 3707147386880,000 3192598036480,000
69004043485184,000
68055958814720,000 66015819988992,000
3707147386880,000 68055958814720,000
877543882752,000
3192598036480,000 66015819988992,000
877543882752,000
86032632512512,000 195959946477568,000 69531284275200,000 71980036390912,000
8 Bucureti
74451051872256,000
88262064472064,000
76447574130688,000
86032632512512,000
195959946477568,000
69531284275200,000
71980036390912,000