57 Babucea Ana-Gabrielah

UTILIZAREA ANALIZEI CLUSTER N COMPARAII
TERITORIALE
Babucea Ana-Gabriela, prof. univ. dr.
Universitatea Constantin Brncui Trgu Jiu
Abstract: Cluster analysis classifies a set of observations into two or more mutually
exclusive unknown groups based on combinations of interval variables and it has proven to
be very useful. The classification aim is grouping the objects between their similarities and
so providing a synthetic description or a cut of data.
The aim of this paper is using cluster analysis to classify the Romanias regions by
monthly average net nominal wages by the activities of the national economy.
1. Introducere
Analiza comparativ a regiunilor rii devine deci cu att mai important cu ct se
pune tot mai insistent problema globalizrii, ori globalizarea poate fi privit ca manifestare
i la nivel naional dac avem n vedere dezvoltarea armonioas a regiunilor i reducerea
diferenelor dintre nivelurile de dezvoltare a acestora.
Politica de dezvoltare regional este un concept relativ nou pentru Romnia.
ncepnd cu 1998, ara a fost structurat n 8 regiuni de dezvoltare, grupnd cele 42 judee
existente. Datele statistice arat c Romnia a intrat n procesul de tranziie avnd un nivel
relativ sczut al disparitilor regionale, comparativ cu alte state. Aceste dispariti ns au
crescut rapid i n mod deosebit ntre Bucureti i restul rii.
2. Analiza cluster descrierea metodei

Termenul de analiz cluster (cluster n limba englez nseamn mnunchi,
ciorchine, grup) a fost utilizat pentru prima dat de ctre Tryon n 1939 i se refer la o
serie de algoritmi de clasificare care dau posibilitatea gruprii unor obiecte (indivizi) n
grupe omogene. Totui, utilizarea de algoritmi diferii are ca efect clasificri diferite.
Analiza de cluster, cunoscut i ca analiza de segmentare sau de taxonomie are ca
scop identificarea unui set de grupe omogene prin gruparea elementelor astfel nct s
minimizeze variaia n cadrul grupe i s maximizeze variaia dintre grupe. Analiza cluster
este deci, o tehnic de analiz multivariat care cuprinde un numr de algoritmi de
clasificare a unor obiecte (elemente sau indivizi) n grupe omogene. Variabilele sau
cazurile sunt sortate n grupe (clusteri) astfel nct ntre membrii aceluiai cluster s existe
asemnri, similitudini ct mai mari, iar ntre membrii unor clustere diferite s existe
asemanri ct mai slabe. Pentru aceasta se are n vedere n primul rnd alegerea distanei
dintre elemente, apoi alegerea algoritmului de grupare i n final se decide cu privire la
nivelul. n analiza de cluster exist cteva noiuni de baz ce se impun a fi amintite pe
scurt: clusterul (grupa), distana dintre obiecte, distana dintre grupe i algoritmul de
cluster.
Distana este o funcie definit pe mulimea perechilor de obiecte cu ajutorul creia
se aprecieaz asemnarea sau diferenele dintre elemente. Formarea grupelor se bazeaz pe
calculul distanei dintre oricare dou obiecte. Distana dintre elemente se msoar apelnd
la una dintre urmtoarele distane:
311
- Distana euclidian determinat ca rdcin ptrat din suma ptratului

distanelor dintre xi i yi:
d ( x, y ) =
(x
yi )
(1)
- Ptratul distanei euclidiene:
d ( x , y ) = ( xi y i )
(2)
- Distana Chebychev (abaterea maxim):

d (x, y ) = max xi yi
(3)
- Distana City Block sau Manhattan (suma abaterilor) calculat ca diferen medie
ntre dimensiuni:
d ( x , y ) = xi y i
(4)
- Distana Minkovski (distana euclidian generalizat):

1
pp
d ( x , y ) = xi y i
i
(5)
- Distana Power:
1
p r
d ( x , y ) = xi y i
i
(6)
unde p, r parametrii;
Determinarea acestor distane presupune un volum de calcul destul de mare i prin
urmare se apeleaz la prelucrarea automat a datelor cu pachete de programe specializate
de tipul SYSTAT, STATISTICA sau SPSS.
Pe baza distanelor calculate cu una dintre funciile distan de mai sus se
construiete matricea distanelor care este un tabel n care liniile sunt elementele, iar
coloanele sunt variabilele analizate. Aceast matrice mai poart numele i de matricea
similitudinilor dintre obiecte sau matricea indicilor de proximitate. Pasul urmtor privete
alegerea algoritmului de grupare i presupune alegerea unor reguli de determinare a
distanelor dintre clusteri. Exist dou categorii de metode generale de clustering ierarhice:
separatorii i aglomerative.
Tehnicile separatorii ncep prin preluarea unui singur grup, fragmentnd acel grup
n subgrupe, acele subgrupe la rndul lor n subgrupe i aa mai departe pn cnd fiecare
individ (obiect) formeaz propriul subgrup. Tehnicile aglomerative ncep cu fiecare obiect
reprezentnd un grup i apoi acestea se combin n grupe asemntoare pn cnd se
ajunge la un singur grup. n orice caz, rezultatul aplicrii acestor tehnici sunt cel mai bine
312
descrise de dendograme sau de arborii binari, unde obiectele sunt reprezentate ca noduri,
iar ramurile indic grupurile coninnd acel obiect.
Lungimea ramurii indic distana dintre subgrupurile pe care le unete. Distana
dintre grupe poate fi calculat la rndul ei aplicnd mai multe metode. Cele mai uzuale
dintre metodele de calcul a distanelor dintre grupe sunt:
- metoda legturii simple sau a celui mai apropiat vecin (SINGLE sau nearest
neighbor n SPSS/WIN) calculeaz distana dintre dou subgrupuri ca distana minim
ntre oricare dintre doi membri ai subgrupurile distincte respective;
- metoda legturii totale sau a celui mai ndeprtat vecin (COMPLETE sau furthest
neighbor n SPSS/WIN) implic calculul distanelor dintre grupe la fiecare pas ca maximul
distanei dintre oricare dou obiecte din grupe diferite;
- metoda legturii centrale (Centroid method n SPSS/WIN) calculeaz distanele
dintre subgrupuri la fiecare pas ca medie a distanelor dintre obiectele a dou subgrupuri.
- metoda BAVERAGE (Between groups linkage n SPSS) care implic calculul
mediei distanelor dintre elementele celor dou grupe;
- metoda WAVERAGE (Within-groups linkage n SPSS) care presupune alegerea
acelei perichi de clusteri pentru care media distanelor dintre elementele posibilului cluster
reunit pentru fiecare pereche de clusteri existeni la acel moment este cea mai mic;
- metoda WARD (Wards method n SPSS) n care se determin pentru fiecare cluster
media fiecrei variabile, distana dintre clusteri fiind determinat ca medie a distanelor de
la elementul mediu la toate elementele celuilalt cluster;
- metoda MEDIAN (Median clustering n SPSS) care presupune determinarea
distanei dintre mediile corespunztoare celor doi clusteri.
Dendograma este una dintre metodele de reprezentare a gruprilor putnd furniza o
sintez cu privire la clasificare. O dendogram care difereniaz clar grupele de obiecte va
avea distane mici la ramurile mai ndeprtate ale arborelui i diferene mari la ramurile
apropiate. Cnd distanele dintre ramurile ndeprtate sunt mari comparativ cu ramurile
apropiate, atunci gruparea nu este chiar eficace, iar dendograma va trebui interpretat cu
pruden. Dendograma poate fi util i pentru identificarea acelor obiecte care nu pot fi
alturate nici unui grup fiind excepii ale structurii de grupare i care nu se altur nici unui
grup pn la ultimul pas.
Analiza cluster presupune deci parcurgerea urmtoarelor etape:
- identificarea i nregistrarea variabilelor semnificative n gruparea elementelor;
- calculul distanelor dintre elemente i determinatrea matricei similaritilor;
- alegerea algoritmului de cluster pentru generarea grupelor i interpretarea
dendogramei.
3. Aplicaie n analiza comparativ a regiunilor Romniei

n continuare vom aplica algoritmul cluster pentru cele 8 regiuni ale Romniei.
Vom avea n vedere ctigul salarial nominal mediu lunar al populaiei civile ocupate n
domeniile de activitate ale economiei naionale (agricultur, silvicultur, industrie,
construcii, comer, hoteluri i restaurante, transporturi, pot i telecomunicaii, activiti
bancare, financiare i de asigurri, tranzacii imobiliare, administraie public, nvmnt,
sntate i alte activiti ale economiei naionale, conform tabelului nr. 1) i deci vom
considera 14 variabile corespunztoare.
Datele necesare analizei sunt prezentate n tabelul 1. Aplicnd la analiza cluster
vom analiza disparitile ntre cele 7 regiuni ale rii i Bucuretiul n funcie de variabilele
alese cu privire ctigul salarial nominal mediu lunar din domeniile de activitate ale
populaiei ocupate n ipoteza c fiecare regiune are funcie de aezare geografic un anumit
313
specific.
Pentru construirea matricei similitudinilor ca msur a distanei s-a folosit ptratul
distanei euclidiene, iar ca algoritm de grupare metoda Ward apelndu-se la pachetul de
programe SPSS. Matricea similitudinilor are 8 linii i 8 coloane.
n tabelul nr. 2 este prezentat aceast matrice, pe baza creia se vor forma grupele.
n figura 1 se pot observa posibilitile de grupare a celor 8 regiuni ale Romniei
dac avem n vedere asemnrile privind ctigul salarial nominal mediu lunar al
populaiei civile ocupate n diverse domenii de activitate ale economiei naionale.
Fig. 1. Dendograma rezultat n urma utilizrii algoritmului WARD
Se observ c Bucuretiul (regiunea 8 - judeul Ilfov i Municipiul Bucureti),

precum i regiunea Vest (5) sunt regiuni care la primul pas de grupare au rmas vizibil
izolate fiind foarte diferite de toate celelate regiuni. Toate celelalte regiuni ale rii sunt
asemntoare formnd mpreun un cluster.
Fig. 2. Clasificarea regiunilor Romniei dup ctigul salarial nominal mediu lunar al
populaiei civile ocupate n domeniile de activitate ale economiei naionale
Exceptnd Bucuretiul, a crui situaie n peisajul economic al rii este complet

special, n capital fiind atrase conform datelor statistice peste 50% din totalul investiiilor
strine nregistrndu-se de asemenea o substanial migraie pozitiv i regiunea de Vest a
rii unde proximitatea pieelor vestice acioneaz ca factor de difuzare a creterii
314
economice, celelalte regiuni ale rii sunt asemntoare din punctul de vedere analizat.
Dispariti n dezvoltarea economic i social exist i la nivel intraregional existnd nc
un numr important de judee unde predomin un singur tip de activitate economic, de
regul n ntreprinderi de Stat, care ocup o pondere foarte mare a populaiei ocupate.
4. Concluzii
Algoritmii cluster sunt destul de complicai pentru a putea fi instrumentai manual,
utilizarea pachetelor de programe specializate fac ns din analiza de cluster o metod de
clasificare la ndemna nespecialistilor. Totui trebuie avut n vedere faptul c metoda de
clasificare cluster va determina ntotdeauna o grupare. Gruprile rezultate se pot sau nu
dovedi utile pentru clasificarea obiectelor. Dac gruprile fac diferen ntre variabilele
nefolositoare gruprii i acele diferenieri sunt utile, atunci analiza de clustering este util.
Metodele analizei de cluster nefiind clar stabilite, existnd mai multe opiuni cu
precdere atunci cnd se apeleaz la pachetele de programe statistice, aceastea fiind nc
deschise criticii deseori gsindu-ne n situaia de a fi nevoii a ncerca mai multe variante
pn cnd s ajungem la o structur a datelor convenabil.
5. Bibliografie:
1. Anderberg, M. R., Cluster Analysis for Applications, New York: Academic Press, 1973;
2. Babucea, A. G., Algoritmi de clasificare utiliznd analiza de cluster i SPSS/WIN,
Lucrrile sesiunii international de comunicri tiinifice Integrare european n contextul
globalizrii, 2003, Piteti, Editura AGIR, ISBN 973-8466-02-4, p.409-418;
3. Babucea, A. G., Analiza Cluster n statistica teritorial, Volumul Simpozionul stiintific
international Universitaria ROPET 2003, Petrosani, pag.15-18, Editura Universitas,
ISBN 973-8260-37-X;
4. Furtun, T. F., Algoritmi de clasificare n statistica teritorial, Revista de statistic, nr.
2/2002, p. 72-80;
5. Johnson, R. A., Wichern, D. W., Applied Multivariate Statistical Analysis (3rd Edition)
New Jersey: Prentice Hall, 1992;
315
316
CTIGUL SALARIAL NOMINAL MEDIU NET LUNAR, PE ACTIVITI ALE ECONOMIEI NAIONALE - 2003
Lei/salariat
Nr.
crt.
Tabelul nr. 1.
REGIUNEA
Judeul
NORD-EST
Bacu, Botoani, Iai, Neam,
Suceava, Vaslui
SUD-EST
2
Brila, Buzu, Constana,
Galai, Tulcea, Vrancea
SUD
Arge, Clrai, Dmbovia,
3
Giurgiu, Ialomia, Prahova,
Teleorman
SUD-VEST
4
Dolj, Gorj, Mehedini, Olt,
Vlcea
VEST
5
Arad, Cara-Severin,
Hunedoara, Timi
NORD-VEST
6 Bihor, Bistria-Nsud, Cluj,
Maramure, Satu Mare, Slaj
CENTRU
7
Alba, Braov, Covasna,
Harghita, Mure, Sibiu
BUCURETI
8
Ilfov, Municipiul Bucureti
SURSA: Anuarul statistic 2004
Silvicultur,
exploatare
Agricultur
Industrie
forestier i
ec. vnatului
4089955
2925432
4272847
3850006
299884 2797509
9
3538806
2689193
5208600
4588863
307841 3165376
0
6738499
9378970
3551002
6407259
4867400
3920127
3454903 3538806
3618340
3307289
5020467
3967495
331799 2773906
4
6381718
10248871
4669265
6130259
4614418
3894763
3203082 3618340
3622616
3597827
5810986
4229799
310472 2769780
4
6087832
9712919
3806872
6323225
5073307
4234666
3487388 3622616
4792965
3892431
3768107
5166499
428849 3284106
6
2759832
6461385
9568871
4423103
6519912
4621452
3847251 4792965
4068533
3818752
4343310
4213999
340411 3127015
0
5797448
10562129
3931141
6698627
5028731
4120212
3820539 4068533
3790137
3918079
4451884
4096393
337043 3129332
2
6233418
10376759
4311670
6280891
4599443
4060908
3642012 3790137
4086195
3254639
5169593
4514791
523627 4662267
6
8252807
17223889
5530684
8835984
4680659
4624007
6015093 4086195
Construc
Hoteluri i
Comer
ii
restaurante
Activiti Tranzacii
Sntate
Transport i
Pot i
financiare, imobiliare Administraie
i
Alte
nvmnt
depozitare telecomunicaii bancare i
public
i alte
asisten activiti
de asigurri servicii
social
6215158
10421624
3691188
6815313 4688286
4251360
3449052 4089955
Matricea distanelor dintre regiuni (similitudinilor) - Proximity Matrix

Tabelul nr. 2.
Case
1 Nord-Est
2 Sud-Est
3 Sud
4 Sud-Vest
5 Vest
6 Nord-Vest
7 Centru
8 Bucureti
1 Nord-Est
2 Sud-Est
3611778088960,000
Squared Euclidean Distance

4 Sud-Vest
3 Sud
2720023969792,000
3359828344832,000
3611778088960,000
2720023969792,000 3359828344832,000
4116611072000,000 2231432642560,000 2385169612800,000
76860176203776,000 74778090143744,000 64887896145920,000
1745267720192,000 5267910557696,000 3026782781440,000
2170529775616,000 4446954192896,000 1280957743104,000
74451051872256,000 88262064472064,000 76447574130688,000
5 Vest
6 Nord-Vest
7 Centru
4116611072000,000 76860176203776,000 1745267720192,000 2170529775616,000
2231432642560,000 74778090143744,000 5267910557696,000 4446954192896,000
2385169612800,000 64887896145920,000 3026782781440,000 1280957743104,000
69004043485184,000 3707147386880,000 3192598036480,000
69004043485184,000
68055958814720,000 66015819988992,000
3707147386880,000 68055958814720,000
877543882752,000
3192598036480,000 66015819988992,000
877543882752,000
86032632512512,000 195959946477568,000 69531284275200,000 71980036390912,000
8 Bucureti
74451051872256,000
88262064472064,000
76447574130688,000
86032632512512,000
195959946477568,000
69531284275200,000
71980036390912,000

57 Babucea Ana-Gabrielah

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

57 Babucea Ana-Gabrielah

Încărcat de

Drepturi de autor:

Formate disponibile

UTILIZAREA ANALIZEI CLUSTER N COMPARAII

2. Analiza cluster descrierea metodei

- Distana euclidian determinat ca rdcin ptrat din suma ptratului

- Ptratul distanei euclidiene:

- Distana Chebychev (abaterea maxim):

- Distana Minkovski (distana euclidian generalizat):

3. Aplicaie n analiza comparativ a regiunilor Romniei

Fig. 1. Dendograma rezultat n urma utilizrii algoritmului WARD

Se observ c Bucuretiul (regiunea 8 - judeul Ilfov i Municipiul Bucureti),

Exceptnd Bucuretiul, a crui situaie n peisajul economic al rii este complet

Matricea distanelor dintre regiuni (similitudinilor) - Proximity Matrix

Squared Euclidean Distance

S-ar putea să vă placă și