Sunteți pe pagina 1din 6

UTILIZAREA ANALIZEI CLUSTER N COMPARAII

TERITORIALE
Babucea Ana-Gabriela, prof. univ. dr.
Universitatea Constantin Brncui Trgu Jiu

Abstract: Cluster analysis classifies a set of observations into two or more mutually
exclusive unknown groups based on combinations of interval variables and it has proven to
be very useful. The classification aim is grouping the objects between their similarities and
so providing a synthetic description or a cut of data.
The aim of this paper is using cluster analysis to classify the Romanias regions by
monthly average net nominal wages by the activities of the national economy.

1. Introducere
Analiza comparativ a regiunilor rii devine deci cu att mai important cu ct se
pune tot mai insistent problema globalizrii, ori globalizarea poate fi privit ca manifestare
i la nivel naional dac avem n vedere dezvoltarea armonioas a regiunilor i reducerea
diferenelor dintre nivelurile de dezvoltare a acestora.
Politica de dezvoltare regional este un concept relativ nou pentru Romnia.
ncepnd cu 1998, ara a fost structurat n 8 regiuni de dezvoltare, grupnd cele 42 judee
existente. Datele statistice arat c Romnia a intrat n procesul de tranziie avnd un nivel
relativ sczut al disparitilor regionale, comparativ cu alte state. Aceste dispariti ns au
crescut rapid i n mod deosebit ntre Bucureti i restul rii.

2. Analiza cluster descrierea metodei


Termenul de analiz cluster (cluster n limba englez nseamn mnunchi,
ciorchine, grup) a fost utilizat pentru prima dat de ctre Tryon n 1939 i se refer la o
serie de algoritmi de clasificare care dau posibilitatea gruprii unor obiecte (indivizi) n
grupe omogene. Totui, utilizarea de algoritmi diferii are ca efect clasificri diferite.
Analiza de cluster, cunoscut i ca analiza de segmentare sau de taxonomie are ca
scop identificarea unui set de grupe omogene prin gruparea elementelor astfel nct s
minimizeze variaia n cadrul grupe i s maximizeze variaia dintre grupe. Analiza cluster
este deci, o tehnic de analiz multivariat care cuprinde un numr de algoritmi de
clasificare a unor obiecte (elemente sau indivizi) n grupe omogene. Variabilele sau
cazurile sunt sortate n grupe (clusteri) astfel nct ntre membrii aceluiai cluster s existe
asemnri, similitudini ct mai mari, iar ntre membrii unor clustere diferite s existe
asemanri ct mai slabe. Pentru aceasta se are n vedere n primul rnd alegerea distanei
dintre elemente, apoi alegerea algoritmului de grupare i n final se decide cu privire la
nivelul. n analiza de cluster exist cteva noiuni de baz ce se impun a fi amintite pe
scurt: clusterul (grupa), distana dintre obiecte, distana dintre grupe i algoritmul de
cluster.
Distana este o funcie definit pe mulimea perechilor de obiecte cu ajutorul creia
se aprecieaz asemnarea sau diferenele dintre elemente. Formarea grupelor se bazeaz pe
calculul distanei dintre oricare dou obiecte. Distana dintre elemente se msoar apelnd
la una dintre urmtoarele distane:
311

- Distana euclidian determinat ca rdcin ptrat din suma ptratului


distanelor dintre xi i yi:
d ( x, y ) =

(x

yi )

(1)

- Ptratul distanei euclidiene:

d ( x , y ) = ( xi y i )

(2)

- Distana Chebychev (abaterea maxim):


d (x, y ) = max xi yi

(3)

- Distana City Block sau Manhattan (suma abaterilor) calculat ca diferen medie
ntre dimensiuni:
d ( x , y ) = xi y i

(4)

- Distana Minkovski (distana euclidian generalizat):


1

pp

d ( x , y ) = xi y i
i

(5)

- Distana Power:
1

p r

d ( x , y ) = xi y i
i

(6)

unde p, r parametrii;
Determinarea acestor distane presupune un volum de calcul destul de mare i prin
urmare se apeleaz la prelucrarea automat a datelor cu pachete de programe specializate
de tipul SYSTAT, STATISTICA sau SPSS.
Pe baza distanelor calculate cu una dintre funciile distan de mai sus se
construiete matricea distanelor care este un tabel n care liniile sunt elementele, iar
coloanele sunt variabilele analizate. Aceast matrice mai poart numele i de matricea
similitudinilor dintre obiecte sau matricea indicilor de proximitate. Pasul urmtor privete
alegerea algoritmului de grupare i presupune alegerea unor reguli de determinare a
distanelor dintre clusteri. Exist dou categorii de metode generale de clustering ierarhice:
separatorii i aglomerative.
Tehnicile separatorii ncep prin preluarea unui singur grup, fragmentnd acel grup
n subgrupe, acele subgrupe la rndul lor n subgrupe i aa mai departe pn cnd fiecare
individ (obiect) formeaz propriul subgrup. Tehnicile aglomerative ncep cu fiecare obiect
reprezentnd un grup i apoi acestea se combin n grupe asemntoare pn cnd se
ajunge la un singur grup. n orice caz, rezultatul aplicrii acestor tehnici sunt cel mai bine
312

descrise de dendograme sau de arborii binari, unde obiectele sunt reprezentate ca noduri,
iar ramurile indic grupurile coninnd acel obiect.
Lungimea ramurii indic distana dintre subgrupurile pe care le unete. Distana
dintre grupe poate fi calculat la rndul ei aplicnd mai multe metode. Cele mai uzuale
dintre metodele de calcul a distanelor dintre grupe sunt:
- metoda legturii simple sau a celui mai apropiat vecin (SINGLE sau nearest
neighbor n SPSS/WIN) calculeaz distana dintre dou subgrupuri ca distana minim
ntre oricare dintre doi membri ai subgrupurile distincte respective;
- metoda legturii totale sau a celui mai ndeprtat vecin (COMPLETE sau furthest
neighbor n SPSS/WIN) implic calculul distanelor dintre grupe la fiecare pas ca maximul
distanei dintre oricare dou obiecte din grupe diferite;
- metoda legturii centrale (Centroid method n SPSS/WIN) calculeaz distanele
dintre subgrupuri la fiecare pas ca medie a distanelor dintre obiectele a dou subgrupuri.
- metoda BAVERAGE (Between groups linkage n SPSS) care implic calculul
mediei distanelor dintre elementele celor dou grupe;
- metoda WAVERAGE (Within-groups linkage n SPSS) care presupune alegerea
acelei perichi de clusteri pentru care media distanelor dintre elementele posibilului cluster
reunit pentru fiecare pereche de clusteri existeni la acel moment este cea mai mic;
- metoda WARD (Wards method n SPSS) n care se determin pentru fiecare cluster
media fiecrei variabile, distana dintre clusteri fiind determinat ca medie a distanelor de
la elementul mediu la toate elementele celuilalt cluster;
- metoda MEDIAN (Median clustering n SPSS) care presupune determinarea
distanei dintre mediile corespunztoare celor doi clusteri.
Dendograma este una dintre metodele de reprezentare a gruprilor putnd furniza o
sintez cu privire la clasificare. O dendogram care difereniaz clar grupele de obiecte va
avea distane mici la ramurile mai ndeprtate ale arborelui i diferene mari la ramurile
apropiate. Cnd distanele dintre ramurile ndeprtate sunt mari comparativ cu ramurile
apropiate, atunci gruparea nu este chiar eficace, iar dendograma va trebui interpretat cu
pruden. Dendograma poate fi util i pentru identificarea acelor obiecte care nu pot fi
alturate nici unui grup fiind excepii ale structurii de grupare i care nu se altur nici unui
grup pn la ultimul pas.
Analiza cluster presupune deci parcurgerea urmtoarelor etape:
- identificarea i nregistrarea variabilelor semnificative n gruparea elementelor;
- calculul distanelor dintre elemente i determinatrea matricei similaritilor;
- alegerea algoritmului de cluster pentru generarea grupelor i interpretarea
dendogramei.

3. Aplicaie n analiza comparativ a regiunilor Romniei


n continuare vom aplica algoritmul cluster pentru cele 8 regiuni ale Romniei.
Vom avea n vedere ctigul salarial nominal mediu lunar al populaiei civile ocupate n
domeniile de activitate ale economiei naionale (agricultur, silvicultur, industrie,
construcii, comer, hoteluri i restaurante, transporturi, pot i telecomunicaii, activiti
bancare, financiare i de asigurri, tranzacii imobiliare, administraie public, nvmnt,
sntate i alte activiti ale economiei naionale, conform tabelului nr. 1) i deci vom
considera 14 variabile corespunztoare.
Datele necesare analizei sunt prezentate n tabelul 1. Aplicnd la analiza cluster
vom analiza disparitile ntre cele 7 regiuni ale rii i Bucuretiul n funcie de variabilele
alese cu privire ctigul salarial nominal mediu lunar din domeniile de activitate ale
populaiei ocupate n ipoteza c fiecare regiune are funcie de aezare geografic un anumit
313

specific.
Pentru construirea matricei similitudinilor ca msur a distanei s-a folosit ptratul
distanei euclidiene, iar ca algoritm de grupare metoda Ward apelndu-se la pachetul de
programe SPSS. Matricea similitudinilor are 8 linii i 8 coloane.
n tabelul nr. 2 este prezentat aceast matrice, pe baza creia se vor forma grupele.
n figura 1 se pot observa posibilitile de grupare a celor 8 regiuni ale Romniei
dac avem n vedere asemnrile privind ctigul salarial nominal mediu lunar al
populaiei civile ocupate n diverse domenii de activitate ale economiei naionale.

Fig. 1. Dendograma rezultat n urma utilizrii algoritmului WARD

Se observ c Bucuretiul (regiunea 8 - judeul Ilfov i Municipiul Bucureti),


precum i regiunea Vest (5) sunt regiuni care la primul pas de grupare au rmas vizibil
izolate fiind foarte diferite de toate celelate regiuni. Toate celelalte regiuni ale rii sunt
asemntoare formnd mpreun un cluster.

Fig. 2. Clasificarea regiunilor Romniei dup ctigul salarial nominal mediu lunar al
populaiei civile ocupate n domeniile de activitate ale economiei naionale

Exceptnd Bucuretiul, a crui situaie n peisajul economic al rii este complet


special, n capital fiind atrase conform datelor statistice peste 50% din totalul investiiilor
strine nregistrndu-se de asemenea o substanial migraie pozitiv i regiunea de Vest a
rii unde proximitatea pieelor vestice acioneaz ca factor de difuzare a creterii
314

economice, celelalte regiuni ale rii sunt asemntoare din punctul de vedere analizat.
Dispariti n dezvoltarea economic i social exist i la nivel intraregional existnd nc
un numr important de judee unde predomin un singur tip de activitate economic, de
regul n ntreprinderi de Stat, care ocup o pondere foarte mare a populaiei ocupate.

4. Concluzii
Algoritmii cluster sunt destul de complicai pentru a putea fi instrumentai manual,
utilizarea pachetelor de programe specializate fac ns din analiza de cluster o metod de
clasificare la ndemna nespecialistilor. Totui trebuie avut n vedere faptul c metoda de
clasificare cluster va determina ntotdeauna o grupare. Gruprile rezultate se pot sau nu
dovedi utile pentru clasificarea obiectelor. Dac gruprile fac diferen ntre variabilele
nefolositoare gruprii i acele diferenieri sunt utile, atunci analiza de clustering este util.
Metodele analizei de cluster nefiind clar stabilite, existnd mai multe opiuni cu
precdere atunci cnd se apeleaz la pachetele de programe statistice, aceastea fiind nc
deschise criticii deseori gsindu-ne n situaia de a fi nevoii a ncerca mai multe variante
pn cnd s ajungem la o structur a datelor convenabil.

5. Bibliografie:
1. Anderberg, M. R., Cluster Analysis for Applications, New York: Academic Press, 1973;
2. Babucea, A. G., Algoritmi de clasificare utiliznd analiza de cluster i SPSS/WIN,
Lucrrile sesiunii international de comunicri tiinifice Integrare european n contextul
globalizrii, 2003, Piteti, Editura AGIR, ISBN 973-8466-02-4, p.409-418;
3. Babucea, A. G., Analiza Cluster n statistica teritorial, Volumul Simpozionul stiintific
international Universitaria ROPET 2003, Petrosani, pag.15-18, Editura Universitas,
ISBN 973-8260-37-X;
4. Furtun, T. F., Algoritmi de clasificare n statistica teritorial, Revista de statistic, nr.
2/2002, p. 72-80;
5. Johnson, R. A., Wichern, D. W., Applied Multivariate Statistical Analysis (3rd Edition)
New Jersey: Prentice Hall, 1992;

315

316
CTIGUL SALARIAL NOMINAL MEDIU NET LUNAR, PE ACTIVITI ALE ECONOMIEI NAIONALE - 2003
Lei/salariat
Nr.
crt.

Tabelul nr. 1.

REGIUNEA
Judeul

NORD-EST
Bacu, Botoani, Iai, Neam,
Suceava, Vaslui
SUD-EST
2
Brila, Buzu, Constana,
Galai, Tulcea, Vrancea
SUD
Arge, Clrai, Dmbovia,
3
Giurgiu, Ialomia, Prahova,
Teleorman
SUD-VEST
4
Dolj, Gorj, Mehedini, Olt,
Vlcea
VEST
5
Arad, Cara-Severin,
Hunedoara, Timi
NORD-VEST
6 Bihor, Bistria-Nsud, Cluj,
Maramure, Satu Mare, Slaj
CENTRU
7
Alba, Braov, Covasna,
Harghita, Mure, Sibiu
BUCURETI
8
Ilfov, Municipiul Bucureti
SURSA: Anuarul statistic 2004

Silvicultur,
exploatare
Agricultur
Industrie
forestier i
ec. vnatului
4089955
2925432
4272847

3850006

299884 2797509
9

3538806

2689193

5208600

4588863

307841 3165376
0

6738499

9378970

3551002

6407259

4867400

3920127

3454903 3538806

3618340

3307289

5020467

3967495

331799 2773906
4

6381718

10248871

4669265

6130259

4614418

3894763

3203082 3618340

3622616

3597827

5810986

4229799

310472 2769780
4

6087832

9712919

3806872

6323225

5073307

4234666

3487388 3622616

4792965

3892431

3768107

5166499

428849 3284106
6

2759832

6461385

9568871

4423103

6519912

4621452

3847251 4792965

4068533

3818752

4343310

4213999

340411 3127015
0

5797448

10562129

3931141

6698627

5028731

4120212

3820539 4068533

3790137

3918079

4451884

4096393

337043 3129332
2

6233418

10376759

4311670

6280891

4599443

4060908

3642012 3790137

4086195

3254639

5169593

4514791

523627 4662267
6

8252807

17223889

5530684

8835984

4680659

4624007

6015093 4086195

Construc
Hoteluri i
Comer
ii
restaurante

Activiti Tranzacii
Sntate
Transport i
Pot i
financiare, imobiliare Administraie
i
Alte
nvmnt
depozitare telecomunicaii bancare i
public
i alte
asisten activiti
de asigurri servicii
social
6215158
10421624
3691188
6815313 4688286
4251360
3449052 4089955

Matricea distanelor dintre regiuni (similitudinilor) - Proximity Matrix


Tabelul nr. 2.
Case
1 Nord-Est
2 Sud-Est
3 Sud
4 Sud-Vest
5 Vest
6 Nord-Vest
7 Centru
8 Bucureti

1 Nord-Est

2 Sud-Est
3611778088960,000

Squared Euclidean Distance


4 Sud-Vest

3 Sud
2720023969792,000
3359828344832,000

3611778088960,000
2720023969792,000 3359828344832,000
4116611072000,000 2231432642560,000 2385169612800,000
76860176203776,000 74778090143744,000 64887896145920,000
1745267720192,000 5267910557696,000 3026782781440,000
2170529775616,000 4446954192896,000 1280957743104,000
74451051872256,000 88262064472064,000 76447574130688,000

5 Vest
6 Nord-Vest
7 Centru
4116611072000,000 76860176203776,000 1745267720192,000 2170529775616,000
2231432642560,000 74778090143744,000 5267910557696,000 4446954192896,000
2385169612800,000 64887896145920,000 3026782781440,000 1280957743104,000
69004043485184,000 3707147386880,000 3192598036480,000
69004043485184,000
68055958814720,000 66015819988992,000
3707147386880,000 68055958814720,000
877543882752,000
3192598036480,000 66015819988992,000
877543882752,000
86032632512512,000 195959946477568,000 69531284275200,000 71980036390912,000

8 Bucureti
74451051872256,000
88262064472064,000
76447574130688,000
86032632512512,000
195959946477568,000
69531284275200,000
71980036390912,000

S-ar putea să vă placă și