Sunteți pe pagina 1din 8

Capitolul 11

Analiza cluster
n urma parcurgerii acestui capitol: vei cunoate principalele aspecte teoretice legate de analiza de tip cluster vei putea executa analiza cluster n SPSS i interpreta rezultatele

Aspecte teoretice
Analiza cluster este o clas de tehnici folosite la clasificarea obiectelor i claselor n grupuri relativ omogene, numite clustere. ai este denumit !analiza clasificrii", !analiz# tipologic#" sau !tiina clasificrii numerice". $n analiza de cluster nu exist informaii a priori despre apartenena vreunui obiect la un grup, nici despre componena grupurilor. %rupurile sau clusterele sunt sugerate de date nedefinite anterior. Spre deosebire de analiza factorial#, care urm#rete reducerea num#rului de variabile, analiza clasific#rii are drept scop sintetizarea datelor prin reducerea num#rului de indivizi, grup&ndu'i pe acetia n clase. (tapele rul#rii unei analize cluster sunt urm#toarele) *. Alegerea variabilelor folosite la analiz. Aceste variabile pot fi de tip metric, interval, categorial, binomial. +. Stabilirea indicatorilor de proximitate ntre indivizi . Pe baza acestor indicatori vor fi create ulterior clusterele. Pentru variabilele metrice sau interva, se poate folosi distana euclidian# sau alte tipuri de distane , in-o.s-i, city block etc./. 0ac# avem de'a face cu variabile categoriale, se folosete n general hi p#trat ca m#sur# a disimilarit#ii. Pentru datele binomiale, SPSS'ul ne pune la dispoziie cca 12 de metode de m#surare a distanei ,proximit#ii/. 1. Alegerea metodei de formare clusterelor . Aceasta va depinde n mod esential de tipul de clasificare ales. (xist# dou# categorii de analize cluster) ierarhic# i neierarhic# ,sau nodal#/. $n cazul analizei ierarhice, num#rul de clustere nu este cunoscut

dinainte, ci urmeaz# a se stabili ulterior. Pentru acest tip de analiz# exist# 3'4 metode ,algoritmi/ de formare a grupurilor, printre care) leg#tur# inter'grupuri, leg#tur# intra' grupuri, metoda vecinului cel mai apropiat, metoda 5ard etc. 6lasificarea neierarhic#, n schimb, presupune stabilirea anticipat# a num#rului de clustere, urm&nd ca analiza s# identifice indivizii din fiecare cluster. Pentru acest tip de analiz# exist# dou# metode de clasificare) clasificare simpl#, pe de o parte, i iteraie i clasificare, pe de alt# parte. $n general, este bine ca la clasificarea neierarhic# s# se lucreze cu variabile standardizate, mai ales dac# variabilele iniiale au unit#i de m#sur# foarte diferite. 7. Definirea i etichetarea (numirea clusterelor. Aceasta se face , un general, studiind caracteristicile fiec#rui cluster i descriind un profil al indivizilor din fiecare grup un parte. 8. !alidarea clusterelor. uli analiti evit# aceast# ultim# etap#, deoarece este dificil# i nu exist# o metod# standard pentru realizarea sa. 9 posibil# metod# de validare este aceea de a aplica o analiz# de discriminant pentru clusterele formate i a vedea dac# aceste clustere sunt suficient de diferite untre ele din punctul de vedere al variabilelor folosite iniial n clasificare. $n cele ce urmeaz# vom da dou# exemple de realizare a analizei cluster, pentru fiecare din cele dou# categorii) ierarhic# i nodal#.

Realizarea analizei cluster n SPSS


:om rula o analiz# cluster de tip ierarhic pe o baz# de date numit# judete.sav, care cuprinde o serie de date economico'sociale despre ;udeele #rii i despre municipiul <ucureti. 0in cele +1 de variabile prezente n fiier, am ales pentru analiza cluster circa *2, printre care) populaia, suprafaa, efectivul salariailor, salariul brut, num#rul omerilor etc. :om apela urm#toarea comand#) Analyze > Classify > Hierachical Cluster :ariabilele de analiz# vor fi introduse un c&mpul !ariable(s " Pentru a alege metoda de grupare, se apas# butonul Method. 0intre metodele propuse de SPSS, vom alege #et$een%group linkage ,gruparea poate fi realizat# succesiv prin mai multe metode i compara eficiena fiec#reia/. $ntruc&d datele folosite de noi sunt de tip numeric, vom utiliza ca indicator de proximitate distana euclidian#. S# ap#s#m acum butonul Statistics, pentru a preciza o serie de aspecte legate de outputul final. $n cadranul &luster 'embership select#m opiunea (ange of solutions, iar n c&mpurile )rom i *hrough introducem valorile + i 7, respectiv. Aceasta nseamn# c# i cerem programului s# ne indice apartenena ;udeelor la fiecare cluster pentru trei tipuri de soluii posibile, av&nd fiecare +, 1 i 7 grupuri respectiv.

$n final, s# ap#s#m butonul Save pentru a'i cere programului s# salveze ca variabile soluiile finale, cu +, 1 i 7 grupuri respectiv ,select#m exact aceleai opiuni ca la butonul Statistics/. =abelul cel mai important care se obine n urma realiz#rii analizei de cluster de tip ierarhic este cel de mai ;os)
Cluster Membership Case 1:teleorman 2:mehedinti 3:olt 4:arges 5:valcea 6:botosani 7:suceava 8:iasi 9:neamt 1 :vaslui 11:bacau 12:vrancea 13:covasna 14:galati 15:braila 16:bu!au 17:tulcea 18:harghita 19:constanta 2 :calarasi 21:giurgiu 22:prahova 23:il"ov 24:dol# 25:bucuresti 26:mures 27:brasov 28:ialomita 29:bistrita$ nasaud 3 :dambovita 31:gor# 32:sibiu 33:maramures 34:clu# 35:hunedoara 36:satu$mare 37:alba 38:bihor 39:caras$ severin 4 :timis

4 Clusters 1 2 1 3 1 1 3 3 1 1 3 1 2 3 1 1 2 2 1 2 2 3 2 3 4 3 3 2 2 1 1 1 1 3 1 1 1 3 2 3

3 Clusters 1 1 1 2 1 1 2 2 1 1 2 1 1 2 1 1 1 1 1 1 1 2 1 2 3 2 2 1 1 1 1 1 1 2 1 1 1 2 1 2

2 Clusters 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

41:arad 42:sala#

1 2

1 1

1 1

Acest tabel ne indic# apartenena fiec#rui ;ude la un cluster, pentru cele trei soluii posibile ,+'7 clustere/. Se observ# c# n fiecare situaie municipiul <ucureti aparine unui cluster separat. $n afar# de generarea tabelelor, SPSS'ul a respectat opiunea noastr# de a salva apartenena fiec#rui individ la clustere sub forma unor variabile categoriale. Aceste variabile pot fi folosite pentru a studia ulterior clusterele formate. S# rul#m n cele ce urmeaz# o analiz# cluster de tip nonierarhic. :om folosi pentru aceasta datele din fiierul World995.sav. :ariabilele alese pentru analiz# sunt) populaia, procenta;ul locuitorilor de la orae, sperana de via# pentru b#rbai i femei, procenta;ul populaiei alfabetizate, P><'ul pe locuitor i num#rul mediu de calorii asigurat zilnic unei persoane. $ntruc&t unit#ile de m#sur# sunt foarte diferite, am standardizat n prealabil toate aceste variabile. Pentru a realiza analiza, vom apela comanda) Analyze > Classify > K-Means Cluster ai nt&i vom introduce n c&mpul !ariables valorile standardizate generate anterior, iar n c&mpul +abel &ases by vom introduce variabile country. >um#rul de opiuni disponibil aici este mult mai mic dec&t cel de la analiza tipologic# ierarhic#. $n c&mpul ,umber of clusters introducem valoarea 1 ,aadar, i impunem programului/ s# genereze trei grupuri/. etoda de grupare aleas# va fi -terate and classify. ?#m&ne acum s# preciz#m o serie de elemente ale outputului final, astfel) ' ap#s#m butonul Save i select#m opiunea &luster membership ,aceasta nseamn# c# programul va salva apartenena la clustere ntr'o variabil# categorial#/@ ' ap#s#m butonul Options i select#m opiunea &luster information for each case. Aat# cele mai importante tabele generate de aceast# analiz# cluster.
Cluster Membership Case %umber 1 2 3 4 5 6 7 8 9 1 11 12 C&'%()* ,"ghanistan ,rgentina ,rmenia ,ustralia ,ustria ,!erbai#an .ahrain .angladesh .arbados .elarus .elgium .olivia Cluster 2 2 2 3 3 +istance 1-215 1-349 1-665 1-47 1-56

13 14 15 16 17 18 19 2 21 22 23 24 25 26 27 28 29 3 31 32 33 34 35 36 37 38 39 4 41 42 43 44 45 46 47 48 49 5 51 52 53 54 55 56 57 58 59 6 61 62 63 64 65

.osnia .ots/ana .ra!il .ulgaria .ur0ina 1aso .urundi Cambodia Cameroon Canada Cent- ,"ri-) Chile China Colombia Costa )ica Croatia Cuba C!ech )ep+enmar0 +omincan )2cuador 2g3pt 2l 4alvador 2stonia 2thiopia 1inland 1rance 5abon 5ambia 5eorgia 5erman3 5reece 5uatemala 6aiti 6onduras 6ong 7ong 6ungar3 8celand 8ndia 8ndonesia 8ran 8ra9 8reland 8srael 8tal3 :apan :ordan 7en3a 7u/ait ;atvia ;ebanon ;iberia ;ib3a ;ithuania

3 2 3 3 3 3 2 3 2 1 2 2 2 2 2 3 3 3 2 2 3 2 2 3 3 3 2 1 3 3 2 2 2 2 2 3 2 3 2 -

1-298 2-416 2-137 1-78 1-485 -353 1-779 2-452 1-572 1-383 1-619 1-8 6 1-731 2-191 1-937 2-136 1-717 2- 27 1-217 1-68 -884 1-52 1-437 1-219 1-695 1-838 1-351 1-383 1-959 2-394 2-145 1-439 1-49 1-884 1-711 -84 1-367 -924 2- 65 -

66 67 68 69 7 71 72 73 74 75 76 77 78 79 8 81 82 83 84 85 86 87 88 89 9 91 92 93 94 95 96 97 98 99 1 1 1 1 1 1 1 1 1 1 1 2 3 4 5 6 7 8 9

Mala3sia Me<ico Morocco %- 7orea %etherlands %e/ =ealand %icaragua %igeria %or/a3 &man >a0istan >anama >aragua3 >eru >hilippines >oland >ortugal )omania )ussia )/anda 4- 7orea 4audi ,rabia 4enegal 4ingapore 4omalia 4outh ,"rica 4pain 4/eden 4/it!erland 43ria (ai/an (an!ania (hailand (ur0e3 '-,rab 2m'7 '4, 'ganda '0raine 'rugua3 '!be0istan ?ene!uela ?ietnam =ambia

2 2 2 2 3 3 2 2 2 3 3 2 3 2 3 2 3 2 2 2 3 3 2 2 2 3 2 2 3 3

1-954 1- 86 1-497 1- 91 1-59 -531 1-43 1-761 1-787 2-356 2- 55 1-397 2- 98 1-665 -885 1-438 1-625 1- 98 1-4 7 2-259 2- 16 2-431 1-253 1-3 6 2-816 2-259 1-523 1-645 2- 14 1-898

Acest tabel ne arat# n ce cluster se afl# fiecare ar# ,numai pentru #rile pentru care nu exist# date lips#/, precum i distana ,n abateri standard/ de la fiecare ar# la centrul clusterului c#ruia i aparine.

1inal Cluster Centers =score: >opulation in thousands =score: >eople living in cities @AB =score: >eople /ho read @AB =score: 5ross domestic product C capita =score: +ail3 calorie inta0e =score: ,verage "emale li"e e<pectanc3 =score@;8122D>MB ,verage male li"e e<pe Cluster 1 6-88817 $1-2613 $-58281 $-854 3 $-56325 $-5823 $-26 7 2 $-1 45 -66244 -53741 -617 2 -65 15 -645 8 -65596 3 $- 9917 $-97875 $-97188 $-77 73 $-87343 $1-14375 $1-13562

Acest tabel conine distanele dintre media fiec#rui cluster i media general#, exprimat# n abateri standard. 0e exemplu, se observ# c# grupul * cuprinde #ri cu populaie mare i foarte mare B media populaiei lor este cu C.44 abateri standard mai mare dec&t media general# B iar grupurile * i + cuprind #ri cu populaie mai redus# B media populaiei lor este cu 2.*2, respectiv 2.2* abateri standard mai mic# dec&t media general#.
+istances bet/een 1inal Cluster Centers Cluster 1 2 3 1 7-732 7- 88 2 7-732 3-953 3 7- 88 3-953

Acest tabel ne arat# c&t de apropiate ,asem#n#toare/ sau ndep#rtate ,diferite/ sunt grupurile. Se observ# c# grupurile cele mai asem#n#toare sunt + i 1, iar cele mai diferite sunt * i +.
%umber o" Cases in each Cluster Cluster 1 22 413 31?alid 74Missing 35-

=abelul acesta indic# num#rul de cazuri aflate n fiecare cluster i nu necesit#, credem, explicaii suplimentare. Da cererea noastr#, SPSS'ul a creat i o variabil# categorial# special#, care indic# apartenena fiec#rei #ri la unul din clustere. Aceast# variabil# poate fi folosit# pentru a face diferite tipuri de analize cu privire la fiecare grup descoperit prin analiza cluster.

Rezumat

Analiza cluster este o clas de tehnici folosite la clasificarea obiectelor i claselor n grupuri relativ omogene, numite clustere. ai este denumit !analiza clasificrii", !analiz# tipologic#" sau !tiina clasificrii numerice". $n analiza de cluster nu exist informaii a priori despre apartenena vreunui obiect la un grup, nici despre componena grupurilor. Teste de control *. Ar#tai care sunt principalii indicatori care trebui luai n considerare la interpretarea rezultatelor unei analize cluster non'ierarhice. +. ?ealizai i interpretai o analiz# cluster non'ierarhic#, pe o baz# de date la alegere.

S-ar putea să vă placă și