StatWork 12

Statistic multivariat Lucrarea nr.
12 Clasificare - SPSS
A. Noiuni teoretice
Clasificare
Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n clase (grupuri) de entiti similare. Atunci cnd gruparea este efectuat manual, cel care o efectueaz opereaz cu judeci de similaritate, asemnare, apropiere. Acest tip de raionament este formalizat i n metodele automate. !"ist, n esen, dou tipuri de clasificare automat# $. predictiv, de e"emplu analiza discriminant% se asigneaz o observaie la un grup pornind de la reguli de clasificare derivate din observaii clasificate n prealabil. &e poate ca sc'ema de clasificare e"istent s fie subiectiv, neutilizabil efectiv, astfel nct metoda descoper aspectele eseniale ale sc'emei i le transform n reguli practice. (. descriptiv, de e"emplu analiza cluster% se grupeaz obiectele pe baza similaritii lor, nu este cunoscut o grupare prealabil.
Clasificare predictiv
)onsiderm cazul a dou populaii multivariate, $ i (, fiecare caracterizat de repartiiile diferitelor variabile msurate. Problema clasificrii revine la a stabili populaia la care aparine o observaie u (caracterizat de valorile variabilelor considerate). *otnd cu & spaiul de e antionare (care cuprinde observaii din $ i din ), o regul de clasificare revine la a parti iona & n A $ i A(, astfel nct pentru o ( observaie u se poate dezvolta o procedur care decide $+ dac u A$, atunci u $ (+ dac u A(, atunci u (
Clasificare predictiv - Fisher ,egula de clasificare a lui -is'er este bazat pe ma"imizarea separaiei dintre cele dou populaii, n spiritul analizei varianei. Presupunem c populaiile ( univariate au, respectiv, mediile 1, 2 i dispersia comun . !ste evident (intuitiv) c o observaie u va fi clasat n $ dac u este mai apropiat de 1 i n ( daca este mai apropiat de 2. .n cazul a dou populaii m/dimensionale, ideea lui -is'er a fost s transforme observaia multidimensional u ntr/o observaie univariat y = a'u. Problema devine atunci aceea de a determina combinaia liniar, definit de vectorul a, astfel nct cele dou populaii s fie separate (difereniate) ct mai mult posibil. &e ajunge astfel, n cazul general, la problema studiat n analiza discriminant. Aceast analiz ofer ca rezultat i funciile de clasificare# -iecare subpopulaie, i, are asociat o funcie de clasificare fi astfel nct observaia u este clasat n populaia j determinat prin
f j (u) = ma" fi (u)
i
0efinim centrul unei clase (sau centroidul clasei) n mod uzual, ca punctul avnd drept componente mediile aritmetice ale componentelor corespunztoare din punctele clasei. -unciile de clasificare sunt estimate pe baza distanelor dintre o m observaie (valorile celor m variabile determin un punct n spaiul R ) i punctele centrale, centroizii claselor. 0istanele se pot calcula ca distane euclidiene, dar, din pcate distana euclidian nu reflect proprietile distribuionale ale variabilelor# variabile msurate pe scale diferite, de ordine de mrime diferite, pot afecta foarte mult distan ele euclidiene. )omponentele cu variabilitate mare ar trebui s contribuie cu ponderi mai mici dect cele cu variabilitate mic. Pentru a considera i distribuiile variabilelor au fost definite distane noi, cea mai utilizat fiind distana 1a'alanobis# dac este matricea de covarian a celor m variabile, adic 2 cov(x)2e"p3(x/e"p(x))(x/e"p(x))4 atunci distana Mahalanobis ntre punctele x 2 ("$, 5, "m) i y 2 (6$, 5, 6m) , este definit prin d(x,y) = (x y) (x y)
i, corespunztor, se define te norma unui vector prin x
= d(x,7) = x' x .
Clasificare predictiv k vecini )onsiderm situaia clasificrii propriu/zise, adic sunt cunoscute n obiecte prin atributele lor, inclusiv apartenena la clasele $, (, 5, k, i se dore te clasarea unei noi observaii. 8n algoritm suficient de des utilizat este acela denumit al celor k vecini (k / nearest neighbours). $. &e determin k obiecte cele mai apropiate de noua observaie. (. Aceste 9 obiecte stabilesc clasa noului obiect prin $+ :ot majoritar ; noul obiect este clasat n clasa la care aparin cei mai muli dintre cei k vecini (care dispun fiecare de un vot ntreg). (+ :ot invers proporional distanei ; similar votului majoritar, dar fiecare dintre cei k vecini apropiai dispune de o fraciune de vot, egal cu inversul distanei la noul obiect (obiectele mai apropiate contribuie mai mult la decizie).
Clasificare descriptiv
.n analiza multivariat, clasificarea descriptiv ( cluster analysis) se refer la metodele utilizate pentru a identifica ntr/o mulime de obiecte grupurile de obiecte similare. )azurile de aplicare ale acestor metode sunt similare celor n care se utilizeaz analiza factorial. 0atele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte, coloanele sunt variabile, atribute). .n plus, $+ datele sunt omogene n sensul c are sens calculul distanelor dintre elemente (+ e"ist suficient de multe date nct simpla inspecie vizual sau prelucrrile statistice elementare nu ofer o imagine satisfctoare a
structurii datelor <+ tabloul de date este amorf# nu e"ist o structurare a priori (dependene funcionale, relaii, clasificri cunoscute).
0e remarcat c ultima caracteristic este cea care ne deprteaz de descrierea predictiv (unde se presupunea e"istena unei structurri necesare n etapa de training). 0rept rezultat al clasificrii descriptive se obin grupurile de elemente, clasele identificate. 0eoarece se pot aplica pe acelea i structuri de date, metodele clasificrii descriptive sunt complementare metodelor analizei factoriale. 0e regul, atunci cnd se utilizeaz mpreun, analiza factorial este efectuat mai nti, clasele evideniate de aceasta fiind precizate, ierar'izate, localizate de clasificarea descriptiv. 1etodele de clasificare sunt de natur mai degrab algoritmic# clasele apar ca urmare a unei suite de operaii efectuate recursiv sau repetitiv% matematica implicat este relativ elementar. *umim clas (!rup, cluster) o mulime de obiecte (elemente) similare ntre ele i nesimilare obiectelor din alte clase. 8n cluster poate fi gndit (reprezentrile grafice reflect aceste interpretri) $+ )a o mulime de puncte care sunt apropiate (la distane mici) ntre ele i deprtate de punctele din alte clase, sau (+ )a o regiune cone" dintr/un spaiu multidimensional care are o densitate mare (relativ) de puncte, clusterele fiind separate ntre ele de regiuni cu o densitate sczut (relativ) de puncte. ,ezult c problema esenial n determinarea (identificarea) clusterelor este cea a specificrii pro"imit ii (apropierii, similaritii) i cum se determin aceasta. !ste evident c pro"imitatea este o noiune dependent de problema real cercetat. &tructurile uzuale de date privind obiectele supuse analizei cluster sunt# $+ Matricea de pattern"uri. !ste cazul obiectelor care sunt prezente prin atributele lor ; n obiecte i p atribute vor furniza o matrice de tip np. =iniile sunt obiecte (pattern/uri), coloanele sunt atribute (variabile). (+ Matricea de proxi#itate. !lementele d(i,j) reprezint pro"imitile dintre obiectele i i j. Pro"imitatea poate fi o similaritate (asemnare), cum ar fi coeficientul de corelaie, sau o disociere (deprtare, difereniere), cum ar fi distana euclidian. Atunci cnd atributele sunt de tipuri diferite (att discrete, ct i continue), se poate calcula pro"imitatea dintre obiectele i i j prin
ij( f )dij( f )
d (i, j) =
= $
ij
( f )
i=$
37,$4
unde ij( f ) este ponderea variabilei f

7
( f )
ij
=7
pentru xif sau x jf lipsa xif = x jf = 7 si f este asimetrica, binara in rest pentru x
1enionm c dij
( f )
este contribuia variabilei f la d(i,j) i anume#

7 =
/ dac f este binar sau nominal, atunci
x
dij( f ) = if
al tf el
(>amming) $/ dac f este continu, atunci (normalizare prin amplitudine)

x
x
jf
dij( f ) =
ma" xhf min xhf

h h
r $
if
i se
$/ dac f este ordinal, se atribuie rangul rif, se calculeaz zif =

consider c f este continu, avnd valorile zif. !"ist mai multe tipuri de algoritmi de clasificare#
ma" rhf $
h
$/ $l !o rit #i as ce nd en i (d e ag re ga re, de si(/ nt ez ) ; cl as el e su nt co ns tru ite pri n ag re ga re a su cc esi v a el e m en tel or,
b m u l i m i d e o b i e c t e d i n c e n c e m a i o m o g e n e % s e
poate obine <. !t telor care se clasific i aici o are un singur ap ierar'ie a a element. partiiilor. ( Clasificare descriptiv ; </ $l!orit#i - divizare e" de ist partiionar 1etoda ierar'ic e ; se descendent const n ac pleac de la construirea ierar'iei n u o partiie ordine invers# m (structur de $. &e pleac de la n/ clase) care mulimea total a $ se modific elementelor el pentru a (. =a fiecare pas e ma"imiza urmtor, cea mai m omogenitate @mareA (cea mai en a fiecrei eterogen) grupare te clase. este divizat n dou ca Primele dou subgrupri. re categorii pot fi reunite <. Algoritmul se se n clasificarea opre te atunci cnd cl ierarhic toate grupurile as (hierarchical cluster constituite au cte un ifi analysis). singur element. c Pentru definirea grupului Clasificare % cel mai eterogen se utilizeaz ?. &e descriptiv diametrul grupului, definit ca re agregare distana ma"im dintre dou pe Algoritmul elemente din grup. !vident c t fundamental de se pot utiliza i alte metode n !t clasificare acest scop. ap ascendent 8n algoritm ierar'ic a ierar'ic este# descendent este 0.A*A $ (0ivisive A*Al6sis)# $. !tapa 7 ; i $. &e determin e"ist cele n !t obiectul cu cea mai elemente ap mare distan medie care se a fa de celelalte clasific% ( obiecte (cea mai (. !tapa $ ; se p mare disociere). !ste determin n obiectul care iniiaz perec'ea de c un nou cluster, & elemente nd (splinter group). cele mai m (. P apropiate ul e ntre ele i im n se produce, t ea prin r el agregarea u e lor, un nou m element% f en i
ec eaz arD e media j ob ie(. ct i di n af ar<. a gr up ul ui & a. se ca lc ul ?.
a) ; c) pn ce D' este neg ativ. 1ul im ea inii al este acu m divi zat n dou clus tere .
&e selecteaz clusterul cu cel mai mare diametru. Acesta este divizat prin pa ii $ ; (. <. &e repet <) pn cnd toate grupurile constituite au un singur element. !"ist o diagram sugestiv (diagram steag) pentru un algoritm descendent, n care pe a"a vertical sunt obiectele, pe a"a orizontal se trec diametrele clusterelor.
Clasificare descriptiv - partiionare 1etodele de partiionare din analiza cluster au ca ideea esenial aceea c se poate porni de la o partiie oarecare a mulimii de obiecte i se poate ajunge, prin migrarea obiectelor ntre clase, la o partiie care ndepline te un criteriu de optim. Partiia final constituie structura de clustere cutat. 0e reinut, totu i, faptul c nu e"ist un criteriu de optim care s funcioneze oricnd i pentru orice obiecte. 1etodele de partiionare sunt utile atunci cnd e"ist un mare numr de obiecte, caz n care dendrogramele nu mai pot fi interpretate (cteva sute de obiecte produc o dendrogram de neneles). 1ajoritatea metodelor au drept criteriu de optim obinerea partiiei care minimizeaz suma ptratelor erorilor (apare la distana Bard). !roarea este distana de la un obiect la centrul clusterului su. 8n algoritm general de partiionare este# $. &e selecteaz o partiie iniial cu 9 grupuri i se calculeaz centrele clusterelor. (. &e genereaz o nou partiie atribuind fiecare obiect la clusterul cu centrul cel mai apropiat. <. &e calculeaz noile centre ale clusterelor.
?. &e repet pa ii (/< pn se stabilizeaz clusterele sau nu se mbunte te criteriul ales. C. &e ajusteaz numrul de clustere prin reunirea sau divizarea unor clustere sau prin eliminarea clusterelor aberante (cu un numr mic de elemente). D. &e repet pa ii (/C pn se stabilizeaz clusterele sau nu se mbunte te funcia criteriu.
!lementele importante ale algoritmului sunt comentate n continuare. %artiia iniial E partiie iniial se poate obine selectnd 9 obiecte, considerndu/le centre i grupnd n jurul fiec ruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). *u se recalculeaz centrele dup fiecare clasificare a unui element. )entroizii fiecrui cluster astfel format constituie centrele pentru pasul urmtor.
)ele 9 obiecte iniiale se pot alege aleatoriu sau dup criterii oferite de o analiz prealabil (clasificare ascendent, analiz n componente principale etc.). )lusterele iniiale pot fi date de o clasificare ascendent, de e"emplu. 0e reinut, totu i, c partiii iniiale diferite conduc la clustere finale diferite. Algoritmii care se bazeaz pe criteriul minimizrii sumei de p trate a erorilor conduc la atingerea unui optim local, cel puin dac grupurile nu sunt bine difereniate. &e poate dep i acest neajuns repetnd clasificarea cu partiii iniiale diferite. $+ 0ac se ajunge la o aceea i partiie, atunci se mre te ncrederea c s/ a atins un optim global. (+ .n caz c nu, se pot analiza subgrupurile stabile (elemente care sunt mereu mpreun), care pot oferi informaii despre numrul de clustere. $ctuali&area partiiei !"ist mai multe moduri de abordare a pasului ( din metoda general# $+ Atribuirea fiecrui obiect la clusterul cu centrul cel mai apropiat. o )entrele se recalculeaz dup fiecare atribuire, sau o )entrele se recalculeaz dup ce au fost procesate toate obiectele. (+ Atribuirea fiecrui obiect n fiecare cluster i evaluarea funciei criteriu. &e reine partiia care reduce cel mai mult valoarea funciei criteriu. &e ncearc astfel evitarea unui optim local. $'ustarea partiiei &e pot defini condiii pentru reducerea, sau e"tinderea numrului de clustere. &e ncearc astfel atingerea unui numr @naturalA de clustere, apropiat de gruparea real, neinfluenat de perturbaii introduse n procesul de determinare a observaiilor sau din alte cauze e"terioare. Algoritmul cel mai cunoscut este, n acest sens, .&E0AFA (Gall H >all, Iensen)# $+ )lusterele sunt comasate dac au puine elemente (sub un prag fi"at) sau dac distana dintre centrele lor este mic (sub un prag fi"at). (+ 8n cluster este divizat dac dispersia elementelor (dup atributul cel mai dispersat) dep e te un prag fi"at i dac e"ist un numr suficient de elemente (de e"emplu, de dou ori mai multe dect numrul minim). !ste de remarcat c e"istena valorilor aberante poate denatura procesul de clusterizare. 0in acest motiv, anumii autori recomand e"cluderea obiectelor aberante ( i c'iar a celor din clusterele cu puine elemente). Conver!ena 0e i nu se garanteaz atingerea unui optim global, algoritmul se opre te atunci cnd funcia criteriu nu mai poate fi mbuntit, sau ; n anumite variante ; cnd partiia nu se modific n dou iteraii succesive. 0emonstraii matematice ale convergenei au fost bazate $+ fie pe formularea problemei ca o problem de programare matematic, (+ fie pe artarea faptului c de la o iteraie la alta se mre te variana interclase i se mic oreaz variana intraclase, ceea ce ; dat fiind finitudinea mulimii de obiecte ; produce oprirea procesului.
Clasificare descriptiv metode fuzzy .n afar de metodele deterministe, pentru fiecare obiect, probabilitile ca au fost dezvoltate i metode de clasificare obiectul s aparin la fiecare dintre fuzz6. .ntr/o metod fuzz6 se obin,clustere.
0e e"emplu, o metod fuzz6, similar metodei de partiionare, este metoda celor c medii (fuzz6 c/means), bazat pe minimizarea funciei obiectiv
Jm = uij d (xi ,c j ) i =$ j =$ n / numrul de obiecte, c ; numrul de clustere, m R , m J $ este parametru (uzual este (),
n c
m (
unde
cj, j 2 $5c sunt centrele clusterelor, d este o distan de similaritate, uij este gradul de apartenen al lui i la clusterul j. ,ezultatul este coninut n matricea de apartenen ( uij) care ofer probabilitile apartenenei elementelor la clase. Partiionarea fuzz6 se realizeaz iterativ (optimiznd implicit funcia obiectiv) prin actualizarea la fiecare pas a matricei de apartenen ( uij) i a centrelor clusterelor (cj) $ uij = $
c
cj=
xi i=$ n
d (xi ,c j ) m$
(
d l=$ m n uij
(xi ,cl )
uijm
i =$
Procesul se opre te atunci cnd matricea de apartenen se stabilizeaz#

ma" uij < i, j
(k +$)
uij
(k )
unde (7, $) are semnificaia uzual n procese iterative similare.
Distane ntre obiecte

Kn continuare sunt prezentate metodele uzuale de calculare a distanelor dintre obiecte (elemente sau grupuri deja constituite). Alegerea unei anumite distane modific gruprile care se constituie.
Metoda celui #ai apropiat vecin (nearest nei!hbor #ethod)

0istana dintre dou grupuri este distana minim dintre dou elemente ale grupurilor (distana dintre cele mai apropiate elemente din clase diferite)
d($,( )= min d (x, y)
x$ , y(
Kn imaginea urmtoare se e"emplific , prin numerotarea $ 5 D ordinea de atribuire a elementelor respective la grupurile figurate n e"tremiti. Astfel, un lan de obiecte apropiate dou cte dou este atribuit, de regul, la un singur grup, ceea ce nu produce o grupare acceptabil.
Metoda celui #ai deprtat vecin (farthest nei!hbor #ethod)

Aceast metod utilizeaz calcularea distanei dintre dou grupuri drept distana ma"im dintre dou elemente ale grupurilor (distana dintre cele mai deprtate elemente din clase diferite)
d($,( )= ma" d (x, y)
x$ , y(
1etoda are avantajul c nu aglomereaz grupuri legate printr/un lan. Kn imaginea alturat se poate vedea ordinea de atribuire $ 5 D a elementelor corespunztoare la cele dou grupuri e"treme. Lruparea obinut corespunde mai bine i gruprii intuitive (efectuat de un operator uman).
d($,( )= d (G$ ,G( )
Metoda le!turii #edii

0istana dintre dou grupuri este distana medie dintre perec'ile de elemente ale grupurilor
d( $ ,( )=
nn
d (x, y)
$ ( x $ y(
Metoda distanei centrelor (avera!e !roup lin(a!e)

&e consider, ca distan dintre dou grupuri $ i (, distana dintre centrele grupurilor
unde centrele G$ i G( au drept componente mediile aritmetice ale componentelor elementelor din cele dou grupuri, respectiv. 0e remarcat c centrul unui grup este dinamic, fiecare nou element putnd produce deplasarea lui. )entrul unui grup format dintr/un singur element este c'iar acel element.
Metoda distanei )ard ()ard's lin(a!e)

0istana Bard este bazat pe cre terea @suma de ptrate a erorilorA dup contopirea grupurilor ntr/unul singur. 1etoda Bard selecteaz gruprile care minimizeaz cre terea sumei de ptrate a erorilor. SP() = x x
x
d( $ ,( ) = SP($ ( ) ( SP($) + SP(( ))
Dendrograma
)a rezultat al algoritmului se obine arborele de clasificare (dendrograma). Prin secionarea orizontal a dendrogramei se obine o partiie a mulimii elementelor clasificate. )omponentele partiiei sunt clasele cutate. Kn figura alturat este prezentat o dendogram. Pe a"a orizontal sunt elementele iniiale (ordinea este cea care permite desenarea arborelui). Pe a"a vertical sunt distanele dintre obiecte, de e"emplu, ntre obiectele ? i D este o distan egal cu ?.
Calitatea clasificrii
0eoarece ntr/o problem de clusterizare nu se cunoa te nimic a priori (numrul de clase n special), evaluarea calitii partiiei obinute este o etap foarte important. !valuarea trebuie s ia n considerare att faptul c, poate, mulimea iniial nu are o structur bine determinat de clase, ct i faptul c diferite metode conduc la clase diferite. Procedurile uzuale de evaluare# $+ :izualizarea partiiei (dendrograme, profiluri, proiecii). (+ .ndicatori de calitate $C )oeficienii de divizare (di isi e coefficient ; 0)) i de
aglomerare (agglomerati e coefficient ; A)) care ofer indicatori (medii) globali. $C .ndici de siluet (Silhouette) care se pot defini att global, ct i local pentru fiecare cluster. Divisive Coefficient (0))# Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre diametrul ultimului cluster (n ordinea dat de algoritmul de divizare) la care a aparinut obiectul nainte de a fi separat ca un singleton i diametrul mulimii totale de obiecte (clusterul iniial). Atunci D! = n d(i) Agglomerative coefficient (A)) este un indice de calitate pentru clasificarea ascendent# Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre disocierea primului cluster (n ordinea dat de algoritm) la care se ata eaz obiectul i diametrul mulimii totale de obiecte (clusterul final).
"! = n [$ d (i)]
A) tinde s creasc o dat cu numrul de obiecte. Silueta se calculeaz (,ousseeuM, $NOP) ca silueta unui obiect, silueta medie a unui cluster, silueta medie global. Acest indice vrea s reprezinte ct de bine este separat un cluster de vecinii si (deci ct de apropiate sunt elementele dintr/un cluster ; distana intra/cluster ; i ct de deprtate sunt de celelalte clustere ; distana inter/ clustere). Prin calculul siluetei se poate decide asupra validitii unui cluster, ca i asupra numrului corect de clustere. *otnd cu S (i) silueta obiectului i, formula de calcul este bi ai S(i) = ma"Qa , bR
i i
unde ai ; disocierea medie a obiectului i fa de restul obiectelor din acela i cluster% bi ; disocierea medie a obiectului i fa de obiectele din cel mai apropiat cluster (al doilea candidat pentru includerea obiectului i). 0ac obiectul i este singurul element al unui cluster, atunci S (i) 2 7. ,ezult c /$ S (i) $ i S (i) poate fi considerat ca un indice adimensional, cu putere de comparare. .nterpretarea este $+ 0ac S (i) este apropiat de $, atunci obiectul este bine clasificat (este asociat cu clusterul adecvat). (+ 0ac S (i) este aproape nul, atunci obiectul poate fi clasificat i n urmtorul cluster apropiat (obiectul este situat similar n raport cu ambele clustere) <+ 0ac S (i) este apropiat de ;$, atunci obiectul este clasificat eronat (el este separat fa de celelalte clustere). -iecare cluster este caracterizat de silueta medie, obinut ca media siluetelor elementelor din cluster. .ntreaga structur de clustere este caracterizat de silueta medie global, obinut ca media siluetelor &(i) dup toate obiectele i. 0ac structura conine un numr 9 de clustere, se noteaz silueta medie global cu & 9. &ilueta medie global se poate utiliza pentru a decide asupra @celui mai bunA numr de clustere# se va alege acel 9 pentru care &9 este ma"im. &e introduce coeficientul siluet prin S! = ma" Sk
k
!ste propus (,ousseeuM / $NOP) urmtoarea interpretare a coeficientului siluet dup valoarea sa# $+ 7.P$ / $.77 s/a determinat o structur puternic (bine definit) de clustere%
(+ 7.C$ / 7.P7 s/a determinat o structur acceptabil <+ 7.(D / 7.C7 structura determinat este slab, poate fi artificial ?+ 7.(C structura determinat este artificial. (. Instrumente SPSS Procedurile care rezolv probleme de clasificare sunt grupate n $naly&e *
Classify. 0intre ele se prezint n continuare -!eans Cluster care urmre te metoda general prezentat n curs i "ierarchical Cluster pentru clasificarea ierar'ic. 0e menionat c de i algoritmul -!eans este cel mai direct i mai eficient ca volum de
calcule, el utilizeaz distana euclidian iar standardizarea prealabil a variabilelor este important. Pentru considerarea altor distane se va apela procedura "ierarchical Cluster.
+"Means Cluster
Algoritmul const n fi"area iniial aleatorie a centrelor claselor (numrul de clase este cunoscut) i apoi se repet etapele# $+ atribuirea fiecrui caz la centrul cel mai apropiat, (+ actualizarea centrelor ca valori medii ale elementelor aparinnd clasei respective. )a interpretare se poate considera c centrul unei clase finale reflect caracteristicile unui element tipic al clasei prin valorile variabilelor n acel centru. Prin $nali&e * Classify * +"Means Cluster se desc'ide dialogul
Kn lista #ariables se vor trece variabilele n func ie de care se face clasificarea. &e poate utiliza o variabil pentru etic'etarea cazurilor prin specificarea ei n $abel !ases by. *umrul de clustere se poate fi"a n %umber of !lusters. E g'icire a numrului de clustere poate fi obinut aplicnd n prealabil A)P i studiind diagramele proieciilor pe planele factoriale. )a metod se poate alege $+ &terate and classify pentru a realiza o adaptare iterativ a clasificrii cazurilor prin recalcularea centrelor dup fiecare iteraie. 0ac se dore te utilizarea rezultatelor i pentru clasificarea altor cazurii, informaiile se vor salva ntr/un fi ier prin selectarea opiunii 'rite final as din grupul Cluster Centers. (+ !lassify only pentru realizarea clasificrii cazurilor atunci cnd se citesc dintr/un fi ier centrele claselor, calculate n prealabil i salvate. Kn acest caz se va selecta, din zona Cluster Centers, (ead initial from i se va preciza )ile, fi ierul salvat
ntr/o prelucrare anterioar. Prin acionarea butonului ,terate din dialogul principal, buton permis doar pentru metoda &terate and classify, se desc'ide dialogul sinonim. Kn *aximum &terations se fi"eaz limita numrului de iteraii, cel mult NNN. :aloarea dat n !on ergence !riterion reprezint o propor ie p din distana minim dintre centrele iniiale, deci poate fi ntre 7 i $. Procesul iterativ se opre te dac niciun centru recalculat nu este deplasat cu mai
mult de $77pS din distana minim dintre centrele iniiale iteraiei. Prin selectarea opiunii +se running means se cere recalcularea centrelor la fiecare clasare a unui caz i nu dup clasarea tuturor cazurilor.
Acionarea butonului -ave din dialogul principal desc'ide dialogul prin care se poate cere salvarea unor
informaii ca noi variabile. !luster membership ; se salveaz ca valori $ 5 9 apartenena la clusterele finale. Distance from cluster center ; salveaz distana euclidian dintre caz i centrul clasei la care aparine. Prin dialogul .ptions, afi at la acionarea butonului .ptions din dialogul principal, se pot preciza statisticile calculate i modul de tratare a datelor lips. Kn grupul -tatistics#
$+ &nitial cluster centers ; prima estimare a centrelor, obinut prin alegerea unui numr de cazuri egal cu numrul de clustere. (+ "%,#" table ; se afi eaz tabelul A*E:A pentru fiecare variabil, considernd clusterele drept factor. :alorile - mari vor arta variabilele care contribuie cel mai mult la structura clusterelor. $+ !luster information for each case ; afi eaz asignrile finale la clase, distana la centrul clasei ca i distanele euclidiene dintre centrele finale. #ezultatele S$SS %n cazul -!eans Cluster .e irea depinde de opiunile selectate n dialogurile procedurii, tabelele listate n cazul (aproape) complet sunt prezentate n continuare. &/a realizat o clasificare ilustrativ utiliznd fi ierul &P&& de test !mplo6ee 0ata. )entrele iniiale ale claselor sunt alese aleatoriu, attea cte clustere sunt indicate n dialogul principal. &e prezint coordonatele centrelor n spaiul variabilelor.
1odificrile survenite n timpul procesului iterativ sunt sistematizate n tabloul urmtor, prezentndu/se modificrile aprute n coordonatele centrelor.
)entrele claselor finale sunt afi ate ntr/un tabel similar celui care arat centrele iniiale#
E verificare mai mult orientativ asupra separrii clusterelor dup fiecare variabil considerat este coninut n tabelul A*E:A#
)um ns i procesul de clasificare urmre te o ct mai bun difereniere a clusterelor, toate testele - duc la respingerea ipotezei de egalitate a mediilor
clusterelor. &e poate ns interpreta comparativ valoarea statisticii - n sensul c variabilele care au asociate valori mai mari asigur o difereniere mai pronunat. 8n tabel final arat cte elemente sunt clasificate n fiecare cluster.
Apartenena observaiilor (cazurilor) la clustere i distana pn la centrul clasei sunt create ca noi variabile cu denumiri implicite, dup modelul
.nformaiile salvate pot fi utilizate, n afara scopului propus de a cunoa te unde aparine fiecare observaie, i pentru ilustrarea clasificrii prin diagrama de forma urmtoare, n care se poate observa modul de difereniere a claselor dup diverse variabile (comanda a fost /raph " -catter " Simple Scatter i s/a precizat noua variabil !luster %umber n Set *arkers by).
0ierarchical Cluster
Algoritmul pleac de la clustere coninnd un singur element (cazurile) i reune te clustere pn cnd se obine un singur cluster. &e pot selecta mai multe distane, se afi eaz statistici la fiecare pas pentru a ajuta la selectarea numrului optim de clustere. )omanda este $naly&e * Classify * 0ierarchical Cluster care produce afi area dialogului principal.
Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opiunii selectate n grupul Cluster. :ariabilele reprezentnd caracteristicile dup care are loc clasificarea sau care se clasific se trec n lista &aria'les i se poate alege o variabil de etic'etare a cazurilor (la clasificarea cazurilor) util n reprezentrile grafice. Lrupul Display controleaz ce se afi eaz, deci accesibilitatea la butoanele -tatistics, %lots. 0ialogurile secundare sunt e"plicate n continuare.
Statistics "gglomeration schedule ; se afi eaz combinaiile din fiecare iteraie, distane etc. Proximity matrix ; se afi eaz distanele sau similaritile dintre elemente. !luster *embership ; produce afi area apartenenei la clustere n una sau mai multe iteraii. $lots
0iagramele de aglomerare sunt disponibile n formatul $+ Dendrogram (dendrograma e"plicat in curs, orientat spre vizualizarea clusterelor) sau (+ &cicle (similar diagramei steag, orientat spre vizualizarea cazurilor). Erientarea diagramei poate fi vertical sau orizontal. Kn reprezentarea dendrogramei, distanele dintre elementele care se unesc sunt transformate pe o scal 7 ; (C, cu pstrarea raportului distanelor.
!ethod Kn lista Cluster !ethod se poate alege una dintre metodele e"plicate n curs ca metode de agregare, de calculare a distanelor dintre clustere# cel mai apropiat vecin (nearest neighbor), cel mai deprtat vecin
(furthest neighbor), distana fa de centru (centroid clustering), Bard etc. Kn grupul !easure se poate specifica distana sau similaritatea utilizat n grupare potrivit tipului de date# $+ &nter al ; pentru datele continue sunt disponibile distanele# euclidian, cosinus
(cosinusul ung'iului dintre vectorii punctelor), corelaia Pearson, )'eb6c'ev (diferena absolut ma"im dintre valorile elementelor), bloc9 (suma diferenelor absolute dintre componente, distana 1an'attan), 1in9oMs9i (rdcina de ordin p din suma diferenelor absolute la puterea p), )ustomized (similar cu distana 1in9oMs9i, dar rdcina poate fi de ordin r diferit de puterea p a diferenelor de coordonate) (+ !ount ; pentru frecvene (de date discrete) sunt disponibile msurile de ( ( disociere i (a se vedea seciunea privind asocierea datelor nominale).
-inary ; pentru datele di'otomice e"ist o mulime de distane propuse, bazate pe tabelul de frecvene ncruci ate a celor dou variabile. &e pot preciza valorile interpretate ca 7 sau $. Kn grupurile (ransform &alues i (ransform !easures se pot selecta metode de transformare prealabil a valorilor astfel nct variabilele s fie ct mai omogen msurate.
Save
&e poate salva, sau nu, ca variabile noi, apartenena la clustere. &electarea opiunii Single solution i precizarea numrului de clustere considerat ca soluie final va salva apartenena la acel stadiu. 0ac se selecteaz (ange of solutions, se va salva apartenena la fiecare stadiu dintre cele menionate.
C. Lucrarea practic
$) &etul de date aflat la adresa MMM.infoiasi.roTUvalTstatisticaT!uropeanProtein.t"t conine consumul de proteine n (C de ri europene. 0atele se refer la anul $NP<. &unt msurate urmtoarele variabile# !ountry / numele rii, (d*eat / carne ro ie, 'h*eat / carne alb, .ggs / ou, *ilk / lapte, )ish / pe te, !ereal / cereale, Starch / grsimi, %uts / oleaginoase, )rH#eg / fructe, vegetale. $) s se realizeze o analiz factorial pentru a stabili numrul de clase n care pot fi grupate cele (C de ri () s se realizeze o clasificare a celor (C de ri% s se studieze concordana cu situaia observat la punctul a). () 0atele acestei probleme sunt cele prelucrate i n lucrarea numrul $$,
MMM.infoiasi.roTUvalTstatisticaT!uropeanIobs.t"t. ,eamintim variabilele# !ountry ; numele rii, "gr ; procentajul de muncitori din agrucultur, *in / procentajul de muncitori din minerit, *an ; procentajul de muncitori din industria prelucrtoare, PS ; procentajul de muncitori din industria energetic, !on ; procentajul de muncitori din construcii, S& ; procentajul de muncitori din servicii, )in ; procentajul de muncitori din finane, SPS ; procentajul de muncitori din servicii sociale, 0! ; procentajul de muncitori din transporturi i comunicaii.
$) s se aplice un algoritm de clasificare ierar'ic () s se aplice algoritmul k1means pentru 9 2 ?% s se compare cu rezultatul
clasificrii realizate la a).

StatWork 12

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

StatWork 12

Încărcat de

Drepturi de autor:

Formate disponibile

Statistic multivariat Lucrarea nr.

unde ij( f ) este ponderea variabilei f

este contribuia variabilei f la d(i,j) i anume#

/ dac f este binar sau nominal, atunci

(>amming) $/ dac f este continu, atunci (normalizare prin amplitudine)

ma" xhf min xhf

$/ dac f este ordinal, se atribuie rangul rif, se calculeaz zif =

$/ $l !o rit #i as ce nd en i (d e ag re ga re, de si(/ nt ez ) ; cl as el e su nt co ns tru ite pri n ag re ga re a su cc esi v a el e m en tel or,

ec eaz arD e media j ob ie(. ct i di n af ar<. a gr up ul ui & a. se ca lc ul ?.

Procesul se opre te atunci cnd matricea de apartenen se stabilizeaz#

unde (7, $) are semnificaia uzual n procese iterative similare.

Distane ntre obiecte

Metoda celui #ai apropiat vecin (nearest nei!hbor #ethod)

Metoda celui #ai deprtat vecin (farthest nei!hbor #ethod)

d($,( )= d (G$ ,G( )

Metoda le!turii #edii

Metoda distanei centrelor (avera!e !roup lin(a!e)

Metoda distanei )ard ()ard's lin(a!e)

d( $ ,( ) = SP($ ( ) ( SP($) + SP(( ))

clasificrii realizate la a).

S-ar putea să vă placă și