Documente Academic
Documente Profesional
Documente Cultură
Analiza Two-Step Cluster
Analiza Two-Step Cluster
I. Partea teoretica
1. Definitie
Analiza Two - Step Cluster din SPSS este o metoda scalabila care a fost conceputa pentru
a face fata seturilor mari de date, extinzand astfel facilitatile oferite de celelalte metode de
grupare: K-means, respectiv clusterizarea ierarhica. In cazul acestei metode setul de date este
parcurs o singura data si se pot utiliza atat variabile cantitative cat si categoriale (ordinale).
Denumirea Two - Step provine de la cei 2 pasi care trebuie parcursi:
Pre-clusterizarea cazurilor (instantelor) in mai multe subclustere.
Clusterizarea acestor subgrupe rezultate la etapa anterioara intr-un numar dorit
de grupe.
De asemenea metoda permite si selectia automata a numarului de grupe.
k2 - Varianta estimata a celei de-a k-a variabile continue pentru tot setul de date.
2jk - Varianta estimata a celei de-a k-a variabile continue pentru clusterul j.
N jkl - Numarul de instante in clusterul j pentru care a k-a variabila categoriala ia valoarea l.
d(j,s) - Distanta dintre clusterele j si s.
<j,s> - Un index care reprezinta clusterul format prin combinarea clusterelor j si s.
3. Etapele metodei
La acast pas subclusterele rezultate la etapa anterioara (excluzand cele formate numai din
puncte izolate) sunt considerate ca date de intrare pentru a realiza o noua grupare. Din
moment ce numarul subclusterelor este mult mai mic decat numarul de instante din setul de
date, pot fi utilizate in mod adecvat procedurile de grupare traditionale. SPSS utilizeaza in
acest scop metoda de clusterizare ierarhica. Un motiv fundamental ar fi ca lucreaza eficient
cu metoda auto-cluster.
3.2.1. Acuratete
In general, cu cat se produc mai multe subgrupe la pasul intai cu atat se obtine o
acuratete mai buna a rezultatelor. Singurul neajuns este acela ca totusi prea multe subgrupe
vor incetini procedura de grupare la cel de-al doilea pas. Prin urmare, numarul subgrupelor
trebuie astfel ales incat sa fie suficient de mare pentru a produce rezultate de o acuratete buna
si suficient de mici astfel incat sa nu incetineasca algoritmul de clasificare.
Una din principalele probleme este legata de numarul de grupe care trebuie format,
aceasta stabilindu-se in stransa legatura cu numarul de instante din setul de date. In cazul
clusterizarii ierarhice se produce o secventa de partitii la o singura rulare (1,2,3, clustere),
in timp ce algoritmul K-means trebuie rulat de mai multe ori (cate o data pentru fiecare numar
de clustere) pentru a genera aceasta secventa. Pentru determinarea automata a numarului de
grupe, in SPSS s-a dezvoltat o procedura in doi pasi care are la baza metoda de clusterizare
ierarhica.
Pasul 1: Se utilizeaza criteriile de informatie Akaike si Schwartz pentru fiecare
numar de grupe si se realizeaza o prima estimare pentru numarul de grupe.
Pasul 2: Se realizeaza o optimizare fata de pasul 1 si anume se considera cea
mai mare distanta intre doua grupe in fiecare etapa a clusterizarii ierarhice.
Criteriile de informatie Akaike (AIC) si Schwartz (BIC) pentru J clustere se definesc in felul
urmator:
J
AIC ( J ) 2 j 2m J
j 1
J
BIC ( J ) 2 j m J log( N )
j 1
unde,
B
K
m J J 2 K A ( LK 1)
k 1
5. Masurarea distantei
v N v log k vk E vk
K
2
2
k 1 2 k 1
Lk
N N
E vk vkl log vkl
l 1 N v Nv
Daca k2 este ignorata in prima ecuatie de mai sus, atunci distanta dintre clusterele j si s
coincide cu cresterea probabilitatii astfel incat cele doua vor fi unite intr-o singura grupa.
Termenul k2 este adaugat tocmai pentru a inlatura neajunsurile cauzate de situatia cand
vk2 0 , caz in care logaritmul natural va fi nedefinit ( de exemplu cand o grupa contine un
singur caz).
Aceasta metoda de masurare a distantei se poate aplica doar cand toate variabilele sunt
continue. Distanta euclidiana intre doua puncte este clar definita, in cazul a doua clustere
reprezentand distanta dintre centroizii lor.
O instanta din setul de date este repartizata in cel mai apropiat cluster pe baza criteriului
distantei.
KA
C2 l 1
kl2 / K A - valoare prag
7. Valori lipsa
In tabelul de mai sus se poate observa ca in cazul a 2 clustere, valoarea ajustata pentru
criteriul informational BIC este 1, iar distanta considerata este 2.671, de unde rezulta ca acesta
este numarul optim de grupe. De asemenea valoarea criteriului informational BIC luat singur
este cea mai mica si anume -841.601 care intareste motivatia alegerii a doua clustere.
Din acest tabel se poate observa de exemplu ca gimnastii care au fost clasificati in cea de-a
doua grupa au primit note mult mai mari de la toti cei 8 membri ai juriului decat cei
apartinand primei grupe. Daca realizam o analiza mai detaliata se pot constata urmatoarele:
Prima grupa:
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din
Rusia, media notelor fiind de 7.4049.
A doua grupa:
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Statele Unite media notelor fiind 9.7301, iar cele mai mici note de la membrul juriului
din China, media notelor fiind de 8.6463.
Analizand per ansamblu se observa ca membrul juriului din Franta a fost cel mai permisiv
media notelor lui pentru toti participantii fiind de 8.9703, iar cel mai exigent a fost membrul
juriului din China, media notelor lui fiind de 8.0380.
Se observa ca prima grupa cuprinde 54.67% din totalul instantelor fiind astfel cea mai
voluminoasa, in timp ce a doua grupa cuprinde 45.33% din totalul instantelor.
Figura 9 Cluster Variation Plot pentru variabila continua judge1 care reprezinta notele acordate de
membrul din Italia
Din graficul de mai sus se poate observa ca media notelor acordate de catre juriul din
Italia este de 8.50. Gimnastii clasificati in primul cluster au media notelor sub aceasta medie
(7.85), pe cand cei din a doua grupa au media notelor cu mult peste 8.50 (9.27). Pentru prima
grupa abaterea standard a notelor este de 0.53715 (din Cluster Profiles), in timp ce pentru cea
de-a doua grupa abaterea notelor este de 0.44936.
La ceilalti membri ai juriului se poate observa aceeasi ierarhie, gimnastii din prima
grupa au o medie a notelor mult mai mica si cei din a doua grupa o medie mult mai mare.
Se poate observa ca per ansamblu membrul din Franta a dat cele mai mari note
gimnastilor si anume media notelor lui fiind 8.97, iar cele mai mici note le-a dat membrul din
China si anume media lor este 8.03. Cele mai mari abateri privind notele au fost la ultimul
membru, aceasta fiind de 0.8176 in cazul primei grupe, respectiv 0.75803 la ce-a de-a doua
grupa.
Din graficul de mai sus se observa ca toate variabilele contribuie la diferentierea acestei
grupe. Cea mai importanta variabila este judge7 Russia, iar cea mai neimportanta este al 8-
lea membru si anume Arcmchair Enthusiast.
Figura 11 Variablewise importance plot grupa2 pentru analiza Two Step Cluster in SPSS
In cazul celei de-a doua grupe se observa la fel ca toate variabilele sunt importante si au
contribuit la obtinerea acestei grupe. Cea mai importanta variabila este judge6 United
States, iar cea mai neimportanta este din nou a 8-a variabila.
Daca din fereastra Plots din sectiunea Rank Variables alegem optiunea By Cluster
se va afisa cate un grafic pentru fiecare variabila in parte, aratand importanta acesteia in
obtinerea grupelor.
Din graficul de mai sus se observa ca primul membru al juriului, cel din Italia, a avut o
contributie importanta in obtinerea grupei 2 unde au fost clasati gimnastii cu cele mai mari
note. Aceeasi observatie o avem si pentru membrii juriului din: Franta, Coreea de Sud,
Statele Unite, respectiv al 8-lea membru al juriului. Toti au contribuit fundamental la
obtinerea celei de-a doua grupe.
Ceilalti membrii ai juriului: China, Romania, respectiv Rusia au contribuit fundamental la
obtinerea primei grupe, unde au fost clasati gimnastii cu notele cele mai mici.
III. Concluzii
In urma analizei Two - Step Cluster pe baza de date judges.sav formata din 8 variabile
continue reprezentand membrii juriului din diverse tari la Campionatul Mondial de
Gimnastica s-au obtinut doua grupe. In cele ce urmeaza se trec in revista per ansamblu
principalele detalii care caracterizeaza fiecare grupa in parte.
Grupa 1
Cuprinde 164 de gimnasti reprezentand 54.7% din cei 300 prezenti la Campionatul
Mondial.
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din
Rusia, media notelor fiind de 7.4049.
Cea mai importanta variabila pentru diferentierea acestei grupe este judge7 Russia,
iar cea mai neimportanta este al 8-lea membru si anume Arcmchair Enthusiast.
Membrii juriului din: China, Romania, respectiv Rusia au contribuit fundamental la
obtinerea primei grupe, unde au fost clasati gimnastii cu notele cele mai mici.
Grupa 2
IV. Bibliografie
1. SPSS, Inc. (2001). The SPSS twostep cluster component. Chicago, IL: SPSS. SPSS
white papers/technical report TSCPWP-0101.
2. Theodoridis, S. & Koutroumbas, K. (1999). Pattern recognition. NY: Academic Press.
3. Zhang, T.; Ramakrishnon, R.; & Livny, M. (1996). BIRCH: Method for very large
databases. Proceedings of the ACM. Management of Data. Pp. 103114. Montreal, Canada.