Analiza Two-Step Cluster

Analiza Two - Step Cluster
I. Partea teoretica
1. Definitie
Analiza Two - Step Cluster din SPSS este o metoda scalabila care a fost conceputa pentru
a face fata seturilor mari de date, extinzand astfel facilitatile oferite de celelalte metode de
grupare: K-means, respectiv clusterizarea ierarhica. In cazul acestei metode setul de date este
parcurs o singura data si se pot utiliza atat variabile cantitative cat si categoriale (ordinale).
Denumirea Two - Step provine de la cei 2 pasi care trebuie parcursi:
Pre-clusterizarea cazurilor (instantelor) in mai multe subclustere.
Clusterizarea acestor subgrupe rezultate la etapa anterioara intr-un numar dorit
de grupe.
De asemenea metoda permite si selectia automata a numarului de grupe.
2. Principalele elemente ale metodei
K A - Numarul total de variabile continue utilizate in analiza.

K B - Numarul total de variabile categoriale utilizate in analiza.
Lk - Numarul de categorii a celei de a k-a variabile ordinale.
Rk - Ordinul celei de-a k-a variabile continue.
N - Numarul de instante din setul de date.

N k - Numarul de instante din clusterul k.
k2 - Varianta estimata a celei de-a k-a variabile continue pentru tot setul de date.
2jk - Varianta estimata a celei de-a k-a variabile continue pentru clusterul j.
N jkl - Numarul de instante in clusterul j pentru care a k-a variabila categoriala ia valoarea l.
d(j,s) - Distanta dintre clusterele j si s.
<j,s> - Un index care reprezinta clusterul format prin combinarea clusterelor j si s.
3. Etapele metodei
3.1. Etapa I : Pre-clusterizarea
In aceasta etapa se merge pe o abordarea secventiala. Se analizeaza fiecare instanta in

parte si pe baza criteriului distantei se decide daca va fi clasificata in una din clusterele deja
existente sau se va forma un nou cluster. Aceasta procedura a fost implementata cu ajutorul
unui arbore pentru clusterizare si anume cluster feature tree (CF). O frunza din acest arbore
reprezinta un subcluster final. Celelalte noduri din arbore servesc pentru clasificarea unei noi
instante in subclusterul adecvat. Fiecare nod are o anumita proprietate cluster (cluster feature)
care inglobeaza urmatoarele informatii: numarul de instante, media si varianta fiecarei
variabile continue si categoria pentru fiecare variabila categoriala.
Fiecare instanta parcurge in mod recursiv nodurile arborelui incepand de la cel
radacina pana ce va fi clasificata intr-unul din subclusterele reprezentate de nodurile frunza.
Clasificarea se realizeaza pe baza calcului distantelor: daca instanta se afla la o distanta mai
mica decat o distanta-prag de una din subclustere va fi absorbit in acel sublcluster si acesta va
fi actualizat, iar daca nu se poate incadra in niciunul din subclustere se va forma un nou nod
frunza cu instanta respectiva. In caz ca nu exista suficient spatiu pentru crearea unui nou nod
frunza, instanta respectiva va fi clasificata in cel mai apropiat subcluster in prima faza. In
urma acestui pas subclusterul respectiv este divizat in alte doua grupe pe principiul celor doua
cele mai indepartate instante, iar apoi cazurile ramase se vor clasifica in una din subgrupe in
functie de distanta. In caz ca dimensiunea arborelui depaseste dimensiunea maxima permisa,
acesta va fi reconstruit dupa ce in prealabil se fixeaza o distanta-prag mai mare pentru
clasificarea in subclustere. Noul arbore va avea o dimensiune mai redusa si permite
introducerea unor noi noduri. Aceste operatii descrise mai sus se repeta pana ce va fi parcurs
intregul set de date.
Toate instantele dintr-un anumit nod al arborelui sunt reprezentate in mod colectiv de
proprietatea cluster care contine detaliile descrise anterior. Atunci cand o noua instanta este
clasificata intr-un anumit nod, aceasta proprietate cluster este actualizata doar pe baza
proprietatii cluster vechi si pe baza noii instante (nu este nevoie sa se cunoasca detaliile
referitoare la fiecare instanta). Aceasta caracteristica faciliteaza mentenanta datelor referitoare
la un subcluster, iar arborele ocupa un spatiu de memorie mult mai mic. Singurul dezavantaj
este acela ca performanta arborelui este influentata uneori de ordinea instantelor, iar pentru
eliminarea acestui neajuns se recomanda ordonarea cazurilor in mod aleator.
3.1.1. Optiunea pentru tratarea punctelor izolate
In procesul de construire a arborelui cluster feature algoritmul trateaza intr-un pas

separat si cazul punctelor izolate. Acestea sunt considerate a fi observatii din setul de date
care nu se incadreaza in niciuna din grupe. De obicei sunt clasificate intr-o frunza separata a
arborelui si dimensiunea acesteia (numarul de instante continut) este mult mai mica decat
dimensiunea frunzei (subclusterului) care contine cele mai multe instante (numarul de puncte
izolate nu poate depasi 25% din numarul de instante din cel mai mare subcluster). Atunci cand
se construieste arborele se verifica daca sunt instante care nu ar putea fi clasificate in niciuna
din grupe si sunt separate. Dupa ce s-au format toate grupele se cauta o solutie pentru a
incadra cat mai multe puncte in una din subgrupele existente pentru a nu mari dimensiunea
arborelui.
3.2. Etapa II : Clusterizarea
La acast pas subclusterele rezultate la etapa anterioara (excluzand cele formate numai din
puncte izolate) sunt considerate ca date de intrare pentru a realiza o noua grupare. Din
moment ce numarul subclusterelor este mult mai mic decat numarul de instante din setul de
date, pot fi utilizate in mod adecvat procedurile de grupare traditionale. SPSS utilizeaza in
acest scop metoda de clusterizare ierarhica. Un motiv fundamental ar fi ca lucreaza eficient
cu metoda auto-cluster.
3.2.1. Acuratete
In general, cu cat se produc mai multe subgrupe la pasul intai cu atat se obtine o
acuratete mai buna a rezultatelor. Singurul neajuns este acela ca totusi prea multe subgrupe
vor incetini procedura de grupare la cel de-al doilea pas. Prin urmare, numarul subgrupelor
trebuie astfel ales incat sa fie suficient de mare pentru a produce rezultate de o acuratete buna
si suficient de mici astfel incat sa nu incetineasca algoritmul de clasificare.
4. Numarul de clustere: Auto-cluster
Una din principalele probleme este legata de numarul de grupe care trebuie format,
aceasta stabilindu-se in stransa legatura cu numarul de instante din setul de date. In cazul
clusterizarii ierarhice se produce o secventa de partitii la o singura rulare (1,2,3, clustere),
in timp ce algoritmul K-means trebuie rulat de mai multe ori (cate o data pentru fiecare numar
de clustere) pentru a genera aceasta secventa. Pentru determinarea automata a numarului de
grupe, in SPSS s-a dezvoltat o procedura in doi pasi care are la baza metoda de clusterizare
ierarhica.
Pasul 1: Se utilizeaza criteriile de informatie Akaike si Schwartz pentru fiecare
numar de grupe si se realizeaza o prima estimare pentru numarul de grupe.
Pasul 2: Se realizeaza o optimizare fata de pasul 1 si anume se considera cea
mai mare distanta intre doua grupe in fiecare etapa a clusterizarii ierarhice.
Criteriile de informatie Akaike (AIC) si Schwartz (BIC) pentru J clustere se definesc in felul
urmator:
J
AIC ( J ) 2 j 2m J
j 1
J
BIC ( J ) 2 j m J log( N )
j 1
unde,

B
K
m J J 2 K A ( LK 1)
k 1
5. Masurarea distantei
Atat in etapa de pre-clusterizare, cat si in cea de clusterizare este nevoie de o metoda

pentru masurarea distantei intre grupele formate sau intre instante. In acest caz mentionam
doua variante:
5.1. Distanta log verosimilitate (Log-likelihood distance)
In aceasta metoda se permite utilizarea atat a variabilelor calitative, cat si a celor

categoriale. Este o metoda de calcul a distantei bazata pe probabilitati. Se considera ca
scaderea log - verosimilitatii intre doua clustere coincide cu scaderea distantei si cresterea
probabilitatii de a fi unite intr-o singura grupa. In calcularea distantei log verosimilitate se
utilizeaza distributia normala pentru variabilele continue, respectiv cea multinomiala pentru
cele categoriale. Se presupune de asemenea ca variabilele si cazurile sunt independente.
Distanta intre clusterele j si s este definita in felul urmator:
d j, s j s j ,s
unde,
K 1
A B
v N v log k vk E vk
K
2
2
k 1 2 k 1
Lk
N N
E vk vkl log vkl
l 1 N v Nv
Daca k2 este ignorata in prima ecuatie de mai sus, atunci distanta dintre clusterele j si s
coincide cu cresterea probabilitatii astfel incat cele doua vor fi unite intr-o singura grupa.
Termenul k2 este adaugat tocmai pentru a inlatura neajunsurile cauzate de situatia cand
vk2 0 , caz in care logaritmul natural va fi nedefinit ( de exemplu cand o grupa contine un
singur caz).
5.2. Distanta euclidiana
Aceasta metoda de masurare a distantei se poate aplica doar cand toate variabilele sunt
continue. Distanta euclidiana intre doua puncte este clar definita, in cazul a doua clustere
reprezentand distanta dintre centroizii lor.
6. Repartizarea instantelor in clustere
In cazul repartizarii instantelor in grupe putem distinge doua situatii si anume:
6.1. Nu se utilizeaza optiunea pentru tratarea punctelor izolate
O instanta din setul de date este repartizata in cel mai apropiat cluster pe baza criteriului
distantei.
6.2. Se utilizeaza optiunea pentru tratarea punctelor izolate
6.2.1. Distanta log-verosimilitate
Se presupune ca punctele izolate urmeaza o distributie uniforma. Se calculeaza

distanta log-verosimilitate in cazul in care instanta este repartizata intr-o grupa formata din
puncte izolate, respectiv in cazul in care este repartizata in cel mai apropiat cluster normal
(care nu cuprinde puncte izolate). Daca diferenta intre cele doua distante este mai mica decat
o valoare prag, atunci instanta va fi repartizata intr-un cluster normal, altfel intr-o alta grupa
formata doar din puncte izolate.
C log(V )
V k R k m Lm
unde C valoarea prag.
6.2.2. Distanta euclidiana
La fel ca si in cazul anterior se calculeaza distanta euclidiana in cazul in care instanta ar fi

repartizata intr-o grupa formata din puncte izolate si cand ar fi repartizata in cea mai apropiata
grupa normala. Daca diferenta intre cele doua distante este mai mica decat o valoare prag,
instanta va apartine grupei normale, altfel va fi un punct izolat.

KA
C2 l 1
kl2 / K A - valoare prag
7. Valori lipsa
Nu se accepta pastrarea valorilor-lipsa in analiza. Acestea sunt eliminate in virtutea

optiunii LISTWISE.
II. Partea practica
1. Setul de date judges.sav

Aceasta baza de date este formata din 8 variabile de tip Scale reprezentand notele acordate
pentru 300 de gimnasti de catre cei 7 membri ai juriului din diverse tari plus un membru care
este fan (Armchair Enthusiast).
1.1. Setul de variabile

judge1 - Italia
judge2 - Coreea de Sud
judge3 - Romania
judge4 - Franta
judge5 - China
judge6 - Statele Unite
judge7 - Rusia
judge8 - Membru fan
1.2. Numarul de instante

Setul de date cuprinde 300 de instante reprezentand cei 300 de gimnasti care primesc
note pentru evolutia lor.
2. Setarile analizei Two Step Cluster pentru baza de date judges.sav
2.1. Fereastra principala

In fereastra TwoStep Cluster Analysis trebuie sa specificam urmatoarele detalii:
Lista de variabile: Cele 8 variabile continue reprezentand notele acordate de catre
juriu.
Numarul variabilelor continue: Aceste variabile vor fi standardizate in mod implicit.
(8 variabile).
Metoda pentru masurarea distantei: Distanta log-verosimilitate este cea implicita. In
cazul acesta utilizam distanta euclidiana deoarece toate variabilele sunt continue.
Numarul de grupe: Utilizam criteriul Bayesian (BIC) pentru determinarea automata a
numarului optim de grupe si specificam ca numarul acestora sa nu depaseasca 15.
Figura 1 Fereastra principala pentru Analiza TwoStep Cluster in SPSS
2.2. Fereastra Options

In fereastra Options putem sa specificam urmatoarele detalii:
Outlier treatment: pentru tratarea punctelor izolate. Aceasta casuta nu este bifata in
mod implicit. Daca se ajunge la un arbore cluster feature de o dimensiune prea mare,
se reconstruieste utilizand o distanta prag mai mare. Daca o instanta nu va putea fi
repartizata in nicio grupa, aceasta se marcheaza cu -1 si nu este inclusa in numararea
instantelor dintr-o grupa. Daca se bifeaza casuta noise handling, se va crea o frunza
separata doar pentru instantele izolate. Procentul instantelor din acest cluster nu va
putea depasi cel specificat la percentage (implicit este 25%).
Memory allocation: Aceasta optiune se utilizeaza pentru setarea memoriei pentru
analiza. Memoria implicita este 64 MB, insa seturile mari de date ar putea necesita
mai multa memorie. Daca memoria setata este prea mica analiza esueaza deoarece nu
se gaseste numarul corect de grupe.
Standardization: In aceasta sectiune se pot alege variabilele care vor fi standardizate.
In mod implicit toate variabilele continue sunt standardizate.
CF tree tuning criteria: Aceasta optiune se acceseaza prin intermediul butonului
Advanced din fereastra Options. Se pot seta detalii privind arborele de clasificare cum
ar fi : numarul maxim de descendenti per nod (Maximum branches per leaf node),
numarul maxim de nivele (Maximum tree depth). Prin intermediul optiunii Initial
distance change threshold se seteaza o valoare prag pentru repartizarea unei
instante intr-o grupa. Daca distanta fata de un cluster este mai mare decat aceasta
valoare prag, instanta respectiva va deveni la randul ei o frunza a arborelui. Daca
dimensiunea arborelui ( Maximum number of nodes possible) atinge o valoare limita
maxima, atunci pragul critic asociat distantei de calcul va fi crescut treptat.
Cluster model update: Prin aceasta optiune accesata tot prin intermediul butonului
Advanced se poate importa un arbore cluster feature salvat anterior intr-un fisier
XML. Modelul importat este actualizat apoi in functie de setul de date curent. Lista de
variabile trebuie sa fie in aceeasi ordine ca si in cazul ultimei salvari. Fisierul XML nu
va suferi schimbari decat daca utilizatorul opteaza pentru a-l salva din nou. Cand se
importa un astfel de model toate setarile vor fi actualizate in functie de cele utilizate in
modelul importat. In procedura de actualizare se presupune ca nicio instanta curenta
nu a fost utilizata in modelul importat. In cazul in care se depisteaza instante duplicate,
cele doua seturi de date trebuie concatenate, eliminand duplicatele, dupa care se reface
analiza two step cluster.
Figura 2 Fereastra Options pentru Analiza TwoStep Cluster in SPSS
2.3. Fereastra Plots

In aceasta fereastra se poate selecta afisarea diverselor tipuri de grafice. Alegerea uneia
sau mai multor tipuri de grafice are drept rezultat crearea unei variabile pentru apartenenta
fiecarei instante la o grupa si salvarea ei in setul de date. In aceasta fereastra se aleg
urmatoarele tipuri de grafice:
Within cluster percentage chart: este un grafic de tip bara care ne arata in fiecare
grupa procentul in care au contribuit variabilele la obtinerea grupei respective.
Cluster pie chart: ne arata dimensiunea fiecarei grupe obtinute.
Variable importance chart (by cluster or by variable): ne arata importanta fiecarei
variabile in procesul de grupare.
Significance tests of importance: diverse teste de semnificatie privind variabilele.
Confidence level: setarea nivelului de incredere (implicit 95%).
Figura 3 Fereastra Plots pentru Analiza TwoStep Cluster in SPSS
2.4. Fereastra Output

In aceasta fereastra se pot selecta tipurile de iesiri pe care dorim sa le furnizeze
analiza:
Descriptives by cluster: optiuni descriptive pentru fiecare grupa.
Cluster frequencies: frecvente pentru fiecare grupa.
Information criterion (AIC or BIC): criteriile informationale (AIC si BIC).
Cluster membership variable: Se creeaza o variabila care retine apartenenta fiecarei instante
la o grupa. Numele implicit al variabilei va fi TSC (de la TwoStage Cluster) urmat de un cod
generat de SPSS.
Export tree or model: Se poate exporta arborele cluster feature sau intregul model. Acest
lucru este util pentru o reutilizare ulterioara in cazul altor seturi de date.
Figura 4 Fereastra Output pentru Analiza TwoStep Cluster in SPSS
3. Rezultatele obtinute in urma analizei Two Step Cluster
3.1. Autoclustering table

Ne furnizeaza valorile criteriilor informationale BIC si AIC pentru fiecare numar de
clustere considerat (mai mic sau egal cu cel setat de catre utilizator), in vederea stabilirii
numarului optim de grupe. Se alege numarul de clustere pentru care Ratio of BIC Changes si
Ratio of Distance Measures au cele mai mari valori.
Figura 5 Autoclustering Table in analiza Two Step Cluster in SPSS
In tabelul de mai sus se poate observa ca in cazul a 2 clustere, valoarea ajustata pentru
criteriul informational BIC este 1, iar distanta considerata este 2.671, de unde rezulta ca acesta
este numarul optim de grupe. De asemenea valoarea criteriului informational BIC luat singur
este cea mai mica si anume -841.601 care intareste motivatia alegerii a doua clustere.
3.2. Cluster distribution table

In acest tabel este ilustrat pentru fiecare grupa numarul de instante pe care le contine si
procentul lor din total.
Figura 6 Cluster Distribution Table in analiza Two Step Cluster in SPSS

Se poate observa ca prima grupa contine cele mai multe instante (164 instante), reprezentand
54.7% din totalul instantelor, in timp ce a doua grupa contine 136 instante, reprezentand
45.3%.
3.3. Centroids table

In acest tabel sunt ilustrate informatii de natura descriptiva pentru variabilele de tip
continuu. Se pot vedea diferentele existente intre grupe in functie de media si deviatia
standard a fiecarei variabile continue (in cazul acesta judges).
Figura 7 Centroids table in analiza Two Step Cluster in SPSS
Din acest tabel se poate observa de exemplu ca gimnastii care au fost clasificati in cea de-a
doua grupa au primit note mult mai mari de la toti cei 8 membri ai juriului decat cei
apartinand primei grupe. Daca realizam o analiza mai detaliata se pot constata urmatoarele:
Prima grupa:
Gimnastii din aceasta grupa au primit cele mai mari note de la membrul juriului din
Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din
Rusia, media notelor fiind de 7.4049.
A doua grupa:
Statele Unite media notelor fiind 9.7301, iar cele mai mici note de la membrul juriului
din China, media notelor fiind de 8.6463.
Analizand per ansamblu se observa ca membrul juriului din Franta a fost cel mai permisiv
media notelor lui pentru toti participantii fiind de 8.9703, iar cel mai exigent a fost membrul
juriului din China, media notelor lui fiind de 8.0380.
3.4. Cluster Pie Chart

Se ilustreaza in mod grafic marimea fiecarei grupe, respectiv procentul instantelor din
fiecare grupa din total.
Figura 8 Marimea fiecarei grupe rezultate in urma analizei Two Step Cluster in SPSS
Se observa ca prima grupa cuprinde 54.67% din totalul instantelor fiind astfel cea mai
voluminoasa, in timp ce a doua grupa cuprinde 45.33% din totalul instantelor.
3.5. Within cluster variation plot

Pentru variabilele continue sunt afisate bare de eroare pentru fiecare cluster. Aceste
grafice numite Intervale de incredere pentru medie afiseaza media pentru fiecare variabila
continua in fiecare grupa, iar aripioarele reprezinta limita de incredere de 95% in jurul
valorii medii.
Figura 9 Cluster Variation Plot pentru variabila continua judge1 care reprezinta notele acordate de
membrul din Italia
Din graficul de mai sus se poate observa ca media notelor acordate de catre juriul din
Italia este de 8.50. Gimnastii clasificati in primul cluster au media notelor sub aceasta medie
(7.85), pe cand cei din a doua grupa au media notelor cu mult peste 8.50 (9.27). Pentru prima
grupa abaterea standard a notelor este de 0.53715 (din Cluster Profiles), in timp ce pentru cea
de-a doua grupa abaterea notelor este de 0.44936.
La ceilalti membri ai juriului se poate observa aceeasi ierarhie, gimnastii din prima
grupa au o medie a notelor mult mai mica si cei din a doua grupa o medie mult mai mare.
Se poate observa ca per ansamblu membrul din Franta a dat cele mai mari note
gimnastilor si anume media notelor lui fiind 8.97, iar cele mai mici note le-a dat membrul din
China si anume media lor este 8.03. Cele mai mari abateri privind notele au fost la ultimul
membru, aceasta fiind de 0.8176 in cazul primei grupe, respectiv 0.75803 la ce-a de-a doua
grupa.
3.6. Variablewise importance plot
Acest grafic ne arata importanta fiecarei variabile in procedura de grupare. Pe axa X

sunt afisate valorile Hi-patrat, iar pe axa Y lista de variabile. Daca barele prezentate in grafic
depasesc valoarea critica inseamna ca variabila joaca un rol important in obtinerea grupei
respective. In cazul acesta fiind 2 grupe vom avea doua grafice.
Figura 10 Variablewise importance plot grupa1 pentru analiza Two Step Cluster in SPSS
Din graficul de mai sus se observa ca toate variabilele contribuie la diferentierea acestei
grupe. Cea mai importanta variabila este judge7 Russia, iar cea mai neimportanta este al 8-
lea membru si anume Arcmchair Enthusiast.
Figura 11 Variablewise importance plot grupa2 pentru analiza Two Step Cluster in SPSS
In cazul celei de-a doua grupe se observa la fel ca toate variabilele sunt importante si au
contribuit la obtinerea acestei grupe. Cea mai importanta variabila este judge6 United
States, iar cea mai neimportanta este din nou a 8-a variabila.
3.7. Clusterwise variable importance plot
Daca din fereastra Plots din sectiunea Rank Variables alegem optiunea By Cluster
se va afisa cate un grafic pentru fiecare variabila in parte, aratand importanta acesteia in
obtinerea grupelor.
Figura 12 Clusterwise variable importance plot pentru judge1 - Italy
Din graficul de mai sus se observa ca primul membru al juriului, cel din Italia, a avut o
contributie importanta in obtinerea grupei 2 unde au fost clasati gimnastii cu cele mai mari
note. Aceeasi observatie o avem si pentru membrii juriului din: Franta, Coreea de Sud,
Statele Unite, respectiv al 8-lea membru al juriului. Toti au contribuit fundamental la
obtinerea celei de-a doua grupe.
Ceilalti membrii ai juriului: China, Romania, respectiv Rusia au contribuit fundamental la
obtinerea primei grupe, unde au fost clasati gimnastii cu notele cele mai mici.
III. Concluzii
In urma analizei Two - Step Cluster pe baza de date judges.sav formata din 8 variabile
continue reprezentand membrii juriului din diverse tari la Campionatul Mondial de
Gimnastica s-au obtinut doua grupe. In cele ce urmeaza se trec in revista per ansamblu
principalele detalii care caracterizeaza fiecare grupa in parte.
Grupa 1
Cuprinde 164 de gimnasti reprezentand 54.7% din cei 300 prezenti la Campionatul
Mondial.
Franta, media notelor fiind 8.4896, iar cele mai mici note de la membrul juriului din
Rusia, media notelor fiind de 7.4049.
Cea mai importanta variabila pentru diferentierea acestei grupe este judge7 Russia,
iar cea mai neimportanta este al 8-lea membru si anume Arcmchair Enthusiast.
Membrii juriului din: China, Romania, respectiv Rusia au contribuit fundamental la
obtinerea primei grupe, unde au fost clasati gimnastii cu notele cele mai mici.
Grupa 2
Cuprinde 136 de gimnasti reprezentand 45.3% din cei 300 prezenti

Statele Unite media notelor fiind 9.7301, iar cele mai mici note de la membrul juriului
din China, media notelor fiind de 8.6463.
Cea mai importanta variabila pentru diferentierea acestei grupe este judge6 United
States, iar cea mai neimportanta este din nou a 8-a variabila.
Primul membru al juriului, cel din Italia, a avut o contributie importanta in obtinerea
grupei 2 unde au fost clasati gimnastii cu cele mai mari note. Aceeasi observatie o
avem si pentru membrii juriului din: Franta, Coreea de Sud, Statele Unite, respectiv al
8-lea membru al juriului, Armchair Enthusiast.
IV. Bibliografie
1. SPSS, Inc. (2001). The SPSS twostep cluster component. Chicago, IL: SPSS. SPSS
white papers/technical report TSCPWP-0101.
2. Theodoridis, S. & Koutroumbas, K. (1999). Pattern recognition. NY: Academic Press.
3. Zhang, T.; Ramakrishnon, R.; & Livny, M. (1996). BIRCH: Method for very large
databases. Proceedings of the ACM. Management of Data. Pp. 103114. Montreal, Canada.

Analiza Two-Step Cluster

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiza Two-Step Cluster

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza Two - Step Cluster

2. Principalele elemente ale metodei

K A - Numarul total de variabile continue utilizate in analiza.

Rk - Ordinul celei de-a k-a variabile continue.

N - Numarul de instante din setul de date.

3.1. Etapa I : Pre-clusterizarea

In aceasta etapa se merge pe o abordarea secventiala. Se analizeaza fiecare instanta in

In procesul de construire a arborelui cluster feature algoritmul trateaza intr-un pas

3.2. Etapa II : Clusterizarea

4. Numarul de clustere: Auto-cluster

Atat in etapa de pre-clusterizare, cat si in cea de clusterizare este nevoie de o metoda

5.1. Distanta log verosimilitate (Log-likelihood distance)

In aceasta metoda se permite utilizarea atat a variabilelor calitative, cat si a celor

5.2. Distanta euclidiana

6. Repartizarea instantelor in clustere

In cazul repartizarii instantelor in grupe putem distinge doua situatii si anume:

6.1. Nu se utilizeaza optiunea pentru tratarea punctelor izolate

6.2. Se utilizeaza optiunea pentru tratarea punctelor izolate

6.2.1. Distanta log-verosimilitate

Se presupune ca punctele izolate urmeaza o distributie uniforma. Se calculeaza

unde C valoarea prag.

6.2.2. Distanta euclidiana

La fel ca si in cazul anterior se calculeaza distanta euclidiana in cazul in care instanta ar fi

Nu se accepta pastrarea valorilor-lipsa in analiza. Acestea sunt eliminate in virtutea

II. Partea practica

1. Setul de date judges.sav

1.1. Setul de variabile

1.2. Numarul de instante

2. Setarile analizei Two Step Cluster pentru baza de date judges.sav

2.1. Fereastra principala

2.2. Fereastra Options

Figura 2 Fereastra Options pentru Analiza TwoStep Cluster in SPSS

2.3. Fereastra Plots

Figura 3 Fereastra Plots pentru Analiza TwoStep Cluster in SPSS

2.4. Fereastra Output

Figura 4 Fereastra Output pentru Analiza TwoStep Cluster in SPSS

3. Rezultatele obtinute in urma analizei Two Step Cluster

3.1. Autoclustering table

3.2. Cluster distribution table

Figura 6 Cluster Distribution Table in analiza Two Step Cluster in SPSS

3.3. Centroids table

Figura 7 Centroids table in analiza Two Step Cluster in SPSS

3.4. Cluster Pie Chart

3.5. Within cluster variation plot

3.6. Variablewise importance plot

Acest grafic ne arata importanta fiecarei variabile in procedura de grupare. Pe axa X

3.7. Clusterwise variable importance plot

Figura 12 Clusterwise variable importance plot pentru judge1 - Italy

Cuprinde 136 de gimnasti reprezentand 45.3% din cei 300 prezenti

S-ar putea să vă placă și