Sunteți pe pagina 1din 16

Analiza Cluster-Ierarhica

Hierarchical Cluster
Pentru aceasta analiza se va lucre pe baza de date amintita mai sus, utilizandu-se analiza pe variabilele
scalare. S-au identificat 4-6 variabile scale, baza de date fiind destul de consistenta vom merge cu
procesul in continuare pe aceste variabile in scopul demonstrarii teoretice si practice a Analizei Cluster-
Ierarhica. Inainte de folosirea acestora vom verifica cat de eligibile sunt variabilele pentru analiza
printr-un test descriptive print abele de frecvente.

Am ramas cu variabilele scalare: Marimea loc. de domiciliu, Care este cu aproximatie, venitul,
etc. restul variabilelor au valori lipsa, am trecut la missing in scopul rezolvarii acestei pobleme insa
mergem mai departe cu variabilele alese pentru a avea o analiza mai buna din punct de vedere
semnificativ.

Ne asiguram inca o data ca variabilele sunt bune pentru analiza.


In urma unor incercari esuate de a analiza mai vast baza de date prin cases am recurs la numarul redus
de variabile si folosirea metodei de analiza pe variabile si nu cases ( se observa din figura de mai sus ca
erau initial selectate cases). Procesarea inceata se datoreaza systemului de operare mai avansat de pe
calculatorul de analiza care necesita foarte multe resurse pentru partea sa grafica ( fiind un OS cu o
interfata cu multe elemnente de transparenta grafica ) astfel nu ramane memorie ram suficienta pentru
rularea proprie a tuturor analizelor.

Se selecteaza dendograma, pentru a observa visual formarea clusterelor.


Se selecteaza apoi metoda de clusterizare : Ward Method cu distanta Euclidiana patrata.

Din Case Processing Summary se poate observa ca theoretic variabilele au fost selectate propriu, fiind
valide toate cazurile in proportie de 100 puncte procentuale.

Avem un N= 1214 observatii valide. N Missing =0.

a
Case Processing Summary

Cases

Valid Missing Total

N Percent N Percent N Percent

1214 100.0% 0 .0% 1214 100.0%

a. Squared Euclidean Distance used


Proximity Matrix

Matrix File Input

Care este, cu
aproximaie,
venitul total net
obinut luna
trecut (iulie) de
ctre toi membri
din familia ta
Ci membri (incluznd salarii,
sunt n familia ta, peii, dividende, marimea
incluzndu-te i chirii, burse, localitatii de
Case pe tine? alocatii, etc.) ? domiciliu Vrsta

Ci membri sunt n familia .000 3.706E9 1.197E9 2650220.000


ta, incluzndu-te i pe tine?

Care este, cu aproximaie, 3.706E9 .000 1.740E9 3.587E9


venitul total net obinut luna
trecut (iulie) de ctre toi
membri din familia ta
(incluznd salarii, peii,
dividende, chirii, burse,
alocatii, etc.) ?

marimea localitatii de 1.197E9 1.740E9 .000 1.130E9


domiciliu

Vrsta 2650220.000 3.587E9 1.130E9 .000

Agglomeration Schedule

Cluster Combined Stage Cluster First Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage

1 1 4 1325110.000 0 0 2

2 1 3 7.766E8 1 0 3

3 1 2 2.841E9 2 0 0

Se observa valori apparent aberante in tabelele de mai sus pentru un utilizator obisnuit. Faptul se
poate datora folosirii metodei Wards deoarece se ruleaza testarea pe variabile.
La ultimul punct al lucrarii se face o analiza intre grupe specifica variabilelor. Pana atunci se va
merge cu interpretari teoretice.
Avem apartenenta variabilelor la clustere, combinatia lor cat si nivelul de aglomeratie.
In stagiul 1 avem apartenentele si legaturile Cluster1=1 si Cluster2=4 cu coeficientul dintre ele
1325110.

Clusterizarea a fost facuta. Putem observa si o dendograma cu doua clustere finale.

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

J13 1 -+-----------------+
J2 4 -+ +-----------------------------+
J15 3 -------------------+ |
J14 2 -------------------------------------------------+

Daca am duce o linie imaginara prin dreptul valorii 5 am avea 3 clustere.

In teorie pentru o mai buna analiza se poate utilize Split Data.

Pentru o analiza mai multumitoare am rulat si analiza k means, am introdus si mai multe variaile
numerice pentru imbunatatirea modelului, insa chiar aceste variabile introduce duc la o scadere foarte
mare a nivelului de semnificativitate din model. Incercam in continuare sa mai ajustam in baza de date
valori. Varianta de a merge pe o analiza exacta nu este posibila deoarece analiza pe cases duce la
blocarea programului de analiza astfel trebuie cautata in continuare o solutie optima.

Am recurs din nou la verificarea bazei de date. Am transformat variabilele numerice in asa fel incat sa
poata fi incluse folositor in analiza. Dar prin observarea celor numerice codate binar este evident faptul
ca acestea nu se vor grupa intr-un cluster final mai mare. Avem dendograma:

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

A18 6 -+
A112 13 -+
A14 15 -+
A15 5 -+
A19 9 -+
A110 21 -+
A111 26 -+
A115 7 -+
A113 10 -+
A114 11 -+
A16 12 -+
A17 14 -+
A13 8 -+
A12 22 -+
J3 19 -+
J4 17 -+
J2 27 -+
F6PROCEN 25 -+
A11 24 -+
H9 18 -+-----------------------------------------------+
J10D 2 -+ |
J10B 3 -+ |
J10A 1 -+ |
J10C 4 -+ |
J13 20 -+ |
J14 16 -----------+-------------------------------------+
J15 23 -----------+

Abbreviated Extended
Name Name

F6PROCEN F6PROCENT

Ca si inainte observam ca prin plasarea unei linii imaginare peste dendograma la distanta 5 avem 3
clustere, care formeaza apoi 2 clustere prin combinarea clusterului 2 cu 3 se formeaza clusterele 1 si 2.

Am mai rulat o data analiza. Din analizele SPSS succinte in scopul intelegerii acestora de catre toti
utilizatorii se analizeaza ( SPSS Statistics, Capitolul 8, IBM tutorials) se analizeaza modul de clusterizare si
dendograma. Astfel voi analiza pur theoretic outputul.

Agglomeration Schedule

Cluster Combined Stage Cluster First Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage

1 1 7 440552.500 0 0 2

2 1 3 2224113.333 1 0 4

3 5 6 1.136E7 0 0 4

4 1 5 2.227E7 2 3 6

5 2 4 5.774E8 0 0 6

6 1 2 2.439E9 4 5 0

Avem legaturile Ward. La stage 1, stagiul initial se clusterizeaza 1 cu 2 (in cazul nostrum variabila 1 cu 2,
deoarece nu am reusit sa rulam cases). De la coefficients se observa distanta euclidiana la patrat. De la
stage cluster firs appears se observa ca cele doua variabile in cazul nostru sunt legate pentru prima data
si clusterizate deoarece avem valorile 0 si 0.

La stage 2 se clusterizeaza variabila 1 cu variabila 3 intr-un cluster. Cu valoarea coefficients fiind distanta
euclidiana patratica. Se observa valoarea 1 si anume ca a existat in prealabil o clusterizare. ( Distantele
sunt foarte mari in sagiul 1 si stagiul 2 fata de stagiile urmatoare de la stagiul 3 la stagiul 6, dar avand in
vedere ca analiza se face theoretic, interpretam asa cum sunt ).
Astfel analizand Agglmeration Schedule observam ca la primele doua stagii avem o distanta patrata
euclidiana mare in comparative cu restul stagiilor.
Urmatoarele stagiise pot analiza identic cu cele dinainte pe acelasi principiu.

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Ward Method

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

J2 1 -+
J4 7 -+
J13 3 -+-----------------------------------------------+
J3 5 -+ |
H9 6 -+ |
J15 2 ---------------+---------------------------------+
J14 4 ---------------+
Analiza finala.
Rulam o ultima analiza pe mai multe variabile cu modificarea de folosire a Link-
Between Groups ( restul modificarilor, si optiunilor bifate sunt prezentate in paragrafele
anterioare, pentru a lipsi lucrarea de informatii- print screenuri redundant si exhaustive
am prezentat doar urmatoarele, restul fiind anteprezentat sau mentionat in anexe),
deoarece avem variabile si nu cazuri. Aceasta etapa fiind analiza finala a acestei lucrari.

In urma rularii analizei:

Agglomeration Schedule

Cluster Combined Stage Cluster First Appears

Stage Cluster 1 Cluster 2 Coefficients Cluster 1 Cluster 2 Next Stage


1 6 13 105644.000 0 0 2

2 6 15 158466.000 1 0 4

3 1 3 230082.000 0 0 5

4 5 6 268912.000 0 2 6

5 1 2 297502.000 3 0 7

6 5 7 384160.000 4 0 8

7 1 4 393403.667 5 0 14

8 5 18 437942.400 6 0 9

9 5 9 470596.000 8 0 10

10 5 22 514500.000 9 0 11

11 5 10 553430.500 10 0 12

12 5 11 605052.000 11 0 13

13 5 12 705894.000 12 0 15

14 1 17 955944.750 7 0 19

15 5 14 1369006.545 13 0 16

16 5 8 1539841.333 15 0 17

17 5 19 1985811.692 16 0 20

18 21 23 2692439.000 0 0 19

19 1 21 4259308.100 14 18 20

20 1 5 8978258.429 19 17 21

21 1 20 1.099E9 20 0 22

22 1 16 3.432E9 21 0 0

Se observa stagiile de clusterizare. In stage 1 se clusterizeaza 6 cu 13, se poate


preciza apoi ca acestea nu au mai apartinut pana acum vreunui cluster lucru evident
deoarece suntem la stage 1. Avem valorile 0 si 0 la Stage Cluster First Appears.

Stage 2, se clusterizeaza 6 cu 15, se observa ca variabila 6 a mai fost clusterizata la


stagiul 1 deoarece apare valoarea 1 in dreptul ei la Stage Cluster First Appears.

La next stage pt stage 2 se poate observa valoarea 4 ceea ce inseamna ca va mai


exista o clusterizare a variabilei 6 la stage 4. Variabila 15 are valoarea corespunzatoare
0 deoarece nu a mai fost clusterizata.

Ne uitam la stage 4 sa vedem daca se dovedeste adevarata analiza de mai sus, si


observam intradevar ca avem in cluster 2 variabila 6.
Stagiile 21 si 22 ar putea ascunde din aceasta analiza in scopul mentinerii unei, am
putea spune omogenitati de lungime numerica a coeficientilor.

La stage 20 se clusterizeaza variabila 1 cu variabila 5, asta in urma stage 18 unde s-a


clusterizat variabila 21 cu variabila 23.

Ca si algoritm ne putem uita la stage 21 si 24 pentru a vedeam cum next stage


inregistreaza valoarea 0, un stagiu urmator fiind inexistent.

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+

A18 6 -+
A112 13 -+
A14 15 -+
A15 5 -+
A115 7 -+
A110 18 -+
A19 9 -+
A111 22 -+
A113 10 -+
A114 11 -+
A16 12 -+
A17 14 -+
A13 8 -+
A12 19 -+
J10A 1 -+
J10B 3 -+---------------+
J10D 2 -+ |
J10C 4 -+ |
J13 17 -+ +-------------------------------+
A11 21 -+ | |
J2 23 -+ | |
J15 20 -----------------+ |
J14 16 -------------------------------------------------+

Dendograma vine in ajutorul utilizatorului cat si a consumatorului final, in scopul


reprezentarii grafice a modului in care se formeaza clusterele, combinarii variabilelor in
clustere, distanta dintre acestea, si apartenenta fiecareia . Se pot observa distantele
foarte bine, pe scala aflata deasupra graficului cu valori de la 0 la 25. Cu cat este mai
mare distanta cu atat este mai mare diferenta intre clustere. Pentru a gasi o legatura tip
membership urmarim dendograma.
Pentru o prezentare finala am efectuat intr-un program de editare grafica un output
pentru dendograma mai prietenos.

In aceasta analiza am selectat sa se formeze doua clustere finale, observabile cu


culoarea portocaliu.

Daca trasam linia virtuala mov observam cele doua clustere finale formate. Sunt
formate doua clustere incepand de la valoarea distantei de 10.

Daca dorim sa ne referim la 3 clustere vom face observatiile pe acestea incepand de la


distanta 0+ pana innainte de valoarea distantei 10. Il consideram pe ca avand
valoarea egala cu numarul de la care se clusterizeaza variabilele si incep sa formeze 3
clustere.
Aceasta a fost analiza ierarhica accesata din Analyze-> Classify -> hierarchical cluster din programul SPSS

v. 17 .

Baza de date, a suferit mai multe modificari in scopul realizarii acestei analize, pentru
ca intre analiza si date sa existe am oputea zice o Cauzalitate bidirectionala de
pretare a analizei pe date cat si a datelor pe analiza.

Deoarece situatia nu a permis analizarea pe clase datorita suportului hardware


neadecvat, sau a unui sistem de operare care necesita multe resurse pentru
alimentarea proprie impiedicand alocarea de memorie necesara rularii analizelor
SPSS.

In concluzie, din aceasta lucrare se poate observa modul in care se aplica analiza
cluster-ierarhica, modul de accesare si aplicare a acesteia, setarile aferente pe cazuri,
situatiile care se pot intampina in cazul acestei analize, de exemplu incapacitatea
softului de a rula analiza pe cases, adaptarea in aceasta situatie a analizei pe variabile,
distantele si metodele de analiza, am observant de ce se aplica metoda distantei dintre
grupuri pe variabile in detrimentul metodei Ward.

Analiza outputului SPSS al analizei, cat si o analiza a dendogramei au fost indeaproape


realizate.

Ca o anexa atasez graficul vertical icicle, care vine cu interpretari asemanatoare


dendogramei, insa conform analizelor si indrumarilor de analiza SPSS se cere
doarinterpretarea agglomeration schedule si a dendogramei lucruri deja realizate.
Bibliografie:

Seminarii, Buiga, Anuta, 2013


Cursuri, Buiga, anuta 2013
Tutoriale SPSS
Cursuri si Tutoriale de folosire si interpreatere analize SPSS, IBM