Documente Academic
Documente Profesional
Documente Cultură
Hierarchical Cluster
Pentru aceasta analiza se va lucre pe baza de date amintita mai sus, utilizandu-se analiza pe variabilele
scalare. S-au identificat 4-6 variabile scale, baza de date fiind destul de consistenta vom merge cu
procesul in continuare pe aceste variabile in scopul demonstrarii teoretice si practice a Analizei Cluster-
Ierarhica. Inainte de folosirea acestora vom verifica cat de eligibile sunt variabilele pentru analiza
printr-un test descriptive print abele de frecvente.
Am ramas cu variabilele scalare: Marimea loc. de domiciliu, Care este cu aproximatie, venitul,
etc. restul variabilelor au valori lipsa, am trecut la missing in scopul rezolvarii acestei pobleme insa
mergem mai departe cu variabilele alese pentru a avea o analiza mai buna din punct de vedere
semnificativ.
Din Case Processing Summary se poate observa ca theoretic variabilele au fost selectate propriu, fiind
valide toate cazurile in proportie de 100 puncte procentuale.
a
Case Processing Summary
Cases
Care este, cu
aproximaie,
venitul total net
obinut luna
trecut (iulie) de
ctre toi membri
din familia ta
Ci membri (incluznd salarii,
sunt n familia ta, peii, dividende, marimea
incluzndu-te i chirii, burse, localitatii de
Case pe tine? alocatii, etc.) ? domiciliu Vrsta
Agglomeration Schedule
1 1 4 1325110.000 0 0 2
2 1 3 7.766E8 1 0 3
3 1 2 2.841E9 2 0 0
Se observa valori apparent aberante in tabelele de mai sus pentru un utilizator obisnuit. Faptul se
poate datora folosirii metodei Wards deoarece se ruleaza testarea pe variabile.
La ultimul punct al lucrarii se face o analiza intre grupe specifica variabilelor. Pana atunci se va
merge cu interpretari teoretice.
Avem apartenenta variabilelor la clustere, combinatia lor cat si nivelul de aglomeratie.
In stagiul 1 avem apartenentele si legaturile Cluster1=1 si Cluster2=4 cu coeficientul dintre ele
1325110.
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
J13 1 -+-----------------+
J2 4 -+ +-----------------------------+
J15 3 -------------------+ |
J14 2 -------------------------------------------------+
Pentru o analiza mai multumitoare am rulat si analiza k means, am introdus si mai multe variaile
numerice pentru imbunatatirea modelului, insa chiar aceste variabile introduce duc la o scadere foarte
mare a nivelului de semnificativitate din model. Incercam in continuare sa mai ajustam in baza de date
valori. Varianta de a merge pe o analiza exacta nu este posibila deoarece analiza pe cases duce la
blocarea programului de analiza astfel trebuie cautata in continuare o solutie optima.
Am recurs din nou la verificarea bazei de date. Am transformat variabilele numerice in asa fel incat sa
poata fi incluse folositor in analiza. Dar prin observarea celor numerice codate binar este evident faptul
ca acestea nu se vor grupa intr-un cluster final mai mare. Avem dendograma:
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
A18 6 -+
A112 13 -+
A14 15 -+
A15 5 -+
A19 9 -+
A110 21 -+
A111 26 -+
A115 7 -+
A113 10 -+
A114 11 -+
A16 12 -+
A17 14 -+
A13 8 -+
A12 22 -+
J3 19 -+
J4 17 -+
J2 27 -+
F6PROCEN 25 -+
A11 24 -+
H9 18 -+-----------------------------------------------+
J10D 2 -+ |
J10B 3 -+ |
J10A 1 -+ |
J10C 4 -+ |
J13 20 -+ |
J14 16 -----------+-------------------------------------+
J15 23 -----------+
Abbreviated Extended
Name Name
F6PROCEN F6PROCENT
Ca si inainte observam ca prin plasarea unei linii imaginare peste dendograma la distanta 5 avem 3
clustere, care formeaza apoi 2 clustere prin combinarea clusterului 2 cu 3 se formeaza clusterele 1 si 2.
Am mai rulat o data analiza. Din analizele SPSS succinte in scopul intelegerii acestora de catre toti
utilizatorii se analizeaza ( SPSS Statistics, Capitolul 8, IBM tutorials) se analizeaza modul de clusterizare si
dendograma. Astfel voi analiza pur theoretic outputul.
Agglomeration Schedule
1 1 7 440552.500 0 0 2
2 1 3 2224113.333 1 0 4
3 5 6 1.136E7 0 0 4
4 1 5 2.227E7 2 3 6
5 2 4 5.774E8 0 0 6
6 1 2 2.439E9 4 5 0
Avem legaturile Ward. La stage 1, stagiul initial se clusterizeaza 1 cu 2 (in cazul nostrum variabila 1 cu 2,
deoarece nu am reusit sa rulam cases). De la coefficients se observa distanta euclidiana la patrat. De la
stage cluster firs appears se observa ca cele doua variabile in cazul nostru sunt legate pentru prima data
si clusterizate deoarece avem valorile 0 si 0.
La stage 2 se clusterizeaza variabila 1 cu variabila 3 intr-un cluster. Cu valoarea coefficients fiind distanta
euclidiana patratica. Se observa valoarea 1 si anume ca a existat in prealabil o clusterizare. ( Distantele
sunt foarte mari in sagiul 1 si stagiul 2 fata de stagiile urmatoare de la stagiul 3 la stagiul 6, dar avand in
vedere ca analiza se face theoretic, interpretam asa cum sunt ).
Astfel analizand Agglmeration Schedule observam ca la primele doua stagii avem o distanta patrata
euclidiana mare in comparative cu restul stagiilor.
Urmatoarele stagiise pot analiza identic cu cele dinainte pe acelasi principiu.
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
J2 1 -+
J4 7 -+
J13 3 -+-----------------------------------------------+
J3 5 -+ |
H9 6 -+ |
J15 2 ---------------+---------------------------------+
J14 4 ---------------+
Analiza finala.
Rulam o ultima analiza pe mai multe variabile cu modificarea de folosire a Link-
Between Groups ( restul modificarilor, si optiunilor bifate sunt prezentate in paragrafele
anterioare, pentru a lipsi lucrarea de informatii- print screenuri redundant si exhaustive
am prezentat doar urmatoarele, restul fiind anteprezentat sau mentionat in anexe),
deoarece avem variabile si nu cazuri. Aceasta etapa fiind analiza finala a acestei lucrari.
Agglomeration Schedule
2 6 15 158466.000 1 0 4
3 1 3 230082.000 0 0 5
4 5 6 268912.000 0 2 6
5 1 2 297502.000 3 0 7
6 5 7 384160.000 4 0 8
7 1 4 393403.667 5 0 14
8 5 18 437942.400 6 0 9
9 5 9 470596.000 8 0 10
10 5 22 514500.000 9 0 11
11 5 10 553430.500 10 0 12
12 5 11 605052.000 11 0 13
13 5 12 705894.000 12 0 15
14 1 17 955944.750 7 0 19
15 5 14 1369006.545 13 0 16
16 5 8 1539841.333 15 0 17
17 5 19 1985811.692 16 0 20
18 21 23 2692439.000 0 0 19
19 1 21 4259308.100 14 18 20
20 1 5 8978258.429 19 17 21
21 1 20 1.099E9 20 0 22
22 1 16 3.432E9 21 0 0
* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R
A N A L Y S I S * * * * * * * * * * * * * * * * * * *
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
A18 6 -+
A112 13 -+
A14 15 -+
A15 5 -+
A115 7 -+
A110 18 -+
A19 9 -+
A111 22 -+
A113 10 -+
A114 11 -+
A16 12 -+
A17 14 -+
A13 8 -+
A12 19 -+
J10A 1 -+
J10B 3 -+---------------+
J10D 2 -+ |
J10C 4 -+ |
J13 17 -+ +-------------------------------+
A11 21 -+ | |
J2 23 -+ | |
J15 20 -----------------+ |
J14 16 -------------------------------------------------+
Daca trasam linia virtuala mov observam cele doua clustere finale formate. Sunt
formate doua clustere incepand de la valoarea distantei de 10.
v. 17 .
Baza de date, a suferit mai multe modificari in scopul realizarii acestei analize, pentru
ca intre analiza si date sa existe am oputea zice o Cauzalitate bidirectionala de
pretare a analizei pe date cat si a datelor pe analiza.
In concluzie, din aceasta lucrare se poate observa modul in care se aplica analiza
cluster-ierarhica, modul de accesare si aplicare a acesteia, setarile aferente pe cazuri,
situatiile care se pot intampina in cazul acestei analize, de exemplu incapacitatea
softului de a rula analiza pe cases, adaptarea in aceasta situatie a analizei pe variabile,
distantele si metodele de analiza, am observant de ce se aplica metoda distantei dintre
grupuri pe variabile in detrimentul metodei Ward.