Documente Academic
Documente Profesional
Documente Cultură
Norbert Petrovici - Analiza Cluster
Norbert Petrovici - Analiza Cluster
Norbert Petrovici - Analiza Cluster
Gruparea cazurilor
sau
a variabilelor
Când utilizăm această
metoda?
2. Selectarea perechii
de itemi care este cea
mai apropiată şi
unirea lor într-o clasă
1. Calcularea distanţelor
între itemi
3. Recalcularea distantelor
faţă de celelte clase, itemi
Algoritm ierarhic aglomerativ
Minkovsky ( lxi-yilp)1/p X
X 1
Putere ( lxi-yilp)1/r
Y2 Y
Distanţa X1 Y2
Manhatan
Calcularea distantelor
partea II
cazul 2
variabila 1 cazul 1
Putem reprezenta cazurile ca Sau putem reprezenta variabi-
puncte în spaţiul trasat de lele ca vectori în spaţiul trasat
variabile ca şi coordonate de cazuri ca şi coordonate
Calcularea distantelor
un exemplu partea III
rezolv singur
Nu e cazul, le
apela
Nu am la cine
Rude
Prieteni
vecini
Colegi de cameră,
Colegi de şcoală
Profesori
Altele
Cs. La cine ai apela dacă ai avea nevoie
de…?
a. Intervenţii la Decanat sau Rectorat 33.49 7.36 6.95 8.85 1.55 6.09 41.52 2.87
b. Informaţii legate de bibliografie/ surse 8.10 .63 2.07 13.90 7.76 40.09 64.44 3.16
suplimentare
c. Lămurirea unor neclarităţi legate de 4.82 .29 1.72 10.62 6.67 37.09 71.29 1.49
domeniile studiate
d. Intervenţii la secretariat/ serviciu 51.58 8.79 3.04 9.02 1.90 7.69 15.79 7.29
social
e. Ajutor în contestarea unei note 41.82 7.01 1.55 3.04 .75 6.55 39.69 2.93
Calcularea distantelor
Matricea de disimilaritate partea IV
b. Informaţii legate de bibliografie/ surse 8.10 .63 2.07 13.90 7.76 40.09 64.44
(ai - bi)2
suplimentare
i t
n
Distanta
1 2 (1,2)
2 = 644.6521
3 +4
45.29295 + 23.8144 + C
3
9
6
6 1
3
6
0
2
25.5025 + 38.5641 + 1156 + 2
9
6
6
4 525.3264 + 0.0841 = 2459.237 3
6
0
6
3 4
Distanta (1,2) = 49.59069 5
6
2
4
3
T
Calcularea distanţelor faţă
de un cluster partea I
1 3 1 2
2 d31
(d11+ d12+ d21+ d22+ d31+ d32 + d`12+ d`13+ d`32 +d``12)/10
Centroid
1 2
1
3 m1
2 dm1m2,
m2
unde m1, m2 sunt mediile clusterilor
Calcularea distanţelor faţă
de un cluster partea III
Ward’s Method
urmăreşte minimizarea PIERDERII DE INFORMAŢIE: suma
pătratelor abaterilor fiecărui item din cluster de la
media, eroarea sumei pătratelor
+++++
+
România
Slovenia
Slovacia
Cehia
Ungaria
Polonia
1 2 3 4 5
1 0
Pornim de la o matrice de similaritate. 2 9 0
Cea mai mică distanţă este între perechea 3 şi 5 3 3 7 0
4 6 5 9 0
5 11 10 2 8 0
Recalcularea distanţei între noul cluster format şi
ceilalţi itemi se face prin metoda single linkage (35) 1 2 4
d(35)1= min (d31, d51) = min (3, 11) = 3 (35) 0
1 3 0
d(35)2= min (d32, d52) = min (7, 10) = 7 2 7 9 0
d(35)4= min (d34, d54) = min (9, 8) = 8 4 8 6 5 0
Cea mai mică distanţă este între perechea (35) şi 1
6
5
4 Dendograma arată programul de
3 aglomerare a clusterilor: valoarea
2
la care s-au unit clasele
1
0 1 3 5 2 4
Câţi clusteri să păstrăm?
Nu există un criteriu statistic puternic, precum ar fi
testele de semnificaţie, care sa ne indice cu o anumită
probabilitate care este structura datelor. Totuşi pentru a
decide câţi clusteri să pastrăm putem sa folosim
următoarele strategii:
6
raţiuni teoretice 5
4
utilizarea şi a metodelor non-ierarhice 3
analize de varianţă 2
1
graficul aglomrarilor 0 1 2 3
Distanţa la care
s-au unit clusterele
Algoritm non-ierarhic