Documente Academic
Documente Profesional
Documente Cultură
Norbert Petrovici - Analiza Cluster
Norbert Petrovici - Analiza Cluster
Gruparea cazurilor
sau
a variabilelor
Metode ierarhice
aglomerative: se pornete de la n clase (cte
cazuri avem) i se ajunge la o clas care le
cuprinde pe toate cellate anterioare ei
Calcularea distantelor
partea I
Y2
Distana
Manhatan
X1
Y2
Calcularea distantelor
partea II
Cnd calculm distane ntre variabile folosim n
general:
Corelaia Pearson
Corelaia ntre vectori
var
2
cazul 2
variabila 2
r
va
variabila 1
cazul 1
Calcularea distantelor
un exemplu
A lte le
c , o a l
P r o fe so r i
C o le g i d e
C o le g i d e c a m e r
v e c in i
P r ie te n i
R ude
N u a m la c in e
a p e la
N u e c a z u l, le
r e z o lv s in g u r
partea III
33.49
7.36
6.95 8.85
1.55
6.09
41.52
2.87
8.10
.63
2.07 13.90
7.76
40.09
64.44
3.16
4.82
.29
1.72 10.62
6.67
37.09
71.29
1.49
51.58
8.79
3.04 9.02
1.90
7.69
15.79
7.29
41.82
7.01
1.55 3.04
.75
6.55
39.69
2.93
Calcularea distantelor
Matricea de disimilaritate
partea IV
33.49
7.36
6.95 8.85
1.55
6.09
41.52
8.10
.63
2.07 13.90
7.76
40.09
64.44
(a - b )
i
Proximity Matrix
Case
1
2
3
4
5
1
49.593
52.709
32.076
11.686
Euclidean Distance
2
3
49.593
52.709
9.036
9.036
73.820
79.146
55.522
58.654
4
32.076
73.820
79.146
27.003
5
11.686
55.522
58.654
27.003
Calcularea distanelor fa
de un cluster
partea I
Dup unirea a doi itemi apropiai i formarea unui
cluster nou se pune problema recalculrii
distanelor dintre noul cluster i ceilali clusteri
(itemi). n acest sens avem mai multe metode:
Nearest neighbor sau Single linkage:
3
d31
1
2
d12
Calcularea distanelor fa
de un cluster
partea II
Average linkage between groups
2
(d11+ d12+ d21+ d22+ d31+ d32 + d`12+ d`13+ d`32 +d``12)/10
Centroid
1
2
3 m1
1
m2
dm1m2,
unde m1, m2 sunt mediile clusterilor
Calcularea distanelor fa
de un cluster
partea III
Wards Method
1...k
Slovenia
Slovacia
Cehia
Ungaria
Polonia
Un exemplu
Pornim de la o matrice de similaritate.
Cea mai mic distan este ntre perechea 3 i 5
Recalcularea distanei ntre noul cluster format i
ceilali itemi se face prin metoda single linkage
d(35)1= min (d31, d51) = min (3, 11) = 3
d(35)2= min (d32, d52) = min (7, 10) = 7
d(35)4= min (d34, d54) = min (9, 8) = 8
1
2
3
4
5
1
0
9
3
6
11
0
7
5
10
0
9
2
0
8
(35)
(35) 0
1
3
2
7
4
8
0
9
6
0
5
0
5
,d
12
) = min (7, 9) = 7
,d
14
) = min (8, 6) = 6
(35)2
(35)4
(351)
(351)
0
2
7
4
6
Un exemplu
continuare
Distana ntre clusterul (351) i clusterul (24)
d(351)(24)= min (d
(351)2
,d
(351)4
) = min (7, 6) = 6
(351)
(24)
(351)
0
6
(24)
0
6
5
4
3
2
1
0
Ci clusteri s pstrm?
Nu exist un criteriu statistic puternic, precum ar
fi testele de semnificaie, care sa ne indice cu o
anumit probabilitate care este structura datelor.
Totui pentru a decide ci clusteri s pastrm
putem sa folosim urmtoarele strategii:
6
raiuni teoretice
5
4
utilizarea i a metodelor non-ierarhice
3
2
analize de varian
1
0
graficul aglomrarilor
1
Distana la care
s-au unit clusterele
Algoritm non-ierarhic
1. Partiionarea itemilor n k clase iniiale
2. Unific itemul cu clusterul a crui
centroid (medie) este cel mai aproape
3. Recalculeaz centroidul
att pentru clusterul care a nglobat itemul
ct si pentru clusterul care l-a pierdut