Norbert Petrovici - Analiza Cluster

Analiz Cluster
Gruparea cazurilor
sau
a variabilelor
Cnd utilizm aceast

metoda?
Avem un set de date i vrem s tim
cum anume se grupeaz cazurile sau
variabilele
de ex. vrem sa tim cum anume se grupeaz
oraele Romaniei n funcie de cateva variabile
demografice (mortalitate infantil, natalitate,
sperana de viat la natere)
de ex. vrem s tim ce variabile demografice au
valori asemntoare pentru cazurile cu care
lucm
Specificul acestei metode

Dorim s detectm clasele NATURALE n
care itemii sau variabilele se plaseaz nu
s creem noi o ordine n structura datelor
Clasele nu sunt date din punct de vedere
statistic, precum se ntmpl n alte
metode (de ex. analiza discriminant), ci
trebuie descoperite
Tipuri de analiz cluster

Metode non-ierarhice
cea mai cunoscut metoda de acest fel este kmeans (metoda celor k-medii): se pornete de la k
valori (de obicei aleatoare) i n functie de ele se
construiesc clusterele
Metode ierarhice
aglomerative: se pornete de la n clase (cte
cazuri avem) i se ajunge la o clas care le
cuprinde pe toate cellate anterioare ei
divizive: se pornete de la o clas i se ajunge la n

clase (cte cazuri avem) cuprinse n clasa de pornire
Algoritm ierarhic aglomerativ

2. Selectarea perechii
de itemi care este cea
mai apropiat i
unirea lor ntr-o clas
1. Calcularea distanelor
ntre itemi
4 (2 din nou). Selectarea
perechii de itemi care
este cea mai apropiat
i unirea lor ntr-o clas
3. Recalcularea distantelor
fa de celelte clase, itemi
Algoritm ierarhic aglomerativ

1. Calcularea distanelor ntre itemi
2. Selectarea perechii de itemi care
este cea mai apropiat i unirea acelei
perechii ntr-o clas
3. Recalcularea distantelor fa de
celelte clase, itemi
4. Se reia punctul (2.) pn cnd se
obine o singur clas (cluster)
Calcularea distantelor
partea I
Calcularea distanelor ntre itemi se poate

X
Distana
face n mai multe moduri: X
Euclidian
Euclidien ( (xi-yi)2)1/2
Y
Y
Manhatan lxi-yil
X
Y
Chebyshev maxi lxi-yil
Minkovsky ( lxi-yilp)1/p
X
X
Putere ( lxi-yilp)1/r
1
Y2
Distana
Manhatan
X1
Y2
partea II
Cnd calculm distane ntre variabile folosim n
general:
Corelaia Pearson
Corelaia ntre vectori
var
2
cazul 2
variabila 2
Nota: aceste distane se pot folosi si pentru gruparea cazurilor
r
va
variabila 1
Putem reprezenta cazurile ca

puncte n spaiul trasat de
variabile ca i coordonate
cazul 1
Sau putem reprezenta variabilele ca vectori n spaiul trasat

de cazuri ca i coordonate
un exemplu
A lte le
c , o a l
P r o fe so r i
C o le g i d e
C o le g i d e c a m e r
v e c in i
P r ie te n i
R ude
N u a m la c in e
a p e la
N u e c a z u l, le
r e z o lv s in g u r
Cs. La cine ai apela dac ai avea nevoie

de?
partea III
a. Intervenii la Decanat sau Rectorat
33.49
7.36
6.95 8.85
1.55
6.09
41.52
2.87
b. Informaii legate de bibliografie/ surse

suplimentare
8.10
.63
2.07 13.90
7.76
40.09
64.44
3.16
c. Lmurirea unor neclariti legate de

domeniile studiate
4.82
.29
1.72 10.62
6.67
37.09
71.29
1.49
d. Intervenii la secretariat/ serviciu

social
51.58
8.79
3.04 9.02
1.90
7.69
15.79
7.29
e. Ajutor n contestarea unei note
41.82
7.01
1.55 3.04
.75
6.55
39.69
2.93
Matricea de disimilaritate
partea IV
Matricea de disimilaritate este matricea distanelor ntre

cazuri (variabile). Este o matrice simetric
Pentru ex.de mai sus, distana euclidian ntre cazul 1 i

2 este calculat astfel:
a. Intervenii la Decanat sau Rectorat
33.49
7.36
6.95 8.85
1.55
6.09
41.52
b. Informaii legate de bibliografie/ surse

suplimentare
8.10
.63
2.07 13.90
7.76
40.09
64.44
(a - b )
i
Proximity Matrix
Distanta2 (1,2) = 644.6521 + 45.2929 + 23.8144 +

25.5025 + 38.5641 + 1156 +
525.3264 + 0.0841 = 2459.237
Distanta (1,2) = 49.59069
Case
1
2
3
4
5
1
49.593
52.709
32.076
11.686
This is a dissimilarity matrix
Euclidean Distance
2
3
49.593
52.709
9.036
9.036
73.820
79.146
55.522
58.654
4
32.076
73.820
79.146
27.003
5
11.686
55.522
58.654
27.003
Calcularea distanelor fa
de un cluster
partea I
Dup unirea a doi itemi apropiai i formarea unui
cluster nou se pune problema recalculrii
distanelor dintre noul cluster i ceilali clusteri
(itemi). n acest sens avem mai multe metode:
Nearest neighbor sau Single linkage:
3
d31
Furtest neighbor sau Complete linkage:

3
1
2
d12
de un cluster
partea II
Average linkage between groups
2
(d11+ d12+ d21+ d22+ d31+ d32)/6
Average linkage whithin groups

2
(d11+ d12+ d21+ d22+ d31+ d32 + d`12+ d`13+ d`32 +d``12)/10
Centroid
1
2
3 m1
1
m2
dm1m2,
unde m1, m2 sunt mediile clusterilor
de un cluster
partea III
Wards Method
urmrete minimizarea PIERDERII DE INFORMAIE:

suma ptratelor abaterilor fiecrui item din
cluster de la media, eroarea sumei ptratelor
ESPtotal = ESP1 + ESP2 + + ESPk,
clusteri
1...k
la fiecare pas este luat n considerare fiecare

pereche care ar putea fi unit ntr+un cluster, iar
perechea care conduce la cele mai mici pierderi
de informaie este unificat
Gruparea cazurilor: dendograma

Grafic 1. Exporturile rilor CEFTA n CU (dendogram) 1996-1998
Distane rescalate de unire a clusterilor
0
5
10
15
20
25
++++++
Romnia
Slovenia
Slovacia
Cehia
Ungaria

Polonia
Surs: calculele autorului pe baza informailor disponibile la www.cfta.org.

Date: valoarea n mii de dolari a exportaturilor fiecrei ri CEFTA n CU.
Metoda: analiz ierarhic cluster, metoda Ward, distane euclidiene ptrate.
Interpretare: distanele la care se unesc dou ri sau grupuri de ri indic similitudinea lor.
Soft utilizat: SPSS Inc, 2000.
Un exemplu
Pornim de la o matrice de similaritate.
Cea mai mic distan este ntre perechea 3 i 5
Recalcularea distanei ntre noul cluster format i
ceilali itemi se face prin metoda single linkage
d(35)1= min (d31, d51) = min (3, 11) = 3
d(35)2= min (d32, d52) = min (7, 10) = 7
d(35)4= min (d34, d54) = min (9, 8) = 8
1
2
3
4
5
1
0
9
3
6
11
0
7
5
10
0
9
2
0
8
(35)
(35) 0
1
3
2
7
4
8
0
9
6
0
5
0
5
Cea mai mic distan este ntre perechea (35) i 1
Distana ntre clusterul (351) i ceilali itemi

d(351)2= min (d
d(351)4= min (d
,d
12
) = min (7, 9) = 7
,d
14
) = min (8, 6) = 6
(35)2
(35)4
Cea mai mic distan este ntre perechea 2 i 4
(351)
(351)
0
2
7
4
6
Un exemplu
continuare
Distana ntre clusterul (351) i clusterul (24)
d(351)(24)= min (d
(351)2
,d
(351)4
) = min (7, 6) = 6
(351)
(24)
(351)
0
6
(24)
0
6
5
Dendograma arat programul de

aglomerare a clusterilor:
valoarea la care s-au unit clasele
4
3
2
1
0
Ci clusteri s pstrm?
Nu exist un criteriu statistic puternic, precum ar
fi testele de semnificaie, care sa ne indice cu o
anumit probabilitate care este structura datelor.
Totui pentru a decide ci clusteri s pastrm
putem sa folosim urmtoarele strategii:
6
raiuni teoretice
5
4
utilizarea i a metodelor non-ierarhice
3
2
analize de varian
1
0
graficul aglomrarilor
1
Distana la care
s-au unit clusterele
Algoritm non-ierarhic
1. Partiionarea itemilor n k clase iniiale
2. Unific itemul cu clusterul a crui
centroid (medie) este cel mai aproape
3. Recalculeaz centroidul
att pentru clusterul care a nglobat itemul
ct si pentru clusterul care l-a pierdut
4. Reia pasul 2 i 3 pn nu mai au loc

modificri

Norbert Petrovici - Analiza Cluster

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Norbert Petrovici - Analiza Cluster

Încărcat de

Drepturi de autor:

Formate disponibile

Analiz Cluster

Cnd utilizm aceast

Specificul acestei metode

Tipuri de analiz cluster

divizive: se pornete de la o clas i se ajunge la n

Algoritm ierarhic aglomerativ

Algoritm ierarhic aglomerativ

Calcularea distanelor ntre itemi se poate

Nota: aceste distane se pot folosi si pentru gruparea cazurilor

Putem reprezenta cazurile ca

Sau putem reprezenta variabilele ca vectori n spaiul trasat

Cs. La cine ai apela dac ai avea nevoie

a. Intervenii la Decanat sau Rectorat

b. Informaii legate de bibliografie/ surse

c. Lmurirea unor neclariti legate de

d. Intervenii la secretariat/ serviciu

e. Ajutor n contestarea unei note

Matricea de disimilaritate este matricea distanelor ntre

Pentru ex.de mai sus, distana euclidian ntre cazul 1 i

b. Informaii legate de bibliografie/ surse

Distanta2 (1,2) = 644.6521 + 45.2929 + 23.8144 +

This is a dissimilarity matrix

Furtest neighbor sau Complete linkage:

(d11+ d12+ d21+ d22+ d31+ d32)/6

Average linkage whithin groups

urmrete minimizarea PIERDERII DE INFORMAIE:

la fiecare pas este luat n considerare fiecare

Gruparea cazurilor: dendograma

Surs: calculele autorului pe baza informailor disponibile la www.cfta.org.

Cea mai mic distan este ntre perechea (35) i 1

Distana ntre clusterul (351) i ceilali itemi

Cea mai mic distan este ntre perechea 2 i 4

Dendograma arat programul de

4. Reia pasul 2 i 3 pn nu mai au loc

S-ar putea să vă placă și