Sunteți pe pagina 1din 18

Analiz Cluster

Gruparea cazurilor
sau
a variabilelor
Cnd utilizm aceast
metoda?
=Avem un set de date i vrem s tim cum
anume se grupeaz cazurile sau
variabilele
Ede ex. vrem sa tim cum anume se grupeaz oraele
Romaniei n funcie de cateva variabile demografice
(mortalitate infantil, natalitate, sperana de viat la
natere)
Ede ex. vrem s tim ce variabile demografice au
valori asemntoare pentru cazurile cu care lucm
Specificul acestei metode
=Dorim s detectm clasele NATURALE n
care itemii sau variabilele se plaseaz nu
s creem noi o ordine n structura datelor

=Clasele nu sunt date din punct de vedere
statistic, precum se ntmpl n alte
metode (de ex. analiza discriminant), ci
trebuie descoperite
Tipuri de analiz cluster
=Metode non-ierarhice
Ecea mai cunoscut metoda de acest fel este k-means
(metoda celor k-medii): se pornete de la k valori (de
obicei aleatoare) i n functie de ele se construiesc
clusterele
=Metode ierarhice
Eaglomerative: se pornete de la n clase (cte cazuri
avem) i se ajunge la o clas care le cuprinde pe toate
cellate anterioare ei
Edivizive: se pornete de la o clas i se ajunge la n
clase (cte cazuri avem) cuprinse n clasa de pornire
Algoritm ierarhic aglomerativ
1. Calcularea distanelor
ntre itemi
2. Selectarea perechii
de itemi care este cea
mai apropiat i
unirea lor ntr-o clas
3. Recalcularea distantelor
fa de celelte clase, itemi
4 (2 din nou). Selectarea
perechii de itemi care
este cea mai apropiat
i unirea lor ntr-o clas
Algoritm ierarhic aglomerativ
=1. Calcularea distanelor ntre itemi
=2. Selectarea perechii de itemi care este
cea mai apropiat i unirea acelei perechii
ntr-o clas
=3. Recalcularea distantelor fa de celelte
clase, itemi
=4. Se reia punctul (2.) pn cnd se
obine o singur clas (cluster)
Calcularea distantelor
partea I
=Calcularea distanelor ntre itemi se poate face
n mai multe moduri:
EEuclidien ( (x
i
-y
i
)
2
)
1/2

Distana
Euclidian
X
Y
X
1

Y
2

X
1

Y
2

Distana
Manhatan
X
Y
X
1

Y
2

X
1

Y
2



EManhatan lx
i
-y
i
l
EChebyshev max
i
lx
i
-y
i
l
EMinkovsky ( lx
i
-y
i
l
p
)
1/p

EPutere ( lx
i
-y
i
l
p
)
1/r
Calcularea distantelor
partea II
=Cnd calculm distane ntre variabile folosim n
general:
ECorelaia Pearson
ECorelaia ntre vectori
Nota: aceste distane se pot folosi si pentru gruparea cazurilor
Putem reprezenta cazurile ca
puncte n spaiul trasat de
variabile ca i coordonate
variabila 1
v
a
r
i
a
b
i
l
a

2

Sau putem reprezenta variabi-
lele ca vectori n spaiul trasat
de cazuri ca i coordonate
cazul 1
c
a
z
u
l

2

Calcularea distantelor
un exemplu partea III
Cs. La cine ai apela dac ai avea nevoie
de?
N
u

e

c
a
z
u
l
,

l
e
r
e
z
o
l
v

s
i
n
g
u
r
N
u

a
m

l
a

c
i
n
e
a
p
e
l
a
R
u
d
e
P
r
i
e
t
e
n
i
C
o
l
e
g
i

d
e

c
a
m
e
r

,
v
e
c
i
n
i
C
o
l
e
g
i

d
e

c
o
a
l

P
r
o
f
e
s
o
r
i
A
l
t
e
l
e
a. Intervenii la Decanat sau Rectorat
33.49 7.36 6.95 8.85 1.55 6.09 41.52 2.87
b. Informaii legate de bibliografie/ surse
suplimentare
8.10 .63 2.07 13.90 7.76 40.09 64.44 3.16
c. Lmurirea unor neclariti legate de
domeniile studiate
4.82 .29 1.72 10.62 6.67 37.09 71.29 1.49
d. Intervenii la secretariat/ serviciu
social
51.58 8.79 3.04 9.02 1.90 7.69 15.79 7.29
e. Ajutor n contestarea unei note
41.82 7.01 1.55 3.04 .75 6.55 39.69 2.93
Calcularea distantelor
Matricea de disimilaritate partea IV
=Matricea de disimilaritate este matricea distanelor ntre
cazuri (variabile). Este o matrice simetric
=Pentru ex.de mai sus, distana euclidian ntre cazul 1 i
2 este calculat astfel:
a. Intervenii la Decanat sau Rectorat
33.49 7.36 6.95 8.85 1.55 6.09 41.52
b. Informaii legate de bibliografie/ surse
suplimentare
8.10 .63 2.07 13.90 7.76 40.09 64.44
(a
i
- b
i
)
2
Distanta
2
(1,2) = 644.6521 + 45.2929 + 23.8144 +
25.5025 + 38.5641 + 1156 +
525.3264 + 0.0841 = 2459.237
Distanta

(1,2) = 49.59069
4 9 . 5 9 3 5 2 . 7 0 9 3 2 . 0 7 6 1 1 . 6 8 6
4 9 . 5 9 3 9 . 0 3 6 7 3 . 8 2 0 5 5 . 5 2 2
5 2 . 7 0 9 9 . 0 3 6 7 9 . 1 4 6 5 8 . 6 5 4
3 2 . 0 7 6 7 3 . 8 2 0 7 9 . 1 4 6 2 7 . 0 0 3
1 1 . 6 8 6 5 5 . 5 2 2 5 8 . 6 5 4 2 7 . 0 0 3
C a s e
1
2
3
4
5
12345
E u c l i d e a n D i s ta n c e
P r o x im it y M a t r i x
T h i s i s a d i s s i mi l a r i ty ma t r i x
Calcularea distanelor fa
de un cluster partea I
=Dup unirea a doi itemi apropiai i formarea unui
cluster nou se pune problema recalculrii distanelor
dintre noul cluster i ceilali clusteri (itemi). n acest
sens avem mai multe metode:
1
2
3 1
2
= Nearest neighbor sau Single linkage:
d
31

d
12

1
2
3 1
2
= Furtest neighbor sau Complete linkage:
Calcularea distanelor fa
de un cluster partea II
1
3
2
1
2
= Average linkage between groups
(d
11
+ d
12
+ d
21
+ d
22
+ d
31
+ d
32
)/6
1
3
2
1
2
m
1

m
2

= Centroid
d
m1m2,
unde m
1
, m
2
sunt mediile clusterilor
= Average linkage whithin groups
(d
11
+ d
12
+ d
21
+ d
22
+ d
31
+ d
32
+ d`
12
+ d`
13
+ d`
32 +
d``
12
)/10
1
3
2
1
2
Calcularea distanelor fa
de un cluster partea III
= Wards Method
Eurmrete minimizarea PIERDERII DE INFORMAIE: suma
ptratelor abaterilor fiecrui item din cluster de la
media, eroarea sumei ptratelor

EESP
total
= ESP
1
+ ESP
2
+ + ESP
k
, 1...k clusteri

Ela fiecare pas este luat n considerare fiecare pereche
care ar putea fi unit ntr+un cluster, iar perechea care
conduce la cele mai mici pierderi de informaie este
unificat
Gruparea cazurilor: dendograma

Grafic 1. Exporturile rilor CEFTA n CU (dendogram) 1996-1998
Distane rescalate de unire a clusterilor
0 5 10 15 20 25

+---------+---------+---------+---------+---
------+
Romnia -^
Slovenia
-;--------------------------------------------
---^
Slovacia -u
Cehia --^
Ungaria -u
---------------------------------------------
u
Polonia ---u

Surs: calculele autorului pe baza informailor disponibile la www.cfta.org.
Date: valoarea n mii de dolari a exportaturilor fiecrei ri CEFTA n CU.
Metoda: analiz ierarhic cluster, metoda Ward, distane euclidiene ptrate.
Interpretare: distanele la care se unesc dou ri sau grupuri de ri indic similitudinea lor.
Soft utilizat: SPSS Inc, 2000.
Un exemplu

1 2 3 4 5
1 0
2 9 0
3 3 7 0
4 6 5 9 0
5 11 10 2 8 0
= Pornim de la o matrice de similaritate.
Cea mai mic distan este ntre perechea 3 i 5
(35) 1 2 4
(35) 0
1 3 0
2 7 9 0
4 8 6 5 0
= Recalcularea distanei ntre noul cluster format i
ceilali itemi se face prin metoda single linkage
Ed
(35)1
= min (d
31
, d
51
) = min (3, 11) = 3
Ed
(35)2
= min (d
32
, d
52
) = min (7, 10) = 7
Ed
(35)4
= min (d
34
, d
54
) = min (9, 8) = 8
Cea mai mic distan este ntre perechea (35) i 1
(351) 2 4
(351) 0
2 7 0
4 6 5 0
= Distana ntre clusterul (351) i ceilali itemi
Ed
(351)2
= min (d
(35)2
, d
12
) = min (7, 9) = 7
Ed
(351)4
= min (d
(35)4
, d
14
) = min (8, 6) = 6
Cea mai mic distan este ntre perechea 2 i 4
Un exemplu
continuare
= Distana ntre clusterul (351) i clusterul (24)
Ed
(351)(24)
= min (d
(351)2
, d
(351)4
) = min (7, 6) = 6
(351) (24)
(351) 0
(24) 6 0
1
2
3
4
5
6
0
1 3 5 2 4
Dendograma arat programul de
aglomerare a clusterilor: valoarea
la care s-au unit clasele
Ci clusteri s pstrm?
=Nu exist un criteriu statistic puternic, precum ar fi
testele de semnificaie, care sa ne indice cu o anumit
probabilitate care este structura datelor. Totui pentru a
decide ci clusteri s pastrm putem sa folosim
urmtoarele strategii:
Eraiuni teoretice
Eutilizarea i a metodelor non-ierarhice
Eanalize de varian
Egraficul aglomrarilor
1
2
3
4
5
6
0
1 2 3
Distana la care
s-au unit clusterele
Algoritm non-ierarhic
=1. Partiionarea itemilor n k clase iniiale
=2. Unific itemul cu clusterul a crui
centroid (medie) este cel mai aproape
=3. Recalculeaz centroidul
Eatt pentru clusterul care a nglobat itemul
Ect si pentru clusterul care l-a pierdut
=4. Reia pasul 2 i 3 pn nu mai au loc
modificri