Norbert Petrovici - Analiza Cluster

Analiz Cluster
Gruparea cazurilor
sau
a variabilelor
Cnd utilizm aceast
metoda?
=Avem un set de date i vrem s tim cum
anume se grupeaz cazurile sau
variabilele
Ede ex. vrem sa tim cum anume se grupeaz oraele
Romaniei n funcie de cateva variabile demografice
(mortalitate infantil, natalitate, sperana de viat la
natere)
Ede ex. vrem s tim ce variabile demografice au
valori asemntoare pentru cazurile cu care lucm
Specificul acestei metode
=Dorim s detectm clasele NATURALE n
care itemii sau variabilele se plaseaz nu
s creem noi o ordine n structura datelor

=Clasele nu sunt date din punct de vedere
statistic, precum se ntmpl n alte
metode (de ex. analiza discriminant), ci
trebuie descoperite
Tipuri de analiz cluster
=Metode non-ierarhice
Ecea mai cunoscut metoda de acest fel este k-means
(metoda celor k-medii): se pornete de la k valori (de
obicei aleatoare) i n functie de ele se construiesc
clusterele
=Metode ierarhice
Eaglomerative: se pornete de la n clase (cte cazuri
avem) i se ajunge la o clas care le cuprinde pe toate
cellate anterioare ei
Edivizive: se pornete de la o clas i se ajunge la n
clase (cte cazuri avem) cuprinse n clasa de pornire
Algoritm ierarhic aglomerativ
1. Calcularea distanelor
ntre itemi
2. Selectarea perechii
de itemi care este cea
mai apropiat i
unirea lor ntr-o clas
3. Recalcularea distantelor
fa de celelte clase, itemi
4 (2 din nou). Selectarea
perechii de itemi care
este cea mai apropiat
i unirea lor ntr-o clas
Algoritm ierarhic aglomerativ
=1. Calcularea distanelor ntre itemi
=2. Selectarea perechii de itemi care este
cea mai apropiat i unirea acelei perechii
ntr-o clas
=3. Recalcularea distantelor fa de celelte
clase, itemi
=4. Se reia punctul (2.) pn cnd se
obine o singur clas (cluster)
Calcularea distantelor
partea I
=Calcularea distanelor ntre itemi se poate face
n mai multe moduri:
EEuclidien ( (x
i
-y
i
)
2
)
1/2

Distana
Euclidian
X
Y
X
1

Y
2

X
1

Y
2

Distana
Manhatan
X
Y
X
1

Y
2

X
1

Y
2

EManhatan lx
i
-y
i
l
EChebyshev max
i
lx
i
-y
i
l
EMinkovsky ( lx
i
-y
i
l
p
)
1/p

EPutere ( lx
i
-y
i
l
p
)
1/r
partea II
=Cnd calculm distane ntre variabile folosim n
general:
ECorelaia Pearson
ECorelaia ntre vectori
Nota: aceste distane se pot folosi si pentru gruparea cazurilor
Putem reprezenta cazurile ca
puncte n spaiul trasat de
variabile ca i coordonate
variabila 1
v
a
r
i
a
b
i
l
a

2

Sau putem reprezenta variabi-
lele ca vectori n spaiul trasat
de cazuri ca i coordonate
cazul 1
c
a
z
u
l

2

un exemplu partea III
Cs. La cine ai apela dac ai avea nevoie
de?
N
u

e

c
a
z
u
l
,

l
e
r
e
z
o
l
v

s
i
n
g
u
r
N
u

a
m

l
a

c
i
n
e
a
p
e
l
a
R
u
d
e
P
r
i
e
t
e
n
i
C
o
l
e
g
i

d
e

c
a
m
e
r
,
v
e
c
i
n
i
C
o
l
e
g
i

d
e

c
o
a
l
P
r
o
f
e
s
o
r
i
A
l
t
e
l
e
a. Intervenii la Decanat sau Rectorat
33.49 7.36 6.95 8.85 1.55 6.09 41.52 2.87
b. Informaii legate de bibliografie/ surse
suplimentare
8.10 .63 2.07 13.90 7.76 40.09 64.44 3.16
c. Lmurirea unor neclariti legate de
domeniile studiate
4.82 .29 1.72 10.62 6.67 37.09 71.29 1.49
d. Intervenii la secretariat/ serviciu
social
51.58 8.79 3.04 9.02 1.90 7.69 15.79 7.29
e. Ajutor n contestarea unei note
41.82 7.01 1.55 3.04 .75 6.55 39.69 2.93
Matricea de disimilaritate partea IV
=Matricea de disimilaritate este matricea distanelor ntre
cazuri (variabile). Este o matrice simetric
=Pentru ex.de mai sus, distana euclidian ntre cazul 1 i
2 este calculat astfel:
a. Intervenii la Decanat sau Rectorat
33.49 7.36 6.95 8.85 1.55 6.09 41.52
b. Informaii legate de bibliografie/ surse
suplimentare
8.10 .63 2.07 13.90 7.76 40.09 64.44
(a
i
- b
i
)
2
Distanta
2
(1,2) = 644.6521 + 45.2929 + 23.8144 +
25.5025 + 38.5641 + 1156 +
525.3264 + 0.0841 = 2459.237
Distanta

(1,2) = 49.59069
4 9 . 5 9 3 5 2 . 7 0 9 3 2 . 0 7 6 1 1 . 6 8 6
4 9 . 5 9 3 9 . 0 3 6 7 3 . 8 2 0 5 5 . 5 2 2
5 2 . 7 0 9 9 . 0 3 6 7 9 . 1 4 6 5 8 . 6 5 4
3 2 . 0 7 6 7 3 . 8 2 0 7 9 . 1 4 6 2 7 . 0 0 3
1 1 . 6 8 6 5 5 . 5 2 2 5 8 . 6 5 4 2 7 . 0 0 3
C a s e
1
2
3
4
5
12345
E u c l i d e a n D i s ta n c e
P r o x im it y M a t r i x
T h i s i s a d i s s i mi l a r i ty ma t r i x
Calcularea distanelor fa
de un cluster partea I
=Dup unirea a doi itemi apropiai i formarea unui
cluster nou se pune problema recalculrii distanelor
dintre noul cluster i ceilali clusteri (itemi). n acest
sens avem mai multe metode:
1
2
3 1
2
= Nearest neighbor sau Single linkage:
d
31

d
12

1
2
3 1
2
= Furtest neighbor sau Complete linkage:
de un cluster partea II
1
3
2
1
2
= Average linkage between groups
(d
11
+ d
12
+ d
21
+ d
22
+ d
31
+ d
32
)/6
1
3
2
1
2
m
1

m
2

= Centroid
d
m1m2,
unde m
1
, m
2
sunt mediile clusterilor
= Average linkage whithin groups
(d
11
+ d
12
+ d
21
+ d
22
+ d
31
+ d
32
+ d`
12
+ d`
13
+ d`
32 +
d``
12
)/10
1
3
2
1
2
de un cluster partea III
= Wards Method
Eurmrete minimizarea PIERDERII DE INFORMAIE: suma
ptratelor abaterilor fiecrui item din cluster de la
media, eroarea sumei ptratelor

EESP
total
= ESP
1
+ ESP
2
+ + ESP
k
, 1...k clusteri

Ela fiecare pas este luat n considerare fiecare pereche
care ar putea fi unit ntr+un cluster, iar perechea care
conduce la cele mai mici pierderi de informaie este
unificat
Gruparea cazurilor: dendograma

Grafic 1. Exporturile rilor CEFTA n CU (dendogram) 1996-1998
Distane rescalate de unire a clusterilor
0 5 10 15 20 25

+---------+---------+---------+---------+---
------+
Romnia -^
Slovenia
-;--------------------------------------------
---^
Slovacia -u
Cehia --^
Ungaria -u
---------------------------------------------
u
Polonia ---u

Surs: calculele autorului pe baza informailor disponibile la www.cfta.org.
Date: valoarea n mii de dolari a exportaturilor fiecrei ri CEFTA n CU.
Metoda: analiz ierarhic cluster, metoda Ward, distane euclidiene ptrate.
Interpretare: distanele la care se unesc dou ri sau grupuri de ri indic similitudinea lor.
Soft utilizat: SPSS Inc, 2000.
Un exemplu

1 2 3 4 5
1 0
2 9 0
3 3 7 0
4 6 5 9 0
5 11 10 2 8 0
= Pornim de la o matrice de similaritate.
Cea mai mic distan este ntre perechea 3 i 5
(35) 1 2 4
(35) 0
1 3 0
2 7 9 0
4 8 6 5 0
= Recalcularea distanei ntre noul cluster format i
ceilali itemi se face prin metoda single linkage
Ed
(35)1
= min (d
31
, d
51
) = min (3, 11) = 3
Ed
(35)2
= min (d
32
, d
52
) = min (7, 10) = 7
Ed
(35)4
= min (d
34
, d
54
) = min (9, 8) = 8
Cea mai mic distan este ntre perechea (35) i 1
(351) 2 4
(351) 0
2 7 0
4 6 5 0
= Distana ntre clusterul (351) i ceilali itemi
Ed
(351)2
= min (d
(35)2
, d
12
) = min (7, 9) = 7
Ed
(351)4
= min (d
(35)4
, d
14
) = min (8, 6) = 6
Cea mai mic distan este ntre perechea 2 i 4
Un exemplu
continuare
= Distana ntre clusterul (351) i clusterul (24)
Ed
(351)(24)
= min (d
(351)2
, d
(351)4
) = min (7, 6) = 6
(351) (24)
(351) 0
(24) 6 0
1
2
3
4
5
6
0
1 3 5 2 4
Dendograma arat programul de
aglomerare a clusterilor: valoarea
la care s-au unit clasele
Ci clusteri s pstrm?
=Nu exist un criteriu statistic puternic, precum ar fi
testele de semnificaie, care sa ne indice cu o anumit
probabilitate care este structura datelor. Totui pentru a
decide ci clusteri s pastrm putem sa folosim
urmtoarele strategii:
Eraiuni teoretice
Eutilizarea i a metodelor non-ierarhice
Eanalize de varian
Egraficul aglomrarilor
1
2
3
4
5
6
0
1 2 3
Distana la care
s-au unit clusterele
Algoritm non-ierarhic
=1. Partiionarea itemilor n k clase iniiale
=2. Unific itemul cu clusterul a crui
centroid (medie) este cel mai aproape
=3. Recalculeaz centroidul
Eatt pentru clusterul care a nglobat itemul
Ect si pentru clusterul care l-a pierdut
=4. Reia pasul 2 i 3 pn nu mai au loc
modificri

Norbert Petrovici - Analiza Cluster

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Norbert Petrovici - Analiza Cluster

Încărcat de

Drepturi de autor:

Formate disponibile

Analiz Cluster

S-ar putea să vă placă și