Sunteți pe pagina 1din 18

Analiz Cluster

Gruparea cazurilor
sau
a variabilelor

Cnd utilizm aceast


metoda?
Avem un set de date i vrem s tim
cum anume se grupeaz cazurile sau
variabilele
de ex. vrem sa tim cum anume se grupeaz
oraele Romaniei n funcie de cateva variabile
demografice (mortalitate infantil, natalitate,
sperana de viat la natere)
de ex. vrem s tim ce variabile demografice au
valori asemntoare pentru cazurile cu care
lucm

Specificul acestei metode


Dorim s detectm clasele NATURALE n
care itemii sau variabilele se plaseaz nu
s creem noi o ordine n structura datelor
Clasele nu sunt date din punct de vedere
statistic, precum se ntmpl n alte
metode (de ex. analiza discriminant), ci
trebuie descoperite

Tipuri de analiz cluster


Metode non-ierarhice
cea mai cunoscut metoda de acest fel este kmeans (metoda celor k-medii): se pornete de la k
valori (de obicei aleatoare) i n functie de ele se
construiesc clusterele

Metode ierarhice
aglomerative: se pornete de la n clase (cte
cazuri avem) i se ajunge la o clas care le
cuprinde pe toate cellate anterioare ei

divizive: se pornete de la o clas i se ajunge la n


clase (cte cazuri avem) cuprinse n clasa de pornire

Algoritm ierarhic aglomerativ


2. Selectarea perechii
de itemi care este cea
mai apropiat i
unirea lor ntr-o clas
1. Calcularea distanelor
ntre itemi
4 (2 din nou). Selectarea
perechii de itemi care
este cea mai apropiat
i unirea lor ntr-o clas
3. Recalcularea distantelor
fa de celelte clase, itemi

Algoritm ierarhic aglomerativ


1. Calcularea distanelor ntre itemi
2. Selectarea perechii de itemi care
este cea mai apropiat i unirea acelei
perechii ntr-o clas
3. Recalcularea distantelor fa de
celelte clase, itemi
4. Se reia punctul (2.) pn cnd se
obine o singur clas (cluster)

Calcularea distantelor
partea I

Calcularea distanelor ntre itemi se poate


X
Distana
face n mai multe moduri: X
Euclidian
Euclidien ( (xi-yi)2)1/2
Y
Y
Manhatan lxi-yil
X
Y
Chebyshev maxi lxi-yil
Minkovsky ( lxi-yilp)1/p
X
X
Putere ( lxi-yilp)1/r
1

Y2

Distana
Manhatan

X1

Y2

Calcularea distantelor
partea II
Cnd calculm distane ntre variabile folosim n
general:
Corelaia Pearson
Corelaia ntre vectori

var
2

cazul 2

variabila 2

Nota: aceste distane se pot folosi si pentru gruparea cazurilor

r
va

variabila 1

Putem reprezenta cazurile ca


puncte n spaiul trasat de
variabile ca i coordonate

cazul 1

Sau putem reprezenta variabilele ca vectori n spaiul trasat


de cazuri ca i coordonate

Calcularea distantelor
un exemplu

A lte le
c , o a l
P r o fe so r i

C o le g i d e
C o le g i d e c a m e r
v e c in i
P r ie te n i
R ude
N u a m la c in e
a p e la
N u e c a z u l, le
r e z o lv s in g u r

Cs. La cine ai apela dac ai avea nevoie


de?

partea III

a. Intervenii la Decanat sau Rectorat

33.49

7.36

6.95 8.85

1.55

6.09

41.52

2.87

b. Informaii legate de bibliografie/ surse


suplimentare

8.10

.63

2.07 13.90

7.76

40.09

64.44

3.16

c. Lmurirea unor neclariti legate de


domeniile studiate

4.82

.29

1.72 10.62

6.67

37.09

71.29

1.49

d. Intervenii la secretariat/ serviciu


social

51.58

8.79

3.04 9.02

1.90

7.69

15.79

7.29

e. Ajutor n contestarea unei note

41.82

7.01

1.55 3.04

.75

6.55

39.69

2.93

Calcularea distantelor
Matricea de disimilaritate

partea IV

Matricea de disimilaritate este matricea distanelor ntre


cazuri (variabile). Este o matrice simetric

Pentru ex.de mai sus, distana euclidian ntre cazul 1 i


2 este calculat astfel:
a. Intervenii la Decanat sau Rectorat

33.49

7.36

6.95 8.85

1.55

6.09

41.52

b. Informaii legate de bibliografie/ surse


suplimentare

8.10

.63

2.07 13.90

7.76

40.09

64.44

(a - b )
i

Proximity Matrix

Distanta2 (1,2) = 644.6521 + 45.2929 + 23.8144 +


25.5025 + 38.5641 + 1156 +
525.3264 + 0.0841 = 2459.237
Distanta (1,2) = 49.59069

Case
1
2
3
4
5

1
49.593
52.709
32.076
11.686

This is a dissimilarity matrix

Euclidean Distance
2
3
49.593
52.709
9.036
9.036
73.820
79.146
55.522
58.654

4
32.076
73.820
79.146
27.003

5
11.686
55.522
58.654
27.003

Calcularea distanelor fa
de un cluster
partea I
Dup unirea a doi itemi apropiai i formarea unui
cluster nou se pune problema recalculrii
distanelor dintre noul cluster i ceilali clusteri
(itemi). n acest sens avem mai multe metode:
Nearest neighbor sau Single linkage:
3

d31

Furtest neighbor sau Complete linkage:


3

1
2

d12

Calcularea distanelor fa
de un cluster
partea II
Average linkage between groups
2

(d11+ d12+ d21+ d22+ d31+ d32)/6

Average linkage whithin groups


2

(d11+ d12+ d21+ d22+ d31+ d32 + d`12+ d`13+ d`32 +d``12)/10
Centroid
1

2
3 m1

1
m2

dm1m2,
unde m1, m2 sunt mediile clusterilor

Calcularea distanelor fa
de un cluster
partea III
Wards Method

urmrete minimizarea PIERDERII DE INFORMAIE:


suma ptratelor abaterilor fiecrui item din
cluster de la media, eroarea sumei ptratelor
ESPtotal = ESP1 + ESP2 + + ESPk,
clusteri

1...k

la fiecare pas este luat n considerare fiecare


pereche care ar putea fi unit ntr+un cluster, iar
perechea care conduce la cele mai mici pierderi
de informaie este unificat

Gruparea cazurilor: dendograma


Grafic 1. Exporturile rilor CEFTA n CU (dendogram) 1996-1998
Distane rescalate de unire a clusterilor
0
5
10
15
20
25
++++++
Romnia

Slovenia
Slovacia

Cehia

Ungaria

Polonia

Surs: calculele autorului pe baza informailor disponibile la www.cfta.org.


Date: valoarea n mii de dolari a exportaturilor fiecrei ri CEFTA n CU.
Metoda: analiz ierarhic cluster, metoda Ward, distane euclidiene ptrate.
Interpretare: distanele la care se unesc dou ri sau grupuri de ri indic similitudinea lor.
Soft utilizat: SPSS Inc, 2000.

Un exemplu
Pornim de la o matrice de similaritate.
Cea mai mic distan este ntre perechea 3 i 5
Recalcularea distanei ntre noul cluster format i
ceilali itemi se face prin metoda single linkage
d(35)1= min (d31, d51) = min (3, 11) = 3
d(35)2= min (d32, d52) = min (7, 10) = 7
d(35)4= min (d34, d54) = min (9, 8) = 8

1
2
3
4
5

1
0
9
3
6
11

0
7
5
10

0
9
2

0
8

(35)
(35) 0
1
3
2
7
4
8

0
9
6

0
5

0
5

Cea mai mic distan este ntre perechea (35) i 1

Distana ntre clusterul (351) i ceilali itemi


d(351)2= min (d
d(351)4= min (d

,d

12

) = min (7, 9) = 7

,d

14

) = min (8, 6) = 6

(35)2
(35)4

Cea mai mic distan este ntre perechea 2 i 4

(351)
(351)
0
2
7
4
6

Un exemplu
continuare
Distana ntre clusterul (351) i clusterul (24)
d(351)(24)= min (d

(351)2

,d

(351)4

) = min (7, 6) = 6

(351)
(24)

(351)
0
6

(24)
0

6
5

Dendograma arat programul de


aglomerare a clusterilor:
valoarea la care s-au unit clasele

4
3
2
1
0

Ci clusteri s pstrm?
Nu exist un criteriu statistic puternic, precum ar
fi testele de semnificaie, care sa ne indice cu o
anumit probabilitate care este structura datelor.
Totui pentru a decide ci clusteri s pastrm
putem sa folosim urmtoarele strategii:
6
raiuni teoretice
5
4
utilizarea i a metodelor non-ierarhice
3
2
analize de varian
1
0
graficul aglomrarilor
1

Distana la care
s-au unit clusterele

Algoritm non-ierarhic
1. Partiionarea itemilor n k clase iniiale
2. Unific itemul cu clusterul a crui
centroid (medie) este cel mai aproape
3. Recalculeaz centroidul
att pentru clusterul care a nglobat itemul
ct si pentru clusterul care l-a pierdut

4. Reia pasul 2 i 3 pn nu mai au loc


modificri

S-ar putea să vă placă și