Sunteți pe pagina 1din 6

2.3.

METODE DE CLASIFICARE NEIERARHICA


Cu acestea
(2)

IW

k X
X

(1)

d2 j; gi

115

(1)

IW

i=1 j2Egi

Cum card (Eci ) = n < 1 rezult


a Pn;k < 1 ceea ce implic
a j < 1.
Experienta arat
a c
a viteza de convergenta este rapid
a.
Trebuie remarcat si faptul c
a, la ecare pas neind necesar dect calculul
a nk distante, acelea dintre cei n indivizi si cele k centre de greutate, nu este
necesar
a mentinerea n memorie a tabelului cu cele n(n2 1) distante dintre
indivizi.
Inconvenientele metodei sunt:
k trebuie cunoscut priori;
optimul este dependent de alegerea initial
a a punctelor.
n metoda precedent
a se asteapt
a ca toti indivizii s
a e afectati unei clase
pentru a calcula centrul de greutate.
Metoda k-mediilor (k-means) a lui MacQueen (conform [42]), recalculeaz
a
centrele de greutate dup
a ecare afectare.
Pentru a nl
atura dependenta metodei de punctele initiale se utilizeaz
a
metoda norilor dinamici a lui E. Diday (conform [17]), care este o generalizare
a metodei centrelor mobile n sensul c
a ecare clas
a nu mai este reprezentat
a
de centrul s
au de greutate ci de un nucleu de g-puncte (cele mai centrale, de
exemplu), de o ax
a principal
a, de un plan principal.

2.3.2

Exemplu

Descrierea datelor
Revenind la exemplul raselor de cini (subcapitolul 1.4.6) reamintim c
a
n urma aplic
arii analizei corespondentelor multiple au fost identicate patru
grup
ari principale:
cinii de vn
atoare
cinii de paz
a
cinii de companie
rase lente si mai putin inteligente.
Acest rezultat va comparat cu rezultatul obtinut utiliznd metoda de
clasicare neierarhic
a k-means pentru identicarea partitiei optime n k = 4
clustere a multimii raselor de cini. Reamintim c
a o conditie principal
a pentru
utilizarea acestei metode este cunoasterea priori a num
arului de clase (vezi
subcapitolul 2.3). Datele de intrare se reg
asesc n tabelul A.4. (Anex
a) cu

116

CAPITOLUL 2. METODE DE CLASIFICARE

mentiunea c
a, de aceast
a dat
a, variabila care d
a denumirile raselor (R) nu va
mai constitui o variabil
a suplimentar
a ci o variabil
a de etichetare a indivizilor.
Pentru a realiza aceast
a modicare, n bara de meniu se apas
a Cases, Case
Names Manager si, n fereastra ap
arut
a, se completeaz
a numele variabilei de
unde se preiau numele indivizilor - R (g. 2.3.3.).

fig. 2.3.3. Case names manager


Efectuarea analizei
si interpretarea rezultatelor
Din bara de meniu se selecteaz
a Statistics, Multivariate Exporatory Techniques, Cluster Analysis si, n fereastra de dialog ap
arut
a, se alege metoda de
analiz
a K-Means Clustering. Dup
a ap
asarea butonului OK, n fereastra corespunz
atoare metodei selectate se acceseaz
a meniul Advanced.

fig. 2.3.4. Fereastra de start


Butonul Variables aseaz
a lista variabilelor pentru analiz
a, dintre acestea
urmnd a selectate toate mai putin variabila FN si variabila R. n continuare,
ca entit
ati de clasicat, se aleg rndurile tabelului (adic
a indivizii - rasele de
cini) si se indic
a num
arul de clustere n care se face clasicarea - 4. Pentru
num
arul de iteratii ale algoritmului de clasicare (vezi subcapitolul 2.3.1) si
centrele initiale ale clusterelor se p
astreaz
a set
arile implicite.


2.3. METODE DE CLASIFICARE NEIERARHICA

117

Pentru activarea ferestrei ce permite generarea rezultatelor specice clasic


arii prin metoda k-means (g. 2.3.5.) se apas
a butonul OK. n acest
a fereastr
a este prezentat si un rezumat al datelor de plecare: num
arul indivizilor (27
rase de cini) si al variabilelor (6 nsusiri) care particip
a la analiz
a, num
arul
de clustere formate (4) si num
arul de iteratii ale algoritmului de clasicare (2).

fig. 2.3.5 Fereastra de rezultate


Generarea tuturor rezultatelor se va face din meniul Advanced. Conform indicatiilor initiale, algoritmul a mp
artit multimea raselor de cini n
patru clase, urm
arind formarea de grup
ari omogene si bine denite, cu alte
cuvinte, valorile inertiei inter-clase dep
asesc semnicativ valorile inertiei intraclase. Tabelul 2.3.1., rezultat prin ap
asarea butonului Analysis of variance,
pune n evidenta valorile mari ale inertiei inter-clase (Between SS ) comparativ
cu cele ale inertiei intra-clase (Within SS ) pentru variabilele TALIE, MASA,
VITEZA. Mai mult, valorile testelor F la pragurile de semnicatie p desemneaz
a aceste variabile ca ind principalele criterii de asignare a indivizilor la
clustere.
tabelul 2.3.1. Analiza varianT ei

Butonul Members of each cluster and distances genereaz


a, pentru ecare
dintre cele patru clase, cte un tabel continnd membrii clasei respective si

118

CAPITOLUL 2. METODE DE CLASIFICARE

distanta de la ecare membru la centrul clasei din care face parte (tabelul
2.3.2.).
Caracteristicile specice ec
arei clase sunt date de mediile variabilelor
ce particip
a la analiz
a, calculate pentru ecare clas
a. Aceste rezultate sunt
disponibile n format tabelar, prin ap
asarea butonului Descriptive statistics
for each cluster, sau n format grac, prin ap
asarea butonului Graph of means
(g 2.3.6.).
tabelul 2.3.2. Membrii clusterelor Si distanT ele la centre

fig. 2.3.6. Graficul mediilor pe clustere


2.3. METODE DE CLASIFICARE NEIERARHICA

119

Examinnd tabelul 2.3.2. si gracul din gura 2.3.6.. rezult


a:
Clusterul 1 este caracterizat, n ansamblu, de: talie, mas
a si agresivitate maxime, vitez
a si afectiune minime, inteligenta medie si cuprinde
rasele TERN, STBE, MAST, BULM (vezi si g 2.3.7.).
Clusterul 2 este caracterizat, n ansamblu, de: talie si vitez
a maxime,
mas
a medie, inteligenta medie (majoritatea membrilor au inteligenta
medie sau ridicat
a), afectiune medie (majoritatea membrilor manifest
a
afectiune scazut
a, variabila AFECT are doar 2 modalit
ati), agresivitate
medie si cuprinde rasele DOBE, CIOB, BEAU, SETT, POINT, LEVR,
FOXH, COLL, GASC, EPAF, DOGG.
Clusterul 3 este caracterizat, n ansamblu, de: talie, mas
a si vitez
a
medii, inteligenta si afectiune maxime, agresivitate minim
a si cuprinde
rasele LABR, EPAB, DALM, BOXE, CANI.
Clusterul 4 este caracterizat, n ansamblu, de: talie, mas
a si inteligenta
minime, vitez
a si agresivitate reduse (cu exceptia FOXT, membrii sunt
caracterizati de modalitatea VIT1 - vitez
a mic
a), afectiune ridicat
a (cu
exceptia BASS, membrii sunt caracterizati de modalitatea AFECT2 afectiune ridicat
a, si variabila AFECT are doar 2 modalit
ati) si cuprinde
rasele: COCK, FOXT, BASS, TECK, PEKI, CHIH, BULD. Se poate
spune, deci, c
a acesta reprezint
a clusterul cinilor de companie.

fig. 2.3.7. Identificarea clusterlor obT inute prin metoda


k-means

120

CAPITOLUL 2. METODE DE CLASIFICARE


Concluzii:
clasicarea obtinut
a prin metoda k-means se reg
aseste aproape identic
n reprezentarea grac
a a variabilelor obtinut
a prin analiza corespondentelor multiple.
cu toate acestea, clusterele obtinute prin metoda k-means nu coincid
n totalitate cu grup
arile identicate conform interpret
arii rezultatelor
ACM.
Aceast
a nepotrivire se datoreaz
a, probabil, faptului c
a:
informatiile asupra raselor de cini (talie, mas
a...) nu sunt suciente
pentru a ncadra cu precizie o ras
a ntr-o anumit
a clas
a;
valorile reale ale variabilelor talie, mas
a, etc. au fost "reduse" la o singur
a valoare, n functie de num
arul de modalit
ati ale variabilei - 1, 2, 3
sau 1, 2, conform apartenentei la un anume interval de valori.
alegerea unui num
ar prea mic de intervale de valori, deci de modalit
ati,
pentru ecare variabil
a.

2.4

Metode de clasicare ierarhic


a

Principiile generale comune diverselor tehnici de clasicare ascendente


ierarhice sunt simple. Aceste principii tin mai mult de bunul simt dect de
o teorie formalizat
a de aceea este dicil s
a li se g
aseasc
a o paternitate. Expunerile cele mai sistematice si cele mai vechi sunt poate cele ale lui Sokal si
Sneath (n [57]) apoi cele ale lui Lance si Williams (n [39]).
Algoritmul const
a n crearea, la ecare etap
a, a unei partitii obtinute prin
agregarea celor mai apropiate dou
a elemente. Se va desemna prin element n
acelasi timp indivizii sau obiectele de clasat ct si grup
arile de indivizi generate
de algoritm. Exist
a diferite criterii de agregare, de unde si un num
ar important
de variante ale acestei tehnici.
Algoritmul nu furnizeaz
a o partitie n q clase a unei multimi de n obiecte,
ci o ierarhie de partitii. Aceast
a ierarhie se prezint
a sub forma unui arbore
numit si dendograma si contine n 1 partitii. Interesul pentru acest arbore
este dat de faptul c
a acesta poate furniza o idee despre num
arul de clase ce
exist
a efectiv n populatie. Fiecare t
aierea dendogramei furnizeaz
a o partitie
avnd cu att mai putine clase, si acestea ind cu att mai putin omogene, cu
ct t
aierea se face mai sus.

2.4.1

Aspecte formale

Deni
tia 2.4.1 Fie E o multime nit
a. O multime de multimi, H
se numeste ierarhie dac
a si numai dac
a

P (E),

S-ar putea să vă placă și