Exemplu Clas Ierarh

134
CAPITOLUL 2. METODE DE CLASIFICARE
Cu ct aceast
a probabilitate este mai mic
a, cu att ipoteza unei extrageri
aleatoare este mai dicil de acceptat. Vom folosi aceast
a probabilitate pentru a
ordona modalit
atile caracteristice clasei (cea mai caracteristic
a corespunznd
celei mai mici probabilit
ati).
Aceast
a probabilitate este adesea foarte mic
a; este comod s
a i se substituie valoarea tk (N ) a variabilei Gauss-Laplace corespunznd aceleiasi probabilit
ati. Ea m
asoar
a distanta ntre proportia n clas
a si proportia general
a n
num
ar de abateri standard a legii normale. Cum
E (N )
nj
n nk
si s2k (N ) = nk
n
n 1
N E (N )
:
) tk (N ) =
sk (N )
=
nk
nj
1
n
nj
n
Aceasta este valoarea-test pentru o modalitate a unei variabile nominale.

Acesta este un criteriu statistic doar pentru variabilele ilustrative.
2.5.3
Exemplu
Descrierea datelor
n cadrul subcapitolelor 1.4.6 respectiv 2.3.2, am analizat un set de date
(tabelul A.4. (Anex
a)) reprezentnd informatii asupra unor nsusiri zice si
temperamentale a 27 de rase de cini. Rezultatele obtinute relativ la clasicarea acestor rase sunt usor diferite pentru cele dou
a analize. Pentru a ne
decide asupra unei interpret
ari, vom aplica o metod
a de clasicare ierarhic
aJoining (Tree Clustering), al c
arei avantaj l reprezint
a capacitatea de oferi o
idee asupra num
arului de clase existente efectiv n cadrul populatiei raselor de
cini. Se vor folosi pentru aceast
a analiz
a datele de intrare din tabelul A.4.,
modicate conform indicatiilor din subcapitolul 2.3.2.
Efectuarea analizei
si interpretarea rezultatelor
Din bara de meniu se selecteaz
a Statistics, Multivariate Exporatory Techniques, Cluster Analysis si, n fereastra de dialog ap
arut
a, se alege metoda de
analiz
a Joining (tree clustering). Dup
a ap
asarea butonului OK, n fereastra
corespunz
atoare metodei selectate se acceseaz
a meniul Advanced. Butonul
Variables aseaz
a lista variabilelor pentru analiz
a, dintre acestea urmnd a
selectate toate mai putin variabila FN si variabila R. n continuare se specic
a:
tipul datelor de intrare (input le) - se alege optiunea Raw data deoarece
tabelul A.4. nu reprezint
a o matrice de distante sau de corelatii;
entit
atile de clasicat (cluster ) - se alege optiunea Cases (rows) deoarece
scopul analizei pentru acest exemplu este clasicarea raselor de cini;

2.5. CLASIFICARE MIXTA
135
strategia de agregare (amalgamation (linkage) rule) - se alege strategia bazat

a pe distanta diametrului (Complete Linkage). Rezultatele
obtinute folosind metoda Ward sunt similare (vezi subcapitolul 2.4.2.);
tipul de distanta (Distance measure) - se alege distanta euclidian

a (Euclidean distances) deoarece indivizii sunt v
azuti ca puncte n spatiul euclidian R6 (6 reprezint
a num
arul de variabile m
asurate pe ecare individ)
fig. 2.5.3. Fereastra de start
Pentru activarea ferestrei ce permite generarea rezultatelor specice clasic

arii prin metoda k-means (g. 2.5.3.) se apas
a butonul OK. n noua fereastr
a este prezentat si un rezumat al datelor de plecare: num
arul indivizilor (27
rase de cini) si al variabilelor (6 nsusiri) care particip
a la analiz
a, metoda de
analiz
a (Joining), strategia de agregare (Complete Linkage) si tipul distantei
(Euclidean Distances).
Generarea tuturor rezultatelor se va face din meniul Advanced. Primul
pas n realizarea clasic
arii prin metoda Joining l reprezint
a calculul matricei
distantelor (butonul Distance Matrix ) - distantele euclidiene, n acest caz. O
submatrice a acestei matricii este prezentat
a n tabelul 2.5.1.
136
fig. 2.5.4. Fereastra de rezultate
tabelul 2.5.1. submatrice a matricei distanT elor euclidiene
Etapele rezultate n urma algoritmului de agregare bazat pe strategia

Complete Linkage pot vizualizate prin ap
asarea butonului Amalgamation
schedule. Tabelul obtinut, redat partial n continuare (tabelul 2.5.2.), contine
pe prima coloan
a indicii de agregare si pe ecare linie membrii clusterului format n urma agreg
arii la nivelul respectiv. Se constat
a c
a primele "grup
ari"
se realizeaz
a ntre indivizii pentru care variabilele care i caracterizeaz
a au valori identice: BULD si TECK, respectiv CHIH si PEKI, DALM si LABR, iar
indicii de agregare sunt nuli, egali cu distantele dinte acesti indivizi. Imaginea
arborelui de clasicare (butonul Horizontal/Vertical hierarchical plot) sintetizeaz
a aceste informatii ntr-o maniera mai sugestiv
a (g. 2.5.6.).

2.5. CLASIFICARE MIXTA
137
tabelul 2.5.2. etape de agregare
fig. 2.5.6. Arborele de clasificare

Clusterele rezultate n urma aplic
arii metodei Joining (g 2.5.6. si tabelul
2.5.3.) sunt apoape identice cu grup
arile generate de metoda k-means (tabelul
138
2.3.2.), singura diferenta ind dat

a de trecerea rasei FOXT din clusterul 4 n
clusterul 3.
tabelul 2.5.3. Membrii clusterelor obT inute prin metoda joining

Exemplu Clas Ierarh

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Exemplu Clas Ierarh

Încărcat de

Drepturi de autor:

Formate disponibile

134

CAPITOLUL 2. METODE DE CLASIFICARE

Aceasta este valoarea-test pentru o modalitate a unei variabile nominale.

strategia de agregare (amalgamation (linkage) rule) - se alege strategia bazat

tipul de distanta (Distance measure) - se alege distanta euclidian

fig. 2.5.3. Fereastra de start

Pentru activarea ferestrei ce permite generarea rezultatelor specice clasic

CAPITOLUL 2. METODE DE CLASIFICARE

fig. 2.5.4. Fereastra de rezultate

tabelul 2.5.1. submatrice a matricei distanT elor euclidiene

Etapele rezultate n urma algoritmului de agregare bazat pe strategia

tabelul 2.5.2. etape de agregare

fig. 2.5.6. Arborele de clasificare

CAPITOLUL 2. METODE DE CLASIFICARE

2.3.2.), singura diferenta ind dat

S-ar putea să vă placă și