Sunteți pe pagina 1din 5

134

CAPITOLUL 2. METODE DE CLASIFICARE

Cu ct aceast
a probabilitate este mai mic
a, cu att ipoteza unei extrageri
aleatoare este mai dicil de acceptat. Vom folosi aceast
a probabilitate pentru a
ordona modalit
atile caracteristice clasei (cea mai caracteristic
a corespunznd
celei mai mici probabilit
ati).
Aceast
a probabilitate este adesea foarte mic
a; este comod s
a i se substituie valoarea tk (N ) a variabilei Gauss-Laplace corespunznd aceleiasi probabilit
ati. Ea m
asoar
a distanta ntre proportia n clas
a si proportia general
a n
num
ar de abateri standard a legii normale. Cum
E (N )

nj
n nk
si s2k (N ) = nk
n
n 1
N E (N )
:
) tk (N ) =
sk (N )
=

nk

nj
1
n

nj
n

Aceasta este valoarea-test pentru o modalitate a unei variabile nominale.


Acesta este un criteriu statistic doar pentru variabilele ilustrative.

2.5.3

Exemplu

Descrierea datelor
n cadrul subcapitolelor 1.4.6 respectiv 2.3.2, am analizat un set de date
(tabelul A.4. (Anex
a)) reprezentnd informatii asupra unor nsusiri zice si
temperamentale a 27 de rase de cini. Rezultatele obtinute relativ la clasicarea acestor rase sunt usor diferite pentru cele dou
a analize. Pentru a ne
decide asupra unei interpret
ari, vom aplica o metod
a de clasicare ierarhic
aJoining (Tree Clustering), al c
arei avantaj l reprezint
a capacitatea de oferi o
idee asupra num
arului de clase existente efectiv n cadrul populatiei raselor de
cini. Se vor folosi pentru aceast
a analiz
a datele de intrare din tabelul A.4.,
modicate conform indicatiilor din subcapitolul 2.3.2.
Efectuarea analizei
si interpretarea rezultatelor
Din bara de meniu se selecteaz
a Statistics, Multivariate Exporatory Techniques, Cluster Analysis si, n fereastra de dialog ap
arut
a, se alege metoda de
analiz
a Joining (tree clustering). Dup
a ap
asarea butonului OK, n fereastra
corespunz
atoare metodei selectate se acceseaz
a meniul Advanced. Butonul
Variables aseaz
a lista variabilelor pentru analiz
a, dintre acestea urmnd a
selectate toate mai putin variabila FN si variabila R. n continuare se specic
a:
tipul datelor de intrare (input le) - se alege optiunea Raw data deoarece
tabelul A.4. nu reprezint
a o matrice de distante sau de corelatii;
entit
atile de clasicat (cluster ) - se alege optiunea Cases (rows) deoarece
scopul analizei pentru acest exemplu este clasicarea raselor de cini;


2.5. CLASIFICARE MIXTA

135

strategia de agregare (amalgamation (linkage) rule) - se alege strategia bazat


a pe distanta diametrului (Complete Linkage). Rezultatele
obtinute folosind metoda Ward sunt similare (vezi subcapitolul 2.4.2.);

tipul de distanta (Distance measure) - se alege distanta euclidian


a (Euclidean distances) deoarece indivizii sunt v
azuti ca puncte n spatiul euclidian R6 (6 reprezint
a num
arul de variabile m
asurate pe ecare individ)

fig. 2.5.3. Fereastra de start

Pentru activarea ferestrei ce permite generarea rezultatelor specice clasic


arii prin metoda k-means (g. 2.5.3.) se apas
a butonul OK. n noua fereastr
a este prezentat si un rezumat al datelor de plecare: num
arul indivizilor (27
rase de cini) si al variabilelor (6 nsusiri) care particip
a la analiz
a, metoda de
analiz
a (Joining), strategia de agregare (Complete Linkage) si tipul distantei
(Euclidean Distances).
Generarea tuturor rezultatelor se va face din meniul Advanced. Primul
pas n realizarea clasic
arii prin metoda Joining l reprezint
a calculul matricei
distantelor (butonul Distance Matrix ) - distantele euclidiene, n acest caz. O
submatrice a acestei matricii este prezentat
a n tabelul 2.5.1.

136

CAPITOLUL 2. METODE DE CLASIFICARE

fig. 2.5.4. Fereastra de rezultate

tabelul 2.5.1. submatrice a matricei distanT elor euclidiene

Etapele rezultate n urma algoritmului de agregare bazat pe strategia


Complete Linkage pot vizualizate prin ap
asarea butonului Amalgamation
schedule. Tabelul obtinut, redat partial n continuare (tabelul 2.5.2.), contine
pe prima coloan
a indicii de agregare si pe ecare linie membrii clusterului format n urma agreg
arii la nivelul respectiv. Se constat
a c
a primele "grup
ari"
se realizeaz
a ntre indivizii pentru care variabilele care i caracterizeaz
a au valori identice: BULD si TECK, respectiv CHIH si PEKI, DALM si LABR, iar
indicii de agregare sunt nuli, egali cu distantele dinte acesti indivizi. Imaginea
arborelui de clasicare (butonul Horizontal/Vertical hierarchical plot) sintetizeaz
a aceste informatii ntr-o maniera mai sugestiv
a (g. 2.5.6.).


2.5. CLASIFICARE MIXTA

137

tabelul 2.5.2. etape de agregare

fig. 2.5.6. Arborele de clasificare


Clusterele rezultate n urma aplic
arii metodei Joining (g 2.5.6. si tabelul
2.5.3.) sunt apoape identice cu grup
arile generate de metoda k-means (tabelul

138

CAPITOLUL 2. METODE DE CLASIFICARE

2.3.2.), singura diferenta ind dat


a de trecerea rasei FOXT din clusterul 4 n
clusterul 3.
tabelul 2.5.3. Membrii clusterelor obT inute prin metoda joining

S-ar putea să vă placă și