Documente Academic
Documente Profesional
Documente Cultură
Clasificare
Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n
clase (grupuri) de entiti similare. Atunci cnd gruparea este efectuat manual, cel
care o efectueaz opereaz cu judeci de similaritate, asemnare, apropiere. Acest tip
de raionament este formalizat i n metodele automate.
Exist, n esen, dou tipuri de clasificare automat:
1. predictiv, de exemplu analiza discriminant; se asigneaz o observaie la
un grup pornind de la reguli de clasificare derivate din observaii
clasificate n prealabil. Se poate ca schema de clasificare existent s fie
subiectiv, neutilizabil efectiv, astfel nct metoda descoper aspectele
eseniale ale schemei i le transform n reguli practice.
2. descriptiv, de exemplu analiza cluster; se grupeaz obiectele pe baza
similaritii lor, nu este cunoscut o grupare prealabil.
Clasificare predictiv
Considerm cazul a dou populaii multivariate, 1 i 2, fiecare caracterizat
de repartiiile diferitelor variabile msurate. Problema clasificrii revine la a stabili
populaia la care aparine o observaie u (caracterizat de valorile variabilelor
considerate).
Notnd cu S spaiul de eantionare (care cuprinde observaii din 1 i din 2),
o regul de clasificare revine la a partiiona S n A1 i A2, astfel nct pentru o
observaie u se poate dezvolta o procedur care decide
dac u A1, atunci u 1
dac u A2, atunci u 2
Clasificare descriptiv
In analiza multivariat, clasificarea descriptiv (cluster analysis) se refer la
metodele utilizate pentru a identifica ntr-o mulime de obiecte grupurile de obiecte
similare. Cazurile de aplicare ale acestor metode sunt similare celor n care se
utilizeaz analiza factorial.
Datele sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte,
coloanele sunt variabile, atribute). In plus,
datele sunt omogene n sensul c are sens calculul distanelor dintre
elemente
exist suficient de multe date nct simpla inspecie vizual sau
prelucrrile statistice elementare nu ofer o imagine satisfctoare a
structurii datelor
tabloul de date este amorf: nu exist o structurare a priori (dependene
funcionale, relaii, clasificri cunoscute).
De remarcat c ultima caracteristic este cea care ne deprteaz de descrierea
predictiv (unde se presupunea existena unei structurri necesare n etapa de
training).
Drept rezultat al clasificrii descriptive se obin grupurile de elemente, clasele
identificate. Deoarece se pot aplica pe aceleai structuri de date, metodele clasificrii
descriptive sunt complementare metodelor analizei factoriale. De regul, atunci cnd
se utilizeaz mpreun, analiza factorial este efectuat mai nti, clasele evideniate
de aceasta fiind precizate, ierarhizate, localizate de clasificarea descriptiv.
Metodele de clasificare sunt de natur mai degrab algoritmic: clasele apar ca
urmare a unei suite de operaii efectuate recursiv sau repetitiv; matematica implicat
este relativ elementar.
Numim clas (grup, cluster) o mulime de obiecte (elemente) similare ntre
ele i nesimilare obiectelor din alte clase. Un cluster poate fi gndit (reprezentrile
grafice reflect aceste interpretri)
Ca o mulime de puncte care sunt apropiate (la distane mici) ntre ele i
deprtate de punctele din alte clase, sau
Ca o regiune conex dintr-un spaiu multidimensional care are o densitate
mare (relativ) de puncte, clusterele fiind separate ntre ele de regiuni cu o
densitate sczut (relativ) de puncte.
Rezult c problema esenial n determinarea (identificarea) clusterelor este
cea a specificrii proximitii (apropierii, similaritii) i cum se determin aceasta.
Este evident c proximitatea este o noiune dependent de problema real cercetat.
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin
atributele lor n obiecte i p atribute vor furniza o matrice de tip np.
Liniile sunt obiecte (pattern-uri), coloanele sunt atribute (variabile).
Matricea de proximitate. Elementele d(i,j) reprezint proximitile dintre
obiectele i i j. Proximitatea poate fi
o similaritate (asemnare), cum ar fi coeficientul de corelaie, sau
o disociere (deprtare, difereniere), cum ar fi distana euclidian.
Atunci cnd atributele sunt de tipuri diferite (att discrete, ct i continue), se
poate calcula proximitatea dintre obiectele i i j prin
p
f =1
(f)
ij d ij( f )
d (i, j ) = f
[0,1]
ij( f )
i =1
unde (f)
ij
este ponderea variabilei f
0 pentru xif sau x jf lipsa
(f)
ij = 0 xif = x jf = 0 si f este asimetrica, binara
1 in rest
Menionm c d ij( f ) este contribuia variabilei f la d(i,j) i anume:
- dac f este binar sau nominal, atunci dij( f ) = 0 pentru xif = x jf
1 altfel
(Hamming)
- dac f este continu, atunci (normalizare prin amplitudine)
xif x jf
d ij( f ) =
max xhf min xhf
h h
- dac f este ordinal, se atribuie rangul rif, se calculeaz zif = rif 1 i se
max rhf 1
h
Calitatea clasificrii
Deoarece ntr-o problem de clusterizare nu se cunoate nimic a priori
(numrul de clase n special), evaluarea calitii partiiei obinute este o etap foarte
important. Evaluarea trebuie s ia n considerare att faptul c, poate, mulimea
iniial nu are o structur bine determinat de clase, ct i faptul c diferite metode
conduc la clase diferite.
Procedurile uzuale de evaluare:
Vizualizarea partiiei (dendrograme, profiluri, proiecii).
Indicatori de calitate
o Coeficienii de divizare (divisive coefficient DC) i de aglomerare
(agglomerative coefficient AC) care ofer indicatori (medii)
globali.
o Indici de siluet (Silhouette) care se pot defini att global, ct i
local pentru fiecare cluster.
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculeaz d(i) ca fiind
raportul dintre diametrul ultimului cluster (n ordinea dat de algoritmul de divizare)
la care a aparinut obiectul nainte de a fi separat ca un singleton i diametrul mulimii
totale de obiecte (clusterul iniial). Atunci
1
DC = d (i )
n
Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea
ascendent: Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre
disocierea primului cluster (n ordinea dat de algoritm) la care se ataeaz obiectul i
diametrul mulimii totale de obiecte (clusterul final).
1
AC = [1 d (i )]
n
AC tinde s creasc o dat cu numrul de obiecte.
Silueta se calculeaz (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a
unui cluster, silueta medie global. Acest indice vrea s reprezinte ct de bine este
separat un cluster de vecinii si (deci ct de apropiate sunt elementele dintr-un cluster
distana intra-cluster i ct de deprtate sunt de celelalte clustere distana inter-
clustere).
Prin calculul siluetei se poate decide asupra validitii unui cluster, ca i
asupra numrului corect de clustere.
Notnd cu S (i) silueta obiectului i, formula de calcul este
bi ai
S (i ) =
max{ai , bi }
unde ai disocierea medie a obiectului i fa de restul obiectelor din acelai cluster;
bi disocierea medie a obiectului i fa de obiectele din cel mai apropiat cluster (al
doilea candidat pentru includerea obiectului i).
Dac obiectul i este singurul element al unui cluster, atunci
S (i) = 0.
Rezult c -1 S (i) 1 i S (i) poate fi considerat ca un indice adimensional,
cu putere de comparare. Interpretarea este
Dac S (i) este apropiat de 1, atunci obiectul este bine clasificat (este
asociat cu clusterul adecvat).
Dac S (i) este aproape nul, atunci obiectul poate fi clasificat i n
urmtorul cluster apropiat (obiectul este situat similar n raport cu ambele
clustere)
Dac S (i) este apropiat de 1, atunci obiectul este clasificat eronat (el este
separat fa de celelalte clustere).
Fiecare cluster este caracterizat de silueta medie, obinut ca media siluetelor
elementelor din cluster.
Intreaga structur de clustere este caracterizat de silueta medie global,
obinut ca media siluetelor S(i) dup toate obiectele i. Dac structura conine un
numr k de clustere, se noteaz silueta medie global cu Sk. Silueta medie global se
poate utiliza pentru a decide asupra celui mai bun numr de clustere: se va alege
acel k pentru care Sk este maxim.
Se introduce coeficientul siluet prin
SC = max Sk
k
Este propus (Rousseeuw - 1987) urmtoarea interpretare a coeficientului
siluet dup valoarea sa:
0.71 - 1.00 s-a determinat o structur puternic (bine definit) de
clustere;
0.51 - 0.70 s-a determinat o structur acceptabil
0.26 - 0.50 structura determinat este slab, poate fi artificial
0.25 structura determinat este artificial.
B. Instrumente SPSS
Procedurile care rezolv probleme de clasificare sunt grupate n Analyze
Classify. Dintre ele se prezint n continuare K-Means Cluster care urmrete metoda
general prezentat n curs i Hierarchical Cluster pentru clasificarea ierarhic. De
menionat c dei algoritmul K-Means este cel mai direct i mai eficient ca volum de
calcule, el utilizeaz distana euclidian iar standardizarea prealabil a variabilelor
este important. Pentru considerarea altor distane se va apela procedura Hierarchical
Cluster.
K-Means Cluster
Algoritmul const n fixarea iniial aleatorie a centrelor claselor (numrul de
clase este cunoscut) i apoi se repet etapele:
atribuirea fiecrui caz la centrul cel mai apropiat,
actualizarea centrelor ca valori medii ale elementelor aparinnd clasei
respective.
Ca interpretare se poate considera c centrul unei clase finale reflect
caracteristicile unui element tipic al clasei prin valorile variabilelor n acel centru.
Prin Analize Classify K-Means Cluster se deschide dialogul
Centrele claselor finale sunt afiate ntr-un tabel similar celui care arat
centrele iniiale:
Hierarchical Cluster
Algoritmul pleac de la clustere coninnd un singur element (cazurile) i
reunete clustere pn cnd se obine un singur cluster. Se pot selecta mai multe
distane, se afieaz statistici la fiecare pas pentru a ajuta la selectarea numrului
optim de clustere.
Comanda este Analyze Classify Hierarchical Cluster care produce
afiarea dialogului principal.
Analiza se poate efectua pentru cazuri, sau pentru variabile, potrivit opiunii
selectate n grupul Cluster. Variabilele reprezentnd caracteristicile dup care are loc
clasificarea sau care se clasific se trec n lista Variables i se poate alege o variabil
de etichetare a cazurilor (la clasificarea cazurilor) util n reprezentrile grafice.
Grupul Display controleaz ce se afieaz, deci accesibilitatea la butoanele Statistics,
Plots. Dialogurile secundare sunt explicate n continuare.
Statistics
Agglomeration schedule se afieaz
combinaiile din fiecare iteraie, distane etc.
Proximity matrix se afieaz distanele sau
similaritile dintre elemente. Cluster Membership
produce afiarea apartenenei la clustere n una sau
mai multe iteraii.
Plots
Diagramele de aglomerare sunt disponibile n
formatul
Dendrogram (dendrograma explicat in curs,
orientat spre vizualizarea clusterelor) sau
Icicle (similar diagramei steag, orientat spre
vizualizarea cazurilor).
Orientarea diagramei poate fi vertical sau
orizontal. n reprezentarea dendrogramei, distanele
dintre elementele care se unesc sunt transformate pe o
scal 0 25, cu pstrarea raportului distanelor.
Method
n lista Cluster Method se poate alege una dintre metodele explicate n curs ca
metode de agregare, de calculare a distanelor dintre clustere: cel mai apropiat vecin
(nearest neighbor), cel mai deprtat vecin
(furthest neighbor), distana fa de centru
(centroid clustering), Ward etc.
n grupul Measure se poate specifica
distana sau similaritatea utilizat n grupare
potrivit tipului de date:
Interval pentru datele continue sunt
disponibile distanele: euclidian, cosinus
(cosinusul unghiului dintre vectorii
punctelor), corelaia Pearson, Chebychev
(diferena absolut maxim dintre valorile
elementelor), block (suma diferenelor
absolute dintre componente, distana Manhattan), Minkowski (rdcina de ordin p
din suma diferenelor absolute la puterea p), Customized (similar cu distana
Minkowski, dar rdcina poate fi de ordin r diferit de puterea p a diferenelor de
coordonate)
Count pentru frecvene (de date discrete) sunt disponibile msurile de disociere
2 i 2 (a se vedea seciunea privind asocierea datelor nominale).
Binary pentru datele dihotomice exist o mulime de distane propuse, bazate pe
tabelul de frecvene ncruciate a celor dou variabile. Se pot preciza valorile
interpretate ca 0 sau 1.
n grupurile Transform Values i Transform Measures se pot selecta metode
de transformare prealabil a valorilor astfel nct variabilele s fie ct mai omogen
msurate.
Save
Se poate salva, sau nu, ca variabile noi,
apartenena la clustere. Selectarea opiunii Single
solution i precizarea numrului de clustere
considerat ca soluie final va salva apartenena la
acel stadiu.
Dac se selecteaz Range of solutions, se va
salva apartenena la fiecare stadiu dintre cele
menionate.
C. Lucrarea practic
1) Setul de date aflat la adresa www.infoiasi.ro/~val/statistica/EuropeanProtein.txt
conine consumul de proteine n 25 de ri europene. Datele se refer la anul 1973.
Sunt msurate urmtoarele variabile: Country - numele rii, RdMeat - carne roie,
WhMeat - carne alb, Eggs - ou, Milk - lapte, Fish - pete, Cereal - cereale,
Starch - grsimi, Nuts - oleaginoase, Fr&Veg - fructe, vegetale.
a) s se realizeze o analiz factorial pentru a stabili numrul de clase n care pot
fi grupate cele 25 de ri
b) s se realizeze o clasificare a celor 25 de ri; s se studieze concordana cu
situaia observat la punctul a).
2) Datele acestei probleme sunt cele prelucrate i n lucrarea numrul 11,
www.infoiasi.ro/~val/statistica/EuropeanJobs.txt. Reamintim variabilele: Country
numele rii, Agr procentajul de muncitori din agrucultur, Min procentajul
de muncitori din minerit, Man procentajul de muncitori din industria
prelucrtoare, PS procentajul de muncitori din industria energetic, Con
procentajul de muncitori din construcii, SI procentajul de muncitori din
servicii, Fin procentajul de muncitori din finane, SPS procentajul de
muncitori din servicii sociale, TC procentajul de muncitori din transporturi i
comunicaii.
a) s se aplice un algoritm de clasificare ierarhic
b) s se aplice algoritmul k-means pentru k = 4; s se compare cu rezultatul
clasificrii realizate la a).