Sunteți pe pagina 1din 14

Cuprins

Gruparea cazurilor sau a variabilelor................................................................................... 2


Clasificare.................................................................................................................. 2
Clasificare descriptiv - partiionare................................................................................... 5
Distane ntre obiecte..................................................................................................... 7
Metoda legturii medii................................................................................................... 8
Bibliografie.................................................................................................................. 14

Analiza Clusteral a datelor

Gruparea cazurilor sau a variabilelor


Noiuni teoretice

Clasificare
Prin clasificare se nelege gruparea unor entiti (observaii, obiecte etc.) n clase
(grupuri) de entiti similare. Atunci cnd gruparea este efectuat manual, cel care o efectueaz
opereaz cu judeci de similaritate, asemnare, apropiere.(1) Acest tip de raionament este
formalizat i n metodele automate. Exist, n esen, dou tipuri de clasificare automat:
1. predictiv, de exemplu analiza discriminant; se asigneaz o observaie la un grup
pornind de la reguli de clasificare derivate din observaii clasificate n prealabil.(1,2) Se poate ca
schema de clasificare existent s fie subiectiv, neutilizabil efectiv, astfel nct metoda
descoper aspectele eseniale ale schemei i le transform n reguli practice. (2)
2. descriptiv, de exemplu analiza cluster; se grupeaz obiectele pe baza similaritii lor,
nu este cunoscut o grupare prealabil.(1)

Clasificare descriptiv
n analiza multivariat, clasificarea descriptiv (cluster analysis) se refer la metodele
utilizate pentru a identifica ntr-o mulime de obiecte grupurile de obiecte similare.(1,3) Cazurile
de aplicare ale acestor metode sunt similare celor n care se utilizeaz analiza factorial. Datele
sunt (sau pot fi) organizate ca un tablou (liniile sunt observaii, obiecte, coloanele sunt variabile,
atribute).
n plus,
datele sunt omogene n sensul c are sens calculul distanelor dintre elemente
exist suficient de multe date nct simpla inspecie vizual sau prelucrrile statistice
elementare nu ofer o imagine satisfctoare a structurii datelor
tabloul de date este amorf: nu exist o structurare a priori (dependene funcionale,
relaii, clasificri cunoscute).
1

De remarcat c ultima caracteristic este cea care ne deprteaz de descrierea predictiv


(unde se presupunea existena unei structurri necesare n etapa de training)(1) Drept rezultat al
clasificrii descriptive se obin grupurile de elemente, clasele identificate. Deoarece se pot aplica
pe aceleai structuri de date, metodele clasificrii descriptive sunt complementare metodelor
analizei factoriale.(1,2) De regul, atunci cnd se utilizeaz mpreun, analiza factorial este
efectuat mai nti, clasele evideniate de aceasta fiind precizate, ierarhizate, localizate de
clasificarea descriptiv. Metodele de clasificare sunt de natur mai degrab algoritmic: clasele
apar ca urmare a unei suite de operaii efectuate recursiv sau repetitiv; matematica implicat este
relativ elementar. (2)
Numim clas (grup, cluster) o mulime de obiecte (elemente) similare ntre ele i
nesimilare obiectelor din alte clase. Un cluster poate fi gndit (reprezentrile grafice reflect
aceste interpretri(3)
Ca o mulime de puncte care sunt apropiate (la distane mici) ntre ele i deprtate de
punctele din alte clase, sau
Ca o regiune conex dintr-un spaiu multidimensional care are o densitate mare (relativ)
de puncte, clusterele fiind separate ntre ele de regiuni cu o densitate sczut (relativ) de puncte.
Rezult c problema esenial n determinarea (identificarea) clusterelor este cea a specificrii
proximitii (apropierii, similaritii) i cum se determin aceasta. Este evident c proximitatea
este o noiune dependent de problema real cercetat. (1,3)
Structurile uzuale de date privind obiectele supuse analizei cluster sunt:
Matricea de pattern-uri. Este cazul obiectelor care sunt prezente prin atributele lor n
obiecte i p atribute vor furniza o matrice de tip np. Liniile sunt obiecte (pattern-uri), coloanele
sunt atribute (variabile).
Matricea de proximitate. Elementele d(i,j) reprezint proximitile dintre obiectele i i j.
Proximitatea poate fi o similaritate (asemnare), cum ar fi coeficientul de corelaie, sau o
disociere (deprtare, difereniere), cum ar fi distana euclidian. Atunci cnd atributele sunt de
tipuri diferite (att discrete, ct i continue), se poate calcula proximitatea dintre obiectele i i j
prin :
Exist mai multe tipuri de algoritmi de clasificare: - Algoritmi ascendeni (de agregare, de sintez) clasele sunt construite prin agregarea
succesiv a elementelor, se obine astfel o ierarhie de partiii, de clase.
1

- Algoritmi descendeni (de divizare) mulimea obiectelor este divizat succesiv n


submulimi de obiecte din ce n ce mai omogene; se poate obine i aici o ierarhie a partiiilor.
- Algoritmi de partiionare se pleac de la o partiie (structur de clase) care se modific
pentru a maximiza omogenitatea fiecrei clase. Primele dou categorii pot fi reunite n
clasificarea ierarhic (hierarchical cluster analysis).

Clasificare descriptiv - agregare Algoritmul fundamental de clasificare ascendent


ierarhic este:
1. Etapa 0 exist cele n elemente care se clasific;
2. Etapa 1 se determin perechea de elemente cele mai apropiate ntre ele i se produce,
prin agregarea lor, un nou element;
3. Etapa 2 exist acum n-1 elemente care se clasific;
4. Se repet Etapa 1 i Etapa 2 pn cnd mulimea elementelor care se clasific are un
singur element. Clasificare descriptiv - divizare Metoda ierarhic descendent const n
construirea ierarhiei n ordine invers:
1. Se pleac de la mulimea total a elementelor
2. La fiecare pas urmtor, cea mai mare (cea mai eterogen) grupare este divizat n
dou subgrupri. 3. Algoritmul se oprete atunci cnd toate grupurile constituite au cte un
singur element. Pentru definirea grupului cel mai eterogen se utilizeaz diametrul grupului,
definit ca distana maxim dintre dou elemente din grup. Evident c se pot utiliza i alte metode
n acest scop.(1)
Un algoritm ierarhic descendent este DIANA (Divisive ANAlysis):
1. Se determin obiectul cu cea mai mare distan medie fa de celelalte obiecte (cea mai
mare disociere). Este obiectul care iniiaz un nou cluster, S (splinter group)
2. Pentru fiecare obiect i din afara grupului S a. se calculeaz D d(i, j) d(i, j) j j i media
media S S = b. Se determin un obiect h cu Dh = max Di. c. Dac Dh este pozitiv,
atunci obiectul h se adaug grupului splinter (este mai apropiat, n medie, de elementele
din S). d. Se repet a) c) pn ce Dh este negativ. Mulimea iniial este acum divizat
n dou clustere.(1)
3. Se selecteaz clusterul cu cel mai mare diametru. Acesta este divizat prin paii 1 2.
1

4. . Se repet 3) pn cnd toate grupurile constituite au un singur element. Exist o


diagram sugestiv (diagram steag) pentru un algoritm descendent, n care pe axa
vertical sunt obiectele, pe axa orizontal se trec diametrele clusterelor.(2)

Clasificare descriptiv - partiionare


Metodele de partiionare din analiza cluster au ca ideea esenial aceea c se poate porni
de la o partiie oarecare a mulimii de obiecte i se poate ajunge, prin migrarea obiectelor
ntre clase, la o partiie care ndeplinete un criteriu de optim. Partiia final constituie
structura de clustere cutat. De reinut, totui, faptul c nu exist un criteriu de optim care s
funcioneze oricnd i pentru orice obiecte.(3)
Metodele de partiionare sunt utile atunci cnd exist un mare numr de obiecte, caz n
care dendrogramele nu mai pot fi interpretate (cteva sute de obiecte produc o dendrogram
de neneles). Majoritatea metodelor au drept criteriu de optim obinerea partiiei care
minimizeaz suma ptratelor erorilor (apare la distana Ward). Eroarea este distana de la un
obiect la centrul clusterului su. (1)
Un algoritm general de partiionare este:
1. Se selecteaz o partiie iniial cu k grupuri i se calculeaz centrele clusterelor.
2. Se genereaz o nou partiie atribuind fiecare obiect la clusterul cu centrul cel mai
apropiat.
3. Se calculeaz noile centre ale clusterelor.
4. Se repet paii 2-3 pn se stabilizeaz clusterele sau nu se mbuntete criteriul ales.
5. Se ajusteaz numrul de clustere prin reunirea sau divizarea unor clustere sau prin
eliminarea clusterelor aberante (cu un numr mic de elemente).
6. Se repet paii 2-5 pn se stabilizeaz clusterele sau nu se mbuntete funcia
criteriu.
Elementele importante ale algoritmului sunt comentate n continuare. Partiia iniial O
partiie iniial se poate obine selectnd k obiecte, considerndu-le centre i grupnd n jurul
fiecruia restul de obiecte (fiecare element va fi asociat centrului cel mai apropiat). Nu se
recalculeaz centrele dup fiecare clasificare a unui element. Centroizii fiecrui cluster astfel
format constituie centrele pentru pasul urmtor.

Cele k obiecte iniiale se pot alege aleatoriu sau dup criterii oferite de o analiz
prealabil (clasificare ascendent, analiz n componente principale etc.). Clusterele iniiale
pot fi date de o clasificare ascendent, de exemplu. De reinut, totui, c partiii iniiale
diferite conduc la clustere finale diferite.(2)
Algoritmii care se bazeaz pe criteriul minimizrii sumei de ptrate a erorilor conduc la
atingerea unui optim local, cel puin dac grupurile nu sunt bine difereniate.(1) Se poate
depi acest neajuns repetnd clasificarea cu partiii iniiale diferite. (2.3)
Dac se ajunge la o aceeai partiie, atunci se mrete ncrederea c s-a atins un optim
global.
n caz c nu, se pot analiza subgrupurile stabile (elemente care sunt mereu mpreun),
care pot oferi informaii despre numrul de clustere. Actualizarea partiiei Exist mai multe
moduri de abordare a pasului 2 din metoda general:
Atribuirea fiecrui obiect la clusterul cu centrul cel mai apropiat. o Centrele se
recalculeaz dup fiecare atribuire, sau o Centrele se recalculeaz dup ce au fost procesate
toate obiectele.
Atribuirea fiecrui obiect n fiecare cluster i evaluarea funciei criteriu. Se reine
partiia care reduce cel mai mult valoarea funciei criteriu(1). Se ncearc astfel evitarea unui
optim local.(2) Ajustarea partiiei Se pot defini condiii pentru reducerea, sau extinderea
numrului de clustere.(1) Se ncearc astfel atingerea unui numr natural de clustere,
apropiat de gruparea real, neinfluenat de perturbaii introduse n procesul de determinare a
observaiilor sau din alte cauze exterioare. (2)
Algoritmul cel mai cunoscut este, n acest sens, ISODATA (Ball & Hall, Jensen):
Clusterele sunt comasate dac au puine elemente (sub un prag fixat) sau dac distana
dintre centrele lor este mic (sub un prag fixat).
Un cluster este divizat dac dispersia elementelor (dup atributul cel mai dispersat)
depete un prag fixat i dac exist un numr suficient de elemente (de exemplu, de
dou ori mai multe dect numrul minim). Este de remarcat c existena valorilor
aberante poate denatura procesul de clusterizare. Din acest motiv, anumii autori
recomand excluderea obiectelor aberante (i chiar a celor din clusterele cu puine
elemente). Convergena Dei nu se garanteaz atingerea unui optim global, algoritmul se

oprete atunci cnd funcia criteriu nu mai poate fi mbuntit, sau n anumite variante
cnd partiia nu se modific n dou iteraii succesive.
Demonstraii matematice ale convergenei au fost bazate
fie pe formularea problemei ca o problem de programare matematic,
fie pe artarea faptului c de la o iteraie la alta se mrete variana interclase i se
micoreaz variana intraclase, ceea ce dat fiind finitudinea mulimii de obiecte produce
oprirea procesului. Clasificare descriptiv metode fuzzy In afar de metodele deterministe,
au fost dezvoltate i metode de clasificare fuzzy. Intr-o metod fuzzy se obin, pentru fiecare
obiect, probabilitile ca obiectul s aparin la fiecare dintre clustere.
De exemplu, o metod fuzzy, similar metodei de partiionare, este metoda celor c medii
(fuzzy c-means), bazat pe minimizarea funciei obiectiv.
Rezultatul este coninut n matricea de apartenen (uij) care ofer probabilitile
apartenenei elementelor la clase. Partiionarea fuzzy se realizeaz iterativ (optimiznd
implicit funcia obiectiv) prin actualizarea la fiecare pas a matricei de apartenen (uij) i a
centrelor clusterelor (cj)
Procesul se oprete atunci cnd matricea de apartenen se stabilizeaz unde va avea
semnificaia uzual n procese iterative similare.

Distane ntre obiecte


n continuare sunt prezentate metodele uzuale de calculare a distanelor dintre obiecte
(elemente sau grupuri deja constituite). Alegerea unei anumite distane modific gruprile
care se constituie.
Metoda celui mai apropiat vecin (nearest neighbor method)
Distana dintre dou grupuri este distana minim dintre dou elemente ale grupurilor
(distana dintre cele mai apropiate elemente din clase diferite)
n imaginea urmtoare se exemplific, prin numerotarea 1 6 ordinea de atribuire a
elementelor respective la grupurile figurate n extremiti. Astfel, un lan de obiecte apropiate
dou cte dou este atribuit, de regul, la un singur grup, ceea ce nu produce o grupare
acceptabil.

Metoda celui mai deprtat vecin (farthest neighbor method)


Aceast metod utilizeaz calcularea distanei dintre dou grupuri drept distana maxim
dintre dou elemente ale grupurilor (distana dintre cele mai deprtate elemente din clase
diferite).

Metoda are avantajul c nu aglomereaz grupuri legate printr-un lan.


n imaginea alturat se poate vedea ordinea de atribuire 1 6 a elementelor
corespunztoare la cele dou grupuri extreme. Gruparea obinut corespunde mai bine i
gruprii intuitive (efectuat de un operator uman).

Metoda legturii medii


Distana dintre dou grupuri este distana medie dintre perechile de elemente ale
grupurilor
Metoda distanei centrelor (average group linkage)
Se consider, ca distan dintre dou grupuri 1 i 2, distana dintre centrele grupurilor,
unde centrele G1 i G2 au drept componente mediile aritmetice ale componentelor
elementelor din cele dou grupuri, respectiv. De remarcat c centrul unui grup este dinamic,
fiecare nou element putnd produce deplasarea lui. Centrul unui grup format dintr-un singur
element este chiar acel element.

Metoda distanei Ward (Ward's linkage)


Distana Ward este bazat pe creterea suma de ptrate a erorilor dup contopirea
grupurilor ntr-unul singur. Metoda Ward selecteaz gruprile care minimizeaz creterea
sumei de ptrate a erorilor.
Dendrograma
Ca rezultat al algoritmului se obine arborele de clasificare (dendrograma). Prin
secionarea orizontal a dendrogramei se obine o partiie a mulimii elementelor clasificate.
Componentele partiiei sunt clasele cutate. n figura alturat este prezentat o dendogram.
Pe axa orizontal sunt elementele iniiale (ordinea este cea care permite desenarea arborelui).
Pe axa vertical sunt distanele dintre obiecte, de exemplu, ntre obiectele 4 i 6 este o
distan egal cu 4.

Calitatea clasificrii
Deoarece ntr-o problem de clusterizare nu se cunoate nimic a priori (numrul de clase
n special), evaluarea calitii partiiei obinute este o etap foarte important. Evaluarea
trebuie s ia n considerare att faptul c, poate, mulimea iniial nu are o structur bine
determinat de clase, ct i faptul c diferite metode conduc la clase diferite.(1)
Procedurile uzuale de evaluare:
Vizualizarea partiiei (dendrograme, profiluri, proiecii).
Indicatori de calitate o Coeficienii de divizare (divisive coefficient DC) i de
aglomerare (agglomerative coefficient AC) care ofer indicatori (medii) globali. o Indici de
siluet (Silhouette) care se pot defini att global, ct i local pentru fiecare cluster. (2,3)
Divisive Coefficient (DC): Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul
dintre diametrul ultimului cluster (n ordinea dat de algoritmul de divizare) la care a
1

aparinut obiectul nainte de a fi separat ca un singleton i diametrul mulimii totale de


obiecte (clusterul iniial).
Agglomerative coefficient (AC) este un indice de calitate pentru clasificarea ascendent:
Pentru fiecare obiect i, se calculeaz d(i) ca fiind raportul dintre disocierea primului cluster
(n ordinea dat de algoritm) la care se ataeaz obiectul i diametrul mulimii totale de
obiecte (clusterul final).(1)
AC tinde s creasc o dat cu numrul de obiecte.
Silueta se calculeaz (Rousseeuw, 1987) ca silueta unui obiect, silueta medie a unui
cluster, silueta medie global. Acest indice vrea s reprezinte ct de bine este separat un
cluster de vecinii si (deci ct de apropiate sunt elementele dintr-un cluster distana intracluster i ct de deprtate sunt de celelalte clustere distana interclustere).(2,3)
Prin calculul siluetei se poate decide asupra validitii unui cluster, ca i asupra numrului
corect de clustere.(1)
.

Interpretarea este
Dac S (i) este apropiat de 1, atunci obiectul este bine clasificat (este asociat cu

clusterul adecvat). Dac S (i) este aproape nul, atunci obiectul poate fi clasificat i n
urmtorul cluster apropiat (obiectul este situat similar n raport cu ambele clustere)
Dac S (i) este apropiat de 1, atunci obiectul este clasificat eronat (el este separat fa
de celelalte clustere). Fiecare cluster este caracterizat de silueta medie, obinut ca media
siluetelor elementelor din cluster. Intreaga structur de clustere este caracterizat de silueta
medie global, obinut ca media siluetelor S(i) dup toate obiectele i.
Dac structura conine un numr k de clustere, se noteaz silueta medie global cu Sk.
Silueta medie global se poate utiliza pentru a decide asupra celui mai bun numr de
clustere: se va alege acel k pentru care Sk este maxim.
Se introduce coeficientul siluet prin:
k k SC = maxS tre editat formula
Este propus (Rousseeuw - 1987) urmtoarea interpretare a coeficientului siluet dup
valoarea sa: 0.71 - 1.00 s-a determinat o structur puternic (bine definit) de clustere;
0.51 - 0.70 s-a determinat o structur acceptabil
1

0.26 - 0.50 structura determinat este slab, poate fi artificial


0.25 structura determinat este artificial.
B. Instrumente SPSS
Procedurile care rezolv probleme de clasificare sunt grupate n Analyze Classify.
Dintre ele se prezint n continuare K-Means Cluster care urmrete metoda general
prezentat n curs i Hierarchical Cluster pentru clasificarea ierarhic.(1,2)
De menionat c dei algoritmul K-Means este cel mai direct i mai eficient ca volum de
calcule, el utilizeaz distana euclidian iar standardizarea prealabil a variabilelor este
important. Pentru considerarea altor distane se va apela procedura Hierarchical Cluster.(1)
K-Means Cluster Algoritmul const n fixarea iniial aleatorie a centrelor claselor
(numrul de clase este cunoscut) i apoi se repet etapele:
atribuirea fiecrui caz la centrul cel mai apropiat,
actualizarea centrelor ca valori medii ale elementelor aparinnd clasei respective.
Ca interpretare se poate considera c centrul unei clase finale reflect caracteristicile unui
element tipic al clasei prin valorile variabilelor n acel centru. Prin Analize Classify KMeans Cluster se deschide dialogul :

n lista Variables se vor trece variabilele n funcie de care se face clasificarea. Se poate
utiliza o variabil pentru etichetarea cazurilor prin specificarea ei n Label Cases by.
Numrul de clustere se poate fixa n Number of Clusters. O ghicire a numrului de
clustere poate fi obinut aplicnd n prealabil ACP i studiind diagramele proieciilor pe
planele factoriale. (3)

Ca metod se poate alege


Iterate and classify pentru a realiza o adaptare iterativ a clasificrii cazurilor prin
recalcularea centrelor dup fiecare iteraie. Dac se dorete utilizarea rezultatelor i pentru
clasificarea altor cazurii, informaiile se vor salva ntr-un fiier prin selectarea opiunii Write
final as din grupul Cluster Centers. (1)
Classify only pentru realizarea clasificrii cazurilor atunci cnd se citesc dintr-un fiier
centrele claselor, calculate n prealabil i salvate. n acest caz se va selecta, din zona Cluster
Centers, Read initial from i se va preciza File, fiierul salvat ntr-o prelucrare anterioar.
Prin acionarea butonului Iterate din dialogul principal, buton permis doar pentru metoda
Iterate and classify, se deschide dialogul sinonim. (1)
n Maximum Iterations se fixeaz limita numrului de iteraii, cel mult 999. Valoarea dat
n Convergence Criterion reprezint o proporie p din distana minim dintre centrele iniiale,
deci poate fi ntre 0 i 1. Procesul iterativ se oprete dac niciun centru recalculat nu este
deplasat cu mai mult de 100p% din distana minim dintre centrele iniiale iteraiei. (1)
Prin selectarea opiunii Use running means se cere recalcularea centrelor la fiecare
clasare a unui caz i nu dup clasarea tuturor cazurilor. Acionarea butonului Save din
dialogul principal deschide dialogul prin care se poate cere salvarea unor informaii ca noi
variabile.(1,2) Cluster membership se salveaz ca valori 1 k apartenena la clusterele
finale. Distance from cluster center salveaz distana euclidian dintre caz i centrul clasei
la care aparine. Prin dialogul Options, afiat la acionarea butonului Options din dialogul
principal, se pot preciza statisticile calculate i modul de tratare a datelor lips. n grupul
Statistics:
Initial cluster centers prima estimare a centrelor, obinut prin alegerea unui numr de
cazuri egal cu numrul de clustere.
ANOVA table se afieaz tabelul ANOVA pentru fiecare variabil, considernd
clusterele drept factor. Valorile F mari vor arta variabilele care contribuie cel mai mult la
structura clusterelor.
Cluster information for each case afieaz asignrile finale la clase, distana la centrul
clasei ca i distanele euclidiene dintre centrele finale. Rezultatele SPSS n cazul K-Means
Cluster Ieirea depinde de opiunile selectate n dialogurile procedurii, tabelele listate n
cazul (aproape) complet sunt prezentate n continuare. S-a realizat o clasificare ilustrativ
1

utiliznd fiierul SPSS de test Employee Data. Centrele iniiale ale claselor sunt alese
aleatoriu, attea cte clustere sunt indicate n dialogul principal. Se prezint coordonatele
centrelor n spaiul variabilelor.

Bibliografie
1. http://thor.info.uaic.ro/~val/statistica/StatWork_5.pdf
2. http://www.utgjiu.ro/revista/ec/pdf/2007-01/57_Babucea%20Ana-Gabriela.pdf
3. https://ro.wikipedia.org/wiki/Cluster