Sunteți pe pagina 1din 4

Analiza de cluster M. Popa1. Introducere 2. Pregtirea i organizarea datelor 3.

Alegerea metodei de calcul a similaritii 4. Alegerea metodei de grupare 5.


Validarea structurii de cluster 6. Exemple de analiz de cluster cu SPSS 7.
ConcluziiAsociere variabile Regresie liniar Regresie logistic Corelaie parial
Mediere Moderare Comparaie grupuri ANOVA factorial ANCOVA MANOVA
MANCOVA Grupare date Analiza factorial exploratorie Analiza de cluster
Clusterizarea procedurilor statistice din programa cursului:1. Introducere
dezvoltat n anii `30 n psihologie de ctre Zubin i Tryon Colecie de tehnici de
clasificare a cazurilor incluse ntr-o baz de date ct mai omogene intern Ct mai
eterogene extern Punctele reprezint cazuriAnaliza de cluster Nu conduce la o
soluie unic Cercettorul alege metoda de analiz i soluia de grupare pe care o
consider potrivit Soluia de grupare depinde de o serie de decizii subiective
abordarea ei presupune nsuirea unor concepte i principii cu privire la
problematica clasificrii SUA The Classification Society of North America, cu o
vechime de peste 30 de ani Mii de articole privind tehnicile de grupare Utilitatea
analizei de cluster Studii exploratorii cutarea structurii datelor (obiectiv
preponderent) Studii de confirmare Confirmarea unei structuri existente
(presupuse) Obiectiv posibil, dar dificil de abordat nu exist o teorie unificatoare
a metodelor de grupare i nici tehnici sigure de validare nu exist (nc) un test
statistic pentru decizia de confirmare Elaborarea de tipologii de grupare nu este
singura tehnica de realizare a tipologiilor Generarea de ipoteze2. Pregtirea i
organizarea datelor datele sunt organizate sub form de matrice Nume Salariu
Norma Poziia Articole Vechime Rosalyn 123600,00 1,00 5 21 32 Lawrence 96799,92
1,00 5 71 27 Sunila 83358,00 1,00 5 19 24 Randolph 83235,84 1,00 5 17 38 Dea
6962,94 ,50 1 0 0 Claude 6812,82 ,50 1 0 0 Amanda 5999,14 ,50 1 0 0 Boris
4919,85 ,25 1 4 15 Garrett 4738,86 ,25 1 0 0 cazuri itemi
modele indivizi subieci obiecte, uniti operaionaltaxonomice, profile
variabile, descriptori, atribute, caractere, itemi, profile Variabil de identificare Orice
scal de msurareSelectarea cazurilor eantionarea aleatoare nu este o condiie
necesar eantionul trebuie s reprezinte categoriile vizate proporia cazurilor
din cadrul eantionului nu trebuie s respecte n mod necesar proporia de la nivelul
populaiei dect dac se urmrete generalizarea rezultatelor categorii mai
puin reprezentate la nivelul populaiei vor avea anse mai reduse de a fi surprinse
de analiza de cluster soluie: supra-reprezentarea tipurilor minoritare Separarea
bazei de date n dou, pentru validarea ulterioar a soluiei de grupare cazuri-tip
ideale cazuri care descriu categorii tipice, prognozate de cercettor Regsirea
lor n anumite clustere vor fi o dovad a validitii Atenie la valorile extreme
(outliers) duc la clustere artificiale Valorile lips (missing) sunt eliminate de
SPSS reduc volumul util de date, prin eliminarea cazurilor de ctre SPSS
Codificarea concordant a variabilelor codificari discordante fac dificil
interpretareaSelectarea variabilelor nu se impune condiia distribuiei normale a
variabilelor metodele de grupare se bazeaz pe euristici care nu iau n considerare
distribuia variabilelor Probleme importante Numrul variabilelor Alegerea
variabilelor Variabilitatea Asocierea variabilelor n dimensiuni Corelaia

variabilelorNumrul variabilelor n exemplul dat exist 5 variabile Sunt multe?


Puine? Cte ar trebui s fie? Nu exist criterii pentru un rspuns sigur
Wuensch a pstrat doar o parte din variabilele disponibile a eliminat genul i o
variabil n care numrul de articole nu era sigurVariabilitatea Operaiunea de
grupare (clusterizare) este favorizat de utilizarea unor variabile cu o variaie ct
mai mare produc o discriminare mai bun ntre cazuri se va evita utilizarea unor
variabile a cror valori sunt de ordine de mrime foarte diferite dac una din
variabile este de ordinul zecilor de mii (salariul), iar alt variabil este de ordinul
zecilor (vechimea n ani), atunci prima va avea pondere mai mare n operaiunea de
grupare Soluie: transformare a variabilelor n scoruri standard de regul n
scoruri z, dar exist i alte metode, care nu se bazeaz pe ab. standard
(medie)Asocierea variabilelor n dimensiuni asocierea lor n anumite dimensiuni
trebuie luat n considerare Ex.: pentru clasificarea cadrelor didactice pot fi luate
n considerare diverse variabile care descriu aprecierea i performana
academic dac performana academic ar fi reprezentat prin mai multe
variabile dect aprecierea, atunci acest aspect ar avea o pondere mai mare n
alctuirea clusterelor acest lucru nu este negativ n sine, cercettorul are drept de
opiuneCorelaia (asocierea) variabilelor exist autori care recomand eliminarea
variabilelor care coreleaz ntre ele Millgram i Hirtle (op. cit.) consider c
existena unor corelaii nu este un aspect negativ pentru analiza de cluster ar
putea fi tocmai rezultatul unei grupri naturale a acelor variabile, iar eliminarea
corelaiei nu ar face dect s distorsioneze gruparea datelor analiza de cluster
poate fi precedat de analize factoriale, care urmresc gruparea variabilelor acest
lucru este justificat numai dac se presupune c gruparea n clusteri are loc n
spaiul factorilor i nu al variabilelor individuale prin comprimarea variabilelor se
ajunge la soluii de grupare n clusteri care pot diferi substanial de gruparea pe
baza variabilelor individualeAlegerea variabilelor n nici un caz nu vor fi puse cu
furca, la grmad! Omiterea unor variabile importante, dar i punerea unor
variabile irelevante afecteaz soluia de grupare Ex.: stabilirea unei tipologii a
organizaiilor utilizndu-se variabile ca cifra de afaceri, profitul realizat, nivelul de
calificare a angajailor, dar fr a se include o variabil cu numrul de angajai
Consecina: mrimea organizaiei nu va fi luat n considerare la stabilirea
clusterelor Ex.: dac se vor include variabile nerelevante, cum ar fi cheltuielile cu
sponsorizarea activitilor sportive, care se regsesc doar la unele dintre
organizaiile analizate Consecina: gruparea n clustere va fi deformat de aceast
variabil Chiar i una sau dou variabile irelevante pot afecta n mod important
soluia de grupare Alegerea variabilelor - Concluzii rezultatele analizei de cluster
depind decisiv de modul de alegere a variabilelor Programul statistic ofer soluii
de grupare indiferent de oportunitatea variabilelor nu semnaleaz prin nimic
caracterul nepotrivit al variabilelor3. Alegerea metodei de calcul a similaritii
Analiza de cluster grupeaz cazurile similare n categorii ct mai omogene intern i
ct mai neomogene extern (ntre categorii) Gruparea se bazeaz pe evaluarea
similaritii/disimilaritii dintre cazuriMetode de calcul a similaritii Corelaia
Corelaie Pearson ntre variabilele cazurilor Valori ntre +1 (similaritate maxim) i

-1 (disimilaritate maxim) Este discutabil pentru variabile exprimate pe scale


diferite (medie lipsit de sens) Distana Distana euclidian, cea mai utilizat n
practic (radical din suma diferenelor, ridicate la ptrat) Distana euclidian
ptratic, (ptratul distanei euclidiene; Distana Manhattan (sau city-block), este
suma diferenelor absolute dintre valorile itemilor; Distana Cebev, este diferena
maxim absolut dintre valorile itemilor; Distana Minkovski este rdcina de
ordin r din suma puterilor de ordin r ale diferenelor dintre valorile cazurilor.
Distana Mahalanobis ine cont de standardizarea variabilelor i ajusteaz
intercorelaiile dintre acestea Util n cazul variabilelor msurate pe scale diferite
sau atunci cnd exist un set de variabile corelate ntre ele, care pot avea o
pondere excesiv n procesul de grupare Asocierea (pentru variabile categoriale)
Coeficientul de asociere simpl Coeficientul lui Jaccard Coeficientul lui Gower4.
Metode de grupare exist mai multe modaliti de realizare a gruprii fiecare
metod de grupare va produce o configuraie diferit a clusterelor metodele cele
mai uzuale A. tehnici de grupare ierarhic aglomerativ B. tehnici de partiionare
iterativ A. Gruparea ierarhic aglomerativ fiecare caz individual este considerat
drept un obiect La primul pas se asociaz obiectele care au cel mai mare
grad de similaritate (sunt mai apropiate sub aspectul valorilor care i descriu) La
urmtorul pas avem, pe de o parte, cazuri individuale i, pe de alt parte,
obiecte rezultate prin gruparea unor cazuri individuale la pasul anterior algoritmul
calculeaz distana dintre aceste obiecte i le grupeaz pe baza aceluiai criteriu de
distan n continuare, prin pai succesivi, obiectele sunt grupate progresiv pn
cnd, la penultimul pas, toate cazurile iniiale sunt grupate n doi clusteri la
ultimul pas toate cazurile se vor regsi grupate ntr-un singur cluster.c1 c4 c3 c2 c1
c4 c3 c2 c1 c2 c3 c4 c1 c2 c3 c4Tehnici aglomerative complete linkage (legtur
complet) average linkage between groups (legtura medie ntre grupuri)
.a.Tehnici de grupare iterativ (k-means clustering) metodele aglomerative
constituie progresiv grupuri din ce n ce mai largi, pn epuizeaz toate cazurile
abordarea iterativ pornete de la un numr fix de clusteri declarat de cercettor
Construcia clusterelor poate fi declarat: prin metoda actualizrii iterative a
centrilor clusterelor sau prin utilizarea unor centri de cluster declarai, care sunt
pstrai pe toat durata analizei Procedura salveaz apartenena de cluster a
fiecrui caz distana fiecrui caz fa de centrul clusterului din care face parte
centrul clusterelor n stadiul final Tehnici potrivite pentru baze de date mari (sute
de cazuri)?5. Numrul de clustere algoritmul de grupare ofer soluii progresive
de la un numr de clusteri egal cu numrul cazurilor, pn la soluia final, n care
toate cazurile sunt grupate ntr-un singur cluster soluia optim se localizeaz
ntre aceste dou situaii cercettorul trebuie s decid unde se oprete nu
exist n prezent o metod de stabilire general acceptat depinde de obiectivele
cercettorului n legtur cu utilizarea acestora Recomandabil s fie analizate
caracteristicile clusterilor rezultai n etape succesive s se decid cnd s-a ajuns
la o soluie interpretabil, sau la o soluie cu un numr rezonabil de clusteri, ori
suficient de omogeni atunci cnd distana dintre clusteri nvecinai crete brusc,
putem presupune c la pasul respectiv sunt unite dou grupuri sensibil diferite

este recomandabil s se produc mai multe soluii de grupare acestea vor fi


analizate comparativ pentru a se adopta soluia final reprezentri grafice
specifice: dendograma i graficul icicle (urure)6. Validarea structurii de cluster
Interpretarea clusterelor Statistici descriptive Reprezentrile grafice Scatter
plot Testarea ipotezelor ANOVA, MANOVA, chi-ptrat Atenie, variabilele criteriu
de grupare dau, oricum, diferene semnificative! Studiile de replicare
Clusterizare dubl a altui set de date Odat pe baza distanei fa de centroizii
primelor clustere A doua oar, prin analiza de cluster direct a setului de rezerv
Testarea semnificaiei concordanei dintre cele dou soluii Exemple de analiz de
cluster cu SPSS Analiza ierarhic aglomerativ (Hierachical Cluster Analysis)
Analiza de partiionare iterativ (K-Means Cluster)Cluster 1 Seniori Cluster 2
Restul Cluster 3 AdjunciConcluzii Analiza de cluster poate fi o soluie util
pentru investigarea structurii cazurilor i obinerea de tipologii Utilizarea ei va fi
abordat cu pruden Implic multe decizii subiective Necesit cunotine
teoretice i experien necesit o permanent consultare a literaturii de
specialitate i o practic individual bazat pe ncercarea unor soluii variate i
analiza efectelor acestora structurarea tipologic a datelor, orict de tentant ar
fi, nu reprezint n mod necesar o soluie pentru orice problem de cercetare n
psihologie analiza de cluster nu este o procedura de testare a ipotezelor de
cercetare soluiile sale sunt ntr-o msur destul de ridicat afectat de opiunile
subiective ale cercettorului

S-ar putea să vă placă și