Analiza de cluster M. Popa1. Introducere 2. Pregtirea i organizarea datelor 3.
Alegerea metodei de calcul a similaritii 4. Alegerea metodei de grupare 5.
Validarea structurii de cluster 6. Exemple de analiz de cluster cu SPSS 7. ConcluziiAsociere variabile Regresie liniar Regresie logistic Corelaie parial Mediere Moderare Comparaie grupuri ANOVA factorial ANCOVA MANOVA MANCOVA Grupare date Analiza factorial exploratorie Analiza de cluster Clusterizarea procedurilor statistice din programa cursului:1. Introducere dezvoltat n anii `30 n psihologie de ctre Zubin i Tryon Colecie de tehnici de clasificare a cazurilor incluse ntr-o baz de date ct mai omogene intern Ct mai eterogene extern Punctele reprezint cazuriAnaliza de cluster Nu conduce la o soluie unic Cercettorul alege metoda de analiz i soluia de grupare pe care o consider potrivit Soluia de grupare depinde de o serie de decizii subiective abordarea ei presupune nsuirea unor concepte i principii cu privire la problematica clasificrii SUA The Classification Society of North America, cu o vechime de peste 30 de ani Mii de articole privind tehnicile de grupare Utilitatea analizei de cluster Studii exploratorii cutarea structurii datelor (obiectiv preponderent) Studii de confirmare Confirmarea unei structuri existente (presupuse) Obiectiv posibil, dar dificil de abordat nu exist o teorie unificatoare a metodelor de grupare i nici tehnici sigure de validare nu exist (nc) un test statistic pentru decizia de confirmare Elaborarea de tipologii de grupare nu este singura tehnica de realizare a tipologiilor Generarea de ipoteze2. Pregtirea i organizarea datelor datele sunt organizate sub form de matrice Nume Salariu Norma Poziia Articole Vechime Rosalyn 123600,00 1,00 5 21 32 Lawrence 96799,92 1,00 5 71 27 Sunila 83358,00 1,00 5 19 24 Randolph 83235,84 1,00 5 17 38 Dea 6962,94 ,50 1 0 0 Claude 6812,82 ,50 1 0 0 Amanda 5999,14 ,50 1 0 0 Boris 4919,85 ,25 1 4 15 Garrett 4738,86 ,25 1 0 0 cazuri itemi modele indivizi subieci obiecte, uniti operaionaltaxonomice, profile variabile, descriptori, atribute, caractere, itemi, profile Variabil de identificare Orice scal de msurareSelectarea cazurilor eantionarea aleatoare nu este o condiie necesar eantionul trebuie s reprezinte categoriile vizate proporia cazurilor din cadrul eantionului nu trebuie s respecte n mod necesar proporia de la nivelul populaiei dect dac se urmrete generalizarea rezultatelor categorii mai puin reprezentate la nivelul populaiei vor avea anse mai reduse de a fi surprinse de analiza de cluster soluie: supra-reprezentarea tipurilor minoritare Separarea bazei de date n dou, pentru validarea ulterioar a soluiei de grupare cazuri-tip ideale cazuri care descriu categorii tipice, prognozate de cercettor Regsirea lor n anumite clustere vor fi o dovad a validitii Atenie la valorile extreme (outliers) duc la clustere artificiale Valorile lips (missing) sunt eliminate de SPSS reduc volumul util de date, prin eliminarea cazurilor de ctre SPSS Codificarea concordant a variabilelor codificari discordante fac dificil interpretareaSelectarea variabilelor nu se impune condiia distribuiei normale a variabilelor metodele de grupare se bazeaz pe euristici care nu iau n considerare distribuia variabilelor Probleme importante Numrul variabilelor Alegerea variabilelor Variabilitatea Asocierea variabilelor n dimensiuni Corelaia
variabilelorNumrul variabilelor n exemplul dat exist 5 variabile Sunt multe?
Puine? Cte ar trebui s fie? Nu exist criterii pentru un rspuns sigur Wuensch a pstrat doar o parte din variabilele disponibile a eliminat genul i o variabil n care numrul de articole nu era sigurVariabilitatea Operaiunea de grupare (clusterizare) este favorizat de utilizarea unor variabile cu o variaie ct mai mare produc o discriminare mai bun ntre cazuri se va evita utilizarea unor variabile a cror valori sunt de ordine de mrime foarte diferite dac una din variabile este de ordinul zecilor de mii (salariul), iar alt variabil este de ordinul zecilor (vechimea n ani), atunci prima va avea pondere mai mare n operaiunea de grupare Soluie: transformare a variabilelor n scoruri standard de regul n scoruri z, dar exist i alte metode, care nu se bazeaz pe ab. standard (medie)Asocierea variabilelor n dimensiuni asocierea lor n anumite dimensiuni trebuie luat n considerare Ex.: pentru clasificarea cadrelor didactice pot fi luate n considerare diverse variabile care descriu aprecierea i performana academic dac performana academic ar fi reprezentat prin mai multe variabile dect aprecierea, atunci acest aspect ar avea o pondere mai mare n alctuirea clusterelor acest lucru nu este negativ n sine, cercettorul are drept de opiuneCorelaia (asocierea) variabilelor exist autori care recomand eliminarea variabilelor care coreleaz ntre ele Millgram i Hirtle (op. cit.) consider c existena unor corelaii nu este un aspect negativ pentru analiza de cluster ar putea fi tocmai rezultatul unei grupri naturale a acelor variabile, iar eliminarea corelaiei nu ar face dect s distorsioneze gruparea datelor analiza de cluster poate fi precedat de analize factoriale, care urmresc gruparea variabilelor acest lucru este justificat numai dac se presupune c gruparea n clusteri are loc n spaiul factorilor i nu al variabilelor individuale prin comprimarea variabilelor se ajunge la soluii de grupare n clusteri care pot diferi substanial de gruparea pe baza variabilelor individualeAlegerea variabilelor n nici un caz nu vor fi puse cu furca, la grmad! Omiterea unor variabile importante, dar i punerea unor variabile irelevante afecteaz soluia de grupare Ex.: stabilirea unei tipologii a organizaiilor utilizndu-se variabile ca cifra de afaceri, profitul realizat, nivelul de calificare a angajailor, dar fr a se include o variabil cu numrul de angajai Consecina: mrimea organizaiei nu va fi luat n considerare la stabilirea clusterelor Ex.: dac se vor include variabile nerelevante, cum ar fi cheltuielile cu sponsorizarea activitilor sportive, care se regsesc doar la unele dintre organizaiile analizate Consecina: gruparea n clustere va fi deformat de aceast variabil Chiar i una sau dou variabile irelevante pot afecta n mod important soluia de grupare Alegerea variabilelor - Concluzii rezultatele analizei de cluster depind decisiv de modul de alegere a variabilelor Programul statistic ofer soluii de grupare indiferent de oportunitatea variabilelor nu semnaleaz prin nimic caracterul nepotrivit al variabilelor3. Alegerea metodei de calcul a similaritii Analiza de cluster grupeaz cazurile similare n categorii ct mai omogene intern i ct mai neomogene extern (ntre categorii) Gruparea se bazeaz pe evaluarea similaritii/disimilaritii dintre cazuriMetode de calcul a similaritii Corelaia Corelaie Pearson ntre variabilele cazurilor Valori ntre +1 (similaritate maxim) i
-1 (disimilaritate maxim) Este discutabil pentru variabile exprimate pe scale
diferite (medie lipsit de sens) Distana Distana euclidian, cea mai utilizat n practic (radical din suma diferenelor, ridicate la ptrat) Distana euclidian ptratic, (ptratul distanei euclidiene; Distana Manhattan (sau city-block), este suma diferenelor absolute dintre valorile itemilor; Distana Cebev, este diferena maxim absolut dintre valorile itemilor; Distana Minkovski este rdcina de ordin r din suma puterilor de ordin r ale diferenelor dintre valorile cazurilor. Distana Mahalanobis ine cont de standardizarea variabilelor i ajusteaz intercorelaiile dintre acestea Util n cazul variabilelor msurate pe scale diferite sau atunci cnd exist un set de variabile corelate ntre ele, care pot avea o pondere excesiv n procesul de grupare Asocierea (pentru variabile categoriale) Coeficientul de asociere simpl Coeficientul lui Jaccard Coeficientul lui Gower4. Metode de grupare exist mai multe modaliti de realizare a gruprii fiecare metod de grupare va produce o configuraie diferit a clusterelor metodele cele mai uzuale A. tehnici de grupare ierarhic aglomerativ B. tehnici de partiionare iterativ A. Gruparea ierarhic aglomerativ fiecare caz individual este considerat drept un obiect La primul pas se asociaz obiectele care au cel mai mare grad de similaritate (sunt mai apropiate sub aspectul valorilor care i descriu) La urmtorul pas avem, pe de o parte, cazuri individuale i, pe de alt parte, obiecte rezultate prin gruparea unor cazuri individuale la pasul anterior algoritmul calculeaz distana dintre aceste obiecte i le grupeaz pe baza aceluiai criteriu de distan n continuare, prin pai succesivi, obiectele sunt grupate progresiv pn cnd, la penultimul pas, toate cazurile iniiale sunt grupate n doi clusteri la ultimul pas toate cazurile se vor regsi grupate ntr-un singur cluster.c1 c4 c3 c2 c1 c4 c3 c2 c1 c2 c3 c4 c1 c2 c3 c4Tehnici aglomerative complete linkage (legtur complet) average linkage between groups (legtura medie ntre grupuri) .a.Tehnici de grupare iterativ (k-means clustering) metodele aglomerative constituie progresiv grupuri din ce n ce mai largi, pn epuizeaz toate cazurile abordarea iterativ pornete de la un numr fix de clusteri declarat de cercettor Construcia clusterelor poate fi declarat: prin metoda actualizrii iterative a centrilor clusterelor sau prin utilizarea unor centri de cluster declarai, care sunt pstrai pe toat durata analizei Procedura salveaz apartenena de cluster a fiecrui caz distana fiecrui caz fa de centrul clusterului din care face parte centrul clusterelor n stadiul final Tehnici potrivite pentru baze de date mari (sute de cazuri)?5. Numrul de clustere algoritmul de grupare ofer soluii progresive de la un numr de clusteri egal cu numrul cazurilor, pn la soluia final, n care toate cazurile sunt grupate ntr-un singur cluster soluia optim se localizeaz ntre aceste dou situaii cercettorul trebuie s decid unde se oprete nu exist n prezent o metod de stabilire general acceptat depinde de obiectivele cercettorului n legtur cu utilizarea acestora Recomandabil s fie analizate caracteristicile clusterilor rezultai n etape succesive s se decid cnd s-a ajuns la o soluie interpretabil, sau la o soluie cu un numr rezonabil de clusteri, ori suficient de omogeni atunci cnd distana dintre clusteri nvecinai crete brusc, putem presupune c la pasul respectiv sunt unite dou grupuri sensibil diferite
este recomandabil s se produc mai multe soluii de grupare acestea vor fi
analizate comparativ pentru a se adopta soluia final reprezentri grafice specifice: dendograma i graficul icicle (urure)6. Validarea structurii de cluster Interpretarea clusterelor Statistici descriptive Reprezentrile grafice Scatter plot Testarea ipotezelor ANOVA, MANOVA, chi-ptrat Atenie, variabilele criteriu de grupare dau, oricum, diferene semnificative! Studiile de replicare Clusterizare dubl a altui set de date Odat pe baza distanei fa de centroizii primelor clustere A doua oar, prin analiza de cluster direct a setului de rezerv Testarea semnificaiei concordanei dintre cele dou soluii Exemple de analiz de cluster cu SPSS Analiza ierarhic aglomerativ (Hierachical Cluster Analysis) Analiza de partiionare iterativ (K-Means Cluster)Cluster 1 Seniori Cluster 2 Restul Cluster 3 AdjunciConcluzii Analiza de cluster poate fi o soluie util pentru investigarea structurii cazurilor i obinerea de tipologii Utilizarea ei va fi abordat cu pruden Implic multe decizii subiective Necesit cunotine teoretice i experien necesit o permanent consultare a literaturii de specialitate i o practic individual bazat pe ncercarea unor soluii variate i analiza efectelor acestora structurarea tipologic a datelor, orict de tentant ar fi, nu reprezint n mod necesar o soluie pentru orice problem de cercetare n psihologie analiza de cluster nu este o procedura de testare a ipotezelor de cercetare soluiile sale sunt ntr-o msur destul de ridicat afectat de opiunile subiective ale cercettorului