Sunteți pe pagina 1din 2

CURSUL 13

Analiza cluster. Scalarea multidimensională.

Sub numele de analiză cluster sunt grupate o serie de proceduri folosite în cercetarea
socială (multivariată de interdependență) pentru obținerea unei clasificări. Termenul vine
de la englezescul „cluster”, care înseamnă ciorchine, grup, mănunchi, aglomerare. Analiza
cluster vizează așadar totalitatea metodelor de grupare a obiectelor pe baza similarității
caracteristicilor lor.
Tema la care răspunde analiza cluster este identificarea structurii unui set de date
alcătuit dintr-o mulțime de obiecte și caracteristicile lor, prin definirea unor grupuri de
obiecte, cât mai omogene intern și eterogene extern, în funcție de similaritatea lor în raport
cu anumite caracteristici.
Analiza cluster este folosită în mai multe domenii de specialitate, precum biologia,
psihologia, economia, sociologia, ingineria, marketing-ul. Toate au în comun activitatea
de clasificare a unor mulțimi de obiecte, in funcție de relațiile naturale care există între ele.
Metodele si procedurile de analiză cluster au primit diferite denumiri, în funcție de domeniul
unde au fost utilizate: „analiză Q”, „tipologie”, „analiză de clasificare”, „taxonomie”.

Asemănător analizei factoriale, analiza cluster este o metodă de reducere a datelor,


întrucât urmărește organizarea unei mulțimi mari de obiecte într-un număr redus de
grupuri, cât mai omogene în interior și cât mai eterogene între ele, în raport cu un set de
caracteristici. Toate obiectele dintr-un grup (un cluster) rezultat în urma unui algoritm de
analiză rezultat în urma unui algoritm de analiză cluster vor fi similare dupa criteriile sau
cracteristicile stabilite de cercetător. Fiecare grup va putea fi descris prin oricare din
obiectele componente.
Spre deosebire de analiza factorială, care investighează relațiile dintre variabile,
analiza cluster se concentrează asupra relațiilor dintre obiecte. Dacă analiza factorială
grupează variabile în factori latenți, aceștia explicând corelațiile dintre ele, analiza cluster
grupează obiecte în clase de omogenitate.
Analiza cluster are mai multe utilități. În primul rând ea furnizează clasificări sau
tipologii. Informatia despre întreaga populație este mai greu de procesat și înțeles. De
aceea ea trebuie să fie redusă, prin identificarea unor grupuri relativ omogene, la informații
mai ușor de analizat și explicat.
În al doilea rând analiza cluster poate fi utilă la formularea unor scheme conceptuale,
prin identificarea unor grupuri de obiecte similare care pot fi subsumate unui concept.
In al treilea rând, analiza cluster este folosită la generarea de ipoteze prin explorarea
datelor, precum și la testarea ipotezelor prin validarea unor tipologii obținute prin alte
proceduri de cercetare.

Cum se realizează o analiză cluster?


Componenta principală de lucru o constituie realizarea unui algoritm de grupare, în baza
unei reguli simple de alăturare, în pași succesivi, a obiectelor (sau cazurilor)
asemănătoare.
I. Primul pas il constituie formularea problemei de cercetare și stabilirea
scopului analizei cluster.
II. Al doilea pas il reprezintă selecția variabilelor care servesc drept criterii de
grupare. Variabilele care vor constitui baza de formare a grupurilor vor fi alese atât
după considerente teoretice și conceptuale, cât și după considerente practice.
Criterile de grupare trebuie puse în acord cu ipotezele cercetării și cu asumpțiile
unei teorii formulate clar, pe baza cercetărilor anterioare sau în baza unor judecăți
de bun-simț. Ele trebuie sa fie relevante pentru problema de rezolvat și să se refere
la obiectivele analizei. Introducerea de variabile nerelevante în procedura de
grupare, potrivit ideii preconcepute de tipul „lasă că nu strică să fie mai multe acolo”,
va altera rezultatele în sensul îndepărtării de scopul pentru care se realizează de
fapt gruparea.
III. Identificarea similarității dintre obiecte. Acest lucru nu e tocmai simplu, de
aceea trebuie să înțelegem bine conceptul de similaritate. Două obiecte sunt
similare dacă au măsuri apropiate pentru caracteristicile în funcție de cares unt
comparate. Similaritatea obiectelor este ușor de apreciat atunci când le comparăm
în funcție de un singur criteriu (de o singură variabilă). În cazul caracteristicilor
măsurate pe scale nominale, obiectele sunt similare dacă aparțin aceleiași
categorii. In cazul caracteristicilor măsurate pe scale ordinale, obiectele sunt cu
atât mai diferite cu cât sunt mai îndepărtate pe scală.
Coeficienții de corelație. Aceștia sunt o măsură intuitivă a similariății dintre
două obiecte. Coeficientul de corelație reprezintă similaritatea prin corespondența
configurațiilor luate de două obiecte pentru un set de variabile bine determinat. Un
coeficient de corelație 1 indică o similaritate perfectă. Similaritatea dintre obiecte
scade o dată cu valoarea coeficientului, iar valoarea 0 pentru coeficientul de
corelație reprezintă disimilaritate totală între obiecte (adică obiectele nu se
aseampnp deloc în nicio privință).
IV. Utilizarea unor metode (algoritmi) de grupare. Scopul analizei cluster este acela
de a explora sau confirma structura unui set de date prin obținerea unui număr de
grupuri de obiecte similare în raport cu variabilele specificate. Nu există însă niciun
reper despre cum trebuie să arate aceste grupuri (clustere), dincolo de faptul că se
urmărește doar ca ele să fie cât mai omogene. Cele mai frecvente metode de
grupare utilizate sunt cele denumite ierarhic aglomerative. Gruparea obiectelor se
aseamănă în acest caz cu desfășurarea planificării unui tablou al jocurilor de la un
turneu de tenis, două câte două. Doar că în cazul analizei cluster diagrama-arbore
grupează pas cu pas obiectele în funcție de similaritățile lor cele mai evidente.
Lungimea brațelor (ramurilor) diagramei ne arată automat și distanța dintre
grupurile care au fost unite la un anumit pas.
V. Stabilirea unui anumit număr de grupuri. Aceasta este o problemă cheie a
analizei cluster, deoarece nu există niște criterii definitive în acest sens. Doar
examinarea distanțelor dintre ceo doi clusteri care se unesc la feicare pas succesiv
intr-o diagramă-arbore ne poate da o indicație importantă asupra structurii
grupurilor. O strategie utilă în faza de selectare a numărului de grupuri este aceea
de a produce mai multe soluții, cu număr diferit de grupuri care să fie examinate
comparativ.
VI. Interpretarea grupurilor. Abia în faza aceasta apare structura căutată a datelor
sau este validată o ipoteză legată de structura datelor cercetate. Acest pas
presupune examinarea valorilor pe care le iau variabilele de grupare pentru
obiectele din fiecare grup rezultat, pentru a înțelege natura grupurilor. Diferitele
pachete de programe statistice faciliteaza acest proces de interpretare a clusterilor,
în funcție de profilul acestora pentru diferitele variabile de grupare. Pachetele
statistice conțin diferite seturi de proceduri pentru realizarea analizei cluster.

S-ar putea să vă placă și