Sunteți pe pagina 1din 7

ANALIZA CLUSTER

Analiza cluster se poate defini ca o clasa de tehnici utilizate pentru a clasifica


unitatile in clase (grupuri) relativ omogene. Unitatile din interiorul unei clase trebuie sa
fie asemanatoare intre ele, in timp ce unitatile apartinand unor clase diferite trebuie sa fie
cat mai diferite. In limbaj statistic aceasta inseamna minimizarea variantei reziduale, din
interiorul segmentelor obtinute si maximizarea variantei explicata, dintre segmente.
Analiza cluster este des utilizata in marketing pentru gruparea indivizilor (studiul
consumatorului) sau pentru gruparea produselor (studiul consumului), dar şi în alte
situaţii, cum ar fi:
 Poziţionarea mărcilor unui produs, când se studiază mărcile aceluiaşi produs,
înregistrându-se percepţia variabilelor de către consumatori. Astfel vor rezulta tipuri
ce sunt constituite din acele mărci care beneficiază de percepţii similare la
cumpărători. Aceasta va permite poziţionarea unei mărci faţă de cele concurenţiale.
 Activitatea de cercetare privind lansarea de produse noi, când se studiază piţele tip în
care se pot efectua testele de lansare a unui produs nou.
 Studiul unei populaţii în funcţie de activităţi, interese, opinii, va conduce la stabilirea
unei tipologii a modului de viaţă.

Analiza cluster are propria metodologie de grupare, dar în acelaşi timp poate să
apeleze şi la alte metode, ca de exemplu analiza componentelor principale, analiza
varianţei. Această metodă, prin obiectivul său, se aseamănă cu alte metode de analiză a
datelor, dar există şi diferenţe care justifică folosirea acesteia.
Astfel Analiza cluster seamănă destul de mult cu segmentare, care are ca obiectiv
costituirea de clase în raport cu una sau mai multe variabile de explicat. Fiecare clasă
poate fi caracterizată de o serie de variabile explicative, în special socio-demografice. În
schimb Analiza cluster va conduce la constituirea de clase omogene în raport cu toate
variabilele luate în considerare.
De asemenea analiza discriminantă vizează repartizarea unităţilor în clase
determinate de stările unei variabile nominale, de exemplu, clienţii unei societăţi pot fi
grupaţi în clienţi permanenţi sau ocazionali, un nou client, pe baza variabilelor
explicative va putea fi alocat unei anumite clase. Analiza cluster permite constituirea de
clase independent de orice grupare a priori. Astfel ea poate fi utilizată înaintea oricărei
analize discriminante pentru a confirma sau a infirma categoriile a priori stabilite.
Faţă de analiza componentelor principale care are ca scop reducerea numărului de
variabile, Analiza cluster vizează reducerea unităţilor prin gruparea cestora.
Analiza cluster acceptă în descriere atât variabile cantitative, cât şi variabile ordinale
ţi nominale, ceea ce este foarte important având în vedere numărul foarte mare de
variabile utilizate în cercetările de marketing, cât şi diversitatea lor din punctul de vedere
al formei de exprimare.
Utilizarea metodelor de clasterizare presupune parcurgerea urmatoarelor etape:
 formularea problemei;
 alegerea distanţei de măsurare;
 alegerea procedurii de clasificare:
 stabilirea numărului de segmente;
 examinarea şi interpretarea profilelor segmentelor;
 validarea soluţiei rezultate.

1. Formularea problemei
Încercarea de realizare a unei clasterizari poate fi formulată astfel: fiind date n unităţi
pentru fiecare dispunând de înregistrări a p variabile, trebuie să se constituie grupe de
unităţi astfel încât unităţile dintr-o grupă să semene într ele, dar săfie diferite de la o
grupă la alta, asemănarea unităţilor fiind definită plecând de la cele p variabile.
Realizarea unei clasterizari se bazează implicit pe existenţa unei grupări în cadrul
populaţiei studiate. Astfel dacă vizualizăm datele iniţiale sub forma unui nor de n puncte
într-un spaţiu cu p dimensiuni, trebuie să existe zone unde densitatea punctelor este mare,
respectiv punctele sunt apropiate unele de altele. Această ipoteza trebuie verificată
înaintea efectuării unei clasificări.
Ca atare cea mai mare importanţă în această etapă trebuie acordată alegerii
variabilelor pe baza cărora se va efectua Analiza cluster . Este de dorit ca setul de
variabile selectat să descrie asemănarea dintre unitaţi, în termeni ce sunt relevanţi pentru
problema studiată. Variabilele se vor alege pe baza unor cercetări, a unor testări de
ipoteze sau pe baza intuiţiei cercetătorilor.
2. Alegerea distanţei de măsurare
Analiza cluster prezintă marele avantaj că permite analiza variabilelor cantitative cât
şi a celor calitative. Alegerea distanţei se face în funcţie de tipul variabilelor supuse
studiului. Dacă ne situăm în contextul că avem n unităţi caracterizate de p variabile,
pentru măsurarea apropierii dintre unităţi se folosesc două categorii de indicatori, şi
anume :
 Distanţa
 Indicele de similaritate
Alegerea unuia sau a altuia depinde în primul rând de tipul de variabile utilizate în
clasificare, cât şi de constrângerile impuse de proprietăţile indicatorilor.
In cazul variabilelor cantitative se va utiliza una din urmatoarele distante:
- distanta euclidiana,

- distanta rectangulara ( Manhattan)

- distanta lui Minkowski

- a lui Chebyshev, etc.


În cea mai mare parte variabilele se exprimă în unităţi de măsură diferite, astfel se
impune standardizarea variabilelor, înainte de a calcula distanţele necesare, respectiv:
In cazul variabilelor calitative deosebim urmatoarele situatii:
- daca datele sunt prezentate prin matricea frecventelor se utilizeaza distanta
hi patrat;

- daca variabilele sunt ordinale se utilizeaza distanta euclidiana, rectangulara sau


coeficientul de corelatie al lui Spearman.
3. Alegerea procedurii de clasificare
Există un număr mare de procedee de calcul destinate rezolvării problemelor
clasificării. Acestea sunt grupate în două mari categorii:
-metode ierarhice, recurg la construirea unui arbore de clasificare arătând trecerea
celor n unităţi în grupe printr-o succesiune de regrupări sau de divizări:
- metode neierarhice care repartizează unităţile într-un anumit număr de grupe stabilit
iniţial.
Atunci când volumul de date nu este prea mare se preferă metodele ierarhice, fiind mai
eficiente şi mai bine fundamentate, în caz contrar se recurge la metodele neierarhice.
O sinteză asupra metodelor de clasterizare poate fi redată astfel :
 Medode ierarhice
 Ascendente
1. Metoda înlănţuirii
1.1 metoda vecinilor cei mai apropiaţi
1.2 metoda vecinilor cei mai îndepărtaţi
1.3 metoda drumului mediu
2. Metoda varianţei ( metoda lui Ward)
3. Metoda centroizilor
 Descendente
Metode neierarhice
 Cu alocare secvenţiala
 Cu alocare paralelă
 Cu alocare optimală
I. Metodele ierarhice se caracterizează prin faptul că numărul de grupe nu este
cunoscut dinainte, ci va fi determinat pe parcurs, prin algoritmul de clasificare. În funcţie
de algoritmul folosit metodele ierarhice sunt :
 Metode descendente care consideră toate unităţile clasificate într-o singură
grupă. Aceasta va fi divizată până când se obţin grupe omogene în interiorul
lor, dar eterogene între ele.
 Metode ascendente care consideră că fiecare unitate reprezintă la început o
grupă. În continuare grupele sunt formate clasând unităţile în grupe din ce în ce
mai mari. Procedeul este continuat până când toate unităţile sunt cuprinse într-o
singură grupă.
În cadrul metodelor ascendente sunt cuprinse : metoda înlănţuirii, metoda varianţei şi
metoda centroizilor.
Metodele înlănţuirii la rândul lor cuprind :
 metoda vecinilor cei mai apropiaţi, unde distanţa dintre două grupe este asimilată cu
distanţa dintre două unităţi cele mai apropiate, unităţi ce aparţin de grupe diferite.
Utilizarea acestei metode poate conduce la riscul formării de grupe eterogene
deoarece nu se iau în calcul toate unităţile aparţinând unei grupe;
 metoda vecinilor cei mai îndepărtaţi, unde distanţa dintre două grupe este asimilată cu
distanţa dintre douăunităţi cele mai îndepărtate;
  metoda drumului mediu, unde distanţa dintre două grupe este definitî ca media
distanţelor dintre toate perechile de unităţi aparţinând la grupe diferite.
După cum se poate constata metoda drumului mediu utilizează toate distanţele calculate
între perechile de unităţi aparţinând grupelor diferite, nu numai distanţele minime sau
maxime, ceea ce va conduce la obţinerea de grupe mai omogene.
Pe scurt metoda înlănţuirii poate fi prezentată astfel:
- într-o fază prealabilă are loc măsurarea opropierii dintre toate cele n
unităţi luate două câte două )se va utiliza un anumit tipde distanţă în
funcţie de natura variabilelor folosite) ;
- se va elabora matricea de proximităţi (nxn) ;
- într-o primă etapă se vor grupa două unităţi cărora le corespunde distanţa
cea mai mică, respectiv acestea vor constitui prima grupă ;
- în etapa a doua se vor recalcula distanţele celorlalte n-2 unităţi faţăde
grupa formată ;
- cele două etape sunt repetate până ce se regrupează toate unităţile într-o
singură grupă.
Metoda varianţei încercă să genereze grupe prin minimizarea varianţei din
interiorul fiecărei grupe. În cadrul acestei metode, cea mai bună tehnică este metoda lui
Ward. Aceasta presupune ca pentru fiecare grupă să fie calculate mediile tuturor
variabilelor urmând ca ulterior pentru fiecare unitate încă nerepartizată să se calculeze
distanţa euclidiană la mediile grupelor şi de asemenea între grupele deja constituite. Se
însumează distanţele calculate faţă de mediile variabilelor, la nivelul fiecărei unităţi sau
grupe. În fiecare etapă se combină unităţi-grupă sau grupă-grupă în funcţie de cea mai
mică creţtere în totalul sumei pătratelor distanţelor în interiorul grupei
Metoda centroizilor consideră că distanţa dintre două grupe este distanţa dintre
centroizii acestora. Centroidul este punctul care are ca şi coordonate mediilor tuturor
variabilelor unui grup.
Metodele ierarhice prezintă dezavantajul că din punct de vedere teoretic acestea
caută o succesiune de sub-optime şi nu caută un optim global, respectiv la fiecare iteraţie
se efectuează ,,cea mai bună grupare,,.
II. Metodele neierarhice prezintă avantajul prelucrării populaţiilor de volume mari, cu
un cost rezonabil. Cele mai multe dintre aceste metode sunt fundamentate pe algoritmi de
tipul următor:
- alegerea numărului de grupe ;
- aplicarea procedeului de realocare
- stabilirea regulilor de oprire a procedeului de calcul.
Metoda cea mai des utilizată este ces bazată pe alocarea optimală, care urmăreşte
minimizarea distanţei medii în grupe.

4. Stabilirea numărului de grupe


Una din etapele majore ale analizei claster este stabilirea numărului de grupe. Pentru
aceasta nu există o regulă general valabilă, de aceea pot fi luate în considerare mai multe
repere, şi anume :
1. Utilizarea  unui prag de clasificare, ce reprezintă acel nivel de grupare începând de
la care grupele create pot fi considerate foarte eterogene, iar sub el grupele sunt omogene.
Alegerea în acest caz se bazează pe graficul numit DENDOGRAMA, ce reprezintă
clasele obţinute conform metodei utilizate. Problema care se pune este unde "să tai
arborele" astfel încât numărul de clase găsite să fie optim. Nu există o regulă general
valabilă, ci se fac inspecţii subiective ale dendogramei.
5. Determinarea profilului grupelor
Fiecare segment de piata identificat trebuie descris amanuntit pentru a putea identifica
segmentele tinta si elabora mixurile de marketing adaptate cerintelor fiecarui segment
tinta. Determinarea profilului claselor si interpretarea impune analiza centroizilor
claselor. Centroizii reprezinta valorile medii inregistrate de variabilele de segmentare,
numite si variabile active, pentru fiecare segment in parte.
6. Validarea segmentelor
Este posibil ca aceste clase care au fost stabilite anterior sa nu fi fost corect determinate.
Pentru a cunoaste cu exactitate acest lucru se impune o analiza relativ la gradul de
omogenitate din interiorul segmentelor si diferentele existente intre mediile claselor.
Pentru validarea claselor se va utiliza analiza variantei fiecarei variabile active si
testarea egalitatii mediilor in cadrul grupelor.

S-ar putea să vă placă și