Sunteți pe pagina 1din 7

CLASIFICAREA (analiza cluster)

Clasificarea se poate defini ca o clasa de tehnici utilizate pentru a clasifica unitatile


in clase (grupuri) relativ omogene. Unitatile din interiorul unei clase trebuie sa fie
asemanatoare intre ele, in timp ce unitatile apartinand unor clase diferite trebuie sa fie cat
mai diferite. In limbaj statistic aceasta inseamna minimizarea variantei reziduale, din
interiorul segmentelor obtinute si maximizarea variantei explicata, dintre segmente.
Clasificarea este des utilizata in marketing pentru gruparea indivizilor (studiul
consumatorului) sau pentru gruparea produselor (studiul consumului), dar i n alte
situaii, cum ar fi:
Poziionarea mrcilor unui produs, cnd se studiaz mrcile aceluiai produs,
nregistrndu-se percepia variabilelor de ctre consumatori. Astfel vor rezulta tipuri
ce sunt constituite din acele mrci care beneficiaz de percepii similare la
cumprtori. Aceasta va permite poziionarea unei mrci fa de cele concureniale.
Activitatea de cercetare privind lansarea de produse noi, cnd se studiaz piele tip n
care se pot efectua testele de lansare a unui produs nou.
Studiul unei populaii n funcie de activiti, interese, opinii, va conduce la stabilirea
unei tipologii a modului de via.

Metoda clasificrii are propria metodologie de grupare, dar n acelai timp poate s
apeleze i la alte metode, ca de exemplu analiza componentelor principale, analiza
varianei. Aceast metod, prin obiectivul su, se aseamn cu alte metode de analiz a
datelor, dar exist i diferene care justific folosirea acesteia.
Astfel clasificarea seamn destul de mult cu segmentare, care are ca obiectiv
costituirea de clase n raport cu una sau mai multe variabile de explicat. Fiecare clas
poate fi caracterizat de o serie de variabile explicative, n special socio-demografice. n
schimb clasificarea va conduce la constituirea de clase omogene n raport cu toate
variabilele luate n considerare.
De asemenea analiza discriminant vizeaz repartizarea unitilor n clase
determinate de strile unei variabile nominale, de exemplu, clienii unei societi pot fi
grupai n clieni permaneni sau ocazionali, un nou client, pe baza variabilelor
explicative va putea fi alocat unei anumite clase. Clasificarea permite constituirea de
clase independent de orice grupare a priori. Astfel ea poate fi utilizat naintea oricrei
analize discriminante pentru a confirma sau a infirma categoriile a priori stabilite.
Fa de analiza componentelor principale care are ca scop reducerea numrului de
variabile, clasificarea vizeaz reducerea unitilor prin gruparea cestora.
Metoda clasificrii accept n descriere att variabile cantitative, ct i variabile
ordinale i nominale, ceea ce este foarte important avnd n vedere numrul foarte mare
de variabile utilizate n cercetrile de marketing, ct i diversitatea lor din punctul de
vedere al formei de exprimare.
Utilizarea metodelor de clasificare presupune parcurgerea urmatoarelor etape:
formularea problemei;
alegerea distanei de msurare;
alegerea procedurii de clasificare:
stabilirea numrului de segmente;
examinarea i interpretarea profilelor segmentelor;
validarea soluiei rezultate.
In cele ce urmeaza vor fi prezentate principalele tehnici de clasificare.

Clasificarea ierarhica

1. Formularea problemei
ncercarea de realizare a unei clasificri poate fi formulat astfel: fiind date n uniti
pentru fiecare dispunnd de nregistrri a p variabile, trebuie s se constituie grupe de
uniti astfel nct unitile dintr-o grup s semene ntr ele, dar sfie diferite de la o
grup la alta, asemnarea unitilor fiind definit plecnd de la cele p variabile.
Realizarea unei clasificri se bazeaz implicit pe existena unei grupri n cadrul
populaiei studiate. Astfel dac vizualizm datele iniiale sub forma unui nor de n puncte
ntr-un spaiu cu p dimensiuni, trebuie s existe zone unde densitatea punctelor este mare,
respectiv punctele sunt apropiate unele de altele. Aceast ipoteza trebuie verificat
naintea efecturii unei clasificri.
Ca atare cea mai mare importan n aceast etap trebuie acordat alegerii
variabilelor pe baza crora se va efectua clasificarea. Este de dorit ca setul de variabile
selectat s descrie asemnarea dintre unitai, n termeni ce sunt relevani pentru problema
studiat. Variabilele se vor alege pe baza unor cercetri, a unor testri de ipoteze sau pe
baza intuiiei cercettorilor.
2. Alegerea distanei de msurare
Clasificarea prezint marele avantaj c permite analiza variabilelor cantitative ct i a
celor calitative. Alegerea distanei se face n funcie de tipul variabilelor supuse studiului.
Dac ne situm n contextul c avem n uniti caracterizate de p variabile, pentru
msurarea apropierii dintre uniti se folosesc dou categorii de indicatori, i anume :
Distana
Indicele de similaritate
Alegerea unuia sau a altuia depinde n primul rnd de tipul de variabile utilizate n
clasificare, ct i de constrngerile impuse de proprietile indicatorilor.
In cazul variabilelor cantitative se va utiliza una din urmatoarele distante:
- distanta euclidiana,

X
p
2
d i, i ' ik X i 'k
k 1

- distanta rectangulara ( Manhattan)


p
d (i, i ' ) X ik X i 'k
k 1

- distanta lui Minkowski


1/ n
p
d (i, i ) ( X ik X i 'k ) n
'

k 1

- a lui Chebyshev, etc.


n cea mai mare parte variabilele se exprim n uniti de msur diferite, astfel se
impune standardizarea variabilelor, nainte de a calcula distanele necesare, respectiv:
Xk X
Zk
X

In cazul variabilelor calitative deosebim urmatoarele situatii:


- daca datele sunt prezentate prin matricea frecventelor se utilizeaza distanta
hi patrat;
p
1 f ik f'
d (i, i ' ) ( i k )2
k 1 f .k f i . f i' .

- daca variabilele sunt ordinale se utilizeaza distanta euclidiana, rectangulara sau


coeficientul de corelatie al lui Spearman.
3. Alegerea procedurii de clasificare
Exist un numr mare de procedee de calcul destinate rezolvrii problemelor
clasificrii. Acestea sunt grupate n dou mari categorii:
-metode ierarhice, recurg la construirea unui arbore de clasificare artnd trecerea
celor n uniti n grupe printr-o succesiune de regrupri sau de divizri:
- metode neierarhice care repartizeaz unitile ntr-un anumit numr de grupe stabilit
iniial.
Atunci cnd volumul de date nu este prea mare se prefer metodele ierarhice, fiind mai
eficiente i mai bine fundamentate, n caz contrar se recurge la metodele neierarhice.
O sintez asupra metodelor de clasificare poate fi redat astfel :
1. Metoda nlnuirii
1.1 metoda vecinilor cei mai apropiai
1.2 metoda vecinilor cei mai ndeprtai
1.3 metoda drumului mediu
2. Metoda varianei ( metoda lui Ward)
3. Metoda centroizilor
Metodele ierarhice se caracterizeaz prin faptul c numrul de grupe nu este
cunoscut dinainte, ci va fi determinat pe parcurs, prin algoritmul de clasificare. Metode
ascendente consider c fiecare unitate reprezint la nceput o grup. n continuare
grupele sunt formate clasnd unitile n grupe din ce n ce mai mari. Procedeul este
continuat pn cnd toate unitile sunt cuprinse ntr-o singur grup.
Metodele nlnuirii la rndul lor cuprind :
metoda vecinilor cei mai apropiai, unde distana dintre dou grupe este asimilat cu
distana dintre dou uniti cele mai apropiate, uniti ce aparin de grupe diferite.
Utilizarea acestei metode poate conduce la riscul formrii de grupe eterogene
deoarece nu se iau n calcul toate unitile aparinnd unei grupe;
metoda vecinilor cei mai ndeprtai, unde distana dintre dou grupe este asimilat cu
distana dintre douuniti cele mai ndeprtate;
metoda drumului mediu, unde distana dintre dou grupe este definit ca media
distanelor dintre toate perechile de uniti aparinnd la grupe diferite.
Dup cum se poate constata metoda drumului mediu utilizeaz toate distanele calculate
ntre perechile de uniti aparinnd grupelor diferite, nu numai distanele minime sau
maxime, ceea ce va conduce la obinerea de grupe mai omogene.
Pe scurt metoda nlnuirii poate fi prezentat astfel:
- ntr-o faz prealabil are loc msurarea opropierii dintre toate cele n uniti
luate dou cte dou )se va utiliza un anumit tipde distan n funcie de
natura variabilelor folosite) ;
- se va elabora matricea de proximiti (nxn) ;
- ntr-o prim etap se vor grupa dou uniti crora le corespunde distana
cea mai mic, respectiv acestea vor constitui prima grup ;
- n etapa a doua se vor recalcula distanele celorlalte n-2 uniti fade
grupa format ;
- cele dou etape sunt repetate pn ce se regrupeaz toate unitile ntr-o
singur grup.
Metoda varianei ncerc s genereze grupe prin minimizarea varianei din
interiorul fiecrei grupe. n cadrul acestei metode, cea mai bun tehnic este metoda lui
Ward. Aceasta presupune ca pentru fiecare grup s fie calculate mediile tuturor
variabilelor urmnd ca ulterior pentru fiecare unitate nc nerepartizat s se calculeze
distana euclidian la mediile grupelor i de asemenea ntre grupele deja constituite. Se
nsumeaz distanele calculate fa de mediile variabilelor, la nivelul fiecrei uniti sau
grupe. n fiecare etap se combin uniti-grup sau grup-grup n funcie de cea mai
mic cretere n totalul sumei ptratelor distanelor n interiorul grupei
Metoda centroizilor consider c distana dintre dou grupe este distana dintre
centroizii acestora. Centroidul este punctul care are ca i coordonate mediilor tuturor
variabilelor unui grup.
Metodele ierarhice prezint dezavantajul c din punct de vedere teoretic acestea
caut o succesiune de sub-optime i nu caut un optim global, respectiv la fiecare iteraie
se efectueaz ,,cea mai bun grupare,,.

4. Stabilirea numrului de grupe


Una din etapele majore ale metodei calsificrii este stabilirea numrului de grupe.
Pentru aceasta nu exist o regul general valabil, de aceea pot fi luate n considerare mai
multe repere.
Utilizarea unui prag de clasificare, ce reprezint acel nivel de grupare ncepnd de la
care grupele create pot fi considerate foarte eterogene, iar sub el grupele sunt omogene.
Alegerea n acest caz se bazeaz pe graficul numit DENDOGRAMA, ce reprezint
clasele obinute conform metodei utilizate. Problema care se pune este unde "s tai
arborele" astfel nct numrul de clase gsite s fie optim. Nu exist o regul general
valabil, ci se fac inspecii subiective ale dendogramei.

5. Determinarea profilului grupelor


Fiecare segment de piata identificat trebuie descris amanuntit pentru a putea identifica
segmentele tinta si elabora mixurile de marketing adaptate cerintelor fiecarui segment
tinta. Determinarea profilului claselor si interpretarea impune analiza centroizilor
claselor. Centroizii reprezinta valorile medii inregistrate de variabilele de segmentare,
numite si variabile active, pentru fiecare segment in parte.

6. Validarea segmentelor
Este posibil ca aceste clase care au fost stabilite anterior sa nu fi fost corect determinate.
Pentru a cunoaste cu exactitate acest lucru se impune o analiza relativ la gradul de
omogenitate din interiorul segmentelor si diferentele existente intre mediile claselor.
Pentru validarea claselor se va utiliza analiza variantei fiecarei variabile active si
testarea egalitatii mediilor in cadrul grupelor.

S-ar putea să vă placă și