Sunteți pe pagina 1din 7

CLASIFICAREA (analiza cluster)

Clasificarea se poate defini ca o clasa de tehnici utilizate pentru a clasifica unitatile


in clase (grupuri) relativ omogene. nitatile din interiorul unei clase tre!uie sa fie
asemanatoare intre ele" in timp ce unitatile apartinand unor clase diferite tre!uie sa fie cat
mai diferite. In lim!a# statistic aceasta inseamna minimizarea variantei reziduale" din
interiorul segmentelor o!tinute si ma$imizarea variantei e$plicata" dintre segmente.
Clasificarea este des utilizata in mar%eting pentru gruparea indivizilor (studiul
consumatorului) sau pentru gruparea produselor (studiul consumului)" dar &i 'n alte
situa(ii" cum ar fi)
*ozi(ionarea m+rcilor unui produs" c,nd se studiaz+ m+rcile aceluia&i produs"
'nregistr,ndu-se percep(ia varia!ilelor de c+tre consumatori. Astfel vor rezulta tipuri
ce sunt constituite din acele m+rci care !eneficiaz+ de percep(ii similare la
cump+r+tori. Aceasta va permite pozi(ionarea unei m+rci fa(+ de cele concuren(iale.
Activitatea de cercetare privind lansarea de produse noi" c,nd se studiaz+ pi(ele tip 'n
care se pot efectua testele de lansare a unui produs nou.
Studiul unei popula(ii 'n func(ie de activit+(i" interese" opinii" va conduce la sta!ilirea
unei tipologii a modului de via(+.
.etoda clasific+rii are propria metodologie de grupare" dar 'n acela&i timp poate s+
apeleze &i la alte metode" ca de e$emplu analiza componentelor principale" analiza
varian(ei. Aceast+ metod+" prin o!iectivul s+u" se aseam+n+ cu alte metode de analiz+ a
datelor" dar e$ist+ &i diferen(e care #ustific+ folosirea acesteia.
Astfel clasificarea seam+n+ destul de mult cu segmentare" care are ca o!iectiv
costituirea de clase 'n raport cu una sau mai multe varia!ile de e$plicat. Fiecare clas+
poate fi caracterizat+ de o serie de varia!ile e$plicative" 'n special socio-demografice. /n
schim! clasificarea va conduce la constituirea de clase omogene 'n raport cu toate
varia!ilele luate 'n considerare.
0e asemenea analiza discriminant+ vizeaz+ repartizarea unit+(ilor 'n clase
determinate de st+rile unei varia!ile nominale" de e$emplu" clien(ii unei societ+(i pot fi
grupa(i 'n clien(i permanen(i sau ocazionali" un nou client" pe !aza varia!ilelor
e$plicative va putea fi alocat unei anumite clase. Clasificarea permite constituirea de
clase independent de orice grupare a priori. Astfel ea poate fi utilizat+ 'naintea oric+rei
analize discriminante pentru a confirma sau a infirma categoriile a priori sta!ilite.
Fa(+ de analiza componentelor principale care are ca scop reducerea num+rului de
varia!ile" clasificarea vizeaz+ reducerea unit+(ilor prin gruparea cestora.
.etoda clasific+rii accept+ 'n descriere at,t varia!ile cantitative" c,t &i varia!ile
ordinale (i nominale" ceea ce este foarte important av,nd 'n vedere num+rul foarte mare
de varia!ile utilizate 'n cercet+rile de mar%eting" c,t &i diversitatea lor din punctul de
vedere al formei de e$primare.
tilizarea metodelor de clasificare presupune parcurgerea urmatoarelor etape)
formularea pro!lemei1
alegerea distan(ei de m+surare1
alegerea procedurii de clasificare)
sta!ilirea num+rului de segmente1
e$aminarea &i interpretarea profilelor segmentelor1
validarea solu(iei rezultate.
In cele ce urmeaza vor fi prezentate principalele tehnici de clasificare.
Clasificarea ierarhica
2. Formularea problemei
/ncercarea de realizare a unei clasific+ri poate fi formulat+ astfel) fiind date n unit+(i
pentru fiecare dispun,nd de 'nregistr+ri a p varia!ile" tre!uie s+ se constituie grupe de
unit+(i astfel 'nc,t unit+(ile dintr-o grup+ s+ semene 'ntr ele" dar s+fie diferite de la o
grup+ la alta" asem+narea unit+(ilor fiind definit+ plec,nd de la cele p varia!ile.
Realizarea unei clasific+ri se !azeaz+ implicit pe e$isten(a unei grup+ri 'n cadrul
popula(iei studiate. Astfel dac+ vizualiz+m datele ini(iale su! forma unui nor de n puncte
'ntr-un spa(iu cu p dimensiuni" tre!uie s+ e$iste zone unde densitatea punctelor este mare"
respectiv punctele sunt apropiate unele de altele. Aceast+ ipoteza tre!uie verificat+
'naintea efectu+rii unei clasific+ri.
Ca atare cea mai mare importan(+ 'n aceast+ etap+ tre!uie acordat+ alegerii
varia!ilelor pe !aza c+rora se va efectua clasificarea. Este de dorit ca setul de varia!ile
selectat s+ descrie asem+narea dintre unita(i" 'n termeni ce sunt relevan(i pentru pro!lema
studiat+. 3aria!ilele se vor alege pe !aza unor cercet+ri" a unor test+ri de ipoteze sau pe
!aza intui(iei cercet+torilor.
4. Alegerea distanei de msurare
Clasificarea prezint+ marele avanta# c+ permite analiza varia!ilelor cantitative c,t &i a
celor calitative. Alegerea distan(ei se face 'n func(ie de tipul varia!ilelor supuse studiului.
0ac+ ne situ+m 'n conte$tul c+ avem n unit+(i caracterizate de p varia!ile" pentru
m+surarea apropierii dintre unit+(i se folosesc dou+ categorii de indicatori" &i anume )
0istan(a
Indicele de similaritate
Alegerea unuia sau a altuia depinde 'n primul r,nd de tipul de varia!ile utilizate 'n
clasificare" c,t &i de constr,ngerile impuse de propriet+(ile indicatorilor.
In cazul varia!ilelor cantitative se va utiliza una din urmatoarele distante)
- distanta euclidiana"
( ) ( )

=
=
p
k
k i
ik
X X i i d
2
4 5
5
"
- distanta rectangulara ( .anhattan)

=
=
p
k
k i
ik
X X i i d
2
5
5
) " (
- distanta lui .in%o6s%i
n
p
k
n
k i
ik
X X i i d
7 2
2
5
) ( ) " (
5

=

=
- a lui Che!8shev" etc.
/n cea mai mare parte varia!ilele se e$prim+ 'n unit+(i de m+sur+ diferite" astfel se
impune standardizarea varia!ilelor" 'nainte de a calcula distan(ele necesare" respectiv)
X
k
k
X X
Z

=
In cazul varia!ilelor calitative deose!im urmatoarele situatii)
- daca datele sunt prezentate prin matricea frecventelor se utilizeaza distanta
hi patrat1
4
.
2 . .
5
) (
2
) " (
5
5
i
k i
p
k i
ik
k
f
f
f
f
f
i i d =

=
- daca varia!ilele sunt ordinale se utilizeaza distanta euclidiana" rectangulara sau
coeficientul de corelatie al lui Spearman.
9. Alegerea procedurii de clasificare
E$ist+ un num+r mare de procedee de calcul destinate rezolv+rii pro!lemelor
clasific+rii. Acestea sunt grupate 'n dou+ mari categorii)
-metode ierarhice" recurg la construirea unui ar!ore de clasificare ar+t,nd trecerea
celor n unit+(i 'n grupe printr-o succesiune de regrup+ri sau de diviz+ri)
- metode neierarhice care repartizeaz+ unit+(ile 'ntr-un anumit num+r de grupe sta!ilit
ini(ial.
Atunci c,nd volumul de date nu este prea mare se prefer+ metodele ierarhice" fiind mai
eficiente &i mai !ine fundamentate" 'n caz contrar se recurge la metodele neierarhice.
: sintez+ asupra metodelor de clasificare poate fi redat+ astfel )
2. .etoda 'nl+n(uirii
2.2 metoda vecinilor cei mai apropia(i
2.4 metoda vecinilor cei mai 'ndep+rta(i
2.9 metoda drumului mediu
4. .etoda varian(ei ( metoda lui ;ard)
9. .etoda centroizilor
.etodele ierarhice se caracterizeaz+ prin faptul c+ num+rul de grupe nu este
cunoscut dinainte" ci va fi determinat pe parcurs" prin algoritmul de clasificare. Metode
ascendente consider+ c+ fiecare unitate reprezint+ la 'nceput o grup+. /n continuare
grupele sunt formate clas,nd unit+(ile 'n grupe din ce 'n ce mai mari. *rocedeul este
continuat p,n+ c,nd toate unit+(ile sunt cuprinse 'ntr-o singur+ grup+.
Metodele nlnuirii la r,ndul lor cuprind )
metoda vecinilor cei mai apropia(i" unde distan(a dintre dou+ grupe este asimilat+ cu
distan(a dintre dou+ unit+(i cele mai apropiate" unit+(i ce apar(in de grupe diferite.
tilizarea acestei metode poate conduce la riscul form+rii de grupe eterogene
deoarece nu se iau 'n calcul toate unit+(ile apar(in,nd unei grupe1
metoda vecinilor cei mai 'ndep+rta(i" unde distan(a dintre dou+ grupe este asimilat+ cu
distan(a dintre dou+unit+(i cele mai 'ndep+rtate1
metoda drumului mediu" unde distan(a dintre dou+ grupe este definit' ca media
distan(elor dintre toate perechile de unit+(i apar(in,nd la grupe diferite.
0up+ cum se poate constata metoda drumului mediu utilizeaz+ toate distan(ele calculate
'ntre perechile de unit+(i apar(in,nd grupelor diferite" nu numai distan(ele minime sau
ma$ime" ceea ce va conduce la o!(inerea de grupe mai omogene.
*e scurt metoda 'nl+n(uirii poate fi prezentat+ astfel)
- 'ntr-o faz+ preala!il+ are loc m+surarea opropierii dintre toate cele n
unit+(i luate dou+ c,te dou+ )se va utiliza un anumit tipde distan(+ 'n
func(ie de natura varia!ilelor folosite) 1
- se va ela!ora matricea de pro$imit+(i (nxn) ;
- 'ntr-o prim+ etap+ se vor grupa dou+ unit+(i c+rora le corespunde distan(a
cea mai mic+" respectiv acestea vor constitui prima grup+ 1
- 'n etapa a doua se vor recalcula distan(ele celorlalte n-4 unit+(i fa(+de
grupa format+ 1
- cele dou+ etape sunt repetate p,n+ ce se regrupeaz+ toate unit+(ile 'ntr-o
singur+ grup+.
Metoda varianei 'ncerc+ s+ genereze grupe prin minimizarea varian(ei din
interiorul fiec+rei grupe. /n cadrul acestei metode" cea mai !un+ tehnic+ este metoda lui
;ard. Aceasta presupune ca pentru fiecare grup+ s+ fie calculate mediile tuturor
varia!ilelor urm,nd ca ulterior pentru fiecare unitate 'nc+ nerepartizat+ s+ se calculeze
distan(a euclidian+ la mediile grupelor &i de asemenea 'ntre grupele de#a constituite. Se
'nsumeaz+ distan(ele calculate fa(+ de mediile varia!ilelor" la nivelul fiec+rei unit+(i sau
grupe. /n fiecare etap+ se com!in+ unit+(i-grup+ sau grup+-grup+ 'n func(ie de cea mai
mic+ cre(tere 'n totalul sumei p+tratelor distan(elor 'n interiorul grupei
Metoda centroizilor consider+ c+ distan(a dintre dou+ grupe este distan(a dintre
centroizii acestora. Centroidul este punctul care are ca &i coordonate mediilor tuturor
varia!ilelor unui grup.
.etodele ierarhice prezint+ dezavanta#ul c+ din punct de vedere teoretic acestea
caut+ o succesiune de su!-optime &i nu caut+ un optim glo!al" respectiv la fiecare itera(ie
se efectueaz+ ""cea mai !un+ grupare"".
4. Stabilirea numrului de grupe
na din etapele ma#ore ale metodei calsific+rii este sta!ilirea num+rului de grupe.
*entru aceasta nu e$ist+ o regul+ general vala!il+" de aceea pot fi luate 'n considerare mai
multe repere.
tilizarea unui prag de clasificare" ce reprezint+ acel nivel de grupare 'ncep,nd de la
care grupele create pot fi considerate foarte eterogene" iar su! el grupele sunt omogene.
Alegerea 'n acest caz se !azeaz+ pe graficul numit 0E<0:=RA.A" ce reprezint+
clasele o!(inute conform metodei utilizate. *ro!lema care se pune este unde >s+ tai
ar!orele> astfel 'nc,t num+rul de clase g+site s+ fie optim. <u e$ist+ o regul+ general
vala!il+" ci se fac inspec(ii su!iective ale dendogramei.
. !eterminarea profilului grupelor
Fiecare segment de piata identificat tre!uie descris amanuntit pentru a putea identifica
segmentele tinta si ela!ora mi$urile de mar%eting adaptate cerintelor fiecarui segment
tinta. 0eterminarea profilului claselor si interpretarea impune analiza centroizilor
claselor. Centroizii reprezinta valorile medii inregistrate de varia!ilele de segmentare"
numite si varia!ile active" pentru fiecare segment in parte.
". #alidarea segmentelor
Este posi!il ca aceste clase care au fost sta!ilite anterior sa nu fi fost corect determinate.
*entru a cunoaste cu e$actitate acest lucru se impune o analiza relativ la gradul de
omogenitate din interiorul segmentelor si diferentele e$istente intre mediile claselor.
*entru validarea claselor se va utiliza analiza variantei fiecarei varia!ile active si
testarea egalitatii mediilor in cadrul grupelor.

S-ar putea să vă placă și