Sunteți pe pagina 1din 7

ANALIZA CLUSTER

Analiza cluster se poate defini ca o clasa de tehnici utilizate pentru a clasifica


unitatile in clase (grupuri) relati o!ogene" Unitatile din interiorul unei clase tre#uie sa
fie ase!anatoare intre ele$ in ti!p ce unitatile apartinand unor clase diferite tre#uie sa fie
cat !ai diferite" In li!#a% statistic aceasta insea!na !ini!izarea ariantei reziduale$ din
interiorul seg!entelor o#tinute si !a&i!izarea ariantei e&plicata$ dintre seg!ente"
Analiza cluster este des utilizata in !ar'eting pentru gruparea indiizilor (studiul
consu!atorului) sau pentru gruparea produselor (studiul consu!ului)$ dar (i )n alte
situa*ii$ cu! ar fi+
,ozi*ionarea !-rcilor unui produs$ c.nd se studiaz- !-rcile aceluia(i produs$
)nregistr.ndu/se percep*ia aria#ilelor de c-tre consu!atori" Astfel or rezulta tipuri
ce sunt constituite din acele !-rci care #eneficiaz- de percep*ii si!ilare la
cu!p-r-tori" Aceasta a per!ite pozi*ionarea unei !-rci fa*- de cele concuren*iale"
Actiitatea de cercetare priind lansarea de produse noi$ c.nd se studiaz- pi*ele tip )n
care se pot efectua testele de lansare a unui produs nou"
Studiul unei popula*ii )n func*ie de actiit-*i$ interese$ opinii$ a conduce la sta#ilirea
unei tipologii a !odului de ia*-"
Analiza cluster are propria !etodologie de grupare$ dar )n acela(i ti!p poate s-
apeleze (i la alte !etode$ ca de e&e!plu analiza co!ponentelor principale$ analiza
arian*ei" Aceast- !etod-$ prin o#iectiul s-u$ se asea!-n- cu alte !etode de analiz- a
datelor$ dar e&ist- (i diferen*e care %ustific- folosirea acesteia"
Astfel Analiza cluster sea!-n- destul de !ult cu seg!entare$ care are ca o#iecti
costituirea de clase )n raport cu una sau !ai !ulte aria#ile de e&plicat" 0iecare clas-
poate fi caracterizat- de o serie de aria#ile e&plicatie$ )n special socio/de!ografice" 1n
schi!# Analiza cluster a conduce la constituirea de clase o!ogene )n raport cu toate
aria#ilele luate )n considerare"
2e ase!enea analiza discri!inant- izeaz- repartizarea unit-*ilor )n clase
deter!inate de st-rile unei aria#ile no!inale$ de e&e!plu$ clien*ii unei societ-*i pot fi
grupa*i )n clien*i per!anen*i sau ocazionali$ un nou client$ pe #aza aria#ilelor
e&plicatie a putea fi alocat unei anu!ite clase" Analiza cluster per!ite constituirea de
clase independent de orice grupare a priori" Astfel ea poate fi utilizat- )naintea oric-rei
analize discri!inante pentru a confir!a sau a infir!a categoriile a priori sta#ilite"
0a*- de analiza co!ponentelor principale care are ca scop reducerea nu!-rului de
aria#ile$ Analiza cluster izeaz- reducerea unit-*ilor prin gruparea cestora"
Analiza cluster accept- )n descriere at.t aria#ile cantitatie$ c.t (i aria#ile ordinale
*i no!inale$ ceea ce este foarte i!portant a.nd )n edere nu!-rul foarte !are de
aria#ile utilizate )n cercet-rile de !ar'eting$ c.t (i diersitatea lor din punctul de edere
al for!ei de e&pri!are"
Utilizarea !etodelor de clasterizare presupune parcurgerea ur!atoarelor etape+
for!ularea pro#le!ei3
alegerea distan*ei de !-surare3
alegerea procedurii de clasificare+
sta#ilirea nu!-rului de seg!ente3
e&a!inarea (i interpretarea profilelor seg!entelor3
alidarea solu*iei rezultate"
4" Formularea problemei
1ncercarea de realizare a unei clasterizari poate fi for!ulat- astfel+ fiind date n unit-*i
pentru fiecare dispun.nd de )nregistr-ri a p aria#ile$ tre#uie s- se constituie grupe de
unit-*i astfel )nc.t unit-*ile dintr/o grup- s- se!ene )ntr ele$ dar s-fie diferite de la o
grup- la alta$ ase!-narea unit-*ilor fiind definit- plec.nd de la cele p aria#ile"
Realizarea unei clasterizari se #azeaz- i!plicit pe e&isten*a unei grup-ri )n cadrul
popula*iei studiate" Astfel dac- izualiz-! datele ini*iale su# for!a unui nor de n puncte
)ntr/un spa*iu cu p di!ensiuni$ tre#uie s- e&iste zone unde densitatea punctelor este !are$
respecti punctele sunt apropiate unele de altele" Aceast- ipoteza tre#uie erificat-
)naintea efectu-rii unei clasific-ri"
Ca atare cea !ai !are i!portan*- )n aceast- etap- tre#uie acordat- alegerii
aria#ilelor pe #aza c-rora se a efectua Analiza cluster " Este de dorit ca setul de
aria#ile selectat s- descrie ase!-narea dintre unita*i$ )n ter!eni ce sunt relean*i pentru
pro#le!a studiat-" 5aria#ilele se or alege pe #aza unor cercet-ri$ a unor test-ri de
ipoteze sau pe #aza intui*iei cercet-torilor"
6" Alegerea distanei de msurare
Analiza cluster prezint- !arele aanta% c- per!ite analiza aria#ilelor cantitatie c.t
(i a celor calitatie" Alegerea distan*ei se face )n func*ie de tipul aria#ilelor supuse
studiului" 2ac- ne situ-! )n conte&tul c- ae! n unit-*i caracterizate de p aria#ile$
pentru !-surarea apropierii dintre unit-*i se folosesc dou- categorii de indicatori$ (i
anu!e +
2istan*a
Indicele de si!ilaritate
Alegerea unuia sau a altuia depinde )n pri!ul r.nd de tipul de aria#ile utilizate )n
clasificare$ c.t (i de constr.ngerile i!puse de propriet-*ile indicatorilor"
In cazul aria#ilelor cantitatie se a utiliza una din ur!atoarele distante+
/ distanta euclidiana$
( ) ( )

=
=
p
k
k i
ik
X X i i d
4
6 7
7
$
/ distanta rectangulara ( 8anhattan)

=
=
p
k
k i
ik
X X i i d
4
7
7
) $ (
/ distanta lui 8in'o9s'i
n
p
k
n
k i
ik
X X i i d
: 4
4
7
) ( ) $ (
7

=

=
/ a lui Che#;she$ etc"
1n cea !ai !are parte aria#ilele se e&pri!- )n unit-*i de !-sur- diferite$ astfel se
i!pune standardizarea aria#ilelor$ )nainte de a calcula distan*ele necesare$ respecti+
X
k
k
X X
Z

=
In cazul aria#ilelor calitatie deose#i! ur!atoarele situatii+
/ daca datele sunt prezentate prin !atricea frecentelor se utilizeaza distanta
hi patrat3
6
"
4 " "
7
) (
4
) $ (
7
7
i
k i
p
k i
ik
k
f
f
f
f
f
i i d =

=
/ daca aria#ilele sunt ordinale se utilizeaza distanta euclidiana$ rectangulara sau
coeficientul de corelatie al lui Spear!an"
<" Alegerea procedurii de clasificare
E&ist- un nu!-r !are de procedee de calcul destinate rezol-rii pro#le!elor
clasific-rii" Acestea sunt grupate )n dou- !ari categorii+
/!etode ierarhice$ recurg la construirea unui ar#ore de clasificare ar-t.nd trecerea
celor n unit-*i )n grupe printr/o succesiune de regrup-ri sau de diiz-ri+
/ !etode neierarhice care repartizeaz- unit-*ile )ntr/un anu!it nu!-r de grupe sta#ilit
ini*ial"
Atunci c.nd olu!ul de date nu este prea !are se prefer- !etodele ierarhice$ fiind !ai
eficiente (i !ai #ine funda!entate$ )n caz contrar se recurge la !etodele neierarhice"
= sintez- asupra !etodelor de clasterizare poate fi redat- astfel +
8edode ierarhice
Ascendente
4" 8etoda )nl-n*uirii
4"4 !etoda ecinilor cei !ai apropia*i
4"6 !etoda ecinilor cei !ai )ndep-rta*i
4"< !etoda dru!ului !ediu
6" 8etoda arian*ei ( !etoda lui >ard)
<" 8etoda centroizilor
2escendente
8etode neierarhice
Cu alocare secen*iala
Cu alocare paralel-
Cu alocare opti!al-
I" Metodele ierarhice se caracterizeaz- prin faptul c- nu!-rul de grupe nu este
cunoscut dinainte$ ci a fi deter!inat pe parcurs$ prin algorit!ul de clasificare" 1n func*ie
de algorit!ul folosit !etodele ierarhice sunt +
Metode descendente care consider- toate unit-*ile clasificate )ntr/o singur-
grup-" Aceasta a fi diizat- p.n- c.nd se o#*in grupe o!ogene )n interiorul
lor$ dar eterogene )ntre ele"
Metode ascendente care consider- c- fiecare unitate reprezint- la )nceput o
grup-" 1n continuare grupele sunt for!ate clas.nd unit-*ile )n grupe din ce )n ce
!ai !ari" ,rocedeul este continuat p.n- c.nd toate unit-*ile sunt cuprinse )ntr/o
singur- grup-"
1n cadrul !etodelor ascendente sunt cuprinse + !etoda )nl-n*uirii$ !etoda arian*ei (i
!etoda centroizilor"
Metodele nlnuirii la r.ndul lor cuprind +
!etoda ecinilor cei !ai apropia*i$ unde distan*a dintre dou- grupe este asi!ilat- cu
distan*a dintre dou- unit-*i cele !ai apropiate$ unit-*i ce apar*in de grupe diferite"
Utilizarea acestei !etode poate conduce la riscul for!-rii de grupe eterogene
deoarece nu se iau )n calcul toate unit-*ile apar*in.nd unei grupe3
!etoda ecinilor cei !ai )ndep-rta*i$ unde distan*a dintre dou- grupe este asi!ilat- cu
distan*a dintre dou-unit-*i cele !ai )ndep-rtate3
!etoda dru!ului !ediu$ unde distan*a dintre dou- grupe este definit) ca !edia
distan*elor dintre toate perechile de unit-*i apar*in.nd la grupe diferite"
2up- cu! se poate constata !etoda dru!ului !ediu utilizeaz- toate distan*ele calculate
)ntre perechile de unit-*i apar*in.nd grupelor diferite$ nu nu!ai distan*ele !ini!e sau
!a&i!e$ ceea ce a conduce la o#*inerea de grupe !ai o!ogene"
,e scurt !etoda )nl-n*uirii poate fi prezentat- astfel+
/ )ntr/o faz- preala#il- are loc !-surarea opropierii dintre toate cele n
unit-*i luate dou- c.te dou- )se a utiliza un anu!it tipde distan*- )n
func*ie de natura aria#ilelor folosite) 3
/ se a ela#ora !atricea de pro&i!it-*i (nxn) ;
/ )ntr/o pri!- etap- se or grupa dou- unit-*i c-rora le corespunde distan*a
cea !ai !ic-$ respecti acestea or constitui pri!a grup- 3
/ )n etapa a doua se or recalcula distan*ele celorlalte n/6 unit-*i fa*-de
grupa for!at- 3
/ cele dou- etape sunt repetate p.n- ce se regrupeaz- toate unit-*ile )ntr/o
singur- grup-"
Metoda varianei )ncerc- s- genereze grupe prin !ini!izarea arian*ei din
interiorul fiec-rei grupe" 1n cadrul acestei !etode$ cea !ai #un- tehnic- este !etoda lui
>ard" Aceasta presupune ca pentru fiecare grup- s- fie calculate !ediile tuturor
aria#ilelor ur!.nd ca ulterior pentru fiecare unitate )nc- nerepartizat- s- se calculeze
distan*a euclidian- la !ediile grupelor (i de ase!enea )ntre grupele de%a constituite" Se
)nsu!eaz- distan*ele calculate fa*- de !ediile aria#ilelor$ la nielul fiec-rei unit-*i sau
grupe" 1n fiecare etap- se co!#in- unit-*i/grup- sau grup-/grup- )n func*ie de cea !ai
!ic- cre*tere )n totalul su!ei p-tratelor distan*elor )n interiorul grupei
Metoda centroizilor consider- c- distan*a dintre dou- grupe este distan*a dintre
centroizii acestora" Centroidul este punctul care are ca (i coordonate !ediilor tuturor
aria#ilelor unui grup"
8etodele ierarhice prezint- dezaanta%ul c- din punct de edere teoretic acestea
caut- o succesiune de su#/opti!e (i nu caut- un opti! glo#al$ respecti la fiecare itera*ie
se efectueaz- $$cea !ai #un- grupare$$"
II. Metodele neierarhice prezint- aanta%ul prelucr-rii popula*iilor de olu!e !ari$ cu
un cost rezona#il" Cele !ai !ulte dintre aceste !etode sunt funda!entate pe algorit!i de
tipul ur!-tor+
/ alegerea nu!-rului de grupe 3
/ aplicarea procedeului de realocare
/ sta#ilirea regulilor de oprire a procedeului de calcul"
8etoda cea !ai des utilizat- este ces #azat- pe alocarea opti!al-$ care ur!-re(te
!ini!izarea distan*ei !edii )n grupe"
4. Stabilirea numrului de grupe
Una din etapele !a%ore ale analizei claster este sta#ilirea nu!-rului de grupe" ,entru
aceasta nu e&ist- o regul- general ala#il-$ de aceea pot fi luate )n considerare !ai !ulte
repere$ (i anu!e +
4" Utilizarea unui prag de clasificare$ ce reprezint- acel niel de grupare )ncep.nd de
la care grupele create pot fi considerate foarte eterogene$ iar su# el grupele sunt o!ogene"
Alegerea )n acest caz se #azeaz- pe graficul nu!it 2EN2=?RA8A$ ce reprezint-
clasele o#*inute confor! !etodei utilizate" ,ro#le!a care se pune este unde @s- tai
ar#orele@ astfel )nc.t nu!-rul de clase g-site s- fie opti!" Nu e&ist- o regul- general
ala#il-$ ci se fac inspec*ii su#iectie ale dendogra!ei"
. !eterminarea profilului grupelor
0iecare seg!ent de piata identificat tre#uie descris a!anuntit pentru a putea identifica
seg!entele tinta si ela#ora !i&urile de !ar'eting adaptate cerintelor fiecarui seg!ent
tinta" 2eter!inarea profilului claselor si interpretarea i!pune analiza centroizilor
claselor" Centroizii reprezinta alorile !edii inregistrate de aria#ilele de seg!entare$
nu!ite si aria#ile actie$ pentru fiecare seg!ent in parte"
". #alidarea segmentelor
Este posi#il ca aceste clase care au fost sta#ilite anterior sa nu fi fost corect deter!inate"
,entru a cunoaste cu e&actitate acest lucru se i!pune o analiza relati la gradul de
o!ogenitate din interiorul seg!entelor si diferentele e&istente intre !ediile claselor"
,entru alidarea claselor se a utiliza analiza ariantei fiecarei aria#ile actie si
testarea egalitatii !ediilor in cadrul grupelor"

S-ar putea să vă placă și