Documente Academic
Documente Profesional
Documente Cultură
=
=
p
k
k i
ik
X X i i d
2
4 5
5
"
- distanta rectangulara ( .anhattan)
=
=
p
k
k i
ik
X X i i d
2
5
5
) " (
- distanta lui .in%o6s%i
n
p
k
n
k i
ik
X X i i d
7 2
2
5
) ( ) " (
5
=
=
- a lui Che!8shev" etc.
/n cea mai mare parte varia!ilele se e$prim+ 'n unit+(i de m+sur+ diferite" astfel se
impune standardizarea varia!ilelor" 'nainte de a calcula distan(ele necesare" respectiv)
X
k
k
X X
Z
=
In cazul varia!ilelor calitative deose!im urmatoarele situatii)
- daca datele sunt prezentate prin matricea frecventelor se utilizeaza distanta
hi patrat1
4
.
2 . .
5
) (
2
) " (
5
5
i
k i
p
k i
ik
k
f
f
f
f
f
i i d =
=
- daca varia!ilele sunt ordinale se utilizeaza distanta euclidiana" rectangulara sau
coeficientul de corelatie al lui Spearman.
9. Alegerea procedurii de clasificare
E$ist+ un num+r mare de procedee de calcul destinate rezolv+rii pro!lemelor
clasific+rii. Acestea sunt grupate 'n dou+ mari categorii)
-metode ierarhice" recurg la construirea unui ar!ore de clasificare ar+t,nd trecerea
celor n unit+(i 'n grupe printr-o succesiune de regrup+ri sau de diviz+ri)
- metode neierarhice care repartizeaz+ unit+(ile 'ntr-un anumit num+r de grupe sta!ilit
ini(ial.
Atunci c,nd volumul de date nu este prea mare se prefer+ metodele ierarhice" fiind mai
eficiente &i mai !ine fundamentate" 'n caz contrar se recurge la metodele neierarhice.
: sintez+ asupra metodelor de clasificare poate fi redat+ astfel )
2. .etoda 'nl+n(uirii
2.2 metoda vecinilor cei mai apropia(i
2.4 metoda vecinilor cei mai 'ndep+rta(i
2.9 metoda drumului mediu
4. .etoda varian(ei ( metoda lui ;ard)
9. .etoda centroizilor
.etodele ierarhice se caracterizeaz+ prin faptul c+ num+rul de grupe nu este
cunoscut dinainte" ci va fi determinat pe parcurs" prin algoritmul de clasificare. Metode
ascendente consider+ c+ fiecare unitate reprezint+ la 'nceput o grup+. /n continuare
grupele sunt formate clas,nd unit+(ile 'n grupe din ce 'n ce mai mari. *rocedeul este
continuat p,n+ c,nd toate unit+(ile sunt cuprinse 'ntr-o singur+ grup+.
Metodele nlnuirii la r,ndul lor cuprind )
metoda vecinilor cei mai apropia(i" unde distan(a dintre dou+ grupe este asimilat+ cu
distan(a dintre dou+ unit+(i cele mai apropiate" unit+(i ce apar(in de grupe diferite.
tilizarea acestei metode poate conduce la riscul form+rii de grupe eterogene
deoarece nu se iau 'n calcul toate unit+(ile apar(in,nd unei grupe1
metoda vecinilor cei mai 'ndep+rta(i" unde distan(a dintre dou+ grupe este asimilat+ cu
distan(a dintre dou+unit+(i cele mai 'ndep+rtate1
metoda drumului mediu" unde distan(a dintre dou+ grupe este definit' ca media
distan(elor dintre toate perechile de unit+(i apar(in,nd la grupe diferite.
0up+ cum se poate constata metoda drumului mediu utilizeaz+ toate distan(ele calculate
'ntre perechile de unit+(i apar(in,nd grupelor diferite" nu numai distan(ele minime sau
ma$ime" ceea ce va conduce la o!(inerea de grupe mai omogene.
*e scurt metoda 'nl+n(uirii poate fi prezentat+ astfel)
- 'ntr-o faz+ preala!il+ are loc m+surarea opropierii dintre toate cele n
unit+(i luate dou+ c,te dou+ )se va utiliza un anumit tipde distan(+ 'n
func(ie de natura varia!ilelor folosite) 1
- se va ela!ora matricea de pro$imit+(i (nxn) ;
- 'ntr-o prim+ etap+ se vor grupa dou+ unit+(i c+rora le corespunde distan(a
cea mai mic+" respectiv acestea vor constitui prima grup+ 1
- 'n etapa a doua se vor recalcula distan(ele celorlalte n-4 unit+(i fa(+de
grupa format+ 1
- cele dou+ etape sunt repetate p,n+ ce se regrupeaz+ toate unit+(ile 'ntr-o
singur+ grup+.
Metoda varianei 'ncerc+ s+ genereze grupe prin minimizarea varian(ei din
interiorul fiec+rei grupe. /n cadrul acestei metode" cea mai !un+ tehnic+ este metoda lui
;ard. Aceasta presupune ca pentru fiecare grup+ s+ fie calculate mediile tuturor
varia!ilelor urm,nd ca ulterior pentru fiecare unitate 'nc+ nerepartizat+ s+ se calculeze
distan(a euclidian+ la mediile grupelor &i de asemenea 'ntre grupele de#a constituite. Se
'nsumeaz+ distan(ele calculate fa(+ de mediile varia!ilelor" la nivelul fiec+rei unit+(i sau
grupe. /n fiecare etap+ se com!in+ unit+(i-grup+ sau grup+-grup+ 'n func(ie de cea mai
mic+ cre(tere 'n totalul sumei p+tratelor distan(elor 'n interiorul grupei
Metoda centroizilor consider+ c+ distan(a dintre dou+ grupe este distan(a dintre
centroizii acestora. Centroidul este punctul care are ca &i coordonate mediilor tuturor
varia!ilelor unui grup.
.etodele ierarhice prezint+ dezavanta#ul c+ din punct de vedere teoretic acestea
caut+ o succesiune de su!-optime &i nu caut+ un optim glo!al" respectiv la fiecare itera(ie
se efectueaz+ ""cea mai !un+ grupare"".
4. Stabilirea numrului de grupe
na din etapele ma#ore ale metodei calsific+rii este sta!ilirea num+rului de grupe.
*entru aceasta nu e$ist+ o regul+ general vala!il+" de aceea pot fi luate 'n considerare mai
multe repere.
tilizarea unui prag de clasificare" ce reprezint+ acel nivel de grupare 'ncep,nd de la
care grupele create pot fi considerate foarte eterogene" iar su! el grupele sunt omogene.
Alegerea 'n acest caz se !azeaz+ pe graficul numit 0E<0:=RA.A" ce reprezint+
clasele o!(inute conform metodei utilizate. *ro!lema care se pune este unde >s+ tai
ar!orele> astfel 'nc,t num+rul de clase g+site s+ fie optim. <u e$ist+ o regul+ general
vala!il+" ci se fac inspec(ii su!iective ale dendogramei.
. !eterminarea profilului grupelor
Fiecare segment de piata identificat tre!uie descris amanuntit pentru a putea identifica
segmentele tinta si ela!ora mi$urile de mar%eting adaptate cerintelor fiecarui segment
tinta. 0eterminarea profilului claselor si interpretarea impune analiza centroizilor
claselor. Centroizii reprezinta valorile medii inregistrate de varia!ilele de segmentare"
numite si varia!ile active" pentru fiecare segment in parte.
". #alidarea segmentelor
Este posi!il ca aceste clase care au fost sta!ilite anterior sa nu fi fost corect determinate.
*entru a cunoaste cu e$actitate acest lucru se impune o analiza relativ la gradul de
omogenitate din interiorul segmentelor si diferentele e$istente intre mediile claselor.
*entru validarea claselor se va utiliza analiza variantei fiecarei varia!ile active si
testarea egalitatii mediilor in cadrul grupelor.