Documente Academic
Documente Profesional
Documente Cultură
Suport
Suport
Modulul II
Metode descriptive de analiz a datelor
2.1 Analiza componentelor principale
xij i=1,n
j=1,p
Ii
( xij
x j )2
j 1
( xij
i 1
x j )2
j 1
X i1 X i 2 ......X ip
.......................
X n1 X n 2 ......X np
f i1 f i 2 ......f iq
....................
f n1 f n 2 ......f nq
Iu
fi
i 1
max I u
max
( xi1u1
... xip u p ) 2
xi 2 u 2
i 1
cu restrictia ca :
u12
u22
... u 2p
conditii:
variabilele descriptive initiale X 1 , X 2 ,...X p sunt grupate in factorii sintetici Fk
printr-o combinatie liniara, de forma:
Fk
a kj x j
1, p
j 1
Calculul coordonatelor
Calculul corelatiilor
unitatilor pe axele
principale
si variabilele initiale
reduse.
Daca datele sunt omogene, pentru a gasi axele factoriale ne folosim de matricea de
varianta si covarianta (V) avand ca element general
variabilele j si j', j
V jj ' ,
covarianta dintre
j ' iar
V21V22 .....V2 p
....................
V p1V p 2.....V pp
Vtot
V11 V22
puncte ce
exprima informatia totala ( I ).
Daca datele sunt eterogene, dupa centrarea si reducerea lor, matricea
folosita pentru determinarea axelor factoriale este matricea de corelatie ( R
),unde r jj ' reprezinta coeficientul,de corelatie dintre variabila j si j', j
j ' , iar
1 r12 ......r1 p
R
r211 ......r2 p
.................
rp1 rp 2 .....1
rezumand cel mai bine informatia continuta in matricea initiala, apoi al doilea factor,
independent de primul,rezumand cel mai bine informatia reziduala si se continua
pana este retinuta toata varianta (informatia).Deci fiecare componenta principala
restituie o parte din informatia initiala, masurata prin varianta sa,
2
Fk
unde
urmaV
sau
p.
K
K
(2).
....
V exp( F1 )
1
p
V exp( F1 , F2 )
p
K
etc.
K 1
K 1
1
p
K
K 1
rX j FK
u Kj
K'
r 2 X j FK
r 2 X j FK '
cos
f iK
f iK '
xij2
j 1
aproape de 1.
Cordonatele componentelor principale se determina din urmatoarea
relatie:
F = [x] I U
unde: x - matricea initiala
I - matricea unitate
U - vectoru propriu.
iar Fk = [x] I Uk ,
FK
Metodologie
Presupunem ca exist un eantion de volum n i dou variabile X i , X j ,
datele de prelucrat sent prezentate intr-un tabel de contingen de forma
urmtoare:
Y/X
X 1 .....X j .....X J
Total
n1 .
Y1
.
n11..... n1 j .....n1J
Yi
n i.
YI
nI.
.
n I 1 .....n Ij .....n IJ
Total
datele
iniiale
trebuie
nij
ni1
n
..... ..... iJ
ni .
ni .
ni .
...........................
n Ij
n
nI1
..... ..... IJ
nI .
nI .
nI .
n
n11
n
..... i1 ..... I 1
n.1
n.1
n.1
...........................
XJ
n1 j
n. j
.....
nij
n. j
.....
n Ij
n. j
...........................
n1J
n
n
..... iJ ..... IJ
n. J
n. J
n. J
J
2
i, i
j 1
unde:
f. j
1 nij
f . j ni .
ni ' j
ni ' .
n. j
n
f ij 1
f ij 2 ).
1. Formularea problemei
ncercarea de realizare a unei clasificri poate fi formulat astfel: fiind date
n uniti pentru fiecare dispunnd de nregistrri a p variabile, trebuie s se
constituie grupe de uniti astfel nct unitile dintr-o grup s semene ntr ele,
dar sfie diferite de la o grup la alta, asemnarea unitilor fiind definit
plecnd de la cele p variabile.
distanta euclidiana,
p
d i, i '
X ik
X i 'k
k 1
d (i, i ' )
X ik
X i 'k
k 1
p
'
d (i, i )
( X ik
k 1
X i 'k )
Zk
X
X
d (i, i )
k 1
1 f ik
(
f .k f i .
f i 'k
f i' .
)2
distanta euclidiana,
Metode neierarhice
Cu alocare secveniala
Cu alocare paralel
Cu alocare optimal
I. Metodele ierarhice se caracterizeaz prin faptul c numrul de grupe
nu este cunoscut dinainte, ci va fi determinat pe parcurs, prin algoritmul de
clasificare. n funcie de algoritmul folosit metodele ierarhice sunt :
Metode descendente care consider toate unitile clasificate ntr-o
singur grup. Aceasta va fi divizat pn cnd se obin grupe
omogene n interiorul lor, dar eterogene ntre ele.
Metode ascendente care consider c fiecare unitate reprezint la
nceput o grup. n continuare grupele sunt formate clasnd unitile
n grupe din ce n ce mai mari. Procedeul este continuat pn cnd
toate unitile sunt cuprinse ntr-o singur grup.
n cadrul metodelor ascendente sunt cuprinse : metoda nlnuirii, metoda
varianei i metoda centroizilor.
Metodele nlnuirii la rndul lor cuprind :
metoda vecinilor cei mai apropiai, unde distana dintre dou grupe este
asimilat cu distana dintre dou uniti cele mai apropiate, uniti ce
aparin de grupe diferite. Utilizarea acestei metode poate conduce la riscul
formrii de grupe eterogene deoarece nu se iau n calcul toate unitile
aparinnd unei grupe;
metoda vecinilor cei mai ndeprtai, unde distana dintre dou grupe este
asimilat cu distana dintre douuniti cele mai ndeprtate;
metoda drumului mediu, unde distana dintre dou grupe este definit ca
media distanelor dintre toate perechile de uniti aparinnd la grupe
diferite.
Dup cum se poate constata metoda drumului mediu utilizeaz toate distanele
calculate ntre perechile de uniti aparinnd grupelor diferite, nu
numai
Metoda cea mai des utilizat este ces bazat pe alocarea optimal, care
urmrete minimizarea distanei medii n grupe.
Stabilirea numrului de grupe
Una din etapelemajore ale metodei calsificrii este stabilirea numrului de
grupe. Pentru aceasta nu exist o regul general valabil, de aceea pot fi luate
n considerare mai multe repere, i anume :
1. Utilizarea unui prag de clasificare, ce reprezint acel nivel de grupare
ncepnd de la care grupele create pot fi considerate foarte eterogene, iar sub el
grupele sunt omogene. Alegerea n acest caz se bazeaz pe graficul numit
DENDOGRAMA, ce reprezint clasele obinute conform metodei utilizate.
Problema care se pune este unde "s tai arborele" astfel nct numrul de clase
gsite s fie optim. Nu exist o regul general valabil, ci se fac inspecii
subiective ale dendogramei.
Determinarea profilului grupelor
Fiecare segment de piata identificat trebuie descris amanuntit pentru a putea
identifica segmentele tinta si elabora mixurile de marketing adaptate cerintelor
fiecarui segment tinta. Determinarea profilului claselor si interpretarea impune
analiza centroizilor claselor. Centroizii reprezinta valorile medii inregistrate de
variabilele de segmentare, numite si variabile active, pentru fiecare segment in
parte.
Validarea segmentelor
Este posibil ca aceste clase care au fost stabilite anterior sa nu fi fost corect
determinate. Pentru a cunoaste cu exactitate acest lucru se impune o analiza
relativ la gradul de omogenitate din interiorul segmentelor si diferentele
existente intre mediile claselor.
Pentru validarea claselor se va utiliza analiza variantei fiecarei variabile
active si testarea egalitatii mediilor in cadrul grupelor.
micorrii
acestei
msuri.
Alte
definiii
consider
scalarea
publicitare.
timp
ce
metodele
specifice
scalrii
Formularea problemei
n formularea problemei cercettorul trebuie s porneasc de la scopul utilizrii
SMD
(la ce vor servi rezultatele obinute) i s selecteze mrcile sau ali stimuli care
vor fi inclui n analiz. Numrul i caracteristicile stimulilor inclui n analiz
vor determina natura dimensiunilor i a configuraiilor rezultate. Ca valoare
minim, este nevoie de cel puin 8 stimuli pentru a obine o hart spaial bine
definit. Pe de alt parte, evaluarea a mai mult de 25 de stimuli nu este
recomandat deoarece genereaz oboseal i plictisete respondenii.
Nu doar numrul stimulilor ci i natura acestora i va pune amprenta asupra
dimensiunilor de scalare. De exemplu, neincluderea n analiz a mrcilor de
autoturisme de lux va face ca o dimensiune asociat acestui aspect s lipseasc
din modelul SMD. La fel ca i n cazul celorlalte metode de analiz
multivariat, formularea problemei (cu deosebire alegerea numrului i naturii
stimulilor) trebuie s fie fcut lund n considerare specificitatea problemei de
marketing, studiile anterioare, teoria, respectiv s se bazeze pe raionamentul
cercettorului.
Obinerea datelor de intrare
Abordrile privind metoda scalrii multidimensionale sub aspectul obinerii
datelor difer de la un autor la altul. Majoritatea este de acord cu faptul c
aceast tehnic studiaz similitudinile i diferenierile dintre obiecte, pornind
de la date nebazate pe atribute predefinite.
a) Abordarea bazat pe studiul similaritilor i preferinelor are la baz
cunoaterea gradului de similitudine dintre stimuli produse (mrci), precum i
pe preferina relativ fa de acestea. Scopul unei astfel de metode este
identificarea dimensiunilor n funcie de care sunt percepute produsele i
reprezentarea grafic a acestora.
Datele privind asemnrile reflect gradul de apropiere dintre doi stimuli din
punctul de vedere al respondentului. n acest caz criteriul dup care se fac
evalurile nu este specificat. Numrul de perechi care sunt supuse comparaiei
este N(N-1)/2, unde N este numrul total de produse.
Gradul de precizie al tehnicii folosite const n capacitatea acesteia de a gsi
cel mai mic numr de dimensiuni, pentru care exist o concordan ntre
mai multe dimensiuni sau factori. Pentru aceasta se folosesc drept metode
analiza factorial i analiza discriminantului. n urma analizei factoriale,
atributele sunt reprezentate ca vectori a cror direcie indic factorul cu care
este asociat, iar lungimea indic intensitatea acestei asocieri. Scopul analizei
discriminante este generarea dimensiunilor care diferenieaz obiectele ct mai
mult posibil, fiecare dimensiune fiind bazat pe o combinaie de atribute. De
asemenea, prin aceast metod se poate realiza o testare a semnificaiei
statistice. Ipoteza nul const n faptul c cele dou obiecte sunt percepute
identic. Testul va determina probabilitatea ca distana dintre obiecte s fie
evaluat de o eroare statistic.
Att analiza factorial, ct i cea discriminant ignor importana relativ a
atributelor individuale pentru consumatori. Pentru aceasta se sugereaz ca
datele privitoare la atribute s fie nmulite cu coeficieni de importan i apoi
s fie supuse unei analize factoriale.
Abordarea bazat pe atribute are avantajul c ele dobndesc valoare
operaional, dimensiunile putnd fi interpretate n termenii corelaiei cu
acestea. Cele mai importante dezavantaje se refer la faptul c:
-
rezultatele;
- generarea listei atributelor poate fi dificil, mai ales atunci cnd sunt luate n
considerare diferenierile posibile dintre percepiile oamenilor;
-
atributelor fundamentale.
Alegerea unei proceduri de SMD
Exist mai multe tipuri de proceduri de scalare multidimensional. n
concordan cu acest lucru este folositoare prezentarea unor concepte care vor
sta la baza descrierii metodologiei:
1. Clasa de entiti: respondeni, mrci, ocazii de cumprare, atribute ale unui
obiect;
2. Modul de aranjare a entitilor;
3. Tipul modelului geometric model bazat pe distane n comparaie cu
modelul bazat pe o combinaie de puncte i vectori;
4. Numrul de seturi de puncte sau vectori;
Modulul III
Metode explicative de analiz a datelor
3.1 Analiza multivariat a variaiei ANOVA
Frecvent utilizat pentru evaluarea legturilor de dependen dintre
variabile, datorit aplicrii ei simple i rapide, metoda analizei variaiei a fost
construit n jurul celui mai utilizat indicator de tendin central, media. Cu
ajutorul acestei metode este analizat efectul uneia sau al mai multor variabile
nominale sau ordinale asupra unei variabile cantitative. n cercetrile de
marketing, analiza variaiei este folosit adesea pentru identificarea diferenelor
dintre grupuri sau segmente aducndu-i aportul, n mod deosebit, n realizarea
experimentelor de marketing.
Fundamente
Analiza multivariat a variaiei cuprinde un grup de metode aparinnd
statisticii infereniale (deductive) care permit separarea i testarea semnificaiei
efectelor cauzate de aciunea simultan a mai multor factori asupra unei
variabile.
Analiza variaiei (ANOVA) i analiza covariaiei (ANCOVA) sunt
folosite pentru a examina diferenele dintre valorile medii ale variabilei
dependente sub efectul unor variabile independente controlate, dup izolarea
efectului unor variabile independente necontrolate. n esen, ANOVA este
folosit pentru a testa diferenele dintre mediile a dou sau mai multe grupuri
(populaii). Mai precis, analiza variaiei testeaz ipoteza nul conform creia nu
exist diferene ntre medii (altfel spus, toate mediile ar fi egale ntre ele).
n forma cea mai simpl, analiza variaiei necesit o variabil
dependent msurat pe o scal metric (interval sau proporional) i una sau
mai multe variabile independente msurate pe o scal nemetric (nominal sau
ordinal). Aceste variabile independente de tip categorial sunt denumite, de
obicei, factori. Modul n care nivelurile (categoriile) factorilor acioneaz
asupra variabilei dependente poart denumirea de tratament.
(SST) este format din variaia explicat de variabila independent (SSE sau
SSntre-grupuri) i variaia rezidual (SSR sau SSin-interior).
Media ptrat (mean square): este suma ptratelor mprit la numrul
gradelor de libertate;
testul F (F statistic): verific ipoteza nul
c mediile categoriilor
a bX . Ecuaia estimativ
a bX
b = coeficientul de regresie
X= variabila independent
e = eroarea diferena dintre valoarea actual i valoarea estimat prin
linia regresiei
^
X i Yi
nXY
X i2
n(X ) 2
bX
Pute
Funcia regresiei estimat descrie natura relaiei dintre X i Y. n plus,
ne intereseaz puterea relaiei dintre X i Y. Coeficientul determinrii, R 2 , este
msura puterii relaiei liniare dintre cele dou variabile. Coeficientul
determinrii msoar procentul variaiei totale a lui Y care se explic prin
variaia lui X. Acest coeficient variaz ntre 0 i 1. Dac exist o relaie perfect
liniar ntre X i Y atunci toate variaiile lui Y se explic prin variaiile lui X i
R2
variatia neexplicat a
variatia totala
R2
(Yi
Yi ) 2
(Yi
Y )2
i 1
n
i 1
Dac, de exemplu, R 2
Sem
n calcularea coeficientului determinrii ( R 2 ), variaia total a lui Y a
fost mprit n dou componente de sume a ptratelor:
Variaia total = Variaia explicat +Variaia neexplicat
Variaia total este o msur a variaiei valorilor observate a lui Y n
jurul mediei lor. Msoar variaia valorilor lui Y fr a lua n considerare
valorile lui X.
Variaia total, cunoscut sub denumirea de suma total a ptratelor
(total sum of squares SST) este dat de relaia:
n
n
SST
Yi 2
(Yi
Y )2
i 1
Yi 2
(i
i 1
SSR
(Y i Y )
i 1
n
2
Yi
i 1
Yi
X i Yi
i 1
i 1
)2
Dac Yi
perfect. Toate valorile observate a lui Y se vor afla atunci pe linia determinat
a regresiei.
Variaia neexplicat sau sumele erorilor ptratelor (error sums of
squares SSE) se obine astfel:
n
SSE
(Yi
Y i )2
i 1
Yi 2
i 1
Yi
i 1
X i Yi
i 1
a b1 X 1
unde
b2 X 2
b3 X 3
... bn X n
Y = variabila dependent
a = constanta estimat
b1 n = coeficieni asociai cu variabilele independente, astfel nct o
200 17 X 1
22 X 2
X 2 = numrul vnztorilor
Aceast ecuaie indic faptul c vnzrile cresc cu 17 uniti pentru fiecare
unitate monetar cheltuit n plus pentru publicitate i cu 22 uniti datorit
creterii cu o unitate a numrului vnztorilor.
Exist multe aplicaii posibile ale analizei regresiei multiple n
cercetarea de marketing, ca de exemplu:
-
independente
sau
nelegerea
relaiei
dintre
variabilele
50 20 X 1
20 X 2
unde
lei
X 2 = numr de vnztori
Xi
unde
X = media seriei
= deviaia standard a seriei
Mrimea eantionului. Valoarea lui
R 2 este influenat de
Z
i 1
difereniind cel mai bine cele k grupe formate prin raportare la strile variabilei
de explicat (Y). Procedeul de rezolvare este fundamentat pe faptul c matricea
de varian-covarin total T, poate fi descompus n dou pri:
matricea de varian-covarian ntre grupe (B);
matricea de varian-covarian din interiorul grupelor (W), determinat
ca o sum de k matrici, fiecare matrice fiind cea de varian-covarian
din cadrul grupei.
T=B+W
Mai nti trebuie studiat puterea de discriminare a fiecrei variabile utiliznd
analiza varianei. Avnd ecuaia de descompunere a varianei totale pentru o
variabil X i , respectiv:
k
Nh
X ijh
Xi
h 1 j 1
N h X ih
h 1
Xi
Nh
X ijh
X ih
h 1 j 1
prob F k 1; N
permite
Z1
, iar prima ax
corelaie R( Z1 , Y ) i este asociat celei mai mari valori proprii. Cea de-a doua
variabil discriminant (Z 2 ) necorelat cu prima variabil cor ( Z1 , Z 2 )
0,
corespunde celei de-a doua valori proprii, iar raportul de corelaie dintre (Z 2 )
i variabila de explicat Y, respectiv
1 Rm2 Z m , Y
m k q 1
care s
n 1
p q / 2 ln
2
aproximare este folosit mai ales n cazul n care numrul de clase k este mai
mare dect 2 sau 3.
Deci statistica lui Wilks msoar puterea global de discriminare a noilor
variabile (axe). Cu ct
luate n considerare.
Pentru ca axele discriminante (Z) s poat fi interpretate din punctul de
vedere al semnificaiei statistice, trebuie studiat legtura dintre ele i
variabilele explicative. Aceasta poate fi realizat cu ajutorul:
coeficienilor funciilor, care se interpreteaz ca pondere a variabilelor
explicative n formarea axelor;
coeficienii de corelaie dintre axa discriminant i fiecare variabil
explicativ, care vor pune n eviden variabilele cu care sunt cel mai
bine corelate axele discriminante.
Variabilele discriminate sunt utilizate pentru repartizarea unitilor n grupe,
pe baza unei reguli de decizie. Aceast regul de decizie este uor de stabilit
atunci cnd axele discriminante sunt cel mult dou, n celelalte situaii,
elaborarea ei este foarte dificil. ntr-o astfel de situaie se recomand
calcularea probabilitilor de apartenen la diferitele grupe, respectiv:
p h ( x)
Pr ob Y
h / X1
x1 ,..., X p
xp
, )
urmeaz o
exp g h ( x)
k
exp g h ( x)
h 1
Variabilele g h (x )
prin g h (x ) , unde:
g h ( x)
Xh
( X 1 , X 2 ,..., X p )
1 ' 1
X hS X h
2
X hS 1X '
exp g h ( x)
k
exp g h ( x)
p h ( x)
h 1
fiecare unitate va putea fi repartizat ntr-o grup i anume n aceea pentru care
se nregistreaz probabilitatea cea mai mare.
Utiliznd aceast regul de decizie optimal se pot repartiza n grupele deja
formate noile uniti pe baza nivelului nregistrat de cele p variabile explicative
X 1 , X 2 ,..., X p . Avnd funciile discriminante estimate se pot calcula valorile
grup, respectiv g h (x ) .
Grupare
dup regul 1
Total
N11
N 12
N 1k
N 1.
N 21
N 22
N 2k
N 2.
N k1
Nk2
.
N kk
.
N k.
Total
N .1
N .2
N .k
sd
N11
N 22 ... N kk
N
de
marketing
difereniat
funcie
de
posibilul
Bibliografie:
1. Buiga A., Metodologie de sondaj i analiza datelor n studiile de pia,
Presa Universitar Clujean, 2001 (la BCU si la biblioteca
facultatii).
2. Lebart L., Morineau A., Piron M., Statistique exploratoire
multidimensionnelle, Dunod, 1995.
3. Saporta G., Stefanescu V., Analiza datelor & informatica, Ed.
Economica, Bucuresti, 1996.
4. Spircu L., Spircu T., Calciu M., Analiza datelor de marketing, Ed.
ALL, Bucuresti, 1994.
5. Volle M., Analyse des donnees, Ed. Economica, Paris, 1997.