Sunteți pe pagina 1din 58

Capitolul 1

METODELE MULTIVARIATE INSTRUMENTE


PERFORMANTE DE ANALIZA A DATELOR DE MARKETING

Analiza statistica multivariata exista de aproape un secol. Cu toate acestea,


aplicarea ei n cercetarile de marketing si are nceputurile n perioada anilor
1950, cnd unii cercetatori foloseau, ocazional, una sau cteva tehnici. n timp,
utilizarea acestor aplicatii a devenit din ce n ce mai frecventa, ca rezultat al
aprecierii crescnde a aportului si valorii lor venite din partea cercetatorilor dar
si a celor responsabili cu deciziile de marketing.

1.1. Locul si rolul analizei statistice multivariate n cercetarile de


marketing

Un reper important n surprinderea relatiei dinamice dintre marketing si analiza


statistica multivariata este articolul realizat de Jagdish N. Sheth1 n 1971,
intitulat Revolutia multivariata n cercetarile de marketing. Autorul prezenta
cadrul de lucru al celor mai utile tehnici statistice multivariate pentru
cercetarile de marketing, alaturi de o scurta descriere a fiecareia. n plus,
articolul trata rolul extrem de important al tehnologiei informatice, a dezvoltarii
echipamentelor si programelor, pentru extinderea rapida a utilizarii pe scara
larga a acestor metode. ncepnd cu acel moment, se considera ca utilizarea
metodelor multivariate de analiza a nceput sa creasca simtitor, iar aceasta
tendinta se va mentine si n viitor. Revolutia nca nu s-a ncheiat.
Daca termenul de revolutie pare prea pretentios, este importanta
ntelegerea modului n care era realizata analiza statistica a datelor de
marketing nainte de aplicarea metodelor multivariate. De-a lungul istoriei
cercetarii de marketing, majoritatea analizelor implicau o singura variabila
(analiza univariata) sau cel mult doua variabile considerate simultan (analiza
bivariata). Datele referitoare la variabile erau introduse n tabele simple sau
ncrucisate (cu dubla intrare) si erau analizate prin calcularea unora dintre
urmatorii indicatori statistici:
tendinta centrala media, mediana si modul;

variabilitatea (distributia) deviatia standard (abaterea medie patratica),


varianta, deviatia medie, amplitudinea, distanta interquartile;
intervalele de ncredere erori standard ale diferitilor indicatori statistici
(intervalele de ncredere fac legatura ntre conceptele de tendinta centrala si de
variatie);
testarea ipotezelor testele t , Z, F si analiza variatiei.
Ctiva din analistii temerari ai acelor vremuri calculau, ocazional, un coeficient
de corelatie ntre doua variabile pentru a surprinde forma si intensitatea
legaturii dintre acestea. Iar dintre acestia, doar un numar restrns de cercetatori
erau capabili sa aplice cteva din tehnicile avansate precum regresia multipla,
analiza discriminantului, analiza factoriala sau alte metode statistice de analiza
multivariata pe datele obtinute, n cea mai mare masura, n baza unor cercetari
directe asupra clientilor sau consumatorilor. Dar cea mai mare parte a
variabilelor de marketing erau introduse (tabulate), prezentate si centralizate n
tabele individuale sau ncrucisat, cu o alta variabila sau cel mult alte doua
variabile (ocazional). Pe ct de folositoare si importante erau si sunt aceste
tipuri de analize, n majoritatea studiilor de marketing din ziua de astazi ele
reprezinta (sau ar trebui sa reprezinte) doar nceputul, partea de analiza
primara.
Ca o perspectiva istorica, n anii 50 si 60, cercetatorii realizau regresia
multipla si analiza factoriala, efectund calculele manual sau cu ajutorul
calculatoarelor de birou. Acest demers dura, de obicei, zile sau chiar saptamni,
nainte de a se ajunge la etapa de verificare a erorilor. n ziua de astazi, gratie
evolutiei tehnologieiIT, realizarea calculelor aferente analizelor multivariate
necesita cteva minute, sau chiar cteva secunde, prin folosirea calculatorului
personal (PC) si a unui program informatic specializat.
Metodele statisticii multivariate furnizeaza instrumente mult mai
puternice care permit cercetatorilor sa descopere configuratii ale relatiilor
dintre mai multe variabile, configuratii care altfel ar ramne ascunse sau foarte
putin vizibile. n plus, cele mai multe metode pot face acest lucru cu o buna
precizie, existnd posibilitatea testarii semnificatiei statistice prin calcularea
nivelului de ncredere asociat validarii legaturii respective la nivelul ntregii
populatii si nu doar a esantionului investigat1. Aceste metode contribuie la

cresterea substantiala a volumului de informatii relevante si utile care putea fi


extrase dintr-o sursa de marketing. O buna analogie care sa exprime raportul
dintre contributia informationala a metodelor uni- si bivariate, pe de o parte si
cea a celor multivariate, pe de alta parte, ar putea fi exemplul comparatiei
dintre o fotografie alb-negru si una color.
Principalele directii de utilizare a metodelor de analiza multivariata n
marketing au n vedere :
1: simplificarea datelor. Una din situatiile cu care se confrunta cel mai des un
cercetator este cea de scalare. Respondentilor li se pot pune ntrebari legate de
atributele multiple ale unui produs sau pot evalua importanta caracteristicilor
unor produse sau servicii. Astfel de ntrebari vin n grupuri de 20 sau 30 iar
uneori pot ajunge si la cteva sute. Dar n timp ce un producator poate
considera importante chiar si 100 de atribute ale unui produs, este mai mult ca
sigur faptul ca majoritatea consumatorilor au n vedere numai cteva
dimensiuni ale acestuia. n aceste situatii calculele arata mici diferente de la o
ntrebare la alta. Chiar si cnd diferentele sunt semnificative, poate fi dificil sa
le centralizezi dupa caracteristicile consumatorilor, cum ar fi cele demografice,
din moment ce aceste diferente ar implica ntrebari multiple si apar pe mai
multe pagini de analiza (familii ntregi de tehnici multivariate au fost nevoite sa
nfrunte acesta problema).
2. segmentarea pietei. Segmentarea pietei este aria care arata cel mai clar
accesibilitatea analizei multivariate. Aproape orice schema de grupare este
rezultatul aplicarii uneia sau a ctorva tehnici multivariate. Orice ancheta bine
proiectata poate fi subiectul unor tehnici variate de analiza multivariata pentru
a dezvolta scheme de segmentare bazate pe intrebarile incluse n ancheta.
Datele de identificare geografica a respondentilor din ancheta sau un fisier cu
informatii despre clienti permit ca datele nregistrate sa fie legate de cele de
structura demografica din statisticile oficiale si astfel sa fie utilizate pentru a
elabora o schema de grupare specifica produsului sau serviciului oferit. Aceste
scheme raportate la client ofera o imagine speciala asupra pietelor pe care
sistemele de grupare mai generale nu o pot oferi. n anumite cazuri, precum
marketingul business-to-business sau marketingul pentru nise, aceste tehnici

sunt aproape singura modalitate pentru a obtine informatii pentru segmentare


relevante statistic.
3. realizarea previziunilor de marketing. Previziunile de ncredere impun o
abordare multivariata. Vnzarile viitoare, de exemplu, depind de o suita de
factori precum cei socio-demografici, economici etc. Chiar si ntr-o analiza a
trendului, activitatea viitoare nu este o simpla functie a proiectarii direct liniare
sau a unei medii dinamice. Poate fi ciclica, poate avea componente sezoniere
sau poate avea decalaje complicate n timp, toate putnd si trebuind sa fie
modelate prin analiza multivariata. Tehnicile econometrice multivariate au fost
dezvoltate pentru a face fata problemelor legate de anticipari si previziuni.
Aceste tehnici au fost imbunatatite pentru a obtine previziuni matematice cu
erori minime, avand ca input anumite date. Exista, de asemenea, o serie de
tehnici larg acceptate care trateaza problema interdependentelor dintre
variabilele previzionate si dintre acele variabile si perioadele de timp care pot
sa nu apara n cele mai detaliate calcule. Daca nu sunt controlate, aceste
interdependente pot conduce la o serie de rezultate false.
4.analiza cauzala. Una dintre ariile n care analiza multivariata si poate aduce
aportul este analiza cauzala. Exista un ansamblu de tehnici proiectate n mod
specific pentru a modela si testa teoriile legate de cauzalitate. Aceste tehnici isi
pot dovedi valoarea chiar si atunci cnd sunt doar trei cauze intercorelate. In
aceste situatii, chiar si cel mai mare esantion poate fi prea mic pentru a izola
factorii cauzali importanti printr-o analiza simpla. Prin aplicarea unor teorii
statistice bine dezvoltate, tehnicile multivariate pot utiliza datele chiar dintr-un
esantion mic pentru a furniza o cale de a testa ipotezele detaliate legate de
piata. Daca are loc o ancheta pentru a determina cauza reducerii vanzarilor, de
exemplu, tehnicile multivariate ofera o cale obiectiva de a modela aceste
posibile cauze si a determina care dintre ele este cea mai importanta.
Cel mai important lucru este probabil faptul ca, desi cuprinde tehnici statistice
evoluate, analiza multivariata furnizeaza rezultate care sunt accesibile att
cercetatorilor ct si managerilor. Din punct de vedere al utilitatii pentru afaceri,
tehnicile multivariate nu adauga complexitate actului decizional (desi sunt
tehnici evoluate) ci clarifica, simplifica si cresc utilitatea oricaror rezultate pe
care un cercetator le poate furniza beneficiarului studiului.

1.2. Clasificarea metodelor de analiza multivariata

nainte de a prezenta metodele specifice acestei categorii, devine necesara


definirea termenului multivariat. Asa cum se poate ntelege si din denumirea
sa, multivariat nseamna, n cel mai simplu sens, mai multe variabile
considerate simultan n analiza, n cele mai multe cazuri fiind vorba de mai
mult de doua variabile. n acest sens, metodele multivariate pot analiza interrelationarea dintre mai multe variabile analizate simultan, n baza unui modelul
specific fiecarei metode n parte. Majoritatea tehnicilor identifica configuratii
ale asemanarilor sau legaturilor dntre variabile, sau pot realiza previziuni si/sau
estima importanta relativa a fiecarei variabile n previzionarea sau explicarea
anumitor variabile.
Metodele multivariate de analiza difera de cele univariate prin faptul ca se
concentreaza ntr-o masura mai mare asupra intensitatii legaturilor (corelatiilor
sau covariantelor) dintre variabile si nu att de mult asupra nivelurilor
(mediilor) sau distributiilor acestora.
Clasificarea metodelor de analiza multivariata de mai sus ia n considerare
trei caracteristici ale variabilelor analizate:
a. daca unele dintre variabile sunt dependente de altele sau daca ntre ele
exista doar relatii de asociere;
b. n cazul relatiilor de dependenta, daca sunt incluse n model una sau mai
multe variabile dependente;
c. daca pentru masurarea variabilelor se utilizeaza o scala metrica (interval
sau proportionala) sau nemetrica (nominala sau ordinala).
Metodele multivariate pot fi clasificate n metode de analiza a dependentelor,
caracterizate prin faptul ca una sau mai multe variabile sunt considerate
dependente iar un alt grup formeaza setul variabilelor independente (factori sau
predictori) si metode de analiza a interdependentelor, care urmaresc gruparea
datelor pe baza similitudinilor existente ntre ele sau covariatiei, permitnd
identificarea unor structuri (configuratii) n setul de date; ele nu analizeaza
legaturile de dependenta dintre variabile.

1.2.1. Metode multivariate de studiere a dependentelor

Atunci cnd cercetatorul urmareste sa explice, sa previzioneze sau sa nteleaga


anumite variabile de marketing (n special cele care masoara rezultatele sau
efectele) este recomandata utilizarea tehnicilor multivariate de studiere a
dependentelor. Fie ca este vorba de vnzari sau cote de piata, de evaluari ale
produselor sau serviciilor, de gradul de satisfactie sau de intentiile de
cumparare, cel care ia deciziile de marketing va fi interesat sa afle care sunt
variabilele care pot explica sau influenta aceste rezultate si sa afle mai multe
despre natura legaturii dintre toate acestea. n toate aceste cazuri cercetatorul
va urmari stabilirea (evalurea) legaturilor dintre una sau mai multe variabile
rezultative, denumite variabile dependente si una sau mai multe variabile
factoriale sau explicative, denumite variabile independente, ca urmare a
modului n care au fost considerate n modelul de studiere a relatiilor de
dependenta.
Cu toate ca aceste metode poarta denumirea de metode de studiere a
dependentelor, trebuie precizat ca ele cerceteaza si estimeaza relatiile dintre
variabile si nu si propun demonstrarea cauzalitatii dintre variabile (cu exceptia
situatiilor n care urmaresc n mod direct acest lucru si ndeplinesc conditiile
metodologice necesare, specifice experimentelor de marketing).
Alegerea variabilelor care sa fie incluse n modelele de analiza impune o
abordare mai complexa, bazata pe cunostintele, informatiile si rezultatele
anterioare, pe teorie, dar si pe rationamentul si experienta cercetatorului.
n analiza relatiilor de dependenta exista trei categorii mari de metode:
analiza regresiei urmareste cercetarea relatiei liniare dintre o variabila
(dependenta) masurata n scala metrica si una sau mai multe variabile
(independente) masurate pe scale metrice sau nemetrice, cu scopul de a explica
si previziona variatia variabilei dependente. Utilizarea mai multor variabile
independente n explicarea unei variabile considerate dependente este
cunoscuta sub numele de analiza regresiei multiple. n situatia n care extindem
analiza si avem n vedere un grup de variabile dependente si un grup de
variabile independente (toate variabilele fiind tratate simultan), metoda de
analiza poarta denumirea de analiza canonica care se aplica, cu foarte mici

diferente, similar regresiei multiple (n acest sens, cunoasterea aspectelor


specifice analizei multivariate a variatiei ajuta la ntelegerea specificitatii
analizei unui grup de variabile dependente).
analiza discriminantului este o metoda statistica multivariata de estimare a
relatiei liniare dintre o variabila dependenta nemetrica de tip dihotomic (cu
doua stari) sau multihotomic (cu mai mult de doua stari) si combinatii liniare
ale mai multor variabile independente de tip metric. Atunci cnd avem de-a
face cu o variabila dihotomica (doua categorii), tehnica este cunoscuta sub
numele analiza discriminantului a doua grupuri pe cnd n situatia n care
variabila dependenta are mai mult de doua categorii, se utilizeaza denumirea de
analiza a discriminantului multiplu.
analiza variatiei (ANOVA) si analiza covariatiei (ANCOVA) sunt folosite
pentru a examina diferentele dintre valorile medii ale variabilei dependente sub
efectul unor variabile independente controlate, dupa izolarea efectului unor
variabile independente necontrolate. Procedurile de analiza a variatiei se
diferentiaza prin numarul de factori si numarul de variabile dependente
analizate simultan n model. Atunci cnd analizam o singura variabila
dependenta si sunt luati n considerare mai multi factori (n) metoda poarta
denumirea de analiza variatiei cu n-factori. n situatia n care sunt analizate
simultan mai multe variabile dependente si mai multi factori metoda cunoaste o
abordare mai complexa, cunoscuta sub denumirea de analiza multivariata a
variatiei (MANOVA).

1.2.2. Metode multivariate de studiere a interdependentelor

Spre deosebire de metodele prezentate anterior, analiza interdependentelor nu


mai separa variabilele n dependente si independente ci le considera pe toate ca
fiind independente si avnd, a priori, aceeasi importanta pentru analiza. n acest
caz interesul principal al cercetatorului este orientat catre determinarea unor
configuratii a relatiilor dintre toate variabilele analizate (relatii de
interdependenta) cu scopul de a identifica grupuri de variabile, de obiecte sau
de persoane sau de a stabili similitudini sau diferente.

La fel ca si celelalte metode de analiza multivariata, metodele multivariate de


studiere a interdependentelor au nceput sa fie folosite pe scara mai extinsa n
cercetarile de marketing dupa introducerea calculatoarelor, dat fiind volumul
mare de date necesar a fi analizate. n mod similar celorlalte metode, alegerea
variabilelor care sa fie incluse n modelele de analiza trebuie facuta n functie
de cunostintele si rezultatele anterioare, de teoria de specialitate fiind
importante, n acelasi timp, experienta si rationamentul cercetatorului.
Metodele de analiza a interdependentelor au cstigat foarte mult teren n
ultima perioada, fiind apreciate si preferate n mod deosebit de multi utilizatori
ai rezultatelor
cercetarilor de marketing, de cei responsabili cu decizia de marketing, n
special datorita faptului ca genereaza informatii clare si operationale. Sunt
considerate ca fiind metode moderne, avansate de analiza a datelor, nglobnd
tehnologie de ultima generatie, utila si performanta, care ajuta la ntelegerea
simplificata a unei realitati caracterizate prin multidimensionalitate.
Principalele categorii de metode de analiza a relatiilor de dependenta ce vor fi
tratate sunt :
analiza factoriala cerceteaza legaturile de interdependenta dintre mai multe
variabile cu ajutorul carora se caracterizeaza un anumit fenomen, prin
reducerea (condensarea) volumului datelor cuprinse n variabilele initiale si
constituirea unui set mai mic de dimensiuni (factori), urmarindu-se o pierdere
minima de informatii. Ea nu si propune sa faca estimari si previziuni ci
urmareste gruparea variabilelor luate n analiza, focaliznd astfel pe analiza
interdependetelor dintre acestea.
analiza grupurilor urmareste clasificarea componentelor unei multimi
eterogene (obiecte, indivizi sau cazuri) n grupuri relativ omogene, n functie
de o serie de variabile si relatiile de interdependenta dintre acestea. Analiza
grupurilor urmareste, pe lnga asigurarea unei omogenitati a obiectelor n
cadrul grupurilor si o diferentiere ct mai mare ntre grupuri. Cele mai multe
metode de grupare sunt euristice, bazate pe algoritmi si relativ simple. Ele nu
au la baza modele si un instrumentar statistic complex si exhaustiv, fiind, din
acest punct de vedere, substantial diferite de metodele de analiza multivariata a
variatiei, a regresiei, a discriminantului liniar multiplu sau de analiza factoriala.

Ca finalitate si dar si ca metoda de lucru, analiza grupurilor este interesata de


raporturile de similitudine dintre obiecte.
scalarea multidimensionala reprezinta un proces n care, cu ajutorul
diferitelor tehnici, obiectele analizate (stimulii) sunt reprezentate prin puncte
ntr-un spatiu perceptual multidimensional. Axele acestui spatiu sunt
interpretate ca atribute cu ajutorul carora obiectele sunt diferentiate unele de
altele si se presupune ca ele sunt expresia resorturilor psihologice prin care
respondentii si formeaza perceptii si preferinte legate de stimuli. Fiind tot o
metoda care focalizeaza pe studierea similitudinilor dintre obiecte, scalarea
multidimensionala este oarecum reversul analizei grupurilor: n timp ce analiza
grupurilor clasifica obiectele n concordanta cu asemanarile dintre ele, n
functie de unele dimensiuni prespecificate, scalarea multidimensionala deduce
dimensiunile fundamentale din asemanarile si preferintele indicate de
consumatori1.
Cele doua categorii de metodele multivariate de analiza de studiere a
dependentelor, respectiv a interdependentelor, nu se exclud ntre ele ci, n
conditiile n care ntrunesc conditiile de aplicare, este posibila, recomandata
sau chiar se impune utilizarea lor combinata n cadrul aceluiasi proiect. De
exemplu, analiza grupurilor (o metoda de studiere a interdependentelor) poate
fi folosita pentru a segmenta respondentii n grupuri similare iar apoi se poate
apela la analiza regresiei (o metoda de studiere a dependentelor) pentru a
identifica factorii-cheie ai comportamentului pentru fiecare segment n parte.
Sau am putea realiza o analiza factoriala (metoda pentru interdependente)
asupra atributelor de evaluare a unui produs si apoi sa folosim rezultatele
acestei analize (scorurile factoriale) pentru a construi o harta multivariata a
pozitionarii folosind analiza discriminantului (metoda pentru dependente) sau
pentru a segmenta respondentii folosind analiza grupurilor cluster (metoda
pentru interdependente).

Modulul II
Metode descriptive de analiz a datelor
2.1 Analiza componentelor principale

Analiza componentelor principale are ca obiectiv prezentarea sintetica a


unui tabel de date in care unitatile sunt descrise prin multiple variabile
cantitative.
Aceasta descriere trebuie sa permita:
o sinteza a informatiei;variabilele descriptive sunt regrupate in factori
sintetici, denumiti componente principale, astfel incat pierderea de
informatie sa fie minima;
pozitionarea unitatilor prin raportare la componentele principale ceea ce va
permite punerea in evidenta de tipuri de unitati.
Studiul unui esantion sau al unei populatii poate fi considerat complet,de
regula, doar daca au fost masurate sau evaluate foarte multe variabile.La prima
vedere, fiecare dintre variabilele masurate ar putea parea a fi de aceeasi
importanta, insa, tinand seama de faptul ca intre unele ar putea exista legaturi
de dependenta, am putea sa descoperim ca un numar mic de variabile,
independente intre ele, explica suficient de bine fenomenul studiat. Aceasta
problema poate fi rezolvata cu ajutorul analizei componentelor principale.
Reducerea variabilelor initiale poate fi utilizata pentru usurarea
interpretarii (avem un nr. mai restrans de factori ) si de asemenea poate servi ca
faza intermediara de calcul prealabil in utilizarea altor metode de analiza
multidimensionale.
Astfel presupunem ca n unitati sunt caracterizate de p variabile
X 1 , X 2 ,...X p ,datele se prezinta sub forma matriciala,de dimensiunea nxp,
X

xij i=1,n

j=1,p

Informatia cu care participa o unitate i in norul de puncte poate fi


exprimata prin distanta de la punctul ce-l reprezinta, pana la centrul de greutate
al norului de puncte, de coordonate mediile celor p variabile, respectiv:

Ii

( xij

x j )2

j 1

Informatia totala ( I ) este suma patratelor distantelor, aferenta celor n


unitati, in ipoteza ca fiecare unitate avea aceeasi pondere,unde:

( xij
i 1

x j )2

j 1

marime ce in mecanica este denumita inertia norului de puncte.


Problema analizei componentelor principale consta in a reduce cele p
variabile intiale intr-un numar de q variabile denumite "componente
principale" sau factori, q<p. Aceasta presupune trecerea de la o matrice de
date de dimensiune { n (unitati) x p (variabile)} de forma:
X 11 X 12 ......X 1 p
........................
X

X i1 X i 2 ......X ip
.......................
X n1 X n 2 ......X np

la o matrice redusa,de dimensiune (nxq)


f 11 f 12 ......f 1q
....................
F

f i1 f i 2 ......f iq
....................
f n1 f n 2 ......f nq

Tehnica utilizata de A.C.P.pentru a trece de la p la q variabilele, q<p ,consta


in a proiecta norul de puncte pe un subspatiu de dimensiunea q, R q , printr-o
deformare minima posibila, respectiv, pierderea de informatie sa fie cat mai
mica. Astfel consideram o directie F in spatiu, ce poate fi exprimata prin
vectorul u = (u1,u2,.......,up ).

Considerand dreapta ce trece prin centrul de greutate si are aceasta


directie, vom putea proiecta fiecare punct al norului pe aceasta dreapta. Notand
cu f i lungimea segmentului ce uneste proiectia punctului cu centrul de
greutate, avem [ 2 ];
fi = Xi1 U1 + Xi2 U2 + .......+ Xip Up
Informatia totala retinuta de aceste proiectii este:

Iu

fi

i 1

Scopul A.C.P.consta in determinarea acelei directi care maximizeaza


informatia totala
retinuta, respectiv (maximizare in raport cu u):
n

max I u

max

( xi1u1

... xip u p ) 2

xi 2 u 2

i 1

cu restrictia ca :

u12

u22

... u 2p

directie ce este denumita factor principal. Ca urmare trebuie identificate principalele


directii
( factori principali) ce asigura proiectarea norului de puncte si furnizarea informatiei
maxime.
Factorii principali (componente principale) trebuie sa verifice urmatoarele

conditii:
variabilele descriptive initiale X 1 , X 2 ,...X p sunt grupate in factorii sintetici Fk
printr-o combinatie liniara, de forma:

Fk

a kj x j

1, p

j 1

factorii, componentele principale, sunt independenti


cov(Fk , Fm )

Procedeul de rezolvare a analizei componentelor principale este prezentata


pe scurt in
schema urmatoare:
Matricea datelor initiale
M( nxp)

Calculul matricii de var-cov


Vpp sau a matricii de corelatie R

Extragerea axelor factoriale


(vectorii proprii a lui V sau R)

Alegerea celor k axe principale

Calculul coordonatelor

Calculul corelatiilor

unitatilor pe axele

intre axele principale

principale

si variabilele initiale

reduse.
Daca datele sunt omogene, pentru a gasi axele factoriale ne folosim de matricea de
varianta si covarianta (V) avand ca element general
variabilele j si j', j

V jj ' ,

covarianta dintre

j ' iar

elementele de pe diagonala principala sunt variantele V jj ' a diferitelor variabile.


Aceasta matrice V este simetrica, patrata ( pxp ),cu suma elementelor de pe
diagonala egala cu varianta totala a norului de puncte denumita urma matricii.
V11V12 .....V1 p
V

V21V22 .....V2 p
....................
V p1V p 2.....V pp

Vtot

V11 V22

... V pp -unde ''urma'' matricii V este varianta totala a norului de

puncte ce
exprima informatia totala ( I ).
Daca datele sunt eterogene, dupa centrarea si reducerea lor, matricea
folosita pentru determinarea axelor factoriale este matricea de corelatie ( R
),unde r jj ' reprezinta coeficientul,de corelatie dintre variabila j si j', j

j ' , iar

elementele de pe diagonala principala sunt egale cu 1. In acest caz suma


elementelor de pe diagonala principala este egala cu p respectiv numarul de
variabile.

1 r12 ......r1 p
R

r211 ......r2 p
.................
rp1 rp 2 .....1

Principiul acestei metode este acela de a gasi succesiv un prim fator

rezumand cel mai bine informatia continuta in matricea initiala, apoi al doilea factor,
independent de primul,rezumand cel mai bine informatia reziduala si se continua
pana este retinuta toata varianta (informatia).Deci fiecare componenta principala
restituie o parte din informatia initiala, masurata prin varianta sa,
2
Fk

unde

k este o valoare proprie a matricii V sau R, iar

urmaV

sau

p.

K
K

Cunoasterea informatiei adusa de fiecare factor FK ne furnizeaza date


despre directia axelor. Acestia sunt vectorii proprii u K asociati diferitelor valori
proprii

(2).

S-a demonstrat ca:


axele factoriale ( sau componentele principale ) trec prin centrul de gravitatie a
norului de puncte;
axele factoriale sunt vectorii proprii a matricii de varianta si covarianta (sau a
matrici de corelatie);
valoarea proprie asociata unei axe masoara varianta raportata prin acea axa ;
prima componenta principala este vectorul propriu asociat celei mai mari valori
proprii ; a doua este asociata valorii proprii urmatoare etc... , deci
1

....

Componentele principale (axele) sunt caracterizate de urmatoarele


proprietati:
axele sunt ortogonale;
media fiecarei componenta este nula;
cea mai mare parte din varianta totala a norului de puncte este concentrata pe
primele axe.
Alegerea numarului de axe este o problema importanta. Pentru aceasta
exista mai multe metode. Cea mai uzuala este cea a calcularii variantei explicite
adusa de fiecare axa si determinarea celei cumulate.

V exp( F1 )

1
p

V exp( F1 , F2 )

p
K

etc.

K 1

K 1

Astfel se poate fixa un prag minim pentru varianta explicita cumulata de


exemplu sa fie in jur de 80% . In momentul in care acest prag este atins se considera
ca sunt suficiente axele retinute.
Sigur mai exista si o metoda grafica cat si una empirica.
Calitatea globala a reprezentarii va fi masurata prin partea variantei
explicata de planul principal F1 , F2 , unde : V exp( F1 , F2 )

1
p

K
K 1

reprezentarea fiind buna daca Vexp este apropiata de 1.


In general este foarte important sa poti interpreta axele factoriale.
Pentru aceasta este necesar sa revenim la variabilele initiale. Astfel vom
determina importanta variabilei initiale in formarea factorilor calculand
coeficientii de corelatie dintre variabilele initiale si axele factoriale (
componentele principale ).

rX j FK

u Kj

Fiecare variabila fiind centrata si de norma 1, poate fi reprezentata


in spatiul R n , printr-un punct situat in cercul de centru 0 si raza 1.
Deoarece componentele principale sunt necorelate este usor de
stabilit expresia de calcul a coeficientului de corelatie multipla, astfel:
R X j / FK F

K'

r 2 X j FK

r 2 X j FK '

unde acest coeficient este distanta de la centrul la punctul care reprezinta


variabila X j .

Este deci posibil sa vedem care coeficenti de corelatie sunt mai


mari pentru un factor dat, ca sa gasim variabilele initiale care contribuie cel
mai mult la acel factor si sa ajute la interpretarea lui. In general se retin valorile
mai mari de 0,50.
Numarul de axe fiind fixat, este posibil ca luand axele doua cate
doua sa obtinem o reprezentare grafica a rezultatelor . Astfel vom reprezenta
unitatile observate prin coordonatele axelor factoriale si variabilele initiale prin
coeficientul de corelatie. Practic acest lucru este posibil atunci cand numarul de
axe retinute nu este mai mare de 3.
In plus mai putem determina contributia relativa sau absoluta a
unitatilor la inertia asociata axelor factoriale.
Astfel :
i

cos

f iK

f iK '

xij2
j 1

o buna reprezentare a unitatii i pe planul [ Fk,Fk' )corespunde unei valori a lui


i

aproape de 1.
Cordonatele componentelor principale se determina din urmatoarea

relatie:
F = [x] I U
unde: x - matricea initiala
I - matricea unitate
U - vectoru propriu.
iar Fk = [x] I Uk ,

FK

f1K ,... f iK ,... f nK

Aceste coordonate permit reprezentarea punctelor unitati in planul


[Fk,Fk' ], putandu-se astfel stabili tipuri de unitati omogene in raport cu
componentele principale analizate.

2.2 ANALIZA FACTORIAL A CORESPONDENELOR

Scopul acestei analize este de a descrie legturile sau corespondenele


dintre dou variabile sau dou ansambluri de variabile, respectiv de a studia
simultan liniile i coloanele unui tabel de contingen, pentru a descrie
structura liniilor n funcie de legtura lor cu coloanele sau invers, structura
coloanelor n funcie de legtura lor cu liniile tabelului analizat.
Analiza se aplic n general asupra variabilelor calitative, nominale, dar nu
sunt excluse nici cele ordinale.Punctul de pornire l reprezint tabelul de
contingen, unde liniile i coloanele joac un rol simetric. Se acord aceeai
importan oricrei linii sau coloane, dac frecvenele absolute aferente sunt
diferite.
In cercetrile de marketing aceast tehnic este utilizat frecvent datorit
urmatoarelor aspecte:
Posibilitatea prelucrrii variabilelor calitative, deoarece se utilizeaz
frecvenele absolute sau relative:
Vizualizarea rezultatelor sub form de grafice, reprezentnd apropierile
dintre liniile i coloanele unui tabel de contingen;
Posibilitatea de a adauga variabile (stri) suplimentare dup stabilirea
spaiului de reprezentare, ceea ce va permite proiectarea unui numr
suficient de variabile rezultate dintr-o anchet pe un spaiu reprezentativ.
Din punct de vedere teoretic aceast metod este considerat ca o extensie a
analizei componentelor principale, dar ea poate constitui i o etap de trecere
spre procedee mai generale de studiere a relaiilor dintre variabilele calitative,
cum sunt modelele logliniare.

Metodologie
Presupunem ca exist un eantion de volum n i dou variabile X i , X j ,
datele de prelucrat sent prezentate intr-un tabel de contingen de forma
urmtoare:

Y/X

X 1 .....X j .....X J

Total
n1 .

Y1
.

n11..... n1 j .....n1J

Yi

n i.

ni1 .....nij .....niJ

YI

nI.

.
n I 1 .....n Ij .....n IJ
Total

n.1 .....n. j .....n. J

Pentru aplicarea analizei corespondenelor,

datele

iniiale

trebuie

transformate, respectiv se va opera cu profilul liniilor i coloanelor.


Astfel n prelucrare se utilizeaz frecvenele relative determinate pentru fiecare
linie i coloan n parte (se obine raportnd frecvena absolut la totalul liniei
sau a coloanei), vectorii de frecven fiind denumii profile.
Matricea profilelor liniilor arat astfel:
n
n
n11
..... 1i ..... 1J
n1.
n1.
n1.
...........................
YI

nij
ni1
n
..... ..... iJ
ni .
ni .
ni .
...........................
n Ij
n
nI1
..... ..... IJ
nI .
nI .
nI .

Matricea profilelor coloanelor arat astfel:

n
n11
n
..... i1 ..... I 1
n.1
n.1
n.1
...........................
XJ

n1 j
n. j

.....

nij
n. j

.....

n Ij
n. j

...........................
n1J
n
n
..... iJ ..... IJ
n. J
n. J
n. J

Pentru msurarea legturii sau apropierii dintre strile variabilelor analizate se


utilizeaz distana

, care se aplic datelor profilelor, respectiv se va calcula

distana dintre liniile unui tabel sau dintre coloanele acestuia.


Distana dintre dou linii i i i este:

J
2

i, i
j 1

unde:

f. j

1 nij
f . j ni .

ni ' j

ni ' .

n. j
n

n mod asemntor se calculeaz distana dintre dou coloane j i j.


Aceast distan se bucur de proprietatea de echivalen distribuional,
respectiv:
distana dintre dou linii nu depinde dect de profilul asociat la coloane;
distana intre dou linii este nul dac profilele asociate la coloane sunt
asemntoare;
dac dou coloane

j1 , j2 au acelai profil asociat la linii, distana ntre

linii nu se modific dac nlocuim aceste coloane cu suma lor


( f ij

f ij 1

f ij 2 ).

Metoda este asemntoare cu analiza factorial a componentelor


principale, dar intervin anumite particulariti ce in de natura datelor,
respectiv:
analiza este simetric, cele dou ansamble I (ansamblu de profile al primei
variabile) i J (ansamblu de profile al celei de-a doua variabil) joac roluri

ce sunt interschimbabile, cei doi nori de puncte vor fi studiai o singur


dat (n loc de a se aplica o analiz n componentele principale fiecrui nor
de puncte n parte);
proprietate specific AFC este aceea c factorii unei analize se deduc uor
din factorii obinui dintr-o alt analiz (aplicat asupra acelorai date),
utiliznd relaiile de tranziie(termen specific acestei analize).
Derularea metodei cuprinde urmtoarele etape:
1. Transformarea datelor iniiale, a tabelului de contingen n tabele de
frecvene condiionate, rezultnd dou tabele, unul pentru prima variabil
condiionat de a doua (profilele liniilor), altul pentru a doua variabil
condiionat de prima (profilele coloanelor);
2. Calculul matricilor de varian i covarian pentru fiecare din cele dou
tabele;
3. Calcularea valorilor proprii, a vectorilor proprii i deducerea axelor
factoriale aferente (numarul de axe este egal cu minimum dintre numrul de
stri a fiecrei variabile minus 1);
4. Interpretarea rezultatelor, care const n verificarea calitii prelucrrii i n
proiectarea simultan sau separat a celor dou ansambluri de puncte I i J.
Calitate prelucrrii se verific n primul rnd prin procentul din variana
explicit (aici cu semnificaie de procent din relaiile dintre cele dou ansamble
analizate) furnizat de fiecare ax i de cele reinute ca fiind principale (acest
procent trebuie s se apropie de 100%). Urmeaz verificarea calitii
reprezentrii fiecarei stri (modalitati) de variabile i a contribuiei lor la
variana axelor reinute n analiz.
Sunt posibile trei tipuri de reprezentri:
proiecia norului de profile linii prin raportare la axele factoriale, ceea ce
ne va permite s vedem care sunt strile variabilei Y ce sunt mai apropiate,
respectiv au profile aproape identice;
proiecia norului de profile coloane prin raportare la axele factoriale, ceea
ce ne va permite s vedem care sunt strile variabilei X ce sunt mai
apropiate, respectiv au profile aproape identice;

reprezentarea simultan a norului de profile linii i profile coloane pentru


a aprecia apropierile dintre linii si coloane, respectiv dintre strile celor
doua variabile.

2.3 Analiza cluster (clasificarea)

Clasificarea se poate defini ca o clasa de tehnici utilizate pentru a


clasifica unitatile in clase (grupuri) relativ omogene. Unitatile din interiorul
unei clase trebuie sa fie asemanatoare intre ele, in timp ce unitatile apartinand
unor clase diferite trebuie sa fie cat mai diferite. In limbaj statistic aceasta
inseamna minimizarea variantei reziduale, din interiorul segmentelor obtinute
si maximizarea variantei explicata, dintre segmente.
Clasificarea este des utilizata in marketing pentru gruparea indivizilor
(studiul consumatorului) sau pentru gruparea produselor (studiul consumului),
dar i n alte situaii, cum ar fi:
Poziionarea mrcilor unui produs, cnd se studiaz mrcile aceluiai
produs, nregistrndu-se percepia variabilelor de ctre consumatori. Astfel
vor rezulta tipuri ce sunt constituite din acele mrci care beneficiaz de
percepii similare la cumprtori. Aceasta va permite poziionarea unei
mrci fa de cele concureniale.
Activitatea de cercetare privind lansarea de produse noi, cnd se studiaz
piele tip n care se pot efectua testele de lansare a unui produs nou.
Studiul unei populaii n funcie de activiti, interese, opinii, va conduce la
stabilirea unei tipologii a modului de via.
Metoda clasificrii are propria metodologie de grupare, dar n acelai
timp poate s apeleze i la alte metode, ca de exemplu analiza componentelor
principale, analiza varianei. Aceast metod, prin obiectivul su, se aseamn
cu alte metode de analiz a datelor, dar exist i diferene care justific
folosirea acesteia.
Astfel clasificarea seamn destul de mult cu segmentare, care are ca
obiectiv costituirea de clase n raport cu una sau mai multe variabile de

explicat. Fiecare clas poate fi caracterizat de o serie de variabile explicative,


n special socio-demografice. n schimb clasificarea va conduce la constituirea
de clase omogene n raport cu toate variabilele luate n considerare.
De asemenea analiza discriminant vizeaz repartizarea unitilor n clase
determinate de strile unei variabile nominale, de exemplu, clienii unei
societi pot fi grupai n clieni permaneni sau ocazionali, un nou client, pe
baza variabilelor explicative va putea fi alocat unei anumite clase. Clasificarea
permite constituirea de clase independent de orice grupare a priori. Astfel ea
poate fi utilizat naintea oricrei analize discriminante pentru a confirma sau a
infirma categoriile a priori stabilite.
Fa de analiza componentelor principale care are ca scop reducerea
numrului de variabile, clasificarea vizeaz reducerea unitilor prin gruparea
cestora.
Metoda clasificrii accept n descriere att variabile cantitative, ct i
variabile ordinale i nominale, ceea ce este foarte important avnd n vedere
numrul foarte mare de variabile utilizate n cercetrile de marketing, ct i
diversitatea lor din punctul de vedere al formei de exprimare.
Utilizarea metodelor de clasificare presupune parcurgerea urmatoarelor
etape:
formularea problemei;
alegerea distanei de msurare;
alegerea procedurii de clasificare:
stabilirea numrului de segmente;
examinarea i interpretarea profilelor segmentelor;
validarea soluiei rezultate.

1. Formularea problemei
ncercarea de realizare a unei clasificri poate fi formulat astfel: fiind date
n uniti pentru fiecare dispunnd de nregistrri a p variabile, trebuie s se
constituie grupe de uniti astfel nct unitile dintr-o grup s semene ntr ele,
dar sfie diferite de la o grup la alta, asemnarea unitilor fiind definit
plecnd de la cele p variabile.

Realizarea unei clasificri se bazeaz implicit pe existena unei grupri n


cadrul populaiei studiate. Astfel dac vizualizm datele iniiale sub forma unui
nor de n puncte ntr-un spaiu cu p dimensiuni, trebuie s existe zone unde
densitatea punctelor este mare, respectiv punctele sunt apropiate unele de
altele. Aceast ipoteza trebuie verificat naintea efecturii unei clasificri.
Ca atare cea mai mare importan n aceast etap trebuie acordat alegerii
variabilelor pe baza crora se va efectua clasificarea. Este de dorit ca setul de
variabile selectat s descrie asemnarea dintre unitai, n termeni ce sunt
relevani pentru problema studiat. Variabilele se vor alege pe baza unor
cercetri, a unor testri de ipoteze sau pe baza intuiiei cercettorilor.
2. Alegerea distanei de msurare
Clasificarea

prezint marele avantaj c permite analiza variabilelor

cantitative ct i a celor calitative. Alegerea distanei se face n funcie de tipul


variabilelor supuse studiului. Dac ne situm n contextul c avem n uniti
caracterizate de p variabile, pentru msurarea apropierii dintre uniti se
folosesc dou categorii de indicatori, i anume :
Distana
Indicele de similaritate
Alegerea unuia sau a altuia depinde n primul rnd de tipul de variabile utilizate
n clasificare, ct i de constrngerile impuse de proprietile indicatorilor.
In cazul variabilelor cantitative se va utiliza una din urmatoarele distante:
-

distanta euclidiana,
p

d i, i '

X ik

X i 'k

k 1

distanta rectangulara ( Manhattan)


p

d (i, i ' )

X ik

X i 'k

k 1

distanta lui Minkowski


1/ n

p
'

d (i, i )

( X ik
k 1

a lui Chebyshev, etc.

X i 'k )

n cea mai mare parte variabilele se exprim n uniti de msur diferite,


astfel se impune standardizarea variabilelor, nainte de a calcula distanele
necesare, respectiv:
Xk

Zk

X
X

In cazul variabilelor calitative deosebim urmatoarele situatii:


-

daca datele sunt prezentate prin matricea frecventelor se


utilizeaza distanta hi patrat;
p
'

d (i, i )
k 1

1 f ik
(
f .k f i .

f i 'k
f i' .

- daca variabilele sunt ordinale se utilizeaza


rectangulara sau

)2
distanta euclidiana,

coeficientul de corelatie al lui Spearman.

3. Alegerea procedurii de clasificare


Exist un numr mare de procedee de calcul destinate rezolvrii problemelor
clasificrii. Acestea sunt grupate n dou mari categorii:
-metode ierarhice, recurg la construirea unui arbore de clasificare artnd
trecerea celor n uniti n grupe printr-o succesiune de regrupri sau de divizri:
- metode neierarhice care repartizeaz unitile ntr-un anumit numr de
grupe stabilit iniial.
Atunci cnd volumul de date nu este prea mare se prefer metodele ierarhice,
fiind mai eficiente i mai bine fundamentate, n caz contrar se recurge la
metodele neierarhice.
O sintez asupra metodelor de clasificare poate fi redat astfel :
Medode ierarhice
Ascendente
Metoda nlnuirii
1.1 metoda vecinilor cei mai apropiai
1.2 metoda vecinilor cei mai ndeprtai
1.3 metoda drumului mediu
Metoda varianei ( metoda lui Ward)
Metoda centroizilor
Descendente

Metode neierarhice
Cu alocare secveniala
Cu alocare paralel
Cu alocare optimal
I. Metodele ierarhice se caracterizeaz prin faptul c numrul de grupe
nu este cunoscut dinainte, ci va fi determinat pe parcurs, prin algoritmul de
clasificare. n funcie de algoritmul folosit metodele ierarhice sunt :
Metode descendente care consider toate unitile clasificate ntr-o
singur grup. Aceasta va fi divizat pn cnd se obin grupe
omogene n interiorul lor, dar eterogene ntre ele.
Metode ascendente care consider c fiecare unitate reprezint la
nceput o grup. n continuare grupele sunt formate clasnd unitile
n grupe din ce n ce mai mari. Procedeul este continuat pn cnd
toate unitile sunt cuprinse ntr-o singur grup.
n cadrul metodelor ascendente sunt cuprinse : metoda nlnuirii, metoda
varianei i metoda centroizilor.
Metodele nlnuirii la rndul lor cuprind :
metoda vecinilor cei mai apropiai, unde distana dintre dou grupe este
asimilat cu distana dintre dou uniti cele mai apropiate, uniti ce
aparin de grupe diferite. Utilizarea acestei metode poate conduce la riscul
formrii de grupe eterogene deoarece nu se iau n calcul toate unitile
aparinnd unei grupe;
metoda vecinilor cei mai ndeprtai, unde distana dintre dou grupe este
asimilat cu distana dintre douuniti cele mai ndeprtate;
metoda drumului mediu, unde distana dintre dou grupe este definit ca
media distanelor dintre toate perechile de uniti aparinnd la grupe
diferite.
Dup cum se poate constata metoda drumului mediu utilizeaz toate distanele
calculate ntre perechile de uniti aparinnd grupelor diferite, nu

numai

distanele minime sau maxime, ceea ce va conduce la obinerea de grupe mai


omogene.
Pe scurt metoda nlnuirii poate fi prezentat astfel:

ntr-o faz prealabil are loc msurarea opropierii dintre toate


cele n uniti luate dou cte dou )se va utiliza un anumit tipde
distan n funcie de natura variabilelor folosite) ;

se va elabora matricea de proximiti (nxn) ;

ntr-o prim etap se vor grupa dou uniti crora le corespunde


distana cea mai mic, respectiv acestea vor constitui prima
grup ;

n etapa a doua se vor recalcula distanele celorlalte n-2 uniti


fade grupa format ;

cele dou etape sunt repetate pn ce se regrupeaz toate


unitile ntr-o singur grup.

Metoda varianei ncerc s genereze grupe prin minimizarea varianei


din interiorul fiecrei grupe. n cadrul acestei metode, cea mai bun tehnic
este metoda lui Ward. Aceasta presupune ca pentru fiecare grup s fie
calculate mediile tuturor variabilelor urmnd ca ulterior pentru fiecare unitate
nc nerepartizat s se calculeze distana euclidian la mediile grupelor i de
asemenea ntre grupele deja constituite. Se nsumeaz distanele calculate fa
de mediile variabilelor, la nivelul fiecrei uniti sau grupe. n fiecare etap se
combin uniti-grup sau grup-grup n funcie de cea mai mic cretere n
totalul sumei ptratelor distanelor n interiorul grupei
Metoda centroizilor consider c distana dintre dou grupe este
distana dintre centroizii acestora. Centroidul este punctul care are ca i
coordonate mediilor tuturor variabilelor unui grup.
Metodele ierarhice prezint dezavantajul c din punct de vedere teoretic
acestea caut o succesiune de sub-optime

i nu caut un optim global,

respectiv la fiecare iteraie se efectueaz ,,cea mai bun grupare,,.


II. Metodele neierarhice prezint avantajul prelucrrii populaiilor de volume
mari, cu un cost rezonabil. Cele mai multe dintre aceste metode sunt
fundamentate pe algoritmi de tipul urmtor:
-

alegerea numrului de grupe ;

aplicarea procedeului de realocare

stabilirea regulilor de oprire a procedeului de calcul.

Metoda cea mai des utilizat este ces bazat pe alocarea optimal, care
urmrete minimizarea distanei medii n grupe.
Stabilirea numrului de grupe
Una din etapelemajore ale metodei calsificrii este stabilirea numrului de
grupe. Pentru aceasta nu exist o regul general valabil, de aceea pot fi luate
n considerare mai multe repere, i anume :
1. Utilizarea unui prag de clasificare, ce reprezint acel nivel de grupare
ncepnd de la care grupele create pot fi considerate foarte eterogene, iar sub el
grupele sunt omogene. Alegerea n acest caz se bazeaz pe graficul numit
DENDOGRAMA, ce reprezint clasele obinute conform metodei utilizate.
Problema care se pune este unde "s tai arborele" astfel nct numrul de clase
gsite s fie optim. Nu exist o regul general valabil, ci se fac inspecii
subiective ale dendogramei.
Determinarea profilului grupelor
Fiecare segment de piata identificat trebuie descris amanuntit pentru a putea
identifica segmentele tinta si elabora mixurile de marketing adaptate cerintelor
fiecarui segment tinta. Determinarea profilului claselor si interpretarea impune
analiza centroizilor claselor. Centroizii reprezinta valorile medii inregistrate de
variabilele de segmentare, numite si variabile active, pentru fiecare segment in
parte.
Validarea segmentelor
Este posibil ca aceste clase care au fost stabilite anterior sa nu fi fost corect
determinate. Pentru a cunoaste cu exactitate acest lucru se impune o analiza
relativ la gradul de omogenitate din interiorul segmentelor si diferentele
existente intre mediile claselor.
Pentru validarea claselor se va utiliza analiza variantei fiecarei variabile
active si testarea egalitatii mediilor in cadrul grupelor.

2.4 SCALAREA MULTIDIMENSIONAL


Metodele de analiz a informaiilor n cercetrile de marketing au cunoscut, n
ultimul
timp un proces de diversificare i specializare. n cadrul unui astfel de proces a
aprut i s-au dezvoltat tehnicile scalrii multidimensionale, vzute ca o
continuare a scalrii unidimensionale. Acestea urmresc msurarea simultan a
caracteristicilor unor entiti (mrci, produse) i plasarea lor n spaiul
percepiilor consumatorilor i au la baz faptul c preferinele i percepiile au,
n general, un caracter multidimensional.
Fundamente
Scalarea multidimensional (SMD) reprezint un proces n care, cu ajutorul
diferitelor tehnici, obiectele analizate (stimulii) sunt reprezentate prin puncte
ntr-un spaiu perceptual multidimensional. Axele acestui spaiu sunt
interpretate ca atribute cu ajutorul crora obiectele sunt difereniate unele de
altele i se presupune c ele sunt expresia resorturilor psihologice prin care
respondenii i formeaz percepii i preferine legate de stimuli. Aceste
reprezentri geometrice sunt numite adesea hri spaiale (sau hri
perceptuale).
Exist mai multe definiii date scalrii multidimensionale. Primele abordri ale
acestei metode aparin psihologiei, de aceea apariia celor dinti articole are loc
n revista Psichometrika. Unul dintre autorii cu preocupri majore n acest
domeniu, J. B. Kruskal, consider c metoda are n vedere reprezentarea
geometric a N obiecte prin N puncte, astfel nct distana dintre puncte s
corespund ntr-o mare msur diferenierilor dintre obiecte. n ce sens
distanele i diferenierile ar trebui s corespund este o chestiune vag abordat
n toate conceptele, lsnd aceste noiuni aproape incomplete. Pentru msurarea
nivelului de concordan ntre datele reale i cele reprezentate se definete
noiunea calitate a ajustrii (goodness-of-fit). Scalarea multidimensional are
rolul

micorrii

acestei

msuri.

Alte

definiii

consider

scalarea

multidimensional ca fiind o tehnic de impunere a unei structuri la nivelul


unui set de elemente. Ideea este de a localiza aceste elemente n plan sau n

spaiu, n aa fel nct, cu ct sunt mai asemntoare dou elemente, cu att


sunt mai apropiate ntre ele punctele care le reprezint.
Conform lui Paul E. Green scalarea multidimensional urmrete msurarea
percepiilor i preferinelor indivizilor. Aceast metod pornete de la un set de
date ce reprezint distane dintre elemente i ncearc s gseasc o
configuraie geometric ntr-un numr de dimensiuni care s respecte, n cea
mai mare parte, relaiile existente ntre datele de intrare. De asemenea, aceast
metod folosete date de intrare subiective privitoare la judecile indivizilor n
legtur cu similitudinile i preferinele fa de anumii stimuli.
Problematica scalrii multidimensionale este pus n eviden, ntr-un mod
sintetic, de David Aaker. Astfel, aceast metod implic dou probleme:
-

mai nti, se impune identificarea dimensiunilor n funcie de care

consumatorii percep sau evalueaz obiectele (organizaii, produse, mrci);


- n al doilea rnd, obiectele trebuie reprezentate n raport cu aceste dimensiuni
prin intermediul hrilor perceptuale (care reprezint datele de ieire la nivelul
metodei).
Scalarea multidimensional introduce n analiz date privitoare la percepii i
preferine, ncercndu-se ulterior identificarea variabilelor fundamentale care
sunt responsabile pentru acestea, fr ca respondentul s le menioneze.
Scalarea multidimensional este oarecum reversul analizei grupurilor: n timp
ce analiza grupurilor clasific obiectele n concordan cu asemnrile dintre
ele, n funcie de unele dimensiuni prespecificate, scalarea multidimensional
deduce dimensiunile fundamentale din asemnrile i preferinele indicate de
consumatori.
Scalarea multidimensional se preocup de studierea interdependenelor dintre
rspunsuri, toate variabilele sunt considerate ca fiind independente. Procedura
include:
- obinerea opiniilor fiecrui respondent asupra localizrii diferitelor produse
(mrci);
- localizarea punctului ideal al fiecrui respondent n spaiul produsului.
Premisa fundamental a scalrii multidimensionale este aceea c distanele
spaiale trebuie s corespund similaritilor iniiale. Metoda ncearc s
determine un set de coordonate sub denumirea de configuraie iniial.

Distanele n spaiu sunt calculate din aceste coordonate i sunt evaluate n


raport cu datele de intrare. Dac eroarea este mare (diferenele dintre distanele
derivate i asemnri sunt mari), atunci programul mut coordonatele i
recalculeaz distanele din cadrul spaiului derivat. Procesul este repetat pn
cnd distanele spaiale se potrivesc cu datele de intrare pe baza unitii de
msur numit stress.
Scalarea multidimensional este asimilat de unii autori cu analiza factorial pe
tabele de distane i disimilariti. Obiectivul acesteia este gsirea unei
configuraii de N indivizi ntr-un spaiu de mic dimensiune, cunoscndu-se
numai cele N(N-1)/2 distane sau disimilariti ntre indivizi i nu variabilele
care le descriu.
Aplicaii n marketing ale scalrii multidimensionale
Scalarea multidimensional a nceput s dobndeasc o mai mare importan n
analizele de marketing o dat cu extinderea domeniilor sale de aplicare.
Principalele zone ale mixului de marketing n care se aplic sunt:politica de
produs i politica promoional. Astfel, la nivel concret se urmrete
determinarea modului de poziionare a produsului n raport cu concurena sau
cu produsul ideal perceput de consumator, determinarea imaginii firmei,
alegerea sloganului publicitar, alegerea axului psihologic n proiectarea
campaniilor

publicitare.

timp

ce

metodele

specifice

scalrii

multidimensionale sunt folosite acum ca instrumente de prezentare a datelor la


nivelul mai multor activiti economice, mare parte a potenialului lor nu este
valorificat. Se pot identifica astfel dou zone de aplicabilitate de mare viitor:
segmentarea pietei i dezvoltarea pe scar larg a noilor produse.
Msurarea imaginii, cnd se poate urmri compararea percepiilor clienilor
i non-clienilor firmei cu ateptrile firmei n aceast privin i, pe acest
baz, identificarea decalajelor perceptuale. De asemenea, se poate urmri
convergena de imagine a produselor firmei la nivelul distribuitorilor, al
ageniilor de publicitate, al personalului implicat sau expus n fazele de
adoptare sau dezvoltare a noilor produse, totul n raport cu percepiile
consumatorilor. n condiiile n care nu exist coeren ntre aceste percepii se
vor analiza consecinele la nivelul deciziilor privind preul, proiectarea
produsului, alegerea temei promoionale, stabilirea strategiei de distribuie;

Segmentarea pieei. Acest demers pornete de la presupunerea c pot fi


reprezentate componentele unei clase de produse i cumprtorii lor n acelai
spaiu, ale crui dimensiuni sunt caracteristicile percepute ale produselor.
Astfel, fiecare marc poate fi reprezentat ca un punct ce desemneaz un
stimul, iar fiecare cumprtor este vzut ca un punct ideal n acelai spaiu. n
fapt acesta poate fi un superspaiu n sensul ca diferii cumprtori pot percepe
aceiai stimuli n mod difereniat n felul acesta ei ocupnd anumite poziii n
spaiul perceptual. n mod conceptual, un segment de pia poate fi vzut ca un
subspaiu n care toi membrii (cumprtorii) percep stimulii n mod similar i
au aproximativ acelai punct ideal. Putem avea de asemenea alte trei cazuri,
cnd:
- stimulii sunt percepui diferit, dar exist identitate n ceea ce privete punctele
ideale;
- indivizii au aceleai percepii, dar posed puncte ideale diferite;
- nu exist identitate n ceea ce privete percepia stimulilor i nici a poziiei
punctelor ideale.
Urmtorul pas al analizei are n vedere relaia dintre percepie/poziia punctului
ideal i celelalte caracteristici ale cumprtorului cum ar fi: variabilele
demografice, socio-economice i psihologice. mprirea superspaiului n care
se gsesc stimulii i punctele ideale n subspaii omogene i identificarea
caracteristicilor consumatorilor care manifest aceleai percepii i preferine
reprezint esena strategiei de segmentare. Aceste analize pot pune n eviden
zone n care se plaseaz puncte ideale, dar care nu sunt acoperite cu stimuli
(mrci). n ultim instan analizele pot arta poziia firmelor concurente aa
cum este perceput de ctre diferite segmente de pia, fr a se face referire la
caracteristicile de ordin fizic ale produselor. Din punctul de vedere al
productorului, principalul obiectiv avut n vedere este modificarea produselor,
ambalajelor, a strategiilor promoionale sau oricror alte aspecte aferente
politicilor de marketing n scopul mutrii mrcilor ctre regiuni din spaiul
perceptual n care se gsete cea mai mare concentrare a punctelor ideale sau
ncercrii de a muta punctele ideale ctre zonele n care se gsesc propriile
mrci. Exist de asemenea posibilitatea schimbrii importanei relative a
dimensiunilor sau chiar a numrului de dimensiuni aa cum ar putea fi cazul

mrcilor total inovatoare. De asemenea, productorul poate ncerca s dirijeze


consumatorii dinspre un segment nefavorabil ctre unul favorabil firmei
(utiliznd publicitatea de identificare cu grupul de referin). ntruct i alte
mrci apar n spaiul perceptual trebuie avut, de asemenea, n vedere problema
cotelor de acceptabilitate estimate;
Dezvoltarea noilor produse. n cele mai recente cercetri s-a propus utilizarea
scalrii multidimensionale pentru testarea i introducerea pe pia a unui nou
produs. Dei au fost dezvoltate independent, modelele sunt oarecum similare la
nivelul ctorva elemente:
- punerea accentului pe dezvoltarea hrilor perceptuale, utiliznd evalurile
consumatorilor asupra unor atribute prespecificate;
- presupunerea caracterului omogen al percepiilor consumatorilor;
- ncorporarea datelor referitoare la preferine n hri perceptuale construite
prin intermediul unor metode externe (de tipul regresiei) care implic
reprezentarea vectorial a preferinelor i a punctelor ideale;
- ncorporarea unor funcii pentru a lega probabilitatea de alegere de distana
fa de punctul ideal.
Analizele de preuri. Pentru a determina impactul politicii de pre, pot fi
construite hri speciale care pot conine sau nu informaii metrice legate de
preuri;
Selecia mijloacelor de comunicare este realizat pornind de la presupunerea
c acestea sunt reprezentate ca puncte ntr-o hart perceptual bazat pe
similariti i componenii ce formeaz audiena lor se identific cu punctele
ideale. Se utilizeaz apoi aceeai procedur ca n cazul segmentrii pieei;
Analiza ciclului de via al produsului. Analiznd percepiile respondenilor
n diferite momente, analitii de marketing pot fi capabili s asocieze mutaiile
intervenite la nivelul unor dimensiuni cu evoluia cotei de pia. n felul acesta
se delimiteaza un nou concept al evalurii ciclului de via;
Indicatori i noiuni asociate scalrii multidimensionale
o Judeci comparative (similarity judgments): sunt evaluri ale similaritii
fcute pentru toate perechile posibile de stimuli (mrci) folosind o scal de tip
Likert;

o Ierarhizarea preferinelor (preference ranking): reprezint ordonri ale


stimulilor (mrcilor) de la cel mai mult preferat la cel mai puin preferat.
Aceste rspunsuri sunt obinute, n mod obinuit, de la respondeni;
o Stress (stress): reprezint o msur a lipsei de potrivire, un fel de eroare de
ajustare; valori mai mari ale stress-ului indic o calitate mai sczut a
modelului;
o R2 (R-square): este ptratul indexului de corelaie i indic proporia variaiei
datelor scalate, explicat prin procedura de scalare multidimensional aleas.
Este un indicator de msurare a calitii ajustrii (goodness-of-fit);
o Harta spaial (spatial map): Relaiile percepute dintre stimuli (mrci) sunt
reprezentate ca relaii geometrice ntre puncte ntr-un spaiu multidimensional
denumit hart spaial;
o Coordonatele (coordinates): indic poziionarea stimulilor (mrcilor) pe harta
spaial;
o Desfurarea (unfolding): reprezentarea att a stimulilor (mrcilor) ct i a
respondenilor ca puncte pe aceeai hart spaial poart denumirea de
desfurare.
Etapele realizrii scalrii multidimensionale (SMD)
Realizarea acestui tip de analiz presupune ca cercettorul s nceap cu o
atent formulare a problemei de scalare multidimensional, dat fiind faptul c o
varietate de date pot fi introduse n model. Apoi trebuie stabilit forma n care
s fie obinute rezultatele i aleas o procedur pentru analiza acestora. Un pas
important al SMD este determinarea dimensiunilor hrii spaiale urmat de
denumirea acestora i interpetarea configuraiei derivate. n final, cercettorul
trebuie s evalueze calitatea rezultatelor obinute.
Etapele realizrii scalrii multidimensionale
Formularea problemei
Obinerea datelor de intrare
Alegerea unei proceduri de SMD
Decizia cu privire la numrul dimensiunilor
Denumirea dimensiunilor i interpretarea configuraiei
Verificarea ncrederii i validitii

Formularea problemei
n formularea problemei cercettorul trebuie s porneasc de la scopul utilizrii
SMD
(la ce vor servi rezultatele obinute) i s selecteze mrcile sau ali stimuli care
vor fi inclui n analiz. Numrul i caracteristicile stimulilor inclui n analiz
vor determina natura dimensiunilor i a configuraiilor rezultate. Ca valoare
minim, este nevoie de cel puin 8 stimuli pentru a obine o hart spaial bine
definit. Pe de alt parte, evaluarea a mai mult de 25 de stimuli nu este
recomandat deoarece genereaz oboseal i plictisete respondenii.
Nu doar numrul stimulilor ci i natura acestora i va pune amprenta asupra
dimensiunilor de scalare. De exemplu, neincluderea n analiz a mrcilor de
autoturisme de lux va face ca o dimensiune asociat acestui aspect s lipseasc
din modelul SMD. La fel ca i n cazul celorlalte metode de analiz
multivariat, formularea problemei (cu deosebire alegerea numrului i naturii
stimulilor) trebuie s fie fcut lund n considerare specificitatea problemei de
marketing, studiile anterioare, teoria, respectiv s se bazeze pe raionamentul
cercettorului.
Obinerea datelor de intrare
Abordrile privind metoda scalrii multidimensionale sub aspectul obinerii
datelor difer de la un autor la altul. Majoritatea este de acord cu faptul c
aceast tehnic studiaz similitudinile i diferenierile dintre obiecte, pornind
de la date nebazate pe atribute predefinite.
a) Abordarea bazat pe studiul similaritilor i preferinelor are la baz
cunoaterea gradului de similitudine dintre stimuli produse (mrci), precum i
pe preferina relativ fa de acestea. Scopul unei astfel de metode este
identificarea dimensiunilor n funcie de care sunt percepute produsele i
reprezentarea grafic a acestora.
Datele privind asemnrile reflect gradul de apropiere dintre doi stimuli din
punctul de vedere al respondentului. n acest caz criteriul dup care se fac
evalurile nu este specificat. Numrul de perechi care sunt supuse comparaiei
este N(N-1)/2, unde N este numrul total de produse.
Gradul de precizie al tehnicii folosite const n capacitatea acesteia de a gsi
cel mai mic numr de dimensiuni, pentru care exist o concordan ntre

valorile datelor de intrare i distanele dintre obiecte la nivelul spaiului


perceptual. De obicei se pornete cu dou dimensiuni, iar dac acest nivel de
concordan nu este atins se continu cu adugarea unei noi dimensiuni.
Interpretarea dimensiunilor rezultate are la baz informaii suplimentare care
justific oarecum de ce produsele sunt situate ntr-o anumit zon a spaiului
perceptual.
Datele privind preferinele sunt colectate prin solicitarea fiecrui respondent
de a ordona (acordnd ranguri) produsele (stimulii) n funcie de preferine.
Utilizarea acestor date introduce n analiz o perspectiv important. Astfel se
poate uneori constata c percepiile indivizilor asupra obiectelor sunt diferite n
contextul preferinelor comparativ cu cel al asemnrilor sau al abordrii
bazate pe atribute. O dimensiune poate fi foarte util n descrierea diferenelor
dintre dou produse, dar nu poate avea nici o influen n determinarea
preferinei. Astfel dou produse pot fi foarte deprtate ntr-o hart perceptual
bazat pe asemnri, dar pot fi foarte apropiate n una bazat pe reprezentarea
preferinelor. Analistul trebuie s considere o astfel de posibilitate n alegerea
abordrii celei mai potrivite.
n vederea colectrii datelor referitoare la preferine se folosesc dou
modaliti:
-

determinarea preferinei printre produsele existente, unul dintre acestea

identificndu-se cu cel ideal


- compararea explicit a produselor existente cu cel ideal.
Procedura necesit utilizarea n analiz a N+1 stimuli, N produse existente la
care se adaug produsului ideal. Algoritmul de lucru este similar cu cel de
analiz a asemnrilor, singura diferen apare la nivelul interpretrii
rezultatelor. Principala dificultate n cazul acestei abordri vizeaz abilitatea
respondenilor de a conceptualiza punctul ideal i de a menine acelai cadru de
referin pentru toi subiecii. De asemenea, instabilitatea punctelor de referin
se poate datora faptului c subiecii trec de la date de msurare a asemnrilor
la date de evaluare a preferinelor.
b) Abordarea bazat pe atribute pleac de la premisa c se pot identifica
atributele pe care se fundamenteaz percepiile individului cu privire la
obiectul studiat. Dup generarea atributelor, acestea sunt combinate n dou sau

mai multe dimensiuni sau factori. Pentru aceasta se folosesc drept metode
analiza factorial i analiza discriminantului. n urma analizei factoriale,
atributele sunt reprezentate ca vectori a cror direcie indic factorul cu care
este asociat, iar lungimea indic intensitatea acestei asocieri. Scopul analizei
discriminante este generarea dimensiunilor care diferenieaz obiectele ct mai
mult posibil, fiecare dimensiune fiind bazat pe o combinaie de atribute. De
asemenea, prin aceast metod se poate realiza o testare a semnificaiei
statistice. Ipoteza nul const n faptul c cele dou obiecte sunt percepute
identic. Testul va determina probabilitatea ca distana dintre obiecte s fie
evaluat de o eroare statistic.
Att analiza factorial, ct i cea discriminant ignor importana relativ a
atributelor individuale pentru consumatori. Pentru aceasta se sugereaz ca
datele privitoare la atribute s fie nmulite cu coeficieni de importan i apoi
s fie supuse unei analize factoriale.
Abordarea bazat pe atribute are avantajul c ele dobndesc valoare
operaional, dimensiunile putnd fi interpretate n termenii corelaiei cu
acestea. Cele mai importante dezavantaje se refer la faptul c:
-

lipsa de precizie a atributelor i caracterul lor incomplet pot afecta

rezultatele;
- generarea listei atributelor poate fi dificil, mai ales atunci cnd sunt luate n
considerare diferenierile posibile dintre percepiile oamenilor;
-

indivizii nu pot evalua sau percepe ntotdeauna obiectele n termenii

atributelor fundamentale.
Alegerea unei proceduri de SMD
Exist mai multe tipuri de proceduri de scalare multidimensional. n
concordan cu acest lucru este folositoare prezentarea unor concepte care vor
sta la baza descrierii metodologiei:
1. Clasa de entiti: respondeni, mrci, ocazii de cumprare, atribute ale unui
obiect;
2. Modul de aranjare a entitilor;
3. Tipul modelului geometric model bazat pe distane n comparaie cu
modelul bazat pe o combinaie de puncte i vectori;
4. Numrul de seturi de puncte sau vectori;

5. Tipuri de scal n care sunt msurate datele de intrare.


n funcie clasa de entiti i modul de aranjare a lor, tehnicile scalrii
multidimensionale pot fi:
a) cu o singur clas de entiti i dou ci de aranjare a datelor, ilustrat prin
matrici ptratice i simetrice, ce conduc la spaii simple, constnd din
reprezentarea unui singur set de N puncte.
b) cu dou clase de entiti ce genereaz spaii asociate, n care sunt
reprezentate dou seturi diferite de puncte (mrci i atribute).
Cea mai important modalitate de clasificare a tehnicilor aferente scalrii
multidimensionale este tipul datelor de intrare. n funcie de acestea, metodele
de scalare multidimensional pot fi metrice sau nemetrice. Prima dintre acestea
pornete de la presupunerea c datele de intrare sunt msurate fie printr-o scar
interval, fie prin una proporional, n timp ce modelul nemetric cere ca datele
de intrare s fie sub forma rangurilor (date ordinale). Modelul nemetric are mai
puine restricii dect cel metric, dar este mai puin riguros.
Scalarea multidimensional nemetric
Scalarea multidimensional nemetric folosete date relativ simple, judeci
comparative i preferine privind produsele i urmrete s descopere atributele
care stau la baza acestor judeci.
Un important obiectiv al acestui tip de analiz este metrizarea datelor
nemetrice.
Programele informatice aplic transformri monotone asupra datelor originale
pentru a fi permise operaii aritmetice asupra rangurilor ce msoar gradul de
apropiere dintre mrci. Transformrile monotone ale datelor care sunt ct mai
apropiate posibil de distanele iniiale sunt numite dispariti. Acestea sunt
folosite pentru evaluarea gradului de concordan cu reprezentrile din spaiul
redus1. Cea mai rspndit abordare a scalrii multidimensionale nemetrice
este transformarea monoton a celor mai mici ptrate, aparinnd lui Kruska.
Aceasta are n vedere obinerea disparitilor care s genereze distane n
spaiul perceptual ct mai apropiate de relaia ordinal existent la nivelul
datelor de intrare.
Transformarea monoton a celor mai mici ptrate urmrete nlocuirea a dou
valori ce nu sunt n ordine cresctoare cu media aritmetic simpl dintre ele (se

folosesc simbolurile DA sau NU pentru a exprima compatibilitatea datelor).


Atunci cnd dou date succesive nu sunt compatibile ele se nlocuiesc cu media
dintre ele.
Pornind de la acestea se calculeaz distanele euclidiene derivate dintre mrci,
aa cum vor aprea ele n spaiul perceptual
Tehnicile scalrii multidimensionale nemetrice sunt utile n primul rnd la
construirea spaiului perceptual al produsului, plecnd de la date ordinale, n
condiiile n care nu sunt cunoscute n prealabil dimensiunile semnificative. n
felul acesta se pot cunoate atributele care sunt cele mai importante pentru
comportamentul decizional al cumprtorului, se poate cunoate modul n care
s-a modificat poziia produsului n spaiul percepiilor acestuia, se pot stabili
modificrile care trebuie aduse produsului sau strategiei de marketing.
Scalarea multidimensional metric
Se caracterizeaz prin faptul c datele de intrare sunt msurate pe o scal
interval sau proporional. Dup calcularea scorului mediu pentru fiecare
pereche de mrci, acestea se trec ntr-o semimatrice care va servi ulterior la
calcularea distanelor din spaiul perceptua.
Numirea dimensiunilor este subiectiv, implicnd cercetarea poziiei relative a
obiectelor de-a lungul fiecrei dimensiuni i deducerea celei care este cea mai
probabil pe baza cunotinelor anterioare despre mrcile
Tehnicile scalrii multidimensionale nemetrice au dobndit o extindere mai
mare datorit faptului c datele de intrare sunt mai uor de obinut, iar precizia
le-a fost mbuntit prin utilizarea unor algoritmi de metrizare. Cu toate
acestea este recomandat ca n situaia unui numr mai mare de date de intrare
s se foloseasc adiional i tehnicile nemetrice pentru validarea rezultatelor.
Decizia cu privire la numrul dimensiunilor
Obiectivul n SMD este obinerea unei hri spaiale care se potriveste datelor
de intrare n cel mai mic posibil numar de dimensiuni. Totui, hrile spaiale
sunt realizate intr-un asemenea mod ncat rezultatele se imbuntesc pe
msur ce numrul dimensiunilor crete. Cu toate acestea, trebuie ajuns la un
compromis pentru c un numr prea mare de dimensiuni scade gradul de
interpretare i posibilitile de utilizare a rezultatelor.

Pentru a putea lua o decizie cu privire la numrul dimensiunilor se poate apela


la:
1. cunotinele disponibile. Teoria sau cercetrile anterioare pot sugera un
anumit numr de dimensiuni;
2. limitele interpretrii i utilizrii hrii spaiale. n general este dificil de
interpretat configuraii sau hri bazate pe mai mult de trei dimensiuni;
3. criteriul cotului. Se recomand reprezentarea grafic a numrului de
dimensiuni i a stress-ului asociat. Punctele de pe acest grafic au de obicei o
configuraie convex. Punctul n care curba formeaz un cot indic numrul
optim de dimensiuni
Denumirea dimensiunilor i interpretarea configuraiei
Odat construit harta spaial, este necesar ca aceasta s fie etichetat i, pe
aceast baz, interpretat. Definirea denumirii dimensiunilor rmne la
latitudinea cercettorului. Cu toate acestea, exist cteva linii de ghidare n
realizarea acestei sarcini:
1. chiar dac au fost folosite judecile comparative, pot fi obinute evaluri ale
mrcilor pentru anumite atribute furnizate de ctre cercettor. Folosind metode
statistice ca regresia, aceti vectori ai atributelor pot fi ncadrai n harta
spaial. n felul acesta axele pot fi denumite n funcie de atributele care sunt
cele mai apropiate;
2. dup ce au furnizat rspunsuri privind comparaiile directe sau preferinele,
respondenii pot fi rugai s redea criteriile pe care le-au folosit n evalurile
lor. Aceste criterii pot fi, apoi, alturate subiectiv hrii spaiale pentru a
denumi dimensiunile;
3. dac este posibil, respondenilor li se arat hrile spaiale care au rezultat n
urma rspunsurilor date de ei i sunt rugai s denumeasc ei dimensiunile;
4. dac dispunem de caracteristici obiective (fizice) cu privire la mrci, (ex. Cai
putere sau consmum la 100 km pentru automobile), ele pot fi folosite ca un
ajutor n interpretarea dimensiunilor subiective ale hrilor spaiale.
Verificarea ncrederii i validitii
Datele de intrare i soluiile SMD sunt supuse unei importante variabiliti
aleatoare.

Din acest motiv devin necesare o serie de evaluri cu privire la ncrederea i


validitatea soluiilor SMD. Cercettorul poate face apel la:
1. analiza indicelui R2. Pentru valori mai mari de 0,6 se consider c modelul
de SMD ajusteaz n mod acceptabil sau mai bine datele de intrare;
2. analiza stress-ului. n timp ce R2 este o msura a calitii ajustrii, stress-ul
msoar abaterile modelului de SMD de la datele de intrare. Valorile stressului variaz n funcie de procedura de SMD i de datele care sunt analizate.
3. mprirea eantionului n dou sau mai multe pri i realizarea SMD pe
total eantion i pe subeantioane, urmat de compararea rezultatelor;
4. eliminarea selectiv a stimulilor din datele de intrare, realizarea SMD pe
datele rmase i compararea rezultatelor;
5. adugarea unei erori aleatoare la datele de intrare, realizarea SMD pe noile
date i compararea rezultatelor; consumatorului, de preferinele acestuia i de
punctul ideal situat n spaiul unuianumit produs. De asemenea strategia
poziionrii este util n stabilirea poziiei i atitudinii fa de concuren. n
acest scop, firma trebuie s urmreasc situarea produselor sale ntr-un spaiu
liber al cmpului concurenial.
Unii autori definesc poziionarea ca o strategie de marketing susceptibil a
remedia consecinele aglomerrii pieei, n timp ce alii o asimileaz
reprezentrii grafice a opiniilor consumatorilor despre atributele procesului

Modulul III
Metode explicative de analiz a datelor
3.1 Analiza multivariat a variaiei ANOVA
Frecvent utilizat pentru evaluarea legturilor de dependen dintre
variabile, datorit aplicrii ei simple i rapide, metoda analizei variaiei a fost
construit n jurul celui mai utilizat indicator de tendin central, media. Cu
ajutorul acestei metode este analizat efectul uneia sau al mai multor variabile
nominale sau ordinale asupra unei variabile cantitative. n cercetrile de
marketing, analiza variaiei este folosit adesea pentru identificarea diferenelor
dintre grupuri sau segmente aducndu-i aportul, n mod deosebit, n realizarea
experimentelor de marketing.
Fundamente
Analiza multivariat a variaiei cuprinde un grup de metode aparinnd
statisticii infereniale (deductive) care permit separarea i testarea semnificaiei
efectelor cauzate de aciunea simultan a mai multor factori asupra unei
variabile.
Analiza variaiei (ANOVA) i analiza covariaiei (ANCOVA) sunt
folosite pentru a examina diferenele dintre valorile medii ale variabilei
dependente sub efectul unor variabile independente controlate, dup izolarea
efectului unor variabile independente necontrolate. n esen, ANOVA este
folosit pentru a testa diferenele dintre mediile a dou sau mai multe grupuri
(populaii). Mai precis, analiza variaiei testeaz ipoteza nul conform creia nu
exist diferene ntre medii (altfel spus, toate mediile ar fi egale ntre ele).
n forma cea mai simpl, analiza variaiei necesit o variabil
dependent msurat pe o scal metric (interval sau proporional) i una sau
mai multe variabile independente msurate pe o scal nemetric (nominal sau
ordinal). Aceste variabile independente de tip categorial sunt denumite, de
obicei, factori. Modul n care nivelurile (categoriile) factorilor acioneaz
asupra variabilei dependente poart denumirea de tratament.

Procedurile de analiz a variaiei au la baz acelai principiu dar se


difereniaz prin numrul de factori. Vom distinge situaiile n care este
analizat o singur variabil dependent cu un factor (one-way analysis of
variance) sau analiza variaiei cu n-factori (n-way analysis of variance).
Aplicaii n marketing ale analizei variaiei
Analiza variaiei este utilizat n mod deosebit n experimentele de
marketing, cnd se evalueaz influena unor variabile independente asupra
altora, tratate ca dependente. Mult mai frecvent ns cercettorii urmresc s
analizeze, n studii pe care le realizeaz, diferenele dintre valorile medii ale
unei variabile

dependente pe care le ia la nivelul mai multor categorii ale

uneia sau mai multor variabile independente (factori) pentru a putea


concluziona dac exist sau nu diferene ntre grupurile respective. Mai precis,
analiza variaiei poate furniza rspunsuri la ntrebri precum:
exist diferene n privina duratei totale lunare a convorbirilor telefonice ntre
persoanele din diferite regiuni ale rii sau pe categorii de educaie i venit?
care sunt diferenele n privina inteniilor de cumprare la diferite niveluri ale
preurilor unui produs?
percepiile privind diversitatea ofertei (categorii), interaciunea cu vnztorii
(da/nu) i modul n care au fost rezolvate plngerile (categorii) i pun
amprenta asupra satisfaciei clienilor?
consumul de cafea este influenat de vrst (categorii) i educaie (categorii)?
Indicatori i noiuni asociate analizei variaiei (cu un factor)
Variaia dintre grupuri (between variation) sau SSE ntre-grupuri
reprezint variaia variabilei dependente corespunztoare variaiei mediei pe
categoriile variabilei independente. Ea reprezint partea din suma ptratelor
aferent variabilei independente;
Variaia din interiorul grupurilor (within variation): notat, de obicei cu
SSR (sau SSin-interior sau SSeroare) reprezint variaia variabilei dependente
datorat variaiei n interiorul fiecrei categorii a variabilei independente.
Aceast variaie nu este generat de variabila independent;
Variaia total (total variation): notat, de obicei cu SST (sau SStotal)
reprezint variaia variabilei dependente corespunztoare variaiei mediei pe
categoriile variabilei independente. Variaia total a variabilei dependente

(SST) este format din variaia explicat de variabila independent (SSE sau
SSntre-grupuri) i variaia rezidual (SSR sau SSin-interior).
Media ptrat (mean square): este suma ptratelor mprit la numrul
gradelor de libertate;
testul F (F statistic): verific ipoteza nul

c mediile categoriilor

variabilei independente pentru variabila dependent sunt egale; se calculeaz ca


raport ntre variana dintre grupe si variana din grupe.
Testarea semnificaiei statistice
Verificarea ipotezei nul (H0) confom creia mediile variabilei
dependente n cazul fiecrui grup (categorie) a variabilei independente sunt
egale se face cu ajutorul testului F. Programele informatice l calculeaz n mod
automat dar, din considerente de informare, menionm c el se calculeaz ca
raport ntre variaia pus pe seama variabilei independente i ajustat cu
numrul gradelor de libertate aferente (SSE/(k-1)) i variaia corespondent
erorii ajustat i ea cu numrul gradelor de libertate diferen (SSR/(n-k)).
Interpretarea testului F poate fi fcut absolut, prin compararea cu valorile
tabelate sau prin prisma nivelului de semnificaie asociat, pe care majoritatea
programelor informatice de analiz statistic l calculeaz. Un nivel de
semnificaie sub 0,05 (aferent unei probabiliti peste 95%) permite respingerea
ipotezei nule a egalitii mediilor.
n situaia n care ipoteza nul a egalitii mediilor grupurilor a fost
acceptat, variabila independent nu are un efect semnificativ asupra variabilei
dependente. n caz contrar, prin neacceptarea ipotezei nule se poate
concluziona c grupurile difer ntre ele din punct de vedere al caracteristicii
studiate (variabila dependent) i c variabila independent exercit un efect
semnificativ asupra celei dependente.
Mergnd mai departe, o comparare a mediilor la nivelul grupurilor va da
informaii legate de natura efectului variabilei independente.
Analiza variaiei cu n-factori
Acest tip de analiz se aplic n situaia n care exist o variabil
dependent i mai muli (n) factori (variabile independente). Faptul c exist o
aciune simultan a mai multor factori aduce n discuie efectul generat de
fiecare dintre factori i cel produs de interaciunile dintre ei.

Procedura de aplicare a analizei variaiei cu n-factori este similar cu


cea n care avem un singur factor, dar modul de descompunere a variaiei este
unul adaptat. Pentru modelul cel mai simplu, cu 2 factori (X1 i X2) variaia
total se descompune astfel:
SST=SSE1+SSE2+SSE12+SSR
Un efect mai puternic al variabilei X1 va fi reflectat printr-o diferen
mai mare ntre medii la nivelul categoriilor acestei variabile i sum a
ptratelor SSE1 mai mare, i la fel n cazul celeilalte variabile independente. Pe
de alt parte, cu ct exist o interaciune mai mare ntre factorii X1 i X2 cu
att contribuia comun la explicarea variaiei (ca rezultat al acestei
interaciuni) va fi mai mare (relaia funcioneaz i n sens invers, artnd c o
o valoare mic a SSE12 arat o independen ntre cei doi factori (din acest
punct de vedere).
Testul F va ajuta, de data aceasta, la calcularea nu numai a efectului
principal al fiecrui factor ci va fi calculat cte un indicator att pentru
evaluarea efectului interaciunii ct i pentru a testa semnificaia statistic a
ntregului model, deci efectul global al tuturor tratamentelor (factori,individual
+ interaciunea dintre ele).

3.2 Analiza regresional simpl

Analiza regresiei bivariat este un procedeu statistic adecvat analizei


relaiei dintre dou variabile atunci cnd una este considerat variabil
dependent, iar cealalt variabil independent. De exemplu, am putea fi
interesai de analizarea relaiei dintre vnzri (variabil dependent) i
cheltuieli de publicitate (variabil independent). Dac relaia dintre acestea
poate fi estimat prin analiza regresiei, cercettorul poate previziona vnzrile
pentru diferite niveluri de cheltuieli publicitare.
Pentru a studia relaia dintre variabilele dependente i independente,
datele pot fi reprezentate ntr-o diagram. Variabila dependent Y este
reprezentat pe axa vertical, iar variabila independent X este reprezentat pe
axa orizontal. Prin examinarea diagramei putem determina dac relaia dintre
cele dou variabile (dac ea exist) este liniar sau curb, parabolic.

Metoda celor mai mici ptrate


Metoda celor mai mici ptrate este cea mai simpl metod matematic
care poate fi folosit pentru determinarea unei funcii liniare pentru X i Y,
care s reprezinte legtura dintre cele dou variabile. Nici o linie dreapt nu
poate reprezenta perfect fiecare observaie de pe diagram.
Metoda celor mai mici ptrate conduce la determinarea unei drepte care
s corespund cel mai bine observaiilor actuale (punctelor). Altfel spus, suma
ptratelor deviaiilor de la linie (ptratul diferenelor dintre puncte i linie) va fi
mai mic dect pentru oricare alt linie care poate s corespund observaiilor.
Ecuaia general pentru linie este Y
^

pentru analiza regresiei este

a bX . Ecuaia estimativ

a bX

unde Y= variabila dependent


^

a = parametrul funciei regresiei liniare estimate (Y)


^

b = coeficientul de regresie
X= variabila independent
e = eroarea diferena dintre valoarea actual i valoarea estimat prin
linia regresiei
^

Valorile parametrilor a i b se pot calcula astfel:


^

X i Yi

nXY

X i2

n(X ) 2

bX

unde X = media valorii lui X

Y = media valorii lui Y


n = mrimea eantionului (numrul unitilor din eantion)
^

Estimnd valorile pentru Y pe baza calculului valorilor a , b i a


^

erorilor pentru fiecare observaie ( Y - Y ) se va putea trasa linia regresiei.

Pute
Funcia regresiei estimat descrie natura relaiei dintre X i Y. n plus,
ne intereseaz puterea relaiei dintre X i Y. Coeficientul determinrii, R 2 , este
msura puterii relaiei liniare dintre cele dou variabile. Coeficientul
determinrii msoar procentul variaiei totale a lui Y care se explic prin

variaia lui X. Acest coeficient variaz ntre 0 i 1. Dac exist o relaie perfect
liniar ntre X i Y atunci toate variaiile lui Y se explic prin variaiile lui X i

R 2 este 1. La cealalt extrem, dac nu exist nici o relaie ntre X i Y, atunci


nici una din variaiile lui Y nu se explic prin variaia lui X i coeficientul
determinrii este 0.
variatia explicata
variatia totala

R2

variaia explicat = variaia total variaia neexplicat


R2

variatia totala - variatia neexplicat a


variatia totala

variatia neexplicat a
variatia totala

R2

(Yi

Yi ) 2

(Yi

Y )2

i 1
n

i 1

Dac, de exemplu, R 2

0,80 , 80% din variaia lui Y se explic prin

variaia lui X, nsemnnd c exist o relaie liniar puternic ntre X i Y.

Sem
n calcularea coeficientului determinrii ( R 2 ), variaia total a lui Y a
fost mprit n dou componente de sume a ptratelor:
Variaia total = Variaia explicat +Variaia neexplicat
Variaia total este o msur a variaiei valorilor observate a lui Y n
jurul mediei lor. Msoar variaia valorilor lui Y fr a lua n considerare
valorile lui X.
Variaia total, cunoscut sub denumirea de suma total a ptratelor
(total sum of squares SST) este dat de relaia:
n
n

SST

Yi 2

(Yi

Y )2

i 1

Yi 2

(i

i 1

Variaia explicat sau suma ptratelor conform regresiei (sum of


squares due to regression SSR) este dat de relaia:
n
n

SSR

(Y i Y )
i 1

n
2

Yi
i 1

Yi

X i Yi
i 1

i 1

)2

Dac Yi

Y i pentru fiecare valoare a lui X atunci s-a realizat o potrivire

perfect. Toate valorile observate a lui Y se vor afla atunci pe linia determinat
a regresiei.
Variaia neexplicat sau sumele erorilor ptratelor (error sums of
squares SSE) se obine astfel:
n

SSE

(Yi

Y i )2

i 1

Yi 2

i 1

Yi
i 1

X i Yi
i 1

SSE reprezint diferena rezidual (eroarea) dintre valorile observate i


cele estimate ale lui Y. Dac potrivirea ar fi perfect, atunci SSE ar fi egal cu 0.

3.3 Analiza regresiei multiple


Analiza regresiei multiple este o tehnic care se folosete atunci cnd
cercettorul dorete s examineze relaia dintre dou sau mai multe variabile
metrice independente i o variabil metric dependent. Acest procedeu
reprezint o extindere a regresiei bivariabile. Aici ns, n locul determinrii
unei drepte ntr-un spaiu bidimensional, se determin un plan potrivit
observaiilor constatate ntr-un spaiu multidimensional. Rezultatul obinut i
interpretarea regresiei multiple sunt aceleai ca i n cazul regresiei bivariabile.
Ecuaia general pentru regresia multipl este urmtoarea:
Y

a b1 X 1

unde

b2 X 2

b3 X 3

... bn X n

Y = variabila dependent

a = constanta estimat
b1 n = coeficieni asociai cu variabilele independente, astfel nct o

modificare cu o unitate a lui X va nsemna o modificare cu b1 uniti a lui Y;


valorile coeficienilor sunt estimate din analiza regresiei
X 1 n = variabilele independente care influeneaz variabila dependent

De exemplu, considerm urmtoarea ecuaie a regresiei (de notat c


valorile a, b1 si b2 au fost estimate prin medii ale analizei regresiei):
^

200 17 X 1

22 X 2

unde Y = vnzri estimate n uniti


X 1 = cheltuieli de publicitate

X 2 = numrul vnztorilor
Aceast ecuaie indic faptul c vnzrile cresc cu 17 uniti pentru fiecare
unitate monetar cheltuit n plus pentru publicitate i cu 22 uniti datorit
creterii cu o unitate a numrului vnztorilor.
Exist multe aplicaii posibile ale analizei regresiei multiple n
cercetarea de marketing, ca de exemplu:
-

Estimarea efectelor diferitelor variabile ale mixului de marketing asupra


vnzrilor sau cotei de pia;

Estimarea relaiei dintre diferii factori demografici i psihosociali i


frecvenei vizitelor la un restaurant sau alt afacere din domeniul
serviciilor;

Cuantificarea relaiei dintre diferite variabile de clasificare, cum ar fi


vrsta i venitul, i respectiv atitudinea fa de un anumit produs sau
serviciu;

Determinarea variabilelor care previzioneaz vnzrile dintr-un produs


sau serviciu particular.
Astfel, analiza regresiei multiple poate servi urmtoarelor scopuri:

previzionarea nivelului variabilei dependente pe baza nivelurilor date ale


variabilelor

independente

sau

nelegerea

relaiei

dintre

variabilele

independente i variabila dependent.


n cazul regresiei bivariabile am fcut referire la coeficientul
determinrii, R 2 , care msoar procentul variaiei variabilei dependente care se
explic prin variaiile variabilelor independente. Acest coeficient poate lua
valori cuprinse ntre 0 i 1. Dac, de exemplu, acesta are valoarea 0,75
nseamn c 75% din variaia variabilei dependente se explic prin variaia
variabilelor independente. Frecvent, variabilele sunt adugate unui model de
regresie pentru a vedea care sunt efectele lor asupra valorii lui R 2 .
Valorile lui b, sau coeficienii de regresie, indic efectul fiecrei
variabile independente asupra variabilei dependente.
Trebuie s fim ateni la unele probleme care pot apare n utilizarea i
interpretarea rezultatelor analizei regresiei multiple. Aceste probleme sunt
urmtoarele:
Coliniaritatea. Una dintre presupunerile analizei regresiei multiple este

faptul c variabilele independente nu sunt corelate unele cu altele. Dac


variabilele independente sunt corelate, atunci valorile estimate ale lui b
(coeficienii de regresie) nu vor fi fondai i constani. Atunci cnd scopul
analizei este de a determina maniera n care fiecare variabil independent
influeneaz variabila dependent, faptul c valorile lui b sunt nefondate
datorit coliniaritii, este o problem serioas.
Cea mai simpl modalitate de a verifica coliniaritatea este de a examina
matricea corelaiilor dintre fiecare variabil. Trebuie s urmrim corelaii ntre
variabilele independente de 0,3 sau mai mari. Dac exist corelaii cu aceast
magnitudine, atunci cercettorul trebuie s caute distorsiuni ale valorilor lui b.
O modalitate de a face acest lucru este de a pune n practic regresia cu una sau
mai multe variabile coliniare i cu fiecare separat. Valorile lui b trebuie s fie
similare n aceste dou situaii.
Exist cteva strategii de a face fa coliniaritii. Prima const n faptul
c, dac dou variabile sunt puternic corelate una cu cealalt, se poate renuna
la una dintre acestea. A doua, se refer la faptul c aceste variabile pot fi
combinate astfel nct s formeze o nou variabil independent.
Cauzalitatea. Dei analiza regresiei poate arta c variabilele sunt
asociate sau corelate unele cu altele, nu se poate dovedi cauzalitatea. Relaiile
cauzale nu pot fi confirmate dect prin alte mijloace. Trebuie dezvoltat o baz
puternic logic i teoretic, care s sprijine ideea c exist o relaie cauzal
ntre variabilele independente i variabila dependent. Totui, chiar i o baz
logic puternic cuplat cu rezultate statistice care s demonstreze corelaia
sunt numai indicatori ai cauzalitii.
Scalarea coeficienilor. Magnitudinea coeficienilor de regresie
asociai diverselor variabile independente poate fi comparat direct numai dac
aceti coeficieni sunt exprimai n aceleai uniti de msur sau dac datele au
fost standardizate. Acest lucru este ilustrat n urmtorul exemplu:
^

50 20 X 1

20 X 2

unde

Y = volumul estimat al vnzrilor


X 1 = cheltuieli de publicitate n milioane

lei

X 2 = numr de vnztori

La o prim examinare ar rezulta c un leu cheltuit pentru publicitate i un


vnztor adiional ar avea acelai efect asupra vnzrilor. Totui, acest lucru
este fals, pentru c X 1 i X 2 au uniti de msur diferite. Standardizarea se
realizeaz prin extragerea fiecrui numr din serie, scderea mediei seriei din
acest numr i mprirea rezultatului la deviaia standard a seriei. Formula
pentru acest proces este urmtoarea:

Xi

unde

X i = numrul individual dintr-o serie de numere

X = media seriei
= deviaia standard a seriei
Mrimea eantionului. Valoarea lui

R 2 este influenat de

numrul variabilelor independente relative la mrimea eantionului. S-au


propus diferite reguli i s-a sugerat c numrul observaiilor ar trebui s fie de
cel puin 10 sau 15 ori mai mare dect numrul variabilelor independente.
Aceasta nseamn c n exemplul anterior (volumul vnzrilor este o funcie de
cheltuieli de publicitate i numr de vnztori), cu dou variabile independente,
sunt necesare minim 20 sau 30 de observaii.

3.4 Analiza discriminant


Analiza discriminant este o metoda ce face parte din grupa metodelor
explicative de analiz a datelor. Ea utilizeaz o variabil de explicat (Y) i mai
multe variabile explicative X 1 , X 2 ,..., X p cantitative sau binare.
Problema de rezolvat

poate fi formulat astfel: fiind dat o variabil de

explicat (Y) avnd k stri i p variabile explicative X 1 , X 2 ,..., X p , trebuie


gsit una sau mai multe
p

Z
i 1

combinaii liniare de variabile


ai X i explicative de forma

difereniind cel mai bine cele k grupe formate prin raportare la strile variabilei
de explicat (Y). Procedeul de rezolvare este fundamentat pe faptul c matricea
de varian-covarin total T, poate fi descompus n dou pri:
matricea de varian-covarian ntre grupe (B);
matricea de varian-covarian din interiorul grupelor (W), determinat
ca o sum de k matrici, fiecare matrice fiind cea de varian-covarian
din cadrul grupei.
T=B+W
Mai nti trebuie studiat puterea de discriminare a fiecrei variabile utiliznd
analiza varianei. Avnd ecuaia de descompunere a varianei totale pentru o
variabil X i , respectiv:
k

Nh

X ijh

Xi

h 1 j 1

N h X ih
h 1

Xi

Nh

X ijh

X ih

h 1 j 1

Variana total = Variana dintre grupe + Variana din grupe


Pentru msurarea puterii de discriminare a variabilei X i , se utilizeaz raportul
de determinaie
r 2 ( X i ,Y )

Variatia int regrupe


Variatiatotala

Cu ct acest raport tinde la 1 cu att puterea de discriminare a variabilei X i este


mai mare. Variabila Fisher F, unde:

Variatiad int regrupe / k 1


Variatiadingrupe / N k

pentru un nivel de semnificaie P

prob F k 1; N

permite

s se precizeze care sunt variabilele semnificativ discriminante.


n ceea ce privete variabilele explicative, acestea nu trebuie s fie corelate
ntre ele sau s fie puin corelate. Dac variabilele explicative iniiale sunt
corelate ntre ele recomand aplicarea n prealabil a analizei componentelor
principale i utilizarea noilor variabile ca variabile explicative.

Problema analizei discriminante const n a cuta o direcie sau mai multe n


care variana total T se descompune n cele dou componente, minimiznd pe
W i maximiznd pe B.
Numrul axelor discriminante (Z) este egal cu min(p;k-1). De asemenea
T 1B

axele discriminante (Z) sunt vectori proprii a matricii

Z1

, iar prima ax

este asociat celei mai mari valori proprii.


Variabilei discriminante Z1

i va corespunde cel mai mare raport de

corelaie R( Z1 , Y ) i este asociat celei mai mari valori proprii. Cea de-a doua
variabil discriminant (Z 2 ) necorelat cu prima variabil cor ( Z1 , Z 2 )

0,

corespunde celei de-a doua valori proprii, iar raportul de corelaie dintre (Z 2 )
i variabila de explicat Y, respectiv

R( Z 2 , Y ) este mai mic dect n cazul

primei variabile discriminante, .a.m.d. Deci variabilele discriminante nu sunt


corelate ntre ele.
Prentru precizarea numrului de variabile discriminante ce trebuie luate n
considerare se folosete un test privind nulitatea ultimelor q rapoarte de
corelaie. Pentru aceasta exist statistica lui Wilks:
k

1 Rm2 Z m , Y

m k q 1

Ipoteza este respins pentru valori mici ale lui

Bartlett i Rao au propus diferite legi de aproximare a distribuiei

care s

permit calcularea nivelului de semnificaie. Astfel Bartlett a considerat c


statistica:
2

n 1

ar putea fi aproximat cu o lege

p q / 2 ln
2

cu q(k-1) grade de libertate. Aceast

aproximare este folosit mai ales n cazul n care numrul de clase k este mai
mare dect 2 sau 3.
Deci statistica lui Wilks msoar puterea global de discriminare a noilor
variabile (axe). Cu ct

nregistreaz o valoare mai mic cu att este mai

mare puterea de discriminare a axelor. Acele variabile (axe) de discriminare


Z m care au o putere de discriminare sczut nu prezint interes pentru a fi

luate n considerare.
Pentru ca axele discriminante (Z) s poat fi interpretate din punctul de
vedere al semnificaiei statistice, trebuie studiat legtura dintre ele i
variabilele explicative. Aceasta poate fi realizat cu ajutorul:
coeficienilor funciilor, care se interpreteaz ca pondere a variabilelor
explicative n formarea axelor;
coeficienii de corelaie dintre axa discriminant i fiecare variabil
explicativ, care vor pune n eviden variabilele cu care sunt cel mai
bine corelate axele discriminante.
Variabilele discriminate sunt utilizate pentru repartizarea unitilor n grupe,
pe baza unei reguli de decizie. Aceast regul de decizie este uor de stabilit
atunci cnd axele discriminante sunt cel mult dou, n celelalte situaii,
elaborarea ei este foarte dificil. ntr-o astfel de situaie se recomand
calcularea probabilitilor de apartenen la diferitele grupe, respectiv:
p h ( x)

Pr ob Y

h / X1

x1 ,..., X p

xp

n ipoteza c vectorul X al variabilelor explicative X 1 , X 2 ,..., X p


lege multi-normal

, )

urmeaz o

pe fiecare subpopulaie (fiecare grup),

probabilitile se determin astfel:


p h ( x)

exp g h ( x)
k

exp g h ( x)
h 1

Variabilele g h (x )

prin g h (x ) , unde:

sunt denumite funcii discriminante i sunt estimate

g h ( x)

Xh

( X 1 , X 2 ,..., X p )

1 ' 1
X hS X h
2

X hS 1X '

S- matricea de varian i covarian din grupe.


Probabilitatea

p h (x ) fiind estimat prin:

exp g h ( x)
k

exp g h ( x)

p h ( x)

h 1

fiecare unitate va putea fi repartizat ntr-o grup i anume n aceea pentru care
se nregistreaz probabilitatea cea mai mare.
Utiliznd aceast regul de decizie optimal se pot repartiza n grupele deja
formate noile uniti pe baza nivelului nregistrat de cele p variabile explicative
X 1 , X 2 ,..., X p . Avnd funciile discriminante estimate se pot calcula valorile

nregistrate de acestea pentru fiecare nou unitate ce trebuie repartizat ntr-o

grup, respectiv g h (x ) .

De asemenea se pot calcula probabilitile estimate p h (x ) , exprimnd ansa

noii uniti de a aparine fiecrei grupe n parte. Noua unitate va fi repartizat


n acea grup pentru care se nregistreaz probabilitatea cea mai mare.
Pentru aprecierea eficienei regulii de decizie stabilit se compar situaia
iniial de repartizare a unitilor n grupe (cea dat) cu situaia rezultat n
urma utilizrii funciilor discriminante, respectiv se construiete aa numita
matrice a confuziilor, de urmtoarea form:
Gruparea iniial

Grupare
dup regul 1

Total

N11

N 12

N 1k

N 1.

N 21

N 22

N 2k

N 2.

N k1

Nk2

.
N kk

.
N k.

Total

N .1

N .2

N .k

Se calculeaz un aa numit ''scor discriminant'' obinut prin raportarea


numrului de uniti ce coincid n ambele grupri la numrul totat de uniti de
grupat, respectiv:

sd

N11

N 22 ... N kk
N

Cu ct acest scor este mai aproape de valoarea 1 cu att gruparea unitilor


folosind funciile discriminante devine mai eficient.
n concluzie analiza discriminant are trei obiective, respectiv:
S determine variabilele explicative care contribuie cel mai mult la
diferenierea claselor definite de variabila de explicat, astfel se
identific ponderea influenei variabilelor explicative n variaia
variabilei de explicat construind mai multe combinaii liniare, alegnd-o
pe cea mai bun.De exemplu, o societate productoare, are informaii
privind distribuitorii si, care sunt mprii n 3 grupe in funcie de
cantitatea pe care o cumpr lunar, astfel: 1-cumpr in cantiti mici,
2-cumpr in cantiti medii, 3- cumpr in cantiti mari. Se impune
identificarea variabilelor ce conduc la aceast difereniere, cum ar fi
cifra de afaceri, mrimea foeei de vnzare, numr de ani de activitate
n acest domeniu etc.
S se construiasc un spaiu discriminant . n cazul analizei
discriminante simpl (Y are dou stri) se determin o ax
discriminant Z care explic apartenena unei uniti la o clas sau alta.
n cazul analizei discriminante multipl se determin mai multe
combinaii liniare independente (axe discriminante) de variabile
explicative i trebuie analizat spaiu determinat de acele axe care separ
cel mai bine unitile studiate, in clasele determinate de strile variabilei
Y. n exemplu prezentat vom avea dou funcii discriminante, dar
trebuie s le cutm pe acelea care repartizeaz ct mai exact unitatile
distribuitoare n cele 3 grupe.

Aprecierea calitii discriminrii de

realizeaz cu ajutorul scorului discriminant (acesta trebuie s fie ct mai


aproape de 1).
S repartizeze la o clas existent unitile ce nu au fost clasate.
Respectiv, cunoscnd nivelul variabilelor explicative i utiliznd
funciile discriminante vor fi repartizate noile uniti in clasele deja
formate. Aceast se poate realiza prin dou procedee: unul determinist,
care repartizeaz unitatea la clasa pentru care distana la centroid este
cea mai mic i unul probabilist, unde se calculeaz probabiliti de
apartenen la diferite clase, unitatea se aloc la clasa care are
probabilitatea cea mai mare. n cazul analizat, o nou unitate de
distribuie va putea fi repartizat intr-o clas din cele trei, n funcie de
nivelul cifrei de afaceri, mrimii forei de vnzare, numrul de ani de
activitate in domeniu. Astfel societatea productoare i va orienta
activitatea

de

marketing

difereniat

funcie

de

posibilul

comportament al noilor uniti n ceea ce privete volumul de produse


ce vor cumprate.
Un alt exemplu clasic de aplicaie de acest tip este ,, credit scoring,, bancar,
unde n funcie de caracteristicile candidatului la un imprumut, se acord sau
nu acesta, n raport cu valoarea unui scor ce permite s se estimeze riscul de
nerembursarea.
Un alt domeniul

de aplicare a analizei discriminante este cel al

comportamentului consumatorului, unde se poate prevedea probabilistic


comportamentul unui individ fa de un anumit produs sau serviciu, n functie
de starea nregistrat de variabilele explicative ce definesc o anumit atitudine.
Analiza discriminantului poate fi folosit pentru a rspunde multor
ntrebri n cercetarea de marketing:
-

Cu ce sunt mai diferii consumatorii unei mrci specifice de ceilali care


nu cumpr marca respectiv?

Cu ce difer consumatorii care arat o probabilitate mare de cumprare


a unui produs nou fa de cei cu o probabilitate redus, din punct de
vedere demografic i a stilului de via?

Cu ce difer consumatorii care frecventeaz un anumit magazin


alimentar fa de ali consumatori care frecventeaz alte magazine
alimentare, din punct de vedere al obiceiurilor, stilului de via?

Bibliografie:
1. Buiga A., Metodologie de sondaj i analiza datelor n studiile de pia,
Presa Universitar Clujean, 2001 (la BCU si la biblioteca
facultatii).
2. Lebart L., Morineau A., Piron M., Statistique exploratoire
multidimensionnelle, Dunod, 1995.
3. Saporta G., Stefanescu V., Analiza datelor & informatica, Ed.
Economica, Bucuresti, 1996.
4. Spircu L., Spircu T., Calciu M., Analiza datelor de marketing, Ed.
ALL, Bucuresti, 1994.
5. Volle M., Analyse des donnees, Ed. Economica, Paris, 1997.

S-ar putea să vă placă și