Sunteți pe pagina 1din 6

Analiza multivariată a variaţiei

Analiza multivariată a variaţiei cuprinde un grup de metode aparţinând statisticii


inferenţiale (deductive), utilizate mai ales pentru analiza datelor provenite din diferite
tipuri de experimente, cu ajutorul cărora se poate face separarea şi testarea
semnificaţiei efectelor cauzate de acţiunea simultană a mai multor factori. Numeroase
tehnici de proiectare a experimentelor permit organizatorilor acestora să controleze
variaţia mai multor variabile independente (factori) şi să estimeze efectele acestei
variaţii asupra variabilelor dependente măsurate în scală metrică.
Numele de “analiză a variaţiei” s-ar putea să conducă la impresia greşită că aceste
tehnici s-ar putea folosi pentru testarea diferenţelor între dispersiile factorilor, nu între
mediile acestora, aşa cum se întâmplă de fapt.
Printre cele mai cunoscute metode cu ajutorul cărora se poate realiza analiza
multivariată a variaţiei se pot menţiona: proiectările factoriale, pătratele latine,
pătratele greco-latine. Indiferent de metoda folosită pentru analiza variaţiei, datele
trebuie să îndeplinească anumite cerinţe.
• În primul rând, se presupune că datele culese provin de la grupuri
experimentale a căror constituire din rândul unor populaţii statistice alcătuite conform
repartiţiei normale s-a făcut după principii aleatoare. Mai precis, trebuie depuse
eforturi pentru ca atât selecţia unităţilor experimentale cât şi aplicarea tratamentelor
experimentale să aibă la bază selecţia aleatoare.
• În al doilea rând, se face presupunerea că setul de date utilizate pentru a calcula
variaţia aleatoare (eroarea experimentală) prezintă aceleaşi posibilităţi de a fi afectate
de variaţia aleatoare întrucât are o abatere standard (şi deci o variaţie) constantă.
• A treia presupunere consideră că variaţia aleatoare este independentă de la o
observaţie la alta.
• În al patrulea rând, se presupune că efectele diferitelor surse ale variaţiei
(efectele factorilor experimentali, efectele de interacţiune între factori şi eroarea
experimentală) sunt aditive şi nu multiplicative. Dacă acest lucru nu ar fi adevărat,
tehnicile utilizate pentru descompunerea variaţiei totale în componentele ei nu ar mai
fi valide.
1• În al cincilea rând, categoriile variabilelor independente se presupune că sunt
fixe. Există însă şi modele de analiză aplicabile unor definiri aleatoare a categoriilor
(de regulă construite ca subşeantioane definite aleator).
• În sfârşit, Cea mai importantă cerinţă este ca factorii să fie exprimaţi în formă
discretă, nu în cea continuă.
Analiza variaţiei
1Malhotra N.K. - Marketing Research: An Applied Orientation, Prentice Hali, EngleWood Cliffs,
1993, p. 522 2
Analiza variaţiei (ANOVA) şi analiza covariaţiei (ANCOVA) sunt folosite pentru a
examina diferenţele dintre valorile medii ale variabilei dependente sub efectul unor
variabile
independente controlate, după izolarea efectului unor variabile independente
necontrolate. În
esenţă, ANOVA este folosită pentru a testa diferenţele dintre mediile a două sau mai
multe
grupuri (populaţii). Mai precis, analiza variaţiei testează ipoteza nulă conform căreia
nu există
diferenţe între medii (altfel spus, toate mediile ar fi egale între ele).
În forma cea mai simplă, analiza variaţiei necesită o variabilă dependentă măsurată pe
o
scală metrică (interval sau proporţională) şi una sau mai multe variabile independente
măsurate
pe o scală nemetrică (nominală sau ordinală). Aceste variabile independente de tip
categorial
sunt denumite, de obicei, factori. Modul în care nivelurile (categoriile) factorilor
acţionează
asupra variabilei dependente poartă denumirea de tratament1.
Procedurile de analiză a variaţiei au la bază acelaşi principiu dar se diferenţiază (şi, ca
urmare primesc denumirea corespunzătoare) prin numărul de factori şi numărul de
variabile
dependente analizate simultan în model. Vom distinge, pe de o parte, situaţiile în care
este
analizată o singură variabilă dependentă, iar în funcţie de numărul de factori putem
realiza
analiza variaţiei cu un factor (one-way analysis of variance) sau analiza variaţiei cu
n-
factori (n-way analysis of variance). Situaţiile în care sunt mai multe variabile
dependente şi
mai mulţi factori analizaţi simultan sunt cunoscute sub denumirea de analizei
multivariată a
variaţiei (MANOVA).
În situaţia în care setul de variabile independente conţine atât variabile nemetrice
(categoriale) cât şi metrice, tehnica poartă denumirea de analiză a covariatiei
(ANCOVA).
Rolul acestei forme a analizei variaţiei este de a izola influenţa unor variabile
independente
(metrice) asupra variabilelor dependente pentru a putea evalua efectul factorilor.
Aplicaţii în marketing ale analizei variaţiei
Indicatori şi noţiuni asociate analizei variaţiei
Analiza variaţiei este utilizată în mod deosebit în experimentele de marketing, atunci
când se evaluează influenţa unor variabile independente asupra altora, tratate ca
dependente.
Printre cele mai cunoscute utilizate în acest context se numără proiectările factoriale,
pătratele latine, pătratele greco-latine etc.
Mult mai frecvent însă cercetătorii urmăresc să analizeze, în studii pe care le
realizează, diferenţele dintre valorile medii ale unei variabile independente pe care le
ia la
nivelul mai multor categorii ale uneia sau mai multor variabile independente (factori)
pentru
a putea concluziona dacă există sau nu diferenţe între grupurile respective. Mai precis,
analiza variaţiei poate furniza răspunsuri la întrebări precum:
• există diferenţe în privinţa duratei totale lunare a convorbirilor telefonice între
persoanele din diferite regiuni ale ţării sau pe categorii de educaţie şi venit?
• care sunt diferenţele în privinţa intenţiilor de cumpărare la diferite niveluri ale
preţurilor unui produs?
• percepţiile privind diversitatea ofertei (categorii), interacţiunea cu vânzătorii
(da/nu)
şi modul în care au fost rezolvate plângerile (categorii) îşi pun amprenta asupra
satisfacţiei clienţilor?
• consumul de cafea este influenţat de vârstă (categorii) şi educaţie (categorii)?
Prezentăm mai jos situaţia analizei variaţiei cu un factor. Indicatorii rămân valabili şi
pentru celelalte forme ale analizei variaţiei.
• Variaţia dintre grupuri (between variation): notată, de obicei cu SSX (sau SSîntre-
grupuri) reprezintă variaţia variabilei dependente corespunzătoare variaţiei mediei pe
categoriile variabilei independente. Ea reprezintă partea din suma pătratelor aferentă
variabilei independente;
• Variaţia din interiorul grupurilor (within variation) notată, de obicei cu SSE
(sau
SSin-interior sau SSeroare) reprezintă variaţia variabilei dependente datorată variaţiei în
3
interiorul fiecărei categorii a variabilei independente. Această variaţie nu este
generată de variabila independente;
• Variaţia totală (total variation): notată, de obicei cu SST (sau SStotală) reprezintă
variaţia variabilei dependente corespunzătoare variaţiei mediei pe categoriile
variabilei independente. Ea reprezintă partea din suma pătratelor abaterilor variabilei
dependente aferentă variabilei independente;
• Media pătrată (mean square): este suma pătratelor împărţită la numărul gradelor
de
libertate;
• testul eta (TI2, eta2): măsoară efectul variabilei independente asupra celei
dependente
şi arată proporţia explicată de prima în variabilitatea celei de a doua. Ia valori între 0
şi 1;
• testul F (F statistic): verifică ipoteza nulă (H0) că dispersiile categoriilor
variabilei
independente pentru variabila dependentă sunt egale; se calculează ca raport între
media pătratelor aferentă variabilei independente şi media pătratelor aferente erorii.
Etapele realizării analizei variaţiei cu un singur factor
Analiza variaţiei poate fi împărţită în trei paşi mari: identificarea variabilelor,
efectuarea calculelor şi interpretarea rezultatelor. Astfel:
Identificarea variabilelor: în această etapă trebuie ţinut cont de cerinţa acestui tip de
analiză
ca variabila dependentă să fie metrică iar cea independentă să fie nemetrică
(categorială -măsurată pe scală nominală sau ordinală).
Descompunerea variaţiei totale: în această etapă este examinată variabilitatea
variaţiei din
eşantion (variabila independentă) şi pe baza acestei variabilităţi se stabileşte
dacă există motive de a considera că mediile categoriilor populaţiei diferă
între ele. Variaţia totală a variabilei dependente (SST) este formată din variaţia
explicată de variabila independentă (SSX sau SSîntre-grupuri) şi variaţia reziduală
(SSeroare sau SSin-intenor)
SST = SSîntre-grupuri + SSin-intenor
sau SST = SSX + SSE
unde:
4
∑ SS= (y−y)
n 2
i=1
T
i

SS =∑k (y −y)2
j =1
X
j
kn
SS = E
∑∑ j=1 i=1

(y −y)2 ij i
unde:
yi - valoarea i a variabilei dependente
y j - media variabilei dependente pentru categoria j a variabilei independente
y - media la nivelul întregului eşantion
yij - valoarea i a variabilei dependente corespunzătoare categoriei j a variabilei
independente
Măsurarea efectelor: în această etapă este determinat efectul factorului asupra
variabilei
dependente date de SSX. Pentru măsurarea acestui efect se foloseşte testul
eta2, calculat în modul următor:
η2 =SSX SST
Eta2 ia valori între 0 şi 1. O valoarea apropiată de 0 indică faptul că nu există
diferenţe între medii în timp ce o valoarea apropiată de 1 arată o variabilitate
între grupuri.
Testarea semnificaţiei statistice: se realizează cu ajutorul testului F prin verificarea
ipotezei
nulă (H0) confom căreia dispersiile variabilei dependente în cazul fiecărui
grup (categorie) a variabilei independente sunt egale. Indicatorul testului F se
calculează ca raport între variaţia pusă pe seama variabilei independente şi
ajustată cu numărul gradelor de libertate aferente (SSx/(k-1)) şi variaţia
corespondentă erorii ajustată şi ea cu numărul gradelor de libertate diferenţă
(SSE/(n-k)).
Interpretarea testului F poate fi făcută absolut, prin compararea cu valorile
tabelate sau prin prisma nivelului de semnificaţie asociat. Un nivel de
semnificaţie sub 0,05 (aferent unei probabilităţi de peste 95%) permite
respingerea ipotezei nule a egalităţii dispersiilor.
2Neter J., Wasserman W., Kutner M. - Applied Linear Statistical Models, Irwin, Homewood, 2nd
edition , 1985 5
Interpretarea rezultatelor: în situaţia în care ipoteza nulă a egalităţii mediilor
grupurilor a
fost acceptată, variabila independentă nu are un efect semnificativ asupra
variabilei dependente. În caz contrar, prin neacceptarea ipotezei nule se poate
concluziona că grupurile diferă între ele din punct de vedere al caracteristicii
studiate (variabila dependentă) şi că variabila independentă exercită un efect
semnificativ asupra celei dependente. Mergând mai departe, o comparare a
mediilor la nivelul grupurilor va da informaţii legate de natura efectului
variabilei independente.
Analiza variaţiei cu n-factori
Acest tip de analiză se aplică în situaţia în care există o variabilă dependentă şi mai
mulţi (n) factori (variabile independente). Faptul că există o acţiune simultană a mai
multor
factori aduce în discuţie efectul generat de fiecare dintre factori şi cel produs de
interacţiunile dintre ei.
Procedura de aplicare a analizei variaţiei cu n-factori este similară cu cea în care
avem un singur factor, dar modul de descompunere a variaţiei este unul care trebuie
să ţină
seama de toţi factorii implicaţi (şi de interacţiunile dintre ei). Pentru modelul cel mai
simplu,
cu 2 factori (X1 şi X2) variaţia totală se calculează astfel:
SST = SSX1 + SSX2 + SSX1X2 + SSE
Un efect mai puternic al variabilei X1 va fi reflectat printr-o diferenţă mai mare între
medii la nivelul categoriilor acestei variabile şi sumă a pătratelor SSX1 mai mare, la fel
în
cazul celeilalte variabile independente. Pe de altă parte, cu cât există o interacţiune
mai mare
între factorii X1 şi X2 cu atât contribuţia comună la explicarea variaţiei (ca rezultat al
acestei
interacţiuni) va fi mai mare (relaţia funcţionează şi în sens invers, arătând că o o
valoare mică
a SSX1X2 arată o independenţă între cei doi factori (din acest punct de vedere).
Testul F va ajuta, de data aceasta, la calcularea nu numai a efectului principal al
fiecărui factor, ci va fi calculat câte un indicator atât pentru evaluarea efectului
interacţiunii
cât şi pentru a testa semnificaţia statistică a întregului model, deci efectul global al
tuturor
tratamentelor (factori, individual + interacţiunea dintre ele). Valorile calculate alte
testului
Fisher (Fc) sunt comparate cu cele din tabelele statistice Ft asociate acestui test
(ultimul pe
6
baza nivelului de semnificaţie şi numărului gradelor de libertate). Dacă valorile
calculate
sunt mai mici decât cele tabelare (teoretice), atunci factorul respectiv nu are influenţă
semnificativă asupra procesului analizat; dacă valorile calculate sunt mai mari decât
cele
tabelare (teoretice), atunci factorul respectiv are o influenţă importantă asupra
procesului.
Analiza covariaţiei
Specificitatea analizei multivariate a variaţiei
3 Wildt A. R., Ahtola O. T., Analysis of Covariance; Beverly Hills, CA, Sage, 1978, p. 48-50. 7
De multe ori atunci când se analizează efectul exercitat de variabilele independente
controlate asupra valorilor medii ale unei variabile dependente apare necesitatea de a
ţine
cont şi izola influenţa altor variabile independente. Aceasta se rezolvă prin utilizarea
analizei
covariaţiei care include în model, pe lângă factorii măsuraţi pe scale nemetrice şi cel
puţin o
variabilă independentă de tip metric, denumită covariant Utilizarea acestui are rolul
de a
elimina variaţiile externe exercitate asupra variabilei dependente.
La fel ca şi în celelalte cazuri, semnificaţia statistică a efectelor variabilelor
covariante este testat cu ajutorul testului F. Analiza covariaţiei este utilă atunci când
între
variabilele covariante şi variabila dependentă există o relaţie liniară şi când acestea nu
sunt
corelate cu factorii3. Analiza covariatiei poate fi utilizata cu o singură alternantă, cu
mai
multe alternante, ca şi prin tehnicile multivariate ANOVA.
Similară cu ANOVA, analiza multivariată a variaţiei (MANOVA) include în model
cel puţin două variabile dependente metrice şi analizează efectele asupra acestora
luate
simultan. Obiectivul MANOVA este, la fel ca şi pentru ANOVA, examinarea şi
testarea
diferenţelor dintre medii, dar în acest caz calculele sunt făcute pe baza vectorilor
mediilor
variabilelor dependente multiple.
Analiza multivariată a variaţiei se justifică atunci când variabilele dependente sunt
corelate între ele, în caz contrar fiind mult mai potrivită procedura ANOVA pentru
fiecare
dintre variabilele dependente luate în considerare.
MANOVA compară grupurile şi explică diferenţele dintre grupuri. Pentru aceasta
MANOVA creează un nou rezumat al variabilelor dependente, care este o combinaţie
liniară
a fiecărei variabile dependente iniţiale. MANOVA poate fi folosit într-un sens, două
sensuri
şi cu un nivel ridicat de proiectare (cu multiple variabile independente), ca şi în
analizei
covariaţiei (controlând variabilele suplimentare).

S-ar putea să vă placă și