Sunteți pe pagina 1din 52

A-PDF Merger DEMO : Purchase from www.A-PDF.

com to remove the watermark

ANALIZA DATELOR N CERCETRILE DE PIA

Aceast materie reprezint o prelungire logic i direct a Cercetrilor i modelelor de marketing, studiat de dumneavoastr n primul semestru al programului masteral Marketing online. Astfel, dup colectarea datelor urmeaz faza de prelucrare i stocare a acestora, soldat cu extragerea unor informaii utile, prin analiz, despre fenomenul investigat, informaii prezentate apoi n cadrul unui raport de cercetare. Analiza datelor de marketing utiliznd SPSS v va prezenta i o modalitate actual, n raport cu cerinele Societii Informaionale, de analiz a datelor recoltate prin intermediul sondajelor. Astfel, Statistical Package for Social Sciences (Produs Statistic pentru tiine Sociale), sau mai pe scurt SPSS, reprezint un produs software dedicat analizei informaiilor din sondaje, pe pia de la sfritul anilor aptezeci, ajuns astzi la versiunea 14, utilizat astzi de marea majoritate a companiilor de cercetarea pieei, de la AC Nielsen la Daedalus Consulting, ca i de departamentele de marketing ale marilor companii, precum Coca Cola HBC, Renault sau Vodafone. n strategia unei cercetri de marketing, o atenie deosebit trebuie acordat deciziei privitoare la modalitatea de analiz a datelor culese. Analiza reprezint un proces complex i sistematic de aplicare a tehnicilor statistico-matematice, n scopul extragerii din baza de date constituit a tuturor informaiilor necesare procesului decizional. Metodologia de analiz a fenomenelor de marketing a cunoscut n ultimele trei decenii, pe plan internaional, o adevrat revoluie, paralel cu dezvoltarea tehnologiei de msurare, culegere i prelucrare a informaiilor. Aceasta s-a datorat, n mare msur i progreselor nregistrate n folosirea pe scar tot mai larg a calculatoarelor electronice. Numeroasele metode de analiz care constituie bogatul arsenal metodologic pot fi grupate dup criterii foarte diferite, cum sunt: tipul de scal utilizat (nominal, ordinal, interval sau proporional); numrul eantioanelor cercetate (unul, dou sau mai mult de dou);

natura relaiei dintre aceste eantioane (independente sau dependente); numrul variabilelor considerate o dat (una, dou sau mai mult de dou).

Printre obiectivele urmrite n procesul de analiz a datelor se nscriu, de obicei, urmtoarele: determinarea tendinei centrale a variabilelor considerate; caracterizarea variaiei i a repartiiei acestora; msurarea gradului de asociere dintre ele; realizarea unor estimri i previziuni; evaluarea diferenelor dintre variabile sau grupuri de variabile; evidenierea legturilor cauzale dintre ele.

O modalitate mai practic de abordare a procesului de analiz a datelor provenind din cercetrile de pia identific cinci tipuri majore de analiz a datelor, n funcie de scopul avut n vedere de cercettorul care conduce procesul de analiz. Astfe, sunt distinse: analiza primar a datelor, care presupune utilizarea unei serii de tehnici i metode statistice i matematice pentru identificarea caracteristicilor generale, uor de reliefat, ale datelor. La rndul su, analiza primar a datelor se submparte n: analiz descriptiv, cunoscut i sub denumirea de analiz a tendinei centrale, care are ca scop caracterizarea unei unitii tipice din cadrul colectivitii investigate. Indicatorii folosii n aceast analiz, care variaz de obicei n funcie de scala utilizat pentru msurarea fenomenelor avute n vedere, sunt media, modulul, mediana, cuartilele, abaterea standard, variaia sau tabelele de frecvene. analiza diferenial are ca scop identificarea diferenelor semnificative statistic dintre diferite grupuri de respondeni sau ntre diferite variabile (ntrebri) din sondaj. Astfel, se poate determina dac, dintre posesorii de carduri de debit, exist

diferene semnificative ntre persoanele cu venit ridicat i cele cu venit sczut n ceea ce privete comportamentul de cumprare. Principalele metode utilizate n analiza diferenial sunt testele Student i metodele ANOVA i MANOVA. analiza asociativ ncearc s determine asemnrile semnificative (statistic) ntre diferite grupuri sau variabiale din setul de date analizat (ex.: dac gradul de reamintire a reclamelor TV este direct asociat cu intenia de cumprare a produsului promovat). Indicatorii statistici utilizai n acest caz fiind diferiii indici de corelaie, ca i tabelele pivotante sau metodele ANCOVA i MANCOVA. analiza predictiv este utilizat pentru extragerea (extrapolarea) de informaii, pe baza datelor existente (de obicei, date istorice) despre evoluia viitoare a fenomenului avut n vedere. Sunt foarte multe metode i tehnici utilizate n acest scop, cele mai frecvente fiind diferitele metode de regresie, ca i analiza seriilor de timp (ex. metoda Holt-Winters). analiza inferenial reprezint, n cele mai multe cazuri, o condiie implicit a oricrui tip de analiz. Astfel, analiza inferenial utilizeaz indicatori precum eroarea de eantionare sau intervalul de ncredere pentru extrapolarea valorilor observate n eantionul investigat la nivelul ntregii populaii avute n vedere. analiza complex a datelor (care este asociat n multe cazuri cu analiza multivariat a datelor, ns nu trebuie confundat cu aceasta) se realizeaz de regul dup epuizarea unor tehnici de analiz primar, n general fiind vorba despre analiza descriptiv, analiza diferenial i analiza inferenial pentru surprinderea principalelor caracteristici ale setului de date, caracteristici de care depind metodele de analiz utilizat n aceast faz. Diferitele metode implicate n aceast analiz pot include:

metoda discriminantului liniar multiplu, ce reprezint o metod statistic de estimare a relaiei liniare dintre o variabil dependent i combinaii liniare ale mai multor variabile independente pentru msurarea crora s-a folosit o scal metric. De exemplu, dac printr-o cercetare de marketing se urmrete modul n care o nou butur rcoritoare lansat pe piaa romneasc este acceptat de consumatorii romni, cele dou grupuri care vor sta la baza clasificrii sunt cumprtorii i necumprtorii produsului respectiv.

analiza canonic reprezint o alt metod statistic de studiere a relaiei liniare ntre dou grupuri de variabile: un grup de variabile dependente i un grup de variabile independente, i unele i altele putnd fi msurate cu ajutorul unor scale metrice sau nemetrice.

analiza factorial reprezint un nume generic dat unei categorii de metode statistice multivariate al cror scop l reprezint cercetarea legturilor de interdependen dintre mai multe variabile cu ajutorul crora se caracterizeaz un anumit fenomen, prin reducerea (condensarea) volumului datelor cuprinse n variabilele iniiale i constituirea unui set mai mic de dimensiuni (factori), urmrindu-se o pierdere minim de informaii. Printre modalitile concrete de aplicare a analizei factoriale pot fi avute n vedere metoda componentelor principale, metoda care se bazeaz pe criteriul varimax, metoda criteriului quartimax, metoda rotaiei axelor, etc.

analiza grupurilor reprezint un nume generic dat unui grup de metode statistice multivariate de clasificare a componentelor unei mulimi eterogene (consumator, produse, ntreprinderi etc.) n grupuri omogene, avnd la baz un anumit criteriu. Spre exemplu, aceast metod poate fi utilizat pentru obinerea unor grupri semnificative statistic, plecnd de la factori de grupare

precum nivelul de trai, nivelul veniturilor sau sperana de via ntre rile Uniunii Europene sau la nivel mondial.

ANALIZA UNIVARIAT A DATELOR N CERCETRILE DE PIA


n strategia unei cercetri de marketing, o atenie deosebit trebuie acordat deciziei privitoare la modalitatea de analiz a datelor culese. Analiza reprezint un proces complex i sistematic de aplicare a tehnicilor statistico-matematice, n scopul extragerii din baza de date constituit a tuturor informaiilor necesare procesului decizional. Metodologia de analiz a fenomenelor de marketing a cunoscut n ultimele trei decenii, pe plan internaional, o adevrat revoluie, paralel cu dezvoltarea tehnologiei de msurare, culegere i prelucrare a informaiilor. Aceasta s-a datorat, n mare msur i progreselor nregistrate n folosirea pe scar tot mai larg a calculatoarelor electronice. Numeroasele metode de analiz care constituie bogatul arsenal metodologic pot fi grupate dup criterii foarte diferite, cum sunt: tipul de scal utilizat (nominal, ordinal, interval sau proporional); numrul eantioanelor cercetate (unul, dou sau mai mult de dou); natura relaiei dintre aceste eantioane (independente sau dependente); numrul variabilelor considerate o dat (una, dou sau mai mult de dou).

Printre obiectivele urmrite n procesul de analiz a datelor se nscriu, de obicei, urmtoarele: determinarea tendinei centrale a variabilelor considerate; caracterizarea variaiei i a repartiiei acestora; msurarea gradului de asociere dintre ele; realizarea unor estimri i previziuni; evaluarea diferenelor dintre variabile sau grupuri de variabile; evidenierea legturilor cauzale dintre ele.

Modaliti de determinare a tendinei centrale Pentru determinarea tendinei centrale a variabilelor considerate, punctul de plecare l constituie considerarea tipului de scal utilizat pentru msurarea acestora. Dup cum s-a evideniat ntr-un capitol anterior, tendina central se caracterizeaz diferit, funcie de nivelul la care s-a realizat msurarea (vezi tabelul nr.1). Indicatori ai tendinei centrale Tipuri de scale Nominal Ordinal Interval Proporional Grupul modal (valoarea modal) x x x x 2 x x x x x x Mediana Media aritmetic Media geometric

Tabelul 1. Modul de caracterizare a tendinei centrale funcie de tipul de scal utilizat Dac datele sunt negrupate, valoarea modal, primul indicator al tendinei centrale, este cea care prezint cea mai mare frecven de apariie. S presupunem c ntr-o cercetare direct a preferinelor populaiei capitalei pentru turismul de sfrit de sptmn, eantionul investigat cuprinde 400 persoane care practic frecvent aceast form de turism, distribuite dup statutul socio-profesional astfel (vezi tabelul nr.2): Categoria socio-profesional Muncitori Maitri-tehnicieni Liber ntreprinztori Funcionari Cadre cu studii superioare Elevi-studeni Casnice Pensionari Alte categorii Numr de persoane 120 70 30 30 90 120 10 15 15

Tabelul 2. Repartizarea pe categorii socio-profesionale a persoanelor care practic frecvent turismul de sfrit de sptmn Se observ cu uurin c valoarea modal este 120, ea corespunznd categoriei muncitori i categoriei elevi-studeni.

Dup cum se cunoate, n cazul distribuiilor de frecvene specifice datelor grupate, grupul modal este constituit din grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri. S presupunem c acelai eantion format din cele 400 persoane se distribuie, pe grupe de vrst, dup cum urmeaz (vezi tabelul nr.3): Grupe de vrst (ani) sub 14 14-18 19-24 25-30 31-40 41-50 51-60 61 i peste Numr de persoane 15 45 110 90 80 30 20 10

Tabelul 3. Repartizarea pe grupe de vrst a persoanelor care practic frecvent turismul de sfrit de sptmn Rezult clar c grupul modal este reprezentat de grupul care cuprinde persoanele n vrst de 19-24 ani. Acest grup cuprinde 27,5 % din persoanele care practic frecvent turismul de sfrit de sptmn. Valoarea modal se situeaz undeva n jurul vrstei de 22 ani. Mediana, un alt indicator al tendinei centrale, reprezint dup cum se cunoate valoarea deasupra i dedesubtul creia se situeaz cte o jumtate din observaii.

Dac datele sunt negrupate, dac sunt aranjate n ordine, de la valoarea cea mai mic la valoarea cea mai mare, sau invers i dac numrul de observaii este fr so, valoarea median se stabilete fr nici o dificultate (vezi tabelul nr.4.): Restaurantul R1 R2 R3 R4 R5 R6 R7 Numrul de porii 60 70 110 120 130 130 150 Mediana

Tabelul 4. Numrul de porii dintr-un preparat culinar vndute ntr-o zi n apte restaurante n situaia n care exist un numr de observaii cu so, mediana se consider n mod convenional c este situat la jumtate, ntre cele dou valori centrale. Dac datele sunt grupate, mediana se calculeaz astfel: numrul total de observaii (frecvene) se mparte la 2 i astfel rezult cte observaii trebuie s fie deasupra i cte dedesubtul medianei; dup aceasta se determin frecvenele cumulate pentru a stabili n care grup se situeaz mediana; n final, se calculeaz valoarea medianei. Considernd datele din tabelul cu repartiia pe grupe de vrst rezult c valoarea medianei se situeaz undeva n grupa de vrst de 25-30 ani. Pentru 5

a ne situa la jumtatea numrului observaiilor (200), se pondereaz mrimea intervalului acestei grupe (5), cu numrul de observaii adiionale necesare (110/260) iar valoarea obinut se adaug la 25. Rezult c mediana este situat la categoria de vrst de 27 ani. Aa cum s-a artat, datelor msurate n scal metric li se poate calcula tendina central i sub forma mediei aritmetice (ncepnd cu scala interval) sau chiar sub forma mediei geometrice (n cazul scalei proporionale). Media aritmetic, x , a unei variabile x despre care se cunosc n observaii ntr-un eantion investigat, se calculeaz astfel:
n

x=

x
i =1

Dac vnzrile a cinci puncte de desfacere situate pe plaj au fost ntr-o anumit zi de: 170; 220; 270; 320 i respectiv 370 mil. lei, rezult c media desfacerilor n ziua respectiv este:
170 + 220 + 270 + 320 + 370 = 270 mil.lei 5

x=

Deseori, n calculul mediei aritmetice, apare necesitatea unei ponderri. S presupunem c ntr-o cercetare a imaginii unui grup de 200 turiti, amplasamentul unui camping a fost apreciat pe o diferenial semantic cu 5 trepte, astfel: foarte favorabil 70 45 35 30 20 foarte nefavorabil

Pentru o evaluare sintetic a acestor aprecieri se calculeaz o medie a lor, pornind de la nota 5 atribuit, pe scara respectiv, aprecierilor foarte 6

favorabile, descrescnd pn la nota 1 pentru aprecierile foarte nefavorabile. Aprecierea medie se calculeaz astfel:
x= 70 5 + 45 4 + 35 3 + 30 2 + 20 1 = 3,575 200

Dac datele sunt grupate, pentru calculul mediei aritmetice se folosete urmtoarea relaie:
n

x= unde: fi

f
i =1

mi

reprezint frecvena grupului i;

mi punctul de mijloc al intervalului unui grup; n numrul total de observaii cuprinse n eantion. n tabelul nr.5 se ilustreaz, printr-un exemplu, modul de calcul al mediei aritmetice n acest caz. Desfaceri (mil. lei) 15-20 20-25 25-30 30-35 35-40 TOTAL Numr de uniti (fi) 7 12 15 11 5 50 Mijlocul intervalului (mi) 17,5 22,5 27,5 32,5 37,5 122,5 270,0 412,5 357,5 187,5 1350,0 fi mi

Tabelul 5. Desfacerile zilnice ale unor cabane, situate pe trasee turistice montane (calculul mediei aritmetice)
1350 = 27mil.lei 50

x=

Atunci cnd pentru msurare s-a folosit o scal proporional, pentru caracterizarea tendinei centrale, se poate calcula inclusiv media geometric xG (aceasta este totui destul de rar utilizat n cercetrile de marketing). Formula de calcul este urmtoarea:
xG = n

x
i =1

sau n forma logaritmic


log xG =

log x
i =1

Modaliti de caracterizare a variaiei i repartiiei variabilelor


Caracterizarea variaiei, un alt obiectiv obinuit al analizei datelor culese prin cercetrile de marketing, se poate face n mod difereniat, n funcie de nivelul de msurare realizat printr-un tip de scal sau altul (vezi tabelul nr.6) Foarte adesea, datele, indiferent de tipul de scal utilizat, sunt caracterizate prin prezentarea distribuiei de frecvene att n form tabelar (frecvenele se pot prezenta n valori absolute, simple sau cumulate, sau prin 8

folosirea procentelor 1 ), ct i n form grafic (poligoane de frecvene, histograme, ogive etc.). Indicatori ai variaiei Distribuia de frecvene Procente Decile Centile Cuartile Amplitudinea variaiei Abaterea medie Variana Abaterea standard x x x x x x x x x x x x x x x x x x x x x Nominale x Tipuri de scale Ordinale x Interval x Proporionale x

Tabelul 6. Caracterizarea variaiei funcie de nivelul de msurare realizat Mai rar, n procesul analizei datelor se calculeaz i cuartilele, decilele sau centilele. Cuartilele reprezint dou valori stabilite astfel ca o ptrime din observaii s se afle sub prima cuartil, denumit i cuartil inferioar i o ptrime din observaii s se afle deasupra celei de-a doua cuartile, denumit i cuartil superioar. Celelalte dou ptrimi din observaii se afl ntre valorile celor dou cuartile i median. n mod similar, numrul de observaii se poate mpri la 10 sau 100 cu ajutorul decilelor i respectiv centilelor.

Pentru calculul procentelor cumulate sunt necesare date cel puin de natur ordinal.

Destul de frecvent, n caracterizarea datelor se folosete amplitudinea variaiei, care se poate calcula n form absolut (diferena dintre observaia cu valoarea cea mai mare i cea cu valoarea cea mai mic) sau n form relativ (raportul dintre amplitudinea absolut i medie). De cte ori nivelul de msurare conduce la date de natur metric, pentru caracterizarea variaiei acestora se pot folosi, alturi de amplitudinea variaiei i trei indicatori ai variaiei, respectiv, abaterea medie (media aritmetic a valorilor absolute ale abaterilor termenilor eantionului de la media lor), variana (media aritmetic a ptratelor abaterilor individuale ale termenilor eantionului de la medie) precum i abaterea standard (radical cu semnul plus din varian). Pentru caracterizarea variaiei i a repartiiei unei singure variabile, deosebit de utile sunt i metodele bazate pe cunoscutele tipuri de repartiii normale, Poisson, binomiale etc., precum i cele care presupun abordarea bayesian aplicat unei singure variabile.

10

MODALITI DE ANALIZ BIVARIAT


ANALIZA GRADULUI DE ASOCIERE
n cercetrile de marketing, de obicei, analiza univariat prin considerarea separat a variabilelor, ca cea prezentat mai sus, reprezint doar nceputul. Un obiectiv important n procesul de analiz l reprezint n continuare analiza bivariat, care presupune aspectul: direciei (naturii); intensitii ; semnificaiei statistice. msurarea gradului de asociere a dou variabile sub

Acest obiectiv se realizeaz cu ajutorul a diferite metode, funcie de tipul de scal utilizat pentru msurarea datelor.

Variabilele nominale Considernd primul caz, cel al variabilelor nominale, procesul de msurare a gradului de asociere ncepe prin construirea de tabele de contingen. Un astfel de tabel cuprinde distribuia de frecvene considerat simultan pentru dou sau mai multe variabile caracteristice aceluiai eantion. S presupunem, spre exemplu, c vrem s vedem dac preferinele brbailor pentru un anumit fastfood, n care fumatul este interzis, difer semnificativ de preferinele femeilor. Cu datele culese printr-o cercetare de marketing de la un eantion de 500 persoane, din care 300 brbai i 200 femei, se poate alctui urmtorul tabel de contingen:

Tabelul 1. Distribuia preferinelor pe sexe pentru un fastfood Sexul Brbai Femei TOTAL Prefer unitatea 196 58 254 Nu prefer unitatea 104 142 246 300 200 500 TOTAL

Examinarea acestui tabel de contingen este ngreunat de faptul c numrul brbailor din eantion difer de cel al femeilor. Pentru a uura interpretarea se construiete un alt tabel n care frecvenele sunt transformate n procente (vezi tabelul nr.20.2). Tabelul 2. Distribuia preferinelor pe sexe pentru un fastfood Sexul Prefer unitatea % Brbai Femei 65,33 29,00 Nu prefer unitatea % 34,66 71,00 100 100 TOTAL

Pe baza acestor informaii se poate afirma c probabilitatea ca un brbat s prefere fastfood-ul aflat n studiu este de cca. 65 %, n timp ce probabilitatea ca o femeie s nu l prefere este de 71 %. O modalitate prin care se poate exprima gradul de asociere ntre cele dou variabile sex i preferin, fiecare n stare dihotomic o reprezint corelaia phi. Coeficientul de corelaie (rphi) se calculeaz astfel:
r phi = ad bc [( a + b)(c + d )( a + c )(b + d )]
1/ 2

unde a, b, c, d reprezint frecvenele tabelului de contingen de tipul 2x2 dup cum urmeaz: a b

c n exemplul considerat a=196 c=58 i


rphi =

b= 104 b =142
21800 = 0,356 61229,4047

196 142 104 58 [(196 + 104)(58 + 142)(196 + 58)(104 + 142)]


1/ 2

Coeficientul de corelaie rphi poate lua valori ntre 1,0 i +1,0. Cele dou extreme indic o asociere perfect ntre variabile, n timp ce valoarea zero indic lipsa corelaiei. Pentru a determina n ce proporie preferinele pentru fastfoodul investigat sunt explicate de variabila sex coeficientul rphi se ridic la ptrat. Deci:
r phi = (0,356) 2 = 0,1267
2

Aceasta indic faptul c 12,67 % din variaia preferinelor este explicat de variabila sex. Concluzia este c intensitatea asocierii ntre cele dou variabile este foarte slab. Semnul coeficientului de corelaie rphi caracterizeaz direcia asocierii celor dou variabile, dar ntr-un mod specific deoarece datele sunt de natur nominal. Astfel, semnul +rphi indic o corelaie pozitiv, n sensul c exist, n ansamblu, o asociere ntre sexul masculin i preferina pentru fastfoodul n studiu. Pentru testarea gradului de semnificaie a asocierii dintre opiniile subiecilor constituii n cele dou eantioane independente (brbai i femei) i preferina pentru fastfoodul cercetat se poate utiliza testul neparametric 2 . Mai exact, prin acest test se urmrete s se stabileasc dac preferinele brbailor difer semnificativ de preferinele femeilor. Realizarea testului 2 are ca punct de plecare ipoteza nul c valoarea coeficientului de corelaie rphi nu difer semnificativ de zero, cu alte cuvinte,

preferinele brbailor nu difer semnificativ de preferinele femeilor. Simbolic aceasta se exprim astfel: H0: pentru populaia statistic cercetat rphi =0, spre deosebire de ipoteza alternativ, H1: pentru populaia statistic cercetat rphi 0 . n continuare, se determin c2 - valoarea calculat a lui 2 , cu ajutorul urmtoarei formule:

=
2 c i =1 j =1

(Oij Aij ) 2 Aij

unde: r i k - reprezint numrul de rnduri i respectiv de coloane ale tabelului de contingen; Oij Aij - frecvenele rndului i i ale coloanei j care rezult din observare; - frecvenele rndului i i ale coloanei j care se ateapt s rezulte conform ipotezei nule; ele se determin prin nmulirea frecvenei marginale a rndului i cu cea a coloanei j i mprirea produsului la numrul total al cazurilor (mrimea eantionului). Valorile rezultate prin utilizarea formulei de mai sus au o repartiie de eantionare care poate fi aproximat de o repartiie 2 cu (r-1)(k-1) grade de libertate. Dac valoarea calculat a lui 2 este egal sau mai mic dect valoarea teoretic (tabelat), corespunztoare unui numr de grade de libertate i unui anumit grad de semnificaie, atunci ipoteza nul se accept. n exemplul considerat, valoarea calculat a lui 2 este urmtoarea:
c2 =
(196 152,4) 2 (58 101,6) 2 (104 147 ,6) 2 (142 98,4) 2 + + + = 63,38 152,4 101,6 147 ,6 98,4

Valoarea teoretic corespunztoare pentru (2-1)(2-1)=1 grade de libertate este


2 2 0 , 95 = 3,84 . Deoarece c = 63,38 > 3,84 se poate afirma c la un nivel de semnificaie

de 0,05 ipoteza nul nu se accept (se accept ipoteza H1), adic rphi difer semnificativ de zero, deci preferinele brbailor difer semnificativ de preferinele femeilor. Ori de cte ori tabelul de contingen este de tipul 2x2, pentru determinarea valorii lui 2 se poate utiliza i urmtoarea formul de calcul:
2 =
N ( ad bc ) 2 ; ( a + b )(c + d )( a + c )(b + d )

unde: a, b, c, d au aceeai semnificaie ca mai sus, iar N= a + b + c + d. Deoarece, aa cum este cazul i n acest exemplu, testul care este conceput pentru repartiii continue, se aplic unor date n form discret, pentru o mai mare exactitate, apare necesitatea unei corecii pentru continuitate, care este cunoscut sub numele de corecia lui Yates. n aceste condiii, valoarea calculat a lui 2 va fi dat de urmtoarea formul:
N N ad bc 2 c2 = ; ( a + b)(c + d )( a + c )(b + d )
2

Dac aceast relaie se aplic datelor din exemplul considerat mai sus, se obine:
500 500 196 142 104 58 2 2 c = = 61,93919 300 200 254 246
2

ntruct c2 = 61,93 > 3,84, concluziile rmn aceleai cu cele stabilite pentru aplicarea primei formule. Pentru a asigura aplicarea cu succes a testului 2 , frecvenele Aij, care se ateapt din observare, nu trebuie s aib valori prea mici. Specialitii recomand s se procedeze n felul urmtor: dac ntr-un tabel de contingen de tipul 2x2 N>40 se poate utiliza cu succes testul 2 , preferndu-se pentru calcul ultima formul; dac N are valoarea ntre 20 i 40 testul 2 se poate folosi doar dac toate frecvenele Aij sunt egale sau mai mari dect 5; n situaia n care cea mai mic 5

frecven Aij are valoarea mai mic dect 5 este necesar s se utilizeze testul probabilitii exacte a lui Fisher, prezentat mai jos; dac N<20, indiferent de mrimea valorilor Aij se va utiliza testul probabilitii exacte a lui Fisher. Testul probabilitii exacte a lui Fisher reprezint o tehnic neparametric foarte util pentru analiza datelor discrete provenite din dou eantioane independente relativ mici. Obiectivele testului sunt identice cu cele ale testului 2 . Dac se consider c frecvenele marginale ale tabelului de contingen de tipul 2 X 2 sunt fixe, atunci probabilitatea exact de apariie a unui anumit set de frecvene este dat de urmtoarea repartiie hipergeometric:

p=

( A + B )!(C + D )!( A + C )!(B + D )!


N ! A! B!C! D!

S presupunem c ntr-un studiu cu aceleai obiective ca cele ale exemplului anterior, n urma cercetrii unui eantion de 12 persoane s-a obinut urmtorul tabel de contingen:

Brbai Prefer unitatea Nu prefer unitatea TOTAL 1 4 5

Femei 6 1 7

Total 7 5 12

Pentru testarea ipotezei nule, c preferinele nu sunt influenate de sex, este necesar, mai nti, calcularea lui p1, probabilitatea de apariie a frecvenelor tabelului, la care trebuie adugate toate probabilitile corespunztoare unor repartiii de frecven care exprim deosebiri i mai pronunate ntre preferinele brbailor i cele ale femeilor. n exemplul acesta exist o singur probabilitate, p0, care trebuie adugat lui p1i care corespunde situaiei n care nici un brbat nu prefer unitatea i toate femeile o prefer.

n aceast situaie:
p1 = 7!5!5!7! = 0,04399; 12!1!6!4!1!
7!5!5!7! = 0,00126; 12!0!7!5!0!

p0 =

Probabilitatea total de apariie a celor dou repartiii de frecven considerate este: p = p1 + p0 = 0,04399 + 0,00126 = 0,04525. Deoarece aceast probabilitate este mai mic dect 0,05 nivelul de semnificaie la care se face testarea, ipoteza nul nu se accept i deci concluzia este c preferinele sunt influenate de sex. Dup cum se poate observa, testarea ipotezei nule necesit calcule destul de laborioase pentru determinarea probabilitii respective. Din fericire, pentru cazurile n care N 30 i frecvenele marginale nu depesc cifra 15, testul se poate realiza cu ajutorul tabelelor statistice elaborate de statisticianul Finney, D.J. nc din anul 1948. Pentru realizarea testului se procedeaz astfel: se identific n tabele seciunea care corespunde valorilor determinate pentru corespunztor unei valori pentru (C+D) sunt listate mai multe valori ale lui (A+B) i respectiv (C+D); B din care se alege cea care este egal cu valoarea lui B din tabelul de contingen; n dreptul valorii respective a lui B exist trecute patru valori ale lui D corespunztoare urmtoarelor niveluri de semnificaie: 0,05; 0,025; 0,01 i 0,005, din care se alege una; dac valoarea lui D din tabelul de contingen este egal sau mai mic dect valoarea lui D din tabele statistice, pentru un anumit nivel de semnificaie, atunci ipoteza nul se accept. n exemplul considerat (A+B) = 7 i (C+D) =5.

n seciunea din tabelele statistice corespunztoare acestei perechi de valori sunt listate trei valori ale lui B, respectiv 7, 6 i 5. n dreptul lui B = 6 gsim c valoarea lui D corespunztoare unui nivel de semnificaie de 0,05 este egal cu 1. Deoarece valoarea lui D din tabelul de contingen este egal cu valoarea lui D din tabele statistice, ipoteza nul nu se accept. Deseori apare necesar testarea gradului de semnificaie a asocierii dintre variabile provenind de la mai mult de dou subeantioane independente. S presupunem c dorim s stabilim dac imaginea populaiei despre un parc de distracii existent ntr-o staiune turistic, difer n funcie de vrst. n acest caz, tabelul de contingen va avea patru rnduri (persoane pn la 18 ani, ntre 18 i 30 ani, ntre 30 i 50 ani i peste 50 de ani) i trei coloane (persoane cu imagine favorabil, persoane cu imagine nefavorabil i persoane cu imagine neformat). Testul 2 se poate folosi cu succes i n astfel de situaii, procedura fiind identic cu cea n cazul celor dou subeantioane independente. O cerin important a testului se refer la mrimea frecvenelor care trebuie s rezulte din observare. Statisticianul W. Cochran susine c pentru reuita testului

2 nici o frecven Oij nu trebuie s aib valoarea mai mic dect 1, iar frecvenele Oij
mai mici de 5 nu trebuie s depeasc 20% din numrul total al frecvenelor. Dac aceste condiii nu sunt ndeplinite, se recomand combinarea unor rnduri sau coloane, n limita posibilitilor existente sau mrirea eantionului. Pentru msurarea gradului de asociere ntre variabilele unui tabel de contingen cu orice numr de rnduri sau coloane se poate utiliza coeficientul de contingen C, care se calculeaz dup formula:
C=

c2 2 N + c

Acest coeficient poate fi calculat independent de natura variabilelor (continue sau discrete) i indiferent de natura repartiiei acestora (normal sau nu) n cadrul populaiei supuse cercetrii.

n ciuda faptului c un coeficient de contingen se dovedete, deseori, a fi deosebit de util pentru a ntregi analiza complet a datelor msurate printr-o scal nominal, acesta are i anumite limite: n primul rnd, dac teoretic valoarea minim a coeficientului poate fi zero (cnd variabilele studiate nu sunt deloc corelate), n schimb, valoarea maxim nu ajunge niciodat s fie egal cu 1, aa cum se ntmpl n cazul coeficienilor de corelaie Pearson, Spearman sau Kendall (atunci cnd k = r, limita superioar a lui C, indicnd o corelaie perfect ntre variabile, este dat de relaia
k 1 ); k

n al doilea rnd, datorit faptului c valoarea maxim a lui C depinde de mrimea lui k i r, rezult c doi coeficieni de contingen nu pot fi comparai dect dac provin din tabele de contingen de aceeai mrime;

n al treilea rnd, este evident c C poate fi calculat numai n acele cazuri n care 2 se poate utiliza;

n sfrit, merit menionat i faptul c C nu poate fi comparat direct cu nici un alt tip de coeficient de corelaie, cum ar fi cel al lui Pearson, al lui Spearman sau al lui Kendall.

n cercetrile de marketing n domeniul turismului sunt destul de frecvente i situaiile n care se utilizeaz scheme de proiectare de tipul nainte-dup, respectiv scheme prin care asupra subiecilor unui eantion se realizeaz dou msurri, una nainte i alta dup aplicarea factorului experimental. Un exemplu de cercetare prin utilizarea unei scheme de acest gen l constituie msurarea imaginii unui produs turistic n rndul subiecilor constituii ntr-un eantion, nainte i dup realizarea unei aciuni promoionale n favoarea produsului care face obiectul experimentului. Dac factorul experimental aciunea promoional a avut un efect asupra imaginii subiecilor investigai, atunci ar trebui ca cele dou msurri s indice o modificare a repartiiei acestora pe cele dou categorii i anume: subieci care au o imagine favorabil i subieci care au o imagine nefavorabil despre produsul luat n studiu. 9

Se pune ntrebarea: ce test statistic trebuie utilizat n asemenea cazuri pentru a evalua semnificaia schimbrilor de opinie de la o msurare la alta, nainte i dup aplicarea factorului experimental? Testul 2 sau testul probabilitii exacte a lui Fisher nu se pot folosi deoarece de data aceasta nu este ndeplinit condiia independenei ntre cele dou eantioane comparate (n acest caz cele dou eantioane sunt dependente). n situaiile de acest gen este necesar utilizarea testului McNemar 1 . Pentru realizarea acestui test, n cazul exemplului considerat, datele culese sunt organizate ntrun tabel de contingen dup cum urmeaz: Msurare dup Imagine nefavorabil Msurare nainte Imagine favorabil Imagine nefavorabil a c

Imagine favorabil b d

n acest tabel a, b, c i d reprezint frecvenele de apariie a celor patru cazuri posibile n urma aplicrii factorului experimental respectiv: numrul indivizilor care de la o imagine favorabil nainte trec la o imagine nefavorabil dup; numrul indivizilor care-i pstreaz imaginea favorabil; numrul celor care-i pstreaz imaginea nefavorabil; numrul indivizilor care trec de la o imagine nefavorabil nainte la una favorabil dup. Ceea ce intereseaz n acest exemplu sunt doar frecvenele nregistrate n celulele a i d, suma acestora reprezentnd totalul persoanelor care i-au modificat imaginea ntre prima i a doua msurare.

Q. McNemar, Psychological statistica, New York: Wiley, 1955.

10

Conform ipotezei nule se ateapt ca jumtate din modificri i anume (a+d) s fie ntr-o direcie (ele vor apare n celula a) i jumtate s fie n cealalt direcie (ele vor apare n celula d). Testul McNemar reprezint o adaptare a testului 2 la specificul unui tabel de contingen n care sunt considerate doar frecvenele nregistrate n cele dou celule. n acest caz valoarea calculat a lui 2 se determin cu ajutorul formulei, unde:
a+d a+d d a ( F F0 ) 2 2 2 = 1 + = a+d a+d F0 a ,d 2 2
2 2

unde: F1 frecvenele care rezult din observare; F2 frecvenele care se ateapt s rezulte conform ipotezei nule; respectiv (a+d). Dup realizarea gruprii i simplificrii termenilor se ajunge la forma final a formulei:
2 =

(a d )2
a+d

Valorile rezultate prin utilizarea acestei formule au o repartiie de eantionare care poate fi aproximat de o repartiie 2 cu un grad de libertate. Deoarece testul care este conceput pentru repartiii continue se aplic unor date n form discret, pentru o mai mare exactitate apare necesitatea unei corecii pentru continuitate care este cunoscut sub numele corecia lui Yates. n aceste condiii valoarea calculat a lui 2 va fi dat de urmtoarea formul:

=
2

( a d 1)
a+d

Dac valoarea calculat a lui 2 este egal sau mai mare dect valoarea teoretic (tabelat), corespunztoare unui grad de libertate i unui anumit grad de semnificaie

11

atunci ipoteza nul nu se accept, deci factorul experimental a avut un efect semnificativ asupra imaginii subiecilor care compun eantionul. S presupunem c n cercetarea ntreprins pe un eantion de 250 subieci, dup prelucrarea datelor, s-a ntocmit urmtorul tabel de contingen: Msurare dup Imagine nefavorabil Msurare nainte Imagine favorabil Imagine nefavorabil Pe baza acestor date rezult: 140 30

Imagine favorabil 40 40

=
2

( a d 1)
a+d

(140 40 1)
140 + 40

9801 = 54,45 180

2 Valoarea teoretic corespunztoare pentru un grad de libertate este 0 , 95 = 3,84 .

Deoarece 2 calculat are valoare mai mare dect 2 teoretic, se poate afirma c la un grad de semnificaie de 0,025 ipoteza nul nu se accept, adic aciunea promoional a determinat schimbri semnificative ale imaginii produsului turistic n rndul subiecilor care compun eantionul. n final, mai merit fcut o remarc. Dac frecvena care se ateapt s rezulte conform ipotezei nule, respectiv (a+d) are valoare <5, n locul testului McNemar se va utiliza cunoscutul test binomial.

12

MODALITI DE ANALIZ BIVARIAT


ANALIZA GRADULUI DE ASOCIERE

n cercetrile de marketing, de obicei, analiza univariat prin considerarea separat a variabilelor, ca cea prezentat mai sus, reprezint doar nceputul. Un obiectiv important n procesul de analiz l reprezint n continuare analiza bivariat, care presupune aspectul: direciei (naturii); intensitii; semnificaiei statistice. msurarea gradului de asociere a dou variabile sub

Acest obiectiv se realizeaz cu ajutorul a diferite metode, funcie de tipul de scal utilizat pentru msurarea datelor. Dup ce n sptmna trecut am prezentat modul de analiz al asocierilor n cazul n care variabilele sunt msurate pe scala ordinal, n aceast sptmn vom continua prezentarea analizei bivariate a asocierilor, continund cu variabilele msurate pe scalele ordinale.

Variabilele ordinale
Msurarea gradului de asociere ntre dou variabile msurate cu ajutorul scalelor ordinale este mai plin de semnificaii deoarece, n afara relaiei de echivalen presupus de o scal nominal, tipul de scal ordinal permite i ordonarea alternativelor cercetate pentru fiecare variabil considerat. n cazul variabilelor de tip ordinal se poate face afirmaia c acestea variaz concomitent ntr-o anumit direcie, care poate fi pozitiv (variaia ambelor variabile se realizeaz n acelai sens) sau negativ (variaia celor dou variabile are loc n sensuri diferite).

Relaiile de asociere pot fi analizate sub forma relaiilor dintre rangurile alternativelor considerate pentru cele dou variabile, fie sub forma relaiilor dintre variabilele de tip ordinal. Considernd prima modalitate de cercetare a variabilelor considerate, sub forma relaiilor dintre ranguri, s considerm urmtorul exemplu: 15 companii de turism A, B, C, D, E, F, G, H, I, J, K, L, M, N, O ocup locurile 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14 i respectiv 15 n ceea ce privete profitabilitatea realizat la sfritul anului i locurile 2, 4, 1, 5, 3, 7, 6, 9, 8, 11, 12, 10, 14, 15 i respectiv 13 n ceea ce privete gradul de ocupare a locurilor de cazare. Pentru msurarea gradului de asociere dintre rangurile deinute de cele 15 companii n privina profitabilitii, pe de o parte i a gradului de ocupare a locurilor de cazare pe de alt parte, se poate utiliza coeficientul lui Spearman de corelaie a rangurilor, . Formula de calcul a acestuia este urmtoarea:
= 1
6 Di2 n(n 1)
i =1 2 n

unde: - reprezint coeficientul de corelaie a rangurilor al lui Spearman; Di - diferena ntre cele dou ranguri deinute de compania i; n - mrimea eantionului (numrul de companii). Calculele necesare pentru aplicarea acestei formule sunt prezentate n tabelul nr.1. Tabelul 1. Rangurile deinute de cele 15 companii de turism cuprinse n eantionul cercetat Rangul deinut n ceea ce privete Compania Profitabilitatea A B 1 2 Gradul de ocupare 2 4 1 2 1 4 Di
Di2

C D E F G H I J K L M N O

3 4 5 6 7 8 9 10 11 12 13 14 15

1 5 3 7 6 9 8 11 12 10 14 15 13

2 1 2 1 1 1 1 1 1 2 1 1 2

4 1 4 1 1 1 1 1 1 4 1 1 4

Folosind datele din tabelul nr. 20.3 rezult c:


= 1
6 30 = 0,94 15(15 2 1)

tiut fiind faptul c poate lua valori ntre 1 (acesta indic o corelaie invers perfect) i +1 (corelaie pozitiv perfect), iar zero reprezint lipsa total de asociere dintre cele dou variabile, n exemplul considerat se poate afirma c ntre cele dou variabile, profitabilitatea companiilor de turism i gradul de ocupare a locurilor de cazare, exist o corelaie direct i foarte intens. Pentru a testa gradul de semnificaie statistic a coeficientului de corelaie obinut (testul se poate realiza numai dac n>10) se formuleaz ipoteza nul: H0: pentru populaia statistic cercetat =0 i ipoteza alternativ H1: pentru populaia statistic cercetat 0. Dintr-un tabel statistic al repartiiei normale, pentru un nivel de ncredere de 0,99 (sau 0,94), valoarea coeficientului Z (coeficientul care corespunde probabilitii cu care se garanteaz rezultatele) este de 2,58. Pentru determinarea valorii calculate Zc se folosete urmtoarea formul: 3

Zc =

-0
1 n 1

0,94 = 3,54 1 14

tiind c dac - Zteoretic Zc Zteoretic, - se accept ipoteza nul H0 ,iar n caz contrar se accept ipoteza alternativ H1, n exemplul considerat concluzia este c se accept H1, adic valoarea coeficientului de corelaie a rangurilor n populaia statistic cercetat difer n mod semnificativ de zero. Dac se impune a doua modalitate de cercetare a relaiilor de asociere, sub forma relaiilor dintre variabilele de tip ordinal i dac n cercetarea relaiilor dintre ranguri mai multe alternative sunt la egalitate, atunci se apeleaz la coeficientul al lui Goodman i Kruskal. Cu prilejul unei expoziii culinare, s presupunem c se organizeaz i degustarea de ctre un eantion de 300 de persoane a unui preparat culinar dietetic, culegndu-se informaii privitoare la inteniile acestora de a consuma n viitor preparatul respectiv (inteniile sunt prezentate pe cinci niveluri, de la categoria 1 sigur va cumpra, la categoria 5 sigur nu va cumpra). Pornind de la datele culese, se urmrete, printre altele, dac exist sau nu o corelaie ntre inteniile de cumprare ale produsului culinar dietetic testat i vrst. Pentru realizarea acestui obiectiv, datele se organizeaz n tabelul urmtor: Tabelul 2. Repartizarea inteniilor de cumprare n funcie de vrst Categorie de vrst 1 (sub 20 ani) 2 (20 40 ani) 3 (40 50 ani) 4 (peste 50 ani) 1 5 10 20 35 Inteniile de cumprare 2 10 10 15 25 3 15 15 15 20 4 20 20 10 5 5 25 20 5 1

Chiar fr a calcula un coeficient care s sintetizeze gradul de asociere dintre cele dou variabile, din simpla analiz a tabelului nr.20.4 rezult c ntre inteniile de cumprare i vrst pare s fie o corelaie invers, n sensul c, cu ct persoanele avanseaz n vrst, inteniile de cumprare a produsului culinar dietetic sunt mai pronunate. 4

Calculul coeficientului al lui Goodman i Kruskal se face folosind urmtoarea formul:


P-Q P+Q

unde: P i Q sunt valori calculate, dup cum se arat mai jos. Pentru a obine valoarea lui P se ncepe prin a nmuli frecvena din colul din stnga-sus cu suma frecvenelor aflate mai jos cu un rnd i la dreapta; astfel: 5 (10+15+20+20+15+15+10+5+25+20+5+1) = 805 Apoi, procesul continu n acelai mod, considernd frecvena de sus a celei de-a doua coloane: deci 10 (15+20+20+15+10+5+20+5+1) = 1110. n continuare, se consider frecvena de sus a coloanei a treia i anume: 15 (20+20+10+5+5+1) = 915 n sfrit, n cazul frecvenei de sus a coloanei a patra rezult: 20 (20+5+1) = 520 Mai departe, se consider frecvenele situate pe rndul doi i trei, respectiv: 10 (15+15+10+5+25+20+5+1) = 960 10 (15+10+5+20+5+1) = 560 15 (10+5+5+1) = 315 20 (5+1) = 120 20 (25+20+5+1) = 1020 15 (20+5+1) = 390 15 (5+1) = 90 10 (1) = 10 nsumnd toate produsele obinute mai sus se obine P = 6815. Pentru calculul lui Q se procedeaz dup aceeai regul ncepndu-se din colul din dreapta-sus i mergnd de la dreapta spre stnga. Dup efectuarea tuturor calculelor rezult Q = 20800. n aceste condiii =
6815 - 20800 = - 0,50 6815 + 20800

Cunoscnd c poate lua valori n intervalul 1 i +1, ca i n cazul lui , n exemplul considerat se poate face afirmaia c ntre inteniile de cumprare ale produsului culinar dietetic testat i vrst exist o corelaie invers destul de intens.

Variabilele parametrice
n cazul scalelor metrice (interval sau proporionale) se tie c este posibil i msurarea distanelor dintre alternative, ceea ce mbogete mult cantitatea i calitatea informaiei ce se poate obine. De data aceasta direcia (natura), intensitatea i semnificaia statistic a gradului de asociere dintre dou variabile are la baz coeficientul de corelaie al lui Pearson, r, ndeobte cunoscut sub denumirea de coeficient de corelaie. Acesta permite s se stabileasc i mrimea modificrii unei variabile,ca urmare a modificrii altei variable, indiferent de unitile folosite pentru msurarea lor. Calculul coeficientului de corelaie, are la baz, n afar de cerina ca pentru msurare s se fi utilizat scale metrice i urmtoarele presupuneri referitoare la natura datelor folosite: variabilele considerate sunt conceptualizate ca fiind continue; repartiia tuturor valorilor fiecrei variabile este normal; distribuia comun a valorilor celor dou variabile considerate, trebuie s evidenieze o legtur liniar i dispersii egale ale tuturor valorilor variabilelor. S presupunem c se urmrete s se stabileasc dac exist o corelaie ntre modificarea venitului naional n ultimii 6 ani ntr-o ar oarecare i circulaia turistic intern din ara respectiv (cheltuielile pentru turism ale populaiei). n tabelul nr.20.5 se prezint indicii cu baz fix ai celor dou variabile considerate n cei 6 ani i calculele necesare pentru determinarea lui r. Avnd la dispoziie datele tabelului nr.3, pentru calculul coeficientului de corelaie se folosete urmtoarea formul: 6

r=

n XY - X Y
n x ( X ) n Y ( Y )
2 2 2 2

r=

1045,32 = 0,99 6 76776.08 458058.24 6 66430.26 398161 1045,330481 =

6 71351,02 - 676,8 631

Tabelul 3. Evoluia venitului naional i a cheltuielilor pentru turism ale populaiei Venitul naional (X) 100,0 105,4 110,6 115,6 120,4 124,8 X = 676,8 N=6 (X) = 458058,24
2

Cheltuieli pentru turism (Y) 100,0 102,2 104,3 106,3 108,2 110,0 Y=631,0 (Y) = 398161
2

Anul

X2

Y2

XY

1 2 3 4 5 6

10000,00 11109,16 12232,36 13363,36 14496,16 15575,04 X2= 76776,08

10000,00 10444,84 10878,49 11299,69 11707,24 12100,00

10000,00 10771,88 11535,58 12288,28 13027,28 13728,00

Y2=66430,2 XY= 6 71351,02

tiind c, la fel ca n cazul coeficientului de corelaie a rangului i r poate lua valori ntre -1 i +1, n exemplul considerat se poate afirma c cele dou variabile, venitul naional i circulaia turistic intern sunt foarte strns corelate, iar asocierea este pozitiv. Dac r, coeficientul de corelaie, se ridic la ptrat rezult coeficientul de determinare, r2=0,98, care indic proporia variaiei explicate a uneia din variabile (98 %) de ctre cealalt variabil. De data aceasta este posibil compararea a doi coeficieni de determinare i evidenierea diferenei dintre ei n ceea ce privete variaia explicat. Pentru a testa gradul de semnificaie statistic a coeficientului de corelaie obinut (testul se poate realiza pentru orice mrime a eantionului) se formuleaz ipoteza nul. H0: pentru populaia statistic cercetat r=0 i ipoteza alternativ 7

H1: pentru populaia statistic cercetat r0. Din tabelul statistic al repartiiei normale, pentru un nivel de ncredere de 0,99, valoarea coeficientului Z (coeficientul care corespunde probabilitii cu care se garanteaz rezultatele) este de 2,58. Pentru determinarea valorii calculate Zc se folosete urmtoarea formul:
1+ r 1,1513 + log10 -0 1 - r = 4,58 Zc = 1 n3

Cunoscnd c dac - Zteoretic Zc Zteoretic, se accept ipoteza nul H0, iar n caz contrar se accept ipoteza alternativ H1, n exemplul considerat concluzia este c se accept H1, adic valoarea coeficientului de corelaie n populaia statistic cercetat difer n mod semnificativ de zero.

TEHNICI DE ANALIZ MULTIVARIAT


Pn la utilizarea calculatoarelor electronice pentru prelucrarea informaiei de marketing, metodele de analiz univariat (cu ajutorul acestora se analizeaz doar o singur variabil) i metodele de analiz bivariat (ele sunt utilizate pentru analiza legturile de asociere care exist ntre dou variabile), ca cele prezentate mai sus, au reprezentat modalitatea principal de analiz. n cercetarea de marketing se ntlnesc foarte frecvent situaii n care sunt supuse analizei mai mult de dou variabile. De data aceasta, locul analizei bivariate este luat de analiza multivariat care presupune utilizarea unui grup de metode statistico-matematice cu ajutorul crora se pot cerceta simultan legturile de asociere existente ntre trei sau mai multe variabile. Cele mai cunoscute metode de analiz multivariat sunt urmtoarele: analiza de regresie multipl (simultan sau n trepte); analiza discriminantului liniar multiplu; analiza multivariat a variaiei; analiza canonic; analiza factorial; analiza grupurilor; scalarea multidimensional (n varianta metric sau nemetric); analiza structurilor latente. Alegerea uneia din aceste metode se face n funcie de natura variabilelor supuse analizei, criteriu care st i la baza clasificrii metodelor de analiz multivariat (vezi figura nr. 1.). Pentru realizarea acestei clasificri se au n vedere urmtoarele trei caracteristici ale variabilelor analizate: a) dac unele variabile sunt dependente de altele (relaii de natur cauzal) sau dac ntre variabile exist doar legturi de asociere; b) n cazul relaiilor de dependen, dac se consider una sau mai multe variabile dependente; c) dac pentru msurarea variabilelor se utilizeaz o scal metric (interval sau proporional) sau o scal nemetric (nominal sau ordinal).

n funcie de rspunsurile date n fiecare din aceste trei situaii, se alege una sau alta din metodele de analiz multivariat.
TOTALITATEA METODELOR STATISTICE MUTIVARIATE

Sunt unele variabile dependente de altele? DA NU

METODE DE STUDIERE A DEPENDENTELOR METODE DE STUDIERE A DEPENDENELOR

METODE DE STUDIERE A INTERDEPENDENTELOR METODE DE STUDIERE A INTERDEPENDENELOR

Cte variabile dependente sunt considerate?


UNA

Cate variabile dependente sunt considerate?

MAI MULTE

Este msurat n scal metric?

Este masurata in scala metrica?

Sunt msurate n scal metric?

Sunt masurate in scala metrica?

Sunt variabilele masurate in scala msurate n scal metrica? metric?

Sunt variabilele

DA

NU

DA

NU

DA

NU

ANALIZA DISCRIMINANTULUI LINIAR MULTIPLU

ANALIZA MULTIVARIAT A VARIAIEI

Fig. 1. Metode statistice multivariate Metoda regresiei multiple este cea mai frecvent utilizat n cercetrile de marketing dintre toate metodele de analiz statistic multivariat. Cu ajutorul acesteia este posibil cercetarea relaiei liniare dintre o variabil dependent, msurat cu o scal metric i dou sau mai multe variabile independente msurate cu orice tip de scal. Regresia multipl are ca obiectiv principal explicarea i previziunea variaiei variabilei dependente n funcie de covariana ei cu variabilele independente. Forma general a unui model de regresie este urmtoarea:

X + X + ... + X + ... + X = + Y 1 1 2 2 i i n n

ANALIZA STRUCTURILOR LATENTE

ANALIZA GRUPURILOR

SCALAREA NEMETRIC MULTIDIMENSIONAL SCALAREA METRICA

ANALIZA FACTORIAL ANALIZA CANONICA

REGRESIA MULTIPL

SCALAREA METRIC MULTIDIMENSIONAL

ANALIZA CANONIC

ANALIZA STRUCTURILOR LATENT

ANALIZA DISCRIMINANTULUI LINIAR MULTIPLU

ANALIZA MULTIVARIATA A VARIATIEI

ANALIZA GRUPURILOR

ANALIZA FACTORIALA

SCALAREA NEMETRICA MULTIDIMENSIONALA

REGRESIA MULTIPLA

MULTIDIMENSIONALA

unde:

- reprezint valoarea estimat a variabilei dependente (uneori se folosete i denumirea Y


de valoare calculat i se noteaz cu Yc);

- parametru care exprim valoarea estimat a interceptului;

- valoarea estimat a parametrului care exprim relaia dintre Y i Xi (semnul plus al lui
indic o legtur direct, iar semnul minus una invers);
Xi o variabil independent; n numrul variabilelor independente.

, prin intermediul crora se exprim legturile dintre i Parametrii modelului,


variabilele independente i variabila dependent, reprezint nite estimri realizate prin metode statistico-matematice. Dup cum se cunoate, un model de regresie liniar are avantajul c permite calculul fr prea mari dificulti al parametrilor i face posibil evaluarea sa din punct de vedere statistic. Deseori, din motive operaionale, chiar dac relaiile dintre variabila dependent i variabilele independente nu sunt liniare, cu riscul apariiei unui grad de distorsiune mai mare n estimarea parametrilor, ele sunt presupuse a fi astfel. Metoda regresiei multiple permite definirea unei funcii care s minimizeze suma ptratelor diferenelor dintre valorile actuale i cele estimate ale variabilei dependente. Metodologia de specificare i de interpretare a unui model de regresie multipl este din ce n ce mai complex pe msur ce numrul variabilelor crete. Pentru estimarea parametrilor unui model cu mai mult de trei variabile, operaiune care se realizeaz de obicei cu ajutorul metodei celor mai mici ptrate, este necesar utilizarea calculatorului electronic. Analiza de regresie poate fi: n trepte; n primul caz, variabilele independente sunt introduse n model una cte una, n funcie de capacitatea lor de a explica variaia variabilei dependente. Aceast capacitate este evaluat prin utilizarea unor teste statistice; sau simultan presupune utilizarea de la nceput a tuturor variabilelor independente, indiferent de capacitatea lor explicativ.

Foarte frecvent, n cercetrile de marketing, prin aceast metod se analizeaz cererea de bunuri sau servicii (variabila dependent) n funcie de factorii si determinani (venituri bneti, preuri i tarife etc.).

Avnd n vedere c funcia de regresie dintre dou sau mai multe variabile se poate exprima prin variate relaii matematice liniare sau neliniare, pentru obinerea unor rezultate ct mai exacte , se recomand s se aleag modelul de regresie adecvat. n funcie de numrul factorilor (X1, X2, Xn) care influeneaz evoluia variabilei dependente (Y) se deosebesc: regresie unifactorial sau simpl; regresie multifactoral sau multipl.

Modele de regresie unifactorial


Regresia unifactorial descrie legtura dintre dou variabile (Y i X), considernd c ali factori au o aciune constant sau neglijabil asupra caracteristicii variabilei dependente Y. Ecuaia de regresie este: Y = f(X) + et Cele mai cunoscute modele de regresie unifactorial sunt: modelul liniar, modelul exponenial, parabolic, hiperbolic i logaritmic. a) Modelul liniar. Considernd c legtura dintre Y i X este liniar i se realizeaz sub form de tendin, rezult c: Y = a +bX Modelul prezentat este specific tipului de legtur dintre dou carcteristici care variaz n progresie aritmetic. De menionat c dependena liniar dintre Y i X se consider ca o dependen stochastic n care unei valori xi i pot corespunde mai multe valori yi. Parametrii a i b se estimeaz cu ajutorul MCMMP. Coeficientul a, care poate lua att valori pozitive ct i negative, reprezint ordonata la origine, respectiv, este valoarea lui Y cnd X este egal cu zero. Coeficientul b este cunoscut sub denumirea de coeficient de regresie. El arat msura n care se modific n medie caracteristica dependent n cazul n care caracteristica independent se

modific cu o unitate. n funcie de semnul coeficientului de regresie se poate aprecia tipul de legtur; n cazul corelaiei directe, coeficientul are valoare pozitiv; n cazul corelaiei inverse valoarea lui este negativ; n cazul n care b=o se apreciaz c cele dou variabile (Y i X) sunt independente. n graficul de corelaie coeficientul b indic panta liniei drepte. b) Modelul exponenial n care: Y= a bX Prin logaritmare modelul se poate transforma ntr-un model liniar de forma: lg Y = lg a + X lg b + e Fcnd urmtoarele nlocuiri: y= lg Y; a = lg a; b = lg b rezult ecuaia unei drepte, respectiv: y = a + bX + e Acest model se utilizeaz de regul n cazul n care variabila independent crete n progresie geometric. Sunt curbe care nu se pot transforma n dreapt, aa cum s-a procedat la modelul exponenial. c) Modelul parabolei de gradul 2 are expresia: Y = a + bX +cX2 Determinarea parametrilor ecuaiei de regresie de tip parabolic se face folosind MCMMP respectiv, determinnd minimul expresiei: (Y-a-bX-cX2)2 minim d) legturile dintre fenomenele economice pot fi i de forma unei hiperbole. Se poate ntlni, de exemplu, o hiperbol descris de ecuaiile:
Y=a+
Y= a+b X b +e X

b sau X

Funcia de estimaie este:


Y=a+

d) Modelul logaritmic este dat de expresia: Y = a + b lg X, Care se estimeaz prin modelul:

Y = a + b lg X + e Cnd a>0 i b>0 curba este cresctoare, iar cnd a<0 i b<0 curba este descresctoare. Pentru a verifica care model este mai potrivit se calculeaz suma ptratelor abaterilor dintre valorile reale i cele ajustate i se alege ca cel mai adecvat, modelul pentru care suma ptratelor este cea mai mic.

Modele de regresie multifactorial


ntre fenomenele de pia exist tipuri de legturi complexe care se caracterizeaz prin influena unui numr mare de factori asupra variabilei dependente. Asemenea legturi se pot exprima cu ajutorul ecuaiei de regresie multipl: Y = f (X1, X2, , Xp) + et n care: X1, X2, , Xp reprezint variabilele independente sau factoriale; et variabila aleatoare cu dispersie constant i medie nul. Variabilele independente incluse n model trebuie s exprime factorii cu influen esenial asupra fenomenului cercetat. Cel mai utilizat model de regresie multifactorial este modelul liniar a crui expresie are relaia: Y =a0 +a1X1 +a2X2 + + apXp + et unde: a0 reprezint coeficientul care exprim influena factorilor neinclui n model, considerai cu aciune constant; ai coeficienii de regresie multipl i arat ponderea cu care influeneaz fiecare caracteristic factorial Xi asupra varibilei dependente Y Specific regresiei liniare multiple este faptul c variabila rezultativ Y se modific uniform n cazul n care variabilele independente Xi se modific cu o unitate. Parametrii a0, a1, a2, ,ap se calculeaz pe baza MCMMP, iar coeficienii de regresie ai pot avea fie semn pozitiv, fie semn negativ i arat tipul de legtur (direct sau invers) dintre variabila factorial Xi i variabila rezultativ Y. n practica statistic pot apare situaii n care diferitele caracteristici studiate acioneaz prin multiplicarea lor, influenele nu mai sunt n acest caz uniforme, ci proporionale cu valoarea caracteristicii; ele se manifest cu un anumit ritm de cretere, ceea ce face ca gradul de influen al caracteristicilor analizate s fie proporional cu valoarea acestora.

Se poate stabili de exemplu, un model exponenial mutifactorial de forma: Y = a0X1a1X2a2 Xpap Prin logaritmare, modelul exponenial de mai sus se poate transforma ntr-unul liniar. Legtura multifactorial liniar se poate reprezenta grafic sub forma unui plan. Acest tip de legtur presupune ca variabilele factoriale s fie independente adic, s nu se manifeste fenomenul de multicoliniaritate. Unul din principalele avantaje ale modelelor regresiei multifactoriale, ca instrument de lucru, este faptul c permite verificarea a numeroase variabile cauzale, putndu-se modifica cu uurin forma ecuaiilor, schimbnd unele din variabilele independente cu altele i se pot simula diverse variante de evoluie prin calculul valorilor pe orizontul de previziune stabilit. Modelele de regresie multifactorial sunt un instrument util n previziunea cererii de mrfuri i servicii a populaiei, dar el nu este lipsit de obstacole care pot duce la erori mari n rezultate: cauzalitate n dublu sens, n cazul n care caracteristicile independente influeneaz variabila rezultativ iar aceasta la rndul ei influeneaz variabilele independente; multicoliniaritatea apare atunci cnd unele dintre variabile nu sunt independente ntre ele. Rezultatul previziunii nu va fi influenat dac intercorelaia dintre variabilele independente se continu i n viitor. autocorelaia poate apare provocat de omiterea din ecuaie a unor variabile critice. asocierea aparent fr cauzalitate atunci cnd se izoleaz variabilele independente care nu sunt considerate ca avnd o legtur raional, cauzal cu variabila dependent.

Modele LAG
Efectul celor mai multe dintre influenele factorilor exogeni se resimte dup trecerea unui intervel mai mic sau mai mare de timp, presupunnd ns un decalaj ntre aciune i rspuns, c efectele aciunii apar cu o anumit ntrziere (lag). Aceast ntrziere poate fi: de foarte scurt durat (creterea ofertei de produse deficitare cretere vnzrilor; schimbarea preului nivelul vnzrilor, etc.); de scurt durat, de regul mai mic de un an (intensificarea reclamei cretere vnzrilor, creterea dobnzii scderea vnzrilor, creterea inflaiei creterea preurilor)

de durat medie, ntre 1 3 ani (modernizarea tehnologiei creterea produciei, modificri de legislaie comportamentul economic, mbuntirea calitii produsului creterea vnzrilor, etc.);

de lung durat (investiii n transporturi rentabilizarea transporturilor, investiii ridicarea standardului de via, dezvoltarea nvmntului creterea productivitii i a calitii activitilor, etc.). O meniune aparte merit a fi fcut cu privire la conexiunile de tip feed-back i feed-

foreward care i ele presupun o distan n timp de la declanarea unei aciuni, respectiv atingerea unui obiectiv, pn la constatarea efectului. Problemele de msurare care apar n specificarea i utilizarea modelului lag n analiz i previziunea cererii de mrfuri sunt: stabilirea unitii de timp la care se refer fiecare nivel al variabilelor modelului, delimitarea ntrzierii apariiei efectului, estimarea parametrilor. Stabilirea unitiide timp creia i corespunde un nivel Yt presupune alegerea ntre posibiliti de a obine datele anual, trimestrial, lunar, sptmnal. Un interval (unitate de timp) prea mare face inaccesibil depistarea de influene cu ntrzieri de durate scurte; alegerea unei uniti de timp prea mici poate provoca dificulti n ce privete obinerea datelor sau delimitarea ntrzierilor pe o durat lung. Ca urmare, ne bazm n opiunile noastre pe particularitile fenomenului, obiectivele cercetrii de marketing i, nu n ultimul rnd, pe posibilitile existente de a obine date privind unitatea de timp considerat relevant. Delimitarea ntrzierilor la care efectul rspunde atunci cnd variabila exogen se modific poate beneficia de avantajele unei reprezentri grafice adecvate acestui scop. Astfel, cronograma privind evoluia variabilei independente, suprapus cronogramei variabilei dependente, poate pune n eviden o analogie care apare dup una sau mai multe uniti de timp. n ce privete parametrii modelelor cu efect ntrziat, acetia sunt variabili ca numr n raport cu tipul de model rezultat n urma specificrii. n mod frecvent deosebim: a) modele unifactoriale n care efectul se resimte dup o ntrziere de o unitate de timp Yt = a0 + a1Xt-1 + et b) modele autoregresive n care ntrzierea este distribuit pe mai multe uniti de timp Yt = a0 + a1Yt-1 + a2Yt-2 + et c) modele mixte n care variabilele independente, cu sau fr efect ntrziat , pot fi de natur exogen (X) sau autocorelate (Yt-1) Yt = a0 + a1Xt +a2Yt-1 + a3Yt-1+ et d) modele lag distribuit n care variabila factorial (X) influeneaz efectul cu o ntrziere n descretere pe o perioad mai ndelungat.

Yt = a0 +a1(Xt + k1Xt-1 + k2Xt-2+) +et Unde: Yt variabila dependent ; Xt variabila independent ; et componenta aleatoare. Estimarea parametrilor decurge n mod obinuit prin utilizarea MCMMP. Existena ntrzierii n declanarea efectului face ca estimatorii s nu fie suficient de stabili datorit dependenei variabilei cauzale de perturbaie ca i datorit coliniaritii. n scopul evitrii acestor surse de deformare a parametrilor estimai, se recomand: metoda variabilelor instrumentale n vederea nlocuirii variabilei Yt-d cu o alta, intens corelat cu aceasta, dar independent n raport cu perturbaia; realizarea unor transformri de variabile n vederea reducerii numrului acestora ndeosebi n modelele cu lag distribuit.

Analiza multivariat a variaiei

Analiza multivariat a variaiei cuprinde un grup de metode aparinnd statisticii infereniale (deductive), utilizate mai ales pentru analiza datelor provenite din diferite tipuri de experimente, cu ajutorul crora se poate face separarea i testarea semnificaiei efectelor cauzate de aciunea simultan a mai multor factori. Numeroase tehnici de proiectare a experimentelor permit organizatorilor acestora s controleze variaia mai multor variabile independente (factori) i s estimeze efectele acestei variaii asupra variabilelor dependente msurate n scal metric. Numele de analiz a variaiei s-ar putea s conduc la impresia greit c aceste tehnici s-ar putea folosi pentru testarea diferenelor ntre dispersiile factorilor, nu ntre mediile acestora, aa cum se ntmpl de fapt. Printre cele mai cunoscute metode cu ajutorul crora se poate realiza analiza multivariat a variaiei se pot meniona: proiectrile factoriale, ptratele latine, ptratele greco-latine. Indiferent de metoda folosit pentru analiza variaiei, datele trebuie s ndeplineasc anumite cerine. n primul rnd, se presupune c datele culese provin de la grupuri experimentale a cror constituire din rndul unor populaii statistice alctuite conform repartiiei normale s-a fcut dup principii aleatoare. Mai precis, trebuie depuse eforturi pentru ca att selecia unitilor experimentale ct i aplicarea tratamentelor experimentale s aib la baz selecia aleatoare. n al doilea rnd, se face presupunerea c setul de date utilizate pentru a calcula variaia aleatoare (eroarea experimental) prezint aceleai posibiliti de a fi afectate de variaia aleatoare ntruct are o abatere standard (i deci o variaie) constant. A treia presupunere consider c variaia aleatoare este independent de la o observaie la alta. n al patrulea rnd, se presupune c efectele diferitelor surse ale variaiei (efectele factorilor experimentali, efectele de interaciune ntre factori i eroarea experimental) sunt aditive i nu multiplicative. Dac acest lucru nu ar fi adevrat, tehnicile utilizate pentru descompunerea variaiei totale n componentele ei nu ar mai fi valide. 1

n al cincilea rnd, categoriile variabilelor independente se presupune c sunt fixe. Exist ns i modele de analiz aplicabile unor definiri aleatoare a categoriilor (de regul construite ca subeantioane definite aleator).

n sfrit, Cea mai important cerin este ca factorii s fie exprimai n form discret, nu n cea continu.

Analiza variaiei
Analiza variaiei (ANOVA) i analiza covariaiei (ANCOVA) sunt folosite pentru a examina diferenele dintre valorile medii ale variabilei dependente sub efectul unor variabile independente controlate, dup izolarea efectului unor variabile independente necontrolate. n esen, ANOVA este folosit pentru a testa diferenele dintre mediile a dou sau mai multe grupuri (populaii). Mai precis, analiza variaiei testeaz ipoteza nul conform creia nu exist diferene ntre medii (altfel spus, toate mediile ar fi egale ntre ele). n forma cea mai simpl, analiza variaiei necesit o variabil dependent msurat pe o scal metric (interval sau proporional) i una sau mai multe variabile independente msurate pe o scal nemetric (nominal sau ordinal). Aceste variabile independente de tip categorial sunt denumite, de obicei, factori. Modul n care nivelurile (categoriile) factorilor acioneaz asupra variabilei dependente poart denumirea de tratament 1 . Procedurile de analiz a variaiei au la baz acelai principiu dar se difereniaz (i, ca urmare primesc denumirea corespunztoare) prin numrul de factori i numrul de variabile dependente analizate simultan n model. Vom distinge, pe de o parte, situaiile n care este analizat o singur variabil dependent, iar n funcie de numrul de factori putem realiza analiza variaiei cu un factor (one-way analysis of variance) sau analiza variaiei cu nfactori (n-way analysis of variance). Situaiile n care sunt mai multe variabile dependente i mai muli factori analizai simultan sunt cunoscute sub denumirea de analizei multivariat a variaiei (MANOVA). n situaia n care setul de variabile independente conine att variabile nemetrice (categoriale) ct i metrice, tehnica poart denumirea de analiz a covariatiei (ANCOVA). Rolul acestei forme a analizei variaiei este de a izola influena unor variabile independente (metrice) asupra variabilelor dependente pentru a putea evalua efectul factorilor.
1

Malhotra N.K. - Marketing Research: An Applied Orientation, Prentice Hali, EngleWood Cliffs, 1993, p. 522

Aplicaii n marketing ale analizei variaiei


Analiza variaiei este utilizat n mod deosebit n experimentele de marketing, atunci cnd se evalueaz influena unor variabile independente asupra altora, tratate ca dependente. Printre cele mai cunoscute utilizate n acest context se numr proiectrile factoriale, ptratele latine, ptratele greco-latine etc. Mult mai frecvent ns cercettorii urmresc s analizeze, n studii pe care le realizeaz, diferenele dintre valorile medii ale unei variabile independente pe care le ia la nivelul mai multor categorii ale uneia sau mai multor variabile independente (factori) pentru a putea concluziona dac exist sau nu diferene ntre grupurile respective. Mai precis, analiza variaiei poate furniza rspunsuri la ntrebri precum: exist diferene n privina duratei totale lunare a convorbirilor telefonice ntre persoanele din diferite regiuni ale rii sau pe categorii de educaie i venit? care sunt diferenele n privina inteniilor de cumprare la diferite niveluri ale preurilor unui produs? percepiile privind diversitatea ofertei (categorii), interaciunea cu vnztorii (da/nu) i modul n care au fost rezolvate plngerile (categorii) i pun amprenta asupra satisfaciei clienilor? consumul de cafea este influenat de vrst (categorii) i educaie (categorii)?

Indicatori i noiuni asociate analizei variaiei


Prezentm mai jos situaia analizei variaiei cu un factor. Indicatorii rmn valabili i pentru celelalte forme ale analizei variaiei. Variaia dintre grupuri (between variation): notat, de obicei cu SSX (sau SSntregrupuri)

reprezint variaia variabilei dependente corespunztoare variaiei mediei pe

categoriile variabilei independente. Ea reprezint partea din suma ptratelor aferent variabilei independente; Variaia din interiorul grupurilor (within variation) notat, de obicei cu SSE (sau SSin-interior sau SSeroare) reprezint variaia variabilei dependente datorat variaiei n

interiorul fiecrei categorii a variabilei independente. Aceast variaie nu este generat de variabila independente; Variaia total (total variation): notat, de obicei cu SST (sau SStotal) reprezint variaia variabilei dependente corespunztoare variaiei mediei pe categoriile variabilei independente. Ea reprezint partea din suma ptratelor abaterilor variabilei dependente aferent variabilei independente; Media ptrat (mean square): este suma ptratelor mprit la numrul gradelor de libertate; testul eta (TI2, eta2): msoar efectul variabilei independente asupra celei dependente i arat proporia explicat de prima n variabilitatea celei de a doua. Ia valori ntre 0 i 1; testul F (F statistic): verific ipoteza nul (H0) c dispersiile categoriilor variabilei independente pentru variabila dependent sunt egale; se calculeaz ca raport ntre media ptratelor aferent variabilei independente i media ptratelor aferente erorii.

Etapele realizrii analizei variaiei cu un singur factor


Analiza variaiei poate fi mprit n trei pai mari: identificarea variabilelor, efectuarea calculelor i interpretarea rezultatelor. Astfel: Identificarea variabilelor: n aceast etap trebuie inut cont de cerina acestui tip de analiz ca variabila dependent s fie metric iar cea independent s fie nemetric (categorial -msurat pe scal nominal sau ordinal). Descompunerea variaiei totale: n aceast etap este examinat variabilitatea variaiei din eantion (variabila independent) i pe baza acestei variabiliti se stabilete dac exist motive de a considera c mediile categoriilor populaiei difer ntre ele. Variaia total a variabilei dependente (SST) este format din variaia explicat de variabila independent (SSX sau SSntre-grupuri) i variaia rezidual (SSeroare sau SSin-intenor) SST = SSntre-grupuri + SSin-intenor sau SST = SSX + SSE unde: 4

SST = ( yi y ) 2
i =1

SS X = ( y j y ) 2
j =1

SS E = ( yij yi ) 2
j =1 i =1

unde: yi - valoarea i a variabilei dependente


y j - media variabilei dependente pentru categoria j a variabilei independente

y - media la nivelul ntregului eantion yij - valoarea i a variabilei dependente corespunztoare categoriei j a variabilei independente Msurarea efectelor: n aceast etap este determinat efectul factorului asupra variabilei dependente date de SSX. Pentru msurarea acestui efect se folosete testul eta 2 , calculat n modul urmtor:
SS X SST

2 =

Eta2 ia valori ntre 0 i 1. O valoarea apropiat de 0 indic faptul c nu exist diferene ntre medii n timp ce o valoarea apropiat de 1 arat o variabilitate ntre grupuri. Testarea semnificaiei statistice: se realizeaz cu ajutorul testului F prin verificarea ipotezei nul (H0) confom creia dispersiile variabilei dependente n cazul fiecrui grup (categorie) a variabilei independente sunt egale. Indicatorul testului F se calculeaz ca raport ntre variaia pus pe seama variabilei independente i ajustat cu numrul gradelor de libertate aferente (SSx/(k-1)) i variaia corespondent erorii ajustat i ea cu numrul gradelor de libertate diferen (SSE/(n-k)). Interpretarea testului F poate fi fcut absolut, prin compararea cu valorile tabelate sau prin prisma nivelului de semnificaie asociat. Un nivel de semnificaie sub 0,05 (aferent unei probabiliti de peste 95%) permite respingerea ipotezei nule a egalitii dispersiilor.

Neter J., Wasserman W., Kutner M. - Applied Linear Statistical Models, Irwin, Homewood, 2nd edition , 1985

Interpretarea rezultatelor: n situaia n care ipoteza nul a egalitii mediilor grupurilor a fost acceptat, variabila independent nu are un efect semnificativ asupra variabilei dependente. n caz contrar, prin neacceptarea ipotezei nule se poate concluziona c grupurile difer ntre ele din punct de vedere al caracteristicii studiate (variabila dependent) i c variabila independent exercit un efect semnificativ asupra celei dependente. Mergnd mai departe, o comparare a mediilor la nivelul grupurilor va da informaii legate de natura efectului variabilei independente.

Analiza variaiei cu n-factori


Acest tip de analiz se aplic n situaia n care exist o variabil dependent i mai muli (n) factori (variabile independente). Faptul c exist o aciune simultan a mai multor factori aduce n discuie efectul generat de fiecare dintre factori i cel produs de interaciunile dintre ei. Procedura de aplicare a analizei variaiei cu n-factori este similar cu cea n care avem un singur factor, dar modul de descompunere a variaiei este unul care trebuie s in seama de toi factorii implicai (i de interaciunile dintre ei). Pentru modelul cel mai simplu, cu 2 factori (X1 i X2) variaia total se calculeaz astfel: SST = SSX1 + SSX2 + SSX1X2 + SSE Un efect mai puternic al variabilei X1 va fi reflectat printr-o diferen mai mare ntre medii la nivelul categoriilor acestei variabile i sum a ptratelor SSX1 mai mare, la fel n cazul celeilalte variabile independente. Pe de alt parte, cu ct exist o interaciune mai mare ntre factorii X1 i X2 cu att contribuia comun la explicarea variaiei (ca rezultat al acestei interaciuni) va fi mai mare (relaia funcioneaz i n sens invers, artnd c o o valoare mic a SSX1X2 arat o independen ntre cei doi factori (din acest punct de vedere). Testul F va ajuta, de data aceasta, la calcularea nu numai a efectului principal al fiecrui factor, ci va fi calculat cte un indicator att pentru evaluarea efectului interaciunii ct i pentru a testa semnificaia statistic a ntregului model, deci efectul global al tuturor tratamentelor (factori, individual + interaciunea dintre ele). Valorile calculate alte testului Fisher (Fc) sunt comparate cu cele din tabelele statistice Ft asociate acestui test (ultimul pe 6

baza nivelului de semnificaie i numrului gradelor de libertate). Dac valorile calculate sunt mai mici dect cele tabelare (teoretice), atunci factorul respectiv nu are influen semnificativ asupra procesului analizat; dac valorile calculate sunt mai mari dect cele tabelare (teoretice), atunci factorul respectiv are o influen important asupra procesului.

Analiza covariaiei
De multe ori atunci cnd se analizeaz efectul exercitat de variabilele independente controlate asupra valorilor medii ale unei variabile dependente apare necesitatea de a ine cont i izola influena altor variabile independente. Aceasta se rezolv prin utilizarea analizei covariaiei care include n model, pe lng factorii msurai pe scale nemetrice i cel puin o variabil independent de tip metric, denumit covariant Utilizarea acestui are rolul de a elimina variaiile externe exercitate asupra variabilei dependente. La fel ca i n celelalte cazuri, semnificaia statistic a efectelor variabilelor covariante este testat cu ajutorul testului F. Analiza covariaiei este util atunci cnd ntre variabilele covariante i variabila dependent exist o relaie liniar i cnd acestea nu sunt corelate cu factorii 3 . Analiza covariatiei poate fi utilizata cu o singur alternant, cu mai multe alternante, ca i prin tehnicile multivariate ANOVA.

Specificitatea analizei multivariate a variaiei


Similar cu ANOVA, analiza multivariat a variaiei (MANOVA) include n model cel puin dou variabile dependente metrice i analizeaz efectele asupra acestora luate simultan. Obiectivul MANOVA este, la fel ca i pentru ANOVA, examinarea i testarea diferenelor dintre medii, dar n acest caz calculele sunt fcute pe baza vectorilor mediilor variabilelor dependente multiple. Analiza multivariat a variaiei se justific atunci cnd variabilele dependente sunt corelate ntre ele, n caz contrar fiind mult mai potrivit procedura ANOVA pentru fiecare dintre variabilele dependente luate n considerare.

Wildt A. R., Ahtola O. T., Analysis of Covariance; Beverly Hills, CA, Sage, 1978, p. 48-50.

MANOVA compar grupurile i explic diferenele dintre grupuri. Pentru aceasta MANOVA creeaz un nou rezumat al variabilelor dependente, care este o combinaie liniar a fiecrei variabile dependente iniiale. MANOVA poate fi folosit ntr-un sens, dou sensuri i cu un nivel ridicat de proiectare (cu multiple variabile independente), ca i n analizei covariaiei (controlnd variabilele suplimentare).