Sunteți pe pagina 1din 25

Capitolul 2

Analiza bivariat a datelor


Analiza bivariat const n prelucrarea simultan a datelor referitoare
la dou variabile i are ca scop punerea n eviden a unor eventuale relaii ce
ar putea s existe ntre aceste variabile.
Aceast analiz presupune studierea relaiilor de dependen dintre
variabile, cnd se caut explicarea unei variabile dependente, prin intermediul
unei variabile explicative independent, ct i relaiile de asociere dintre dou
variabile
n cazul aplicrii unor teste statistice, trebuie s se fac distincie ntre
eantioane independente i eantioane dependente (perechi), astfel:
dou eantioane sunt independente dac selecia unitilor unui eantion
nu depinde de selecia unitilor celuilalt eantion;
dou eantioane sunt dependente dac selecia unitilor unui grup
determin selecia unitilor altui grup. Un exemplu frecvent de grupuri
dependente apare atunci cnd se urmrete efectul unui experiment pe
acelai eantion, nregistrndu-se reacia indivizilor ninte i dup
experiment. Aceste grupuri se mai numesc i grupuri perechi.
O sintez a prelucrrilor ce se pot efectua cu dou variabile, n funcie de
tipul acestora, este redat n tabelul urmtor.
Tabelul Sinteza analizelor bivariate
Tipul primei Tipul celei de-a Abnalizele ce se pot efectua
variabile doua variabil
cantitativ cantitativ Studiul corelaiei (coef de corelaie a lui
Pearson)
Teste de comparare a dou medii
cantitativ nominal Analiza variaiei (ANOVA)
Teste de comparare a dou medii
nominal nominal Testul 2
Coeficienii de asociere
ordinal ordinal Testul lui Spearman
Testul lui Kendall
ordinal nominal Testul lui Kruskal-Wallis
Testul lui Wilcoxon
Testul lui Mann-Whitney
1. Testarea egalitii a dou medii, cazul eantioanelor independente
Cnd testm o iptez asupra a dou medii ncercm s determinm, cu
ajutorul a dou eantioane dac exist o diferen semnificativ statistic, ntre
mediile celor dou populaii. Ipoteza nul este formulat astfel: nu exist
diferene semnificative ntre mediile celor dou populaii, respective populaiile
sunt identice n raport cu parametrul medie.
Este un test parametric care verific dac mediile a dou grupe sunt
egale. n SPSS presupune urmtorul demers: Analyze Compare Means
Independent Samples T Test.

Exemplu
Testarea egalitii a dou medii.(Independent Samples Test). Formulm ipoteza
nul c nota medie acordat de femei nu difer semnificativ de nota medie
acordat de barbai pentru gustul berii XX, cu alternativa c aceste medii difer
semnificativ. Eantioanele utilizate n prelucrarea datelor sunt independente.
Rezultatele privind media i abaterea standard n eantion, ct i abaterea
estimatorilor, sunt redate n tabelul urmtor:

Tabelul Parametrii celor dou eantioane


Sex N Media Abaterea Abaterea
n standard estimatorului
eantion
Note acordate pentru Feminin 80 8,7375 1,11086 0,12420
gustul sortimentului
de bere XX Masculin 113 8,3673 0,97746 0,09195
Construcia testului pentru compararea mediilor a dou eantioane
presupune testarea n prealabil a egalitii varianelor la nivelul celor dou
grupe. Statistica t se calculeaz diferit dup cum varianele sunt egale sau nu la
nivelul celor dou grupe. Ca urmare, formulm ipoteza nul i alternativa
referitoare la egalitatea varianelor:
H 0 : 12 = 22 H 1 : 12 22

Se aplic testul F, iar n cazul analizat Fcalc= 1,782. Cum nivelul de


semnificaie este de 0,183 nu putem respinge ipoteza nul, ca urmare vom
considera c varianele n cele dou populaii sunt egale. n consecin
t(calc)=2,449 iar pentru 191 grade de libertate, t(tab)=1,95. Cum t(calc)>t(tab),
rezult c ipoteza nul este respins, respectiv femeile au acordat note mai mari
pentru gustul berii XX, dect brbaii.
Tabelul Testul F i testul t
Testul F privind egalitatea a dou Testul t privind egalitatea a
variane dou medii

F Sig. t Grade de Nivelul de


libertate semnificai
e

Note acordate Cazul 1,782 0,183 2,449 191 0,015


pentru gustul egalitii
sortimentului varianelor
de bere XX Cazul 2,396 156,232 0,018
inegalitii
varianelor

2. Testarea egalitii a dou medii, cazul eantioanelor perechi.


Eantioane perechi, presupune ca fiecrei uniti din eantionul A s-i
corespund o unitate din eantionul B, urmrindu-se aceeai variabil. Astfel de
eantioane sunt folosite atunci cnd se urmrete evoluia unei variabile n timp
sau efectul unei aciuni.
Consider c variabila studiat este o variabil cantitativ X, astfel
fiecrui cuplu i se calculeaz diferena
d i X Ai X Bi
unde X Ai X Bi sunt valorile variabilei X pentru cuplu i . Astfel vom obine n
valori pentru d , aferente fiecrui cuplu i, i 1, n (mai multe amnunte vezi
1 n
parag. 5.4) . Ca urmare se poate calcula media acestor valori, d d i i
ni1
1 n
variana s d2 (d i d ) 2 .
n 1i1
Astfel putem formula ipoteza nul c:
H0 : d 0
H1 : d 0
Se va aplica testul t, cu comanda Analyze Compare Means- Paired Samples
Statistics).
Exemplu
Pentru a urmri reacia consumatorilor fa de noul ambalaj al berii XX,
comparativ cu vechiul ambalaj, un eantion de 96 persoane au acordat note n
cele dou cazuri, datele fiind prezentate n tabelul urmtor:

Tabelul Parametrii de la nivelul eantionului


Media n Abaterea Abaterea
standard estimatorului
Note acordate pentru vechiul 7,9271 96 1,03867 0,10601
ambalaj al sortimentului XX
Note acordate pentru noul 8,5000 96 0,98408 0,10044
ambalaj al sortimentului XX

Formulm ipoteza:
H0 : d 0
H1 : d 0
unde d exprim diferena dintre cele dou variabile (note acordate pentru
vechiul ambalaj al sortimentului XX i note acordate pentru noul ambalaj al
sortimentului XX ). Pentru testarea acestei ipoteze se va folosi testul t,
rezultatele aplicrii acestuia fiind redate n tabelul urmtor:

Tabelul Testul t (eantioane perechi)


Diferena dintre cele dou t Grade de Nivel de
variabile libertate semnificaie
Media Abaterea Abaterea
standard estimatorului

Note acordate -0,5729 1,01302 0,10339 -5,541 95 0,000


pentru vechiul
ambalaj al
sortimentului XX -
Note acordate
pentru noul
ambalaj al
sortimentului XX

Se observ c tcalc=-5,541, cum t(tab, 95, q=5%)=1,959 iar tcalc


>t(tab), ipoteza nul este respins. Deoarece d 0 , rezult c nota medie
acordat noului ambalaj este mai mare dect nota medie acordat vechiului
ambalaj, respectiv noul ambalaj este mai apreciat de ctre consumatori.

3. Studiul corelaiei dintre dou variabile cantitative


Legtura dintre dou variabile cantitative, ntr-o prima faz, este
exprimat cu ajutorul coeficientului de corelaie liniar, numit i coeficientul
lui Pearson. Acest coeficient d o msur a intensitii dependenei liniare ntre
dou variabile cantitative (X,Y). Relaia de calcul este urmtoarea:
cov( X , Y ) M ( XY ) M ( X ) M (Y )
r( X ,Y ) 1;1
X Y X Y

Indicatorul ofer informaii asupra direciei i intensitii legturii,


respectiv,
dac nregistreaz valori apropiate de 1 nseamn c ntre cele
dou variabile exist o legtur direct i de intensitate mare;
dac nregistreaz valori apropiate de -1 nseamn c ntre cele
dou variabile exist o legtur invers i de intensitate mare;
dac nregistreaz valori apropiate de 0 nseamn c ntre cele
dou variabile nu exist legtur;
Atunci cnd dispunem de un eantion n de date, coeficientul de
corelaie r va fi estimat prin
cov( X , Y )
r 1;1
s X sY
Exemplu

Analiza corelaiei presupune calculul coeficientului lui Pearson, utiliznd


meniul Analyze Correlate Bivariate.

Pentru a studia corelaia dintre dou variabile cantitative vom folosi


coeficientul de corelaie a lui Pearson, variabilele luate n studiu fiind
urmtoarele: note acordate pentru ambalajul sortimentului XX, note acordate
pentru gustul sortimentului XX, note acordate pentru pretul sortimentului XX.
Din tabelul urmtor se observ c acest coeficient nregistreaz valori destul de
mici (0,357; 0,319; 0,336), dar totui diferite de zero, ceea ce ne ndrepteste
s afirmm c ntre aceste variabile exist legtur de intensitate mic.

Tabelul Coeficientul de corelaie


Note acordate Note acordate Note acordate
pentru ambalajul pentru gustul pentru pretul
sortimentului XX sortimentului sortimentului
XX XX
Note acordate Coeficientul de 1 0,357 0,319
pentru ambalajul corelatie a lui
sortimentului XX Pearson
Nivel de 0,000 0,000
semnificaie
n 192 192 191
Note acordate Coeficientul de 0,357 1 0,336
pentru gustul corelatie a lui
sortimentului XX Pearson
Nivel de 0,000 0,000
semnificaie
n 192 193 192
Note acordate Coeficientul de 0,319 0,336 1
pentru pretul corelatie a lui
sortimentului XX Pearson
Nivel de 0,000 0,000
semnificaie
n 191 192 192

4. Analiza asocierii dintre dou variabile nominale


Prelucrarea variabilelor nominale se rezum la:
- elaborarea tabelelor de contingen;
- analiza existenei unei asocieri ntre variabile;
- caracterizarea numeric a intensitii asocierii dintre variabile.
O prim ipotez asupra existenei sau inexistenei asocierii ne este
furnizat de metode pur descriptive, ca studiul tabelului de contingen.
Urmrim dac frecvenele absolute nij iau valori apropiate n tot tabelul, caz n
care nu exist asociere ntre variabilele X i Y, iar dac frecvenele se
repartizeaz dup una din diagonale sau o curb oarecare sugernd existena
unei asocieri.
Metodele descriptive amintite anterior sunt imediate i uor de utilizat,
dar nu pot stabili clar existena sau inexistena uneiasocieri. Pentru aceasta, ne
vom folosi de metode cantitative, din care cea mai utilizat este 2 . Dup cum
vom vedea, aceasta utilizeaz doar frecvenele ca informaie numeric. Metoda
const n esen n a compara frecvenele absolute observate cu cele teoretice
corespunztoare cazului n care nu exist asociere.
Astfel formulm ipoteza nul:
H 0 : X,Y sunt independente (nu exist asociere)

H 1 : X,Y sunt dependente (exist asociere)


2
Pentru aceasta se va calcula statistica

I J (nij nij ) 2
2

i 1 j 1 nij
ni * n j
- nij i reprezint frecvenele teoretice determinate conform ipotezei
n
nule.
- nij repreyint frecvenele observate.
Se tie c statistica 2
este o variabil 2
cu v ( I 1)(J 1) grade de
libertate. Vom compara deci valoarea calculat a lui 2 cu valorile tabelate.

Dac 2 tab ( v , p ) putem afirma cu un risc de eroare p c exist


2

asociere ntre variabilele X i Y. Valoarea tabelat o privim ca pe un prag peste


care trebuie s treac valoarea calculat a lui 2 pentru a accepta cu o anumit
probabilitate existenaasocierii. Cu ct riscul de eroare dorit este mai mic, cu
att pragul va fi mai exigent, adic tab 2
( v , p ) va avea o valoare mai mare.

Aplicarea acestui test are anumite limite 1:


- volumul eantionului n trebuie s fie sufficient de mare, deoarece numrul de
csue unde nij* <5 trebuie s nu depasca 20% din totalul csuelor, n caz
contrar se vor grupa linii sau coloane din tabel nct aceast condiie s fie
ndeplinit;
- variabila 2
este sensibil depentet de gradele de libertate;

- variabila 2 permite studierea asocierii dintre variabile, dar nu msoar


intensitatea acesteia;
Studierea gradului de asociere
Coeficientul de asociere (contingen) al lui Pearson
Acest coeficient se bazeaz pe metoda 2 , se poate utiliza ca o metod
rapid (aceast facilitate exist chiar i n soft-urile de birotic cum ar fi
Microsoft Excel).
Relaia de calcul a coeficientului este:
2
C
n 2

1
Biales, C., Lanalyse statistique des donnes. Loutil statistique appliqu au marketing et
la gestion, 1998.
unde n este volumul eantionului. Ne intereseaz care sunt limitele acestui
coeficient, pentru a-i putea aprecia valorile numerice pe care le ia. Reamintim
c 2 este o msur global a distanei dintre dou repartiii: cea observat i
cea teoretic corespunztoare cazului n care nu exist legtur ntre variabile.
- dac 2 0 atunci C 0
- dac 2 atunci C 1
Ca urmare, C [ 0 ;1 )
Interpretarea gradului de asociere pe baza coeficientului este
urmtoarea:
- dac C 0 asocierea este nul (lipsa legturii)
- dac C ( 0 ; 0,3 ) asocierea este de intensitate slab
- dac C [ 0,3 ; 0,7 ) asocierea este de intensitate medie
- dac C [ 0,7 ; 1 ) asocierea este de intensitate puternic
Desigur aceste limite nu trebuie interpretate ntr-o manier foarte
rigid. O legtur este tot medie att la 0,35 ct i la 0,68. Prezint mai mult
interes compararea intensitii legturii dintre aceleai dou variabile pentru
aceeai populaie n momente de timp diferite sau pentru populaii similare.
De asemenea s-a artat c n cazul unui table de dimensiuni 2x2,
mazimum pentru C este 0,707, aspect de care trebuie s inem seama atunci
cnd interpretm coeficientul.
Coeficientul lui Cramer
Dac notm cu t min ( I 1); ( J 1) , acest coefficient are
urmtoarea relaie de calcul:
2
V
nt
i poate atinge valoarea 1 oricare ar fi dimensiune tabelului.
Coeficientul
Se calculeaz n cazul n care se studiaz asocierea dintre dou variabile binare.
Practic , se procedeaz astfel (utiliznd programul SPSS):
Tabele de repartiie bidimensionale pentru a reda distribuia eantionului n
raport cu 2 variabile se procedeaz astfel: Analyze Descriptive Statistics-
Crosstabs:

n fereastra Cells putem opta pentru opiunea Counts Observed, caz n care ne
va afia tabelul bidimensional cu ajutorul frecvenelor absolute, sau alegnd
opiunea Percentages, vom obine distribuia eantionului n raport cu cele 2
variabile cu ajutorul frecvenelor relative.
Exemplu
n cazul n care dispunem de dou variabile nominale sau de o variabil
nominal i una ordinal, prelucarea bivariat presupune: elaborarea tabelului
de repartiie bidimensional (tabel de contingen), editarea unui grafic adecvat
(cel mai adesea se reprezint diagrama prin coloane) i studierea nivelului de
asociere. n cele ce urmeaz sunt prezentate dopu cazuri.
a. Frecventa consumului de bere * Gradul de importan al notorietii n
alegerea mrcii de bere
Tabelul Tabel de contingen
Gradul de importan al notorietii n
alegerea mrcii de bere

Deloc Puin Important Foarte Total


important important important
Frecvena zilnic 2 6 6 10 24
consumului % din 0,6% 1,7% 1,7% 2,9% 6,9%
de bere Total
de 2-3 ori 9 31 35 25 100
pe % din 2,6% 8,9% 10,1% 7,2% 28,8%
sptmn Total
ocazional 29 55 76 63 223
% din 8,4% 15,9% 21,9% 18,2% 64,3%
Total
Total 40 92 117 98 347
% din 11,5% 26,5% 33,7% 28,2% 100,0%
Total
Grafice adecvate n acest caz sunt diagramele prin coloane.

80

60

40

Deloc important
20
Puti n i mportant

Im portant
Count

0 Foarte i mportant
zil nic de 2-3 ori pe saptam ocazi onal

Frecventa consumului de bere


Figura Diagrama prin coloane

Analiza asocierii dintre cele dou variabile presupune n prima etap


verificarea existenei legturii dintre cele dou variabile cu ajutorul testului
2 i apoi interpretarea coeficientului de contingen pentru a analiza gradul de
asociere dintre variabile. Din meniul Analyze Descriptive Statistics
Crosstabs se aleg cele dou variabile i n fereastra Statistics se selecteaz
parametrii dorii.
Se formuleaz ipotezele referitoare la existena legturii:
H 0 : 2 = 0 ( nu exist legtur )

H1 : 2 0
Tabelul Testul 2 (Chi-Square Tests)
Valori Grade de Nivel de
libertate semnificaie
Pearson Chi-Square 4,758 6 0,575
n 347

Tabelul Coeficientul de contingen


Valori Nivel de
semnificaie
Coeficientul 0,116 0,575
de contingen
n 347
n urma prelucrrilor efectuate rezult urmtoarele:
2
calc 4,758 2
tab 12,5 implic c ntre cele dou variabile (Frecventa
consumului de bere * Gradul de importan al notorietii n alegerea mrcii
de bere ) nu exist asociere fapt ce este confirmat i de nivelul sczut al
coeficientului de contingen (0,116).

b. Frecvena consumului de bere * Gradul de import al gustului n alegerea


mrcii de bere

Tabelul Tabelul de contingen


Gradul de importan al gustului n alegerea
mrcii de bere

Deloc Puin Important Foarte Total


important important important
Frecvena zilnic 1 1 6 16 24
consumului % din 0,3% 0,3% 1.7% 4,6% 6,9%
de bere Total
de 2-3 ori 1 22 77 100
pe % din 0,3% 6.3% 22,2% 28,8%
sptmn Total
Ocazional 5 43 175 223
% din 1,4% 12.4% 50,4% 64,3%
Total
Total 1 7 71 268 347
% din 0,3% 2,0% 20.5% 77,2% 100,0%
Total

Tabelul Testul 2
Valori Grade de Nivel de
libertate semnificaie
Pearson Chi-Square 15,478 6 0,017
n 347

n urma prelucrrilor efectuate rezult urmtoarele:


2
calc 15,478 2
tab 12,59 implic c ntre cele dou variabile (Frecvena
consumului de bere * Gradul de import al gustului n alegerea mrcii de
bere) exist legtur, dar de intensitate mic, fapt ce este confirmat i de
nivelul coeficientului de contingen (0,207).
200

100

Deloc important

Puti n i mportant

Im portant
Count

0 Foarte i mportant
zil nic de 2-3 ori pe saptam ocazi onal

Frecventa consumului de bere

Chi-Square Tests
Figura Diagrama prin coloane

Tabelul 21.22 Coeficientul de contingen

Valori Nivel de
semnificaie
Coeficientul de 0,207 0,017
contingen
n 347
5. Analiza variabilelor ordinale
5.1 Studierea corelaiei dintre dou variabile ordinale.
Coeficientul de corelaie a rangurilor al lui Kendall

Pentru a putea aplica acest indicator toate unitile populaiei trebuie s


poat fi ordonate n raport cu variabilele pentru care cercetm intensitatea
legturii.
Pentru a construi coeficientul, vom defini mai nti indicatorul de
concordan (P) i indicatorul de discordan (Q). n raport cu variabila X se
ordoneaz cresctor rangurile unitilor, iar n raport cu variabila Y pstrm
ordinea unitilor i deci o succesiune oarecare (rezultat din ordonarea n
raport cu X) a rangurilor ri , unde ri , i 1,...,n reprezint unul i numai unul
din numerele naturale de la 1 la n. Pentru fiecare rang ri , i 1,...,n , se
determin numrul rangurilor mai mari dect ri situate la dreapta, numr pe
care l notm cu Pi . nsumnd toate numerele Pi , i 1,...,n se obine un numr
notat cu P pe care l numim indicator de concordan.
n mod asemntor, pentru fiecare rang ri , i 1,...,n , se determin
numrul rangurilor mai mici dect ri situate la dreapta, numr pe care l notm
cu Qi . nsumnd toate numerele Qi , i 1,...,n se obine un numr notat cu Q
pe care l numim indicator de discordan. Relativ la aceti doi indicatori se
verific relaia:
n(n 1)
P Q
2
Pe baza indicatorilor de concordan i discordan construim
coeficientul de corelaie simpl a rangurilor al lui Kendall, definit astfel:
P Q P Q
P Q n(n 1)
2
Interpretarea intensitii legturii pe baza acestui coeficient [-1; 1] se va face
astfel:
- dac 0 legtura este direct
- dac 0 legtura este nul
- dac 0 legtura este invers
- dac [0 ; 0,3) legtura este de intensitate slab
- dac [0,3 ; 0,7) legtura este de intensitate medie
- dac [0,7 ; 1] legtura este de intensitate puternic

Coeficientul de corelaie a rangurilor al lui Spearman

Ca i coeficientul similar propus de Kendall, i acesta se calculeaz


pornind de la tabelul de concordan a rangurilor. Ne vom folosi de diferenele
d i dintre ranguri pentru aceeai unitate a populaiei relativ la cele dou
variabile. Coeficientul are urmtoarea expresie:
n
6 d i2
i 1
1 2
n( n 1)

Interpretarea acestui coeficient este asemanatoare cu cea a coeficientului de


corelaie a lui Kendall.

Exemplu
Tabele de repartiie bidimensionale i n acest caz prezint importan
repartiia eantionului n raport cu cele variabile att sub forma frecvenelor
absolute, ct i relative. Aceast prezentare a datelor presupune urmtorii pai:
Analyze Descriptive Statistics Crosstabs, n fereastra Cells alegnd i
opiunea Percentages. Cele dou tipuri de frecvene, absolute i relative, se pot
prezenta n acelai tabel de repartiie.

Grafice informaii privind repartiia eantionului n raport cu dou variabile


ordinale sunt disponibile i din vizualizarea graficului adecvat diagrama prin
benzi. Modul de obinere a acestuia este: Graphs Bar Clustered.

Analiza corelaiei se realizeaz cu ajutorul coeficientului lui Kendall, astfel:


Analyze Descriptive Statistics Crosstabs, selectnd n fereastra Statistics
acest coeficient.
Cazul a. Gradul de importan al notorietii n alegerea mrcii de bere/
Gradul de importan al disponibilitii n alegerea mrcii de bere

Tabelul Tabel de contingen


Gradul de importan al notorietii n Total
alegerea mrcii de bere

Deloc Puin Important Foarte


important important important
Gradul de Deloc 18 8 9 10 45
importan al important
disponibilitii n Puin 9 25 23 8 65
alegerea mrcii important
de bere Important 9 40 64 39 152
Foarte 4 19 21 41 85
important
Total 40 92 117 98 347

Tabelul Coeficieni de corelaie


Valori Asymp. Approx. Nivel de
Std. Error T semnificaie
Kendall 0,266 0,048 5,483 0,000
Spearman 0,302 0,054 5,881 0,000
n 347

Analiznd datele referitoare la coeficienii de corelaie i la nivelul de


semnificaie putem spune c ntre cele dou variabile exist legtur, dar de
intensitate mic.

Cazul b. Gradul de importanta al notorietatii in alegerea marcii de bere/


Gradul de importanta al ambalajului in alegerea marcii de bere

Tabelul Coeficieni de corelaie


Valori Asymp. Approx. Nivel de
Std. Error T semnificaie
Kendall 0,210 0,047 4,385 0,000
Spearman 0,238 0,053 4,558 0,000
n 347

Observm la fel c exist legtur ntre aceste variabile, dar de intensitate


mic(nivelul de semnificaie < 0,05).

Cazul c. Gradul de importan al notorietii n alegerea mrcii de bere/


Gradul de importanta al gustului in alegerea marcii de bere

Tabelul 21.26 Coeficieni de corelaie


Valori Asymp. Approx. Nivel de
Std. Error T semnificaie
Kendall 0,048 0,047 1,009 0,313
Spearman 0,052 0,052 0,974 0,331
n 347

n cazul analizat coeficienii de corelaie nregistreaz valori mici


(0,048; 0,052), ceea ce ne permite s afirmm c ntre variabilele analizate nu
exist legtur (nivelul de semnificaie este de asemenea >0,05).

Indicatori de corelaie. n cazul n care dispunem de dou variabile ordinale sau


o variabil ordinal i una cantitativ pentru a explica legtura dintre acestea se
recomand urmtoarele prelucrri: elaborarea tabelului de corelaie i
calcularea unui coeficient de corelaie (a lui Kendall sau a lui Spearman).

5.2 Testul semnului i a rangului al lui Wilcoxon


Este folosit pentru a determina dac dou eantioane dependente sunt
similare sau nu. De cele mai multe ori se testeaz reacia unitilor unui
eantion nainte i dup efectuarea unui experiment. De exemplu testm
atitudinea conumatorilor unui produs fa de dou aciuni de publicitate.
Pentru testarea ipotezei c nu exist diferene ntre rezultatele obinute
nainte i dup aplicarea experimentului, se va aplica testul lui Wilcoxon.
Aplicarea acestui test presupune parcurgerea urmtoarelor etape:
populaiei studiate I se asociaz o variabil ordinal;
testarea se realizeaz pe un eantion de volum n, cruia I se asociaz
vectorul aleator X x1 , x 2 ,...x n cuprinznd valorile variabilei nainte
de realizarea experimentului i vectorul Y y1 , y 2 ,...y n cuprinznd
valorile variabilei dup realizarea experimentului;
pentru fiecare unitate i, se calculeaz diferena d i , unde
d i yi xi , i 1, n ;
cazurile n care d i =0, sunt eliminate din etapele urmtoare;
valorile absolute ale diferenelor sunt aranjate n ordine cresctoare,
acordndu-se ranguri;
dac mai multe uniti au aceeai valoare se va calcula un rang mediu;
se va calcula suma rangurilor corespunztoare lui d i >0, notat cu T ,
iar suma rangurilor corespunztoare lui d i <0, notat[ cu T , iar
statistica T va fie gal cu cea mai mic dintre sume,
T min(T ; T )
din tabelul distribuiei T (Wilcoxon) se gsete valoarea teoretic a lui
T, Ttab (q, n)
dac T Ttab atunci se respinge ipoteza nul i se accept alternativa,
respective exist diferene ntre rezultatele obinute nainte i dup
aplicarea experimentului;
dac n>25, distirbuia T sepoate aproxima cu o distribuie normal, de
n(n 1) n(n 1)(2n 1)
medie T i abatere T .
4 24
n cazul n care eantioanele sunt independente se va aplica testul lui
Wilcoxon, cel al sumelor rangurilor.

Exemplu
Testul semnului i a rangului al lui Wilcoxon( Wilcoxon Signed Ranks Test).
Ipoteza nul pe care o testm poate fi formulat astfel: nu exist diferene ntre
notele acordate pentru gustul sortimentului XX , notele acordate pentru gustul
sortimentului XY Testarea se realizeaz pe un eantion de 97 persoane.
Rezultatele aplicrii testului sunt redate n tabelele de mai jos

Tabelul Testul lui Wilcoxon


n Media Suma
Rangului Rangurilor
Note acordate pentru Ranguri 12 48,50 582,00
gustul sortimentului XX - Negative
Note acordate pentru Ranguri 66 37,86 2499,00
gustul sortimentului XY Positive
Egalitate 19
de ranguri
Total 97

a Note acordate pentru gustul sortimentului XX< Note acordate pentru gustul
sortimentului XY
b Note acordate pentru gustul sortimentului XX> Note acordate pentru gustul
sortimentului XY
c Note acordate pentru gustul sortimentului XX= Note acordate pentru gustul
sortimentului XY

Tabelul Aproximarea cu Z
Note acordate pentru gustul
sortimentului XX- Note acordate
pentru gustul sortimentului XY
Z -5,043
Nivel de 0,000
semnificaie

Deoarece n>25, distribuia T se va aproxima cu o distribuie normal i se va


aplica testul Z,unde Z(calc)=-5,043<Z(tab)=-1,96, rezult c ipoteza nul este
respins, adic exist diferene ntre cele dou variabile, respectiv gustul
sortimentului XX este mai bine apreciat dect gustul sortimentului XY.

Analiza variaiei ANOVA


Analiza dispersionala , denumita si ANOVA Analysis Of Variance
reprezinta unul din procedeele de prelucrare statistica cele mai pertinente a
datelor de observatie. Metoda a fost pusa la punct de catre R.A. Fisher, un
matematician angajat n anul 1920 la statiunea Agricola experimentala
Rothamsted, pentru a spijini activitatea de prelucrare si interpretare a unui vast
material de observatie acumulat pe parcursul mai multor ani de experiente
agrotehnice. Doar n ctiva ani de lucru a pus la punct o serie de principii si
metode, nu doar de interpretare a rezultatelor, ci metodologii de programare,
dirijare a experimentelor si de interpretare statistica a rezultatelor.
In esenta, problema pe care a trebuit R. Fisher sa o rezolve si care prin
similitudine se poate regasi ntr -o sumedenie de alte domenii de activitati, s-ar
putea descrie astfel: sa se compare productiile medii pe anumite suprafete de
teren a unor soiuri diferite de cereale si plante tehnice, suprafetele fiind
prelucrate n mod diferit: ca adncime de aratura, cantitati si tipuri de
ngrasaminte aplicate, cantitatile si periodicitatea udaturilor etc.
Deci, n fond, problema de solutionat se reduce la a compara mediile
caracteristicilor populatiilor respective, de a testa omogenitatea
mediilor.Componenta economica a unor astfel de procedee de experimentare
consta n faptul ca permite identificarea efectelor semnificative cu un efort
experimental minim, deci cu un numar redus de masuri.
Frecvent utilizat pentru evaluarea legturilor de dependen dintre
variabile, datorit aplicrii ei simple i rapide, metoda analizei variaiei a fost
construit n jurul celui mai utilizat indicator de tendin central, media. Cu
ajutorul acestei metode este analizat efectul uneia sau al mai multor variabile
nominale sau ordinale asupra unei variabile cantitative. n cercetrile de
marketing, analiza variaiei este folosit adesea pentru identificarea diferenelor
dintre grupuri sau segmente aducndu-i aportul, n mod deosebit, n realizarea
experimentelor de marketing.
Analiza variaiei (ANOVA) i analiza covariaiei (ANCOVA) sunt
folosite pentru a examina diferenele dintre valorile medii ale variabilei
dependente sub efectul unor variabile independente controlate, dup izolarea
efectului unor variabile independente necontrolate. n esen, ANOVA este
folosit pentru a testa diferenele dintre mediile a dou sau mai multe grupuri
(populaii). Mai precis, analiza variaiei testeaz ipoteza nul conform creia nu
exist diferene ntre medii (altfel spus, toate mediile ar fi egale ntre ele).
n forma cea mai simpl, analiza variaiei necesit o variabil
dependent msurat pe o scal metric (interval sau proporional) i una sau
mai multe variabile independente msurate pe o scal nemetric (nominal sau
ordinal). Aceste variabile independente de tip categorial sunt denumite, de
obicei, factori. Modul n care nivelurile (categoriile) factorilor acioneaz
asupra variabilei dependente poart denumirea de tratament.
Procedurile de analiz a variaiei au la baz acelai principiu dar se
difereniaz prin numrul de factori. Vom distinge situaiile n care este
analizat o singur variabil dependent cu un factor (one-way analysis of
variance) sau analiza variaiei cu n-factori (n-way analysis of variance).
Indicatori i noiuni asociate analizei variaiei (cu un factor)
Variaia dintre grupuri (between variation) sau SSE ntre-grupuri
reprezint variaia variabilei dependente corespunztoare variaiei mediei pe
categoriile variabilei independente. Ea reprezint partea din suma ptratelor
aferent variabilei independente;
r
2
SSE yi y ni
i 1

Variaia din interiorul grupurilor (within variation): notat, de obicei cu


SSR (sau SSin-interior sau SSeroare) reprezint variaia variabilei dependente
datorat variaiei n interiorul fiecrei categorii a variabilei independente.
Aceast variaie nu este generat de variabila independent;
r ni
2
SSR y ij yi
i 1 j 1

Variaia total (total variation): notat, de obicei cu SST (sau SStotal)


reprezint variaia variabilei dependente corespunztoare variaiei mediei pe
categoriile variabilei independente. Variaia total a variabilei dependente
(SST) este format din variaia explicat de variabila independent (SSE sau
SSntre-grupuri) i variaia rezidual (SSR sau SSin-interior).
r n
SST ( y ij y) 2 SSE SSR
i 1 j 1

Media ptrat (mean square): este suma ptratelor mprit la numrul


gradelor de libertate;
r ni
2
r
2 yij yi
yi y ni 2 S SSR i 1 j 1
2 SSE i 1 sSSR
s SSE n r n r
r 1 r 1
testul F (F statistic): verific ipoteza nul c mediile categoriilor
variabilei independente pentru variabila dependent sunt egale; se calculeaz ca
raport ntre variana dintre grupe si variana din grupe.

2
s SSE
F 2
s SSR

Testarea semnificaiei statistice


Verificarea ipotezei nul (H0) confom creia mediile variabilei
dependente n cazul fiecrui grup (categorie) a variabilei independente sunt
egale se face cu ajutorul testului F.
Interpretarea testului F poate fi fcut absolut, prin compararea cu
valorile tabelate sau prin prisma nivelului de semnificaie asociat, pe care
majoritatea programelor informatice de analiz statistic l calculeaz. Un nivel
de semnificaie sub 0,05 (aferent unei probabiliti peste 95%) permite
respingerea ipotezei nule a egalitii mediilor.
n situaia n care ipoteza nul a egalitii mediilor grupurilor a fost
acceptat, variabila independent nu are un efect semnificativ asupra variabilei
dependente. n caz contrar, prin neacceptarea ipotezei nule se poate concluziona
c grupurile difer ntre ele din punct de vedere al caracteristicii studiate
(variabila dependent) i c variabila independent exercit un efect
semnificativ asupra celei dependente.
Mergnd mai departe, o comparare a mediilor la nivelul grupurilor va da
informaii legate de natura efectului variabilei independente.

Testarea legturii dintre dou variabile dorim s verificm dac


modificarea variabilei dependente Y este rezultatul influenei variabilei
explicative X. Pentru a testa existena legturii procedm astfel: Analyze
Compare Means One Way Anova. ANOVA este un procedeu de analiz a
unei variabile numerice sub influena unei variabile de grupare care prezint
mai multe stri.
De exemplu dorim s verificm dac exist legtur ntre notele
acordate pentru pretul berii Keller si venitul lunar.
n meniul Options avem posibilitatea selectrii graficului pentru a
formula ipoteze cu privire la forma legturii dintre cele dou variabile.

Sum of df Mean Sig.


Squares Square F
Between .521 2 .261 .121 .886
Groups
Within 248.131 115 2.158
Groups
Total 248.653 117

Cu ct mediile grupelor au valori mai diferite ntre ele, cu att variaia


dintre grupe este mai mare; cu ct variaia n cadrul grupelor este mai mic, cu
att statistica F este mai mare (F = media varianei dintre grupe /media varianei
din cadrul grupei ) i notele pentru pre variaz mai mult n raport cu venitul.
Se formuleaz ipoteza nul H 0 : F = 0, adic varianta dintre grupe este
nul i deci grupele nu sunt diferite ntre ele, adic venitul nu influenteaza
notele acordate pentru pret..
Deoarece probabilitatea de a grei cnd respingem ipoteza este 0,886 >
0,05, rezult c ipoteza nul se accepta, adic venitul nu influeneaz nota
acordata pentru pret.
Faptul ca nu exista legatura intre cele doua variabile se observa si din
graficul de mai jos.
8.70
Mean of Note acordate pentru pretul berii Keller

8.65

8.60

8.55

8.50

sub 2000000 [2000000 - 5000000] peste 5000000


Venitul lunar

S-ar putea să vă placă și