Sunteți pe pagina 1din 38

Testarea diferenei dintre mai mult de dou medii: Analiza de varian unifactorial (ANOVA)

M. Popa

Modelul de cercetare
Testul t pentru eantioane independente:
diferena dintre mediile a dou loturi de de subieci diferii n dou condiii diferite (de ex.: practicare-nepracticare TA; masculin-feminin, etc.)

Exist i situaii n care se pune problema semnificaiei diferenei dintre mai mult de dou medii
diferenele constatate la un test de cunotine statistice ntre cele 5 grupe ale unui an de studiu, difer semnificativ?

Variabila dependent
performana la testul de cunotine (scal I-R)

Variabila independent
grupele de studiu (scal nominal)

De ce nu aplicm repetat testul t?


volum mare de calcule (pe msur ce crete numrul categoriilor) problema cercetrii vizeaz relaia dintre variabila dependent i variabila independent (grupele de studiu)
ar fi bine s putem utiliza un singur test, nu mai multe

argumentul esenial:
cumulul de eroare de tip I peste alfa=0.05 Exemplu testm relaia dintre nivelul performanei i trei metode de antrenament avem trei categorii ale cror medii ar trebui comparate dou cte dou se cumuleaz o cantitate total de eroare de tip I de 0.15 adic 0.05+0.05+0.05

Soluia: ANALIZA DE VARIAN (ANOVA)

ANOVA unifactorial (One-way ANOVA)


ANOVA multifactorial (Two-way ANOVA)

ANOVA unifactorial (One-way ANOVA) )


variabil dependent
scal de interval/raport

variabil independent
de tip categorial (nominal sau ordinal) este denumit factor are trei sau mai multe valori (niveluri) exemple
Nivelul anxietii n raport cu trei categorii de fumtori (1-10 igri zilnic, 11-20 igri i 21-30 igri). Timpul de rspuns la un strigt de ajutor, n funcie de natura vocii persoanelor care solicit ajutorul (copil, femeie, brbat). Scorul la un test de cunotine statistice ale studenilor de la psihologie, n funcie de tipul de liceu absolvit (real, umanist, agricol, artistic)

ANOVA multifactorial
variabil dependent
msurat pe scal I/R

dou sau mai multe variabile independente


fiecare cu dou sau mai multe valori msurate pe o scal nominal sau ordinal exemple
Nivelul anxietii n raport cu intensitatea fumatului (1-10 igri zilnic, 11-20 igri i 21-30 igri), i cu genul (masculin, feminin). n acest caz, problema cercetrii este dac intensitatea fumatului i caracteristica de sex au, mpreun, o relaie cu nivelul anxietii. Timpul de rspuns la un strigt de ajutor n funcie de natura vocii care solicit ajutorul (copil, femeie, brbat) i de genul (masculin, feminin) al persoanei care trebuie s rspund la solicitarea de ajutor. Scorul la un test de cunotine statistice ale studenilor de la psihologie, n funcie de tipul de liceu absolvit (real, umanist, agricol, artistic) i de genul (masculin, feminin) al studenilor.

ANOVA unifactorial - cadrul conceptual -

Tem de cercetare:
relaia dintre performana sportivilor n tragerea la int i trei metode de antrenament (metoda 1, metoda 2 i metoda 3) trei grupuri de sportivi antrenai prin metode diferite mediile performanei lor la o edin de tragere sunt diferite? (sunt diferene de eficien ntre cele trei metode de antrenament?)

ANOVA este o procedur de comparare a mediilor eantioanelor n locul diferenei directe dintre medii, se utilizeaz dispersia lor

Ipoteza cercetrii (H1):


valorile variabilei dependente aferente fiecrui nivel al variabilei independente, fac parte din populaii distincte, crora le corespunde un nivel specific de performan (o medie caracteristic, diferit de a celorlalte populaii) (m1m2 m3 m4)

Ipoteza de nul (H0):


valorile variabilei dependente fac parte dintr-o populaie unic, indiferent de categoriile variabilei independente. (m1=m2=m3=m4)

populaia de nul Populaia 1


(metoda 1)

Populaia 2
(metoda 2)

Populaia 3
(metoda 3)

eantion1 (m1, s12)

eantion2 (m2, s22)

eantion3 (m2, s32)

Ipoteza cercetrii: Ipoteza de nul:

m1m2m3 m1=m2=m3

Ct de diferite (mprtiate) trebuie s fie m1, m2, m3 (luate ca distribuie de sine stttoare) pentru a accepta c nu provin din populaia de nul, ci din trei populaii diferite (P1, P2, P3)?

a) b) c)

dispersia mediilor performanei grupurilor cercetrii (considerate ca eantioane separate)


dispersia intergrup

dispersia valorilor individuale la nivelul populaiei de nul (indiferent de metoda de antrenament)


dispersia intragrup

Facem raportul dintre aceste dou valori


un raport ridicat exprim apartenena fiecreia din cele trei medii la o populaie distinct un raport sczut ar sugera proveniena mediilor dintr-o populaie unic (de nul)

d)

Decizia statistic cu privire la mrimea raportului (semnificaia diferenelor dintre medii), se face prin raportarea valorii raportului la o distribuie teoretic adecvat, alta dect distribuia normal

Raportul Fisher
dispersia intergrup F= dispersia intragrup

Cu ct valoarea raportului este mai mare, cu att mprtierea mediilor eantioanelor este mai mare dect mprtierea valorilor populaiei de nul

Procedura de calcul

(a) variana intragrup (media dispersiilor)

grupuri de volume egale grupuri de volume inegale


s 2 intragrup =

intragrup

s1 + s2 + s3 = N grupuri
df 2 df intragrup

df1 df intragrup

* s 21 +

* s 22 +

df 3 df intragrup

* s 23

unde: df1=N1-1; df2=N2-1; df3=N3-1 dfintragrup=Nsubieci-Ngrupuri

(b) variana intergrup (dispersia mediilor)


Exist o relaie ntre variaia mediilor i variaia valorilor din grupurile comparate:

= N *

s 2 intergrup =

ni * (mi M ) 2 df intergrup

pentru grupuri inegale


s
2 intergrup

n1 * (m1 M ) 2 + n2 * (m2 M ) 2 + n3 * (m3 M ) 2 = df intergrup

pentru grupuri egale

s 2 intergrup

(m1 M ) 2 + (m2 M ) 2 + (m3 M ) 2 = n* df intergrup

variana intragrup
Dispersia valorilor individuale estimare direct (media dispersiilor)

variana intergrup
Dispersia mediilor grupurilor estimare indirect (dispersia mediilor)

Raportul s2intergrup/s2intragrup tinde s devin cu att mai mare, cu ct dispersia dintre mediile grupurilor este mai mare dect dispersia din interiorul grupurilor

Dac H0 este fals


valorile variabilei independente (factorul) influeneaz mediile variabilei dependente

Distribuia Fisher
1. 2. 3.

4.

asimetrie pozitiv; Sir Ronald Aylmer Fisher poate lua o valori orict de mari; 1890-1962 valoarea minim este 0, deoarece s 2 intergrup F= 2 decurge din raportul a dou s intragrup dispersii(!) forma distribuiei variaz n funcie de o pereche de grade de libertate

dfintergrup=nr. grupuri-1 dfintragrup=NT-nr. grupuri

EXEMPLU DE CALCUL

Problema cercetrii:
Avem rezultatele la o edin de tragere la int pentru trei grupuri de cte 6 sportivi, fiecare grup fiind antrenat cu o alt metod vrem s vedem dac exist o legtur ntre nivelul performanei i metoda de antrenament.

Ipoteza cercetrii:
Performana sportiv este n legtur cu metoda de antrenament utilizat.

Ipoteza de nul:
Nu exist o legtur ntre performana sportiv i metoda de antrenament.

criteriile deciziei statistice


Nivelul =0.05 dfintergrup=3-1=2 dfintragrup=18-3=15 Citim F critic (F(0.05, 2, 15)) din tabelul F pentru =0.05:

Fcritic=3.6823

df intragrup (within) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

df intergrup (between) 1 161.4476 18.5128 10.1280 7.7086 6.6079 5.9874 5.5914 5.3177 5.1174 4.9646 4.8443 4.7472 4.6672 4.6001 4.5431 4.4940 2 199.5000 19.0000 9.5521 6.9443 5.7861 5.1433 4.7374 4.4590 4.2565 4.1028 3.9823 3.8853 3.8056 3.7389 3 215.7073 19.1643 9.2766 6.5914 5.4095 4.7571 4.3468 4.0662 3.8625 3.7083 3.5874 3.4903 3.4105 3.3439 3.2874 3.2389 4 224.5832 19.2468 9.1172 6.3882 5.1922 4.5337 4.1203 3.8379 3.6331 3.4780 3.3567 3.2592 3.1791 3.1122 3.0556 3.0069

3.6823
3.6337

metoda 1
X1 (puncte) 10 9 10 7 8 6 X N M s2 (m-M) (m-M)2 2.67 7.12 50 6 m1=8.33 2.59 (X1-m1)2 3.13 0.59 3.13 0.59 0.10 5.42 12.96

metoda 2
X2 (puncte) 3 6 6 5 8 7 35 6 m2=5.83 2.96 0.17 0.02 (X2-m2)2 8.00 0.02 0.02 0.68 4.70 1.36 14.78

metoda 3 X3 (puncte) 4 5 2 3 2 1 17 6 m3=2.83 M=(m1+m2+m3)/3=5.66 2.83 -2.83 8.00 (m-M)2=15.14 (X3-m3)2 1.36 4.70 0.68 0.02 0.02 3.34 10.14

intergrup

7 .12 + 0 .02 + 8 .00 = 6* = 6 * 7 .57 = 45 .42 2


s1 + s2 + s3 2.59 + 2.96 + 2.02 = = = 7.57 N grupuri 3
2 2 2

s 2 intragrup

s 2 intergrup 45.42 F= 2 = =6 s intragrup 7.57


F calculat (6) > F critic (3.6823) Decizia statistic: Respingem ipoteza de nul i acceptm ipoteza cercetrii: Nivelul performanei prezint o variaie n legtur cu metoda de antrenament utilizat

Mrimea efectului pentru testul F


Mrimea lui F indic de cte ori este cuprins dispersia intragrup n dispersia intergrup Uzual, doi indici de mrime a efectului (ai asocierii):
eta ptrat (2) omega ptrat (2)

Indicele eta ptrat


descrie procentul din variana (mprtierea) variabilei dependente care este explicat de variana variabilei independente

df intergrup F df intergrup F + df intragrup

Indicele eta ptrat


Variante de interpretare:
Hopkins (2000): 0.9-1 0.7-0.9 0.5-0.7 0.3-0.5 0.1-0.3 0.0-0.1 Aproape perfect, descrie relaia dintre dou variabile practic indistincte Foarte mare, foarte ridicat Mare, ridicat, major Moderat, mediu Mic, minor Foarte mic, neglijabil, nesubstanial

Davis (citat de Kotrlik i Williams, 2003)

0.70 0.50 0.69 0.30 0.49 0.10 0.29 0.01 0.09

asociere foarte puternic asociere substanial asociere moderat asociere sczut asociere neglijabil

Pentru exemplul nostru


=
2

df intergrup F df intergrup F + df intragrup

26 = = 0.44 2 6 + 15

Mrime a efectului medie (moderat) 44% din variaia performanei de instruire este explicat de utilizarea metodelor de antrenament restul de variabilitate de 54% provine din alte surse

Indicele f (Cohen) pentru mrimea efectului

f = 2 1

efect mic=0.10 efect mediu=0.25 efect mare=0.40

postAnaliza post-hoc
Testul F spune ceva despre relaia global dintre v.dep. i categoriile v.indep. exist teste post-hoc, care testeaz semnificaia diferenei dintre categorii, luate dou cte dou Bonferoni, Scheffe, Tuckey...

Publicarea rezultatului testului (ANOVA)


Grupurile (categoriile) comparate, mediile lor, valoarea testului F, cu numrul gradelor de libertate i pragul de semnificaie al testului, mrimea efectului ntr-o manier narativ, rezultatul obinuit pe exemplul de mai sus, poate fi prezentat astfel:
A fost analizat performana n tragerea la int a trei grupuri de sportivi, antrenai cu metode diferite. Mediile performanei pentru cele trei grupuri au fost 8.33, 5.83, respectiv 2.83. Analiza de varian unifactorial a relevat o diferen semnificativ ntre aceste medii, F (2, 15)=6; p0.05. Mrimea efectului apreciat cu indicele eta ptrat indic un efect moderat (2=0.44), n timp ce indicele f al lui Cohen indic un efect mare (f=0.88).

Avantajele ANOVA
elimin riscul cumulrii unei cantiti prea mari de eroare de tip I pune n eviden diferene semnificative ntre mediile mai multor grupuri, chiar i atunci cnd nici una dintre ele nu difer semnificativ una de cealalt (testul t) poate fi utilizat i n cazurile n care exist numai dou grupuri (dei nu este uzual)

Echivalena testelor t i F
pentru compararea a dou medii independente v. indep. 1 1 1 2 2 2 v. dep. 9 5 7 14 15 10

t=3.13,

p=0.035

F=9.82 (t2), p=0.035

Condiii de utilizare a testului ANOVA


independena eantioanelor (grupurilor supuse comparaiei) normalitatea distribuiei de eantionare, n conformitate cu teorema limitei centrale absena valorilor extreme (outliers) egalitatea varianei grupurilor comparate (denumit homoscedasticitate) n caz de nerespectare:
renunarea la ANOVA n favoarea unei prezentri descriptive transformarea variabilei dependente astfel nct s dobndeasc proprietile necesare transformarea variabilei pe o alt scal de msurare i aplicarea altui test statistic (neparametric)

S-ar putea să vă placă și