Sunteți pe pagina 1din 18

Testarea diferenei dintre mai mult de dou medii independente: analiza de varian (ANOVA) Lector univ.dr.

Perea Gheorghe n situaia n care am comparat performana la int a celor dou grupe de sportivi (practicani i nepracticani de training autogen), testul t a rezolvat problema semnificaiei diferenei dintre dou medii. n practica de cercetare ne putem ntlni ns cu situaii n care avem de comparat trei sau mai multe medii. De exemplu, atunci cnd am efectuat un test de cunotine de statistic i dorim s tim dac diferenele constatate ntre cele 5 grupe ale unui an de studiu difer semnificativ. Performana la nivelul fiecrei grupe este dat de media rspunsurilor corecte realizate de studeni. La prima vedere, am putea fi tentai s rezolvm problema prin compararea repetat a mediei grupelor, dou cte dou. Din pcate, exist cel puin trei argumente pentru care aceast opiune nu este de dorit a fi urmat:
n primul rnd, volumul calculelor

ar urma sa fie destul de mare, i ar crete i mai mult dac numrul categoriilor variabilei independente ar fi din ce n ce mai mare. n al doilea rnd, problema cercetrii vizeaz relaia dintre variabila dependent (n exemplul de mai sus, performana la statistic) i variabila independent, exprimat prin ansamblul tuturor categoriilor sale (grupele de studiu). Ar fi bine s putem utiliza un singur test i nu mai multe, pentru a afla rspunsul la problema noastr. n fine, argumentul esenial este acela c, prin efectuarea repetat a testului t cu fiecare decizie statistic acumulm o cantitate de eroare de tip I de 0.05 care se cumuleaz cu fiecare pereche comparat, ceea ce duce la depirea nivelului admis de convenia tiinific. S presupunem c dorim s testm ipoteza unei relaii dintre nivelul anxietii i intensitatea fumatului, evaluat n trei categorii: 1-10 igri zilnic; 11-20 igri zilnic i 21-30 igri zilnic. n acest caz, avem trei categorii ale cror medii ar trebui comparate dou cte dou. Dar, n acest fel, prin efectuarea repetat a testului t pentru eantioane independente, s-ar cumula o cantitate total de eroare de tip I de 0.15 adic 0.05+0.05+0.05. Pentru a elimina aceste neajunsuri, i mai ales pe ultimul dintre ele, se utilizeaz o procedur statistic numit analiza de varian (cunoscut sub acronimul ANOVA, de la ANalysis Of VAriance, n englez). n mod uzual, analiza de varian este inclus ntr-o categorie aparte de teste statistice. Motivul pentru care o introducem aici, imediat dup testul t pentru eantioane independente, este acela c, n esen, ANOVA nu este altceva dect o extensie a logicii testului t pentru situaiile n care se dorete compararea a mai mult de dou medii independente. Dar, dac problema este similar, soluia este, aa cum vom vedea, diferit. Exist mai multe tipuri de ANOVA, dou fiind mai frecvent folosite: ANOVA unifactorial, care se aplic atunci cnd avem o variabil dependent msurat pe o scal de interval/raport msurat pentru trei sau mai multe valori ale unei variabile independente categoriale. n contextul ANOVA, variabila independent este denumit factor, iar valorile pe care acesta le ia se numesc niveluri. Din acest motiv, modelul de analiz de varian cu o singura variabil independent se numete ANOVA unifactorial, ANOVA simpl sau, cel mai frecvent, ANOVA cu o singur cale (One-way ANOVA).

o Exemple: Nivelul anxietii n raport cu trei categorii de fumtori (1-10 igri zilnic, 11-20 igri i 21-30 igri). Timpul de rspuns la un strigt de ajutor, n funcie de natura vocii persoanelor care solicit ajutorul (copil, femeie, brbat). Scorul la un test de cunotine statistice ale studenilor de la psihologie, n funcie de tipul de liceu absolvit (real, umanist, agricol, artistic). ANOVA multifactorial, care se aplic atunci cnd avem o singur variabil dependent (la fel ca n cazul ANOVA unifactorial) dar dou sau mai multe variabile independente, fiecare cu dou sau mai multe valori, msurate pe o scal categorial (nominal sau ordinal). o Exemple Nivelul anxietii n raport cu intensitatea fumatului (1-10 igri zilnic, 11-20 igri i 21-30 igri), i cu genul (masculin, feminin). n acest caz, problema cercetrii este dac intensitatea fumatului i caracteristica de gen au, mpreun, o relaie cu nivelul anxietii. Timpul de rspuns la un strigt de ajutor n funcie de natura vocii care solicit ajutorul (copil, femeie, brbat) i de genul (masculin, feminin) al persoanei care trebuie s rspund la solicitarea de ajutor. Scorul la un test de cunotine statistice ale studenilor de la psihologie, n funcie de tipul de liceu absolvit (real, umanist, agricol, artistic) i de genul (masculin, feminin) al studenilor.

Ne vom limita aici doar la prezentarea analizei de varian unifactoriale, urmnd s revenim cu alt prilej asupra altor variante de ANOVA. Cadrul conceptual pentru analiza de varian unifactorial S ne imaginm o cercetare a crei ipotez este c relaia dintre performana sportivilor n tragerea la int i trei metode de antrenament (s le denumim metoda 1, metoda 2 i metoda 3). n esen, ANOVA este o procedur de comparare a mediilor eantioanelor. Specificul ei const n faptul c n locul diferenei directe dintre medii se utilizeaz dispersia lor, gradul de mprtiere. Procedura se bazeaz pe urmtorul demers logic: Ipoteza cercetrii sugereaz c performana sportivilor antrenai cu fiecare dintre cele trei metode de antrenament face parte dintr-o populaie distinct, creia i corespunde un nivel specific de performan (adic o medie caracteristic, diferit de a celorlalte dou populaii). Prin opoziie, ipoteza de nul ne oblig s presupunem c cele trei eantioane 1 (modele de antrenament) pe care vrem s le comparm, provin dintr-o populaie unic de valori ale performanei, iar diferenele dintre mediile lor nu reprezint dect expresia variaiei fireti a distribuiei de eantionare. n imaginea de mai jos populaiile cercetrii (Pc1, Pc2, Pc3) sunt exprimate cu linie continu, iar populaie de nul cu linie discontinu.

Chiar dac absena unei legturi ntre metoda de antrenament i intensitatea nivelul performanei (ipotez de nul) este adevrat, cele trei grupuri (eantioane) nu trebuie s aib n mod necesar aceeai medie. Ele pot avea medii diferite care s rezulte ca expresie a variaiei aleatoare de eantionare (m1m2m3) i, de asemenea, mprtieri (dispersii) diferite (s1s2s3). S ne gndim la cele trei medii pe care vrem s le comparm, ca la o distribuie de sine stttoare de trei valori (sau mai multe, pentru cazul n care variabila independent are mai multe categorii). Cu ct ele sunt mai diferite una de alta, cu att distribuia lor are o mprtiere (varian) mai mare. Este evident faptul c dac eantioanele ar aparine populaiei de nul, diferena mediilor (exprimat prin dispersia lor) ar fi mai mic dect n cazul n care acestea ar proveni din populaii distincte (corespunztor ipotezei cercetrii). Mai departe, se pune urmtoarea problem: ct de diferite (mprtiate) trebuie s fie mediile celor trei eantioane, luate ca distribuie de sine stttoare de trei valori, pentru ca s putem concluziona c ele nu provin din populaia de nul (dreptunghiul punctat), ci din trei populaii diferite, corespunztoare eantioanelor de cercetare (Pc1, Pc2, Pc3)? Pentru a rspunde la aceast ntrebare este necesar: a)S calculm dispersia valorilor individuale la nivelul populaiei de nul, care se bazeaz pe valorile performanei tuturor valorilor msurate, indiferent de metoda de antrenament; b)S calculm dispersia mediilor anxietii grupurilor cercetrii (considerate ca eantioane separate);
1

Pentru simplificare, n continuare ne vom referi numai la trei eantioane, dar se va nelege trei sau mai multe

c) S facem raportul dintre aceste dou valori. Obinerea unei valori mai ridicate a acestui raport ar exprima apartenena fiecreia din cele trei medii la o populaie distinct, n timp ce obinerea unei valori mai sczute ar sugera proveniena mediilor dintr-o populaie unic (de nul). Decizia statistic cu privire la mrimea raportului i, implicit, cu privire la semnificaia diferenelor dintre mediile comparate, se face prin raportarea valorii raportului la o distribuie teoretic adecvat, alta dect distribuia normal, aa cum vom vedea mai departe. n continuare ne vom concentra asupra fundamentrii modului de calcul pentru cei doi termeni ai raportului. Calcularea exact a dispersiei populaiei de nul este imposibil, deoarece nu avem acces la toate valorile acesteia, dar poate fi estimat prin calcularea mediei dispersiei grupurilor de cercetare. Valoarea astfel obinut se numete dispersia intragrup i reprezint estimarea mprtierii valorilor msurate la nivelul populaiei de nul. La rndul ei, dispersia mediilor grupurilor de cercetare, calculat dup metoda cunoscut de calcul a dispersiei, formeaz ceea ce se numete dispersia intergrup. Valoarea astfel obinut evideniaz ct de diferite (mprtiate) sunt mediile eantioanelor care fac

obiectul comparaiei. Raportul dintre dispersia intergrup i dispersia intragrup se numete raport F i ne d valoarea testului ANOVA unifactorial. Cu ct acest raport este mai mare, cu att mprtierea mediilor grupurilor comparate este mai mare i, implicit, diferena lor poate fi una semnificativ, ndeprtat de o variaie pur ntmpltoare.

Imaginile de mai jos dau o expresie grafic acestui raionament:

Figura a reprezint grafic ipoteza de nul: presupunem c cele trei grupuri provin din aceeai populaie. Ca urmare, cele trei medii sunt egale (1=2=3), iar distribuiile sunt suprapuse.

Figura b reprezint grafic ipoteza cercetrii: cele trei grupuri sunt diferite, provenind din populaii distincte (123). Dac distana (mprtierea) dintre mediile eantioanelor depete o anumit valoare, atunci putem concluziona c nu avem o singur populaie (ipoteza de nul), ci mai multe, mediile grupurilor provenind din populaii cu medii distincte (cf. ipotezei cercetrii). Dac, dimpotriv, mediile eantioanelor comparate sunt apropiate, atunci vom concluziona c ele nu provin din populaii diferite, ci dintr-una singur (cf. ipotezei de nul). Fundamentarea procedurii de calcul ANOVA2 Esena procedurii de calcul pentru ANOVA se bazeaz pe o dubl estimare a dispersiei: (a) Estimarea dispersiei populaiei de nul pe baza mediei dispersiei grupurilor (variana intragrup)

Atta timp ct nu cunoatem dispersia populaiei (2) din care ar putea proveni grupurile, trebuie s o estimm prin dispersiile celor trei grupuri (s12, s22, s32). Calculnd media celor trei dispersii vom obine o valoare care estimeaz dispersia pentru cele trei grupuri luate mpreun (indiferent de metoda de antrenament utilizat). Aceast valoare se consider c estimeaz dispersia populaiei totale. Deoarece ea se calculeaz pe baza dispersiilor n interiorul grupurilor, este desemnat n mod uzual prin termenul de intragrup (sau, mai frecvent, prin forma englez: within-group) i se noteaz cu s2intragrup, fiind calculat cu una dintre formulele urmtoare: Atunci cnd volumele eantioanelor comparate sunt egale(N1=N2=N3), ca n formula 3.16:

i atunci cnd grupurile comparate sunt de volum inegal ca n formula 3.17:

(b) Estimarea dispersiei populaiei de nul pe baza dispersiei mediilor grupurilor (variana intergrup) Mediile celor trei grupuri (eantioane) sunt numere care pot fi analizate ca distribuie n sine, a cror dispersie (varian) poate fi calculat, fiind o estimare a mprtierii valorilor la nivelul populaiei. Din cauz c se bazeaz pe mediile grupurilor, aceasta se mai numete i varian intergrupuri (between groups, n limba englez). ntre variaia acestor medii i variaia valorilor din grupurile analizate, luate mpreun, exist o legtur care poate fi exprimat pe baza formulei transformate a erorii standard, astfel:

Vom putea utiliza dispersia mediilor celor trei eantioane pentru a estima dispersia populaiei totale (vezi exemplul de mai jos). Aceasta se numete estimarea varianei

intergrupuri, notat cu s2intergrup. Dac nlocuim n expresia de mai sus expresia de calcul a dispersiei (formula 3.17), obinem:

unde mi este media performanei din fiecare grup, M este media celor trei grupuri luate mpreun, iar ni este numrul subiecilor din fiecare grup, iar dfintergrup se calculeaz ca numrul grupurilor-1. Atunci cnd grupurile comparate sunt de volum inegal:

Ca urmare, pentru o situaie cu trei grupuri, formula desfurat se scrie astfel:

unde: m1, m2, m3 sunt mediile celor trei grupuri, n1, n2, n3, sunt volumele celor trei eantioane, iar celelalte valori sunt cele descrise pentru formula anterioar. Pentru situaia n care grupurile au un numr egal de subieci, formula 3.19 devine:

unde n este numrul subiecilor dintr-un grup. Ambele tipuri de estimri sunt estimri independente ale varianei populaiei de nul. ns, n timp ce variana intragrup o estimeaz n mod direct (media varianelor), variana intergrup o msoar indirect (variana mediilor). Aceasta din urm, variana intergrup, reprezint o estimare a varianei populaiei de nul numai dac ipoteza de nul este adevrat. Dac ipoteza de nul este fals, ea reflect de fapt msura n care valorile variabilei independente (factorul) influeneaz mediile variabilei dependente. Pe aceast particularitate se bazeaz procedura analizei de varian. Raportul dintre cele dou estimri (s2intergrup/s2intragrup) va tinde s devin cu att mai mare cu ct diferena dintre mediile grupurilor (tradus prin dispersia mediilor) devine mai mare dect dispersia din interiorul grupurilor (tradus prin media dispersiilor). Acest raport se numete raport Fisher, dup numele celui care a fundamentat acest tip de analiz3, i se scrie astfel:

Interpretarea raportului F

Numitorul raportului F (dispersia intragrup) exprim variabilitatea din interiorul grupurilor supuse comparaiei. Dac analizm sursele acestei variaii, ea poate proveni din mai multe surse: diferenele individuale dintre subieci, erorile de msurare ale variabilei dependente, fluctuaia condiiilor n care au fost efectuate msurrile. Neputnd defini cu exactitate nici sursa i nici contribuia fiecreia, dispersia intragrup exprim aa numita varian neexplicat, definit generic i ca variana erorii. n conformitate cu ipoteza cercetrii, grupurile de subieci ar trebui s aib scoruri diferite, fie pentru c au fost supuse unui tratament diferit (n exemplul nostru prin cele trei metode de antrenament), fie ca urmare a faptului c fac parte din populaii diferite. n acelai timp, subiecii din fiecare grup n parte ar trebui s aib scoruri similare. Faptul c ele difer totui, nu poate fi explicat prin efectul tratamentului, motiv pentru care variaia lor este definit drept o varian a erorii. La rndul lui, variabilitatea numrtorului raportului F este rezultatul manipulrii de ctre cercettor (atunci cnd operm n context experimental), sau este rezultatul unor grupuri preexistente (atunci cnd efectum un studiu observaional). i valoarea acestuia este amplificat de variana erorii. Aceasta deoarece, chiar i n cazul n care tratamentul cu cele trei metode de antrenament ar fi total ineficient, i toate populaiile ar avea medii identice, mediile grupurilor comparate ar diferi ntre ele, sub efectul unor surse diverse (erori). Ca urmare, avem dou surse de variabilitate la numrtor i numai una singur la numitor, fapt care poate fi sintetizat prin urmtoarea expresie:

Atunci cnd ipoteza de nul este adevrat, efectul tratamentului se apropie de zero, iar raportul F este rezultatul varianei erorii. Dac cele dou variane ale erorii ar fi identice, F ar avea valoarea 1 dar, de fapt, cele dou variane ale erorii pot avea valori diferite, ceea ce conduce la fluctuaii ale lui F n jurul lui 1. Atunci cnd efectul tratamentului nu este zero (ipoteza de nul este fals), ne ateptm ca valoarea raportului F s fie mai mare dect 1. ns pentru a respinge ipoteza de nul valoarea lui F trebuie s fie nu doar mai mare dect 1, ci mai mare dect un prag critic convenional asumat (alfa), astfel nct probabilitatea ca un rezultat similar s decurg din ntmplare s fie mai mic sau cel mult egal cu alfa. Distribuia Fisher Valorile raportului F (sau testul F) se distribuie ntr-un mod particular, numit distribuia F sau distribuia Fisher. Ca i distribuia normal, distribuia F este o familie de distribuii, avnd urmtoarele caracteristici: 1.asimetrie pozitiv (tendina valorilor de grupare spre partea stng, cu valori mici); 2.poate lua valori orict de mari; 3.valoarea minim este 0, deoarece decurge din raportul a dou dispersii, iar dispersiile nu pot fi niciodat negative4. 4.forma distribuiei variaz n funcie de o pereche de grade de libertate format din numrul grupelor (categoriile variabilei independente) i numrul subiecilor.

Imaginea de mai sus reprezint curba F pentru 3 grupuri cu 30 de subieci n total. Distribuia Fisher are forme distincte n funcie de numrul eantioanelor comparate i volumul acestora. Calcularea gradelor de libertate Ca i n cazul distribuiei t, distribuia F se prezint sub o varietate de forme. Distribuia F rezult dintr-un raport a dou distribuii diferite (s2intergpup i s2intragrup), fiecare cu gradele ei de libertate. Ca urmare, i schimb forma, n acelai timp n funcie de numrul grupurilor, i de numrul subiecilor din fiecare grup. n concluzie, vom avea dou grade de libertate, unul pentru dispersia integrup i altul pentru dispersia intragrup, calculate astfel: dfintergrup=numrul grupurilor-1 dfintragrup=numrul cumulat al subiecilor din toate grupurile-numrul grupurilor Sir Ronald Aylmer Fisher (1890-1962). Astronom de formaie, interesat de teoria erorilor, s-a remarcat prin contribuiile sale n teoria statisticii creia, din anul 1922, i-a dat o nou orientare. 4 n practic, se poate ajunge n situaia ca dispersia intragrup s rezulte a fi mai mic dect dispersia intergup i, ca urmare, valoarea lui F s fie mai mic dect 0. Acest lucru este determinat de inegalitatea sever a dispersiilor ntre grupurile analizate. EXEMPLU DE CALCUL Problema cercetrii: Avem rezultatele la o edin de tragere la int pentru trei grupuri de cte 6 sportivi, fiecare grup fiind antrenat cu o alt metod, i vrem s vedem dac exist o legtur ntre nivelul performanei i metoda de antrenament. Ipoteza cercetrii: Performana sportiv este n legtur cu metoda de antrenament utilizat. Ipoteza de nul: Nu exist o legtur ntre performana sportiv i metoda de antrenament. Fixm criteriile deciziei statistice: Nivelul =0.05 Stabilim F critic: dfintergrup=3-1=2 dfintragrup=18-3=15 Citim F critic (F(0.05, 2, 15)) din tabelul F pentru =0.05: Fcritic=3.6823 (vezi tabelul anexat) Not privind utilizarea tabelei pentru distribuiile F
3

Spre deosebire de tabelele distribuiilor utilizate pn acum, (z i t), pentru interpretarea lui F avem mai multe tabele, calculate fiecare pentru un anume nivel al lui . Mai nti cutm tabela pentru dorit (s zicem, =0.05). Apoi citim valoarea critic pentru F la intersecia dintre coloana care reprezint numrul gradelor de libertate pentru numrul grupurilor (dfB) cu linia care reprezint numrul gradelor de libertate pentru volumul total al subiecilor (dfW). Dac valoarea obinut prin calcul este mai mare sau egal dect cea tabelar, atunci putem lua decizia de respingere a ipotezei de nul. O precizare important cu privire la ANOVA, ca test statistic, privete caracterul ei unilateral (one-tailed). ntr-adevr, spre deosebire de celelalte teste studiate pn acum, ANOVA este interpretat ntr-o singur direcie i anume, dac mediile grupurilor difer semnificativ ntre ele (au o variaie mai mare dect cea normal pentru o distribuie aleatoare). Nu putem avea o valoare negativ pentru F i, ca urmare, testul F este ntotdeauna un test unilateral.

Calculm F pe baza datelor centralizate n tabelul urmtor5: metoda 1 X1 (X1-m1)2 (puncte) 10 2,79 9 0,45 10 2,79 7 1,77 8 0,11 6 5,43 50 13.33 6 m1=8.33 2.66 2.67 7.12 Metoda de antrenament metoda 2 metoda 3 X2 (X2-m2)2 X3 (X3-m3)2 (puncte) (puncte) 3 8.00 4 1.36 6 0.02 5 4.70 6 0.02 2 0.68 5 0.68 3 0.02 8 4.70 2 0.02 7 1.36 1 3.34 35 14.78 17 10.14 6 6 m2=5.83 m3=2.83 M=(m1+m2+m3)/3=5.66 2.96 2.02 0.17 -2.83 0.02 8.00 2(m-M)2=15.14 |

X N M s2 (m-M) (m-M)2

Distribuia valorilor celor trei grupuri poate fi ilustrat grafic astfel:

Recunoatem n interiorul graficului parametrii fiecrui grup (m i s2) precum i media mare (M), a valorilor individuale din toate grupurile, luate mpreun. Avnd calculai parametrii celor trei grupuri, putem trece la calcularea raportului F. Mai nti calculm numrtorul, adic dispersia mediilor celor trei grupuri. Dat fiind

Atenie, acest mod de prezentare a datelor servete calculrii manuale a testului F. ntr-o baz de date SPSS vom avea cte o nregistrare pentru fiecare subiect, cu dou variabile, una pentru nivelul anxietii i cealalt pentru intensitatea fumatului, aceasta din urm cu trei valori convenionale, s zicem 1, 2, 3 pentru fiecare nivel de intensitate a fumatului.

faptul c nu cunoatem dispersia populaiei vom utiliza dispersia eantioanelor, conform formulei 3.19 pentru grupuri egale. Prin nlocuire cu valorile calculate n tabelul de mai sus, obinem:

Mai departe, calculm numitorul raportului F (dispersia intragrup), prin nlocuirea valorilor calculate pentru dispersiile din interiorul celor trei grupuri luate separat, n formula 3.16:

n acest caz dfintragrup=nr. grupurilor, pentru c N1=N2=N3 n final, calculm raportul F:

Valoarea astfel obinut o comparm cu F critic gsit anterior n tabel. Constatm c F calculat (5.94), este mai mare dect F critic (3.6823). Decizia statistic: Respingem ipoteza de nul i acceptm ipoteza cercetrii: Nivelul performanei prezint o variaie n legtur cu metoda de antrenament utilizat. Mrimea efectului pentru testul F La fel ca i n cazul testelor statistice introduse anterior, valoarea testului F nu este informativ n sine. Mrimea lui F indic doar dect de cte ori este cuprins dispersia intragrup n dispersia intergrup. Pentru a decide dac acest raport este mare sau mic trebuie s calculm un indice al mrimii efectului. n cazul analizei de varian sunt utilizai n mod obinuit doi indici de mrime a efectului: eta ptrat (2) i omega ptrat (2). Spre deosebire de indicele d (Cohen), care este un indice al diferenei, eta ptrat i omega ptrat sunt indici ai asocierii6 (B. Cohen, 2001), similari cu coeficientul de corelaie, pe care l vom analiza analiza n alt loc.

Fr a intra n amnunte, facem precizarea c indicii de mrime a efectului pot fi transformai cu uurin unii ntr-alii, cu ajutorul unor formule de conversie.

Vom prezenta aici doar indicele eta ptrat, dat fiind faptul c este accesibil cu metoda pe care am utilizat-o pentru calcularea lui F7. Formula de calcul pentru 2 este urmtoarea:

n esen, indicele eta ptrat descrie procentul din variana (mprtierea) variabilei dependente care este explicat de variana variabilei independente. Nu exist o gril unic de interpretare a indicelui eta ptrat dar, prin similitudine cu coeficientul de corelaie, putem prelua sugestiile unor autori diferii, ale cror opinii sunt, n linii mari, convergente. Redm aici, pentru comparaie, dou variante de interpretare pentru eta ptrat: Varianta de interpretare a lui Hopkins (2000): 0.9-1 Aproape perfect, descrie relaia dintre dou variabile practic 0.7-0.9 indistincte foarte ridicat Foarte mare, 0.5-0.7 Mare, ridicat, major 0.3-0.5 Moderat, mediu 0.1-0.3 Mic, minor 0.0-0.1 Foarte mic, neglijabil, nesubstanial Varianta de interpretare a lui Davis (citat de Kotrlik i Williams, 2003) 0.70 asociere foarte puternic 0.50 0.69 asociere substanial 0.30 0.49 asociere moderat 0.10 0.29 asociere sczut 0.01 0.09 asociere neglijabil Vom observa c, n ambele variante, pentru a fi important indicele eta ptrat trebuie s ating cel puin valoare de 0.50, ceea ce nseamn c 50% din varian variabilei dependente este explicat de variabila independente. Pentru datele exemplului nostru, indicele de mrime a efectului este:

La rndul lui, Cohen (1988) a dezvoltat un indice de mrime a efectului (f) pentru ANOVA, care atenueaz ceea ce se consider a fi tendina de supraestimare a mrimii efectului de ctre indicele eta ptrat:

7Programele statistice ofer, de regul, posibilitatea de a calcula ambii indici ai puterii

Pentru rezultatul din exemplul nostru, avem mai sus formula care se vede.

n conformitate cu recomandrile lui Cohen, valorile lui f se interpreteaz astfel: efect mic=0.10; efect mediu=0.25; efect mare=0.40. Interpretarea mrimii efectului trebuie fcut cu precauie i modestie (Runyon et. al, 1996). Un indice redus de mrime a efectului indic, desigur, o slab intensitate a relaiei dintre variabila independent i variabila dependent. Cu toate acestea, uneori, chiar i o relaie slab ntre variabile poate fi important pentru cercetarea tiinific din tiinele sociale i umane. Comportamentul uman este supus unor surse extrem de complexe de determinri, fapt care face aproape imposibil controlarea (eliminarea) unora dintre surse, pentru stabilirea exact a efectului uneia anume. Acest lucru face inevitabil prezena unei anumite cantiti de erori de msurare n toate cercetrile psihologice. n aceste condiii, uneori, chiar i un efect mic poate fi considerat un ctig important din punct de vedere tiinific, chiar dac este puin relevant din punct de vedere practic. De exemplu, un rezultat semnificativ statistic, dar cu un indice sczut de mrime a efectului, poate constitui punctul de plecare al unei noi cercetri, n care efectele colaterale ale unor variabile s fie mai bine controlate (eliminarea erorii), ceea ce poate conduce la evidenierea unei relaii mai puternice ntre variabilele studiate. Dac privim cei doi indici ai mrimii efectului calculai pentru exemplul dat, putem aprecia c, n contextul datelor cercetrii noastre, 44% din variaia performanei de instruire este explicat de utilizarea metodelor de antrenament (ceea ce nseamn, implicit, c un procent de 56% provine din alte surse). n conformitate cu recomandrile de interpretare pentru eta ptrat, putem afirma c relaia dintre metodele de antrenament utilizate i performan este moderat sau medie. n acelai timp, indicele f al lui Cohen indic un nivel ridicat al mrimii efectului. Nu trebuie s privim aceste dou aprecieri ale mrimii efectului ca fiind contradictoirii, ci ca pe dou perspective asupra aceleiai realiti.

Analiza post-hoc

Graficul de mai sus prezint variaia mediilor performanei celor grupuri de sportivi. Aa cum se observ, nivelul performanei are nivelul cel mai ridicat pentru prima metod de

antrenament (8.33), i din ce n ce mai reduse la urmtoarele dou (5.83; 2.83). Testul ANOVA ne ofer o imagine global a variaiei mediilor fr s ne spun nimic cu privire la sursa de provenien acesteia, i nici n ce msur difer mediile grupurilor luate dou ct dou. n exemplul nostru valoarea obinut pentru F ar putea decurge doar prin contribuia unui singur grup (de ex., cei antrenai cu metoda 1), celelalte grupuri avnd o contribuie minor sau inexistent. Cercettorul poate fi ns interesat care dintre grupuri difer ntre ele, i n ce sens. Pentru a rezolva aceast problem se efectueaz aa numitele comparaii multiple, pe baza unor teste statistice denumite post-hoc, pentru c, n mod normal, acestea se calculeaz dup aplicarea procedurii ANOVA. Printre cele mai frecvent utilizate sunt testele: Scheffe, Tukey i Bonferoni (desigur, se utilizeaz unul sau altul dintre ele, la alegere). Nu vom intra n detalii teoretice i de calcul cu privire la aceste teste. Fiecare are avantajele i dezavantajele sale. Important aici este s nelegem c testele post-hoc se interpreteaz n mod similar testului t pentru diferena mediilor pentru eantioane necorelate, calculate astfel nct s ia, att ct se poate, msuri de precauie mpotriva excesului de eroare de tip I menionat anterior. Este important de reinut, de asemenea, faptul c analiza post-hoc este practicat, de regul, numai dac a fost obinut un rezultat semnificativ pentru testul F8. Aceasta nseamn c analiza posthoc nu poate fi utilizat ca substitut pentru testul t efectuat n mod repetat. Ca urmare, n practic, analiza de varian va cuprinde dou faze: prima, n care se decide asupra semnificaiei testului F, i a doua, n cazul c acest raport este semnificativ, n care se analizeaz comparativ diferenele dintre categoriile analizate, pe baza unui test post- hoc. n ce privete calcularea testelor post-hoc menionate mai sus, vom prezenta modul lor de calcul n seciunea dedicat programului SPSS. Publicarea rezultatului testului F (ANOVA) n raportul de publicare pentru ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor, valoarea testului F cu numrul gradelor de libertate i pragul de semnificaie al testului. La acestea se adaug indicele de mrime a efectului. ntr-o manier narativ, rezultatul obinut pe exemplul de mai sus, poate fi prezentat astfel: A fost analizat performana n tragerea la int a trei grupuri de sportivi, antrenai cu metode diferite. Mediile performanei pentru cele trei grupuri au fost 8.33, 5.83, respectiv 2.83. Analiza de varian unifactorial a relevat o diferen semnificativ ntre aceste medii, F (2, 15)=6; p0.05. Mrimea efectului apreciat cu indicele eta ptrat indic un efect moderat (2=0.44), n timp ce indicele f al lui Cohen indic un efect mare (f=0.88). Atunci cnd vom calcula ANOVA cu ajutorul unui program care ne va oferi i comparaiile multiple ntre grupurile comparate (analiza post-hoc), la descrierea de mai sus vom aduga i comparaiile grupurilor, dou cte dou, care exprim diferenele directe dintre grupurile supuse comparaiei, explicnd analitic sursele semnificaiei raportului F global.

Cu toate acestea, exist autori care consider c nimic nu ne mpiedic s calculm testele post-hoc chiar dac testul F s-a finalizat cu admiterea ipotezei de nul.

Avantajele ANOVA Utilizarea ANOVA pentru testarea ipotezelor n cazul unui numr mai mare de grupuri (eantioane) prezint dou avantaje. Primul, ine de ceea ce am precizat deja, i anume faptul c eliminm riscul cumulrii unei cantiti prea mari de eroare de tip I, prin efectuarea repetat a testului t. Al doilea, rezult din faptul c avem posibilitatea s punem n eviden diferene semnificative ntre mediile mai multor grupuri, chiar i atunci cnd nici una dintre ele nu difer semnificativ una de cealalt (testul t). Dei, n mod normal, analiza de varian este utilizat doar n situaia n care se dorete testarea diferenei dintre mediile a mai mult de dou grupuri independente, ea d rezultate echivalente i n cazurile n care exist numai dou grupuri (singura diferen fiind valoarea calculat a testului, nu i nivelul lui p). Utilizarea testului t pentru testarea diferenei dintre dou medii este, totui, o metod mult mai direct, mai uor de aplicat i de neles, dect analiza de varian. v. indep. 1 1 1 2 2 2 v. dep. 9 5 7 14 15 10 De exemplu, dac lum n considerare datele din tabelul alturat, n care avem o variabil dependent distribuit pe dou valori ale unei variabile independente, valoarea testului t este 3.13, iar valoarea testului F este 9.82 (ceea ce reprezint ptratul valorii t). n acelai timp, rezultatul la ambele teste este semnificativ pentru aceeai valoare a lui p (0.035).

Condiii pentru utilizarea testului ANOVA Utilizarea analizei de varian unifactoriale presupune ndeplinirea urmtoarelor condiii: o independena eantioanelor (grupurilor supuse comparaiei); o normalitatea distribuiei de eantionare, n conformitate cu teorema limitei centrale; o absena valorilor extreme (outliers); o egalitatea varianei grupurilor comparate (denumit homoscedasticitate). Atunci cnd una sau mai multe dintre aceste condiii nu sunt ntrunite, se poate adopta una dintre soluiile urmtoare: o renunarea la ANOVA n favoarea unei prezentri descriptive (soluie care ne lipsete de posibilitatea unei concluzii testate statistic); o transformarea variabilei dependente astfel nct s dobndeasc proprietile necesare (printre metodele uzuale, citm aici doar logaritmarea sau extragerea radicalului din toate valorile variabilei dependente); o transformarea variabilei pe o alt scal de msurare i aplicarea altui test statistic (de exemplu, prin transformarea pe o scal nominal, se poate aplica testul neparametric chi-ptrat sau, prin transformarea pe o scal ordinal, se poate aplica testul neparametric Kruskal-Wallis, ambele urmnd a fi tratate mai departe).

EXERCIII Efectul Stroop este un fenomen studiat n psihologia experimental, care const ntr-o situaie informaional conflictual. De exemplu, cuvntul albastru este tiprit cu litere de culoare roie, iar subiectul trebuie s rspund indicnd culoarea literelor. Un cercettor efectueaz urmtorul experiment cu privire la efectul Stroop: -Selectioneaz aleatoriu patru grupuri de subieci, fiecare grup fiind format din ase subieci; -Subiecilor din primul grup li se prezint ptrate colorate i li se cere s identifice culoarea; -Celor din grupul 2 li se prezint adjective scrise cu culori corespunztoare (rou este scris cu rou); -Grupurilor 3 i 4 li se prezint combinaii conflictuale ntre cuvinte i culori, dar subiecii din grupul 3 trebuie s identifice cuvntul, n timp ce subiecii din grupul patru trebuie s identifice culoarea. -Variabila dependent este timpul pentru rspuns corect, msurat n zecimi de secund -Toi subiecii primesc 10 stimuli de acelai fel, fiind consemnat timpul mediu de rspuns. -Rezultatele sunt centralizate n tabelul urmtor: Grup 1 Grup 2 Grup 3 0.3 0.5 1.1 0.5 0.5 0.9 0.3 0.3 0.9 0.2 0.2 1.2 0.4 0.4 1.0 0.2 0.3 1.2 Grup 4 1.3 1.2 1.4 0.9 1.5 1.1

n raport cu datele experimentului de mai sus: 1.Enunai ipoteza cercetrii 2.Enunai ipoteza de nul 3.Calculai testul F pentru alfa=0.05 4.Enunai decizia statistic 5.Enunai decizia cercetrii 6.Calculai indicii de mrime a efectului eta ptrat i f 7.Prezentai rezultatul cercetrii n conformitatea cu recomandrile de publicare

Anexa 3. Tabelul parial al distribuiei F pentru =0.051


df df intergrup (between) intragrup 1 2 3 4 5 6 7 8 9 10 (within) 1 161.4476 199.5000 215.7073 224.5832 230.1619 233.9860 236.7684 238.8827 240.5433 241.8817 2 18.5128 19.0000 19.1643 19.2468 19.2964 19.3295 19.3532 19.3710 19.3848 19.3959 3 10.1280 9.5521 9.2766 9.1172 9.0135 8.9406 8.8867 8.8452 8.8123 8.7855 4 7.7086 6.9443 6.5914 6.3882 6.2561 6.1631 6.0942 6.0410 5.9988 5.9644 5 6.6079 5.7861 5.4095 5.1922 5.0503 4.9503 4.8759 4.8183 4.7725 4.7351 6 5.9874 5.1433 4.7571 4.5337 4.3874 4.2839 4.2067 4.1468 4.0990 4.0600 7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8660 3.7870 3.7257 3.6767 3.6365 8 5.3177 4.4590 4.0662 3.8379 3.6875 3.5806 3.5005 3.4381 3.3881 3.3472 9 5.1174 4.2565 3.8625 3.6331 3.4817 3.3738 3.2927 3.2296 3.1789 3.1373 10 4.9646 4.1028 3.7083 3.4780 3.3258 3.2172 3.1355 3.0717 3.0204 2.9782 11 4.8443 3.9823 3.5874 3.3567 3.2039 3.0946 3.0123 2.9480 2.8962 2.8536 12 4.7472 3.8853 3.4903 3.2592 3.1059 2.9961 2.9134 2.8486 2.7964 2.7534 13 4.6672 3.8056 3.4105 3.1791 3.0254 2.9153 2.8321 2.7669 2.7144 2.6710 14 4.6001 3.7389 3.3439 3.1122 2.9582 2.8477 2.7642 2.6987 2.6458 2.6022 15 4.5431 3.6823 3.2874 3.0556 2.9013 2.7905 2.7066 2.6408 2.5876 2.5437 16 4.4940 3.6337 3.2389 3.0069 2.8524 2.7413 2.6572 2.5911 2.5377 2.4935 17 4.4513 3.5915 3.1968 2.9647 2.8100 2.6987 2.6143 2.5480 2.4943 2.4499 18 4.4139 3.5546 3.1599 2.9277 2.7729 2.6613 2.5767 2.5102 2.4563 2.4117

19 20 21 22 23 24 25 26 27 28 29 30
1

4.3807 4.3512 4.3248 4.3009 4.2793 4.2597 4.2417 4.2252 4.2100 4.1960 4.1830 4.1709

3.5219 3.4928 3.4668 3.4434 3.4221 3.4028 3.3852 3.3690 3.3541 3.3404 3.3277 3.3158

3.1274 3.0984 3.0725 3.0491 3.0280 3.0088 2.9912 2.9752 2.9604 2.9467 2.9340 2.9223

2.8951 2.8661 2.8401 2.8167 2.7955 2.7763 2.7587 2.7426 2.7278 2.7141 2.7014 2.6896

2.7401 2.7109 2.6848 2.6613 2.6400 2.6207 2.6030 2.5868 2.5719 2.5581 2.5454 2.5336

2.6283 2.5990 2.5727 2.5491 2.5277 2.5082 2.4904 2.4741 2.4591 2.4453 2.4324 2.4205

2.5435 2.5140 2.4876 2.4638 2.4422 2.4226 2.4047 2.3883 2.3732 2.3593 2.3463 2.3343

2.4768 2.4471 2.4205 2.3965 2.3748 2.3551 2.3371 2.3205 2.3053 2.2913 2.2783 2.2662

2.4227 2.3928 2.3660 2.3419 2.3201 2.3002 2.2821 2.2655 2.2501 2.2360 2.2229 2.2107

2.3779 2.3479 2.3210 2.2967 2.2747 2.2547 2.2365 2.2197 2.2043 2.1900 2.1768 2.1646

Tabelul este aplicabil pentru maxim 11 grupuri (dfBetween = 10) i dfWithin maxim=30.

Tabele complete pentru F se gsesc n manualele recomandate n bibliografie. Sursa: Electronic Textbook. STATSOFT, Copyright StatSoft, Inc., 1984-1999

Anexa 3. Tabelul parial al distribuiei F pentru =0.05 9 (Sursa: Electronic Textbook, STATSOFT, Copyright StatSoft, Inc., 1984-1999)
9

Tabelul este aplicabil pentru maxim 11 grupuri (dfBetween=10) i dfWithin maxim=30. Tabele complete pentru F se gsesc n manualele recomandate n bibliografie

S-ar putea să vă placă și