Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
ANOVA
Cuprins:
1.2 Definitie
Metoda ANOVA (ANalysis Of VAriance) constituie o cale perfectionata de rezolvare
a testului egalitatii mai multor medii. Testarea se poate efectua in conditiile existentei mai
multor grupe de observatii provenite din variatia unui singur factor (experiment
unifactorial), doi factori (bifactorial), mai multi factori (multifactorial). Acestia pot fi la
randul lor la 2, 3, mai multe niveluri. Analizele ANOVA pot da raspunsuri la intrebari de
tipul: care tratament termic este mai bun? Diferentele date de verificarea cu mai multe
pasametre provin din pasametre, cotele de reglaj ale acestora sau ambele cauze?
Daca nsa introduce o a treia grupa de subiecti care au un nivel mediu de motivare
(apropiat de optimum motivational), se va observa ca performantele la nvatare vor creste.
Iata graficul aceastei situatii:
Se observa ca acest design experimental constituit din trei grupe este mai fidel
dect cel format din doua grupe, deoarece reuseste sa surprinda faptul ca eficienta nvatarii
creste la un nivel mediu de motivare si scade n situatiile extreme. Acest fapt nu ar fi putut
fi surprins daca am fi utilizat doar doua esantioane.
Ca urmare, cu ct numarul de grupe comparative este mai mare, cu att se
diversifica si gradele unei variabile independente. Astfel, putem observa care este efectul
Unde: este nivelul de ncredere pentru fiecare test t efectuat; c este numarul de teste t ce
trebuie efectuate.
Daca existau doar doua grupe de subiecti se aplica un singur test t ntre grupul 1 si
grupul 2. Daca exista nsa trei grupe de subiecti sunt necesare trei teste t (ntre grupul 1 si
grupul 2; ntre 2 si 3; respectiv ntre 1 si 3). Cu ct avem un numar mai mare de grupe cu
att numarul testelor t ce trebuie efectuate creste.
Ori, nivelul de ncredere maxim pna la care putem respinge o ipoteza nula este de
0,05 (.05). Conform formulei date mai sus, acest nivel de ncredere se calculeaza n functie
de numarul de grupe. Daca n cazul a doua grupe aplicam un singur test t nivelul de
ncredere al experimentului este:
nsa ncepnd cu situatia n care avem trei grupe trebuie aplicate mai multe teste t
simultane, crescnd astfel sansa de a comite o eroare de tip I.
Terapie individuala
X
Terapie grup
Grup de control
11
144
81
36
10
100
49
49
11
121
36
49
81
10
100
16
50
514
35
263
20
102
Media
10
103
52,6
20,4
Pentru calcularea raportului F din ANOVA simpla, cea mai usoara cale este metoda
denumita ABC.
Astfel trebuie mai nti calculate A, B si C, unde:
A se obtine prin ridicarea la patrat a rezultatelor fiecarui subiect si apoi sumarea lor
(indiferent de grupa din care face parte).
C se obtine prin suma rezultatelor subiectilor din grupa 1, ridicarea la patrat a valorii
obtinute urmata apoi de mpartirea la totalul de subiecti ai primei grupe.
12
SS
df
MS
Intergrup
C-B
k-1
(C-B) / (k-1)
MS1/MS2
Intragrup
A-C
N-k
(A-C) / (N-k)
Totala
A-B
N-1
SS
df
MS
Intergrup
90
45
10,00
Intragrup
54
12
4,5
Totala
144
14
Interesul major n acest tabel l reprezinta valoarea lui F. Aceasta vine raportata la
tabelul lui F pentru nivelele de semnificatie de .05 sau .01. Tabelul lui F se utilizeaza diferit
de cel al lui t.
Se observa ca raportul F este obtinut prin mpartirea Mediei patratice (MS)
intergrup la media patratica (MS) intragrup. Fiecarei medii patratice i corespunde anumite
grade de libertate. n cazul problemei date, se observa citind din tabelul sumar ANOVA ca
MS intergrup are 2 df (doua grade de libertate), iar MS intragrup are 12 df.
n tabelul lui F se citeste valoarea corespunzatoare gradelor de libertate pentru
intergrup (pe coloana a doua deoarece df=2) si pentru intragrup (df=12, deci linia 12). Se
observa doua valori trecute la intersectia coloanei 2 cu linia 12 (3,88 pentru un p<.05 si
6,93 pentru un p<.01).
Comparnd valoarea lui F obtinuta de noi (F=10) cu valorile trecute n tabel n
functie pragul de semnificatie ales pentru a respinge ipoteza nula (3,88 pentru un p<.05 si
6,93 pentru un p<.01) observam ca F obtinut este mai mare dect valoarea lui F tabelar.
Aceasta nseamna ca raportul F obtinut este semnificativ statistic, ipoteza nula este
respinsa, deci exista diferente ntre mediile celor trei grupe.
Matematic rezultatul obtinut se scrie sub forma:
F (2,12) = 10,00, p<.05 (se citeste "F cu 2 si 12 grade de libertate are valoarea 10 si este
semnificativ la nivelul de .05").
14
Pentru a depasi acest impas, prima solutie ar fi realizarea de teste t ntre grupele 1 si
2, 2 si 3 sau 1 si 3. n aceasta situatie reapare problema enuntata anterior privind . De
aceea sunt necesare alte solutii care poarta numele de comparatii post hoc, efectuate dupa
gasirea unui raport F semnificativ.
De asemenea, pot fi utilizate si comparatii planificate pentru a testa diferentele ntre
grupele de subiecti, nainte de efectuarea experimentului.
OBSERVATIE: Desi n problema data numarul de subiecti din fiecare grupa a fost
egal, n aplicare testului ANOVA simpla numarul de subiecti din grupe poate sa nu fie egal
cu conditia respectarii unei dispersii omogene n grupe.
Omogenitatea dispersiei o masura a asocierii
Respingerea ipotezei nule arata ca exista o diferenta semnificativa ntre medii. n
cazul unor esantioane mari acest rezultat poate fi lipsit de aplicativitate. Situatia poate fi
similara unui coeficient de corelatie r=.15 semnificativ statistic la un esantion mare nsa
relatia dintre cele doua variabile (r=.15) arata o slaba asociere.
O masura a marimii asocierii ntre variabila independenta si cea dependenta n
cazul ANOVA este omogenitatea dispersiei ( omega patrat). Ea indica proportia din
dispersia variabilei dependente care poate fi pusa pe seama variatiei variabilei
independente. Masura este similara coeficientului de determinare (r) discutat n cadrul
studiului corelational.
Formula lui omega patrat propusa de Hays (1981) este:
15
Unde: N este totalul subiectilor din experiment, iar k numarul de grupe formate.
Exista cteva precautii n utilizarea lui . Cea mai importanta dintre ele se refera
la utilizarea acestei masuri n conditiile n care variabila independenta a fost atent mpartita
n trepte ct mai egale posibil.
Grupele realizate pe baza unor variabile cantitative ar trebui sa pastreze o distanta
egala ntre ele. Unitatile egale de tip (2 ore, 4 ore, 6 ore) conduc la utilizarea lui fara nici
o problema. n cazul unitatilor inegale de tip (2 ore, 5 ore, 15 ore) nu este indicata
calcularea omogenitatii dispersiei.
Grupele realizate pe baza unei variabile independente nominale (calitative) ar
trebui sa pastreze aceasta conditie dintr-o perspectiva teoretica ct mai mult posibil. n
cazul problemei de fata, cele trei trepte (tratament individual, colectiv si control) nu sunt
egale din perspectiva teoretica (distanta dintre tratamentul individual si cel colectiv fiind
mai mica dect cea dintre nontratament si oricare din grupele experimentale). Drept
consecinta, calcularea lui nu este recomandata.
16
OBSERVATIE: Aceasta formula este valida numai n situatia n care numarul de subiecti
din fiecare grupa este egal.
Pentru situatia ANOVA factorial, MS intergrup devine MS tratament (factor), iar
MS intragrup devine MS eroare (intracelula).
Urmatorul pas, consta n interpretarea valorii gasite, Cohen (1992) propune
urmatoarele valori ale lui f:
17
MS
SS/df
SS/df
SS/df
F
F
(D-B)]
Total
N-1
Unde: n este numarul de subiecti a unei grupe; N numarul de subiecti din experiment, iar k
este numarul de repetari a testarii. F se obtine facnd raportul ntre MS independent si MS
rezidual.
Mai trebuie facute cteva precizari:
SS individual = C-B;
SS independent (adevarat, tratament) = D-B;
18
A se obtine prin ridicarea la patrat a rezultatelor fiecarui subiect si apoi sumarea lor
(indiferent de grupa din care face parte.
D se obtine prin sumarea rezultatelor subiectilor din grupa 1, ridicarea la patrat a valorii
obtinute. Procedeul se repeta si pentru celelalte grupe, iar rezultatele partiale obtinute se
aduna, suma obtinuta se mparte n final la numarul de subiecti cuprinsi ntr-o grupa.
Unde: k reprezinta numarul de evaluari, implicit de grupe; N numarul de subiecti dintr-o
grupa.
Pentru a usura ntelegerea tehnicii ANOVA unifactoriala cu masuratori repetate se va oferi
spre rezolvare urmatoarea problema.
19
nainte
Dupa 1
Dupa
luna
x
6
2
Dupa
luni
x
luni
x
4
1
1
2
0
3
6
1
5
1
0
8
1
1
2
5
20
6
6
0
1
0
7
1
7
1,
1,
271
8
M
0
8
Ultimul pas consta n calcularea raportului lui F n cazul ANOVA cu masuratori repetate:
F = MS experimental / MS rezidual;
F = 30,375 / 1,875 = 16,2.
Iata tabelul sumar ANOVA masuratori repetate n cazul problemei date:
Sursa
SS
dispersie
MS
i
Individu
41,37
ala
Experim
F,p<.
05
8,27
5
91,12
5
30,3
ent
Rezidual
5
28,12
75
1,87
a
Totala
5
160,6
5
2
16
3,29*
,2
25
3
Dupa calcularea lui F se compara valoarea gasita cu cea prezenta n tabelul lui F. Se
observa ca valoarea obtinuta F = 16,2 este mai mare dect cea prezenta n tabelul lui F la
un prag de .05, pentru 3 si 15 grade de libertate (F = 3,29). Ca urmare ipoteza nula este
22
B1
B2
B3
A1B1
A1B2
A1B3 Medie A1
A2B1
A2B2
A2B3 Medie A2
A3B1
A3B2
A3B3 Medie A3
Medie B1 Medie B2 Medie B3
Dupa cum se observa, din combinarea celor doi factori fiecare cu trei trepte, se obtin
noua situatii experimentale diferite. Acestea poarta numele de celule.
Daca n cazul ANOVA simpla dispersia totala era suma dispersiei intergrup cu
dispersia intragrup, n cazul ANOVA factoriala exista patru surse ale dispersiei totale, si
anume: dispersia intracelula (echivalenta cu dispersia intragrup); dispersia de-a lungul
mediei liniilor; dispersia de-a lungul mediei coloanelor si dispersia datorata interactiunii
dintre cele doua variabile independente, suma ultimeler trei fiind echivalentul dispersiei
intergrup.
Din aceasta cauza sunt testate trei ipoteze nule n cazul ANOVA bifactorial. Primele
doua se refera la efectul variabilelor independente luate separat (media fiecarei linii este
egala, respectiv media fiecarei coloane este egala), iar cea de-a treia se refera la
interactiune.
Pornind de la aceste coordonate se prezinta tabelul sumar pentru ANOVA factorial:
25
SS
C-B
D-B
(E-B)-(C-B)(DB)
Intracelule
(A-E)-(E-B)
Total
A-B
df
l-1
c-1
MS
SS/df
SS/df
F
F
F
(l-1)(c-1)
SS/df
(N-1)rest
N-1
SS/df
Unde: l este numarul de linii (treptele variabilei A); c este numarul de coloane
(treptele variabilei B), iar gradele de libertate (df) pentru intracelule se calculeaza scaznd
din df total celelalte grade de libertate (linii, coloane, interactiune).
Utiliznd aceasta metoda ABC n calcularea celor trei F pentru ANOVA factorial
este necesar mai nti sa calculam A, B, C, D si E.
A se obtine prin ridicarea la patrat a rezultatelor fiecarui subiect si apoi sumarea lor
(indiferent de celula din care face parte.
C se obtine prin sumarea rezultatelor obtinute de subiectii prezenti pe linia nti, rezultatul
obtinut fiind ridicat la patrat. Procedura se repeta si pentru celelalte linii. Aceste rezultate
partiale se aduna, valoarea rezultata se mparte la totalul de subiecti ai unei linii, indiferent
de coloane.
26
D se obtine prin sumarea rezultatelor subiectilor din coloana 1 si apoi ridicarea la patrat a
valorii obtinute. Procedeul se repeta si pentru celelalte coloane, iar rezultatele partiale
obtinute se aduna iar suma se mparte la numarul de subiecti cuprinsi ntr-o coloana,
indiferent de linie.
E se obtine prin sumarea rezultatelor subiectilor din celula nti si apoi ridicarea la patrat a
sumei obtinute. Procedeul se repeta pentru toate celulele designului factorial, iar rezultatele
partiale obtinute se nsumeaza. Rezultatul obtinut se mparte la numarul de subiecti dintr-o
celula.
OBSERVATIE: Formulele date sunt aplicabile si n situatia n care celulele nu au un numar
egal de subiecti, cu conditia sa nu varieze foarte mult sau sa fie proportionali. n acele
situatii calculul lui C, D si E se diferentiaza nlocuind numitorul cu numarul de subiecti
pentru fiecare linie, coloana sau celula n parte. De pilda, E se va calcula astfel:
27
A1
Zdrobit
Media
B1 Soferi
X
51
45
39
30
24
189
37,8
X
2601
2025
1521
900
576
7623
B2 Nesoferi
X
X
63
3969
57
3249
51
2601
48
2304
39
1521
258
13644
51,6
A1(linie)=
189+258= 447
A1=7623+1364
4= 21267
Media lui
A2
Lovit
Media
42
39
33
33
27
174
34,8
1764
1521
1089
1089
729
6192
36
30
30
27
24
147
29,4
1296
900
900
729
576
4401
A1 = 44,7
A2(linie)=
174+147= 321
A2
=6192
+4401= 10593
Media lui
A3
Accide
nt
Media
33
33
30
27
27
150
30
1089
1089
900
729
729
4536
36
33
36
30
27
162
32,4
1296
1089
1296
900
729
5310
A2 = 32,1
(linie)A3
150+162= 312
A3
4536+5310
= 9846
Media lui
B1=189+174+150=
B2=258+147+162=
A3 = 31,2
Xtot.=1080
513
567
Xtotal = 41706
B1=7623+
B2=13644
6192+4536 = 18351
+4401+5310 = 23355
= 36
SS
df
MS
Prag
dispersiei
Linii (A)
1139,4
569,
12,17
p
<.01
(2,24
97,2
)
2,07
Coloane
97,2
(B)
Interactiun
>.05
(1,24
466,2
233,
)
4,98
(2,24
)
30
<.05
Asadar, se observa ca din cele trei raporturi F, doua sunt semnificative statistic F
linii (determinat de factorul A) si F interactiune (determinat de actiunea comuna a
factorilor A si B).
Se obisnuieste sa se reprezinte grafic influenta factorilor A si B si a interactiunii
lor asupra variabilei dependente. Pe abscisa este trecuta una din variabilele independente
(ntr-un mod arbitrar), n timp ce pe ordonata sunt trecute valorile variabilei dependente.
Vom prezenta un grafic ilustrativ utiliznd datele problemei de fata.
statisticasociala.tripod.com
35