Sunteți pe pagina 1din 6

1

Testul ipotezei multiple compararea mediilor mai multor


eantioane (Metoda ANOVA)

Presupunem c avem de determinat semnificaia diferenelor dintre m
grupe independente de date. Fcnd apel la cunotinele deja prezentate, un
posibil rspuns ar fi s comparm dou cte dou grupuri, n toate
combinaiile posibile (se va aplica testul t). Dac am avea 10 loturi, atunci
numrul de teste ar fi combinri de 10 luate cte 2, adic
45
! 2 )! 2 10 (
! 10
2
10
2
10
=

=
|
|
.
|

\
|
= C . Un numr destul de mare de variante!

innd cont de performanele actuale ale sistemelor informatice, nu
aceasta ar fi problema! Dac privim tema n discuie, n termeni ai
probabilitii de a avea o eroare, atunci iat c procentul de 5% ar nsemna n
cazul nostru aproximativ 2 teste greite din cele 45 (aa zisa eroare de tip I
este prezent aici i const n a accepta greit existena diferenei
semnificative ntre dou grupe, cnd n realitate aceasta nu exist).

Ideea de a elimina aceast posibil eroare se bazeaz pe crearea unui
singur test pentru a compara cele m grupe de date simultan.

Prin analiza varianei numit ANOVA (analysis of variances) se aplic
un singur test, ce respect o statistic de tip Fisher pentru determinarea
semnificaiei diferenei dintre mediile eantioanelor.

Presupunem c avem m grupe de date, fiecare grup j avnd n
j
elemente.

Notm un element din ntregul set de valori cu x
ij
, unde i reprezint
poziia elementului din grupul j.
Astfel, i variaz de la 1 la n
j
, iar j de la 1 la m.

Ipoteza nul H
0
se definete astfel:

H
0
:
m j
= = = = ... ...
2 1
, iar ipoteza alternativ,

H
1
: Exist cel puin dou grupe de medii diferite.

Aceasta nseamn c - , cu pentru care
l k
= .
2

n figura alturat este prezentat componena loturilor de studiu.









Grupele de date de comparat

Ca ipoteze de lucru, se presupune c:

i) fiecare grup de date este distribuit normal,
ii) iar dispersiile sunt egale ntre grupuri.

Aceste presupuneri trebuie verificate; n caz contrar, testul ANOVA
nu poate fi aplicat !

Numrul total de elemente n poate fi calculat cu formula urmtoare,
innd cont de cele m grupe :

=
=
m
j
j
n n
1
(j este numrul de grupe).
Media total a tuturor valorilor este :
n
x
x
j i
ij
=
,
, deci suma tuturor
elementelor raportat la numrul total de elemente.

Putem calcula media total i inem cont de valoarea mediei fiecrui
grup astfel:

Notm media grupului j cu
j
x . Acest grup are n
j
elemente.

Avem n final media total:
n
x n
x
j
j j

= .

Variaia variabilei aleatoare X de interes este msurat convenial n
termeni ai deviaiei fa de valoarea medie ( x x
ij
).
x
1

x
2


x
n1

Lotul 1
Medie
x
1

x
2


x
nj

Lotul j
Medie
x
1

x
2


x
nm

Lotul m
Medie
3

Suma total a ptratelor deviaiilor este (total sum of square):
( )

=
j i
ij
x x SST
,
2
.
Putem scrie suma deviaiei astfel (adugm i scdem
j
x ):
( ) ( ) x x x x x x
j j ij ij
+ = .

Folosind teorema lui Cochran se poate demonstra c prin sumare i
ridicare la ptrat se pstreaz egalitatea:

( ) ( ) ( )

+ =
j i
j
j i
j ij
j i
ij
x x x x x x
,
2
,
2
,
2
.

innd cont c ultima sum depinde numai de numrul de grupe de
comparat (j):

( ) ( ) ( )

+ =
j
j j
j i
j ij
j i
ij
x x n x x x x
2
,
2
,
2
.

Aceste variaii reprezint:

Suma total a ptratelor deviaiilor:
( )

=
j i
ij
x x SST
,
2
.
Suma ptratelor deviaiilor ntre grupuri (sum of square between):
( )

=
j
j j
x x n SSB
2
.
Suma ptratelor deviaiilor n grupuri (sum of square within):
( )

=
j i
j ij
x x SSW
,
2
.

Avem egalitatea: SST = SSW + SSB.

Deducem astfel, c exist dou surse de variaie, ntre grupuri i n
cadrul grupurilor. Raportul mediilor acestor dou surse de variaie respect
(n cazul presupunerilor de repartiii normale i dispersii egale) o distribuie
de tip Fisher. Aceasta este statistica de analizat n studiul de tip ANOVA.


4
SSB reprezint o distribuie de tip Chi ptrat, cu m-1 grade de libertate.

SSW reprezint o distribuie de tip Chi ptrat, cu n-m grade de libertate.

Putem calcula mediile:
1
=
m
SSB
MSSB , respectiv
m n
SSW
MSSW

= .

Statistica Fisher se obine prin raportul
MSSW
MSSB
F = .

Aceasta va avea m-1, respectiv n-m grade de libertate.

Pentru interpretare se calculeaz valoarea F prin raportul prezentat mai
sus i se compar valoarea acestui raport cu valoarea tabelat (valoarea
critic) corespunztoare gradelor de libertate determinate i unui nivel de
semnificaie standard de 5% (0,05).

Dac valoarea calculat este mai mare dect cea tabelat, rezult c
mediile nu sunt egale i exist cel puin dou grupe cu diferen
semnificativ statistic.

Dac se calculeaz valoarea semnificaiei, aceasta se va compara cu
valoarea 5%. n situaia n care este mai mic atunci exist diferen
semnificativ statistic.

Menionm c testul ANOVA, n cazul existenei diferenei
semnificative, are dezavantajul de a nu putea prezenta care sunt grupurile ale
cror medii difer.

Aceast metod este optim n situaia n care nu avem diferen
semnificativ ntre grupe, deoarece am realizat un singur test pentru m grupe
de comparaie.



Exemplu numeric de calcul

Pentru a minimiza calculele necesare realizrii testului ANOVA vom
considera c avem trei grupuri cu cte 4 valori fiecare. Valorile sunt afiate
n tabelul urmtor.
5

Valorile grupelor de comparat:

Grupul
A
Grupul
B
Grupul
C
2 2,9 2
2,5 3,2 2,1
3 3 2,6
2,7 3,1 2,3


Calculnd mediile celor 3 grupe de date obinem: 55 , 2
1
= x ; 05 , 3
2
= x ;
25 , 2
3
= x . Media pe toate grupurile este 616 , 2 = x .


Valoarea SSW este: SSW = (2-2,55)
2
+ (2,5-2,55)
2
+ (3-2,55)
2
+ (2,7-
2,55)
2
+ (2,9-3,05)
2
+ (3,2-3,05)
2
+ (3-3,05)
2
+ (3,1-3,05)
2
+ (2-2,25)
2
+ (2,1-
2,25)
2
+ (2,6-2,25)
2
+ (2,3-2,25)
2
; SSW = 0,79.


Valoarea SST este: SST = (2-2,616)
2
+ (2,5-2,616)
2
+ (3-2,616)
2
+ (2,7-
2,616)
2
+ (2,9-2,616)
2
+ (3,2-2,616)
2
+ (3-2,616)
2
+ (3,1-2,616)
2
+ (2-2,616)
2

+ (2,1-2,616)
2
+ (2,6-2,616)
2
+ (2,3-2,616)
2
. Efectund calculele obinem:
SST = 2,09.


Valoarea SSB o calculm ca diferena celor dou i obinem:
SSB = 1,30.


Se vor calcula mediile prin raportarea sumelor ptratelor diferenelor la
gradele de libertate i n final, se va determina valoarea statisticii Fisher.


Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de
mai jos este cuprins n toate programele de analiz a varianei ANOVA,
acestea calculeaz de asemenea i nivelul de semnificaie, notat p).


6
Tabelul de calcul pentru testul ANOVA
Sursa de
variaie
Suma
ptratelor
SS
Grade de
libertate
df
Media SS
MS
Statistica
Fisher
F
Between
Groups 1.306666667 3-1 = 2 0.653333333 7.443037975
Within Groups 0.79 12-3 = 9 0.087777778

Total 2.096666667 11

Valoarea statisticii Fisher corespunztoare tabelat este
F(2; 9; p=5%)=4,256 .

Valoarea calculat fiind mai mare dect valoarea tabelat (valoarea
critic), deducem c mediile difer semnificativ, dar nu cunoatem efectiv
care dintre acestea sunt diferite.

Programele de calcul i analiz statistic determin i valoarea
semnificaiei, notat cu p.

Dac valoarea acesteia este mai mic de 0,05, atunci mediile difer
semnificativ.

S-ar putea să vă placă și