Documente Academic
Documente Profesional
Documente Cultură
\
|
= C . Un numr destul de mare de variante!
innd cont de performanele actuale ale sistemelor informatice, nu
aceasta ar fi problema! Dac privim tema n discuie, n termeni ai
probabilitii de a avea o eroare, atunci iat c procentul de 5% ar nsemna n
cazul nostru aproximativ 2 teste greite din cele 45 (aa zisa eroare de tip I
este prezent aici i const n a accepta greit existena diferenei
semnificative ntre dou grupe, cnd n realitate aceasta nu exist).
Ideea de a elimina aceast posibil eroare se bazeaz pe crearea unui
singur test pentru a compara cele m grupe de date simultan.
Prin analiza varianei numit ANOVA (analysis of variances) se aplic
un singur test, ce respect o statistic de tip Fisher pentru determinarea
semnificaiei diferenei dintre mediile eantioanelor.
Presupunem c avem m grupe de date, fiecare grup j avnd n
j
elemente.
Notm un element din ntregul set de valori cu x
ij
, unde i reprezint
poziia elementului din grupul j.
Astfel, i variaz de la 1 la n
j
, iar j de la 1 la m.
Ipoteza nul H
0
se definete astfel:
H
0
:
m j
= = = = ... ...
2 1
, iar ipoteza alternativ,
H
1
: Exist cel puin dou grupe de medii diferite.
Aceasta nseamn c - , cu pentru care
l k
= .
2
n figura alturat este prezentat componena loturilor de studiu.
Grupele de date de comparat
Ca ipoteze de lucru, se presupune c:
i) fiecare grup de date este distribuit normal,
ii) iar dispersiile sunt egale ntre grupuri.
Aceste presupuneri trebuie verificate; n caz contrar, testul ANOVA
nu poate fi aplicat !
Numrul total de elemente n poate fi calculat cu formula urmtoare,
innd cont de cele m grupe :
=
=
m
j
j
n n
1
(j este numrul de grupe).
Media total a tuturor valorilor este :
n
x
x
j i
ij
=
,
, deci suma tuturor
elementelor raportat la numrul total de elemente.
Putem calcula media total i inem cont de valoarea mediei fiecrui
grup astfel:
Notm media grupului j cu
j
x . Acest grup are n
j
elemente.
Avem n final media total:
n
x n
x
j
j j
= .
Variaia variabilei aleatoare X de interes este msurat convenial n
termeni ai deviaiei fa de valoarea medie ( x x
ij
).
x
1
x
2
x
n1
Lotul 1
Medie
x
1
x
2
x
nj
Lotul j
Medie
x
1
x
2
x
nm
Lotul m
Medie
3
Suma total a ptratelor deviaiilor este (total sum of square):
( )
=
j i
ij
x x SST
,
2
.
Putem scrie suma deviaiei astfel (adugm i scdem
j
x ):
( ) ( ) x x x x x x
j j ij ij
+ = .
Folosind teorema lui Cochran se poate demonstra c prin sumare i
ridicare la ptrat se pstreaz egalitatea:
( ) ( ) ( )
+ =
j i
j
j i
j ij
j i
ij
x x x x x x
,
2
,
2
,
2
.
innd cont c ultima sum depinde numai de numrul de grupe de
comparat (j):
( ) ( ) ( )
+ =
j
j j
j i
j ij
j i
ij
x x n x x x x
2
,
2
,
2
.
Aceste variaii reprezint:
Suma total a ptratelor deviaiilor:
( )
=
j i
ij
x x SST
,
2
.
Suma ptratelor deviaiilor ntre grupuri (sum of square between):
( )
=
j
j j
x x n SSB
2
.
Suma ptratelor deviaiilor n grupuri (sum of square within):
( )
=
j i
j ij
x x SSW
,
2
.
Avem egalitatea: SST = SSW + SSB.
Deducem astfel, c exist dou surse de variaie, ntre grupuri i n
cadrul grupurilor. Raportul mediilor acestor dou surse de variaie respect
(n cazul presupunerilor de repartiii normale i dispersii egale) o distribuie
de tip Fisher. Aceasta este statistica de analizat n studiul de tip ANOVA.
4
SSB reprezint o distribuie de tip Chi ptrat, cu m-1 grade de libertate.
SSW reprezint o distribuie de tip Chi ptrat, cu n-m grade de libertate.
Putem calcula mediile:
1
=
m
SSB
MSSB , respectiv
m n
SSW
MSSW
= .
Statistica Fisher se obine prin raportul
MSSW
MSSB
F = .
Aceasta va avea m-1, respectiv n-m grade de libertate.
Pentru interpretare se calculeaz valoarea F prin raportul prezentat mai
sus i se compar valoarea acestui raport cu valoarea tabelat (valoarea
critic) corespunztoare gradelor de libertate determinate i unui nivel de
semnificaie standard de 5% (0,05).
Dac valoarea calculat este mai mare dect cea tabelat, rezult c
mediile nu sunt egale i exist cel puin dou grupe cu diferen
semnificativ statistic.
Dac se calculeaz valoarea semnificaiei, aceasta se va compara cu
valoarea 5%. n situaia n care este mai mic atunci exist diferen
semnificativ statistic.
Menionm c testul ANOVA, n cazul existenei diferenei
semnificative, are dezavantajul de a nu putea prezenta care sunt grupurile ale
cror medii difer.
Aceast metod este optim n situaia n care nu avem diferen
semnificativ ntre grupe, deoarece am realizat un singur test pentru m grupe
de comparaie.
Exemplu numeric de calcul
Pentru a minimiza calculele necesare realizrii testului ANOVA vom
considera c avem trei grupuri cu cte 4 valori fiecare. Valorile sunt afiate
n tabelul urmtor.
5
Valorile grupelor de comparat:
Grupul
A
Grupul
B
Grupul
C
2 2,9 2
2,5 3,2 2,1
3 3 2,6
2,7 3,1 2,3
Calculnd mediile celor 3 grupe de date obinem: 55 , 2
1
= x ; 05 , 3
2
= x ;
25 , 2
3
= x . Media pe toate grupurile este 616 , 2 = x .
Valoarea SSW este: SSW = (2-2,55)
2
+ (2,5-2,55)
2
+ (3-2,55)
2
+ (2,7-
2,55)
2
+ (2,9-3,05)
2
+ (3,2-3,05)
2
+ (3-3,05)
2
+ (3,1-3,05)
2
+ (2-2,25)
2
+ (2,1-
2,25)
2
+ (2,6-2,25)
2
+ (2,3-2,25)
2
; SSW = 0,79.
Valoarea SST este: SST = (2-2,616)
2
+ (2,5-2,616)
2
+ (3-2,616)
2
+ (2,7-
2,616)
2
+ (2,9-2,616)
2
+ (3,2-2,616)
2
+ (3-2,616)
2
+ (3,1-2,616)
2
+ (2-2,616)
2
+ (2,1-2,616)
2
+ (2,6-2,616)
2
+ (2,3-2,616)
2
. Efectund calculele obinem:
SST = 2,09.
Valoarea SSB o calculm ca diferena celor dou i obinem:
SSB = 1,30.
Se vor calcula mediile prin raportarea sumelor ptratelor diferenelor la
gradele de libertate i n final, se va determina valoarea statisticii Fisher.
Pentru continuarea calculului putem realiza tabelul de mai jos (tabelul de
mai jos este cuprins n toate programele de analiz a varianei ANOVA,
acestea calculeaz de asemenea i nivelul de semnificaie, notat p).
6
Tabelul de calcul pentru testul ANOVA
Sursa de
variaie
Suma
ptratelor
SS
Grade de
libertate
df
Media SS
MS
Statistica
Fisher
F
Between
Groups 1.306666667 3-1 = 2 0.653333333 7.443037975
Within Groups 0.79 12-3 = 9 0.087777778
Total 2.096666667 11
Valoarea statisticii Fisher corespunztoare tabelat este
F(2; 9; p=5%)=4,256 .
Valoarea calculat fiind mai mare dect valoarea tabelat (valoarea
critic), deducem c mediile difer semnificativ, dar nu cunoatem efectiv
care dintre acestea sunt diferite.
Programele de calcul i analiz statistic determin i valoarea
semnificaiei, notat cu p.
Dac valoarea acesteia este mai mic de 0,05, atunci mediile difer
semnificativ.