Documente Academic
Documente Profesional
Documente Cultură
si
I C
i le
CURSUL 16 seri
.I.
. T
ET
te a
l t a
TESTE DE VERIFICARE c A u
F a
l
IPOTEZELOR
a e
ci e
p
i c is
a t
STATISTICE
a t e m (continuare)
e M
l d
rs u
Cu
Testarea ipotezelor privind dispersiile a douăi I E
s
populații I C
i l e
e ri
Pentru a compara dispersiile a două populaţii, s vom
. I.
determina raportul 1 2
/ 2 . T
2 dintre ele. E TDeoarece
dispersia eşantionului reprezintăatun ea estimator
l t
nedeplasat şi consistent al dispersiei a c u teoretice a
2 F
colectivităţii, raportul s1al/es2 va constitui un estimator
2
c i2 2
punctual al raportului sp e 1 / 2 dintre dispersiile 1
2
și
i
2 , studiate. atic
2
Cu
I E
si
regiunea critică Rc este caracterizată de inegalitatea I C
i l e
ri
F F n1 1, n2 1,1 ..I. s e
. T
E T
e a
t important să știm că
Observație : Pentru calcule este l t a
repartiția Fisher verifică proprietata c u
F a
a l e
c i
e 1
F df numarator ,df numitor i sp,1 α .
a ti c F df numarator ,df numitor , α
e m
at
e M
l d
rs u
C u
Testarea ipotezelor privind mediile mai multori I E
s
populații I C
i l e
e ri
s
ANOVA simplă .T.I.
E T
Metoda denumită "ANOVA simplă" e a se utilizează
a t
în situatia în care avem o singură u l variabilă
t
a c
independentă cu mai multe de F două trepte (și implicit
a l
grupe de subiecți) și oecsinguraă variabilă dependentă.
i
Această tehnică este spechivalentul testului t
c i
independent. Se a ti poate spune că testul t
mai
e m
independentateste un tip special de ANOVA simplă în
M
care sunt d e implicate doar două grupe.
u l
rs
Cu
ANOVA simplă permite verificarea ipotezei i I E
s
potrivit căreia mediile a două sau mai multe serii I Cde
date care reprezintă treptele (dependente ale) i e
aceleiași
l
e ri
variabile sunt egale între ele. Această afirmație s
. I.
reprezintă ipoteza nulă a testului. În cadrul . T metodei
E T
ANOVA, ipoteza alternativă estetereprezentată a de
l t a
negarea ipotezei nule. Procedeul c u matematic implicat în
a
ANOVA simplă constă înle analiza dispersiei variabilei
F
i a
dependente. În aceastae analiză dispersia totală are două
c
sp
componente: dispersia c i din interiorul fiecărui grup
a ti
format și dispersia m dintre mediile grupelor și marea
t e
medie (media M
a totală fară a ține cont de grupele
formate). d e De exemplu, pentru subiectul X din grupa i,
u l i
rs
Cu
abaterea față de marea medie M este dată de două i I E
s
componente: abaterea lui X i față de media M i aI C
grupului din care face parte, (adică X i M i ), i l e
respectiv
e ri
abaterea mediei grupului i față de marea.I.medie (adică
s
. T
M i M ). Prima componentă, care se E Tdatorează
e a
fluctuațiilor eșantionului ales pentru t a t studiu, poartă
u l
numele de dispersie intragrup, a c iar cea de a doua, care
F
apare mai ales ca urmarealea influentei variabilei
c i
independente, se numește sp e dispersie intergrup.
i c i
a t
În continuare t e m vom prezenta mecanismul matematic
a
de calculare e M al indicatorului F (simbolul rezultatului
obținut l dprin testul ANOVA). Pentru aceasta
rs u
C u
presupunem că în legătură cu caracteristica x a uneii I E
s
anumite populații statistice sunt puse în evidență I Ck
grupe de interes ale căror caracteristici vor firiile
s e
desemnate respectiv prin x1 , x2 ,.., xk . Din . I. prima grupă
selecționăm un eșantion de volum nE1:T . T
a
En11 x11 , x21 ,.., xn11 , din cea detaat doua grupă un
u l
e
a l
a c
eșantion de volum n2 : En2e2 F x12 , x22 ,.., xn2 2 ,…, iar din
ultima grupă un eșantion i
c de volum nk :
p e
s
Enk k x1k , x2 k ,..,atxicnik k . Sistematizăm rezultatele astfel
e m
obținute în tabelul
at de mai jos:
e M
l d
rs u
C u
Coloane c1 c2 ck I E
si
x11 x12 x1k I C
i le
Replici eri
xn11 xn2 2 x.In.k ks
. Tnk
n1 n2 T
Total pe
coloane r 1 xr1 xr 2tea xrk
r 1 lta
E
r 1
c u
Media x1 F x 2 a xk
a l e
c i
p e
i s Tabelul 4.
t i c
m a
ate
Pentru calcuarea raportului F corespunzător
M
metodeideANOVA simplă folosim procedeul denumit
u l
rs
Cu
algoritmul "ABC". Potrivit acestuia, la pasul întâi, se I E
si
calculează valorea I C
i l e
ri
n1 n2 nkse
.
A x xr1 xr 2 .T xrk ,
2 2 2 . I 2
r 1 r 1 E T r 1
t e a
l t a
care reprezintă suma pătratelor u
c rezultatelor cuprinse în
F a
cadrul eșantioanelor prelevate a l e din fiecare grupă în
i
ccalculează valoarea
parte. La pasul doi, sse p e
c i
a ti
e m
at
e M
l d
rs u
C u
2 E
n1 n2 nk
i I s
x
2
xr1 xr 2 xrk C
I
B r 1 r 1 r 1
i i e
l ,
r
N n1 n2 nk. s e
. I
. T
E T
care reprezintă raportul dintre t e a pătratul sumei
rezultatelor obținute în toate ceșantioanele, l t a indiferent de
u
grupa din care acestea au F afost prelevate, și numarul
l e
total de unități statistice c i prelevate ( N n1 n2 nk ).
a
p e
În fie, la pasul trei, i s calculează valoarea
se
t i c
m a
ate
e M
l d
rs u
C u
2 2 2 E
n1
n2
nk
i I
r1 r 2 rk I C
x x x s
C r 1 r 1 r 1
i i
l e ,
ekr
n1 n2 s
n
. I.
. T
E T
reprezentând suma a k rapoarte, câte t e a unul pentru
fiecare grupă, obținute prin împărțirea l t a pătratului
c u
sumei caracteristicilor unităților F a prelevate dintr-o
a l e
anumită grupă la numărul e c total de unități prelevate din
i
această grupă. ci sp
t i
Datele astfel m aobţinute se trec într-un tabel ca cel de
mai jos, denumit ate tabel ANOVA:
e M
l d
rs u
C u
Sursa df SS MS F iIE
s
Factorul MS(factor) I C /
k - 1 C - B (C - B)/(k - 1) i l e
(intergroup) MS(eroare)
ri
s e
Eroarea . I.
N - k A - C (A - C)/(N - .k) T
(intragrup) E T
Total N-1A-B t e a
l t a
c u
F a
Tabelul
a l e 5.
c i
p e
i s
Semnificaţia rubricilor
t i c acestui tabel este
m a
urmatoarea: te
a
df - reprezintă numarul gradelor de libertate (în
e M
engleză l d“the degrees of freedom”);
rs u
C u
SS - reprezintă suma pătratelor (în engleză “the sum I E
si
of squares”); I C
MS - reprezintă expresia ANOVA a dispersiei, i l e sau,
e ri
media patratică (în engleză “the mean square”) s
. I.
MS factor T . T
F - reprezintă raportul E ANOVA.
MS eroare t e a
l t a
c u
F a
Semnificaţia elementelor a l econsemnate în tabelul 5 este
c i
urmatoarea : p e
i s
c
k - reprezintăatinumarul grupelor în care a fost
departajat factorul e m studiat;
at
N - reprezintă
e M numarul total de unități statistice
l d
(subiecți)
rs u implicate (implicați) în experiment;
C u
k 1 df factor ; i I E
s
I C
e
N k n1 1 n2 1 .. nk 1 df e ri il eroare ;
s
. I.
. T
N 1 df total ; E T
t e a
l t a
u
k ac nc
2 2
nc
eF
x rc c i a l x rc
c 1 r 1
k
CB e SS factor ;
r 1
i sp
c 1 t i cnc N
m a
ate
e M
l d
rs u
C u
2 E
nc
i I
k rc
x s
k nc I C
A C xrc 2 r 1 i i le
c 1 r 1 c 1 nc ser
.I.
T
nc
k .
xrc 2 x c SS eroare ; a E
2
T
c 1 r 1 a t e
u l t
a c
nc
e F
xrc
p e c i a l
unde x c r 1
, cci s 1,2,.., k ;
nc ati
e m
at
e M
l d
rs u
C u
2 E
k nc
i I
k nc xrc
c 1 r 1
I C
s
A B xrc 2 i i le
c 1 r 1 N ser
.I.
. T
ET
nc
k 2 a
xrc x 2
SS total , lta te
c 1 r 1 c u
F a
a l e
k nc c i
e
xrc i s
c 1 r 1 ati
c
p
unde x m ;
e
atN
e M
l d
rs u
C u
C B SS factor I E
MS factor ; si
k 1 df factor e I C
i i l
ser
A C SS eroare .I.
MS eroareET ; . T
N k df eroare e a
t a t
u l
c
Între mărimile SS factor l e F , SS eroare ,
a
a
SS total și df factor p e , df eroare , df total există
c i
i s
relațiile t i c
m a
ate
e M total SS factor SS eroare ,
SS
l d
rs u
C u
respectiv I E
si
I C
df total df factor df eroarerii.l e
s e
. I.
. T
Dintre elementele tabelului 5, deEinteres T major este
valoarea raportului F. Analizândatecu a atenție tabelul 4 și
l t
2 observăm că indicatorul Faeste cu obținut prin
împărțirea raportului dintre F
e media pătratică intergrup și
i a l
numărul gradelor de plibertate e c introdus prin
i s
considerarea acestor t i c grupe la raportul dintre media
pătratică intragrup m a și numărul gradelor de libertate
a te
introdus prin M constituirea întregului eșantion.
d e
u l
rs
Cu
În final, valoarea obținută a raportului F, care i I E
s
reprezintă de fapt valoarea empirică a testului efectuat, I C
va fi comparată cu valoarea teoretică a statisticii i l e F
e ri
corespunzătoare unui nivel de semnificație s
. I. (care
trebuie) ales la începutul testului și gradelor . T de
E T
libertate ale problemei studiate. În t e aacest scop va fi
l t a
folosit tabelul valorilor teoretice c u ale repartiției F.
F a
a l e
Dacă valoarea empirică c i a statisticii F este strict mai
p e
mică decât valoarea i ssa teoretică atunci se acceptă
t i c
ipoteza nulă. Dacă m a valoarea empirică a statisticii F este
t e
strict mai mare
M
a decât valoarea sa teoretică atunci se
e
acceptăl dipoteza alternativă. În ambele cazuri nivelul de
rs u
C u
semnificație statistică este cel stabilit la începutul i I E
s
testului. I C
i l e
e ri
Aplicaţie: Într-o tabără de pregătire, coordonatorul s
. I.
unui lot olimpic este preocupat să optimizeze . T
E T
randamentul procesului de învățare t e a al elevilor săi.
l t a
Pentru aceasta el își propune cca u pe parcursul primelor
a
3 zile de pregătire să monitorizeze l e F performanțele
lotului în funcție de intervalul c i a orar în care se
p e
desfășoară programul i s de instruire: în timpul dimineții,
ti c
după prânz, sau m adupăamiaza. Rezultatele obținute, care
t e
reflectă nivelul
M
a atins de olimpici la sfârșitul
programului d e de instruire în fiecare din cele trei zile,
u l
s
sunturprezentate în tabelul 6.
C
Programul După- i I E
Dimineața După prânz s
de studiu amiază I C
10 9 10i l e
e ri
9 9 s
. 9
Evaluare . I
10 8 T.T 9
per elev a E
8 t e 8 9
l t a
9 c u 8 8
F a
Media x1 9,2 l e x 2 8,4 x3 9
c ia
p e
i s
t i c Tabelul 6.
m a
ate
Analizand e M datele din tabel observăm o ușoară
l d
diferență
rs u între mediile rezultatelor obținute pe
Cu
parcursul celor trei zile de studiu. Deoarece I E
si
randamentul (performanțele atinse) unui elev seI poate C
modifica de la o zi la alta chiar și atunci când i l e
e ri
intervalul orar de pregătire rămâne neschimbat, s se
. I.
ridică întrebarea dacă variațiile notelor . Tdin tabel se
E T
datorează întâmplării ori ele suntteinfluențate a în mod
l t a
real de perioadele de timp în ccare u s-a desfășurat
a
programul de pregătire? le F
Pentru a modela statistic c i a această problemă notăm cu
p e
x1 , x2 , x3 caracteristicile i s populației alcătuite din cei 5
ti c
membrii ai lotului m a olimpic în condițiile în care
a t e
programulMde pregătire se desfășoară în cursul
dimineții, e
u l după prânz, sau după-amiaza. De asemenea,
d
rs
Cu
prin 1 , 2 , 3 vom nota mediile teoretice ale I E
si
caracteristicilor x1 , x2 , x3 . Cu aceste pregătiri, înI C
i l e
legătură cu problema studiată, formulăm ipotezele e ri
s
. I.
H 0 : 1 2 3, T.T
a E
H a : nu toate mediile 1 , 2 , t e
a3 sunt egale între ele.
u l t
a c
e F
Ipoteza nulă exprimă a l
i faptul că intervalul orar de
e c
p
studiu nu afecteazăi sîn mod semnificativ randamentul
t i c
elevilor în timpmace ipoteza alternativă afirmă
ate în situația în care cel puțin două
contrariul. Astfel
M
dintre mediile
d e teoretice ale rezultatelor la învățătură
u l
vorudiferi
rs în mod semnificativ ipoteza nulă va fi
C
înlocuită cu ipoteza alternativă. O decizie în acest sens I E
si
poate fi luată prin folosirea tehnicii ANOVA deI C
analizare a varianței. Pentru aplicarea acestei i e
metode
l
e ri
stabilim pragul de semnificație la 0,05. .I. s
Cu aceste precizări făcute, trecem la Tcalculul .T
E
elementelor corespunzătoare tabelului t e a ANOVA:
l t a
c u
F a
SS(total) = l e
a
i2
3 5 e
c
t i c i
p
sxij
3 5
17689
= x ij tem
i a
1 j 1
2
1187 - 7,733,
i 1 j 1 a 5 15
e M
l d
rs u
C u
SS(factor) = I E
si
I C
2 2
i le
3 5 3 5
eri
xij xij .I. s
i 1 j 1
i 1 j 1 .
T
T
5 15a E
a t e
46 42 45 u17689
2 2 2
l t
ac 1,733,
5 e F 15
ia l
e c
SS(eroare) = s p
i c i
a t 3 5
2
m
a
3 M5
t e
i 1 j 1
xij
1187 1181 6,
l ij
d e x 2
r u
s i 1 j 1 5
C u
I E
si
df(factor) c 1 3-1 = 2, df(total) = n - 1 = 15I C– 1 =
14, i l e
e ri
s
. I.
df(eroare) = n – c = 15 – T3.T= 12,
a E
a t e
SS factor c u 1,733
l t
MS(factor) = a 0,8665,
df afactor 2
e F
i l
e c
sp
SS eroare 6
c i
a ti
MS(eroare)
m 0,5.
at e df eroare 12
e M
l d
rs u
C u
Cu datele obținute, tabelul ANOVA, corespunzător I E
si
problemei noastre, devine I C
i l e
e ri
s
Sursa SS df MS . I.
. T
Intervalul orar 1,733 2ET0,8665
e a
Eroarea 6 ltat 12 0,5
Total c
7,733 u 14
F a
a l e
c i
p eTabelul 7.
i s
t i c
m a
e
atverificare
Testul de M a ipotezei nule formulate mai
devreme e
d se finalizează prin aplicarea statisticii Fisher,
u l
rs
C u
MS factr i I E
F , s
MS eroare e I C
i i l
er s
. I.
cu df(factor) = 2 grade de libertate la numărător . T și cu
T
Enimitor, care
df(eroare) = 12 grade de libertateela a
a t
utilizează raportul celor două umedii l t pătratice ca
măsură a variației. Cu ajutorul a c formulei de mai sus și a
e F
i a l 0,8665
datelor din tabel obținem p e F
c *
1,733.
i s 0,5
t i c
Pentru finalizarea m a testului, valoarea calculată
t e
F 1,733Mtrebuie comparată cu valoarea critică
*
a
F 2, 12,l d e0,05 3,89 . Deoarece F * F 2, 12, 0,05 ,
rs u
Cu
conchidem că tabelul analizat (tabelul 8) nu ne oferă I E
si
suficiente motive pentru a respinge ipoteza H 0 .IAstfel, C
cu un nivel de semnificație de 5%, pentru membrii i l e
e ri
lotului olimpic alegerea intervalului orar.I.de pregătire s
nu este relevantă. Diferențele de performanțe . T care apar
E T
în tabel având un caracter pur întâmplător. t e a
l t a
c u
F a
a l e
c i
p e
i s
t i c
m a
ate
e M
l d
rs u
C u