Sunteți pe pagina 1din 32

MATEMATICI SPECIALE I E

si
I C
i le
CURSUL 16 seri
.I.
. T
ET
te a
l t a
TESTE DE VERIFICARE c A u
F a
l
IPOTEZELOR
a e
ci e
p
i c is
a t
STATISTICE
a t e m (continuare)
e M
l d
rs u
Cu
Testarea ipotezelor privind dispersiile a douăi I E
s
populații I C
i l e
e ri
Pentru a compara dispersiile a două populaţii, s vom
. I.
determina raportul 1  2
/  2 . T
2 dintre ele. E TDeoarece
dispersia eşantionului reprezintăatun ea estimator
l t
nedeplasat şi consistent al dispersiei a c u teoretice a
2 F
colectivităţii, raportul s1al/es2 va constitui un estimator
2

c i2 2
punctual al raportului sp e 1 /  2 dintre dispersiile  1
2
și
i
 2 , studiate. atic
2

Dacă eşantioanelee m folosite la realizarea testului au


at
fost extrase e M independent din două populaţii distribuite
l d
normalrs u și având aceeași dispersie, atunci din punct de
Cu
vedere teoretic, distribuţia de eşantionare a raportului I E
si
s1 / s2 urmează repartiția Fisher, F, cu n1  1, grade
2 2
I C de
l e
libertate pentru numărător și cu n2  1, grade e ri i
de
s
libertate pentru numitor, unde n1, respective, . I. n2 ,
. T
reprezintă volumele celor două eșantioane E T folosite la
e a
t s2 . Prin urmare
calculul indicatorilor s1, respective, l t a
c u
pentru a verifica o ipoteză Fdea forma H 0 :  1   2 , se 2 2

poate folosi statistica ciale


p e s 2
s
t i c i F  1
2
.
m a s2
ate
e M
Procedeul
l d de utilizare este următorul:
pentru s u
r testul bilateral
C u
I E
si
H0 :   ,
1
2 2
2 I C
i le
eri
Ha :   ,
2 2 . s
1 2
T.I
T .
a E
regiunea critică Rc este caracterizată a t e de inegalitățile
u l t
a c
F  F  n1a e1, n2  1, / 2 ,
F
i l
e c
sau sp
F aticF  n1  1, n2  1,1   / 2 ;
i
e m
at
e M
pentru ltestul
d unilateral dreapta
rs u
C u
H 0 :  12   22 , I E
si
I C
le
H a :  12   22 , eri i
. s
. I
. T
regiunea critică Rc este caracterizatăETde inegalitatea
t e a
l t a
F  F  n1  1, a cn2  1, ;
u
e F
i a l
c
e stânga
pentru testul unilateral sp
i c i
a t
at e m H 0 :  1
2
  2
2,
e M
l d
rs u H a : 1   2 ,
2 2

Cu
I E
si
regiunea critică Rc este caracterizată de inegalitatea I C
i l e
ri
F  F  n1  1, n2  1,1   ..I. s e
. T
E T
e a
t important să știm că
Observație : Pentru calcule este l t a
repartiția Fisher verifică proprietata c u
F a
a l e
c i
e 1
F  df numarator ,df numitor i sp,1  α   .
a ti c F  df numarator ,df numitor , α 
e m
at
e M
l d
rs u
C u
Testarea ipotezelor privind mediile mai multori I E
s
populații I C
i l e
e ri
s
ANOVA simplă .T.I.
E T
Metoda denumită "ANOVA simplă" e a se utilizează
a t
în situatia în care avem o singură u l variabilă
t
a c
independentă cu mai multe de F două trepte (și implicit
a l
grupe de subiecți) și oecsinguraă variabilă dependentă.
i
Această tehnică este spechivalentul testului t
c i
independent. Se a ti poate spune că testul t
mai
e m
independentateste un tip special de ANOVA simplă în
M
care sunt d e implicate doar două grupe.
u l
rs
Cu
ANOVA simplă permite verificarea ipotezei i I E
s
potrivit căreia mediile a două sau mai multe serii I Cde
date care reprezintă treptele (dependente ale) i e
aceleiași
l
e ri
variabile sunt egale între ele. Această afirmație s
. I.
reprezintă ipoteza nulă a testului. În cadrul . T metodei
E T
ANOVA, ipoteza alternativă estetereprezentată a de
l t a
negarea ipotezei nule. Procedeul c u matematic implicat în
a
ANOVA simplă constă înle analiza dispersiei variabilei
F
i a
dependente. În aceastae analiză dispersia totală are două
c
sp
componente: dispersia c i din interiorul fiecărui grup
a ti
format și dispersia m dintre mediile grupelor și marea
t e
medie (media M
a totală fară a ține cont de grupele
formate). d e De exemplu, pentru subiectul X din grupa i,
u l i
rs
Cu
abaterea față de marea medie M este dată de două i I E
s
componente: abaterea lui X i față de media M i aI C
grupului din care face parte, (adică X i  M i ), i l e
respectiv
e ri
abaterea mediei grupului i față de marea.I.medie (adică
s
. T
M i  M ). Prima componentă, care se E Tdatorează
e a
fluctuațiilor eșantionului ales pentru t a t studiu, poartă
u l
numele de dispersie intragrup, a c iar cea de a doua, care
F
apare mai ales ca urmarealea influentei variabilei
c i
independente, se numește sp e dispersie intergrup.
i c i
a t
În continuare t e m vom prezenta mecanismul matematic
a
de calculare e M al indicatorului F (simbolul rezultatului
obținut l dprin testul ANOVA). Pentru aceasta
rs u
C u
presupunem că în legătură cu caracteristica x a uneii I E
s
anumite populații statistice sunt puse în evidență I Ck
grupe de interes ale căror caracteristici vor firiile
s e
desemnate respectiv prin x1 , x2 ,.., xk . Din . I. prima grupă
selecționăm un eșantion de volum nE1:T . T

  a
En11  x11 , x21 ,.., xn11 , din cea detaat doua grupă un
u l
e


a l
a c

eșantion de volum n2 : En2e2 F x12 , x22 ,.., xn2 2 ,…, iar din
ultima grupă un eșantion i
c de volum nk :
p e
 
s
Enk k  x1k , x2 k ,..,atxicnik k . Sistematizăm rezultatele astfel
e m
obținute în tabelul
at de mai jos:
e M
l d
rs u
C u
Coloane c1 c2 ck I E
si
x11 x12 x1k I C
i le
Replici eri
xn11 xn2 2 x.In.k ks
. Tnk
n1 n2 T
Total pe
coloane r 1  xr1  xr 2tea  xrk
r 1 lta
E
r 1
c u
Media x1 F x 2 a xk
a l e
c i
p e
i s Tabelul 4.
t i c
m a
ate
Pentru calcuarea raportului F corespunzător
M
metodeideANOVA simplă folosim procedeul denumit
u l
rs
Cu
algoritmul "ABC". Potrivit acestuia, la pasul întâi, se I E
si
calculează valorea I C
i l e
ri
n1 n2 nkse
.
A   x   xr1   xr 2  .T  xrk ,
2 2 2 . I 2

r 1 r 1 E T r 1
t e a
l t a
care reprezintă suma pătratelor u
c rezultatelor cuprinse în
F a
cadrul eșantioanelor prelevate a l e din fiecare grupă în
i
ccalculează valoarea
parte. La pasul doi, sse p e
c i
a ti
e m
at
e M
l d
rs u
C u
2 E
 n1 n2 nk
i I  s
  x
2
  xr1   xr 2     xrk  C
I
B   r 1 r 1 r 1
i i e
l ,
r
N n1  n2    nk. s e
. I
. T
E T
care reprezintă raportul dintre t e a pătratul sumei
rezultatelor obținute în toate ceșantioanele, l t a indiferent de
u
grupa din care acestea au F afost prelevate, și numarul
l e
total de unități statistice c i prelevate ( N  n1  n2    nk ).
a
p e
În fie, la pasul trei, i s calculează valoarea
se
t i c
m a
ate
e M
l d
rs u
C u
2 2 2 E
 n1
  n2
 
nk
i I
  r1    r 2    rk  I C
x x x s
C  r 1    r 1      r 1
i i 
l e ,
ekr
n1 n2 s
n
. I.
. T
E T
reprezentând suma a k rapoarte, câte t e a unul pentru
fiecare grupă, obținute prin împărțirea l t a pătratului
c u
sumei caracteristicilor unităților F a prelevate dintr-o
a l e
anumită grupă la numărul e c total de unități prelevate din
i
această grupă. ci sp
t i
Datele astfel m aobţinute se trec într-un tabel ca cel de
mai jos, denumit ate tabel ANOVA:
e M
l d
rs u
C u
Sursa df SS MS F iIE
s
Factorul MS(factor) I C /
k - 1 C - B (C - B)/(k - 1) i l e
(intergroup) MS(eroare)
ri
s e
Eroarea . I.
N - k A - C (A - C)/(N - .k) T
(intragrup) E T
Total N-1A-B t e a
l t a
c u
F a
Tabelul
a l e 5.
c i
p e
i s
Semnificaţia rubricilor
t i c acestui tabel este
m a
urmatoarea: te
a
df - reprezintă numarul gradelor de libertate (în
e M
engleză l d“the degrees of freedom”);
rs u
C u
SS - reprezintă suma pătratelor (în engleză “the sum I E
si
of squares”); I C
MS - reprezintă expresia ANOVA a dispersiei, i l e sau,
e ri
media patratică (în engleză “the mean square”) s
. I.
MS  factor  T . T
F - reprezintă raportul E ANOVA.
MS  eroare  t e a
l t a
c u
F a
Semnificaţia elementelor a l econsemnate în tabelul 5 este
c i
urmatoarea : p e
i s
c
k - reprezintăatinumarul grupelor în care a fost
departajat factorul e m studiat;
at
N - reprezintă
e M numarul total de unități statistice
l d
(subiecți)
rs u implicate (implicați) în experiment;
C u
k  1  df  factor ; i I E
s
I C
e
N  k   n1  1   n2  1  ..   nk  1  df e ri il eroare  ;
s
. I.
. T
N  1  df  total ; E T
t e a
l t a
u
k ac nc
2 2
 nc
 eF  
  x rc  c i a l    x rc 
  c 1  r 1 
k
CB e  SS  factor  ;
r 1
i sp 
c 1 t i cnc N
m a
ate
e M
l d
rs u
C u
2 E
  nc
i I
k   rc 
x s
k nc I C
A  C   xrc  2  r 1   i i le
c 1 r 1 c 1 nc ser
.I.
T
 
nc
k .
  xrc 2  x c  SS  eroare  ; a E
2
T
c 1 r 1 a t e
u l t
a c
nc
e F
 xrc
p e c i a l
unde x c  r 1
, cci s 1,2,.., k ;
nc ati
e m
at
e M
l d
rs u
C u
2 E
  k nc
i I
k nc    xrc 
c 1  r 1
I C
s
A  B   xrc  2   i i le
c 1 r 1 N ser
.I.
. T
ET
 
nc
k 2 a
  xrc  x 2
 SS  total , lta te
c 1 r 1 c u
F a
a l e
k nc c i
e
 xrc i s
c 1 r 1 ati
c
p
unde x  m ;
e
atN
e M
l d
rs u
C u
C  B SS  factor  I E
  MS  factor ; si
k  1 df  factor  e I C
i i l
ser
A  C SS  eroare  .I.
  MS  eroareET ; . T
N  k df  eroare  e a
t a t
u l
c
Între mărimile SS  factor l e F , SS  eroare ,
a
a
SS  total  și df  factor p e , df  eroare , df  total  există
c i
i s
relațiile t i c
m a
ate
e M  total   SS  factor   SS  eroare ,
SS
l d
rs u
C u
respectiv I E
si
I C
df  total   df  factor   df  eroarerii.l e
s e
. I.
. T
Dintre elementele tabelului 5, deEinteres T major este
valoarea raportului F. Analizândatecu a atenție tabelul 4 și
l t
2 observăm că indicatorul Faeste cu obținut prin
împărțirea raportului dintre F
e media pătratică intergrup și
i a l
numărul gradelor de plibertate e c introdus prin
i s
considerarea acestor t i c grupe la raportul dintre media
pătratică intragrup m a și numărul gradelor de libertate
a te
introdus prin M constituirea întregului eșantion.
d e
u l
rs
Cu
În final, valoarea obținută a raportului F, care i I E
s
reprezintă de fapt valoarea empirică a testului efectuat, I C
va fi comparată cu valoarea teoretică a statisticii i l e F
e ri
corespunzătoare unui nivel de semnificație s
. I. (care
trebuie) ales la începutul testului și gradelor . T de
E T
libertate ale problemei studiate. În t e aacest scop va fi
l t a
folosit tabelul valorilor teoretice c u ale repartiției F.
F a
a l e
Dacă valoarea empirică c i a statisticii F este strict mai
p e
mică decât valoarea i ssa teoretică atunci se acceptă
t i c
ipoteza nulă. Dacă m a valoarea empirică a statisticii F este
t e
strict mai mare
M
a decât valoarea sa teoretică atunci se
e
acceptăl dipoteza alternativă. În ambele cazuri nivelul de
rs u
C u
semnificație statistică este cel stabilit la începutul i I E
s
testului. I C
i l e
e ri
Aplicaţie: Într-o tabără de pregătire, coordonatorul s
. I.
unui lot olimpic este preocupat să optimizeze . T
E T
randamentul procesului de învățare t e a al elevilor săi.
l t a
Pentru aceasta el își propune cca u pe parcursul primelor
a
3 zile de pregătire să monitorizeze l e F performanțele
lotului în funcție de intervalul c i a orar în care se
p e
desfășoară programul i s de instruire: în timpul dimineții,
ti c
după prânz, sau m adupăamiaza. Rezultatele obținute, care
t e
reflectă nivelul
M
a atins de olimpici la sfârșitul
programului d e de instruire în fiecare din cele trei zile,
u l
s
sunturprezentate în tabelul 6.
C
Programul După- i I E
Dimineața După prânz s
de studiu amiază I C
10 9 10i l e
e ri
9 9 s
. 9
Evaluare . I
10 8 T.T 9
per elev a E
8 t e 8 9
l t a
9 c u 8 8
F a
Media x1  9,2 l e x 2  8,4 x3  9
c ia
p e
i s
t i c Tabelul 6.
m a
ate
Analizand e M datele din tabel observăm o ușoară
l d
diferență
rs u între mediile rezultatelor obținute pe
Cu
parcursul celor trei zile de studiu. Deoarece I E
si
randamentul (performanțele atinse) unui elev seI poate C
modifica de la o zi la alta chiar și atunci când i l e
e ri
intervalul orar de pregătire rămâne neschimbat, s se
. I.
ridică întrebarea dacă variațiile notelor . Tdin tabel se
E T
datorează întâmplării ori ele suntteinfluențate a în mod
l t a
real de perioadele de timp în ccare u s-a desfășurat
a
programul de pregătire? le F
Pentru a modela statistic c i a această problemă notăm cu
p e
x1 , x2 , x3 caracteristicile i s populației alcătuite din cei 5
ti c
membrii ai lotului m a olimpic în condițiile în care
a t e
programulMde pregătire se desfășoară în cursul
dimineții, e
u l după prânz, sau după-amiaza. De asemenea,
d
rs
Cu
prin 1 , 2 , 3 vom nota mediile teoretice ale I E
si
caracteristicilor x1 , x2 , x3 . Cu aceste pregătiri, înI C
i l e
legătură cu problema studiată, formulăm ipotezele e ri
s
. I.
H 0 : 1  2  3, T.T
a E
H a : nu toate mediile 1 , 2 ,  t e
a3 sunt egale între ele.
u l t
a c
e F
Ipoteza nulă exprimă a l
i faptul că intervalul orar de
e c
p
studiu nu afecteazăi sîn mod semnificativ randamentul
t i c
elevilor în timpmace ipoteza alternativă afirmă
ate în situația în care cel puțin două
contrariul. Astfel
M
dintre mediile
d e teoretice ale rezultatelor la învățătură
u l
vorudiferi
rs în mod semnificativ ipoteza nulă va fi
C
înlocuită cu ipoteza alternativă. O decizie în acest sens I E
si
poate fi luată prin folosirea tehnicii ANOVA deI C
analizare a varianței. Pentru aplicarea acestei i e
metode
l
e ri
stabilim pragul de semnificație la 0,05. .I. s
Cu aceste precizări făcute, trecem la Tcalculul .T
E
elementelor corespunzătoare tabelului t e a ANOVA:
l t a
c u
F a
SS(total) = l e
a
i2
 3 5 e
c
  t i c i
p
sxij 
 
3 5
17689
=  x ij  tem
i a
1 j 1
2
 1187 -   7,733,
i 1 j 1 a 5 15
e M
l d
rs u
C u
SS(factor) = I E
si
I C
2 2
i le
3 5   3 5
eri 
   xij    xij  .I. s
i 1  j 1
    i 1 j 1 .
T 
T
5 15a E
a t e
46  42  45 u17689
2 2 2
l t
 ac  1,733,
5 e F 15
ia l
e c
SS(eroare) = s p
i c i
a t 3  5
2
m 
a
3 M5
t e
  
i 1  j 1
xij 
  1187  1181  6,
l  ij
 d e x 2

r u
s i 1 j 1 5
C u
I E
si
df(factor)  c  1  3-1 = 2, df(total) = n - 1 = 15I C– 1 =
14, i l e
e ri
s
. I.
df(eroare) = n – c = 15 – T3.T= 12,
a E
a t e
SS  factor c u 1,733
l t
MS(factor) = a   0,8665,
df  afactor  2
e F
i l
e c
sp
SS  eroare  6
c i
a ti
MS(eroare)
m    0,5.
at e df  eroare  12
e M
l d
rs u
C u
Cu datele obținute, tabelul ANOVA, corespunzător I E
si
problemei noastre, devine I C
i l e
e ri
s
Sursa SS df MS . I.
. T
Intervalul orar 1,733 2ET0,8665
e a
Eroarea 6 ltat 12 0,5
Total c
7,733 u 14
F a
a l e
c i
p eTabelul 7.
i s
t i c
m a
e
atverificare
Testul de M a ipotezei nule formulate mai
devreme e
d se finalizează prin aplicarea statisticii Fisher,
u l
rs
C u
MS  factr  i I E
F , s
MS  eroare  e I C
i i l
er s
. I.
cu df(factor) = 2 grade de libertate la numărător . T și cu
T
Enimitor, care
df(eroare) = 12 grade de libertateela a
a t
utilizează raportul celor două umedii l t pătratice ca
măsură a variației. Cu ajutorul a c formulei de mai sus și a
e F
i a l 0,8665
datelor din tabel obținem p e F 
c *
 1,733.
i s 0,5
t i c
Pentru finalizarea m a testului, valoarea calculată
t e
F  1,733Mtrebuie comparată cu valoarea critică
*
a
F  2, 12,l d e0,05  3,89 . Deoarece F *  F  2, 12, 0,05  ,
rs u
Cu
conchidem că tabelul analizat (tabelul 8) nu ne oferă I E
si
suficiente motive pentru a respinge ipoteza H 0 .IAstfel, C
cu un nivel de semnificație de 5%, pentru membrii i l e
e ri
lotului olimpic alegerea intervalului orar.I.de pregătire s
nu este relevantă. Diferențele de performanțe . T care apar
E T
în tabel având un caracter pur întâmplător. t e a
l t a
c u
F a
a l e
c i
p e
i s
t i c
m a
ate
e M
l d
rs u
C u

S-ar putea să vă placă și