Sunteți pe pagina 1din 7

9 Testarea ipotezelor statistice

Un test statistic const a n obtinerea unei deductii bazat a pe o selectie din populatie prin testarea unei anumite
ipoteze (rezultat a din experienta anterioar a, din observatii, din teorie, sau din cerinte legate de calitatea produselor,
etc). De multe ori aceast a ipotez a este o armatie referitoare la valoarea parametrului necunoscut al densit atii
populatiei, spre exemplu media sau dispersia populatiei.
Rezultatul test arii este apoi folosit pentru luarea unei anumite decizii, cum ar decizia de cump arare a unui
anumit automobil (bazat a pe testul priving consumul de carburant), de administrare a unui anumit medicament
(bazat a pe testul privind ecienta acestuia), de aplicare a unei anumite strategii de marketing (bazat a pe testul
privind reactia consumatorilor la aceast a strategie), etc.
Testarea unei ipoteze statistice este procedeul prin care folosind informatia dintr-o selectie a populatiei se ajunge
la o decizie asupra ipotezei n cauz a. Dac a informatia dat a de selectie este consistent a cu ipoteza, atunci se accept a
ipoteza, iar n caz contrar aceasta este respins a.
Pentru a ntelege modul de aplicare a testului statistic, consider am urm atorul exemplu.
Exemplul 9.1 Dorim sa cumparam 100 km de cablu de un anumit tip, cu condi tia ca specica tia producatorului
ca acest cablu are o rezisten ta de rupere de j = j
0
= 200 kg este ndeplinita. Aceasta reprezinta testarea ipotezei
(numita ipoteza nula) j = j
0
= 200. Decidem sa nu cumparam cablul daca testul statistic arata ca valoarea reala
j = j
1
< 200, deoarece aceasta arata ca acest tip de cablu are o rezisten ta la rupere mai mica dect cea dorita.
Valoarea j
1
se nume ste ipoteza alternativa a testului. Formalizam aceasta prin
H
0
: j = 200
H
1
: j < 200
Daca rezultatul testului sugereaza ca ipoteza nula H
0
este adevarata, vom accepta aceasta ipoteza, iar n caz
contrar o vom respinge ( si vom accepta deci ipoteza alternativa H
1
).
Trebuie avut nsa n vedere ca vericarea cu siguran ta a ipotezei considerate este imposibila n practica (cu
excep tia cazului cnd se poate selecta ntreaga popula tie), si deci vericarea ipotezelor statistice trebuie avuta n
vedere probabilitatea luarii unei decizii gre site: vom nota prin c probabilitatea de a respinge ipoteza nula H
0
cnd
de fapt aceasta este adevarata. Valoarea c se nume ste nivelul de semnicatie al testului.
Selectnd n mod aleator 25 de role de cablu, si taind cte o bucata din ecare, ob tinem un e santion de volum
: = 25 din popula tia considerata. Daca se masoara rezisten ta la rupere a ecarei buc ti de cablu, ob tinem spre
exemplu rezisten ta medie de rupere r = 197 kg si abaterea patratica medie : = 6 kg.
Ne punem problema daca diferen ta 197 200 = 3 este datorata anumitor factori aleatori (erori de masurare,
spre exemplu), sau daca ea este semnicativa pentru popula tia studiata.
Daca presupunem ca rezisten ta cablului este o variabila aleatoare normala N

j, o
2

, n ipoteza ca j = j
0
= 200
(adica daca ipoteza nula este adevarata), variabila aleatoare
T =
A j
0
S

n
este o variabila aleatoare Student cu : 1 grade de libertate.
Deoarece n acest caz este iportanta respingerea ipotezei nule cnd valoarea medie a e santionului este mica (cnd
cablul nu are rezisten ta dorita), pentru un nivel de semnica tie c = 5% xat, folosind Anexa 3 determinam valoarea
constantei c astfel nct 1 (c) = 1 (T c) = c = 0.05, ob tinnd c = 1.71 (deoarece valoarea 0.05 < 0.5, pentru a
determina pe c folosind Anexa 3, folosim faptul ca distribu tia Student este simetrica fa ta de origine, si determinam
c astfel nct 1 ( c) = 1 0.05 = 0.95, adica c = 1.71. Valoarea lui c este deci c = c = 1.71. A se vedea Figura
11).
Ideea testului este urmatoarea: daca ipoteza nula este adevarata, probabilitatea ca o valoare calculata t a lui T sa
e mai mica dect c = 1.71 este c = 0.05 (probabilitatea este aproape nula). Deci, daca pentru selec tia considerata
observam ca valoarea t este mai mica dect c = 1.71, armam ca ipoteza nula nu poate adevarata si respingem
aceasta ipoteza, adica acceptam ipoteza alternativa. Daca nsa t c, atunci acceptam ipoteza nula.
n cazul concret prezentat avem
1
t =
r j
0
s

25
=
197 200
6
5
=
5
2
= 2.5 < 1.71,
1
nlocuim =

1
++

(media selectiei) si =

=1
(

)
1
(dispersia selectiei) prin valorile observate = 197 si = 6.
38
c = 1.71 c = 1.71 0
F(c) = = 0.05 1 F( c) = = 0.05
Figure 11: Functia de densitate a distributiei Student este simetric a fat a de origine.
si deci respingem ipoteza nula j = j
0
= 200 si acceptam ipoteza alternativa j = j
1
< 200.
Exemplul anterior ilustreaz a etapele parcurse n elaborarea unui test statistic, si anume:
1. Se formuleaz a ipoteza nul a (j = j
0
n exemplul anterior)
2. Se formuleaz a ipoteza alternativ a (j < j
0
n exemplul anterior)
3. Se alege un nivel de semnicatie c dorit (spre exemplu 5%, 1%, 0.1%, etc)
4. Se determin a o variabil a aleatoare

= q (A
1
, . . . , A
n
) ce depinde de parametrul necunoscut 0 al populatiei,
dar a c arei distributie nu depinde de 0. Folosind distributia variabilei aleatoare

se determin a valoarea critic a
c (1 (T c) = c n exemplul anterior)
5. Pentru valori r
1
, . . . , r
n
ale esantionului, se determin a valoarea observat a

0 = q (r
1
, . . . , r
n
) a lui

.
6. Se accept a sau se respinge ipoteza nul a, n functie de valorile concrete a lui

0 si c (n exemplul anterior, se
respinge ipoteza nul a dac a t < c)
9.1 Diferite ipoteze alternative
S a presupunem parametrul necunoscut al populatiei studiate este 0, si c a ipoteza nul a testat a este 0 = 0
0
. n
principiu, n acest caz exist a trei ipoteze alternative, si anume:
(1) 0 0
0
(2) 0 < 0
0
(3) 0 6= 0
0
(1) si (2) se numesc ipoteze alternative unilaterale, iar (3) se numeste ipotez a alternativ a bilateral a.
n cazul ipotezei alternative (1), valoarea critic a c trebuie aleas a la dreapta lui 0
0
, pentru c a n acest caz valorile
0 din ipoteza alternativ a se a a la dreapta lui 0
0
(a se vedea Figura 12). Regiunea pentru care se accept a ipoteza
nul a (la stnga lui c n acest caz) se numeste regiune de acceptare, iar regiunea pentru care se respinge ipoteza
nul a (la dreapta lui c n acest caz) se numeste regiune de respingere. Valoarea c care separ a aceste regiune se
numeste valoare critic a.
n mod similar, n cazul ipotezei (2), valoarea critic a c trebuie aleas a la stanga lui 0
0
, iar n cazul ipotezei
alternative (3), valorile critice c
1
si c
2
trebuie alese de o parte si de alta a lui 0
0
.
Toate cele trei ipoteze alternative prezentate apar n probleme practice, cum ar :
- atunci cnd este important ca valoarea lui 0 s a nu dep aseasc a o valoarea maxim a admis a 0
0
(spre exemplu
tensiunea maxim a de alimentare a unui circuit electric), se alege ipoteza alternativ a (1)
- atunci cnd este important ca valoarea lui 0 s a nu e mai mic a dect o valoare minim a admis a 0
0
(ca n
exmplul anterior), se alege ipoteza alternativ a (2)
- atunci cnd este important ca valoarea lui 0 s a aib a exact dimensiunea dorit a (spre exemplu diametrul unui
surub trebuie s a aib a o dimensiune precis a pentru a putea nletat), se alege ipoteza alternativ a (3).
39

0
c
Regiune de acceptare Regiune de respingere
(Se accepta ipoteza nula) (Se respinge ipoteza nula)

0
c
Regiune de acceptare Regiune de respingere
(Se accepta ipoteza nula) (Se respinge ipoteza nula)

0
c
1
Regiune de acceptare Regiune de respingere
(Se accepta ipoteza nula) (Se respinge ipoteza nula)
c
2
Regiune de respingere
(Se respinge ipoteza nula)
Figure 12: Cele trei tipuri de ipoteze alternative: (1) 0 0
0
(sus), (2) 0 < 0
0
(mijloc) si (3) 0 6= 0
0
(jos).
9.2 Erori n testarea ipotezelor
n testarea ipotezelor apare riscul a dou a tipuri de decizii eronate:
(I) Respingerea ipotezei nule atunci cnd ea este adev arat a (numit a eroare de tip I). Not am cu c probabilitatea
unei erori de tip I, adic a
1 (se respinge H
0
| H
0
este adev arat a) = c
(II) Acceptarea ipotezei nule atunci cnd ea este fals a (numit a eroare de tip II). Not am cu , probabilitatea unei
erori de tip II, adic a
1 (se accept a H
0
| H
0
este fals a) = ,
Cu toate c a nu putem elimina aparitia acestor dou a tipuri de erori, putem alege nivele acceptabile de aparitie a
acestor erori, c si ,.
Spre exemplu, s a consider am cazul test arii ipotezei 0 = 0
0
n cazul ipotezei alternative 0 = 0
1
0
0
(celelate
cazuri sunt similare).
Alegem o valoare critic a corespunz atoare, si pentru un esantion xat r
1
, . . . , r
n
calcul am valoarea

0 = q (r
1
, . . . , r
n
)
pentru o anumit a functie q (spre exemplu, n cazul n care 0 reprezint a media, alegemq (r
1
, . . . , r
n
) = r =
r1+...+r
n
).
Dac a

0 c respingem ipoteza nul a, iar dac a

0 c o accept am.
Valoarea

0 este valoarea observat a a variabilei aleatoare

= q (A
1
, . . . , A
n
), deoarece r
1
, . . . , r
n
sunt valorile
observate ale selectiei A
1
, . . . , A
n
.
n cazul unei erori de tip I, ipoteza nul a este respins a desi ea este adev arat a (adic a 0 = 0
0
), si deci probabilitatea
acestei erori este
1

(A
1
, . . . , A
n
) c

0 = 0
0

= c,
iar c se numeste nivelul de semnicatie al testului.
n cazul unei erori de tip II, ipoteza nul a este acceptat a desi ea este fals a (adic a 0 = 0
1
), si deci probabilitatea
acestei erori este
1

(A
1
, . . . , A
n
) c

0 = 0
1

= ,,
iar j = 1 , se numeste puterea testului (j este probabilitatea de a respinge ipoteza nul a atunci cnd ea este
fals a).
Probabilit atile c si , din formulele anterioare depind de valoarea lui c, si este dorit ca valoarea lui c s a e
astfel aleas a nct ambele probabilit ati s a e ct mai mici. Acest lucru nu este ns a posibil, deoarece pentru ca
probabilitatea c s a e minim a, c trebuie ales ct mai mare (spre dreapta lui 0
0
), si atunci probabilitatea , creste.
n practic a, se alege o valoare convenabil a pentru c (spre exemplu c = 5% sau 1%), se determin a valoarea lui c,
si apoi se calculeaz a valoarea lui ,. Dac a valoarea , obtinut a este prea mare, atunci se repet a testul, considernd
o selectie de volum mai mare.
Dac a ipoteza alternativ a nu este de forma 0 = 0
1
ci de una din formele (1) (3), atunci probabilitatea , este o
functie de 0 (numit a caracteristic a de operare). Gracul acestei functii (numit curb a caracteristic a) permite
determinarea probabilit atii , pentru o anumit a valoarea a lui 0 (si al volumului : al selectiei).
40
9.3 Test pentru media a unei populatii normale cu dispersie cunoscut a
Presupunem c a populatia A N

j, o
2

este normal a cu dispersie o


2
cunoscut a, si consider am spre exemplu cazul
testului
H
0
: j = j
0
H
1
: j 6= j
0
pentru media j a populatiei (cazul ipotezelor alternative j < j
0
, respectiv j j
0
este similar).
Dac a A
1
, . . . , A
n
este o selectie a populatiei A N

j, o
2

, rezult a c a media de selectie A =



1
+...+

n
este o
variabil a aleatoare normal a N

j,
c
2
n

cu medie j si dispersie
c
2
n
. Dac a ipoteza nul a este adev arat a (adic a j = j
0
),
variabila aleatoare
7 =
A j
0
c

n
N (0, 1)
este o variabil a aleatoare normal a standard.
Pentru un nivel de semnicatie c xat, determin am punctul .
o/2
cu proprietatea c a aria de sub densitatea
normal a standard, la dreapta acestui punct, este egal a cu c,2, adic a

.
o/2

= 1

7 .
o/2

= 1
c
2
unde este functia de distributie normal a standard (a se vedea Anexa 1 sau Anexa 2).
Folosind faptul c a distributia normal a standard este simetric a fat a de origine, obtinem c a dac a ipoteza nul a este
adev arat a, atunci
1

.
o/2

A j
0
c

n
.
o/2
!
= 1 c,
sau echivalent (rezolvnd dubla inegalitate n raport cu A)
1

j
0
.
o/2
o

:
A j
0
+.
o/2
o

= 1 c.
Testul este deci urm atorul: pentru valori observate r
1
, . . . , r
n
ale selectiei A
1
, . . . , A
n
, se calculeaz a media
r =
r1+...+r
n
. Dac a valoarea calculat a r apartine regiunii de respingere

, j
0
.
o/2
c

j
0
+.
o/2
c

n
,

se respinge ipoteza nul a (si deci se accept a ipoteza alternativ a j 6= j


0
), iar n caz contrar se accept a ipoteza nul a
j = j
0
.
Denim 1-valoarea testului ca ind egal a cu cel mai mic nivel de semnicatie c pentru care se respinge ipoteza
nul a pentru un esantion r
1
, . . . , r
n
xat. n cazul prezentat, aceasta revine la
r = j
0
.
o/2
o

:
.
o/2
=

r j
0
c

r j
0
c

!
= 1
c
2
,
adic a c = 2

r
0

.
Exemplul 9.2 Fie A o popula tie cu o distribu tie normala avnd dispersie cunoscuta o
2
= 9. Folosind un e santion
de volum : = 10 cu medie r, sa se testeze ipoteza nula j = j
0
= 24 n cazul ipotezei alternative
(a) j j
0
(b) j < j
0
(c) j 6= j
0
.
Consideram nivelul de semnica tie c = 5%. Un estimator al mediei j este
A =
A
1
+. . . +A
n
:
,
iar daca ipoteza nula este adevarata, atunci A este o variabila aleatoare normala cu medie j = 24 si dispersie
c
2
n
= 0.9, si folosind Anexa 2 se determina valoarea lui c dupa cum urmeaza.
41
Cazul (a). n acest caz, determinam valoarea lui c astfel nct 1

A c

j = 24

= c = 0.05, adica
1 ( A c| j = 24) =

c 24

0.9

= 1 c = 0.95.
Folosind Anexa 2 se determina
c24

0.9
= 1.645, si deci c = 25.56. Daca media e santionului r 25.56, ipoteza
nula este acceptata, iar daca r 25.56 ea este respinsa.
Puterea testului este data de
j (j) = 1

A 25.56

j 6= 24

= 1 1

A 25.56

j 6= 24

= 1

25.56 j

0.9

.
Cazul (b). n acest caz, determinam valoarea lui c astfel nct
1 ( A c| j = 24) =

c 24

0.9

= c = 0.05.
Folosind Anexa 2 se determina
c24

0.9
= 1.645, si deci c = 22.44. Daca media e santionului r 22.44, ipoteza
nula este acceptata, iar daca r < 22.44 ea este respinsa.
Puterea testului este
j (j) = 1

A 22.44

j 6= 24

22.44 j

0.9

.
Cazul (c).Cum distribu tia normala este simetrica fa ta de origine, determinam constantele c
1
si c
2
astfel nct
sa e egal departate fa ta de media j
0
= 24, adica vom considera c
1
= 24/ si c
2
= 24+/ si determinam constanta
/ astfel nct
1

24 / A 24 +/

j = 24

0.9

0.9

= 1 c = 0.95.
Folosind Anexa 2, ob tinem
|

0.9
= 1.960, sau / = 1.86, si deci c
1
= 24 1.86 = 22.14 si c
2
= 24 +1.86 = 25.86.
Daca media r a e santionului este cuprinsa ntre c
1
si c
2
, acceptam ipoteza nula, iar n caz contrar o respingem.
Puterea testului este
j (j) = 1

A < 22.14

j 6= 24

+1

A 25.86

j 6= 24

22.14 j

0.9

+ 1

25.86 j

0.9

.
n practica, daca cre stem volumul : al e santionului (spre exemplu de la : = 10 la : = 100), valoarea erorii
, (j) = 1 j (j) scade. n func tie de problema n cauza, volumul : al selec tiei se alege astfel nct valoarea erorii
, (j) sa e acceptabila (n caz contrar, se alege un e santion de volum mai mare si se repeta testul).
9.4 Test pentru media a unei populatii normale cu dispersia necunoscut a
Presupunem c a populatia A N

j, o
2

este normal a cu dispersie o


2
necunoscut a, si consider am spre exemplu
cazul testului
H
0
: j = j
0
H
1
: j 6= j
0
pentru media j a populatiei (cazul ipotezelor alternative j < j
0
, respectiv j j
0
este similar).
Cum dispersia o
2
a populatiei este necunoscut a, proced am n mod similar cazului dispersiei cunoscute, nlocuind
abaterea p atratic a medie o (necunoscut a) prin estimatorul o =
q
1
n1
P
n
I=1

A
I
A

2
, unde A
1
, . . . , A
n
este o
selectie de volum : din populatia A.
Variabila aleatoare rezultat a
T =
A j
0
S

n
42
are n acest caz o distributie Student cu : 1 grade de libertate, si procednd n mod analog cazului anterior,
determin am punctul t
o/2,n1
astfel nct aria de sub densitatea Student cu : 1 grade de libertate, la dreapta
acestui punct este egal a cu
o
2
, adic a
1

t
o/2,n1

= 1
c
2
,
unde 1 este functia de distributie Student cu : 1 grade de libertate (se va folosi Anexa 3).
Testul este urm atorul: pentru valori observate r
1
, . . . , r
n
ale selectiei A
1
, . . . , A
n
se calculeaz a valoarea t =
r
0

,
unde r =
r1+...+r
n
si : =
q
1
n1
P
n
I=1
(r
I
r)
2
. Dac a t ,

t
o/2,n1
, t
o/2,n1

se respinge ipoteza nul a j = j


0
,
iar n caz contrar aceasta este acceptat a.
Exemplul 9.3 Testnd rezisten ta la rupere a unor frnghii pentru un e santion de volum : = 16, s-a determinat
valoarea medie r = 4482 kg si abaterea patratica medie : = 115 kg. Presupunnd ca rezisten ta la rupere este o
variabila aleatoare normala, sa se testeze ipoteza j = j
0
= 4500 kg.
Consideram nivelul de semnica tie c = 5%. Daca ipoteza nula este adevarata, atunci variabila aleatoare
T =
A j
0
S

n
=
A 4500
S

n
este are o distribu tie student cu : 1 = 15 grade de libertate.
Cum n aceasta problema este important daca media j are (sau nu) valoarea minima admisa j
0
= 4500, alegem
ca ipoteza alternativa j < j
0
= 4500.
Determinam valoarea critica c astfel nct 1 ( T < c| j = 4500) = c = 0.05. Folosind Anexa 3 determinam
c = 1.75.
Valoarea observata a variabilei aleatoare T n cazul e santionului selectat este t =
44824500
115

16
= 0.626. Deoarece
t = 0.626 1.75 = c, acceptam ipoteza nula j = j
0
= 4500 kg.
9.5 Test pentru dispersia
2
a unei populatii normale
Presupunem c a populatia A N

j, o
2

este normal a si dorim s a test am


H
0
: o
2
= o
2
0
H
1
: o
2
6= o
2
0
(cazul ipotezelor alternative o
2
< o
2
0
, respectiv o
2
o
2
0
este similar).
Vom considera n acest caz statistica
1 =
(: 1) o
2
o
2
0
.
Dac a ipoteza nul a este adev arat a, atunci populatia A are dispersie o
2
0
, si deci
1 =
(: 1) o
2
o
2
0
=
n
X
I=1

A
I
A
o
0
2
are o distributie
2
cu : 1 grade de libertate.
Consider am punctele
o/2,n1
si
1o/2,n1
alese astfel ariile de sub densitatea
2
cu : 1 grade de libertate,
la dreapta acestor puncte, sunt
o
2
, respectiv 1
o
2
, adic a
1

o/2,n1

= 1
c
2
si 1

1o/2,n1

=
c
2
,
unde 1 reprezint a functia de distributie a variabilei
2
cu : 1 grade de libertate (Anexa 4).
Pentru un nivel de semnicatie c xat, testul este urm atorul: pentru valori observate r
1
, . . . , r
n
ale selectiei
A
1
, . . . , A
n
se calculeaz a valoarea j =
(n1)s
2
c
2
0
, unde : =
q
1
n1
P
n
I=1
(r
I
r)
2
si r =
r1+...+r
n
. Dac a j ,

1o/2,n1
,
o/2,n1

se respinge ipoteza nul a o


2
= o
2
0
, iar n caz contrar aceasta este acceptat a.
43
Exemplul 9.4 Folosind un e santion dintr-o popula tie normala, de volum : = 15 avnd dispersie :
2
= 13, sa se
testeze ipoteza nula o
2
= o
2
0
= 10 n cazul ipotezei alternative o
2
= o
2
1
= 20.
Consideram un nivel de semnica tie c = 5%. Daca ipoteza nula este adevarata, atunci variabila aleatoare
1 = (: 1)
o
2
o
2
0
= 14
o
2
10
= 1.4o
2
este o variabila aleatoare
2
cu : 1 = 14 grade de libertate.
Folosind Anexa 4 cu : 1 = 14 grade de libertate determinam valoarea constantei c astfel nct 1 (1 c) =
c = 0.05, sau echivalent 1 (1 c) = 1 c = 0.95. Ob tinem c = 23.86.
n cazul e santionului selectat ob tinem valoarea j = 1.4:
2
= 1.4 13 = 18.2 < 23.86 = c, si deci n acest caz
acceptam ipoteza nula o
2
= o
2
0
= 10.
Observatia 9.5 Att n cazul testului pentru media unei popula tii normale cu dispersie necunoscuta, ct si n cazul
testului pentru dispersia unei popula tii normale, pentru a calcula puterea testului este nevoie de tabele suplimentare
(pentru distribu tia Student, respectiv pentru distribu tia
2
). n acest curs nu vom studia aceste probleme.
10 Test pentru proportia unei populatii
Presupunem c a suntem interesati n testarea unei anumite caracteristici a populatiei A. Pentru o selectie A
1
, . . . , A
n
a populatiei, notnd cu num arul de observatii ce ndeplinesc caracteristica respectiv a si cu j proportia necunoscut a
a populatiei ce veric a caracteristica, rezult a c a variabila aleatoare Bin(:, j) are o distributie populatia
binomial a cu parametrii : si j, si din teorema limit a central a rezult a c a pentru valori : mari ale volumului selectiei,
variabila aleatoare
7 =
:j
p
:j (1 j)
este aproximativ o variabil a aleatoare normal a standard.
Pentru a testa deci ipoteza
H
0
: j = j
0
H
1
: j 6= j
0
procednd ca si n cazurile anterioare, obtinem urm atorul test.
Pentru valori observate ale esantionului si pentru un nivel de semnicatie c xat, se calculeaz a valoarea core-
spunz atoare . =
n
0

n
0
(1
0
)
a variabilei aleatoare .; dac a . ,

.
o/2
, .
o/2

se respinge ipoteza nul a, iar n caz


contrar se aceasta este acceptat a.
44