Sunteți pe pagina 1din 7

9 Testarea ipotezelor statistice

Un test statistic constă în obţinerea unei deducţii bazată pe o selecţie din populaţie prin testarea unei anumite
ipoteze (rezultată din experienţa anterioară, din observaţii, din teorie, sau din cerinţe legate de calitatea produselor,
etc). De multe ori această ipoteză este o afirmaţie referitoare la valoarea parametrului necunoscut al densităţii
populaţiei, spre exemplu media sau dispersia populaţiei.
Rezultatul testării este apoi folosit pentru luarea unei anumite decizii, cum ar fi decizia de cumpărare a unui
anumit automobil (bazată pe testul priving consumul de carburant), de administrare a unui anumit medicament
(bazată pe testul privind eficienţa acestuia), de aplicare a unei anumite strategii de marketing (bazată pe testul
privind reacţia consumatorilor la această strategie), etc.
Testarea unei ipoteze statistice este procedeul prin care folosind informaţia dintr-o selecţie a populaţiei se ajunge
la o decizie asupra ipotezei în cauză. Dacă informaţia dată de selecţie este consistentă cu ipoteza, atunci se acceptă
ipoteza, iar în caz contrar aceasta este respinsă.
Pentru a înţelege modul de aplicare a testului statistic, considerăm următorul exemplu.

Exemplul 9.1 Dorim să cumpărăm 100 km de cablu de un anumit tip, cu condiţia că specificaţia producătorului
că acest cablu are o rezistenţă de rupere de  = 0 = 200 kg este îndeplinită. Aceasta reprezintă testarea ipotezei
(numită ipoteza nulă)  = 0 = 200. Decidem să nu cumpărăm cablul dacă testul statistic arată că valoarea reală
 = 1  200, deoarece aceasta arată că acest tip de cablu are o rezistenţă la rupere mai mică decât cea dorită.
Valoarea 1 se numeşte ipoteza alternativă a testului. Formalizăm aceasta prin

0 :  = 200
1 :   200

Dacă rezultatul testului sugerează că ipoteza nulă 0 este adevărată, vom accepta această ipoteză, iar în caz
contrar o vom respinge (şi vom accepta deci ipoteza alternativă 1 ).
Trebuie avut însă în vedere că verificarea cu siguranţă a ipotezei considerate este imposibilă în practică (cu
excepţia cazului când se poate selecta întreaga populaţie), şi deci verificarea ipotezelor statistice trebuie avută în
vedere probabilitatea luării unei decizii greşite: vom nota prin  probabilitatea de a respinge ipoteza nulă 0 când
de fapt aceasta este adevărată. Valoarea  se numeşte nivelul de semnificaţie al testului.
Selectând în mod aleator 25 de role de cablu, şi tăiând câte o bucată din fiecare, obţinem un eşantion de volum
 = 25 din populaţia considerată. Dacă se măsoară rezistenţa la rupere a fiecărei bucâţi de cablu, obţinem spre
exemplu rezistenţa medie de rupere  = 197 kg şi abaterea pătratică medie  = 6 kg.
Ne punem problema dacă diferenţa 197 − 200 = −3 este datorată anumitor factori aleatori (erori de măsurare,
spre exemplu), sau dacă ea este semnificativă pentru populaţia studiată. ¡ ¢
Dacă presupunem că rezistenţa cablului este o variabilă aleatoare normală N   2 , în ipoteza că  = 0 = 200
(adică dacă ipoteza nulă este adevărată), variabila aleatoare

 − 0
 =
√

este o variabilă aleatoare Student cu  − 1 grade de libertate.


Deoarece în acest caz este iportantă respingerea ipotezei nule când valoarea medie a eşantionului este mică (când
cablul nu are rezistenţa dorită), pentru un nivel de semnificaţie  = 5% fixat, folosind Anexa 3 determinăm valoarea
constantei  astfel încât  () =  ( ≤ ) =  = 005, obţinând  = −171 (deoarece valoarea 005  05, pentru a
determina pe  folosind Anexa 3, folosim faptul că distribuţia Student este simetrică faţă de origine, şi determinăm
̃ astfel încât  (̃) = 1 − 005 = 095 adică ̃ = 171. Valoarea lui  este deci  = −̃ = −171. A se vedea Figura
15).
Ideea testului este următoarea: dacă ipoteza nulă este adevărată, probabilitatea ca o valoare calculată  a lui  să
fie mai mică decât  = −171 este  = 005 (probabilitatea este aproape nulă). Deci, dacă pentru selecţia considerată
observăm ca valoarea  este mai mică decât  = −171, afirmăm că ipoteza nulă nu poate fi adevărată şi respingem
această ipoteză, adică acceptăm ipoteza alternativă. Dacă însă  ≥ , atunci acceptăm ipoteza nulă.
În cazul concret prezentat avem1
 − 0 197 − 200 5
= = =− = −25  −171
√ 6 2
25 5


1 Înlocuim 1 ++ =1 ( − )
= 
(media selecţiei) şi  = −1
(dispersia selecţiei) prin valorile observate  = 197 şi  = 6.

61
F (c) = α = 0.05 1 − F (c̃) = α = 0.05

c = −1.71 0 c̃ = 1.71

Figure 15: Funcţia de densitate a distribuţiei Student este simetrică faţă de origine.

şi deci respingem ipoteza nulă  = 0 = 200 şi acceptăm ipoteza alternativă  = 1  200.

Exemplul anterior ilustrează etapele parcurse în elaborarea unui test statistic, şi anume:

1. Se formulează ipoteza nulă ( = 0 în exemplul anterior)


2. Se formulează ipoteza alternativă (  0 în exemplul anterior)
3. Se alege un nivel de semnificaţie  dorit (spre exemplu 5% 1%, 01%, etc)
4. Se determină o variabilă aleatoare Θ̂ =  (1       ) ce depinde de parametrul necunoscut  al populaţiei,
dar a cărei distribuţie nu depinde de . Folosind distribuţia variabilei aleatoare Θ̂ se determină valoarea critică
 ( ( ≤ ) =  în exemplul anterior)

5. Pentru valori 1       ale eşantionului, se determină valoarea observată ̂ =  (1       ) a lui Θ̂.

6. Se acceptă sau se respinge ipoteza nulă, în funcţie de valorile concrete a lui ̂ şi  (în exemplul anterior, se
respinge ipoteza nulă dacă   )

9.1 Diferite ipoteze alternative


Să presupunem parametrul necunoscut al populaţiei studiate este , şi că ipoteza nulă testată este  = 0 . În
principiu, în acest caz există trei ipoteze alternative, şi anume:

(1)   0
(2)   0
(3)  6= 0

(1) şi (2) se numesc ipoteze alternative unilaterale, iar (3) se numeşte ipoteză alternativă bilaterală.
În cazul ipotezei alternative (1), valoarea critică  trebuie aleasă la dreapta lui 0 , pentru că în acest caz valorile
 din ipoteza alternativă se află la dreapta lui 0 (a se vedea Figura 16). Regiunea pentru care se acceptă ipoteza
nulă (la stânga lui  în acest caz) se numeşte regiune de acceptare, iar regiunea pentru care se respinge ipoteza
nulă (la dreapta lui  în acest caz) se numeşte regiune de respingere. Valoarea  care separă aceste regiune se
numeşte valoare critică.
În mod similar, în cazul ipotezei (2), valoarea critică  trebuie aleasă la stanga lui 0 , iar în cazul ipotezei
alternative (3), valorile critice 1 şi 2 trebuie alese de o parte şi de alta a lui 0 .
Toate cele trei ipoteze alternative prezentate apar în probleme practice, cum ar fi:
- atunci când este important ca valoarea lui  să nu depăşească o valoarea maximă admisă 0 (spre exemplu
tensiunea maximă de alimentare a unui circuit electric), se alege ipoteza alternativă (1)
- atunci când este important ca valoarea lui  să nu fie mai mică decât o valoare minimă admisă 0 (ca în
exmplul anterior), se alege ipoteza alternativă (2)
- atunci când este important ca valoarea lui  să aibă exact dimensiunea dorită (spre exemplu diametrul unui
şurub trebuie să aibă o dimensiune precisă pentru a putea fi înfiletat), se alege ipoteza alternativă (3).

62
Regiune de acceptare Regiune de respingere
(Se accepta ipoteza nula) (Se respinge ipoteza nula)
θ0 c

Regiune de respingere Regiune de acceptare


(Se respinge ipoteza nula) (Se accepta ipoteza nula)
c θ0

Regiune de respingere Regiune de acceptare Regiune de respingere


(Se respinge ipoteza nula) (Se accepta ipoteza nula) (Se respinge ipoteza nula)
c1 θ0 c2

Figure 16: Cele trei tipuri de ipoteze alternative: (1)   0 (sus), (2)   0 (mijloc) şi (3)  6= 0 (jos).

9.2 Erori în testarea ipotezelor


În testarea ipotezelor apare riscul a două tipuri de decizii eronate:

(I) Respingerea ipotezei nule atunci când ea este adevărată (numită eroare de tip I). Notăm cu  probabilitatea
unei erori de tip I, adică
 (se respinge 0 | 0 este adevărată) = 

(II) Acceptarea ipotezei nule atunci când ea este falsă (numită eroare de tip II). Notăm cu  probabilitatea unei
erori de tip II, adică
 (se acceptă 0 | 0 este falsă) = 

Cu toate că nu putem elimina apariţia acestor două tipuri de erori, putem alege nivele acceptabile de apariţie a
acestor erori,  şi .
Spre exemplu, să considerăm cazul testării ipotezei  = 0 în cazul ipotezei alternative  = 1  0 (celelate
cazuri sunt similare).
Alegem o valoare critică corespunzătoare, şi pentru un eşantion fixat 1       calculăm valoarea ̂ =  (1       )
pentru o anumită funcţie  (spre exemplu, în cazul în care  reprezintă media, alegem  (1       ) =  = 1 ++


).
Dacă ̂   respingem ipoteza nulă, iar dacă ̂ ≤  o acceptăm.
Valoarea ̂ este valoarea observată a variabilei aleatoare Θ̂ =  (1       ), deoarece 1       sunt valorile
observate ale selecţiei 1       .
În cazul unei erori de tip I, ipoteza nulă este respinsă deşi ea este adevărată (adică  = 0 ), şi deci probabilitatea
acestei erori este ³ ¯ ´
¯
 Θ̂ (1       )  ¯  = 0 = 

iar  se numeşte nivelul de semnificaţie al testului.


În cazul unei erori de tip II, ipoteza nulă este acceptată deşi ea este falsă (adică  = 1 ), şi deci probabilitatea
acestei erori este ³ ¯ ´
¯
 Θ̂ (1       ) ≤ ¯  = 1 = 

iar  = 1 −  se numeşte puterea testului ( este probabilitatea de a respinge ipoteza nulă atunci când ea este
falsă).
Probabilităţile  şi  din formulele anterioare depind de valoarea lui , şi este dorit ca valoarea lui  să fie
astfel aleasă încât ambele probabilităţi să fie cât mai mici. Acest lucru nu este însă posibil, deoarece pentru ca
probabilitatea  să fie minimă,  trebuie ales cât mai mare (spre dreapta lui 0 ), şi atunci probabilitatea  creşte.
În practică, se alege o valoare convenabilă pentru  (spre exemplu  = 5% sau 1%), se determină valoarea lui ,
şi apoi se calculează valoarea lui . Dacă valoarea  obţinută este prea mare, atunci se repetă testul, considerând
o selecţie de volum mai mare.
Dacă ipoteza alternativă nu este de forma  = 1 ci de una din formele (1) — (3), atunci probabilitatea  este o
funcţie de  (numită caracteristică de operare). Graficul acestei funcţii (numit curbă caracteristică) permite
determinarea probabilităţii  pentru o anumită valoarea a lui  (şi al volumului  al selecţiei).

63
9.3 Test pentru media  a unei populaţii normale cu dispersie cunoscută
¡ ¢
Presupunem că populaţia  ∈ N   2 este normală cu dispersie  2 cunoscută, şi considerăm spre exemplu cazul
testului

0 :  = 0
1 : =6 0

pentru media  a populaţiei (cazul ipotezelor alternative¡   ¢0 , respectiv   0 este similar).
Dacă 1       este o selecţie
³ a´populaţiei  ∈ N   2 , rezultă că media de selecţie  = 1 ++


este o
2 2
variabilă aleatoare normală N   cu medie  şi dispersie  . Dacă ipoteza nulă este adevărată (adică  = 0 ),
variabila aleatoare
 − 0
=  ∈ N (0 1)

este o variabilă aleatoare normală standard.


Pentru un nivel de semnificaţie  fixat, determinăm punctul 2 cu proprietatea că aria de sub densitatea
normală standard, la dreapta acestui punct, este egală cu 2, adică
¡ ¢ ¡ ¢ 
Φ 2 =   ≤ 2 = 1 −
2
unde Φ este funcţia de distribuţie normală standard (a se vedea Anexa 1 sau Anexa 2).
Folosind faptul că distribuţia normală standard este simetrică faţă de origine, obţinem că dacă ipoteza nulă este
adevărată, atunci à !
 − 0
 −2 ≤  ≤ 2 = 1 − 

sau echivalent (rezolvând dubla inegalitate în raport cu )


µ ¶
 
 0 − 2 √ ≤  ≤ 0 + 2 √ = 1 − 
 

Testul este deci următorul: pentru valori observate 1       ale selecţiei


³ 1      ´, se³ calculează media
´
1 ++
=  . Dacă valoarea calculată  aparţine regiunii de respingere −∞ 0 − 2 √ ∪ 0 + 2 √  ∞
se respinge ipoteza nulă (şi deci se acceptă ipoteza alternativă  6= 0 ), iar în caz contrar se acceptă ipoteza nulă
 = 0 .
Definim  -valoarea testului ca fiind egală cu cel mai mic nivel de semnificaţie  pentru care se respinge ipoteza
nulă pentru un eşantion 1       fixat. În cazul prezentat, aceasta revine la
¯ ¯ ï ¯!
 ¯ −  ¯ ¯ −  ¯ 
¯ 0¯ ¯ 0¯
 = 0 ± 2 √ ⇐⇒ 2 = ¯  ¯ ⇐⇒ Φ ¯  ¯ = 1 − 
 ¯ √

¯ ¯ √

¯ 2
³ ³¯ ¯´´
¯ 0¯
adică  = 2 1 − Φ ¯ −

√ ¯ .

Exemplul 9.2 Fie  o populaţie cu o distribuţie normală având dispersie cunoscută  2 = 9. Folosind un eşantion
de volum  = 10 cu medie  să se testeze ipoteza nulă  = 0 = 24 în cazul ipotezei alternative

(a)   0 (b)   0 (c)  6= 0 

Considerăm nivelul de semnificaţie  = 5%. Un estimator al mediei  este


1 +    + 
= 

iar dacă ipoteza nulă este adevărată, atunci  este o variabilă aleatoare normală cu medie  = 24 şi dispersie
2
 = 09, şi folosind Anexa 2 se determină valoarea lui  după cum urmează.

64
¡ ¯ ¢
Cazul (a). În acest caz, determinăm valoarea lui  astfel încât    ¯  = 24 =  = 005, adică
µ ¶
 − 24
 (  ≤ |  = 24) = Φ √ = 1 −  = 095
09

Folosind Anexa 2 se determină −24√


09
= 1645, şi deci  = 2556. Dacă media eşantionului  ≤ 2556, ipoteza
nulă este acceptată, iar dacă   2556 ea este respinsă.
Puterea testului este dată de
µ ¶
¡ ¯ ¢ ¡ ¯ ¢ 2556 − 
 () =    2556¯  6= 24 = 1 −   ≤ 2556¯  6= 24 = 1 − Φ √ 
09

Cazul (b). În acest caz, determinăm valoarea lui  astfel încât


µ ¶
 − 24
 (  ≤ |  = 24) = Φ √ =  = 005
09

Folosind Anexa 2 se determină −24 √


09
= −1645, şi deci  = 2244. Dacă media eşantionului  ≥ 2244, ipoteza
nulă este acceptată, iar dacă   2244 ea este respinsă.
Puterea testului este µ ¶
¡ ¯ ¢ 2244 − 
¯
 () =   ≤ 2244  6= 24 = Φ √ 
09
Cazul (c).Cum distribuţia normală este simetrică faţă de origine, determinăm constantele 1 şi 2 astfel încât
să fie egal depărtate faţă de media 0 = 24, adică vom considera 1 = 24 −  şi 2 = 24 +  şi determinăm constanta
 astfel încât µ ¶ µ ¶
¡ ¯ ¢  
 24 −  ≤  ≤ 24 + ¯  = 24 = Φ √ − Φ −√ = 1 −  = 095.
09 09
Folosind Anexa 2, obţinem √09 = 1960, sau  = 186, şi deci 1 = 24 − 186 = 2214 şi 2 = 24 + 186 = 2586.
Dacă media  a eşantionului este cuprinsă între 1 şi 2 , acceptăm ipoteza nulă, iar în caz contrar o respingem.
Puterea testului este
¡ ¯ ¢ ¡ ¯ ¢
 () =    2214¯  6= 24 +    2586¯  6= 24
µ ¶ µ ¶
2214 −  2586 − 
= Φ √ +1−Φ √ 
09 09

În practică, dacă creştem volumul  al eşantionului (spre exemplu de la  = 10 la  = 100), valoarea erorii
 () = 1 −  () scade. În funcţie de problema în cauză, volumul  al selecţiei se alege astfel încât valoarea erorii
 () să fie acceptabilă (în caz contrar, se alege un eşantion de volum mai mare şi se repetă testul).

9.4 Test pentru media  a unei populaţii normale cu dispersia necunoscută


¡ ¢
Presupunem că populaţia  ∈ N   2 este normală cu dispersie  2 necunoscută, şi considerăm spre exemplu
cazul testului

0 :  = 0
1 : =6 0

pentru media  a populaţiei (cazul ipotezelor alternative   0 , respectiv   0 este similar).


Cum dispersia 2 a populaţiei este necunoscută, procedăm în mod
q similar cazului dispersiei cunoscute, înlocuind
1
P ¡ ¢2
abaterea pătratică medie  (necunoscută) prin estimatorul  = −1 =1  −  , unde 1       este o
selecţie de volum  din populaţia .
Variabila aleatoare rezultată
 − 0
 = √

65
are în acest caz o distribuţie Student cu  − 1 grade de libertate, şi procedând în mod analog cazului anterior,
determinăm punctul 2−1 astfel încât aria de sub densitatea Student cu  − 1 grade de libertate, la dreapta
acestui punct este egală cu 2 , adică
¡ ¢ 
 2−1 = 1 − 
2
unde  este funcţia de distribuţie Student cu  − 1 grade de libertate (se va folosi Anexa 3).
Testul este următorul: pentru valori observate 1       ale selecţiei 1       se calculează valoarea  = −
√
0
,
q P ¡ ¢

 2
unde  = 1 ++


şi  = −1 1
=1 ( − ) . Dacă  ∈  −2−1  2−1 se respinge ipoteza nulă  = 0 ,
iar în caz contrar aceasta este acceptată.

Exemplul 9.3 Testând rezistenţa la rupere a unor frânghii pentru un eşantion de volum  = 16, s-a determinat
valoarea medie  = 4482 kg şi abaterea pătratică medie  = 115 kg. Presupunând că rezistenţa la rupere este o
variabilă aleatoare normală, să se testeze ipoteza  = 0 = 4500 kg.
Considerăm nivelul de semnificaţie  = 5%. Dacă ipoteza nulă este adevărată, atunci variabila aleatoare

 − 0  − 4500
 = 
= 
√ √
 

este are o distribuţie student cu  − 1 = 15 grade de libertate.


Cum în această problemă este important dacă media  are (sau nu) valoarea minimă admisă 0 = 4500, alegem
ca ipoteză alternativă   0 = 4500.
Determinăm valoarea critică  astfel încât  (   |  = 4500) =  = 005. Folosind Anexa 3 determinăm
 = −175.
Valoarea observată a variabilei aleatoare  în cazul eşantionului selectat este  = 4482−4500
√115 = −0626. Deoarece
16
 = −0626  −175 = , acceptăm ipoteza nulă  = 0 = 4500 kg.

9.5 Test pentru dispersia  2 a unei populaţii normale


¡ ¢
Presupunem că populaţia  ∈ N   2 este normală şi dorim să testăm

0 :  2 =  20
1 : 2 =6  20

(cazul ipotezelor alternative  2   20 , respectiv  2   20 este similar).


Vom considera în acest caz statistica
( − 1)  2
 = 
20
Dacă ipoteza nulă este adevărată, atunci populaţia  are dispersie  20 , şi deci
 µ ¶2
( − 1)  2 X  − 
 = =
20 =1
0

are o distribuţie 2 cu  − 1 grade de libertate.


Considerăm punctele 2−1 şi 1−2−1 alese astfel ariile de sub densitatea 2 cu  − 1 grade de libertate,
la dreapta acestor puncte, sunt 2 , respectiv 1 − 2 , adică
³ ´  ³ ´ 
 2−1 = 1 − şi  1−2−1 = 
2 2
unde  reprezintă funcţia de distribuţie a variabilei 2 cu  − 1 grade de libertate (Anexa 4).
Pentru un nivel de semnificaţie  fixat, testul este următorul:
q pentru valori observate 1       ale selecţiei
(−1)2 1
P 2 1 ++
1       se calculează valoarea  =  20
, unde  = −1 =1 ( − ) şi  =  . Dacă  ∈ 
³ ´
2 2
−1−2−1  2−1 se respinge ipoteza nulă  =  0 , iar în caz contrar aceasta este acceptată.

66
Exemplul 9.4 Folosind un eşantion dintr-o populaţie normală, de volum  = 15 având dispersie 2 = 13, să se
testeze ipoteza nulă  2 =  20 = 10 în cazul ipotezei alternative 2 =  21 = 20.
Considerăm un nivel de semnificaţie  = 5%. Dacă ipoteza nulă este adevărată, atunci variabila aleatoare

2 2
 = ( − 1) = 14 = 14 2
20 10

este o variabilă aleatoare 2 cu  − 1 = 14 grade de libertate.


Folosind Anexa 4 cu  − 1 = 14 grade de libertate determinăm valoarea constantei  astfel încât  (  ) =
 = 005, sau echivalent  ( ≤ ) = 1 −  = 095. Obţinem  = 2386.
În cazul eşantionului selectat obţinem valoarea  = 142 = 14 · 13 = 182  2386 = , şi deci în acest caz
acceptăm ipoteza nulă 2 =  20 = 10.

Observaţia 9.5 Atât în cazul testului pentru media unei populaţii normale cu dispersie necunoscută, cât şi în cazul
testului pentru dispersia unei populaţii normale, pentru a calcula puterea testului este nevoie de tabele suplimentare
(pentru distribuţia Student, respectiv pentru distribuţia 2 ). În acest curs nu vom studia aceste probleme.

9.6 Test pentru proporţia unei populaţii


Presupunem că suntem interesaţi în testarea unei anumite caracteristici a populaţiei . Pentru o selecţie 1      
a populaţiei, notând cu  numărul de observaţii ce îndeplinesc caracteristica respectivă şi cu  proporţia necunoscută
a populaţiei ce verifică caracteristica, rezultă că variabila aleatoare  ∈ Bin ( ) are o distribuţie populaţia
binomială cu parametrii  şi , şi din teorema limită centrală rezultă că pentru valori  mari ale volumului selecţiei,
variabila aleatoare
 − 
=p
 (1 − )
este aproximativ o variabilă aleatoare normală standard.
Pentru a testa deci ipoteza

0 :  = 0
1 : =6 0

procedând ca şi în cazurile anterioare, obţinem următorul test.


Pentru valori observate ale eşantionului şi pentru un nivel de¡ semnificaţie¢  fixat, se calculează valoarea core-
spunzătoare  = √  −0 a variabilei aleatoare ; dacă  ∈
 −2  2 se respinge ipoteza nulă, iar în caz
0 (1−0 )
contrar se aceasta este acceptată.

67

S-ar putea să vă placă și