Sunteți pe pagina 1din 39

Testarea ipotezelor statistice

Cuprins:

 Concepte
 Procedura
 Tipuri de erori
 Etape
 Teste statistice şi exemple
Testarea ipotezelor statistice

Scopul:

 Realizarea unei inferenţe statistice = extinderea rezultatelor


obţinute pe baza datelor dintr-un eşantion asupra
colectivităţii generale din care acesta a fost extras (estimarea
valorilor necunoscute ale parametrilor colectivităţii generale).
Concepte

 Ipoteza nulă – ipoteza privind valoarea unui parametru


necunoscut sau legea de repartiţie. Ea constă în admiterea
caracterului întâmplător al deosebirilor, adică în
presupunerea că nu există deosebiri esenţiale (conţine
întotdeauna o egalitate).
 Ipoteza alternativă – ipoteza contrară ipotezei nule
(conţine întotdeauna o inegalitate)
 Test statistic – Calcul bazat pe datele din eşantion şi pe
ipoteza nulă, utilizat pentru a alege între ipoteza nulă şi cea
alternativă.
 Regiunea de respingere – Valorile testului statistic pentru
care respingem ipoteza nulă în favoarea ipotezei alternative.
Procedura

 Procedura începe cu presupunerea că ipoteza nulă este


adevărată.
 Scopul este de a determina dacă există suficiente dovezi
pentru a infera că ipoteza alternativă este adevărată, sau
că ipoteza nulă nu poate fi adevărată.
 Există două decizii posibile:
 Concluzionăm că există suficiente dovezi care susţin
ipoteza alternativă. Resping ipoteza nulă.
 Concluzionăm că nu există suficiente dovezi care
susţin ipoteza alternativă. Nu resping ipoteza nulă.
Tipuri de erori
Există 2 tipuri de erori:
 Eroarea de tip 1 apare atunci când respingem o ipoteză
nulă adevărată.

 P(eroare de tip 1) =  [de obicei 0.05 sau 0.01] reprezintă


riscul de tipul 1, nivel sau prag de semnificaţie.

 (1-) este nivelul de încredere, probabilitatea de garantare a


rezultatelor.
Tipuri de erori

 Eroarea de tip 2 apare atunci când nu respingem o ipoteză


nulă falsă.

 P(Eroare de tip 2) = .

 Puterea testului statistic este (1- ).


Tipuri de erori

Rezultatul H0 Adevărat H0 Fals


testului
H0 Adevărat Decizie corectă (nivelul Eroare de tip II
de încredere = 1-  ) (Probabilitate = )

H0 Fals Eroare de tip I Decizie corectă


(prag de semnificaţie = ) (probabilitate = 1-)
Etape

1. Stabilirea ipotezelor statistice H0 şi H1.

2. Identificarea naturii distribuţiei eşantionului şi


stabilirea testului statistic potrivit.

3. Determinarea tipului de test statistic: dacă testul


este bilateral, unilateral dreapta sau unilateral
stânga.

4. Calcularea valorii testului statistic cu ajutorul datelor


in eşantion.
Etape

5. Luând în considerare nivelul de semnificaţie


specificat () se identifică valoarea critică (două
valori critice pentru testul bilateral) din tabelul
statistic potrivit.

6. Stabilirea regulii de decizie pentru respingerea


ipotezei H0.

7. Folosind regula de decizie de la pasul anterior, se


respinge H0 sau se respinge H1.
General Exemplu Proces în justiţie
Ipoteza nulă H0: µ=28 (µ este media Acuzatul este nevinovat.
necunoscută din
colectivitatea generală)
Ipoteza alternativă H1: µ 28 Acuzatul este vinovat.
Date Eşantionul x1, x2, …,xn Mărturiile
Mecanismul de decizie Testul statistic Deliberarea judecătorului
Accept ipoteza nulă H0 Decid µ=28 Achitarea (decid că este
nevinovat sau că nu am
suficiente dovezi pentru a
fi condamnat)
Resping ipoteza nulă Decid µ 28 Condamnarea (decid că
este vinovat)
Eroarea de tip I Decid µ 28 când în Decid vinovat când în
realitate H0 este realitate este nevinovat.
adevărată.
Eroarea de tip II Decid µ=28 când în Decid nevinovat când în
realitate H0 este falsă realitate este vinovat.
Sursa: Gary Simon, 2007, Hypothesis Testing, Documents prepared for use in course B01.1305, New York University,
Stern School of Business.
Testarea ipotezei privind media populaţiei generale
(μ) pentru eşantioane de volum mare

Exemplu: Un producător de bomboane preambalează


produsele la cutii ce trebuie să aibă în medie 120 de
grame. El doreşte să verifice corectitudinea
ambalării şi organizează un sondaj de n=100
observaţii (cutii), pentru care se obţine o greutate
medie de 118,5g, cu o abatere medie pătratică de
5g. Să se testeze ipoteza conform căreia, în medie,
cutiile au câte 120g, cu alternativa că greutatea este
diferită de 120g (< 120g sau > 120g) pentru o
probabilitate de 95%.
1. Formularea ipotezelor statistice

H 0 :   0 (test bilateral)
H 1 :    0 ;    0 sau   0

H 0 :   0 (test unilateral stânga)


H1 :    0

H 0 :   0
(test unilateral dreapta)
H1 :    0
2. Alegerea şi calcularea testului statistic
(volum >30)

x  0 x  0 x  0
z  
x x n sx n

x  0
zcalculat 
sx / n
3. Regula de decizie
(compararea zcalculat cu zcritic)

Nivelul de încredere: (1-)


z critic  z sau  z/2
Pragul de semnificaţie:  (pentru test unilateral) sau /2 (pentru test bilateral).

Regiunea de respingere:
Resping H0 Resping H0
Dacă z calculat  z critic se
respinge ipoteza H0, se
acceptă H1.
H 0 :   0
Dacă z calculat  z critic se /2 H1 :   0 /2
acceptă H0.

- z /2 z/2
Testarea ipotezei privind proporţia populaţiei
generale (p) pentru eşantioane de volum mare

Exemplu: În vederea aprecierii rezultatelor


obţinute de ansamblul studenţilor din anul II REI, la
examen, în sesiunea iulie 2011, se extrage aleator
simplu repetat un eşantion format din 100 de
studenţi şi se observă că proporţia celor care au
luat notă de până la 5 este de 40%. Să se verifice
ipoteza potrivit căreia proporţia acestei categorii de
studenţi diferă în mod semnificativ de proporţia
înregistrată la acelaşi examen în anul anterior, de
p0=42%. Riscul asumat este de =0,10.
1. Formularea ipotezelor statistice

H 0 : p  p0
H1 : p  p0 ; p  p0 saup(test
 p0bilateral)

H 0 : p  p0
(test unilateral stânga)
H1 : p  p0

H 0 : p  p0
(test unilateral dreapta)
H1 : p  p0
2. Alegerea şi calcularea testului statistic
(volum >30)

f  p0 f  p0
z 
p(1  p) / n) f (1  f ) / n

f  p0
zcalculat 
f (1  f ) / n
3. Regula de decizie
(compararea zcalculat cu zcritic)

Nivelul de încredere: (1-)

Pragul de semnificaţie:  sau /2 z critic  z sau  z/2

Resping H0
Resping H0

Dacă z calculat  z critic

se respinge ipoteza nulă H0 H 0 : p  p0


/2 H1 : p  p0 /2

- z /2  z/2
Testarea ipotezei privind media populaţiei generale
(μ) pentru eşantioane de volum mic

Exemplu: În vederea verificării greutăţii


produselor dintr-un lot de piese, se extrage simplu
repetat un eşantion format din 25 de piese. La
nivelul eşantionului se obţine o greutate medie de
340g şi o abatere standard de 10g. Să se verifice
ipoteza potrivit căreia greutatea medie a unei piese
din întregul lot concordă cu greutatea medie
prevăzută de normele STAS μ0=330g. Riscul asumat
este de =0,05.
Testul t (volum <=30)

x  0 x  0
t 
x sx n  

2
x x
s 2
 i
unde n 1
x

x  0
tcalculat 
sx / n
Nivelul de încredere: (1-)
t critic  t  / 2;n -1sau  t  ;n -1
Pragul de semnificaţie:  sau /2

Grade de libertate: v=n-1


Testarea ipotezei privind diferenţa dintre două medii
pentru eşantioane de volum mare

 Exemplu: Managerul unui restaurant doreşte să determine


dacă după o campanie publicitară a mărit semnificativ media
încasărilor zilnice. El culege date privitoare la 50 de zile înainte
şi după încheierea campaniei publicitare.
 Înaintea campaniei După campanie

n1  50 n2  30
x1  12,55 miiRON x2  13,30 miiRON

 s x1  2,15miiRON
s x2  2,38 miiRON
Sunt informaţiile suficiente pentru a susţine ipoteza conform
căreia mediile încasărilor diferă semnificativ, adică sunt
semnificativ mai mari după campania publicitară. Să se
utilizeze o probabilitate de 95% (z=1,645).
1. Formularea ipotezelor statistice

 - pentru test bilateral


 H0: μ1 = μ2 (μ1- μ2 = D)
 H1: μ1 ≠ μ2 (μ1- μ2 ≠ D)
 - pentru test unilateral dreapta
 H0: μ1 = μ2 (μ1- μ2 = D)
 H1: μ1 > μ2 (μ1- μ2 > D)
 - pentru test unilateral stânga
 H0: μ1 = μ2 (μ1- μ2 = D)
 H1: μ1 < μ2 (μ1- μ2 < D)
 unde D reprezintă diferenţa ipotetică dintre mediile
populaţiilor, deseori egală cu 0.
2. Alegerea şi calcularea testului statistic
(volum >30)

z
x 1
 x2  D 
 x 
1  x2

 x21  x22 s x21 s x22


 x 1 x2     dacă dispersiile celor două populații nu sunt egale
n1 n2 n1 n2

1 1 1 1
 x 1  x 2     s  dacă dispersiile celor două populații sunt egale
n1 n2 n1 n2
Testarea ipotezei privind diferenţa dintre două medii
pentru eşantioane de volum mic

 Exemplu: Se doreşte testarea ipotezei conform căreia între


două mărci de autoturisme nu există diferenţe semnificative
privind cheltuielile de funcţionare. Pentru aceasta 20 de
posesori de autoturisme (8 ai primei mărci şi 12 ai celei de-a
doua) sunt rugaţi să ţină cu acurateţe evidenţa cheltuielilor de
funcţionare timp de 1 an. Pentru un nivel de încredere de 90%
(t=1,734) să se testeze această ipoteză pe baza datelor prelucrate
din cele două eşantioane:
 Marca 1 Marca 2
n1  8 n2  12

x1  5,696 suteRON x2  5,273 suteRON


s x1  0,485 suteRON s x2  0,635 suteRON
1. Formularea ipotezelor statistice

 - pentru test bilateral


 H0: μ1 = μ2 (μ1- μ2 = D)
 H1: μ1 ≠ μ2 (μ1- μ2 ≠ D)
 - pentru test unilateral dreapta
 H0: μ1 = μ2 (μ1- μ2 = D)
 H1: μ1 > μ2 (μ1- μ2 > D)
 - pentru test unilateral stânga
 H0: μ1 = μ2 (μ1- μ2 = D)
 H1: μ1 < μ2 (μ1- μ2 < D)
 unde D reprezintă diferenţa ipotetică dintre mediile
populaţiilor, deseori egală cu 0.
2. Alegerea şi calcularea testului statistic (volum <=30)

 Se fac presupunerile:
 ambele colectivităţi generale din care s-au extras eşantioanele sunt normal sau aproximativ
normal distribuite;
 eşantioanele aleatoare sunt selectate independent unul de celălalt.
 În condiţiile în care presupunem că cele două colectivităţi generale au dispersii egale

 x21   x22
t
x 1

 x2  D
1 1
sc2   
 n1 n2 

unde

n  1s 2x1  n 2  1s 2x 2 n 1  1s 2x1  n 2  1s 2x 2


s 
2 1
 cu gradele de libertate: n1+n2-2
c
n 1  1  n 2  1 n1  n 2  2
2. Alegerea şi calcularea testului statistic (volum <=30)

 În condiţiile în care presupunem că cele două colectivităţi generale nu au dispersii egale

 x21   x22

( x1  x2 )  D
t
unde s12 s22

n1 n2

cu gradele de libertate:
s2
1 
2
/n1  s22 /n2
(s12 /n1 )2 (s22 /n2 )2

n1  1 n2  1
Testarea ipotezei privind dispersia unei populaţii
H 0 :  2   20
 Ipoteze (test bilateral)
H1 :   
2 2
0

H1 :  2   2 0 (test unilateral dreapta)


H1 :   
2 2
0
(test unilateral stânga)

 Test (n  1)  s 2
2 
2
 Regiune
 2  12 / 2,n 1sau 2  2 / 2,n 1 (test bilateral)
de respingere  2  2 ,n 1
(test unilateral dreapta)
 
2 2
1 , n 1 (test unilateral stânga)
Testarea ipotezei privind raportul dintre două
dispersii

H 0 :  12 /  22  1 (test bilateral)
 Ipoteze
H 1 :  12 /  22  1
H 1 :  12 /  22  1 (test unilateral dreapta)

H 1 :  12 /  22  1 (test unilateral stânga)

 Test s12 /  12 s12


F 2 2  2
s2 /  2 s2
 Regiune
F  F1 / 2,n1 1,n2 1 sauF  F / 2,n1 1,n2 1 (test bilateral)
de respingere
F  F ,n1 1,n2 1
(test unilateral dreapta)
F  F1 / 2,n1 1,n2 1 (test unilateral stânga)
Sinteza tipurilor de teste

Test unilateral Test bilateral Test unilateral


stânga dreapta

11.30
Bibliografie

V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose, C.Boboc,


D.Pele – Teorie şi practică econometrică, Ed. Meteor Press, 2007
Distribuţii statistice remarcabile
1. Curba normală (Curba lui Gauss)

Definiţie. Curba normală sau Curba lui Gauss este o curbă în formă de clopot cu centre şi
împrăştieri diferite, care depind de media şi abaterea standard a colectivităţii generale.

Tabel 1. Principalele proprietăţi ale Curbei lui Gauss

Proprietăţi • Depinde de doi parametri: media, care determină centrul


curbei şi de abaterea standard, care determină
împrăştierea distribuţiei.
• Este simetrică faţă de media, μ (media, modul şi mediana
sunt egale).
• Aria totală de sub curbă este egală cu 1 (sau 100%).
• 50% din arie se află la stânga mediei, iar 50% la dreapta.
• Aproximativ 68% din această arie se află la +/- 1σ (o
abatere medie pătratică) faţă de media μ.
• Aproximativ 95% din această arie se află la +/- 2σ (două
abateri medii pătratice) faţă de media μ.
• Aproximativ 99% din această arie se află la +/- 3σ (3
abateri medii pătratice) faţă de media μ.

Reprezentare
grafică

99%

95%

68%

-3σ -2σ -1σ μ 1σ 2σ 3σ x


Notaţia pentru o X ~ N ( , 2 )
variabilă
aleatoare normal
distribuită
Funcţia densitate 1  x 
  
2

1  
de probabilitate f ( x)  e 2  ,    x  
 2
unde x este media din eşantion (sau o variantă observată), µ
reprezintă media, iar σ abaterea standard (abaterea medie
pătratică) din colectivitatea generală.
Constante: =3.14159
e=2.71828
Notaţia pentru o X 
variabilă Z cu Z ~ N (0,1)

aleatoare normală
standard
Funcţia densitate 1
1
  Z 2
de probabilitate p( Z )  e 2
standardizată 2
Aplicaţii posibile  Testarea ipotezei privind media unei populaţii statistice
 Testarea ipotezei privind diferenţa dintre două medii
* se utilizează atunci când colectivitatea statistică este
normal distribuită (sau atunci când eşantionul extras din
colectivitatea statistică este suficient de mare, astfel încât să
poată fi aplicată Teorema Limită Centrală), iar abaterea
standard a colectivităţii generale este cunoscută.

Funcţii în Excel  =NORM.DIST(x,mean,standard_dev,cumulative)


 =NORM.S.DIST(z,cumulative)
 =NORM.INV(probability,mean,standard_dev)
 =NORM.S.INV(probability)
2. Distribuţia Student (t)

Fie două variabile aleatoare independente: Z (o variabilă aleatoare normal distribuită) şi V (o


variabilă aleatoare care urmează o distribuţie hi-pătrat cu r grade de libertate), atunci raportul:
Z
T , unde Z ~ N (0,1) , iar V ~  r2
V /r
urmează o distribuţie Student cu r grade de libertate ( T ~ t r ).
Definiţie. Distribuţia Student reprezintă o clasă de distribuţii continue de probabilitate utilă în
estimarea mediei unei colectivităţi statistice normal distribuite pe baza unui eşantion de dimensiuni reduse
(n<30 de observaţii), când abaterea standard a colectivităţii generale nu este cunoscută.

Tabel 2. Principalele proprietăţi ale distribuţiei Student

Proprietăţi • Are tot o fomă de clopot ca şi curba normală, dar forma


depinde de numărul gradelor de libertate (r).
• Este mai aplatizată decât curba normală în centru, dar are
cozile mai înalte.
• Este cu atât mai aplatizată cu cât numărul de grade de libertate
este mai mic.
• Se apropie de forma distribuţiei normale cu cât numărul
gradelor de libertate creşte ( r  30 ).
• Este simetrică faţă de t=0.
• Este cuprinsă între   şi   .
• Media este egală cu 0 (egală cu mediana şi modul):
  0 pentru r  0
• Dispersia este mai mare decât 1 şi este definită atunci când
numărul gradelor de libertate este mai mare decât 2:
r , pentru r  2
2 
r 2

Reprezentare
grafică t (df=5)

t (df=13)

0 t
Funcţia  r 1
densitate de   
r 1

 2   t2  2
probabilitate f (t )  1   , tR
 r   r 
r   
2
unde Γ este funcţia gamma, iar r numărul gradelor de libertate.
Constanta: =3.14159.

Funcţia 1
1
 t 2
densitate de f (t )  e 2
, când r  
probabilitate 2
normalizată
Aplicaţii  Testarea ipotezei privind media unei populaţii statistice
posibile  Testarea ipotezei privind diferenţa dintre două medii
 Testarea ipotezei privind diferenţa dintre două medii pe acelaşi
eşantion
 Testarea semnificaţiei coeficientului de corelaţie liniară
Pearson
* se utilizează atunci când eşantionul este de volum mic (n<30
observaţii), iar abaterea standard din colectivitatea generală nu este
cunoscută.
Funcţii în  =T.DIST(x, deg_freedom, cumulative)
Excel  =T.INV(probability, deg_freedom)
 =T.TEST(array1,array2, tails, type)
3. Repartiţia Hi-pătrat (χ2)

Fie r variabile aleatore independente şi identic distribuite Z1, Z2, ...Zr, Z ~ N (0,1) atunci suma
pătratelor acestora V= Z12+ Z22+ ...+Zr2 urmează o distribuţie χ2 cu r grade de libertate ( V ~  r2 ).
Definiţie. Repartiţia χ2 reprezintă o clasă de distribuţii continue de probabilitate, fiecare dintre
acestea fiind determinate de numărul gradelor de libertate (r). Este distribuţia sumei pătratelor a r
variabile aleatoare independente şi normal distribuite.

Tabel 3. Principalele proprietăţi ale repartiţiei χ2

Proprietăţi • Depinde de un singur parametru (r=grade de libertate)


care influenţează forma, centrul şi împrăştierea
distribuţiei.
• La valori mici ale gradelor de libertate, distribuţia
prezintă o asimetrie pozitivă.
• Cu cât numărul gradelor de liberatate creşte,
distribuţia devine simetrică, apropiindu-se de
distribuţia normală (pentru r > 90).
• Este cuprinsă între 0 şi   , neputând lua valori
negative.
• Media este egală cu numărul gradelor de libertate, iar
dispersia este de două ori numărul gradelor de
libertate:
  r iar  2  2r
Funcţia densitate x ( r 2) / 2  e  x / 2
de probabilitate f ( x; r )  ,
2 r / 2 (r / 2)
unde Γ este funcţia gamma, iar r numărul gradelor de
libertate.
Constanta: e=2.71828

Aplicaţii posibile  Ca test de cooncordanţă verifică dacă o distribuţie


observată corespunde unei anumite distribuţii
teoretice.
 Ca test de asociere poate fi utilizat pentru testarea
asocierii (relaţiei) dintre două serii de atribute.
Funcţii Excel  =CHISQ.DIST(x, deg_freedom, cumulative)
 =CHISQ.INV (probability, deg_freedom)
 =CHISQ.TEST(actual_range, expected_range)
4. Repartiţia Fisher-Snedecor (F)

Fie două variabile aleatoare independente U şi V, care urmează fiecare o distribuţie hi-pătrat cu m,
respectiv n grade de libertate, atunci raportul:
U /m
F urmează o distribuţie F cu m şi n grade de libertate ( F ~ Fm ,n , iar U ~  m2 , V ~  n2 ).
V /n

Definiţie. Repartiţia F reprezintă distribuţia raportului dintre dispersiile a două populaţii statistice
normal distribuite.

Tabel 2.4. Principalele proprietăţi ale repartiţiei F

Proprietăţi • Forma distribuţiei depinde de doi parametri, gradele de


libertate m şi n.
• Distribuţia prezintă o asimetrie de dreapta pentru grade
mici de libertate, asimetria reducându-se odată cu
creşterea numărului de grade de libertate.
• Este cuprinsă între 0 şi   , neputând lua valori
negative.
n
•  , pentru n  2
n2
2n 2 (m  n  2)
•  
2
, n4
m(n  2) 2 (n  4)

Funcţia densitate m  n  / 2  m 


n/2  ( m n ) / 2
m / 2 1  m 
de probabilitate f ( w)    w 1  w 
(m / 2)(n / 2)  n   n 
unde w>0.
Aplicaţii posibile  Testarea ipotezei privind egalitatea dispersiilor a două
populaţii statistice
 Testarea ipotezei privind egalitatea a două sau mai
multe medii
Funcţii Excel  =F.DIST(x, deg_freedom1, deg_freedom2, cumulative)
 =F.INV(probability,deg_freedom1, deg_freedom2)
 =F.TEST(array1,array2)

S-ar putea să vă placă și