Sunteți pe pagina 1din 8

Seminar 2 ECONOMETRIE SPTARU

INFERENA STATISTIC: ESTIMAREA


Prin inferen statistic se nelege obinerea de concluzii bazate pe o eviden statistic, adic
pe informaii derivate dintr-un eantion. Concluziile sunt asupra caracteristicilor populaiei din
care provine eantionul.
De multe ori tim sau presupunem c o v.a. X urmeaz o distribuie de probabilitate particular,
dar nu cunoatem valorile parametrilor acestei distribuii. De exemplu, dac X urmeaz
distribuia Normal, dorim s cunoatem valorile celor doi parametri i anume, media i variana.
Pentru a estima parametrii necunoscui, procedura uzual este de a presupune c avem un
eantion aleator de volum n din distribuia de probabilitate cunoscut i atunci folosim datele din
eantion pentru a estima parametrii necunoscui. Problema estimrii poate fi rezolvat prin
estimarea punctual sau estimarea prin interval de ncredere.
Prin eantion (sau selecie) se nelege o submulime a populaiei statistice considerate. O
cercetare statistic are ntotdeauna ca obiect un eantion finit.
Sondajul este operatiunea de obinere a unui eantion. Sondajele care au anse mai mari de a
produce eantioane reprezentative sunt cele bazate pe proceduri de selecie aleatoare. In
eantioane diferite, statisticile calculate au valori diferite. n acest fel se poate vorbi despre o
distribuie a valorilor statisticii n mulimea eantioanelor de un acelai volum; apare astfel
distribuia de sondaj a statisticii respective.
Inferena statistic implic trei distribuii asociate cu caracteristica studiat:
distribuia populaiei = distribuia pe care o are caracteristica studiat (sau v.a. asociat ei) n
populaie. Aceast distribuie nu este, n general, cunoscut. Scopul unei cercetri este tocmai
acela de a studia aceast distribuie.
distribuia eantionului = distribuia pe care o are caracteristica studiat n eantionul
disponibil n studiu. Aceast distribuie este cunoscut complet, deoarece toate datele necesare
sunt msurate.
distribuia de sondaj a unei statistici = distribuia pe care o are statistica n mulimea tuturor
eantioanelor de volum dat. Aceast distribuie nu este cunoscut.
ntre distribuia populaiei i distribuia de sondaj exist legturi bine precizate. Datorit unor
teoreme de limit central, se cunoate forma acestei distribuii atunci cnd volumul eantionului
crete (tinde spre infinit).
Inferena statistic urmeaz, n general, urmtorul algoritm:
se obine, printr-un procedeu valid, un eantion;
se calculeaz o valoare tipic a eantionului (o statistic de sondaj);
din considerente teoretice, se cunoate repartiia din care provine aceast valoare tipic i
relaia repartiiei de sondaj a statisticii cu valoarea tipic din populaie;
utiliznd repartiia de sondaj a statisticii se pot face evaluri ale erorilor de estimaie.
Estimarea punctual
Considerm o populaie caracterizat de o v.a. teoretic X, care are o lege de probabilitate
cunoscut, f ( x, ) , dar este un parametru necunoscut.
Prin parametru al unei populatii ntelegem un numr ce descrie, ntr- un anumit sens, populatia.
Extragem o selecie aleatoare ( X 1 , X 2, ..., X n ) din populaie (din distribuia de probabilitate
cunoscut) i folosim datele din eantion pentru a estima parametrii necunoscui.
1

= f ( X 1 , X 2, ..., X n ) se numete statistic sau estimator. O valoare numeric particular:


= f ( x1 , x 2, ..., x n ) este o estimaie a parametrului real .
Menionm c poate fi tratat ca o v.a. deoarece este o funcie de datele de selecie. ne ofer
o formul care ne spune cum putem estima valoarea real a lui .
Putem afirma aadar c parametrul unei populaii este estimat printr-o statistic, la fel cum
afirmm c probabilitatea unui eveniment este estimat printr-o frecven relativ. Estimarea
unui parametru poate fi facut fie printr- un numr (estimare punctual), fie printr-un interval.
Estimarea punctual furnizeaz o singur valoare (estimaie ) a lui .
Estimatori punctuali se obin prin MCMMP i prin metoda verosimilitii maxime.
Exemplu: cazul mediei aritmetice.
Considerm o populaie statistic i o caracteristic continu X cu parametrii E ( X ) = i
D ( X ) = Var ( X ) = 2 . Repartiia variabilei X este necunoscut (deci nu sunt cunoscute , ,
forma distribuiei). Din populaia respectiv se extrage un eantion de volum n. Fie acesta
( x1 , x 2 ,..., x n ) , i se calculeaz media aritmetic x . Este evident c se dorete ca aceast valoare
s fie utilizat ca estimaie a mediei populaiei .
Repartiia de sondaj a mediei este caracterizat prin: media este E ( X ) = i variana este
Var ( X ) = 2 n . Aceast repartiie este aproximativ normal, adic X ~ N ( , 2 n) .
Astfel, dac avem formula:
1
= ( x1 + x 2 + L + x n ) = X ,
n
unde X este media de selecie, atunci X este un estimator al valorii medii reale .

Dac ntr-un caz particular obinem X = 49 , aceasta este o estimaie a lui .


Media aritmetic este estimator nedeplasat pentru media populaiei , abaterea standard s este
estimator nedeplasat pentru abaterea standard a populaiei, .
Utiliznd repartiia normal, se pot calcula probabilitile cu care pot aprea diverse erori,
ajungndu-se la afirmaii probabiliste de genul:
P (| X ) |< ) = 0,683 .
Adic exist o probabilitate de 68.3% ca media de sondaj s difere de media populaiei cu mai
puin de o abatere standard (eroarea de estimaie este mai mic de o abatere standard cu o
probabilitate de 68.3%.

Estimarea prin Intervale de ncredere


n loc s obinem o singur estimaie a parametrului necunoscut , putem obine dou estimaii
pentru , construind doi estimatori 1 ( x1 , x 2, ..., x n ) i 2 ( x1 , x 2, ..., x n ) . Vom spune cu o anumit
ncredere (probabilitate) c intervalul dintre i include valoarea real a lui .
1

P (1 2 ) = 1 ,
0 < < 1 s.n. nivel de semnificaie (prag de semnificaie)
1 s.n. coeficient de ncredere.
Intervale de ncredere pentru valoarea medie a populaiei
Foarte important este distribuia de probabilitate a estimatorului.
2

Cazul cel mai simplu este cel al unei populaii (cu alte cuvinte, variabile aleatoare) X care are
media necunoscut, iar variana 2 cunoscut. Parametrul n acest caz este . Lund un
eantion de volum n, tim ca media de eantion X este distribuit aproximativ normal, cu media
i variana 2 / n . Distribuia estimatorului X este deci X ~ N ( , 2 n) . (Dac populaia
nu este distribuit normal, atunci o aproximare bun impune un volum n mare.)
Numim interval de ncredere pentru medie, un interval de numere reale n care suntem
aproape siguri c se afl media real, pe care o aproximm. Gradul de siguran poate fi ales. De
obicei gradul de ncredere este 95% sau 99% ( = 0,05 sau = 0,01 ).
Dac vom construi intervalul x 1,96

, putem spune, cu o ncredere de 95% c astfel de


n
intervale vor conine valoarea real a mediei populaiei. Un astfel de interval este aleator
deoarece este bazat pe X , care va varia de la eantion la eantion.

Considerm pragul (nivelul) de semnificatie = 0,05 . Dac dispersia, 2 este cunoscut,

intervalul de ncredere pentru media populaiei este: ( X z


X + z
)
2

Dac avem o serie de valori i am obinut media de eantionare x i abaterea standard ,


atunci avem urmtoarea probabilitate furnizat de distribuia mediei de eantionare

P ( x 1,96
x + 1,96
) 0,95
n

ansele ca media s fie ncadrat de limitele de mai sus sunt de 95%. Suntem 95% siguri c
parametrul se afl undeva ntre aceste limite.
Nu trebuie s afirmm c suntem 95% siguri c parametrul se afl undeva n intervalul de
ncredere 95%. De fapt, ceea ce tim este c, pe baza a 95% dintre eantioanele posibile vom
reui s crem intervale ce vor conine parametrul . Dac vom construi 100 de astfel de
intervale, 95 din cele 100 intervale vor include valoarea real a lui . Cu alte cuvinte, 95%
dintre eantioane vor produce estimri corecte, iar 5% vor produce estimri greite (adic 5%
este riscul de a grei bazndu-ne estimarea lui pe un eantion).
Ipoteza c variana populaiei este cunoscut nu este plauzibil. Mult mai plauzibil pare ipoteza
c, atunci cnd media nu este cunoscut, nici variana nu este cunoscut. Putem s nlocuim
pe cu abaterea standard de selecie s , obinut din datele ce provin dintr-un eantion. ns,
dac facem aceast nlocuire, apare o dificultate suplimentar: distribuia valorilor medii
provenite din eantioane nu mai este normal!
Obinerea intervalelor de ncredere pentru media , pe baza distribuiei Student.
X
tim c t =
urmeaz o distribuie Student cu n 1 grade de libertate.
s/ n
3

-Dac dispersia 2 nu este cunoscut, un interval de ncredere pentru media populaiei este
s
s
( X t
X + t
)
; n 1
; n 1
n
n
2
2
Proprieti ale estimatorilor
s.n. estimator nedeplasat pentru parametrul dac E () =
este estimator liniar al lui dac este o funcie liniar de datele de observaie.
este estimator eficient al lui dac este estimator de varian minim.
s.n. estimator asimptotic nedeplasat al lui dac lim E (n ) = , unde n nseamn c
n

estimatorul este bazat pe o selecie de volum n.


Estimator BLUE (cel mai bun estimator liniar i nedeplasat)
este estimator consistent al lui dac aproximeaz valoarea real atunci cnd volumul
seleciei crete indefinit. Notm:
lim P (| |< ) = 1 , > 0 sau, echivalent, avem limita de probabilitate p lim =
n

Nedeplasarea are loc pentru orice mrime a volumului eantionului.


Consistena este o proprietate a eantioanelor mari.

INFERENA STATISTIC: TESTAREA IPOTEZELOR


Estimarea i testarea ipotezelor constituie cele dou ramuri ale inferenei statistice clasice.
Presupunem c avem o v.a. X, avnd o pdf cunoscut f ( x, ) , unde este parametrul
distribuiei. Avnd o selecie aleatoare de volum n, obinem estimatorul punctual .
Parametrul real este necunoscut.
ntrebare: H0: = 0 ?
Ar putea eantionul nostru s provin dintr-o distribuie avnd f ( x, = 0 ) ?
Ipoteza nul H0 este testat contra ipotezei alternative H1: 0
Etape n testarea ipotezelor:
1) Stabilim ipoteza nul i ipoteza alternativ.
2) Alegem statistica testului (de ex. media de selecie: X ) (Reamintim c statistica nseamn aici
formula n care apar datele extrase dintr-un eantion.)
3) Determinm distribuia de probabilitate a statisticii testului (de ex. X ~ N ( , 2 / n) )
4) Alegem nivelul de semnificaie (de cele mai multe ori lum =0,05).
Calculm valoarea statisticii, folosind efectiv datele din eantion (ales aleator).
5) Folosim distribuia de probabilitate a statisticii testului i obinem un interval de ncredere
100(1- )%. Dac valoarea calculat se afl n aceast regiune de acceptare, nu respingem H0.
Definiie: Dac (0,1) se numete cuantil de rang a repartiiei normale standard Z, un
numr z cu urmtoarea proprietate: P ( Z < z ) = 1 , sau P ( Z > z ) = . Exist tabele care
dau P ( Z > z ) = .
Important. n luarea deciziei de acceptare sau de respingere a ipotezei H0 se pot comite 2 tipuri
de erori:
= P (resping H 0 | H 0 = adev.) este eroarea de genul nti
= P (accept H 0 | H 0 = fals ) este eroarea de genul al doilea
4

Decizia de acceptare
H0
H1

Ipoteza adevrat
H0
Decizie corect
(probabilitate 1- )
Eroare de gen I
(risc )

H1
Eroare de gen II
(risc )
Decizie corect
(probabilitate 1-)

p-value sau nivelul exact de semnificaie


n loc s alegem arbitrar nivelul de semnificaie , putem obine nivelul exact de semnificaie al
unui test statistic. Este cel mai mic nivel de semnificaie la care ipoteza H0 poate fi respins.
Testarea ipotezei privind media populaiei
Testul bilateral
H 0 : = 0
H1 : 0

Testul unilateral dreapta


H 0 : = 0
H1 : > 0

Testul unilateral stnga


H 0 : = 0
H1 : < 0

Cazul 1: Volumul eantionului este mare ( n 30 ) sau selecia se face dintr-o populaie
normal
x 0
Z calc =
/ n
Regiunea critic (testul bilateral)
(TUD)
(TUS)
Rc :| Z calc |> Z critic = Z / 2
Rc : Z calc > Z
Rc : Z calc < Z

Cazul 2: Volumul eantionului este mic ( n < 30 )

t calc =

x 0

s/ n
Regiunea critic (testul bilateral)
Rc :| t calc |> t critic = t / 2;n 1

(TUD)
Rc : t calc > t ;n 1

(TUS)
Rc : t calc < t ;n 1

Exemplu: Presupunem X i ~ N ( , 2 ) = N ( , ( 2,5) 2 ) , x = 67 , = 0,05 i n=100.


Ipotezele de testat sunt:
H 0 : = 0 = 69 ;
H 1 : 69
Ar putea selecia cu x = 67 , statistica testului calculat, s provin dintr-o populaie cu valoarea
medie de 69? Nu putem respinge H0 dac x = 67 este suficient de aproape de 0 = 69 . Cum
putem decide dac x = 67 este suficient de aproape de 0 = 69 ? Avem dou abordri:
1) Abordarea testului de semnificaie
n orice aplicaie x i n sunt cunoscui (sau pot fi estimai) dar i sunt necunoscui.
X
pot
Dac este cunoscut i noi presupunem (sub H0) c = 0 , atunci variabilele Z i =
/ n
fi calculate direct i putem gsi, din tabelele distribuiei N(0,1), probabilitatea de a obine
valoarea calculat a lui Z:
x 0
.
Z calc =
/ n
Dac aceast probabilitate este mai mic dect =0,05 vom respinge H0.
67 69
0 = 69 Z calc =
= 8 .
2,5 / 100
Z tab = Z / 2 = Z 0, 025 = 1,96 , Z tab = Z / 2 = Z 0, 025 = 1,96
Respingem H0 dac Z calc < Z / 2 sau Z calc > Z / 2 (zonele haurate reprezint regiunea critic)

Geometric, vedem regiunea de acceptare i cea de respingere a ipotezei H0.


Deoarece avem Z calc < Z / 2 ( 8 < 1,96 ), vom respinge H0.
Din tabelele distribuiei N(0,1) se observ c P(Z>3) sau P(Z<-3) este 0,001.
Decizia este: respingem H0 c media real a populaiei este 69.
1) Abordarea Intervalului de ncredere
Deoarece X i ~ N ( , 2 ) tim din teorie c X ~ N ( , 2 / n) .
6

Dac =0,05 avem P (1,96 Z i 1,96) = 1 = 0,95


X

/ n

1,96) = 0,95 ; P ( X 1,96

X + 1,96

) = 0,95
n
n
Obinem un interval de ncredere 95% pentru media populaiei (). Trebuie s verificm dac
= 0 se afl n acest interval.
Avem, n urma efecturii calculelor: 66,51 67,49 . Observm c intervalul obinut nu
conine = 69 . Astfel putem respinge ipoteza nul c valoarea real a mediei populaiei este 69,
cu un coefficient de ncredere 95%.
Obs: Vom utiliza testul Z dac:
-se cunoate abaterea standard a variabilei dependente la nivelul populatiei;
- numrul de subieci cuprini n eantion este suficient de mare (de regula n 30 ).
n situaia n care una din cele dou condiii nu sunt ndeplinit, utilizm testul t.
P (1,96

Testarea ipotezei privind media () a unei populatii normale N(,2), cnd dispersia 2, a
populaiei generale, nu este cunoscut (testul t)
X
Teorem: Variabila t =
are o distribuie Student cu (n-1) grade de libertate.
s/ n
Pentru eantioane de volum mic ( n 30 ), statistica testului utilizat este
n
( xi x ) 2
x 0
x 0

2
i =1
t=
.
=
, unde s x =
sx
n 1
sx / n

Dac nivelul de semnificaie este , atunci regiunea critic, sau de respingere a ipotezei nule:
RC : t calc < t / 2;n 1 sau t calc > t / 2;n 1
RC : t calc > t ;n 1
RC : t calc < t ;n1

Problem: La o fabric, un anumit sortiment de chifle trebuie s cntreasc 65g. Inspectorii de


calitate vor s verifice acest lucru i selecteaz aleator un eantion de 12 chifle. Sunt notate
greutile: 55, 62, 54, 58, 65, 64, 60, 62, 59, 67, 62, 61.
Exist suficiente dovezi s afirmm, la un nivel de semnificaie de 5%, c greutatea chiflelor nu
este cea standard (corect)?
Variabila de interes este: X greutatea unei chifle presupunem c are o distribuie normal
n urma efecturii calculelor, s-au obinut x = xi / n = 60,75 i s = 3,8406
Greutatea medie ipotetic : 0 = 65
Greutatea medie din eantion: x = 60,75
Pragul de semnificaie: = 0,05
Ipotezele de testat sunt:
H 0 : = 0 = 65;

H 1 : 65
Valoarea critic: t crt = t / 2;n 1 = t 0,025;11 = 2,20 = TINV ( ; n 1)
Valoarea testului: t calc =
Verificarea: t calc

x 0

60,75 65

s / n 3,8406 / 12
= 3,83 < t / 2;n 1 = 2,20

= -3,83

respingem H0 acceptm H1 Greutatea chiflelor nu este cea standard


Decizia : Cu o ncredere de 95% avem suficiente motive pentru a respinge ipoteza nul.

Teorem: Variabila U =

(n 1) s 2

are o distribuie 2 cu (n-1) grade de libertate.