Sunteți pe pagina 1din 26

STATISTICĂ

CURS 3

INFERENŢA STATISTICĂ
ESTIMAREA PARAMETRILOR

1
INFERENŢA STATISTICĂ
INFERENŢA STATISTICĂ se realizeaza prin :
1. Estimarea pe interval de incredere a
parametrilor populatiei
2. Testarea ipotezelor statistice privind
parametrii populatiei.

2
Estimarea pe interval de incredere
 Datele din eşantion pot fi utilizate pentru a estima parametrul
populaţiei în două moduri:

 Să considerăm valoarea estimatorului ca fiind egală cu valoarea


parametrului şi să realizăm o estimaţie punctuală;

 Să identificăm un interval de valori care acoperă, cu o anumită


probabilitate fixată, valoarea adevărată, dar necunoscută, a
parametrului populaţiei, realizand astfel estimaţia pe interval de
încredere.

3
Estimatia pe interval de incredere
 Estimatorul să îndeplinească două condiţii: să fie nedeplasat
şi să fie consistent.

 Un estimator este nedeplasat dacă valoarea medie a


estimaţiilor obţinute pe baza tuturor eşantioanele posibile este
egală cu parametrul populaţiei (un estimator nedeplasat nu
este sistematic mai mare sau sistematic mai mic decât
parametrul corespunzător din populaţia statistică).

 Un estimator nedeplasat este consistent dacă diferenţa dintre


estimator şi parametru devine din ce în ce mai mică, pe
măsură ce volumul eşantionului creşte.

4
Estimatia pe interval de incredere

5
Estimatia pe interval de incredere
 Doi parametri utilizaţi în caracterizarea unei populaţii statistice: media
şi dispersia/abaterea standard (parametri ce caracterizează distribuţia normala)

 Inferenţa statistică presupune, de regula, estimarea mediei.

 Extinderea rezultatelor referitoare la variabilitatea populaţiei în raport


cu o anumită variabila statistică se realizează mai rar, prin estimaţie
pe interval de încredere pentru dispersia populaţiei.

 Extinderea rezultatelor în cazul observării statistice prin sondaj are


caracter probabilist, procesul de generalizare a rezultatelor de la parte
la întreg fiind însoţit de erori. Aceste erori nu pot fi eliminate, ci doar
predimensionate şi controlate.

6
Tipuri de erori
Identificăm două tipuri de erori:
 1. Eroarea de estimaţie;
 2. Eroarea de reprezentativitate.
1. Eroarea de estimaţie (eroare limită sau eroare maximă admisă) =
diferenţa dintre estimator şi parametru.
Eroarea de estimaţie, notată cu  x , poate fi exprimată:

- absolut x  x   sau

x
- relativ  
%
100 .
x

Se apreciază că o eroare de estimaţie exprimată relativ mai mică de 5% este asigurată de un
eşantion reprezentativ, care reproduce la scară redusă structura populaţiei din care a fost extras.

7
Tipuri de erori
 Eroarea de reprezentativitate (eroare standard, eroare
medie probabilă) = estimatorul abaterii standard a
indicatorului statistic determinat pe baza datelor de selecţie.
 Distribuţia de eşantionare a oricărui indicator statistic (deci şi a
mediei) este caracterizată de medie, dispersie şi abatere
standard.
 Abaterea standard a mediei măsoară variaţia aproximativă
a indicatorului statistic din eşantion faţă de valoarea sa medie,
adică parametrul populaţiei.

8
Tipuri de erori

Principiul care stă la baza determinării erorii standard (generat de teorema limită
centrală) este:

Distribuţia de eşantionare a mediei ( x ) unei variabile X este aproximativ


normală dacă eşantionul aleator de volum n, selectat dintr-o populaţie, este suficient
de mare ( n  30 ), indiferent de tipul distribuţiei variabilei X în populaţia studiată.
Cu cât volumul eşantionului n este mai mare, cu atât distribuţia de eşantionare

a lui x va tinde către distribuţia normală.

9
Tipuri de erori
 distribuţia lui x este aproximativ normală şi poate fi diferită de distribuţia variabilei X ;
 media mediilor de selecţie ( M (x) ) este egală cu media populaţiei (  );

 dispersia mediilor de selecţie (  x ) nu este egală cu dispersia variabilei X :


2

 x2   2

dispersia mediilor de selecţie (  x ) este de n ori mai mică decât dispersia variabilei în populaţie
2

(  ):
2

2
 2
x
n

 Abaterea standard a mediilor de selecţie (  x ), numită eroare standard a mediei de sondaj este:

2 
x   .
n n
10
Tipuri de erori
Dacă n>30, mediile de selecţie ( x ) au o distribuţie normală, de medie μ şi abatere standard x.
Întrucât, atât dispersia cât și abaterea standard a variabilei în populaţia statistică sunt necunoscute,
2
ele se estimează prin: dispersia de sondaj ( s ) si abaterea standard (s).
2
- estimatorul dispersiei mediei de sondaj ( s x ):

s2
s x2 
n
- estimatorul abaterii standard a mediei de sondaj, adică eroarea standard a mediei de
sondaj (numită şi eroare probabilă de reprezentativitate):

s
sx  .
n

11
Tipuri de erori
Eroarea probabilă de reprezentativitate ( s x ) este mai mică decât abaterea standard a

variabilei X în eşantion (s), ceea ce înseamnă că media de selecţie ( x ) are o variabilitate

mai redusă în raport cu împrăştierea valorilor xi . Variabilitatea mediei de selecţie se


reduce pe măsură ce creşte volumul eşantionului.

12
Estimaţia pe interval de încredere pentru media populaţiei

Extinderea rezultatelor sondajului statistic la întreaga populaţie presupune determinarea


unui interval de încredere, pe baza estimatorului x , pentru media populaţiei  .
Intervalul de încredere va conţine adevărata valoare a mediei din populaţia statistică (  ),
în 100(1-)% din cazuri.
Pentru construirea intervalului de încredere se parcurg următoarele etape:

1. Determinarea indicatorilor statistici pentru eşantion

În această etapă se determină estimatorii medie, dispersie şi abatere standard pentru variabila
studiată, la nivelul eşantionului de date:

 x  x
n n

 xi  x  x 
2 n
2
i
i
i 1
x i 1
, s 
2
, s i 1
.
n n 1 n 1

13
Estimaţia pe interval de încredere pentru media populaţiei

2.Stabilirea nivelului de încredere pentru estimaţie


Nivelul de încredere reprezintă probabilitatea ( P  1   100 ) de garantare a rezultatelor.
În expresia anterioară  se numeşte prag sau nivel de semnificaţie, valoarea lui fiind fixată, de
regulă, la 5%.

În determinarea erorii maxime admise  x (eroarea de estimaţie) sunt luate în considerare

două elemente:

a) Eroarea standard (eroarea medie probabilă) - sx ;


b) Valoarea cuantilei z 1  aferente distribuţiei normale standardizate Gauss-Laplace;
2

Distribuţia normală standardizată Gauss-Laplace este cunoscută şi sub numelede Distribuţia z.

14
Estimaţia pe interval de încredere pentru media populaţiei

Probabilitatea de garantare a rezultatelor P 1   oferă valoarea funcţiei Gauss-Laplace ( z  ).


Cuantila z 1  reprezintă argumentul funcţiei Gauss-Laplace ( z  ), pentru nivelul de
2

semnificaţie  . Deoarece funcţia z  este simetrică în raport cu ordonata (axa OY fiind axă de
simetrie) există următoarea relaţie între cuantile:

z  z 1  .
2 2

15
Estimaţia pe interval de încredere pentru media populaţiei

Deoarece media de sondaj ( x ) este variabilă aleatoare normal distribuită, de medie  şi


abaterea standard  x  , scorul z calculat pentru această variabilă este:
n
x
z .
x

Aşadar, eroarea maximă admisă (eroarea de estimaţie)  x este:

 x  x    z   x  z  sx
Probabilitatea de garantare a rezultatelor, prin intermediul nivelului de semnificaţie stabilit,
permite identificarea valorii scorului z, adică a cuantilei de ordin 1   2  aferentă distribuţiei
normale standardizate Gauss-Laplace. Astfel avem:

 
P x  zα/ 2  sx  μ  x  zα/ 2  sx  1  α .
16
Estimaţia pe interval de încredere pentru media populaţiei

Pentru un nivel de încredere de 95% (un prag de semnificaţie α de 5%) z  z 1   1.96 .
2 2

Valoarea cuantilei z 1  se obţine cu ajutorul funcţiei Excel:


2


NORM.S.INV( 1  ).
2

17
Estimaţia pe interval de încredere pentru media populaţiei

3.Determinarea erorilor de sondaj

Se determină

eroarea standard a mediei de sondaj

eroarea maximă admisă.

Determinarea celor două tipuri de erori depinde de:

- tipul selecţiei (simplă sau stratificată, repetată sau nerepetată);

- tipul variabilei (numerică sau categorială alternativă).

18
Eroare standard Eroare de estimaţie
Tip Tip (eroare medie (eroare limită, eroare
probabilă) maximă admisă) Observaţii
sondaj selecţie
sx x
z / 2 sau t / 2,n1 în funcţie de:
- volumul eşantionului
 x  z / 2  s x - distribuţia variabilei studiate
s în populaţia statistică;
repetată sx  s - valoarea cunoscută sau
n  x  z / 2 
n necunoscută a abaterii
standard la nivelul
populaţiei.

- Termenul N n n se
 1
simplu N 1 N
numeşte coeficient de corecţie
în populaţie finită.
s N n  x  z / 2  s x n
sx    - Raportul reprezintă
n N 1 N
nerepetată  s n 
s n  x  z / 2   1 

fracţia de sondaj.
  1  n N  - Pentru o fracţie de sondaj
n N n
< 0,05, coeficientul de
N
corecţie nu se mai ia în
considerare.

19
Eroare standard Eroare de estimaţie (eroare
Tip Tip (eroare medie limită, eroare maximă
probabilă) admisă) Observaţii
sondaj selecţie
sx x
f (1  f ) f (1  f )
repetată sf   f  z / 2 s f  z  / 2
n n
simplu
f (1  f )  n  f (1  f )  n 
nerepetată sf   1    f  z / 2 s f  z / 2  1  
n  N n  N

20
Estimaţia pe interval de încredere pentru media populaţiei

4.Determinarea intervalului de încredere pentru media variabilei

Intervalul de încredere, construit pe baza mediei determinate la nivelul eşantionului ( x ) şi a erorii

maxime admise (  x ), este:

x  x    x  x .

În cazul unei variabile categoriale alternative intervalul de încredere este:

f f  p  f f .

21
Estimaţia pe interval de încredere pentru media populaţiei

Estimarea nivelului total al variabilei

Intervalul de încredere determinat pentru estimarea mediei variabilei în populaţia statistică


N
(  ) poate fi utilizat şi pentru estimarea nivelului total la acesteia (  xi ). Pot fi estimate pe
i 1

interval de încredere veniturile totale ale persoanelor ce formează populaţia statistică studiată,
valoarea adăugată, producţia totală generate de firmele din colectivitatea studiată etc.
Determinarea intervalului de încredere pentru nivelul total al caracteristicii studiate
presupune cunoaştere volumului populaţiei statistice (N):
N
N ( x   x )   xi  N ( x   x ) .
i 1

22
Exemple
Exemplul 1. Rezultatele unui studiu, efectuat pe un eşantion aleator de 64 clienţi ai unei
bănci, referitor la timpul mediu de realizare a operaţiunilor bancare solicitate de către
aceştia, sunt: timpul mediu de realizare a operaţiunilor bancare este 32 de minute, cu o
dispersie de 400. Estimaţi timpul mediu de realizare al operaţiunilor bancare pentru o
probabilitate de 95% de garantare a rezultatelor.

23
Exemple
Rezolvare:
Intervalul de încredere este: x   x    x   x

Estimatorii determinaţi la nivelul eşantionului ( n  64 clienţi) au valorile:


x  32 min; s 2  400 ; s  20 min.
Întrucât nu dispunem de informaţii referitoare la volumul populaţiei statistice (N = nr. de clienţi ai
băncii) considerăm sondajul realizat ca fiind simplu repetat.
Erorile specifice acestui tip de sondaj sunt:
 Eroarea standard (eroarea medie probabilă):
s 20
sx    2.5 .
n 8
Eroarea de estimaţie (eroarea limită, eroarea maximă admisă)
 x  z / 2  s x  1.96  2.5  4.9  5 min.
Timpul mediu de realizare a operaţinilor bancare, pentru o probabilitate de 95%, este
cuprins între 27 şi 37 de minute.

24
Exemple

Exemplul 2. Un eşantion de 200 de specialişti în domeniu au fost rugaţi să analizeze şi să formuleze


aprecieri asupra noului pachet legislativ din domeniul sănătăţii supus dezbaterii publice. Rezultatele
sistematizate sunt:
Opinia Excelent Bun Satisfăcător Slab
Număr de răspunsuri 45 80 64 11
Estimaţi proporţia specialiştilor care apreciază noul pachet legislativ ca fiind cel puţin bun, pentru un nivel
de semnificaţie de 5%.
Rezolvare:

Pentru determinarea proporţiei specialiştilor care apreciază noul pachet legislativ ca fiind cel puţin bun,
transformăm variabila categorială nealternativă „opinia” într-o variabilă alternativă de tipul:
Opinia Număr de răspunsuri
Cel mult satisfăcător (slab+satisfăcător) 75
Cel puţin bun (bun+excelent) m = 125
Total n = 200

În cazul unei variabile categoriale alternative intervalul de încredere este: f   f  p  f   f .

Media şi dispersia variabilei alternative a cărei stare favorabilă este definită de aprecierea noului pachet
legislativ ca fiind cel puţin bun sunt:

m 125
f    0.625 (62,5%); s 2f  f (1  f )  0.625  0.375  0.234
n 200
Întrucât nu dispunem de informaţii referitoare la volumul populaţiei statistice (N = nr. total de
specialişti din domeniu) considerăm sondajul realizat ca fiind simplu repetat.

25
Exemple
Erorile specifice acestui tip de sondaj sunt:
 Eroarea standard (eroarea medie probabilă):
f (1  f ) 0.234
sf    0.034
n 200

 Eroarea de estimaţie (eroarea limită, eroarea maximă admisă)


 f  z / 2  s f  1.96  0.034  0.067

Intervalul de încredere pentru proporţiei specialiştilor care apreciază noul pachet legislativ ca fiind
cel puţin bun este:
0.625  0.067  p  0.625  0.067
0.558  p  0.692
Aşadar, proporţia specialiştilor care apreciază noul pachet legislativ ca fiind cel puţin bun este este
cuprinsă între 55,8% şi 69,2%, pentru un nivel de semnificaţie de 5%.

26

S-ar putea să vă placă și