Sunteți pe pagina 1din 16

Estimarea parametrilor populatiei.

Intervale de incredere

Populatie:
M(X) sau X x Esantion
σ2
p S2
w

Inferenta statistica
 xi este o variabilă aleatoare căreia i se poate stabili legea de
distribuţie.

 dacă volumul eşantionului este suficient de mare media de


sondaj urmează o distribuţie normală a cărei medie este chiar
media populaţiei totale.
n
M(x i )  X  xi  X  0
i 1
 Dispersia mediilor de sondaj în jurul mediei din populaţia totală
este egală cu raportul dintre dispersia din populaţia totală
2 şi
volumul eşantioanelor de aceeaşi mărime n: 2
σ
σ xi 
n
 σ Se numeste eroare de reprezentativitate
σx 
i
n
S
 σx  Daca nu se cunoaste dispersia in populatie
i
n
0,025

X
1.96  x 1.96  x

1.96  x x 1.96  x

Intervalul de incredere al unui parametru =un interval de valori care ne


asteptam sa includa si parametrul din populatie. Punctele limita ale
intervalului sunt calculate pe baza datelor din esantion
În practică însă nu procedăm la extragerea tuturor eşantioanelor posibile şi ne mulţumim cu un
singur eşantion construit cu respectarea cât mai riguroasă a unor anumite condiţii. În acest caz, media
eşantionului se poate abate mai mult sau mai puţin de la media populaţiei, fapt ce determină
necesitatea indicării unui interval de încredere despre care se poate afirma cu o probabilitate sau
siguranţă cunoscută că acoperă valoarea mediei din colectivitatea totală. Limitele intervalului de
încredere, cea minimă iinf şi cea maximă sup se calculează în funcţie de datele de sondaj x1 , x2 , …, xn
astfel încât, cu un grad mare de siguranţă, garantat de probabilitatea 1- pentru parametrul populaţiei,
 
se îndeplineşte relaţia: P  inf  X   sup  1      z 
Intervalul  , sup  reprezintă intervalul de încredere şi defineşte precizia estimaţiei.
inf

Probabilitatea (1- ) caracterizează siguranţa cu care se afirmă că intervalul de încredere cuprinde


valoarea parametrului populaţiei. Cu cât intervalul  inf , sup  este mai mic şi probabilitatea (1- ) mai

mare cu atât avem o estimaţie mai precisă cu privire la valoarea parametrului. Intervalul  inf , sup 
este o mărime aleatoare, limitele sale fiind dependente de datele fiecărei selecţii, motiv pentru care,
pentru o aceeaşi populaţie, valorile limitelor variază de la o selecţie la alta atât ca mărime cât şi ca
poziţie.
La construirea estimaţiilor, un rol important, pe lângă nivelul de siguranţă, îl joacă mărimea
intervalului de încredere. Cele două mărimi se află într-o relaţie de corespondenţă bine determinată.
Dacă eroarea de sondaj se distribuie după legea normală atunci erorile egale în valoare absolută cu
probabilităţile de apariţie şi pentru acelaşi volum al eşantionului probabilistic ce alcătuiesc intervale
 
 inf , sup se pot separa în două părţi egale iar jumătatea intervalului este eroarea limită admisă.
Precizia estimaţiei, probabilitatea de încredere şi intervalul de încredere se discută pe baza
inegalităţii lui Cebîşev, prin care se demonstrează că media de sondaj x pentru un volum mare al
eşantionului converge în probabilitate către X 0 media populaţiei, ceea ce semnifică faptul că x este
un estimator corect al mediei populaţiei (nedeplasat, consistent şi eficient). Siguranţa estimării este
dată de probabilitatea cu care este îndeplinită inegalitatea:
x  X      z  unde   0, suficient de mic .
Această probabilitate este dată dinainte şi este foarte apropiată de unitate.

P x X      z 
sau P x    X  x       z ¤ (4. 1.1.)
Intervalul  x   , x    care acoperă parametrul X cu o probabilitate   z  se numeşte
interval de încredere . În vederea stabilirii expresiei intervalului de încredere pentru media X trebuie
definită variabila de sondaj:
xX
z unde  x este eroarea medie de reprezentativitate. Din relaţia 4.1.1 avem:
x

P xX    P    x  X  
  xX 

P   
   2   

 x x x  
   x 

unde  z    z   x   x reprezintă eroarea limită maximă admisă.
x
Estimarea parametrilor populaţiei totale pe baza valorilor de sondaj
Sondaj simplu aleator cu revenire
Pentru estimarea mediei populaţiei se porneşte de la estimatorul media de sondaj şi eroarea limită
maximă admisă calculată pe baza erorii de reprezentativitate în funcţie de tipul sondajului
σ
aplicat: x   x  X  x  x unde  x  z  x ; σ x 
i
n

Uneori trebuie estimată pornind de la datele sondajului valoarea caracteristicii agregate pe întreaga
N
populaţie  X i  NX . Înmulţind fiecare membru al inegalităţii cu N obţinem: N (x   x )  N  X  N (x   x )
i 1

Pentru estimarea unei proporţii se porneşte de la estimatorul w proporţia celor din eşantion ce
îndeplinesc caracteristica şi eroarea limită maximă admisă ce depinde de eroarea de reprezentativitate şi
probabilitatea de garantare a rezultatelor.
p(1  p) w(1  w)
w  w  p  w  w . Unde w  z   w w  
n n

Pentru estimarea dispersiei populaţiei . se utilizează ca estimator al acesteia, dispersia de sondaj


calculată pe baza valorilor x i cu i= 1,…,n.
n
 ( xi  x ) 2
S2  i 1
estimatorul dispersiei
n

 4   22
S 
2 eroarea de reprezentativitate
n

 4   22
 S2  z  S2  z  eroarea limita
n

S 2  S2   2  S 2  S2 intervalul de incredere


Estimarea parametrilor populaţiei totale pe baza valorilor de sondaj
Sondaj simplu aleator cu fara revenire
Pentru estimarea mediei populaţiei se porneşte de la estimatorul media de sondaj şi eroarea limită
maximă admisă calculată pe baza erorii de reprezentativitate în funcţie de tipul sondajului
σ  n
aplicat: x   x  X  x  x unde  x  z  x ; σ x  1  
i
n  N

Uneori trebuie estimată pornind de la datele sondajului valoarea caracteristicii agregate pe întreaga
N
populaţie  X i  NX . Înmulţind fiecare membru al inegalităţii cu N obţinem: N (x   x )  N  X  N (x   x )
i 1

Pentru estimarea unei proporţii se porneşte de la estimatorul w proporţia celor din eşantion ce
îndeplinesc caracteristica şi eroarea limită maximă admisă ce depinde de eroarea de reprezentativitate şi
probabilitatea de garantare a rezultatelor.
p(1  p)  n w(1  w)  n
w  w  p  w  w . Unde w  z  w w  1    1  
n  N n  N

Pentru estimarea dispersiei populaţiei . se utilizează ca estimator al acesteia, dispersia de sondaj


calculată pe baza valorilor x i cu i= 1,…,n.
n
 ( xi  x ) 2
S2  i 1
estimatorul dispersiei
n

 4   22  n 
S2  1   eroarea de reprezentativitate
n  N

 4   22
 S2  z  S2  z  eroarea limita
n

S 2  S2   2  S 2  S2 intervalul de incredere


Estimarea parametrilor populaţiei totale pe baza valorilor de sondaj
Sondaj de volum redus

Pentru o variabilă cantitativa relaţiile folosite sunt:

σ2
σx  2  n S2  n
n x   1     1   şi
n  N n 1  N 
S2
σx  .
n 1
Pentru o variabilă calitativă relaţiile folosite sunt: p (1  p )  n w(1  w)  n
w   1     1  
p (1  p ) w(1  w) n  N n 1  N 
w  
n n 1

Estimarea mediei din populaţia totală se realizează cu ajutorul relaţiei:


x   x  X  x   x pentru variabilă cantitativă şi
w   w  p  w   w pentru variabilă calitativă.
Sondajul in populatii neomogene.
Sondajul Stratificat

Populatii neomogene → imposibilitatea aplicarii SSA → esantionare stratificata

Avantajele stratificării:

1. Stratificarea asigură un grad mai mare de reprezentativitate şi de


precizie a rezultatelor.
  
2 2 2

2. Dacă stratificarea se realizează pe criterii geografice culegerea datelor


se poate face cu specialişti locali, reducând astfel costul. Mai mult, se
pot analiza şi interpreta datele iniţial pe fiecare strat şi ulterior pe
întreaga populaţie.
Problemele organizatorice
A. Criteriile de delimitare a straturilor : calitative:
cantitative.
Alegerea caracteristicilor după care se face stratificarea este foarte importantă.

B. Numărul straturilor

1. Fecare subeşantion constituit trebuie să aibă un număr suficient de mare de


unităţi astfel încât să permită estimarea mediei şi dispersiei fiecărui strat;
2. Populaţia este deja împărţită din punct de vedere administrativ în subpopulaţii
pentru care putem obţine cu uşurinţă baze de sondaj pentru fiecare strat;
3. sporul preciziei adus de un număr mare de straturi să nu fie anihilat de
creşterea cheltuielilor de resurse de timp, financiare şi umane.
C. Repartizarea eşantionului pe straturi
1. neproporţional obţinându-se un sondaj stratificat neproporţional sau
simplu;
2. proporţional respectându-se ponderea fiecărui strat în total populaţie
obţinându-se un sondaj stratificat proporţional;
3. ţinând cont atât de proporţia fiecărui strat în total cât şi de gradul de variaţie
al fiecărui strat obţinându-se un sondaj stratificat optim.
Volumul esantionului. Observatii

Volum mai mare de informatii (cunoaşterea gradului de variaţie pentru fiecare strat
pentru a putea calcula variaţia determinată de factorii întâmplători).
Dacă nu avem informaţii despre gradul de variaţie al fiecărui strat putem organiza o
anchetă pilot pe eşantioane de volum redus pentru a estima valoarea dispersiilor.

 
2 2
→ n SSA > n SSTR

TIP SONDAJ
Tip variabilă
SSAR SSAFR
z 2 2 z 2S 2
z 2 2 z 2S 2 n 
cantitativă n  z 2
 2
z S 2
 2
x 2x 2x  2x 
N N
z 2 p2 z 2S p2
z 2 p2 z 2 S p2 n 
alternativă n  z p
2 2
zS p2
 2
p 2p x 
2
x 
2

N N
Sondaj stratificat simplu (neproporţional)

A) pentru caracteristicile cantitative.


Considerăm o populaţie „C” de volum N împărţită în „k” straturi.

C1 (X11, X21,….., XN11) C1 (x11, x21,….., xn11)


C2 (X12, X22,….., XN22) C1 (x12, x22,….., xn22)
…………………………………………………………………………………
Ck (X1k, X2k,….., XNkk) C1 (x1k, x2k,….., xnkk)

unde k este numărul de straturi


N1, N2,….. Nk, reprezintă volumul straturilor în populaţia totală şi
n1, n2,….. nk, reprezintă volumul straturilor în eşantion şi
Xij nivelurile caracteristicii cantitative.
Populaţie
N
S
T
R N1
A
T
Eşantion
1 n
k

x N
1
S
T n1 i i
R N2
A ~
x0  i 1
T k
2
n2
N i 1
i
1

S n3
T
R N3
A
T

k Nj

 X
i 1 j 1
ij
nj k
X0  k
x  ni
N  x ij
i 1 j 1 x0  i 1
i

k
x0  k

X i  Ni n n
i 1
i

X0  i 1
k

N i 1
i
Calculul erorilor de reprezentativitate sondaj stratificat neproportional

2 2
k
N i2  i k
N i2 S i N i2  i
k 2
 N i  ni  k 2
N i2 S i  N i  n i 
 x~   2    x~   2      
i 1 N n i  1
2
i 1 N n i i 1 N ni  Ni  1  i 1 N n i  1  N i  1
2

Pentru simplificarea relaţiilor de calcul în cazul în care subeşantioanele sunt de volum normal
nu se justifică împărţirea la ni-1 faţă de cea la ni. Totodată, dacă volumul fiecărui strat Ni este
suficient de mare numitorul coeficientului de corecţie poate rămâne Ni în loc de Ni-1.

Dacă prezintă interes şi analiza pe fiecare strat în parte

2 2
i Si
 xi  
ni ni  1
N i2 2
k
 x~   2  xi
i 1 N
2 2
 i  N i  ni  Si  N  ni 
 xi       i 
n i  N i  1  ni  1  Ni  1 
Sondaj stratificat proportional
k k

n1 n 2 n n n i
n x i  ni
  .... i ....  k   x~0 
i 1 i 1
k
N1 N 2 Ni Nk N k
 Ni
i 1 n i
i 1
2 2
k
ni2  i k
ni2 S i ni2  i  N i  ni 
2
ni2 Si  N i  ni 
2
 ~x   2 
k k
  ~x   2
i 1 n ni i 1 n ni  1
2
i 1 n

ni  N i  1 
    
i 1 n ni  1  N i  1 
2

Dacă prezintă interes şi analiza pe fiecare strat în parte

2 2
i Si
 xi  
ni ni  1
ni2 2
k
 ~x   2  xi
i 1 n
2 2
 i  N i  ni  Si  N  ni 
 xi       i 
n i  N i  1  ni  1  Ni  1 
Avantajele sondajului stratificat proporţional faţă de cel neproporţional

1. se evită riscul de a subevalua în eşantion straturile mai mari;


2. se măreşte gradul de precizie al estimaţiei faţă de stratificarea
neproporţională.

Sondaj stratificat optim


k

n1 n2 ni nk n i
  ...   ....   i 1

N1   1 N 2   2 Ni   i Nk   k k

N
i 1
i  i
N i i
ni  k
n
N 
i 1
i i

Erorile de reprezentativitate vezi sondajului neproporţional

S-ar putea să vă placă și