Sunteți pe pagina 1din 41

BAZELE STATISTICII

- anul universitar 2021-2022 -


Programa analitică

1. Noţiuni introductive
2. Analiza unei serii statistice unidimensionale, folosind
metode grafice şi numerice (variabile cantitative:
indicatori ai tendinţei centrale, indicatori ai dispersiei
şi indicatori ai formei; variabile calitative).
3. Analiza unei serii statistice bidimensionale.
Programa analitică
4. Probabilităţi şi distribuţii teoretice
5. Estimarea parametrilor unei populaţii
6. Testarea statistică
7. Indicatori ai seriilor de timp
6. Estimarea parametrilor unei
populaţii
6.1. Concepte fundamentale
a) Populaţie - Eşantion
— O populaţie statistică este definită prin precizarea
naturii sale, a caracteristicilor intrinseci, spaţiului şi
timpului.

— Un eşantion reprezintă o sub-populaţie sau un sub-


ansamblu extras din populaţia de referinţă după o
procedură anume.
6. Estimarea parametrilor unei
populaţii

b) Sondajul aleator simplu repetat


— Sondajele aleatoare permit calcularea a priori a
probabilităţii fiecărei unităţi din populaţie de a
aparţine eşantionului.
— Un sondaj aleator simplu repetat presupune ca
fiecare unitate din populaţie să aibă aceeaşi
probabilitate de a fi inclusă în eşantion.
n
— Aceasta este p = .
N
6. Estimarea parametrilor unei populaţii

c) Numărul de eşantioane care se pot extrage


- în cazul eşantionării aleatoare repetate:
k=Nn
De exemplu, dacă dintr-o populaţie de adultă de 240.000
de persoane, se doreşte extragerea unui eşantion de 800 de
persoane, atunci, din populaţie se pot extrage un număr de
240.000800 = 1,47e4304 eşantioane de 800 de persoane.
- în cazul eşantionării aleatoare nerepetate:
k = C Nn = C240000
800
6. Estimarea parametrilor unei populaţii
6.2. Parametru – Estimator – Estimaţie
Parametrul ( q ) reprezintă o valoare fixă şi
necunoscută, numită şi valoare reală sau adevărată, a
unei populaţii studiate după o anumită variabilă.
Parametrii se vor nota cu litere greceşti: µ, σ2, σ, π.
Estimatorul ( qˆ ) este o statistică, adică o variabilă
aleatoare care este determinată de totalitatea
eşantioanelor posibile de volum n care se pot extrage
din populaţia de referinţă. Estimatorul este definit ca
o funcţie a variabilelor de selecţie.
Estimatorii se notează astfel:
µˆ , sˆ 2 , sˆ , pˆ .
6. Estimarea parametrilor unei
populaţii
— Estimaţia este o valoare realizată dintre valorile
posibile ale estimatorului.
— O estimaţie se obţine la nivelul unui eşantion extras,
pe baza datelor culese.
Notații
Construirea unei distribuții de selecție

Distribuția unui estimator se numește distribuție de selecție.


Construirea distribuției de selecție a mediei

Exemplu:
Un grup de studiu la Bazele Statisticii are șase
studenți (N=6), cu vârstele: 18, 18, 19, 20, 20, 21.
Vom construi distribuția de selecție a mediei de
vârstă pentru eșantioane de 2 studenți (n = 2).

— În primul rând, extragem toate cele k eșantioane


de volum n = 2 și calculăm mediile de vârstă
pentru toate eșantioanele.
k=N =6 =36
n 2
Distribuția mediei de selecție
Pe măsură ce crește volumul eșantionului, se reduce varianța estimatorului.
6. Estimarea parametrilor unei populaţii

Proprietăţile estimatorilor
— De regulă, există o diferenţă între estimaţie şi
parametru, care reprezintă o eroare de estimare.
— Această eroare poate fi măsurată cu ajutorul
proprietăţilor estimatorilor:

1. Nedeplasarea

M (qˆ) = q
6. Estimarea parametrilor unei populaţii

2. Convergenţa:

V (qˆ) ® 0, când n ® N
- convergenţa în probabilitate impune o condiţie de
volum al eşantionului: dacă acesta este suficient de
mare, atunci orice valoare posibilă a estimatorului
(orice estimaţie) converge către parametru.
Această proprietate este o expresie a legii numerelor
mari.
6. Estimarea parametrilor unei populaţii

- convergenţa în repartiţie (teorema limită centrală)


impune o condiţie de volum pentru estimatorul
transformat prin operaţia de standardizare:
~ qˆ - M ( qˆ )
qˆ =
V ( qˆ )
Dacă volumul eşantionului creşte peste o anumită limită,
atunci variabila aleatoare obţinută prin standardizarea
estimatorului urmează o lege de repartiţie normală
standard:
~
qˆ ¾¾® Z ~ N ( 0 ,1 )

3. Eficienţa:

V ( qˆ ) = min .
6. Estimarea parametrilor unei populaţii

6.3. Statistici uzuale în inferenţa statistică

a) Media de selecţie µ̂
— Estimatorul numit medie de selecţie este obţinut ca
o medie aritmetică a variabilelor aleatoare de
selecţie Xi.
— O valoare posibilă a estimatorului este media de
sondaj.
— Variabila media de selecţie se caracterizează prin
legea normală - teorema limită centrală bazată pe
legea numerelor mari. s2
µˆ ~ N ( µ , )
n
Exemplu. X:{18, 18, 19, 20, 20, 21}

— µ=19.33, σ2=1.21

— M ( µˆ ) = 19.29

s
— s µˆ = = 0, 78
n

— V ( µˆ ) = s µ2ˆ = 0.61
Observații importante
— Nedeplasarea și convergența estimatorilor sunt extrem de
importante. Deplasarea estimatorului afectează acuratețea
estimării, iar neîndeplinirea proprietății de convergență
afectează precizia estimării.
— Precizia și acuratețea sunt metodele prin care cercetătorii
evaluează eroarea de estimare.
— Acuratețea se referă la cât de apropiată este valoarea estimată
de valoarea adevarată a parametrului.
— Precizia se referă la cât de apropiate sunt măsuratorile
aceleiași variabile între ele, adică la cât de mică este varianța
unui sir de valori.
— Precizia este independentă de acuratețe. O mărime poate fi
acurată, dar imprecisă sau poate fi precisă, dar neacurată. Cele
mai bune mărimi sunt cele care sunt și precise, și acurate.
— O demonstrație clasică a diferenței dintre precizie și acuratețe
este cea în care se folosește trasul la țintă, de exemplu jocul de
darts.
— Centrul țintei este valoarea adevărată. Cu cât săgetile sunt mai
apropiate de centru, cu atât avem o acuratețe mai mare. Cu cât
săgețile sunt mai aproape unele de altele, cu atât precizia este
mai mare.
— Dacă săgețile sunt departe de centru și unele de altele, nu avem
nici acuratețe, nici precizie (Fig. A).
— Dacă săgețile sunt foarte apropiate între ele, dar departe de
centru, avem precizie, dar nu avem, acuratețe (Fig. B).
— Dacă săgețile sunt la distanțe egale unele față de altele și
formează un cerc în jurul centrului, atunci se obține acuratețe
matematică, pentru că media lor dă centrul, adică avem
acuratețe, dar nu precizie. Totodată, asta înseamnă că nici una
dintre săgeti nu este exact pe centru (Fig. C).
— Dacă săgețile aterizează aproape de centru și sunt grupate
toate aproape ce centru, avem și precizie, și acuratețe (Fig. D).
6. Estimarea parametrilor unei populaţii

— Caracteristici ale estimatorului µ̂ :


- nedeplasat;
- convergent;
- eficient.

b) Dispersia de selecţie sˆ 2
- Este un estimator deplasat.
- Ca o corecţie la acest estimator, se construieşte
dispersia de selecţie modificată sau corectată. O
valoare posibilă a acestui estimator este dispersia de
sondaj modificată:
6. Estimarea parametrilor unei populaţii

1
s' 2 =
n -1
å i
( x - x )2

c) Proporţia de selecţie pˆ
- are aceleaşi proprietăţi cu media de selecţie.

p(1 - p )
pˆ ~ N ( p , )
n
6. Estimarea parametrilor unei populaţii
6.4 Estimarea punctuală a parametrilor unei
populaţii

a) Definire
- presupune calculul unei estimaţii la nivelul unui
eşantion, ca o valoare a unui estimator convenabil
ales, care respectă proprietăţile de nedeplasare şi
convergenţă.
b) Estimarea punctuală a mediei unei populaţii
c) Estimarea punctuală a proporţiei unei populaţii
6. Estimarea parametrilor unei populaţii
6.5 Estimarea prin interval de încredere (IC) a
parametrilor unei populaţii

a) Definire
- a estima prin IC un parametru presupune a
identifica două variabile aleatoare, Li şi Ls , care,
pentru o anumită probabilitate ( 1 - a ) , numită nivel
de încredere, respectă condiţia:

P( Li £ q £- Ls ) = ( 1 - a ) , cu a Î ( 0 ,1 )
6. Estimarea parametrilor unei populaţii

- estimarea prin IC se bazează pe estimatori nedeplasaţi şi


convergenţi, cărora li se aplică Teorema limită centrală.

b) Estimarea prin IC a mediei unei populaţii


- când se cunoaşte parametrul s :

s2
µˆ ~ N ( µ , ) Þ Z µˆ ~ N (0,1)
n
µˆ - µ µˆ - µ
Z µˆ = =
s µˆ s/ n
6. Estimarea parametrilor unei populaţii

µˆ - µ
P( - za / 2 £ £ + za / 2 ) = ( 1 - a )
s/ n

s s
P( µˆ - za / 2 £ µ £ µˆ + za / 2 ) = (1-a )
n n
6. Estimarea parametrilor unei populaţii
— la nivelul unui eşantion extras:

é s s ù
ê x - za / 2 , x + za / 2 ú
ë n nû

- când nu se cunoaşte parametrul s :


Variabila Z devine o variabilă Student:

µˆ - µ
t= ~ t (n - 1)
sˆ '
n
6. Estimarea parametrilor unei populaţii

P(-ta /2,n -1 £ t £ ta /2,n -1 ) = (1 - a )

- valoarea ta /2,v se citeşte din tabelul Student

é s' s' ù
ê x - ta /2, n -1 , x + ta /2, n -1 ú
ë n nû
Altfel spus,
6. Estimarea parametrilor unei populaţii

c) Estimarea prin IC a proporţiei unei populaţii

- când se cunoaşte varianţa variabilei alternative:


é sp sp ù
êp - za / 2
ˆ , p + za / 2
ˆ ú
ë n n û

- când nu se cunoaşte varianţa variabilei alternative:


é p (1 - p ) p (1 - p ) ù
ê p - ta /2,n -1 , p + ta /2,n -1 ú
êë n n úû
Exemplu 1

La nivelul unui eşantion format din 100 de


persoane, se înregistrează salariul lunar al
fiecărei persoane şi se obţine o medie de
1500 lei.
Ştiind că σ=300 lei, se cere să se estimeze
prin interval de încredere salariul mediu al
întregii populaţii din care a fost extras
eşantionul, considerând un risc de 0,05.
Rezolvare
𝑥̅ = 1500
𝜎 = 300
𝛼 = 0,05
𝑛 = 100

"
Intervalul de încredere pentru μ: 𝑥̅ ± 𝑧!⁄" .
#
1−𝛼
𝑧%$ este acel z pentru care 𝜙 𝑧 =
& 2
'(% '(),)+ ),,+
𝛼 = 0,05 ⟹ = = = 0,475, deci 𝑧!⁄" = 1,96
& & &
-))
𝐼. 𝐶.μ : 1500 ± 1,96 . ⟹ 𝐼. 𝐶.μ : 1500 ± 58,8
'))
⟹ 𝐼. 𝐶.μ : 1500 − 58,8; 1500 + 58,8
⟹ 𝐼. 𝐶.μ : 1441,2; 1558,8 𝑙𝑒𝑖

Interpretare IC: Garantăm cu o probabilitate de 95% că salariul


mediu la nivelul populației de reclame este acoperită de intervalul
[1441,2;1558,8] lei.
Exemplu 2
— Se cunoaşte distribuţia unui eşantion de
4 reclame difuzate într-o zi la radio după
durata in secunde a reclamei. Datele
înregistrate la nivelul esantionului sunt:
X: {2, 4, 6, 8}, pentru care , = 2,58 .
'
x = 5 s

Se cere să se estimeze punctual şi prin


interval de încredere durata medie a
reclamelor la nivelul populaţiei. Se
consideră un nivel de încredere de 95%
(1-α = 0,95).
Rezolvare
x =5
s ' = 2,58
α = 0,05
n=4

Estimare punctuală: μ = 5 secunde

Estimare prin interval de încredere:

(#
Intervalul de încredere pentru μ: 𝑥̅ ± 𝑡!⁄";%&' %
%
+,-. +,-.
𝐼. 𝐶.μ : 5 ± 𝑡$,$&)";*&' % ⟹ 𝐼. 𝐶.μ : 5 ± 𝑡/,/+-;0 %
* *
+,-.
⟹ 𝐼. 𝐶.μ : 5 ± 3,182 % ⟹ 𝐼. 𝐶.μ : 5 ± 4,1 ⟹ 𝐼. 𝐶.μ : 5 − 4,1; 5 + 4,1
*
⟹ 𝐼. 𝐶.μ : 0,9; 9,1 𝑠𝑒𝑐𝑢𝑛𝑑𝑒

Interpretare IC: Garantăm cu o probabilitate de 95% că durata medie a


reclamelor la nivelul populației de reclame este acoperită de intervalul [0.9, 9.1]
secunde.
Exemplu 3
— Pentru a estima proporţia şoferilor care
poartă centura de siguranţă când
conduc, s-a extras un eşantion de 150
de persoane şi s-a observat că 85 poartă
centură de siguranţă. Pentru o
încredere de 95%, să se estimeze
proporţia şoferilor care poartă centură
de siguranţă, la nivelul întregii
populaţii.
α = 0,05
n = 150, ncentură=85
p=85/150=0,56

Estimare punctuală: π = 56%

Estimare prin interval de încredere:


12 '&1
Intervalul de încredere pentru π : 𝑝 ± 𝑡!⁄";%&' %
%

/,-32 '&/,-3
𝐼. 𝐶.π : 0,56 ± 𝑡$,$&)";'//&' % ⟹ 𝐼. 𝐶.π : ?0,56 ± 𝑡/,/+-;44 %
'//

/,-32 '&/,-3
'//
@

/,-32/,**
⟹ 𝐼. 𝐶.π : 0,56 ± 1,96 % ⟹ 𝐼. 𝐶.π : 0,56 ± 0,07 ⟹
'//
𝐼. 𝐶.π : 0,56 − 0,07; 0,56 + 0,07
⟹ 𝐼. 𝐶.π : 0,49; 0,63 𝑠𝑎𝑢 𝐼. 𝐶.π : 49; 63 %

Interpretare IC: Garantăm cu o probabilitate de 95% că proporția, la nivelul


populației, a persoanelor care poartă centură de siguranță este acoperită de
intervalul [49, 63]%.
Estimarea prin IC în Excel
' Durata
Standard error este s
n
Mean 5
Standard Error 1,290994449
Standard deviation este s’
Median 5

Confidence level este marja de Mode #N/A


eroare, s' Standard Deviation 2,581988897
ta / 2,n -1 × Sample Variance 6,666666667
n
Kurtosis -1,2
Skewness 0
Range 6
Minimum 2
Maximum 8
Sum 20
Count 4
Confidence Level(95,0%) 4,108524368
Estimarea prin IC în SPSS

Descriptives Lower Bound este limita inferioara


Statistic Std. Error a intervalului de incredere
durata Mean 5,0000 1,29099
95% Confidence Lower Bound ,8915
Interval for Mean Upper Bound Upper Bound este limita
9,1085
superioara a intervalului de
5% Trimmed Mean 5,0000
Median
incredere
5,0000
Variance 6,667
Std. Deviation 2,58199 Deci, IC pt μ este:
Minimum 2,00 [0.8915; 9.1085] secunde
Maximum 8,00
Range 6,00
Interquartile Range 5,00
Skewness ,000 1,014
Kurtosis -1,200 2,619
6. Estimarea parametrilor unei populaţii
6.7. Calcularea volumului eşantionului (n)
— Pentru determinarea volumului eşantionului se
foloseşte, de regulă, ca variabilă de bază o variabilă
alternativă pentru a estima parametrul π, care, în
cazul unui sondaj de opinie electoral, poate fi
proporţia de voturi obţinute de un candidat.

— În practică, se fixează probabilitatea sau nivelul de


încredere, (1-α), cu care dorim să garantăm rezultatul
(de regulă, 0,95) şi eroarea maxim admisibilă Dp (de
exemplu, ± 3% ). Având aceste date, se poate calcula
volumul eşantionului care estimează, cu un anumit
nivel de încredere, parametrul π.
6. Estimarea parametrilor unei
populaţii
— Ştiind că:
sp
Dp = za / 2
n , unde:
D p este eroarea maximă admisibilă (marja de eroare), iar s p este
abaterea standard a variabilei alternative pentru care se estimează p
za2 / 2 × s p2
— Se află n: n=
Dp2

— Parametrul s p2 , care exprimă gradul de omogenitate al populaţiei, de


regulă nu se cunoaşte, însă în calculul volumului eşantionului se poate
utiliza valoarea lui maximă, care este egală cu 0,25.

S-ar putea să vă placă și