Documente Academic
Documente Profesional
Documente Cultură
011-038 Cap 1. Inferentiala
011-038 Cap 1. Inferentiala
ELEMENTE DE PROBABILITI
I INFEREN STATISTIC
Definiie. n statistica descriptiv o populaie statistic este o mulime finit de obiecte (indivizi sau uniti
statistice) care constituie obiectul unui studiu i ale crei elemente posed mai multe caracteristici comune.
Definiie. O variabil aleatoare este o funcie definit asupra ansamblului rezultatelor posibile ale unei
experiene aleatoare, astfel nct s fie posibil s determinm probabilitatea ca ea s ia o anumit valoare dat
sau s ia o valoare situat ntr-un anumit interval.
La origine, o variabil era o funcie de ctig care reprezenta ctigul obinut ca rezultat al unui joc.
De exemplu, presupunem c un juctor lanseaz un zar i ctig 10 lei dac obine ase i pierde 2 lei dac
obine alt rezultat. Se poate defini o variabil aleatoare a ctigului care asociaz valoarea 10 rezultatului
ase i valoarea -2 oricrui alt rezultat. n aplicaii, variabilele aleatoare sunt utilizate pentru a modela
rezultatul unui mecanism nedeterminist sau al unei experiene nedeterministe care genereaz un rezultat
aleator.
Definiie. Inferena statistic const n a induce caracteristicile necunoscute ale unei populaii pornind de la
un eantion extras din acea populaie. Caracteristicile eantionului (cunoscute) reflect cu o anumit marj de
eroare pe cele ale populaiei.
unde x1 , x2 ,..., xn reprezint valori numerice. Fie pi probabilitatea de realizare a fiecrui eveniment
(rezultat).
Definiie. Numim variabil aleatoare o aplicaie f care asociaz fiecrui eveniment elementar un numr xi .
Definiie. Legea de probabilitate a variabilei discrete X este mulimea de cupluri ( xi , pi ) unde xi I este un
11
x1 ... xi ... xn
X :
p1 ... pi ... pn
n
unde pi Pr( X xi ) i p
i 1
i 1.
xi
Definiie. Fie X : o variabil aleatoare. Dac pentru orice numr real x notm cu F ( x)
pi i !,n
atunci funcia F definit prin aceast egalitate se numete funcia de repartiie a variabilei aleatoare X.
Legea Bernoulli
Admite dou valori posibile: 0 i 1, cu probabilitile de realizare q i respectiv p. Se noteaz de obicei cu 1
cazul favorabil.
0 1
Z ( p ) :
q p
Deoarece q p 1 , cunoatera lui p este suficient pentru caracterizarea variabilei. Momentele centrate i
necentrate pn la ordinul 2 se deduc uor:
E ( Z ) 0q 1 p p
V ( Z ) E ( Z 2 ) E ( Z ) p p 2 pq
2
O astfel de distribuie apare n experiene de tipul: cumpr/ nu cumpr un anumit produs, votez/ nu votez un
anumit candidat, etc.
Legea Binomial
O variabil binomial este suma a n variabile Bernoulli independente i de acelai parametru p.
X ( n, p ) Z1 ( p ) Z 2 ( p ) ... Z n ( p )
p1 Pr( X 1) pq n 1
..
pk Pr( X k ) Cnk p k q nk
...
12
pn Pr( X n) p n
Pentru calculul varianei ne folosim de faptul c variabilele Z i sunt independente, deci variana sumei este
egal cu suma varianelor:
V ( X ) V ( Z1 Z 2 ... Z n ) V ( Z1 ) V ( Z 2 ) ... V ( Z n ) npq
13
Legea Poisson
Se mai numete i legea evenimentelor rare. Este des ntlnit n teoria irurilor de ateptare. O variabil
Poisson admite ca valori numere ntregi pozitive, cu probabilitile de apariie a strilor conform relaiei:
k
Pr( X k ) e
k!
unde este un parametru pozitiv. Sub form general, o variabil ce urmeaz o distribuie Poisson se poate
scrie:
k
X ( ) :
k
e
k! k 0 ,1,...,
p
k 0
k 1
Pentru a ajunge la aceste relaii trebuie utilizat funcia generatoare de momente, care nu a fost definit n
aceast lucrare (pentru detalii, a se vedea Florea & colab., 2000).
Legea geometric
14
O variabil este distribuit dup o lege geometric dac admite ca valori numere naturale nenule, cu
probabilitile de apariie egale cu:
Pr( X k ) pq k 1
unde p, q 0 , 1 , iar p q 1 . Suma probabilitilor este egal cu 1 (se poate demonstra c pq k 1
1 ).
k 1
Folosind funcia generatoare de momente (vezi Florea & colab., 2000) se obine:
1
E( X )
p
q
V (X )
p2
Pentru a caracteriza total o distribuie geometric este suficient cunoaterea unuia din cei doi parametri, p
sau q.
Legea hipergeometric
Presupunem o populaie de volum N , mprit n dou subpopulaii de volum N1 i respective N 2 . Dac
din populaia iniial se fac n extracii fr revenire, atunci numrul k de uniti din cele extrase care aparin
primei subpopulaii este o variabil hipergeometric. O variabil hipergeometric admite ca valori posibile k
numere ntregi, probabilitile fiind date de formula:
C Nk 1 C Nn2 k
Pr( X k )
C Nn
k
C k C n k
H ( N , n, p ) : N1 N 2
Cn
N k 1, 2,...
C Nk 1 C Nn2 k
Pentru a explicita probabilitatea Pr( X k ) , observm c la numitor avem numrul total de cazuri
C Nn
k nk k
posibile, respectiv C Nn . Numrul de cazuri favorabile este C N1 C N 2 , deoarece celor C N1 moduri de a alege
n k
k uniti din cele N1 li se asociaz C N 2 moduri de a alege restul de n k uniti din cele N 2 .
Fr demonstraie dm expresiile speranei matematice i varianei (se deduc din funcia generatoare de
momente):
E ( X ) np
15
N n
V ( X ) npq
N 1
1 2 k n 1
0 ... ...
X : n n n n
1 1 1
...
1
...
1
n n n n n
Prin uoare artificii de calcul (vezi Florea & colab., 2000) se obine:
n 1
E( X )
2n
(n 1)(n 1)
V (X )
12n 2
Atunci funcia F ( x) definit n acest mod se numete funcia de repartiie a variabilei aleatoare X.
Cele mai importante proprieti ale funciei de repartiie F ( x) sunt:
1) F ( x) este o funcie continu
2) F ( x) este o funcie nedescresctoare
3) 0 F ( x) 1 , x R
4) xlim F ( x) 0 i lim F ( x) 1
x
16
Definiie. O funcie f (x ) este densitate de probabilitate a unei variabile X , dac ndeplinete condiiile:
1) f ( x) 0 , x D (n toate punctele care nu sunt n domeniul de definiie a lui X )
2) f ( x) 0 , x D (n toate punctele din domeniul de definiie a lui X )
3) f ( x ) dx 1
Ca i n cazul variabilelor discrete, i variabilele continue sunt caracterizate de nite valori caracteristice. Cel
mai des ntlnite sunt sperana matematic i variana.
Legea exponenial
O variabil aleatoare continu X urmeaz legea de distribuie exponenial dac funcia sa de distribuie are
expresia:
1 e x dac x 0
F(X )
0
dac x 0
17
unde este un parametru real pozitiv.
care exprim probabilitatea ca variabila X s ia valori mai mici dect x. Densitatea de probabilitate f (x) , ca
derivat a distribuiei de probabilitate ia urmtoarea expresie:
1 2
f ( x) e x / 2 dt
2
0,5
0
0
18
1 1
Legea normal
O variabil aleatoare continu Y este o variabil normal, dac Y X m , unde X este o variabil normal
centrat i redus, R , iar m R .
E (Y ) E (X m) E ( X ) m m
V (Y ) V (X m) 2V ( X ) 2
Figura 1.6 Densitile de probabilitate ale unor variabile normale de diverse medii i variane
Legea log-normal
19
O variabil aleatoare Z de forma:
Z eY
este o variabil log-normal dac Y este o variabil normal de medie m i de varian 2 . Astfel, Z este o
variabil log-normal dac logaritmul natural al acesteia (adic ln(Z ) ) este o variabil normal.
2 2
E ( Z ) E (eX m ) e m E (eX ) e m e /2
e m /2
2 2
V ( Z ) e 2 m e (e 1)
Legea hi-patrat
Dac avem un ir U i , unde :
2
Xi m
U i2 , i 1, n
Legea Student
O variabil Student este raportul dintre o variabil normal centrat i redus (U) i rdcina patrat a unei
variabile 2 cu grade de libertate divizat prin numrul gradelor de libertate:
20
U
t
2 ( )
Legea Fisher-Snedecor
O variabil Fisher-Snedecor este raportul dintre dou variabile 2 divizate prin numrul gradelor lor de
libertate:
2 ( 1 ) / 1
F
2 ( 2 ) / 2
Definiie. Un ir de variabile aleatoare converge n probabilitate spre un numr a, dac fiind date i
dou numere arbitrar alese mici este posibil s gsim un numr N ( , ) astfel nct:
n N ( , ) P X n a
Pentru demonstraia acestei teoreme (bazat pe inegalitatea lui Bienaym-Cebev), un exemplu (legea slab
a numerelor mari), convergena n medie patratic i alte noiuni legate de convergena n probabilitate a se
consulta de exemplu Florea & colab. (2000).
X n t converge ctre X t :
21
Fn ( x) F ( x) L
n
X n X F ( x ), X t
X n t X t n
n
Convergena funciei de repartiie este echivalent cu convergena funciei generatoare de momente (nu
prezentm aici demonstraia).
Exist cteva cazuri particulare de convergen de la legi discrete la alte legi discrete, de la legi
discrete la legi continue sau de la legi continue la alte legi continue. Prezentm sintetic n tabelul urmtor
cteva cazuri mai des utilizate n practic (pentru unele demonstraii, a se vedea Florea & colab., 2000).
Figura 1.8 Convergena distribuiei binomiale (n=70, p=0.3) spre o distribuie normal
22
Figura 1.9 Convergena distribuiei Poisson ( 30 ) spre o distribuie normal
Se observ c distribuiile sunt aproape simetrice n jurul mediei, ceea ce nu este cazul i pentru distribuiile
binomiale cu valori mici ale lui n sau respectiv distribuiile Poisson cu valori mici ale lui (vezi figurile 1.1
i 1.3).
Proporia de eantionare
Teorem. Fie o populaie distribuit de tip Bernoulli n raport cu variabila X. Parametrul p reprezint
proporia elementelor din populaie pentru care X 1 . Proporia elementelor din eantionul de volum n,
respectiv p converge cnd n ctre o variabil aleatoare normal de parametri:
E ( p ) p
1
V ( p ) p (1 p )
n
Pentru demonstraia teoremei, a se vedea de exemplu Florea & colab., 2000.
Media de eantionare
Teorem. Fie o populaie distribuit normal n raport cu variabila X, de parametri E( X ) X i respectiv
V ( X ) X2 din care se extrage un eantion aleator de volum n. Media de eantionare obinut prin
1
X ( X 1 X 2 ... X n ) este o variabil aleatoare normal de parametri:
n
E ( X ) X
2
V ( X ) X
n
23
Acest rezultat se poate extinde i pentru o populaie distribuit dup o lege oarecare n raport cu X, de
parametri E( X ) X i respectiv V ( X ) X2 .
Variana de eantionare
Teorem. Sperana matematic a varianei de eantionare este egal cu variana variabilei n populaie minus
variana mediei de eantionare:
X2 n 1 2
E ( X2 ) X2 X
n n
Pentru demonstraia teoremei, a se vedea de exemplu Florea & colab., 2000.
n tiinele sociale n general i n economie n particular, observarea unei populaii ntregi este foarte rar.
Observarea se face la nivel de eantion iar rezultatele se extrapoleaz la ntreaga populaie din care acesta a
fost extras. Caracteristicile populaiei sunt descrise de ctre diveri parametri: media variabilei ( X ), variana
( X2 ), mediana M e ( X ) , etc. Toi aceti parametri (notm sub form general ) sunt observai la nivel de
eantion i prin inferena statistic sunt extrapolai la nivelul populaiei.
Definiie. Estimatorul unui parametru necunoscut al unei populaii este o variabil de eantionare care
depinde i de parametrul respectiv:
f X 1 ( ), X 2 ( ),..., X n ( )
Definiie. O estimaie punctual a unui parametru este valoarea numeric a estimatorului corespunztoare
unui eantion particular ( x1 , x2 ,..., xn ) .
Definiie. Eroarea de estimare a unui parametru este diferena dintre estimatorul acestuia i parametrul
, respectiv variabila aleatoare .
24
Definiie. Un estimator al lui este absolut corect dac sunt satisfcute condiiile:
E ()
lim V () 0
n
aceeai parametri i 1, n . Ca urmare, media de eantionare X fiind o funcie liniar de variabile normale
X X
este i ea normal, cu E ( X ) X . n consecin, variabila Z este normal, centrat i redus.
X
(z ) 1
/2 /2
z 0 z
25
1 n
s X2 ( X i X ) 2
n 1 i 1
Ca urmare, variabila:
X X
t
X2
este distribuit dup o lege Student cu n 1 grade de libertate. Rezult astfel intervalul:
t
Pr( t t t ) f (t , )dt 1
t
unde f (t , ) este densitatea de probabilitate a variabilei t . nlocuind expresia lui t , intervalul devine:
Pr( X t X X X t X ) 1
este distribuit dup o lege 2 cu n 1 grade de libertate. n acest caz este posibil s gsim dou valori
de unde rezult:
n n
(X i X ) 2 (X i X ) 2
Pr i 1
X2 i 1 1
12 22
Testele de semnificaie constau n verificarea egalitii unui parametru cu o valoare dat. Se poate testa
semnificaia unei medii, proporii, variane, etc.
26
H 0 : X x0
H 1 : X x0
Dac din populaie s-au efectuat n extrageri independente, avem variabila de eantionare:
1
X ( X 1 X 2 ... X n )
n
Se pot deduce astfel:
1
E ( X ) E ( X 1 X 2 ... X n ) X
n
2
1
V ( X ) V ( X 1 X 2 ... X n ) X
n n
X2
Ca urmare X se distribuie normal, de medie X i de varian . Testarea ipotezei H 0 se face n funcie
n
a) X2 cunoscut
Variabila Z este normal, centrat i redus:
X x0
Z N (0,1)
X
n
Dac ipoteza H 0 este adevrat, atunci exist un prag de semnificaie cruia s-i corespund o valoare
tabelat z astfel nct Z z cu o probabilitate P 1 . Regula de decizie a testului devine:
- dac Z z acceptm H 0 , adic X nu este diferit statistic fa de x0 (cu un prag de semnificaie );
- dac Z z acceptm H 1 i respingem H 0 , adic X este diferit statistic fa de x0 (cu un prag de
semnificaie ).
b) X2 necunoscut
1 n
s X2 ( xi X ) 2
n 1 i1
X X
t S n 1
sX
n
Nu mai este o variabil normal, ci una Student, cu n 1 grade de libertate. Dac ipoteza nul este
adevrat, atunci:
27
X x0
t
sX
n
este tot o variabil Student cu n 1 grade de libertate.
Dac ipoteza H 0 este adevrat, atunci exist un prag de semnificaie cruia s-i corespund o valoare
tabelat t , astfel nct t t , cu o probabilitate P 1 . Regula de decizie a testului devine:
- dac t t , acceptm H 0 , adic X nu este diferit statistic fa de x0 (cu un prag de semnificaie );
- dac t t , acceptm H 1 i respingem H 0 , adic X este diferit statistic fa de x0 (cu un prag de
semnificaie ).
H 1 : p p0
Dac din populaie s-au efectuat n extrageri independente, se vor extrage variabilele X i independente, de
acelai parametru p. Avem proporia de eantionare:
1
p ( X 1 X 2 ... X n )
n
1
E ( p ) E ( X 1 ) E ( X 2 ) ... E ( X n ) np p
n n
V ( p )
1
2
V ( X 1 ) V ( X 2 ) ... V ( X n ) np(1 2 p) p(1 p)
n n n
Conform criteriilor de convergen, dac n este mare proporia de eantionare va fi distribuit (asimptotic)
spre o lege normal:
p (1 p )
p N p,
n
semnificaie ).
28
29