Documente Academic
Documente Profesional
Documente Cultură
Noţiuni generale
Orice cercetare statistică porneşte de la o colectivitate sau populaţie alcătuită din elemente
sau indivizi care au o caracteristică generală şi care se diferenţiază prin anumite atribute.
Elementele colectivităţii (populaţiei) se numesc unităţi.
În studiul colectivităţilor statistice, în majoritatea cazurilor suntem nevoiţi să studiem numai
părţi din întreaga colectivitate. Ori, în acest caz, se pune în mod natural întrebarea dacă concluziile
ce le obţinem concordă cu rezultatul ce l-am obţine dacă studiem întreaga populaţie. Apare astfel
problema de a studia modul în care valorile tipice (pe baza cărora tragem concluzii) ale colectivităţii
parţiale investigate pot furniza informaţii asupra valorilor tipice ale întregii colectivităţi.
Vom presupune, în cele ce urmează, că urmărim o anumită caracteristică a colectivităţii
generale şi că această caracteristică este descrisă de o variabilă aleatoare X definită pe un câmp de
probabilitate {Q, K, P}, în care elementele mulţimii Q sunt tocmai elementele colectivităţii
generale, K este un corp borelian de părţi ale lui Q, iar P este o probabilitate pe K.
După cum se ştie, dacă Q este finită, atunci K coincide cu mulţimea părţilor lui Q, iar P este
o repartiţie discretă uniformă pe Q.
Faptul că suntem obligaţi să cercetăm numai o anumită parte din populaţie este impus de
natura concretă a colectivităţii. Astfel, dacă numărul elementelor populaţiei este infinit, în mod
necesar nu putem cerceta decât un număr finit şi deci obţinem o informaţie trunchiată.
Dar, în cazul când numărul elementelor populaţiei este finit, atunci când cercetarea calităţii
elementelor conduce la distrugerea lor, evident că se impune alegerea unui număr finit pentru
cercetare.
Dacă ţinem seama de faptul că orice investigare (cercetare) implică şi anumite cheltuieli,
rezultă clar că suntem obligaţi să cercetăm numai o parte din populaţia totală.
Vom numi selecţie (eşantion) o colectivitate parţială de elemente alese la întâmplare.
Numărul elementelor dintr-o selecţie îl vom numi volumul selecţiei.
Spunem că o selecţie este repetată, dacă elementul ales la întâmplare este reintrodus în
colectivitatea generală înaintea efectuării următoarei alegeri.
Selecţia este nerepetată dacă, elementele alese nu se mai introduc în colectivitatea generală.
Să efectuăm deci o selecţie de volum n dintr-o colectivitate C şi să notăm cu xi, x2, ..., xn
valorile de observaţie. Acestea se referă la valorile unei variabile aleatoare X care dă legitatea
caracteristicii studiate.
Considerate aposteriori, valorile de selecţie x1, x2, ..., xn sunt valori bine determinate ale
variabilei aleatoare X.
Privite apriori, valorile X1, X2, Xn pot fi considerate ca variabile aleatoare independente,
identic repartizate cu variabila X, în cazul unei selecţii repetate.
Dacă selecţia este nerepetată, atunci variabilele X 1, X2, Xn sunt dependente, dependenţa fiind
de tipul lanţurilor cu legături complete.
Dacă volumul colectivităţii generale este suficient de mare iar volumul selecţiei este
suficient de mic, deosebirea dintre o selecţie repetată şi una nerepetată este nesemnificativă şi, ca
atare, în aplicaţiile practice o selecţie nerepetată se tratează după metodele selecţiei repetate.
Estimaţii
Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute.
Valorile numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul
în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor
de încredere în cazul în care se determină un interval în care se află, cu o anumită probabilitate
valoarea estimată.
0
Un estimator al parametrului se va nota cu ˆ . O estimaţie este nedeplasată dacă
( )
M ˆ = , adică media estimaţiei este egală chiar cu valoarea teoretică a parametrului estimat.
( )
Conform proprietăţii 2.3.5.1, M X = m adică media de selecţie este un estimator
nedeplasat al mediei, iar conform proprietăţii 2.3.5.2., M ( s ) = s adică dispersia de selecţie este
2 2
Este de dorit ca 1 să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar
intervalul ( L , U ) să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile
F ( x ) = P ( x x ) =
numerice cuantile. Se numesc cuantile de ordin valoarea x a variabilei aleatoare x pentru
care adică valoarea variabilei aleatoare care are la stânga ei aria sub curba
P x x =
P x x = 1
1
2 2 2 2
P x x x1 = 1 = 1
2 2 2 2
Pentru a estima un interval se alege 1 , se citesc din tabelele cuantilele, de exemplu
x x
1
şi şi se precizează intervalul. În prealabil, în funcţie de mărimea pentru care se caută
2 2
1
Se consideră o populaţie repartizată normal N ( m , s 2 ) . Dacă se cunoaşte dispersia se poate
X m
z=
folosi faptul că s este repartizată N ( 0,1) . Se notează cu z cuantila de ordinul
n
pentru repartiţia N ( 0,1) . Evident
P z z z = F z F z = 1 = 1
2 2 2 2 2 2
1 1
Aşadar intervalul z , z
1
este un interval de estimare cu coeficientul de încredere 1 .
2 2
Din anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la
dreapta cât şi la stânga lor aceeaşi arie, egală cu .
2
z = z
Deoarece repartiţia N ( 0,1) este simetrică faţă de axa Oy avem relaţia 1
2 2
Din relaţiile
xm
z �z �z � z � �z �
1
2
1
2
s
1
2
1
2
n
s s
� z * �x m �z * �
1
2 n 1
2 n
s s
x z * � m � x + z *
1
2 n 1
2 n
rezultă
s s
X z �m �X + z
1
2 n 1
2 n
Aşadar intervalul căutat este
s s
( L ,U ) = X z1 ,X + z
2 n 1
2 n
s
Mărimea E = z1 poartă numele de eroare şi serveşte la calculul numărului de experienţe
2 n
2
z
1 2
n= atunci când este impusă eroarea şi se alege un coeficient 1
E
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z
este repartizată N ( 0,1) indiferent de repartiţia variabilelor x1 , x 2 ,..., x n (teorema limită centrală).
2
X m
T =
Conform celor arătate anterior mărimea s este repartizată T ( n 1) şi, ca urmare
n
Pt T t = Ft Ft = 1 = 1
n ,1 n1,1 n1,1 n ,1 2 2
2 2 2 2
Deoarece repartitia Student este simetrică faţă de origine t n 1,1 = t n 1,1 şi înlocuindu-l pe
2 2
T în relaţia anterioară, se obţine
� �
� � � X m �
P� t � T �t �= P� t � �t �= 1
�n 1, 2 n 1,1
2 � �n 1, 2 s n 1,1
2 �
� �
� n �
s s
şi X tn 1,1 �m �X + t
2 n n 1,1
2 n
Ca urmare intervalul căutat este
s s
( L ,U ) = X t
,X +t
n
n n 1,1
n 1,1
2
2
s
În acest caz eroarea este E = t n 1,1
2 n
( ) ( ) ( )
fi M ( X 1 X 2 ) = M ( X 1 ) M ( X 2 ) = m1 m 2 şi D X 1 X 2 = D X 1 + D X 2 =
s 12 s 22
+
n1 n2
unde am
3
z=
(X 1 )
X 2 ( m1 m 2 )
=
(X 1 )
X 2 ( m1 m 2 )
Mai departe, variabila aleatoare (
D X1 X 2 ) s 12 s 22
+
este repartizată
n1 n2
N(0,1).
Deoarece, P z z z = 1 şi
z = z
2
1
2
rezulta
2 1 2
s 12 s 22 s 12 s 22
( )
X1 X 2 z
1
n
+
n
� m1 m 2 � X 1 X 2 + z
1
n
(+
n2
)
2 1 2 2 1
s =
2 ( =
p
n1 + n2 2 n1 + n2 2
ca un estimator nedeplasat pentru s . 2
Avem într-adevăr,
( n1 1) M ( s12 ) + ( n2 1) M ( s22 ) ( n1 1) s 12 + ( n2 1) s 22 2
M ( sp ) =
2
= =s
n1 + n2 2 n1 + n2 2
T =
(X 1 )
X 2 ( m1 m 2 )
În continuare vom arăta că mărimea 1 1 este repartizată T ( n1 + n2 2)
sp +
n1 n2
(X 1 )
X 2 ( m1 m2 )
s X1 X 2
Se observă că T = este raportul între o variabila aleatoare repartizată N(0,1) şi
sp 1 1
+
sX 1X2
n1 n2
deoarece
4
sp 1 1 sp 1 1 s s 2p
+ = + = p = =
s X1 X 2 n1 n2 1 1 n1 n2 s s2
s +
n1 n2
2 2
x1i X 1 x X2
+ n 2 2i
n1
(x )
X 1 + 1 2 x2 i X 2 ( ) s 1
n1 2 n 2
1i
1
s
1
=
( n1 + n2 2)s 2 n1 + n2 2
sp 1
+
1 2 ( n1 + n2 2 )
variabila este de tipul
sX 1X2
n1 n2 n1 + n2 2
2 2
x1i X 1 x2 i X 2
este repartizat ( n1 1) iar este repartizat 2 ( n2 1) , deci
n1 n2
Dar 2
1 s 1 s
T este repartizat T ( n1 + n2 2) şi
Pt Tt = 1 = 1
n1+n2 2, n1 +n2 2,1 2 2
2 2
t = t
Deoarece repartiţia Student este simetrică n1 + n2 2 ,
n1 + n2 2 ,1
rezultă că
2 2
11 11
X1 X2 t sp + m1m2X1 X2 t sp +
n1+n22,1 n n n1+n22,1 n n
2 12 2 12
1 1 1 1
Deci, ( 1 , 2 ) = X 1 X 2 tn + n sp + , X1 X 2 + t sp + cu
n1 n2
1 2 2 ,1
2
n1 n2 n + n 2 2 ,1
21
1 1
eroarea E = t n + n sp + .
1 2 2 ,1
2
n1 n 2
5
2 2
P v = 1 = 1
n ,1 n1,1 2 2
2 2
s 2 ( n 1)s 2 (n 1)s
2 2
n ,1 s n1,1
2 2 n 1,1 n ,1
2 2
(
x 21 , x 22 ,..., x 2 n2 dintr-o populaţie N m 2 , s 22 . )
s12
s 12
Conform cu cele arătate anterior, raportul F = 2 este repartizat F ( n1 1, n 2 1) şi deci
s2
s 22
P f F f = 1 = 1
n1 1,n2 1, n1 1,n2 1,1 2 2
2 2
s ss
2 22
Rezultă că
f f
2 22
2 22
, iar intervalul de estimaţie pentru raportul dispersiilor este:
s ss
n11,n2 1, n11,n2 1,
1 211 2
6
s22 s22
( L , U )
= 2 f , 2
f
s1 n1 1, n2 1, 2 s1 n1 1, n 2 1,1 2
Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Ele se referă fie la
parametrii repartiţiei, fie la legea propriu zisa de repartiţie.
Teste statistice
Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea
selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor.
Notaţii conventionale
Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se notează H0. Testarea
necesită şi formularea unei ipoteze complementare, numită ipoteză alternativă şi notată H A. Dacă se
acceptă H0, în mod normal se respinge HA şi invers.
Din acest motiv, ipotezele H0 si HA se aleg să fie complementare.
Dacă testul priveşte valoarea unui parametru , de exemplu H 0 : = 0 şi H A : = 1 se
poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să fie cunoscuţi şi, după
acceptarea uneia din cele două ipoteze, distribuţiile ( x, 0 ) şi ( x, 1 ) devin complet definite. În
acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu sunt cunoscuţi complet,
ipotezele se numesc “ipoteze compuse”. De exemplu, dacă distribuţia este normală şi parametrul
cautat este m , iar dispersia este necunoscută, suntem în cazul unei ipoteze compuse.
7
Dispersia cunoscută
Se consideră o selecţia dintr-o populaţie normală N ( m , s 2 ) . Considerăm variabila aleatoare X
. Datorită linearităţii operatorului de mediere avem:
n xi n M ( xi ) nm
( )
M X = M 1 = 1
n n
=
n
=m
Pentru dispersia lui X ţinem cont că D 2 ( ax + b ) = a 2 D 2 ( x ) şi că rezultatele xi reprezintă
variabile aleatoare independente D ( xi + x j ) = D ( xi ) + D ( x j ) .
2 2 2
n x i D ( x ) = ns
n 2
= i
2
s2
În aceste condiţii se obţine D 1
2 1
=
n n2 n2 n
X E X ( ) = X m
Ca urmare a teoremei limită centrală, variabila aleatoare D( X ) s este repartizata
n
N ( 0,1) .
Avem în acest caz, dacă vom alege un risc , ipotezele şi criteriile de acceptare sau respingere
conform cu tabelul de mai jos:
Tabelul nr. 2:
H0 HA Regiunea critică
m = m0 m m0
z z
1
2
zz
1
2
m = m0
mm0 z z1
m = m0
m m 0 z z1
Dispersia necunoscută
În acest caz se înlocuieşte în formula anterioară s cu estimaţia sa s x şi se ţine cont că
X m
T =
variabila aleatoare s este repartizată Student cu n-1 grade de libertate.
n
(
N m 2 ,s 2
2 ).
Variabila aleatoare
8
z=
(X 1 )
X ( m1 m 2 )
=
(X 1 )
X 2 ( m1 m2 )
(
D X1 X 2 ) s 12 s 22
+
este, dupa cum s-a aratat anterior, repartizată
n1 n2
N(0,1).
n1 + n2 2 n1 + n2 2
ca un estimator nedeplasat pentru s 2 .
T =
(X 1 )
X 2 ( m1 m2 )
După cum s-a arătat anterior, mărimea 1 1 este repartizată T ( n1 + n2 2)
sp +
n1 n2
Compararea proporţiilor
Dacă vom considera un experiment în care răspunsul este de tip da sau nu, de exemplu
vindecare sau nevindecare, supravieţuire sau moarte, etc., numărul de rezultate k de un anumit tip în
n repetări ale experimentului este o variabilă aleatoare repartizată binomial.
Deoarece avem, după cum s-a calculat anterior E ( k ) = np şi D ( k ) = npq , variabila aleatoare
k
p
k E ( k ) k np n
standardizată z = = = se aproximează ca fiind normal repartizată.
D( k ) npq pq
n
Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu parametrii (probabilitatea
bilei albe) p1 şi respectiv p 2 . În două selecţii din cele două populaţii, de volum n1 şi respectiv
n 2 presupunem că s-a obţinut răspuns “pozitiv” de k1 şi respectiv k 2 ori.
ki
Fie hi = , i = 1,2 . În cazul ipotezei nule H 0 : p1 = p 2 = p , variabila aleatoare h1 h2 va fi
ni
distribuită cu media 0 şi dispersia
9
p1 (1 p1 ) p 2 (1 p 2 ) 1 1
D( h1 h2 ) = + = p(1 p )
n1 n2 n1 n2
h1 h2
În aceste condiţii se aproximează că variabila aleatoare 1 1 va fi repartizată
p(1 p ) +
n1 n 2
N ( 0,1) .
k1 + k 2
O estimare naturală a lui p este p = .
n1 + n2
O îmbunătăţire a aproximării se poate obţine prin introducerea unor “corecţii de continuitate”
1 1
h1 h2
2n1 2n2
pentru h1 şi h2 : z =
1 1
p(1 p ) +
n1 n2
Estimarea dispersiei
Considerăm o selecţie de volum n dintr-o populaţie normală N ( m , s 2 ) . Conform celor arătate
s 2
s 2
2
s12
Se calculează F = 2 luându-se
s2
2
1 s s22 .
(x ) ( x (
m) X m )
2 2
( n 1) s 2
n n
i X i
v= = 1
= 1
=
s2 s2 s2
=
(x
n
1 i
2
( )(
m ) 2 X m n X nm + n X m ) ( ) 2
=
s2
2
=
(1 xi m ) n X m
n 2
( )
n xi m
= 1
2
X m
s2 s s
n
x m xi m E ( xi ) m x m
Dar i este repartizat N(0,1) căci E = = 0 şi D 2 i =1
s s s s
Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).
10
Compararea mai multor dispersii.
a) Testul Bartlett pentru verificarea omogenităţii dispersiilor
Fie m estimări independente s1 , s 2 ,..., s m pentru dispersiile s 1 , s 2 ,..., s m pe baza unor
selecţii de volume n1 , n 2 ,..., n m .
Se pune problema verificării ipotezei privind egalitatea acestor dispersii H 0 : s 1 = s 2 = ... = s m
2 2 2
2,303( k ln s k i ln si ) = ln m
2 2 ( s2 )
k
1 ( si2 ) i
k
Ipoteza H 0 se respinge daca Gmax c( ) unde c( ) se gaseste din tabelele Cochran la
c) Testul Hartley
max si2
Daca selectiile au acelasi volum se poate aplica pentru k 12 testul H calc =
min si2
iar ipoteza H 0 se respinge daca H calc H ( ) unde H ( ) se gaseste din tabelele Hartley la
probabilitatea
P(Hmax H() = 1 .
11
Considerăm caracteristica X supusă cercetării ca având funcţia de probabilitate f(x;
1 , 2 ,..., s ) . Variabilele de selecţie X 1 , X 2 ,..., X n sunt independente şi identic repartizate,
verosimilitate.
Spunem că estimatorii i = i ( X1 , X 2 ,..., X n ) sunt de verosimilitate maximă pentru
i , i = 1, s dacă realizează maximul funcţiei de verosimilitate.
V ln V
= 0, i = 1, s , care de regulă se înlocuieşte cu = 0, i = 1, s numit sistem de verosimilitate
i i
maximă.
1) Se arată că un estimator eficient este un estimator de verosimilitate maximă.
2) Un estimator de verosimilitate maximă este estimator consistent, iar pentru valori mari
ale lui n este o variabilă aleatoare ce urmează legea normală N( , [ I( )] 1 ) , unde este
parametrul estimat.
Exemplu. Să se determine estimatorii de verosimilitate maximă pentru valoarea medie
şi abaterea standard dacă se consideră caracteristica X, care urmează legea normală N(m, s ).
Rezolvare:
( x m ) 2
1
M(X) = m şi s(X) = s , f(x; m, s) = e 2s2 . Pentru a scrie sistemul de
s 2
verosimilitate maximă avem:
( x m) 2
ln f(x; m, s ) = - ln 2 ln s , de unde
2s 2
ln f ( x; m, s) x m ln f ( x; m, s) 1 ( x m) 2
= , iar = + .
m s2 s s s3
Se obţine:
ln V n
ln f ( X k ; m, s ) n
X m 1 n
= = k 2 = 2 (X k m) .
m k =1 m k =1 s s k =1
ln V n
ln f ( X k ; m, s ) n 1 ( X m) 2 1 n
= = [ + k 3 ] = 3 [s 2 + ( X k m) 2 ]
s k =1 s k =1 s s s k =1
12
n 1 n
(X k m) = 0 m = Xk = X
n k =1
sau: n k =1
n .
[s + (X k m) ] = 0 1
2 2 s = (X k X ) = m 2
2
k =1 n k =1
Exemplu. Se consideră caracteristica X ce urmează legea binomială, adică are
distribuţia teoretică:
k
X P(m, k ) , unde P(m,k) = C km p k q m k , q = 1 p, cu parametrul
k =0, m
n
ln f (X k ; p)
k =1 p
= 0 , avem că
1
estimatorul de verosimilitate maximă p = p (X 1 , X 2 ,..., X n ) = X pentru parametrul p.
m
Pentru aceasta avem, în primul rând, că:
1 1 1
M(p ) = M ( X ) = M (X ) = mp = p , iar apoi pentru dispersie se poate scrie succesiv:
m m m
n n
1 2 1 1
D 2 ( p ) =
m 2
D (X ) = 2 2
mn
D2 ( X k ) =
k =1 m2 n2
D
k =1
2
(X ) =
1 D 2 ( X ) mpq pq
= 2 2 nD ( X ) =
2
= 2 = 0, n .
mn m2n m n mn
13
Prin urmare, s-a obţinut M( p ) = p şi lim D 2 (X) = 0 , deci estimatorul p este estimator
n
1
Pe de altă parte, am văzut că D ( p ) =
2
, deci estimatorul p este estimator eficient
I( p )
pentru parametrul p.
Bibilografie:
1. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A. - Statistică I - Ed. Presa Universitară
Clujeană, Cluj-Napoca, 2003;
2. Ivanov M. – Matematici Speciale, Curs – Universitatea „Constantin Brâncuşi” Tg. Jiu,
2006;
3. Cenuşă G., Şerban R., Raischi C., - Matematici pentru economişti – Bibiloteca Digitală
A.S.E., 2008.
14