Sunteți pe pagina 1din 15

ELEMENTE DE TEORIA ESTIMATIEI

Noţiuni generale

Orice cercetare statistică porneşte de la o colectivitate sau populaţie alcătuită din elemente
sau indivizi care au o caracteristică generală şi care se diferenţiază prin anumite atribute.
Elementele colectivităţii (populaţiei) se numesc unităţi.
În studiul colectivităţilor statistice, în majoritatea cazurilor suntem nevoiţi să studiem numai
părţi din întreaga colectivitate. Ori, în acest caz, se pune în mod natural întrebarea dacă concluziile
ce le obţinem concordă cu rezultatul ce l-am obţine dacă studiem întreaga populaţie. Apare astfel
problema de a studia modul în care valorile tipice (pe baza cărora tragem concluzii) ale colectivităţii
parţiale investigate pot furniza informaţii asupra valorilor tipice ale întregii colectivităţi.
Vom presupune, în cele ce urmează, că urmărim o anumită caracteristică a colectivităţii
generale şi că această caracteristică este descrisă de o variabilă aleatoare X definită pe un câmp de
probabilitate {Q, K, P}, în care elementele mulţimii Q sunt tocmai elementele colectivităţii
generale, K este un corp borelian de părţi ale lui Q, iar P este o probabilitate pe K.
După cum se ştie, dacă Q este finită, atunci K coincide cu mulţimea părţilor lui Q, iar P este
o repartiţie discretă uniformă pe Q.
Faptul că suntem obligaţi să cercetăm numai o anumită parte din populaţie este impus de
natura concretă a colectivităţii. Astfel, dacă numărul elementelor populaţiei este infinit, în mod
necesar nu putem cerceta decât un număr finit şi deci obţinem o informaţie trunchiată.
Dar, în cazul când numărul elementelor populaţiei este finit, atunci când cercetarea calităţii
elementelor conduce la distrugerea lor, evident că se impune alegerea unui număr finit pentru
cercetare.
Dacă ţinem seama de faptul că orice investigare (cercetare) implică şi anumite cheltuieli,
rezultă clar că suntem obligaţi să cercetăm numai o parte din populaţia totală.
Vom numi selecţie (eşantion) o colectivitate parţială de elemente alese la întâmplare.
Numărul elementelor dintr-o selecţie îl vom numi volumul selecţiei.
Spunem că o selecţie este repetată, dacă elementul ales la întâmplare este reintrodus în
colectivitatea generală înaintea efectuării următoarei alegeri.
Selecţia este nerepetată dacă, elementele alese nu se mai introduc în colectivitatea generală.
Să efectuăm deci o selecţie de volum n dintr-o colectivitate C şi să notăm cu xi, x2, ..., xn
valorile de observaţie. Acestea se referă la valorile unei variabile aleatoare X care dă legitatea
caracteristicii studiate.
Considerate aposteriori, valorile de selecţie x1, x2, ..., xn sunt valori bine determinate ale
variabilei aleatoare X.
Privite apriori, valorile X1, X2, Xn pot fi considerate ca variabile aleatoare independente,
identic repartizate cu variabila X, în cazul unei selecţii repetate.
Dacă selecţia este nerepetată, atunci variabilele X 1, X2, Xn sunt dependente, dependenţa fiind
de tipul lanţurilor cu legături complete.
Dacă volumul colectivităţii generale este suficient de mare iar volumul selecţiei este
suficient de mic, deosebirea dintre o selecţie repetată şi una nerepetată este nesemnificativă şi, ca
atare, în aplicaţiile practice o selecţie nerepetată se tratează după metodele selecţiei repetate.

Estimaţii
Teoria estimaţiei urmăreşte evaluarea parametrilor unei repartiţii în general cunoscute.
Valorile numerice obţinute se numesc estimaţii sau estimatori. Se obţin estimaţii punctuale în cazul
în care se folosesc datele selecţiei pentru a obţine valorile parametrilor şi estimaţii ale intervalelor
de încredere în cazul în care se determină un interval în care se află, cu o anumită probabilitate
valoarea estimată.

0
Un estimator al parametrului  se va nota cu ˆ . O estimaţie este nedeplasată dacă
( )
M ˆ =  , adică media estimaţiei este egală chiar cu valoarea teoretică a parametrului estimat.

( )
Conform proprietăţii 2.3.5.1, M X = m adică media de selecţie este un estimator
nedeplasat al mediei, iar conform proprietăţii 2.3.5.2., M ( s ) = s adică dispersia de selecţie este
2 2

un estimator nedeplasat al dispersiei.


Problema estimării intervalelor se reduce la găsirea unui interval de încredere ( L , U ) cu

un coeficient de încredere 1   astfel încât


P (  L    U ) = 1   .

Este de dorit ca 1   să fie cât mai mare (de obicei este cuprins între 0,9 şi 0,99) iar
intervalul ( L , U ) să fie cât mai mic. În stabilirea intervalelor se utilizează caracteristicile

F ( x  ) = P ( x x  ) = 
numerice cuantile. Se numesc cuantile de ordin  valoarea x  a variabilei aleatoare x pentru

care adică valoarea variabilei aleatoare care are la stânga ei aria  sub curba

densităţii de probabilitate. Evident:

 
P x x  =
P x x   = 1 
 1 
 2 2  2 2
  
P x  x x1  = 1  = 1 
 2 2 2 2
Pentru a estima un interval se alege 1   , se citesc din tabelele cuantilele, de exemplu
x x
1
 şi şi se precizează intervalul. În prealabil, în funcţie de mărimea pentru care se caută
2 2

intervalul se precizează cu care din repartiţiile cunoscute trebuie lucrat.

Estimarea intervalelor de încredere pentru medii

Cazul când se cunoaste dispersia.

1
Se consideră o populaţie repartizată normal N ( m , s 2 ) . Dacă se cunoaşte dispersia se poate
X m
z=
folosi faptul că s este repartizată N ( 0,1) . Se notează cu z cuantila de ordinul 
n
pentru repartiţia N ( 0,1) . Evident

     
P z  z  z   = F z    F z  = 1   = 1 
 2 2  2  2 2 2
1 1
 
Aşadar intervalul  z , z 
 1

 este un interval de estimare cu coeficientul de încredere 1   .
 2 2 
Din anumite puncte de vedere este recomandabil să se utilizeze acele intervale care lasă atât la

dreapta cât şi la stânga lor aceeaşi arie, egală cu .
2
z = z 
Deoarece repartiţia N ( 0,1) este simetrică faţă de axa Oy avem relaţia  1
2 2

Din relaţiile
xm
z �z �z � z � �z  �
1

2
1

2
s
1

2
1
2
n
s s
� z  * �x  m �z  * �
1
2 n 1
2 n
s s
x  z  * � m � x + z  *
1
2 n 1
2 n
rezultă
s s
X z  �m �X + z 
1
2 n 1
2 n
Aşadar intervalul căutat este
 s s 
( L ,U ) =  X  z1 ,X + z 
 2 n 1
2 n 
s
Mărimea E = z1 poartă numele de eroare şi serveşte la calculul numărului de experienţe
2 n
2
z  
 1 2 
n=  atunci când este impusă eroarea şi se alege un coeficient 1  
 E 
 
Metoda descrisă mai poate fi aplicată şi în cazul în care x nu este repartizată normal deoarece z
este repartizată N ( 0,1) indiferent de repartiţia variabilelor x1 , x 2 ,..., x n (teorema limită centrală).

Cazul când dispersia este necunoscută


Dacă nu se cunoaste dispersia în estimarea intervalelor se utilizează dispersia de selecţie care
este un estimator nedeplasat al dispersiei deoarece E ( s 2 ) = s 2
Se consideră x1 , x 2 ,..., x n o selecţie dintr-o populaţie de tipul N ( m , s 2 ) .

2
X m
T =
Conform celor arătate anterior mărimea s este repartizată T ( n  1) şi, ca urmare
n

      
Pt   T  t   = Ft    Ft   = 1  = 1
n ,1 n1,1 n1,1 n ,1 2 2
 2 2  2  2
Deoarece repartitia Student este simetrică faţă de origine t n 1,1  = t n 1,1  şi înlocuindu-l pe
2 2
T în relaţia anterioară, se obţine
� �
� � � X m �
P� t  � T �t  �= P� t  � �t  �= 1  
�n 1, 2 n 1,1
2 � �n 1, 2 s n 1,1
2 �
� �
� n �
s s
şi X  tn 1,1  �m �X + t 
2 n n 1,1
2 n
Ca urmare intervalul căutat este
 s s 
( L ,U ) =  X t
,X +t
n 
 
 n n 1,1
n 1,1
2

2

s
În acest caz eroarea este E = t n 1,1
2 n

Dacă numărul de experienţe este n  30 , se poate folosi aproximaţia


t  =z 
n 1,1 1
2 2

Estimarea intervalului de încredere 1   pentru diferenţa a două medii


(
Se consideră două selecţii din populaţii normal repartizate N m1 , s 12 şi N m 2 , s 22 .) ( )
Cazul dispersiilor s 12 , s 22 cunoscute.
Considerăm o selecţie aleatoare x11 , x12 ,..., x1n1 din populaţia (
N m1 , s 12 ) şi o selecţie
(
x 21 , x 22 ,..., x 2 n dintr-o populaţie N m 2 , s 22 .
2
)
 
n1 n2
x1i x2i
Estimatorii nedeplasaţi ai mediilor m1 şi m 2 sunt: X 1 = 1
si X 2 = 1
n1 n2
Considerând variabila aleatoare X 1  X 2 , ea este normal repartizată iar estimaţia şi dispersia ei vor

( ) ( ) ( )
fi M ( X 1  X 2 ) = M ( X 1 )  M ( X 2 ) = m1  m 2 şi D X 1  X 2 = D X 1 + D X 2 =
s 12 s 22
+
n1 n2
unde am

ţinut cont că x1i şi x 2i sunt independente.

3
z=
(X 1 )
 X 2  ( m1  m 2 )
=
(X 1 )
 X 2  ( m1  m 2 )
Mai departe, variabila aleatoare (
D X1  X 2 ) s 12 s 22
+
este repartizată
n1 n2
N(0,1).

 
Deoarece, P z  z  z   = 1  şi
z = z
2
1

2
rezulta

 2 1 2 
s 12 s 22 s 12 s 22
( )
X1  X 2  z
1

n
+
n
� m1  m 2 � X 1  X 2 + z
1

n
(+
n2
)
2 1 2 2 1

Aşadar, intervalul de estimaţie pentru diferenţa mediilor este


 
( )
( 1 , 2 ) =  X 1  X 2  z1  s 1 + s 2 , X 1  X 2 + z1  s 1 + s 2 ( )
2 2 2 2

n1 n2 n1 n2 
 2 2 
s 12 s 22
În acest caz, eroarea este E = z  + .
1
2
n1 n2

Dispersii necunoscute dar presupuse egale


În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale s 12 = s 22 = s 2 utilizăm dispersia
ponderată de selecţie
n1  1) s12 + ( n2  1) s22 �1 ( x1i  X 1 ) ( )
2 2
+ �1 2 x2i  X 2
n1 n

s =
2 ( =
p
n1 + n2  2 n1 + n2  2
ca un estimator nedeplasat pentru s . 2

Avem într-adevăr,
( n1  1) M ( s12 ) + ( n2  1) M ( s22 ) ( n1  1) s 12 + ( n2  1) s 22 2
M ( sp ) =
2
= =s
n1 + n2  2 n1 + n2  2

T =
(X 1 )
 X 2  ( m1  m 2 )
În continuare vom arăta că mărimea 1 1 este repartizată T ( n1 + n2  2)
sp +
n1 n2
(X 1 )
 X 2  ( m1  m2 )
s X1  X 2
Se observă că T = este raportul între o variabila aleatoare repartizată N(0,1) şi
sp 1 1
+
sX 1X2
n1 n2
deoarece

4
sp 1 1 sp 1 1 s s 2p
+ = + = p = =
s X1  X 2 n1 n2 1 1 n1 n2 s s2
s +
n1 n2
2 2
 x1i  X 1   x  X2 
  +  n 2  2i
n1
 
 (x )
 X 1 + 1 2 x2 i  X 2 ( )  s  1  
n1 2 n 2
1i
1
   s 
1
=
( n1 + n2  2)s 2 n1 + n2  2
sp 1
+
1  2 ( n1 + n2  2 )
variabila este de tipul
sX 1X2
n1 n2 n1 + n2  2
2 2
 x1i  X 1   x2 i  X 2 
 este repartizat  ( n1  1) iar  este repartizat  2 ( n2  1) , deci
n1 n2
Dar   2  
1  s  1  s 
   
T este repartizat T ( n1 + n2  2) şi

  
Pt  Tt   = 1  = 1
n1+n2 2, n1 +n2 2,1 2 2
 2 2
t = t
Deoarece repartiţia Student este simetrică n1 + n2  2 ,

n1 + n2  2 ,1
 rezultă că
2 2

11 11
X1 X2 t sp + m1m2X1 X2 t sp +
n1+n22,1 n n n1+n22,1 n n
2 12 2 12
 1 1 1 1 
Deci, ( 1 , 2 ) =  X 1  X 2  tn + n sp + , X1  X 2 + t  sp + cu
n1 n2 

 1 2  2 ,1
2
n1 n2 n + n 2  2 ,1
21

1 1
eroarea E = t n + n  sp + .
1 2  2 ,1
2
n1 n 2

Estimarea intervalelor de încredere pentru dispersie


Considerăm o selecţie de volum n dintr-o populaţie normală N ( m , s 2 ) . Conform celor arătate

anterior variabila aleatoare v =


( n  1) s 2 este repartizată  2 ( n  1) şi ca urmare
s2

5
2 2   
P   v    = 1  = 1
n ,1 n1,1 2 2
 2 2
s 2 ( n 1)s 2 (n 1)s
2 2

Deci,   (n 1) 2    2 s  2


2 2
si .

n ,1 s n1,1  
2 2 n 1,1  n  ,1
2 2

6. Estimarea intervalului de încredere pentru raportul a două dispersii


Se consideră selecţia aleatoare x11 , x12 ,..., x1n dintr-o populaţie N ( m , , s 1 ) şi o selecţie
2
1

(
x 21 , x 22 ,..., x 2 n2 dintr-o populaţie N m 2 , s 22 . )
s12
s 12
Conform cu cele arătate anterior, raportul F = 2 este repartizat F ( n1  1, n 2  1) şi deci
s2
s 22

  
P f   F  f   = 1  = 1
n1 1,n2 1, n1 1,n2 1,1 2 2
 2 2

s ss
2 22
Rezultă că
f f
2 22
2 22 
, iar intervalul de estimaţie pentru raportul dispersiilor este:

s ss
n11,n2 1, n11,n2 1, 
1 211 2
6
 s22 s22 
(  L , U ) 
= 2 f  , 2
f 


 s1 n1 1, n2 1, 2 s1 n1 1, n 2 1,1 2 

Verificarea ipotezelor statistice

Ipoteze statistice
Ipotezele statistice sunt ipoteze asupra repartiţiei unor variabile aleatoare. Ele se referă fie la
parametrii repartiţiei, fie la legea propriu zisa de repartiţie.
Teste statistice
Metodele de verificare a ipotezelor se bazează pe teste statistice care constau în examinarea
selecţiilor obţinute pentru o variabilă aleatoare şi a unor funcţii de elementele selecţiilor.
Notaţii conventionale
Ipoteza testată, presupusă adevarată, se numeşte ipoteza nulă şi se notează H0. Testarea
necesită şi formularea unei ipoteze complementare, numită ipoteză alternativă şi notată H A. Dacă se
acceptă H0, în mod normal se respinge HA şi invers.
Din acest motiv, ipotezele H0 si HA se aleg să fie complementare.
Dacă testul priveşte valoarea unui parametru  , de exemplu H 0 :  =  0 şi H A :  =  1 se
poate întâmpla ca toţi ceilalţi parametri ce caracterizează distribuţiile să fie cunoscuţi şi, după
acceptarea uneia din cele două ipoteze, distribuţiile  ( x, 0 ) şi  ( x, 1 ) devin complet definite. În
acest caz, ipotezele sunt numite “simple”. Dacă însă ceilalţi parametric nu sunt cunoscuţi complet,
ipotezele se numesc “ipoteze compuse”. De exemplu, dacă distribuţia este normală şi parametrul
cautat este m , iar dispersia este necunoscută, suntem în cazul unei ipoteze compuse.

Probabilitatea unei decizii gresite


La verificarea ipotezelor se pot comite două feluri de erori:
1. Erorile de tipul 1 constau în respingerea ipotezei H0 atunci când aceasta este adevărată.
2. Erorile de tipul 2 constau în acceptarea ipotezei H0 atunci când aceasta este falsă.
Probabilitatile celor două tipuri de erori se notează de obicei cu α respectiv β:
α = P (respinge H0 / H0 adevărată)
β = P (acceptă H0 / H0 falsă) = P (respinge HA / HA adevărată)
Deci, α este riscul de a respinge în mod greşit H0 şi β este riscul de a respinge în mod greşit HA.
Probabilitatea de a respinge ipoteza H0 atunci când aceasta este falsă  = 1   se numeşte
puterea testului. Coeficientul α este numit şi nivel de semnificaţie. Desigur că este de dorit ca
valorile α şi β să fie cât mai mici. Valoarea lui α se alege şi în funcţie de importanţa implicaţiilor
acceptării sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca
bun pentru majoritatea problemelor din practică. Dacă însă este vorba de un medicament foarte
activ cum ar fi digoxina, este de preferat a alege α între 0,01 si 0,05.
Pentru a verifica o ipoteză se folosesc datele de selecţie pentru calcularea unui test statistic.
Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea α se
numeşte regiune critică.
Metodologia de verificare cuprinde în principiu următoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o
repartiţie pentru populaţia statistică din care se face selectia;
2. se formulează ipoteza;
3. se calculează valoarea testului ales şi se compară cu limitele de acceptare, respectiv
respingere;
4. se acceptă sau se respinge, în funcţie de rezultat, ipoteza H0.

Ipoteze asupra mediei

7
Dispersia cunoscută
Se consideră o selecţia dintr-o populaţie normală N ( m , s 2 ) . Considerăm variabila aleatoare X
. Datorită linearităţii operatorului de mediere avem:
  n xi    n M ( xi )  nm
( )
M X = M 1  =  1
 n   n
=
 n
=m
   
Pentru dispersia lui X ţinem cont că D 2 ( ax + b ) = a 2 D 2 ( x ) şi că rezultatele xi reprezintă
variabile aleatoare independente D ( xi + x j ) = D ( xi ) + D ( x j ) .
2 2 2

 n x i   D ( x ) = ns
n 2
 = i
2
s2
În aceste condiţii se obţine D  1
2 1
=
n  n2 n2 n
 
X E X ( ) = X m
Ca urmare a teoremei limită centrală, variabila aleatoare D( X ) s este repartizata
n
N ( 0,1) .
Avem în acest caz, dacă vom alege un risc  , ipotezele şi criteriile de acceptare sau respingere
conform cu tabelul de mai jos:

Tabelul nr. 2:
H0 HA Regiunea critică
m = m0 m  m0
z z 
1
2

zz 
1
2
m = m0
mm0 z z1
m = m0

m m 0 z z1
Dispersia necunoscută
În acest caz se înlocuieşte în formula anterioară s cu estimaţia sa s x şi se ţine cont că
X m
T =
variabila aleatoare s este repartizată Student cu n-1 grade de libertate.
n

Ipoteze asupra diferenţelor a două medii

Cazul când se cunosc dispersiile


( ) (
Se consideră două populaţii normale N m1 , s 12 şi N m 2 , s 22 , o selecţie aleatoare din )
( )
x11 , x12 ,..., x1n din populaţia N m1 , s 12 şi o selecţie aleatoare x 21 , x 22 ,..., x 2 n din populaţia
1 2

(
N m 2 ,s 2
2 ).
Variabila aleatoare

8
z=
(X 1 )
 X  ( m1  m 2 )
=
(X 1 )
 X 2  ( m1  m2 )
(
D X1  X 2 ) s 12 s 22
+
este, dupa cum s-a aratat anterior, repartizată
n1 n2
N(0,1).

Cazul dispersiilor necunoscute, dar presupuse egale


În cazul în care nu cunoaştem dispersiile dar ştim că sunt egale s 12 = s 22 = s 2 utilizăm dispersia
ponderată de selecţie
 (x )
 X 1 + 1 2 ( x2i  X )
2
( n  1) s12 + ( n2  1) s22
n1 n 2
1i
s 2
p = 1 = 1

n1 + n2  2 n1 + n2  2
ca un estimator nedeplasat pentru s 2 .

T =
(X 1 )
 X 2  ( m1  m2 )
După cum s-a arătat anterior, mărimea 1 1 este repartizată T ( n1 + n2  2)
sp +
n1 n2

Cazul observaţiilor perechi


In cazul când observaţiile formează în mod natural perechi, cum ar fi de exemplu când se
măsoară concentraţiile în n probe, fiecare din ele cu două metode diferite sau cazul când două
medicamente se administrează unui aceluiaşi lot de voluntari, în două perioade diferite.
Considerăm în acest caz variabila aleatoare d = X 1  X 2 .
În cazul în care selecţiile aparţin la aceiaşi populaţie, media lui d va fi zero: E ( d ) = 0 .
Când se cunosc dispersiile avem D d = s d = 2 s 12 s 22
n
+
n
()
şi variabila aleatoare
s
d
d
este repartizată
N ( 0,1) .
Când nu se cunosc dispersiile se folosesc dispersiile de selecţie şi se ţine cont că variabila
d
aleatoare s d după cum se poate arăta uşor, este repartizată Student cu n-1 grade de libertate.
n

Compararea proporţiilor
Dacă vom considera un experiment în care răspunsul este de tip da sau nu, de exemplu
vindecare sau nevindecare, supravieţuire sau moarte, etc., numărul de rezultate k de un anumit tip în
n repetări ale experimentului este o variabilă aleatoare repartizată binomial.
Deoarece avem, după cum s-a calculat anterior E ( k ) = np şi D ( k ) = npq , variabila aleatoare
k
p
k  E ( k ) k  np n
standardizată z = = = se aproximează ca fiind normal repartizată.
D( k ) npq pq
n
Fie două populaţii de tip “urna Poisson cu bile albe şi bile negre”, cu parametrii (probabilitatea
bilei albe) p1 şi respectiv p 2 . În două selecţii din cele două populaţii, de volum n1 şi respectiv
n 2 presupunem că s-a obţinut răspuns “pozitiv” de k1 şi respectiv k 2 ori.
ki
Fie hi = , i = 1,2 . În cazul ipotezei nule H 0 : p1 = p 2 = p , variabila aleatoare h1  h2 va fi
ni
distribuită cu media 0 şi dispersia

9
p1 (1  p1 ) p 2 (1  p 2 ) 1 1
D( h1  h2 ) = + = p(1  p )   
n1 n2  n1 n2 
h1  h2
În aceste condiţii se aproximează că variabila aleatoare 1 1  va fi repartizată
p(1  p )  + 
 n1 n 2 
N ( 0,1) .
k1 + k 2
O estimare naturală a lui p este p = .
n1 + n2
O îmbunătăţire a aproximării se poate obţine prin introducerea unor “corecţii de continuitate”
 1   1 
 h1     h2  
 2n1   2n2 
pentru h1 şi h2 : z =
1 1
p(1  p )  + 
 n1 n2 

Estimarea dispersiei
Considerăm o selecţie de volum n dintr-o populaţie normală N ( m , s 2 ) . Conform celor arătate

anterior variabila aleatoare v =


( n  1) s 2
este repartizată  2 ( n  1) .
s 2

Estimarea raportului a două dispersii


Se consideră selecţia aleatoare x11 , x12 ,..., x1n1 dintr-o populaţie N m1 , s 12 ( ) şi o selecţie
aleatoare x 21 , x 22 ,..., x 2 n dintr-o populaţie N m 2 , s 22 .
2
( )
2
s 1

s 2

Conform cu cele arătate anterior, raportul F = este repartizat F ( n1  1, n 2  1) .


1
2
s 2

s 2
2

s12
Se calculează F = 2 luându-se
s2
2
1 s  s22 .
 (x )  ( x (
 m)  X  m )
2 2
( n  1) s 2
n n
i X i
v= = 1
= 1
=
s2 s2 s2

=
 (x
n
1 i
2
( )(
 m )  2 X  m n X  nm + n X  m ) ( ) 2

=
s2
2
 
=
 (1 xi  m )  n X  m
n 2
( )
n xi  m 
= 1 
2

 

 X  m


s2  s   s 
 
 n 
x m  xi  m  E ( xi )  m x m
Dar i este repartizat N(0,1) căci E  = = 0 şi D 2  i  =1
s  s  s  s 
Deci v este o sumă de n-1 pătrate de variabile de tip N(0,1).

10
Compararea mai multor dispersii.
a) Testul Bartlett pentru verificarea omogenităţii dispersiilor
Fie m estimări independente s1 , s 2 ,..., s m pentru dispersiile s 1 , s 2 ,..., s m pe baza unor
selecţii de volume n1 , n 2 ,..., n m .
Se pune problema verificării ipotezei privind egalitatea acestor dispersii H 0 : s 1 = s 2 = ... = s m
2 2 2

În acest caz Bartlet a arătat că variabila aleatoare

2,303( k ln s   k i ln si ) = ln m
2 2 ( s2 )
k

1 ( si2 ) i
k

unde k i = ni  1 , k =  k i şi s dispersia ponderată a întregului set de date, este repartizată


 2 ( m  1) .
b) Testul rapid Cochran pentru selecţii de acelaşi volum
Daca selectiile considerate au acelasi volum n1 = n2 = ... = nk = n , atunci se calculeaza
2
s max
valoarea Gmax = care se compară cu o valoare maximă admisă pentru acceptarea ipotezei
s
k 2
1 i
nule.
In formula de mai sus avem:
si2 =
1 n
 (
n  1 j =1
)
2
xij  xi si s max
2
= max 1i  k s i2

Ipoteza H 0 se respinge daca Gmax  c( ) unde c(  ) se gaseste din tabelele Cochran la

perechea ( k , n  1) grade de libertate si la probabilitatea


P(Gmax c( ) =1 .

c) Testul Hartley
max si2
Daca selectiile au acelasi volum se poate aplica pentru k  12 testul H calc =
min si2

iar ipoteza H 0 se respinge daca H calc H ( ) unde H (  ) se gaseste din tabelele Hartley la

probabilitatea
P(Hmax H() = 1 .

Metoda verosimilităţii maxime

11
Considerăm caracteristica X supusă cercetării ca având funcţia de probabilitate f(x;
 1 ,  2 ,...,  s ) . Variabilele de selecţie X 1 , X 2 ,..., X n sunt independente şi identic repartizate,

rezultă că vectorul aleator ( X 1 , X 2 ,..., X n ) va avea funcţia de probabilitate


n
V ( X 1 , X 2 ,..., X n ; 1 , 2 ,..., s ) =  f ( X i ; 1 , 2 ,..., s ) şi care se numeşte funcţie de
i =1

verosimilitate.
Spunem că estimatorii i = i ( X1 , X 2 ,..., X n ) sunt de verosimilitate maximă pentru
 i , i = 1, s dacă realizează maximul funcţiei de verosimilitate.

Determinarea estimatorilor de verosimilitate maximă se va face rezolvând sistemul

V  ln V
= 0, i = 1, s , care de regulă se înlocuieşte cu = 0, i = 1, s numit sistem de verosimilitate
 i  i

maximă.
1) Se arată că un estimator eficient este un estimator de verosimilitate maximă.
2) Un estimator de verosimilitate maximă este estimator consistent, iar pentru valori mari
ale lui n este o variabilă aleatoare ce urmează legea normală N( , [ I( )] 1 ) , unde  este
parametrul estimat.
Exemplu. Să se determine estimatorii de verosimilitate maximă pentru valoarea medie
şi abaterea standard dacă se consideră caracteristica X, care urmează legea normală N(m, s ).
Rezolvare:
( x m ) 2
1 
M(X) = m şi s(X) = s , f(x; m, s) = e 2s2 . Pentru a scrie sistemul de
s 2
verosimilitate maximă avem:
( x  m) 2
ln f(x; m, s ) = - ln 2  ln s  , de unde
2s 2
 ln f ( x; m, s) x  m  ln f ( x; m, s) 1 ( x  m) 2
= , iar =  + .
m s2 s s s3
Se obţine:
 ln V n
 ln f ( X k ; m, s ) n
X m 1 n
= = k 2 = 2 (X k  m) .
m k =1 m k =1 s s k =1

 ln V n
 ln f ( X k ; m, s ) n 1 ( X  m) 2 1 n
= =  [ + k 3 ] = 3  [s 2 + ( X k  m) 2 ]
s k =1 s k =1 s s s k =1

12
 n  1 n
  (X k  m) = 0  m =  Xk = X

 n k =1
sau:  n k =1
 n .
 [s + (X k  m) ] = 0 1
2 2  s =  (X k  X ) = m 2
 2
 k =1  n k =1
Exemplu. Se consideră caracteristica X ce urmează legea binomială, adică are
distribuţia teoretică:
 k 
X  P(m, k )  , unde P(m,k) = C km p k q m  k , q = 1  p, cu parametrul
  k =0, m

p  (0,1) necunoscut. Folosind o selecţie de volum n, se cere:


a) estimatorul p de verosimilitate maximă pentru p;
b) să se arate că estimatorul p este un estimator absolut corect pentru parametrul p;
c) să se arate că estimatorul p este un estimator eficient pentru parametrul p.
Rezolvare:
a) Funcţia de probabilitate pentru caracteristica X este
f(x; p) = x
Cm p x (1  p) m  x , x = 0, m . Pentru a scrie ecuaţia de verosimilitate maximă

n
 ln f (X k ; p)

k =1 p
= 0 , avem că

ln f(x; p) = ln C mx + x ln p + (m  x ) ln(1  p) , de unde


 ln f ( x; p) x m  x
=  . Aşadar ecuaţia verosimilităţii maxime este:
p p 1 p
n
Xk m  Xk nX mn nX 1 n
(
k =1 p

1 p
) = 0 , adică
p
 +
1 p 1 p
= 0 , unde X =  X k .
n k =1
Ecuaţia verosimilităţii maxime se mai scrie (1  p) X  mp + pX = 0 , de unde se obţine

1
estimatorul de verosimilitate maximă p  = p  (X 1 , X 2 ,..., X n ) = X pentru parametrul p.
m
Pentru aceasta avem, în primul rând, că:
1 1 1
M(p  ) = M ( X ) = M (X ) =  mp = p , iar apoi pentru dispersie se poate scrie succesiv:
m m m

n n
1 2 1 1
D 2 ( p ) =
m 2
D (X ) = 2 2
mn
 D2 ( X k ) =
k =1 m2 n2
D
k =1
2
(X ) =

1 D 2 ( X ) mpq pq
= 2 2 nD ( X ) =
2
= 2 =  0, n   .
mn m2n m n mn

13
Prin urmare, s-a obţinut M( p  ) = p şi lim D 2 (X) = 0 , deci estimatorul p este estimator
n 

absolut corect pentru parametrul p.


c) Cantitatea de informaţie relativă la parametrul p se poate calcula după cum urmează:
 ln f (X; p) 2 1 n
I(p) = nM[( ) ]= n 2 M[(X  mp) 2 ] = 2 D 2 (X) =
p p (1  p) 2
p (1  p) 2
n mn
= mp(1  p) = .
p (1  p)
2 2
p(1  p)

 1
Pe de altă parte, am văzut că D ( p ) =
2
, deci estimatorul p  este estimator eficient
I( p )

pentru parametrul p.

Bibilografie:

1. Buiga, A., Dragoş C., Lazăr D., Parpucea I., Todea A. - Statistică I - Ed. Presa Universitară
Clujeană, Cluj-Napoca, 2003;
2. Ivanov M. – Matematici Speciale, Curs – Universitatea „Constantin Brâncuşi” Tg. Jiu,
2006;
3. Cenuşă G., Şerban R., Raischi C., - Matematici pentru economişti – Bibiloteca Digitală
A.S.E., 2008.

14

S-ar putea să vă placă și