Sunteți pe pagina 1din 32

CAPITOLUL 12 STATISTIC MATEMATIC 12.1.

Noiuni de teoria seleciei i a estimaiei S considerm o populaie , finit sau infinit, n sensul c este format dintr-un numr finit sau infinit de uniti. Dac populaia este finit, vaom nota cu N numrul unitilor ce o compun, iar N l vom numi volumul populaiei . Studiem populaia din punctul de vedere al unei proprieti. Aceast proprietate, care variaz (n general) aleator de la o unitate la alta a populaiei o vom asimila cu o variabil aleatoare X i o vom numi variabil aleatoare teoretic definit pe populaia . Caracteristicile probabilistice ale variabilei aleatoare teoretice X le vom numi caracteristici teoretice, astfel: m = M ( X ) , media teoretic; D = 2 = D( X ) , dispersia teoretic; mr = M ( X r ) , momentul iniial de ordinul r, teoretic; r = M [( X m) r ] , momentul centrat de ordinul r, teoretic. Cercetarea unitilor din populaia se poate face printr-o observare total sau parial. Cercetarea total (care se efectueaz de exemplu sub form de recensmnt) este o operaie complex, care de cele mai multe ori primete mai multe caracteristici ale unitilor, pentru a realiza o analiz multilateral. Practic, o cercetare total se recomand atunci cnd volumul populaiei nu este prea mare, pentru a evita cheltuieli ce pot depi avantajele concluziilor trase. Carcetarea parial (selectiv) se efectueaz asupra unei subpopulaii , subpopulaie de volum n. Variabila aleatoare asimilat caracteristicii studiate corespunztoare subpopulaiei de selecie este reprezentativ, ceea ce nseamn c n subpopulaia sunt reflectate proprietile ntregii populaii .

Construirea eantionului (subpopulaiei de selecie) se face cu uniti din populaia , alese dup o animit tehnic (dup anumite reguli) numit operaie de sondaj. n efectuarea unui sondaj ntlnim dou metode de baz: a) Sondaj cu revenire (sondaj non-exhaustiv): Fiecare unitate de sondaj extras din pentru a fi studiat, se reintroduce n , dup cercetare, putnd deci s apar din nou n procesul de construcie al eantionului . Efectuarea sondajului cu revenire are ca schem probabilistic urna lui Bernoulli (urna cu bil revenit). n acest caz vom spune c s-a efectuat o selecie repetat de volum n. Sondajele astfel efectuate sunt: Echiprobabile Valorile de selecie astfel obinute sunt independente b) Sondaj fr revenire (sondaj exhaustiv): Fiecare unitate de sondaj extras din pentru a fi studiat nu mai este reintrodus n dup studiere (cercetare). Efectuarea sondajului fr revenire are ca schem probabilistic schema urnei cu bil nerevenit. n acest caz vom spune c s-a efectuat o selecie nerepetat de volum n. OBSERVAIE: Aplicarea seleciei nerepetat nu are sens dect n cazul cnd volumul populaiei este finit. Valorile de selecie astfel obinute sunt dependente. Selecia repetat i selecia nerepetat sunt aplicate colectivitilor omogene. DEFINIIE: O colectivitate este omogen dac este constituit din elemente care sunt susceptibile de a avea sau de a nu avea caracteristica studiat, cu o aceeai pondere. n cazul cnd sondajul se efectueaz dintr-o populaie omogen, el se numete sondaj simplu (selecie simpl) . n cazul cnd populaia nu este omogen din punct de vedere al caracteristicii (al proprietii) cercetate dar poate fi mprit n subpopulaii i , fiecare n parte omogen, ca nite

straturi ale populaiei , se va efectua aa numita selecie stratificat. Fie , o populaie de selecie de volum n. Valorile variabilei teoretice X pentru fiecare unitate din eantionul determin irul de valori X 1 , X 2 ,..., X j ,..., X n . Deoarece participarea oricrei uniti din populaia la eantionul este echiprobabil (deoarece sondajul se face ntmpltor) , fiecare valoare X j din irul anterior se realizeaz n eantion cu aceeai probabilitate 1 . n * Astfel se construiete variabila de selecie X , cu repartiia :
X1 X : 1 n
*

X2 1 n

Xj 1 n

Xn 1 n

Caracteristicile variabilei aleatoare de selecie X * , numite caracteristici de selecie, sunt: (1) 1 n m* = X = X j n j =1 n 1 D* = ( X j X )2 n j =1 1 n * mr = X rj n j =1 1 n r* = ( X j X ) r n j =1 OBSERVAIE: Eantionul , la rndul lui, are un aspect aleatoriu determinat n primul rnd de caracterul ntmpltor al sondajului. Prin urmare, efectund alte sondaje se obin alte eantioane i alte variabile aleatoare de selecie. Putem considera c fiecare valoare X j a argumentului variabilei aleatoare de selecie X * este, la rndul ei, o variabil aleatoare identic din punct de vedere probabilistic cu X, deoarece poate fi oricare din valorile posibile ale lui X i deci are aceleai caracteristici ca i variabila aleatoare teoretic. Adic:

M(X j) = M(X ) D ( X j ) = D( X )
M (X r ) = M (X r ) j

, j = 1,..., n , j = 1,..., n , j = 1,..., n

n cazul cnd variabila aleatoare empiric X * are repartiia de forma : k x x 2 xi x k ; X* : 1 ni = 1 , unde n n n n i =1 2 i k 1 x1 , x 2 , , xi , , x k sunt valorile distincte ale lui X j , j = 1,..., n , iar
n1 , n2 , , ni , , nk sunt frecvenele de apariie. Deci relaiile (1) devin: (1) 1 k m * = x = xi ni n i =1 1 k D * = ( x i x ) 2 ni n i =1 1 k * mr = xir ni n i =1 1 k r* = ( xi x ) r ni n i =1

12.2. Repartiii de selecie O anumit caracteristic (calitativ sau cantitativ) studiat pe o populaie oarecare poate fi considerat ca o variabil aleatoare unidimensional X care are o densitate de repartiie f (x ) sau o funcie de reaprtiie F (x ) . f (x ) i F (x ) se numesc legi teoretice de repartiie a variabilei aleatoare X . S considerm acum c pe baza unei selecii de volum n din populaia obinem valorile X 1 , X 2 , , X n . Cu ajutorul acestor valori (cu ajutorul acestor date de selecie) putem calcula diferii indicatori ca de exemplu: n Media de selecie : X * = X = 1 X k n k =1

n Dispersia de selecie : D * = 1 ( X k X ) 2 n k =1

O funcie Tn ( X 1 , X 2 ,..., X n ) de datele de selecie X 1 , X 2 , , X n se numete statistic . OBSERVAIE: Media de selecie X * i dispersia de selecie D * sunt funcii de datele de selecie X 1 , X 2 , , X n , deci sunt statistici. Fiecare statistic Tn ( X 1 , X 2 ,..., X n ) (de exemplu media de selecie i dispersia de selecie) este, datorit caracterului aleatoriu al seleciei, o variabil aleatoare care la rndul ei are anumite legi de repartiie (f i F) numite repartiii de selecie . Cunoaterea legii de repartiie (repartiiei de selecie) a statisticii Tn ( X 1 , X 2 ,..., X n ) este deoasebit de important deoarece cu ajutorul ei se poate face studiul probabilistic al statisticii Tn ( X 1 , X 2 ,..., X n ) , calculndu-se probabiliti de forma P(Tn < a ) , P( a < Tn < b) ; M (Tn ) , D(Tn ) , etc. OBSERVAIE: Interpretarea datelor de selecie are un dublu neles: X 1 , X 2 , , X n sunt nite numere cunoscute X i , i = 1,..., n sunt variabile aleatoare cu aceleai caracteristici ca i X . n acest fel, prin intermediul statisticii Tn putem trage concluzii referitoare la populaia general din care a provenit selecia (eantionul) . Teoria probabilitilor ne ofer procedee de determinare att a repartiiei exacte, ct i a repartiiei asimptotice a statisticii Tn . Prin repartiia exact a statisticii Tn nelegem repartiia determinat pentru orice volum al seleciei n, iar prin repartiia asimptotic nelegem repartiia limit a statisticii Tn (cnd n ) .

DEFINIIE:

Repartiia exact este util cnd condiiile concrete ale caracteristicii studiate din populaia impune folosirea unei selecii (eantion) de volum redus n 30 . n cazul unor selecii de volum mare ( n > 30 ) folosirea repartiiei asimptotice conduce la rezultate suficient de bune. Repartiia de selecie a statisticii Tn este strns legat i unic determinat de legea de repartiie teoretic a variabilei aleatoare X care a generat selecia. n continuare vom cerceta repatiiile de selecie ale unor statistici Tn construite dintr-o selecie extras dintr-o populaie cu repartiie normal. 1) Tn ( X 1 , X 2 ,..., X n ) = X (media de selecie) 2) Tn ( X 1 , X 2 ,..., X n ) = D (dispersia de selecie) 12.3. Repartiia mediei de selecie pentru o selecie dintr-o populaie normal TEOREMA 1: Dac X 1 , X 2 , , X n este o selecie de volum n dintr-o populaie normal N (m, ) , atunci media de selecie:
X = 1 . ( X 1 + X 2 + + X n ) are o repartiie N m, n n

Demonstraie: Deoarece variabila aleatoare de selecie X k , k = 1,..., n , este o variabil aleatoare normal N (m, ) , ea are funcia caracteristic c X k (t ) = e 2 . (vezi capitolul 10, paragraful 10.2.3.) Aplicnd proprietile funciei caracteristice, obinem funcia caracteristic a variabilei aleatoare 1 X k , k = 1,..., n : n
c 1 (t ) = e
n Xk t 1 t2 im 2 2 n 2 n 1 imt 2t 2

(deoarece caX (t ) = c X ( at ) ).

1 1 1 1 ( X1 + X 2 + + X n ) = X1 + X 2 + + X n n n n n i deci, aplicnd proprietatea P3 a funciei caracteristice (vezi capitolul 3, paragraful 1.6.), avem:

Dar

X =

c X (t ) = e
k =1

t 1 t2 i m 2 2 n 2 n

= e i =1

i n m 2 2 n 2

t2

=e

itm

1 2 2 t 2 n

=e

1 2 itm t 2 n

adic X are repartiia N m, . n OBSERVAIE: Prin urmare, M ( X ) = m , D ( X ) = . n CONSECINA 1: Considerm variabila aleatoare redus X m Z= n pe care o putem scrie sub forma unei expresii liniare n n n funcie de X , adic Z = X X . Atunci : n n X m n n M(Z) = M n = M( X) M m = [M(X) m] = [m m] = 0
2

n n n X m n 2 =1 D( Z ) = D n = D X D m = D( X ) = 2 n X m Prin urmare, Z = n are repartiia normal de tip N (0,1) .

TEOREMA 2: Dac X 11 , , X 1n1 este o selecie de volum


n1 din populaia normal N ( m1 , 1 ) i X 21 , , X 2 n2 este o selecie

de volum
X1 = 1 n1

n2
1j

din populaia normal i


X2 = 1 n2

N ( m 2 , 2 ) , i dac

X
j =1

n1

X
k =1

n2

2k

sunt mediile de selecie

corespunztoare, atunci variabila aleatoare Y = X1 X2 = X1 + (X2 )


2 2 are o repartiie normal N m1 m2 ; 1 + 2 . n1 n2

Demonstraie: Funcia caracteristic a mediei de selecie


c X (t ) = e
1

X1

este .

t 2 2 itm1 1 2 n1

i ale mediei de selecie X 2 este c X (t ) = e 2

2 t 2 2 itm2 2 n2

OBSERVAIE: Funcia caracteristic a variabilei aleatoare


X 2 este de forma : c X (t ) = e 2
itm 2
2 t 2 2 2 n2

, conform proprietii P4 a

funciei caracteristice (vezi capitolul 4, paragraful 4.2.3.) . Deoarece X 1 i X 2 sunt variabile aleatoare independente, funcia caracteristic a variabilei aleatoare Y = X 1 X 2 = X 1 + ( X 2 ) este (conform proprietii P3 a funciei caracteristice):
cY (t ) = e
itm1
2 t 2 1 2 n1

itm 2

2 t 2 2 2 n2

=e

it ( m1 m 2 )

2 2 t2 1 2 + 2 n1 n 2

2 2 Prin urmare Y are repartiia N m1 m2 ; 1 + 2 . n1 n2

OBSERVAIE: Ultima afirmaie rezult din faptul c variabila aleatoare X cu repartiia N (m, ) are funcia caracteristic
c X (t ) = e
imt t 2 2 2

Din teorema 2 rezult c repartiia variabilei aleatoare normate Z = X 1 X 2 ( m1 m2 ) are o 2 12 2 + n1 n2 repartiie de tipul N (0,1) .

CONSECINA 2:

12.3.1. Legtura cu variabila aleatoare 2 cu n grade de libertate

Se tie c variabila aleatoare 2 are densitatea de probabilitate:

k x 1 1 x2 e 2 , x > 0 k k f ( x; k ) = 2 2 2 0 , x 0

Se poate demonstra c dac Z k , k = 1,..., n sunt variabile aleatoare normale N (0,1) , atunci variabila aleatoare Z k2 este:
k =1 n

2 = Z k2 , cu n grade de libertate i are deci densitatea de


k =1

probabilitate :
h( x ) = 1
n 2 2 2
n n

x2 e

x 2

, x > 0.

tim c M ( 2 ) = n i D ( 2 ) = 2n (vezi capitolul 10, paragraful 10.2.6). Este adevrat urmtoarea teorem: TEOREMA 3: Dac X 1 , X 2 , , X n este o selecie de volum n dintr-o populaie normal N (0,1) , atunci variabila aleatoare
2 Y = X k2 este o variabil aleatoare cu n grade de libertate.
k =1 n

12.4. Repartiia dispersiei de selecie pentru o selecie dintr-o populaie normal Dispersia D a unei populaii oarecare poate fi evaluat pe baza seleciei X 1 , X 2 , , X n n urmtoarele moduri:

Dac media m a populaiei generale este cunoscut, atunci n dispersia de selecie este dat de: D ' = 1 ( X k m ) 2 = S *2 (1) n k =1 b) Dac media m a populaiei nu este cunoscut, atunci media o n putem aproxima cu media de selecie X = 1 X k i dispersia de n k =1 n selecie este: D * = 1 ( X k X ) 2 = S 2 (2) n k =1 c) n cazul seleciilor de volum mic, evalum dispersia D a populaiei cu dispersia de selecie dat de relaia : 1 n ~ D= s ( X k X )2 = ~2 n 1 k =1 a) n cele ce urmeaz vom stabili repartiia unor funcii de ~ variabilele aleatoare D' , D * , D pentru selecii dintr-o populaie normal. Sunt adevrate urmtoarele proprieti: TEOREMA 1: Dac X 1 , X 2 , , X n este o selecie dintr-o populaie N (m, ) , atunci variabila aleatoare U ' = nD' are o 2 repartiie 2 cu n grade de libertate. Demonstraie:
2 2 i m) n n nD ' X m 2 i =1 U'= 2 = = i = Zi , 2 i =1 i =1 unde Z i este o variabil aleatoare cu repartiia N (0,1) . Conform

1 n

(X

teoremei 3 din paragraful anterior, U ' este o repartiie 2 cu n grade de libertate. Prin urmare M (U ' ) = n i D(U ' ) = 2n . Deci : n M (U ' ) = 2 M ( D' ) = n M ( D' ) = 2 2 4 n D (U ' ) = 2 D( D ' ) = 2n D ( D' ) = n

TEOREMA 2: Dac X 1 , X 2 , , X n este o selecie de volum n dintr-o populaie N (m, ) , atunci variabila aleatoare ~ ( n 1) D are o repartiie 2 cu ( n 1) grade de libertate. U= 2 ~ Prin urmare, variabila U = ( n 1) D are densitatea de 2 n 1 x 1 1 probabilitate de forma : h( x ) = x 2 e 2 , x > 0. n 1 n1 2 2 TEOREMA 3: Dac X 1 , X 2 , , X n este o selecie de volum n dintr-o populaie normal N (m, ) , atunci variabila ~ ~ aleatoare t = X m n , unde = D , are o repartiie Student cu ~ ( n 1) grade de libertate. CONSECIN: Dac X 11 , , X 1n1 este o selecie de

volum n1 din populaia normal N ( m1 , 1 ) i X 21 , , X 2 n2 este o selecie de volum n2 din populaia normal N ( m2 , 2 ) , i dac 1 n2 1 n1 X 1 = X 1 j i X 2 = X 2k sunt mediile de selecie n2 k =1 n1 j =1
n1 n2 ~ ~ corespunztoare, iar D = 1 (X1k X1)2 i D2 = 1 (X2k X2)2 sunt 1 n1 1 k=1 n2 1 k=1 dispersiile de selecie corespunztoare, atunci variabila aleatoare:

t=

( X 1 X 2 ) ( m1 m2 ) ~ ~ ( n1 1) D + ( n2 1) D n1 + n2 2

are o repartiie Student cu ( n1 + n2 2) grade de libertate. TEOREMA 4: Fie X 1 , X 2 , , X n o selecie (independent) de volum n dintr-o populaie avnd o repartiie oarecare de medie m

n i abatere medie ptratic , finite. Atunci X = 1 X k are, n k =1 pentru n o repartiie normal N m, . n

Demonstraiile teoremelor enunate n acest paragraf se gsesc n /2/ , /1/, /3/ .


12.5. Estimaie punctual

Fie variabila de selecie X * sub una din formele empirice :


X1 X* : 1 n x X* : 1 n 1

X2 1 n

Xj 1 n

Xn 1 , sau n

x2 n2

xi ni

xk , cu nk

n
i =1

= 1.

Datorit volumului de selecie n, modului de efectuare a sondajului, valorile numerice oferite de selecie reflect valorile variabilei teoretice X care reprezint caracteristica (proprietatea) studiat din . Aceste aprecieri au la baz teorema lui Glivenco (teorema fundamental a statisticii matematice) care se refer la legtura strns care exist ntre funcia de repartiie teoretic F (x ) a variabilei aleatoare teoretice X i funcia de repartiie empiric Fn (x ) . DEFINIIE: Prin funcia de repartiie empiric a unei variabile aleatoare X, dup extragerea unei selecii de volum n, nelegem funcia definit de relaia Fn ( x ) = n x , unde n x reprezint n numrul de observaii n care a aprut o valoare a variabilei aleatoare X (a caracteristicii X), mai mic dect x.

Reamintim c funcia de repartiie teoretic F (x ) a variabilei aleatoare X este F ( x ) = P ( X < x ) . TEOREMA LUI GLIVENCO: Fie Fn (x ) funcia de repartiie empiric corespunztoare unei selecii de volum n ce provine dintr-o populaie caracterizat de variabila aleatoare X avnd funcia de repartiie F (x ) . Atunci: P( lim sup Fn ( x ) F ( x ) = 0) = 1 .
n xR

Adic, cu ct n este mai mare, cu att Fn (x ) aproximeaz mai corect pe F (x ) . Conform teoremei lui Glivenco, putem accepta principiul de baz al teoriei seleciei: Variabila aleatoare de selecie X * converge n lege ctre variabila aleatoare teoretic X, iar caracteristicile variabilei de selecie converg n probabilitate ctre caracteristicile corespunztoare ale variabilei aleatoare teoretice. DEFINIIE: Operaia prin care se evalueaz parametrii necunoscui ai unei legi de probabilitate se numete estimarea parametrilor. Estimarea se face pe baza unei selecii X 1 , X 2 , , X n de volum n, extras din populaia pe care este definit variabila X, cu lege specificat, care conine parametrul ce trebuie estimat.
12.5.1. Estimator; estimator consistent

Fie X variabila aleatoare cu legea f ( x, ) care depinde de un parametru necunoscut . Vrem s-l determinm pe din datele de selecie ale variabilei aleatoare de selecie X * . DEFINIIE: Se numete estimaie punctual a parametrului , o anumit funcie (statistic) * = * ( X 1 ,..., X n ) cu ajutorul creia tragem concluzii asupra valorii necunoscute a parametrului .

OBSERVAIE:Estimatorul * astfel definit este o variabil aleatoare (fiind o funcie care depinde de valorile de selecie X 1 , X 2 , , X n ), pe cnd reprezint o valoare constant a variabilei aleatoare teoretice X . Orice valoare * (valoare calculat a estimatorului * ) C determinat de o anumit selecie reprezint o valoare estimat pentru . DEFINIIE:
n

Funcia de estimaie * = * ( X 1 ,..., X n ) ,

pentru care lim P ( * < ) = 1 se numete funcie de estimaie


consistent, iar estimatorul * se numete estimator consistent. 12.5.2. Estimator absolut corect; estimator corect

DEFINIIE: Estimatorul * este un estimator absolut corect dac: 1) M ( * ) = 2) D ( * ) 0


n

Spunem atunci c orice valoare calculat a * a acestui C estimator, estimeaz absolut corect pe . DEFINIIE: Estimatorul * este un estimator corect dac: 1) M ( * )
n

2) D( * ) 0
n

estimator, estimeaz corect pe .

Spunem atunci c orice valoare calculat * a acestui C

Se poate demonstra urmtoarea teorem , a crei demonstraie se gsete n /2/: TEOREM: estimator consistent. Orice estimator absolut corect este i un

x EXEMPLU: Fie repartiia Poisson X : x , x 0 e x! cu M ( x ) = D( x ) = . (vezi capitolul 10, paragraful 10.1.4. ) . n Vom arta c media de selecie X = 1 X j este un estimator n j=1 absolut corect pentru . 1 n 1 n 1 M (X ) = M X j = M (X j ) = n = . n n n j =1 j =1

1 n 1 n 1 D ( X ) = D X j = 2 D ( X j ) = 2 n = 0 n n n n n j =1 j =1 Deci media de selecie X este un estimator absolut corect al parametrului din repartiia Poisson.

12.5.3. Estimator de maxim verosimilitate

Fie variabila aleatoare teoretic X cu funcia de probabilitate f ( x, ) , care depinde de parametrul . Acest parametru trebuie estimat pe baza datelor de selecie X 1 , X 2 , , X n . Funcia de probabilitate f ( x, ) , corespunztoare valorilor X 1 , X 2 , , X n este f ( X j ; ) = P( X = X j ) , j = 1,..., n . Deoarece variabila de selecie X * presupune realizat evenimetul n ( X = X j ) , rezult c nsi realizarea variabilei de selecie j =1 constituie un eveniment care are un anumit grad de reprezentare a variabilei teoretice, constituind astfel verosimilitatea de reflectare a variabilei teoretice X de ctre variabila de selecie X * . Aceast verosimilitate este msurat de probabilitatea : n n L( X1, X2 ,...,Xn ; ) = P ( X = X j ) , adic L( X1, X2 ,...,Xn ; ) = f ( X j ; ) j=1 j=1

L( X 1 , X 2 ,..., X n ; ) = f ( X j ; )
j =1

, numit funcia de

verosimilitate a seleciei. Vom determina (estima) parametrul punnd condiia ca verosimilitatea s fie maxim. Punem deci condiia
L( X 1 ,..., X n; ) = 0 sau
f ( X j ; )
j =1 n

= 0.

Deoarece maximul funciei L are loc pentru aceleai valori ca i maximul funciei ln L , ecuaia precedent poate fi nlocuit prin una mai avantajoas din punct de vedere al calculelor : n ln f ( X ; ) ln L( X 1 ,..., X n ; ) j = 0 sau = 0. j =1 n ln f ( X ; ) j Ecuaia = 0 se numete ecuaia de j =1 verosimilitate maxim. DEFINIIE: Orice soluie a ecuaiei de verosimilitate maxim se numete estimator de maxim verosimilitate . OBSERVAIE: n general, un estimator de maxim verosimilitate este i un estimator consistent. Adic lim P ( * < ) = 1 .
n

S se determine estimatorul de maxim x verosimilitate din repartiia Poisson X : x , x 0 , unde e x! x . f ( x; ) = e x! Funcia de verosimilitate este : X n n j Logaritmnd, L( X 1 ,..., X n ; ) = f ( X j ; ) = e ( X j )! j =1 j =1 obinem: ln L( X 1 ,..., X n ; ) = { + X j ln ln[( X j )!]}.
n j =1

EXEMPLU:

Ecuaia de maxim verosimilitate este:


lnL n 1 = 1+ X j = 0 j=1

sau

n +

1n X j = 0 * = j=1n * = X . j=1

n concluzie, media de selecie n repartiia Poisson este un estimator de maxim verosimilitate pentru parametrul . OBSERVAIE: n cazul repartiiilor X care au funcia de probabilitate depinznd de mai muli parametri f ( x; 1 , 2 ,..., s ) , parametrii 1 , 2 ,..., n se determin din sistemul de ecuaii ln L( X 1 ,..., X n ; 1 ,..., s ) = 0 , i = 1,..., s . i EXEMPLU: S se determine estimaiile de maxim verosimilitate ale parametrilor m i ale unei variabile aleatoare normale f ( x; m, ) cu ajutorul unei selecii X 1 , X 2 , , X n .
1 f ( x ; m, ) = e 2 2 1 X m
2

, > 0 , xR, mR .
1
n 2

n ( 2 ) 1 n n ln L( X 1 , , X n ; m, ) = n ln ln(2 ) ( X i m) 2 2 2 2 i =1
ln L( X 1 ,..., X n ; m, ) 1 2 n = 2 ( X i m)( 1) = 0 m 2 i =1 ln L( X 1 ,..., X n ; m, ) n 1 n = + 3 ( X i m) 2 = 0 i =1
m* = X 1 n n m = Xi ( Xi m) = 0 n i =1 n i=1 n n (Xi m)2 1 ( X m)2 = n 2 = 1 ( X m) 2 * i=1 i 2 i = n i =1 i=1 n

L( X 1 , , X n ; m, ) = f ( X i ; m, ) =
i =1

1 2 2

( X i m )2
i =1

n concluzie, m * i * sunt estimatori de maxim verosimilitate pentru m i din f ( x; m, ) . 12.6. Estimarea prin intervale de ncredere Am vzut c estimaiile punctuale sunt afectate de erori, ele reprezentnd numai valori aproximative ale adevratelor valori ale parametrilor estimai. Deoarece o estimaie variaz n precizie, ea trebuie s fie nsoit de o indicaie cu privire la precizia ei, adic ct de aproape poate fi estimaia de valoarea parametrului pe care trebuie s-l estimeze. Apare astfel necesitatea de a se indica un interval despre care s se poat afirma, cu o probabilitate cunoscut, c acoper valoarea parametrului estimat, care este o mrime constant. Presupunem c proprietatea studiat este determinat de o variabil aleatoare X care are legea de repartiie teoretic f ( x; ) care depinde de parametrul . Se efectueaz o selecie de volum n din care obinem valorile de selecie X 1 , X 2 , , X n . S presupunem de asemenea c avem dou funcii de selecie (statistici) ( X 1 , , X n ) i ( X 1 , , X n ) , < , astfel nct probabilitatea inegalitii < < s fie ndeplinit de , adic : P[ ( X 1 , , X n ) < < ( X 1 , , X n )] = 1 (1) unde nu depinde de . Pentru o selecie realizat, funciile i iau valori bine determinate i vom spune c am gsit un interval ( , ) care acoper parametrul necunoscut [altfel spus ( , ) ] cu un grad de siguran garantat de probabilitatea (1 ) unde este foarte mic. DEFINIIE: (i) Intervalul ( , ) se numete interval de ncredere pentru parametrul (sau interval de estimaie). (ii) se numete limita inferioar a intervalului de ncredere. (iii) se numete limita superioar a intervalului de ncredere.

(iv) Probabilitatea (1 ) se numete probabilitate confidenial sau coeficient de ncredere (siguran). OBSERVAII:
Parametrul este o valoare bine determinat. Intervalul ( , ) este un interval aleator care variaz de la o selecie la alta. Cu ct intervalul ( , ) este mai mic i este mai mic, cu att estimarea parametrului este mai bun. Practic, pentru se iau valorile = 0,05 ; = 0,01 ; = 0,02 , etc.

Se consider variabila aleatoare X cu funcia de probabilitate f ( x; ) . Ne propunem ca pe baza unei selecii X 1 , X 2 , , X n s determinm un interval de ncredere pentru parametrul necunoscut. Metoda const n gsirea unei funcii U ( X 1 , , X n ; ) care depinde de datele de selecie i de , i are proprietile: a) U este bine definit pe orice punct din intervalul valorilor posibile ale lui . b) U este continu i monoton n raport cu . c) Repartiia sa g (u) nu depinde de parametrul i nici de ali parametri. Atunci, pentru fiecare coeficient de ncredere (1 ) , folosind repartiia g (u) a statisticii U , putem gsi limitele u1 i u2 care depind de , dar sunt independente de datele de selecie, asftel nct: u2 P(u1 < U < u2 ) = g (u )du = 1 (2)
u1

12.6.1. Intervale de ncredere pentru parametrii repartiiei normale :


x , X : f ( x)
1 f ( x; m , ) = e 2 2 1 x m
2

xR,

mR,

>0,

(i) Interval de ncredere pentru media m cnd 2 este cunoscut

Alegem statistica: U ( X 1 , , X n ; m ) = X m n (1) care este monoton i continu n raport cu m i a crei funcie de repartiie este N (0;1) , cu densitatea:
g (u ) = 1 2 2 e 2
1 u2

(2).

Funcia (2) nu depinde de m i nici de ali parametri . Prin urmare vom putea determina numerele u1 i u2 astfel nct: P(u1 < U < u2 ) = 2 g (u )du = 1 , sau:
u1 u u2 2

(3) P u1 < X m n < u2 = 1 2

u2

u1

du = 1

u u u u (4) P 1 < X m < 2 X = P X 2 < m < X 1 = 1 n n n n Am obinut deci intervalul de ncredere pentru m, u u (5) X 2 ,X 1 n n cu probabilitatea 1 .

OBSERVAIE: Deoarece ntre u1 i u2 avem o singur relaie, dat de (3) putem obine o infinitate de intervale de ncredere cu probabilitatea 1 . Evident, un interval de ncredere este cu att mai bun cu ct este ct mai mic. Cutm deci intervalul dat de relaia (5), de lungime minim. Fie l lungimea intervalului. Atunci l = (u2 u1 ) n Vom minimiza lungimea intervalului l , cu condiia (3), adic rezolvm problema:

min l = n (u2 u1 ) u 2 g (u )du = 1 u1


Utilizm metoda multiplicatorilor lui Lagrange: u Fie L(u1 , u2 ; ) = (u2 u1 ) + [ 2 g (u )du (1 )] u1 n L u = n g (u1 ) = 0 1 g ( u1 ) = g (u 2 ) , care are soluiile L = + g (u2 ) = 0 u2 n u1 = u 2 care nu convine i soluia u1 = u 2 Notm
1 2

z = u2 = u1 .

Atunci

ecuaia dar

(4)

devine

u2 2

du = 1 F ( z) F (z) = 1 ,

F ( z) = F ( z) ,

deci 2F( z) 1 = 1 F ( z) = 1 z = F 1 1 . 2 2 u1 = z = z 1 2 2 Dar z = z 1 2 2 u2 = z1 2 Deci intervalul de ncredere este :


X z <m< X +z 1 1 n n 2 2

(ii)

Interval de ncredere pentru media m cnd este necunoscut

Considerm funcia de selecie U( X1, , Xn ; m) = X m n = t , S n unde S 2 = 1 ( X i X ) 2 . Am vzut c t are o repartiie Student n 1 i =1

cu ( n 1) grade de libertate. Analog punctului anterior se poate arta c intervalul de ncredere este:
S S X t <m< X +t 1 ;n 1 1 ;n 1 n n 2 2

12.7.

Estimarea parametrilor unei variabile aleatoare prin metoda momentelor

Fie populaia n care studiem o proprietate dat de variabila aleatoare teoretic X definit pe . Variabila X are momentele iniiale i centrate m r i r cunoscute. Se efectueaz o selecie de volum n i se consider variabila aleatoare de selecie X * cu momentele iniiale de selecie * i momentele centrate de selecie m r , r* .
* TEOREM: Momentul de selecie m r este un estimator absolut corect al momentului teoretic m r . Demonstraie: * m r este un estimator absolut corect al lui m r dac * * M (mr ) = mr i lim D( mr ) 0 . ntr-adevr:
n

1 n 1 1 * M (mr ) = M X r = M ( X r ) = n mr = mr j j n n j =1 n 1 n 1 n m mr2 1 * D(mr ) = D X r = 2 D( X r ) = 2 n (m2r mr2 ) = 2r 0 j j n n n n j=1 n j=1

OBSERVAIE: Aplicarea metodei momentelor la estimarea parametrilor 1 , , s a unei funcii f ( x; 1 , , s ) const n scrierea unui sistem de s ecuaii pentru cei s parametrii. Acest sistem se formeaz prin scrierea primelor s momente ale variabilei aleatoare teoretice X care sunt egale cu momentele de acelai ordin ale variabilei aleatoare empirice X * . EXEMPLU: Fie f ( x; ) = 1 x 1e x , x > 0 , > 0 . Se ( ) efectueaz o selecie de volum n : X 1 , X 2 , , X n . Scriem c

momentul de ordinul 1 al variabilei aleatoare X este egal cu momentul de selecie de ordinul 1. ( + 1) 1 x M ( X ) =m1= 0xf ( x; )dx = () 0 x e dx = () = 1n * = X j n n j=1 M ( X * ) = m* = 1 X j 1 n i=1 OBSERVAIE: Ne putem pune ntrebarea ce moment empiric este cel mai potrivit pentru estimarea momentului teoretic? Din exemplul anterior rezult: 1 n m2 = ( + 1) ( + 1) = X j n j =1 1 n m3 = ( + 1)( + 2) ( + 1)( + 2) = X 3 j n j =1 Se observ chiar c valorile lui astfel determinate nu satisfac (n general) i ecuaiile anterioare, deci metoda se complic. n aceste situaii este indicat aplicarea metodei intervalelor de ncredere.
12.8. Verificarea ipotezei cu privire la legea de repartiie a unei variabile aleatoare

O ipotez statistic se refer fie la forma legii de repartiie a unei populaii (normal, exponenial, etc.) fie la parametrii coninui n aceast lege (medie, dispersie), i ea se verific folosind rezultatele obinute ntr-o selecie aleatoare extras din populaia cercetat. Fie variabila aelatoare X care reprezint o proprietate considerat pe o populaie a crei repartiie f ( x, ) are o form cunoscut, dar care depinde de un parametru necunoscut . Ipoteza conform creia are valoarea 0 , se noteaz : H 0 : = 0 i poart numele de ipoteza nul . S presupunem c n afara valorii 0 , parametrul mai poate avea i una din valorile 1 , 2 ,... . Ipotezele H i : = i , i = 0,1,2,... se numesc ipoteze admisibile, iar H i : = i , i = 1,2,... se numesc ipoteze alternative ale ipotezei nule H 0 .

n cele ce urmeaz vom considera dou ipoteze: ipoteza nul H 0 i alternativa ei, H 1 ca ipotez contrar ipotezei H 0 , explicnd n ce const verificarea unei ipoteze statistice, procedeul de verificare, precum i unele noiuni legate de acestea.
Testul statistic este o metod sau un criteriu dup care ipoteza de verificat se accept sau se respinge. El stabilete, dup natura observaiilor, pentru care selecii ipoteza se accept i pentru care se respinge. Datorit caracterului ntmpltor al seleciei, la verificarea unei ipoteze statistice, exist ntotdeauna riscul de a lua o decizie eronat. Cnd pe baza datelor seleciei respingem ipoteza H 0 de verificat, dei n realitate este adevrat, spunem c am comis o eroare de genul nti, iar cnd acceptm ipoteza H 0 care n realitate este fals, spunem c am comis o eroare de genul doi. Probabilitatea erorii de genul nti se numete risc de genul nti (prag sau nivel de semnificaie) i-l notm cu , iar probabilitatea erorii de genul doi se numete risc de genul al doilea i se noteaz cu . Pentru construirea testului statistic cu ajutorul cruia verificm ipoteza statistic H 0 trebuie s avem n vedere urmtoarele: a) determinarea unei funcii (o statistic) T ( X 1 ,..., X n ) de datele de selecie numit statistica testului, cu caretestm ipoteza H 0 ; b) valoarea admisibil a pragului de semnificaie; c) ipoteza alternativ H 1 opus ipotezei H 0 ; d) regiunea critic W a ipotezei H 0 corespunztoare statisticii T a testului, prin care nelegem acea mulime de valori ale statisticii T astfel nct dac valoarea observat a lui T aparine acestei mulimi, atunci ipoteza H 0 se respinge, acceptndu-se H 1 . n caz contrar se accept H 0 . Regiunea critic W este astfel determinat nct probabilitatea comiterii erorii de genul doi s fie minim i probabilitatea ca T obinut prin selecie s-i aparin cnd H 0 este adevrat, s fie egal chiar cu , adic vor fi ndeplinite condiiile: P(T W / H 0 ) = i P (T W / H 1 ) = maxim

Conform definiiei riscului , putem scrie P(T W / H1) = , unde W este complementara mulimii W . Probabilitatea de a respinge H 0 ca fals (fiind adevrat H 1 ) adic de a nu comite eroarea de genul doi este: (W , H 1 ) = P(T W / H 1 ) = 1 i poart numele de puterea testului, care este cu att mai mare cu ct este mai mic. Pn acum am presupus c repartiia teoretic a variabilei aleatoare X este specificat, iar n cele mai multe cazuri este repartiia normal. De foarte multe ori chiar specificarea repartiiei reprezint o ipotez care trebuie verificat. De aceea, practica statistic pune problema realizrii unei legturi ntre variabila empiric (de selecie) X * i variabila teoretic X . x x 2 xi x k k ; , Fie variabilele: X * : 1 n n n n ni = 1 i =1 2 i k 1
x i X : . f ( x) Se va cerceta dac irul numeric al frecvenelor absolute empirice ni reflect legea ipotetic a variabilei teoretice X , concretizat n funcia f ( x; a1 ,..., a k ) .

Rezolvarea acestei probleme presupune urmtoarele etape: 1. Estimarea parametrilor, fcut innd seama de eventualele semnificaii pe care le pot avea n legtur cu caracteristicile distribuiei teoretice i de calitile estimaiei respective. 2. Se construiete, dup estimarea parametrilor, variabila pseudo-teoretic: k x 2 xi x k x X' : 1 ; n' i = 1 , fcndu-se legtura n' n ' n' n ' i =1 2 i k 1 ntre variabila empiric X * i variabila teoretic X . Determinarea frecvenelor absolute calculate ni este realizat prin intermediul funciei de probabilitate, folosind relaia:

ni* * = f ( x; a1 ,..., a k ) , de unde ni = ni f ( x; a1 ,..., a k ) , i = 1,..., n . ni

OBSERVAIE: Datorit unor proprieti ale au funciilor de probabilitate f ( x ) pentru determinarea frecvenelor calculate n' i , de cele mai multe ori se folosesc formulele de recuren, pornindu-se de la valoarea dominant (cu maximum de probabilitate a realizrii argumentului).
3. Verificarea ipotezei H 0 de concordan ntre repartiia empiric i repartiia teoretic, ipotez ce se verific folosind aanumitele teste de concordan . a) Testul de concordan 2 :

2 k Studiind funcia 2 = ( ni n ' i ) , K.Pearson a artat c, n'i i =1 n cazul unui sondaj cu revenire n populaia studiat, cnd probabilitile pi nu sunt apropiate de 0 sau 1, iar produsele n' i = ni pi , unde pi = f ( xi ) , dup estimarea parametrilor, nu sunt prea mici (practic nu sunt mai mici dect 5), funcia considerat are repartiia 2 cu ( s 1) k grade de libertate, s fiind numrul de valori observate, iar k numrul parametrilor estimai.

OBSERVAII:
Dac legea presupus este legea Poisson, ea are un singur parametru, deci k = 1 , iar numrul gradelor de libertate va fi ( s 1) 1 = s 2 ; dac legea presupus este legea normal, atunci k = 2 i avem ( s 1) 2 = s 3 grade de libertate. Dup cum am precizat mai sus, legea 2 condiia ca n' i = ni pi s nu fie numere mai mici dect 5. n cazul n care exist astfel de numere, se vor cumula la prima frecven ni mai mare ca 5. Aceasta face ca numrul s s fie modificat corespunztor noii situaii, devenind ~ , iar numrul gradelor de libertate devenind s ( ~ 1) k . Dac ntre repartiia de selecie i repartiia teoretic s

exist concordan, atunci statistica

2 definit n relaia

2 =
i =1

( ni n ' i ) 2 trebuie s fie mai mic i nu va depi o valoare n'i

determinat

(2s 1) k ; corespunztoare numrului gradelor de libertate ( s 1) k i pragului de semnificaie dat. Regiunea critic a testului va fi dat de inegalitatea 2 > (2s 1) k ; i deci,
acceptm ipoteza H 0 , n caz contrar o

dac 2 (2s 1) k ; respingem.


b)

Testul de concordan al lui Kolmogorov:

Din studierea convergenei funciei empirice de repartiie F ( x ) ctre funcia teoretic de repartiie F ( x ) , Kolmogorov a demonstrat urmtoarea teorem: 2 unde > 0 i lim P d n < = K ( ) = ( 1) k e 2 k 2 , n n k = d n = max Fn ( x ) F ( x ) . Funcia K ( ) este calculat n tabele pentru diverse valori ale lui (tabelul distribuiei Kolmogorov) . Cu ajutorul acestei teoreme se poate da un criteriu de verificare a ipotezei H 0 c repartiia empiric urmeaz o anumit lege de repartiie. Dac ipoteza H 0 este adevrat, atunci diferenele
Fn ( x ) F ( x ) nu vor depi o anumit valoare d ;n pe care o fixm

astfel nct: P( d n > d ;n / H 0 ) = , unde este riscul de gradul nti. Dar P( d n > d ;n ) = 1 P( d n d ;n ) . Lund d ;n = , nseamn c atunci cnd H 0 este n adevrat i n suficient de mare avem: P d n > = 1 P d n = 1 K ( ) = . n n Unui prag de semnificaie dat i corespunde prin relaia K ( ) = 1 o valoare astfel nct, pentru un volum n dat al seleciei gsim valoarea d ;n = . n

Regiunea critic pentru ipoteza H 0 este dat de relaia


dn >

. Deci:
n

dac dn < , exist concordan ntre Fn ( x ) i F(x) i se n accept ipoteza H 0 . dac dn , nu exist concordan i respingem ipoteza n H0 .

EXEMPLU: Pentru a organiza mai bine serviciul n perioada de vrf, la un sector al unui magazin se cerceteaz sosirile cumprtorilor la raionul respectiv, ct i timpul de servire al unei persoane. Astfel, considernd intervalele de timp de 5 minute, luate la ntmplare n perioada de vrf, se numr de fiecare dat cte persoane sosesc la raionul urmrit. Au fost cercetate 200 perioade de cte 5 minute, obinndu-se rezultatele din tabelul T1 , n care am notat cu x numrul care arat n cte perioade din cele 200 cercetate am observat exact x sosiri. S-a msurat, pe de alt parte, timpul de servire a 30 cumprtori, luai la ntmplare, n perioada de vrf, obinndu-se datele din tabelul T2 , unde am notat cu y timpul de servire al unui cumprtor i cu n y numrul de cumprtori, pentru care timpul de servire este y. Deoarece variabila aleatoare y este continu, crecetarea a fost fcut pe intervale de cte 30 secunde (0,5 minute), pe care le vom reduce n calcule la jumtile lor. a) S se testeze ipoteza H 0 c sosirile cumprtorilor la raionul considerat sunt de tip Poisson. b) S se testeze ipoteza H 0 c timpul de servire a unui cumprtor are o distribuie exponenial.

Tabelul T1 :

NR. SOSIRI N 5 MIN. (X) 0 1 2 3 4 5 6 7 8 9 10 11 12 Total


Tabelul T2 :

FRECVENE ABSOLUTE ( n x ) 1 16 31 37 41 30 23 13 6 1 0 1 0 200

INTERVAL DE TIMP ( yi 1 ; yi ) 0,5-1 1-1,5 1,5-2 2-2,5 2,5-3 Total

FRECVENE ABSOLUTE ( n y ) 18 8 2 1 1 30

a) Facem o ajustare a repartiiei empirice din tabelul T1 dup o repartiie Poisson: x f ( x; ) = e , x = 1,2,... x!

Deoarece media repartiiei Poisson este egal cu , vom estima parametrul prin media de selecie X , deci: x n x 800 =X= x = = 4. n x 200
x

Determinm frecvenele n' x = 200 e 4 4 , calculnd nti x! pentru x = 4 , considerat ca cea mai probabil din tabelul T1 :
44 = 39,1 i apoi celelalte, folosind formulele de 4! recuren care sunt uor de dedus: n' x 1 = x n ' x , pentru x < 4 i n' x = 200 e 4 n ' x , pentru x > 4 . Rezultatele obinute se trec n x +1 coloana n' x a tabelului: n' x +1 =

Tabelul T3 :

x
1 0 1 2 3 4 5 6 7 8 9 10 11 12 Total

nx

x nx

n' x

n x n' x

(n x n'x )2 n'x

2 1 16 31 37 41 30 23 13 6 1 0 1 0 200

3 0 32 62 111 164 150 138 91 48 9 0 11 0 800

4 3,7 14,7 29,3 39 39,1 31,4 20,8 11,9 6,0 2,6 1,0 0,4 0,1 200

5 -1,4

6 0,11

1,7 -2 1,9 1,4 2,2 1,1

0,10 0,11 0,99 0,06 0,29 0,10

-2,1

0,44

2 = 2 ,14

Pentru a testa ipoteza H 0 , aplicm testul 2 , motiv pentru care am cumulat valorile mici de pe coloanele lui n x i n' x . S-a obinut: 12 ( n n' x ) 2 2 = x = 2,14 n' x x =0 Pentru nivelul de semnificaie = 0,05 i numrul gradelor 2 2 de libertate 6, gsim 0, 05;6 = 12,59 . Avem C < 02, 05;6 , deci acceptm ipoteza H 0 , adic sosirile cumprtorilor la raionul respectiv sunt de tip Poisson, cu media = 4 persoane n 5 minute. b) Facem aici o ajustare a repartiiei empirice din tabelul T2 , dup o repartiie exponenial de forma: f ( y ) = e y , y > 0 . Drept valori ale lui y vom considera tabelul T4 mijloacele intervalelor timpilor de servire i calculm valoarea medie a variabilei empirice cu formula: y n y = 32 = 1,07 Y = M (Y ) = n y 30 Pentru c estimatorul de maxim verosimilitate al 1 parametrului este , estimm pe prin: = 1 = 30 = 0,925 . Y Y 32 Pentru a testa ipoteza H 0 vom aplica testul lui Kolmogorov. n acest scop calculm mai nti coloana Fn ( y ) a funciei de repartiie empirice, cumulnd pe fiecare linie frecvenele absolute din linia respectiv i de deasupra ei i mprind rezultatul la 30. De exemplu: 8 + 18 F2 ( y ) = = 0,87 30 Calculm apoi valorile corespunztoare ale funciei de repartiie teoretic F ( y ) folosind formula cunoscut a acesteia: F ( y ) = 1 e y , pentru = 0,925 De exemplu: F (2,25) = 1 e 2, 250, 925 = 0,87 . Ultima coloan a tabelului T4 conine diferenele Fn ( x ) F ( x ) cu cea mai mare dintre ele evideniat.

Tabelul T4 :
[ yi 1 yi )

yi

ni

y i ni

Fn ( y )

F ( y)

Fn ( y ) F ( y )

0,5-1 1-1,5 1,5-2 2-2,5 2,5-3 Total

0,75 1,25 1,75 2,25 2,75

18 8 2 1 1 30

13,50 10,00 3,50 2,25 2,75 30,00

0,66 0,87 0,93 0,97 1,00

0,60 0,75 0,84 0,87 0,94

0,00 0,12 0,09 0,10 0,06

Considernd drept nivel de semnificaie = 0,01 , tabelul corespunztor testului lui Kolmogorov d = 1,63 i cum n = 5 avem: 1,63 = = 0,73 > 0,12 = max Fn ( x ) F ( x ) = d n n n Acceptm ipoteza H 0 c timpul de servire a unui cumprtor are o repartiie exponenial cu parametrul = 0,925 .