Sunteți pe pagina 1din 15

34

CAPITOLUL 2
ELEMENTE DE STATISTIC
2.1. Generaliti privind sondajele
Teoria actual a sondajelor s-a constituit sub impulsul necesitilor
practice. n rezolvarea numeroaselor probleme ne confruntm cu necesitatea
de a studia mulimi cu un numr mare de elemente constitutive fr a avea
posibilitatea real de a examina fiecare element n parte. n cel mai bun caz
se poate examina o selecie (eantion) din aceast mulime (numit
populaie statistic) spernd ca informaia obinut pe aceast cale s fie
util pentru a cunoate ntreaga populaie. Un postulat unanim admis,
verificat n numeroase aplicaii, este acela c un eantion d intr-adevr
informaii utile despre populaia originar, din care a fost extras, i c, pe
msur ce eantionul crete n volum, proprietile i structura populaiei
originare sunt mai fidel relevate. n tiin metoda sondajului este
fundamental deoarece fenomenele din natur si societate sunt prea
complexe i prea variate pentru a permite o observare total. Dintr-un
numr limitat de experimente s-au dedus legi importante ale fizicii a cror
valabilitate nu a putut fi contestat pe motivul c nu s-au epuizat toate
experimentele posibile.
n esen poate fi formulat urmtoarea problem: fiind dat o
populaie format din N indivizi, n urma a n experiene independente
obinem rezultatele x
1
, x
2
,..,x
n
pe baza crora s se determine caracteristicile
populaiei. Vom numi distribuia populaiei distribuie teoretic iar
rezultatele x
i
variabile de selecie. Cnd numrul indivizilor din populaie
este infinit sau considerat infinit, singura metod de cercetare pentru
determinarea numeric a diferitelor caracteristici ale distribuiei teoretice
este metoda seleciei. La analiza sngelui pentru determinarea, de exemplu,
a numrului de globule roii, medicul aplic metoda seleciei cercetnd
numai colectivitatea parial de snge luat pentru analiz. Metoda seleciei
se aplic i cnd numrul indivizilor din populaie este mic. Dac, de
exemplu, dorim s determinm rezistena la rupere a unui lot de elemente
prefabricate folosite n construcie, metoda seleciei este singura posibil din
punct de vedere economic deoarece determinarea rezistenei la rupere a
fiecrui element ar implica distrugerea ntregului lot.
Sondajul reprezint operaia de prelevare a elementelor unui
eantion din populaia examinat. Acesta poate fi cu revenire (sondaj
bernoullian) n cazul n care dup ce s-a extras la ntmplare un element
oarecare din populaia considerat, acest element este introdus din nou n
35
populaie naintea unei noi extrageri, sau fr revenire. La cercetarea pe
baz de sondaj se are n vedere una sau mai multe caracteristici cantitative,
i/sau calitative (atribute). Dup modul n care sunt prelevate elementele din
populaie n eantion, s-au constituit cteva tipuri de sondaje:
- sondajul pur aleator. Unitile elementare ale populaiei
originare sunt prelevate de aa manier nct fiecare element s aib
aceeai probabilitate de a fi ales n eantion. Pentru a elimina
subiectivitatea operatorului uman, tendina lui de a se ndeprta de la
caracterul cu adevrat aleator n alegerile sale, s-au elaborat procedee i
tehnici care s asigure caracterul aleator al extragerilor, printre acestea
fiind i cel al tabelelor de numere aleatoare.
- sondajul dirijat, se efectueaz dup un principiu prestabilit,
atunci cnd acesta apare ca fiind raional i util n punerea n evidena a
caracteristicilor. Principala problem este cea a nlturrii erorilor
sistematice legate de alctuirea principiului.
- sondajul mixt, este de tip stratificat. n acest caz populaia
examinat este divizat in straturi (grupe tipice n raport cu un principiu
prestabilit) i apoi se extrage cte un eantion pur aleator din fiecare
strat. Sondajele mixte, la rndul lor pot fi:
- sondaje stratificate simple fr revenire (sondaj efectuat
dintr-o populaie finit mprit n k straturi de volum finit, dup fiecare
extragere unitatea extras nu mai revine n populaia originar),
- sondaj stratificat (tipic) n dou faze (n prima se alege la
ntmplare r straturi din cele k existente iar n faza a doua se fac
extrageri aleatoare din fiecare strat,
- sondaj stratificat proporional sau reprezentativ (din fiecare strat
tipic n care a fost divizat populaia se extrag attea uniti nct raportul
ntre volumul eantionului de strat i volumul stratului s fie egal cu
raportul dintre volumul eantionului general i volumul total al populaiei,
- sondajul secvenial (este acel sondaj n care volumul
eantionului nu este fixat de la nceputul operaiei de prelevare a
unitilor, prelevarea continund pn la un moment n care se realizeaz
un eveniment specificat.
2.2. Repartiii statistice
Statistica matematic are drept scop cercetarea i perfecionarea
metodelor de analiz a datelor experimentale referitoare la un anumit
fenomen. Rezultatele msurtorilor efectuate asupra caracteristicii unei
populaii se prezint sub forma unor serii statistice a cror dimensiune
depinde de volumul eantionului extras din populaie. Aceste date pot fi
ordonate dup anumite criterii i anume:
36
- dup locul n care se produce fenomenul,
- dup momentele de timp n care s-a observat fenomenul,
- dup frecvena de apariie a fenomenului.
n acest fel caracteristica examinat, care este n fond o variabil
aleatoare, va fi descris corespunztor, de o repartiie spaial, temporal
sau n frecven. n cele ce urmeaz ne vom referi la repartiiile n frecven.
Frecvena absolut n
i
reprezint numrul de apariii al unui rezultat
n cele n experimente efectuate asupra eantionului. Frecventa relativa f
i
reprezint frecvena absolut raportat la volumul eantionului. Rezultatele
msurtorilor (x
1
,x
2
,..,x
n
) pot fi organizate n trei tipuri de serii statistice, i
anume:
k i n n f n x x x S
n i n f n x x x S
i i i k
i i n
, 1 ; / ; 1 ; ... ) 2 (
, 1 ; / 1 ; 1 ; ... ) 1 (
2 1
2 1
= = < < <
= = = < < <
n care n este volumul eantionului, n
i
sunt frecvenele absolute de
apariie a valorilor x
i
corespunztoare i f
i
sunt frecvenele relative.
Rezultatele msurtorilor pot fi grupate n k intervale de valori,
de lungime egal, fiecrui interval corespunzndu-i un reprezentant
) , 1 ( k i x
i
= , frecvenele absolute corespunztoare fiecrui interval
(reprezentant) fiind numrul de valori ale caracteristicii msurate din
intervalul respectiv. n acest caz putem construi o serie de tipul:
k i n n f n x x x S
i i i k
, 1 ; / ; 1 ; ... ) 3 (
2 1
= = < < <
care nu se deosebete de (S2) dect prin faptul c in serie apar
reprezentanii intervalelor. n toate cazurile suma frecvenelor relative
este unitar. Dac notm cu caracteristica examinat, ea poate fi
caracterizat prin distribuia n frecvene:
n i
i
i
f
x
, 1 =
|
|
.
|

\
|
= unde 1
1
=

=
n
i
i
f
sau de funcia empiric de repartiie, notat ) (
*
x F
n
, care pentru seriile de
tipul S
1
i S
2
este de forma:

+ = <
<
=

1 , 1
0
1
1
1
1
*
k i x x x daca f
x x daca
F
i i
i
j
j
n
iar pentru seriile de tipul S
3
este de forma:

+ = <

+
<
=

1 , 1
0
1
1
1
1
0
*
k i l x l daca f
d
l x
f
l x daca
F
i i i
i
i
j
j
n
37
d fiind lungimea intervalelor (l
i-1
, l
I
) i k numrul acestor intervale.
Funcia empiric de repartiie este deci o funcie scar similar
funciei de repartiie a unei variabile aleatoare discrete finite.
2.3. Caracteristicile numerice ale unei selecii
n urma variabilitii mrimilor obinute din msurtori, exist o
tendina a datelor de a se grupa n jurul unei frecvene maxime i o
tendina contrar, de mprtiere faa de aceasta.
Indicatorii tendinei de grupare sunt:
- valoarea centrala x
c
=(x
1
+x
k
)/2
- media de selecie

=
=
k
i
i i
x f x
1
- mediana

= +
+ =
=
+
+
p k x x
p k x
m
p p
p
e
2 daca 2 / ) (
1 2 daca
1
1
- modul (m
0
) este valoarea caracteristicii variabile care
corespunde frecvenei maxime.
Dac repartiia este simetric, aceti indicatori se confund.
Indicatorii tendinei de mprtiere sunt:
- amplitudinea reprezint diferena dintre valorile extreme ale
seriei statistice
- dispersia de selecie

=
=
k
i
i i
x x f s
1
2 2
) (
- abaterea medie ptratic ) (s
- momentul de selecie de ordin r:

=
=
k
i
r
i i r
x f M
1
- momentul centrat de selecie de ordin r

=
=
k
i
r
i i r
x x f m
1
) (
- asimetria
3
3 5
/ s m a =
- excesul 3 /
2
4
= s m e
2.4. Repartiii statistice bidimensionale
Exist numeroase exemple de populaii statistice cu dou sau mai
multe caracteristici cantitative sau calitative (diametrul i rugozitatea
unei piese, i
0
CB
I la un tranzistor, etc.). Fie i dou caracteristici
cantitative ale unei populaii, pentru care se determin valorile x
1
,x
2
,..,x
r
i respectiv, y
1
,y
2
,..,y
s
. Notm n
ij
frecvenele absolute ale cazurilor
38
pentru care =x
i
i =y
j
) , 1 , 1 ( s j r i = = . Dac n este volumul seleciei,
atunci: n n
r
i
s
j
ij
=

= = 1 1
. Frecvenele relative se definesc prin rapoartele
f
ij
=n
ij
/n i evident 1
1 1
=

= =
r
i
s
j
ij
f .
Frecvenele absolute sau relative pot fi cuprinse ntr-un tabel
numit tabel de corelaie, similar unei matrice de dimensiune r s.
Definiia 2.4.1. Momentul de selecie de ordin k n raport cu una
din variabile este dat de relaia:
y y f y f M
x x f x f M
s
j
k
j j
k
j
r
i
s
j
ij k
r
i
k
i i
k
i
r
i
s
j
ij k
= = =
= = =


= = =
= = =
1
0
1 1
0
1
0
1 1
0
n care

=
=
s
j
ij io
f f
1
i

=
=
r
i
ij j
f f
1
0
.
Definiia 2.4.2. Momentul de selecie de ordin h n raport cu i
k n raport cu este:
k
j
h
i
r
i
s
j
ij hk
y x f M

= =
=
1 1
.
n mod asemntor se definesc momentele centrate.
Definiia 2.4.3. Momentul centrat mixt de ordinul al doilea
reprezint covariana de selecie
) )( (
1 1
11
y y x x f m
j i
r
i
s
j
ij
=

= =
iar coeficientul de corelaie de selecie este
2 1 11
/ s s m = , n care
1
s
2
i
2
s
2
sunt dispersiile de selecie ale celor dou variabile individuale. Acest
raport reprezint o msur a dependenei celor dou variabile i .
2.5. Teoreme de convergen
La baza numeroaselor aplicaii ale statisticii matematice n studiul
fenomenelor st principiul conform cruia frecvena experimental de
apariie a unui eveniment converge ctre frecvena sa teoretic
(probabilitate), principiu bazat pe teorema lui Bernoulli.
Definiia 2.5.1. Fie {
i
}
iN
un ir de variabile aleatoare. Acest ir
converge n probabilitate la dac
39
. 0 ) ( 1 ] [ lim > = <


n
n
P
Teorema 2.5.1. (Bernoulli). Fie numrul de apariii a unui
eveniment E n n experimente independente i p probabilitatea de
realizare a lui E n fiecare experiena. Dac f
n
=/n este frecvena
relativ de apariie a evenimentului, atunci irul {f
n
} converge n
probabilitate la p.
Demonstraie: Variabila =nf
n
este repartizat binomial, deci
M[]= np i D[]= np(1-p). Atunci:
| | | | | |
. / ) 1 ( 1 / ] [ 1
] [
2 2 2


n p p n D
n M P n np P p f P
n
= =
= < = < = <
n acest ir de egaliti am aplicat inegalitatea Cebev. Se
observ c | | 1 lim = < p f P
n
cnd n.
Principiul citat mai sus ngduie s evalum direct probabilitatea
p de producere a unui eveniment. Dac o experiena privete nu un
singur eveniment ci o variabil aleatoare, indicaia dat de teorema lui
Bernoulli este numai local. n acest caz informaii globale furnizeaz
teoremele de convergena a funciei empirice de repartiie ctre funcia
de repartiie teoretic (definit probabilistic).
Teorema 2.5.2. (Glivenko, [2]). Fie ) (
*
x F
n
funcia empiric de
repartiie a unei variabile dedus pe baza unei selecii de volum n, i
F(x) funcia de repartiie teoretic a aceleiai variabile. Atunci:
| | . 1 0 ) x ( F ) x ( F max lim P
*
n
R x n
= =

Teorema 2.5.3. (Kolmogorov, [2]). Fie ) (
*
x F
n
funcia empiric
de repartiie a unei variabile dedus pe baza unei selecii de volum n i
F(x) funcia sa de repartiie teoretic. Atunci:
| | ( )


= =
k
k k
n
R x n
e K n x F x F P
2 2
2 *
1 ) ( / ) ( ) ( max lim

.
Demonstraiile acestor teoreme pot fi gsite n [1,2]. Valorile
funciei K() sunt date n tabele. Teoremele de convergena arat
condiiile n care repartiia statistic (empiric) tinde ctre cea teoretic
F(x). De multe ori ns aceasta nu este cunoscut, ea putnd fi apreciat
numai prin momentele de diferite ordine ale variabilei . Se pune
problema n ce msur momentele de selecie de diferite ordine converg
ctre momentele teoretice. S mai observm c valorile variabilei
rezultate din msurtori, sunt la rndul lor variabile aleatoare (numite
40
variabile de selecie) depinznd de eantionul ales, ceea ce face ca i
momentele de selecie s fie la rndul lor variabile aleatoare.
Propoziia 2.5.1. Dac este o variabil aleatoare avnd
momentele M[
k
] i dispersia D[], examinat printr-o selecie de volum
n obinut prin sondaj pur aleator, atunci variabilele de selecie x
1
,x
2
,..,x
n
au urmtoarele proprieti:
- sunt independente
- au aceeai repartiie ca i variabila
- n i , 1 ) ( = i ()k ] [ ] [
k k
i
M x M = i D[x
i
]=D[].
Observaie: valorile ) , 1 ( n i x
i
= nu sunt ordonate n serie statistic.
Teorema 2.5.4. Dac distribuia teoretic a variabilei este
normal N(m,
2
), atunci distribuia mediei de selecie obinut prin
sondaj pur aleator este de asemenea normal.
Demonstraie: Fie selecia de volum n obinut prin sondaj pur
aleator i ) , 1 ( n i x
i
= variabilele de selecie, care conform propoziiei
precedente, sunt independente i normal repartizate. Deoarece media de
selecie

=
=
k
i
i i
x f x
1
este o combinaie liniar de variabile repartizate
normal, rezult c are aceeai repartiie dar de parametri:
m f m x M f x f M x M
n
i
i i
n
i
i i
n
i
i
= = = =

= = = 1 1 1
] [ ] [ ] [

= =
= =
n
i
i i
n
i
i
f x f D x D
1
2 2
1
] [ ] [
n cazul unei serii de tipul S
1
dispersia mediei este
2
/n.
Teorema 2.5.5. Dac x
j1
,x
j2
,,x
jnj
j=1k sunt selecii independente
din populaii normale N(m
j
,
j
2
) i dac k j x
j
, 1 , = sunt mediile de
selecie, atunci variabila
|
|
.
|

\
|
=

= = =
k
j
k
j
j j j j j j
k
j
j
n a m a N x a y
1 1
2 2
1
/ , .
Demonstraie: din teorema precedent rezult c ( )
j j j j
n m N x / ,
2
i
variabila y, care este o combinaie liniar de variabile normal repartizate,
este de asemenea normal repartizat. Parametrii acestei repartiii rezult
imediat prin aplicarea proprietilor operatorilor de mediere i dispersie.
Observaie: dac a
1
=1, a
2
=-1 i restul constantelor sunt nule atunci:
( )
2
2
2 1
2
1 2 1 2 1
, n n m m N x x y + = i ( ) 1 , 0
) (
2
2
2 1
2
1
2 1 2 1
N
n n
m m x x
v
+

=

41
Teorema 2.5.6. Dac ) , 0
2
N i x
i
i=1n reprezint
variabile de selecie obinute prin sondaj pur aleator, atunci
) , (
2
1
2
n x z
n
i
i
=

=
.
Demonstraie: Fie
2
i
x = i n i N x
i
, 1 ) , 0 (
2
= . Atunci:
0 ] [ ] [ ] [ ) (
2
> < < = < = < = x x x x P x x P x P x F
i i i
i

du e x F
x
x
u
i


=
2 2
2
2
1
) (


iar
2
2 2 1
2
1
) (
) (


x
e x
dx
x dF
x f
i
i

= =
de unde rezult c ) , 1 (
2

i
(vezi tabelul 1.4.1). Cu ajutorul funciei
caracteristice se demonstreaz apoi c variabila ) , (
2
n z .
Teorema 2.5.7. Dac X=(x
1
,x
2
,,x
n
)
T
este o selecie obinut prin
sondaj pur aleator dintr-o populaie caracterizat de ) 1 , 0 ( N i A=[a
ij
]
i,j=1,n este o matrice ortonormal, atunci variabilele n j x a v
n
k
k jk j
, 1
1
= =

=
sunt independente i repartizate N(0,1).
Demonstraie: Considerm vectorul V=(v
1
,v
2
,,v
n
)
T
. Relaia care leag
vectorii V i X este V=AX. Deoarece matricea A este ortonormal
(A
T
A=I ) atunci:

= =
= = = =
n
j
j
T T T T
n
j
j
x X X AX A X V V v
1
2
1
2
. Funcia
caracteristic a vectorului V va fi n acest caz:

=
= =
n
n
k
k k
n
k
k k
R
n n
x t i v t i
n V
dx dx x x x f e e M t t t .. ) ,.., , ( ] [ ) ,..., , (
1 2 1 2 1
1 1

Deoarece variabilele x
i
sunt independente
( )


= =
=
n
k
x
n
k n
n
k
k
e x f x x x f
1
2
1
2 1
1
2
2 ) ( ) ,..., , ( . Atunci:
( )
( )

= = =

= = = =
= =
n
k
x
n
k
k x
n
k
t
n
k
k
x x it
n
R
n
n
k
x x it
n
n V
t t e dx e
dx dx e t t t
k k
k
k k k
n
k k k
1 1 1
2
1
1
1
2 1
) ( ) ( 2
.. 2 ) ,..., , (
2
2
2
1
2
2
1


Dar funcia caracteristic a variabilei v
j
este:
) ( ) ( ] [ ) (
2
2
1
2
1
2
1
2
2
2 2
1
t e e e ta e M t
k
n
k
jk
jk
k
n
k
k jk
j
x
t
a
t
n
k
a t
n
k
jk x
x a it
v
= =

= = =

=
= =

42
deci variabilele v
j
sunt repartizate normal redus i, deoarece funcia
caracteristic a vectorului V este produsul funciilor caracteristice ale
componentelor, variabilele v
j
sunt independente.
Teorema 2.5.8. Dac X=(x
1
,x
2
,,x
n
)
T
este o selecie obinut prin
sondaj pur aleator dintr-o populaie caracterizat de ) 1 , 0 ( N , atunci
variabilele:

=
= =
n
i
i
x n x
n
u
1
1
i ( )
2
1 1
2
1
2
1

= = =
|
|
.
|

\
|
= =
n
i
n
i
i i
n
i
i
x
n
x x x
sunt independente i ) 1 , 0 ( N u n ) 1 , 1 (
2
n .
Demonstraie: Variabila u este o combinaie liniar de variabile identic
repartizate ) 1 , 0 ( N x
i
i deci u este normal repartizat de medie 0 ] [ = u M
i dispersie 1 ] [
1 1
] [
1
= =
(

=

=
i
n
i
i
x nD
n
x
n
D u D , deci ) 1 , 0 ( N u .
Considerm acum vectorul ] [
2
1 n
v v v AX V K = = , n care A este o
matrice ortonormal, conform teoremei 2.5.8:

= = =
+ = =
n
j
j
n
i
i
n
j
j
v v x v
2
2
1
2
1
2
1
2
sau
2
1
1
1
2
1
2
1
2
2
2
|
|
.
|

\
|
= =

= = = =
n
k
k k
n
j
i
n
i
i
n
j
j
x a x v x v , n
care a
1k
sunt elementele primei linii a matricei A. Considernd o matrice
ortonormal n care k
n
a
k
) (
1
1
= (i exist astfel de matrici) rezult:
=
|
|
.
|

\
|
=
|
|
.
|

\
|
=

= = = = =
2
1 1
2
2
1 2
2
2
2
1 1
n
i
i
n
i
i
n
i
i
n
i
i
n
j
j
x
n
x x
n
x v
Cum ) 1 , 0 ( N v
j
, conform teoremelor 2.5.8 i 2.5.7 rezult c
2
) 1 , 1 (

n
X .
Teorema 2.5.9. Fie ) , (
2
m N i ) , , (
2 1 n
x x x X K = o selecie
obinut prin sondaj pur aleator. Atunci variabilele:
) 1 , 0 ( N n
m x
u

i ( )
2
) 1 , 1 (
2
1 1
2
2
1

= =

|
.
|

\
|
= =
n
n
i
i
n
i
i
x x
x x

.
Demonstraie: Dac notm ) 1 , 0 ( , , 1 N y n i
m x
y
i
i
i
=

, observm c:
43

= = = = =
=
|
.
|

\
|
=
|
|
.
|

\
|
=
|
|
.
|

\
|
=
n
i
i
n
i
i
n
i
n
i
i
n
i
i
y
n
m x
n
m
n
x
n
n
m x
n
n
u
1 1 1 1 1
1 1 1 1 1

( )

= = = = =
= |
.
|

\
|

= |
.
|

\
|
=
n
i
i
n
i
n
k
k i
n
i
n
k
k i
y y
m x
n
m x
x
n
x
1
2
1 1 1
2
1
2
1 1 1

deci sunt ndeplinite condiiile teoremei 2.5.8.


2.6. Noiuni de teoria estimaiei
n numeroase cazuri n tehnic exist motive teoretice sau
practice pentru a afirma c repartiia unui fenomen studiat este de tip
cunoscut. n general se spune c o repartiie este specificat dac se
cunoate densitatea de repartiie sau funcia de repartiie a variabilei
examinate, depinznd de o serie de parametri necunoscui. O repartiie
este complet specificat dac se cunosc i valorile parametrilor care
intervin n funcia de repartiie.
Operaiunea prin care se determin valorile parametrilor unei
repartiii specificate se numete estimare a parametrilor. Aceasta se
efectueaz cu ajutorul sondajelor din populaia originar. n cazul n care
repartiia nu este cunoscut se poate recurge la estimarea caracteristicilor
numerice ale variabilei examinate, estimare efectuat tot pe baza
msurtorilor pe selecia considerat.
Fie x
1
,x
2
,...,x
n
o selecie de volum n dintr-o populaie n care
examinm parametrul al repartiiei f(x,). Orice funcie (sau statistic)
) ,..., , (
2 1 n
x x x care poate fi considerat drept valoare a parametrului
se numete estimator. Problema const n a alege din mulimea
estimatorilor posibili pe acela care se apropie cel mai mult de valoarea
adevrat a parametrului. Estimatorul, la rndul lui, este o variabil
aleatoare care ia valori diferite de la eantion la eantion. El va fi cu att
mai bun cu ct repartiia lui se concentreaz mai puternic n jurul valorii
adevrate a parametrului, deci calitatea estimatorului trebuie apreciat
dup repartiia sa.
Definiia 2.6.1. Un estimator ) ,..., , (
2 1 n
x x x al parametrului se
numete nedeviat dac = )] ,..., , ( [
2 1 n
x x x M .
Definiia 2.6.2. Un estimator ) ,..., , (
2 1 n
x x x al parametrului
se numete consistent dac converge n probabilitate la valoarea
adevrat, adic: . 0 ) ( 1 ] ) ,..., , ( [ lim
2 1
> = <


n
n
x x x P
Definiia 2.6.3. Un estimator este absolut corect dac este nedeviat
i dispersia lui tinde la zero odat cu creterea volumului eantionului.
44
Definiia 2.6.4. Un estimator absolut corect este eficient dac are
dispersie minim in clasa tuturor estimatorilor absolut coreci.
Dac f(x,) este densitatea de repartiie a variabilei examinate i
un estimator nedeviat al parametrului , se poate defini aa numita
funcie de eficiena a estimatorului
(

|
.
|

\
|

) , ( ln
] [
1
) (
x f
M n D
E
n
unde n este volumul eantionului iar ] [ D este dispersia estimatorului.
Se poate demonstra, cu ajutorul inegalitii Rao-Cramer [2] c pentru un
estimator eficient 1 ] [ =
n
E iar pentru un estimator oarecare 1 ] [
n
E .
Fie o variabil aleatoare cu densitatea de repartiie f(x,). Pentru
fiecare selecie de volum n se obin valorile x
1
,x
2
,..,x
n
. Dac sondajul
este pur aleator, probabilitatea de apariie a eantionului va fi:

= =
= = = = = =
n
k
k
n
k
k n
x f x P x x x P
1 1
2 2 1 1
) , ( ] [ )] ( ... ) ( ) [( .
Funcia

=
=
n
k
k n
x f x x x
1
2 1
) , ( ) , ,..., , ( se numete funcie de verosimilitate.
Definiia 2.6.5. Se numete estimator de verosimilitate maxim a
parametrului , estimatorul

(x
1
,x
2
,...,x
n
) astfel nct
) , ,..., ( max arg ) ,..., (

1 1

n n
x x x x =
deci

este cel care maximizeaz probabilitatea de apariie a


eantionului. Cum funcia de verosimilitate este pozitiv iar funcia
logaritmic este monoton, funcia L()=ln (x
1
,..,x
n
,), numit funcie
de verosimilitate logaritmic, atinge maximul pentru aceeai valoare

.
n consecina, estimatorul de verosimilitate maxim este soluia ecuaiei:
0
ln
; 0
) , ,..., ( ln
2
2
1
<


n
x x
sau, cnd funcia de verosimilitate depinde de parametrii
1
,
2
,..,
k
:
k s
x x
s
k n
, 1 0
) ,..., , ,..., ( ln
1 1
= =


.
Se poate demonstra [1,2] c orice estimator eficient verific
ecuaia de verosimilitate i invers.
Exist un mod diferit de cel prezentat anterior de a obine
informaii asupra valorilor parametrilor necunoscui ai unei repartiii
45
specificate. Fie f(x,) densitatea de repartiie a unei variabile aleatoare
n care este un parametru necunoscut. Pe baza unei selecii de volum n
se pot determina dou statistici
i
(x
1
,..,x
n
) i
s
(x
1
,..,x
n
) astfel nct
i
<
s
.
Definiia 2.6.6. Dac
i
i
s
pot fi alese astfel nct, pentru un
dat, P[
i
<<
s
]=1-, atunci [
i
,
s
] este numit interval de ncredere
pentru parametrul .
Limitele inferioar si superioar a intervalului depind de
(numit nivel de semnificaie, de regul ales 0.01 sau 0.05) sau de =1-
(numit nivel de ncredere). Cu ct acest interval este mai mic, pentru un
fixat, cu att informaiile asupra lui sunt mai precise. Dac pentru
parametrul considerm un estimator

a crui densitate de repartiie


este cunoscut, fie ea g(x), atunci:

= =
2
1
) ( ]

[
2 1

dx x g P
.
Ultima egalitate reprezint o ecuaie care se poate rezolva impunnd
, dar soluia nu este unic. Aceasta se poate obine dac se impune o
condiie suplimentar, de exemplu lungimea intervalului [
1
,
2
] s fie
minim, sau intervalul s fie centrat, adic:



=
2
1
) ( ) (

dx x g dx x g .
n felul acesta putem afla un interval n care se afl estimatorul

cu o anumit probabilitate impus. Intuim c dac

este un
estimator consistent al parametrului , atunci [
1
,
2
] cu aceeai
probabilitate. n realitate deducerea unui interval de ncredere poate fi
abordat plecnd nu de la repartiia estimatorului ci de la repartiia unei
funcii care conine estimatorul (statistic) a crei repartiie este
cunoscut. Vom exemplifica determinarea unor intervale de ncredere
pentru parametrii unor repartiii frecvent ntlnite.
Exemplul 2.6.1.
Fie N(m.
2
) cu
2
cunoscut. S determinm un interval de
ncredere pentru parametrul m, cu nivelul de ncredere . Un estimator
absolut corect pentru medie este media de selecie:
) / , (
1
2
1
n m N x
n
x
n
i
i
=

=
.
Variabila normalizatoare ) 1 , 0 ( ] [ / ]) [ ( N x D x M x = , deci:
) ( ) ( ] / ) ( [ a b b m x n a P = = .
46
Din ultima egalitate rezult valorile i b

, deci un interval de ncredere


la nivelul este:
] / / [ ]

/ ) ( [ n a x m n b x sau b m x n a .
Soluia , b

nu este unic. Dac se consider in schimb un


interval centrat (a=-b), atunci =2(b)-1 i deci: ] 2 / ) 1 [(

1
+ = =

b a ,
iar intervalul de ncredere va fi:
(

|
.
|

\
| +
+
|
.
|

\
| +


2
1
,
2
1
1 1

n
x
n
x m .
Se poate demonstra c acest interval are lungime minim.
Exemplul 2.6.2.
Fie N(m,
2
) cu m cunoscut. S determinm un interval de
ncredere pentru dispersie, cu nivelul de ncredere . Un estimator
consistent pentru
2
este dispersia de selecie:

=
=
n
i
i
m x
n
s
1
2 2
) (
1
.
Considerm statistica:

= =
|
.
|

\
|
= = =
n
i
i
n
i
i
m x
m x
s n
1
2
1
2
2 2
2
) (
1

Deoarece M[x
i
]=m i D[x
i
]=
2
(conform propoziiei 2.5.1), rezult c
variabilele
i
=(x
i
-m)/N(0,1), iar variabila
2
(n,1). Atunci:


= =
(



dx x f b
s n
a P
b
a
n
) (
) 1 , ( 2
2
2
.
n ipoteza unui interval centrat, ultima egalitate furnizeaz
valorile
2
1
= a i
2
2

= b . Din relaia:
= = ] / / [ ] / [
2
1
2 2 2
2
2 2
2
2 2 2
1
s n s n P sau s n P
rezult c intervalul de ncredere este:
(
(
(
(


= =
2
1
1
2
2
2
1
2
2
) (
,
) (

n
i
i
n
i
i
m x m x
.
Exemplul 2.6.3. Fie N(m,
2
) cu parametrii m i
2
necunoscui. S determinm un interval de ncredere pentru medie la
nivelul de ncredere , dispersia fiind necunoscut. Reamintim c dac

1
N(0,1) i
2

2
(n,1) sunt variabile aleatoare independente, atunci
) ( / /
2 1
n T n = (vezi problema P.1.22). Considerm variabilele:
47
) 1 , 0 (
1
N n
m x

i ) 1 , (
2
2
2
2
n
s n

=
unde x i
2
s sunt media i respectiv, dispersia de selecie.
Atunci: ) (
/
2 2
n T
s
n
m x
t

, deci: | |

= =
b
a
n T
dx x f b s m x n a P ) ( / ) (
) (
.
Ultima egalitate furnizeaz, n ipoteza unui interval centrat, valorile
1
t a = i
2

t b = iar intervalul de ncredere pentru parametrul m rezult:


| | n t s x n t s x m / , /
2 1
+ .
Exemplul 2.6.4. Fie o variabil repartizat exponenial negativ,
deci cu densitatea de repartiie f(x,)=e
-x
. S determinm un interval
de ncredere pentru parametrul , la nivelul de ncredere .
Considerm statistica

=
=
n
i
i
x
1
2 .Deoarece variabilele x
i
au aceeai
repartiie (exponenial negativ), suma celor n variabile este repartizat
(n,) (vezi problema P.1.13). S determinm repartiia variabilei .




= =
=
(

=
(


2 /
) , (
1 1
) ( 2 / 2 ] [
x
n
n
i
i
n
i
i
du u f x x P x x P x P .
Cu schimbarea de variabil =y/2 rezult:



= =
x
n
x
n
dy y f dy y f x P ) (
2
1
) 2 / ( ] [
) 1 , 2 (
) , (
2


deci
2
(2n,1), iar:

= =
=
b
a
n
n
i
i
dy y f b x a P ) ( ] 2 [
) 1 , 2 (
1
2


n ipoteza unui interval centrat, ultima egalitate furnizeaz
valorile ] 2 / ) 1 [(
2
2
=
n
a i ] 2 / ) 1 [(

2
2
+ =
n
b , intervalul de ncredere
pentru fiind
(

+

= =
n
i
i n
n
i
i n
x x
1
2
2
1
2
2
2 / ] 2 / ) 1 [( , 2 / ] 2 / ) 1 [( .
Probleme
P.2.1. Fie o variabil aleatoare avnd media necunoscut. S se
demonstreze c media de selecie este un estimator absolut corect al mediei.
P.2.2. S se demonstreze c dispersia de selecie este un
estimator consistent al dispersiei unei variabile , dar deviat.
48
P.2.3. Fie o variabil aleatoare distribuit Poisson, deci cu
densitatea de repartiie:


= e
n
n f
n
!
) , ( i M[]=D[]=; nN, R.
S se arate c media de selecie este un estimator eficient pentru
parametrul . Dispersia de selecie este de asemenea un estimator al
aceluiai parametru. Ce deosebire exist intre cei doi estimatori?
P.2.4. S se determine estimatorul de verosimilitate maxim
pentru parametrul al repartiiei Poisson.
P.2.5. Idem, pentru parametrul al repartiiei exponeniale negative.
P.2.6. S se determine estimatorii de verosimilitate maxim
pentru parametrii repartiiei normale.
P.2.7. Fie N(m,
2
) cu parametrii m i necunoscui. S se
determine un interval de ncredere pentru , la nivelul de ncredere .
P.2.8. Pentru reducerea influenei perturbaiilor n canalul de
comunicaii, fiecare rezultat al msurtorii unui parametru x de la bordul
unui satelit este transmis de trei ori. Rezultatele recepiei pe Pmnt
sunt: x
1
=3,2, x
2
=2,9, x
3
=3,1. Admind c deformaiile suferite de
fiecare valoare transmis sunt reciproc independente i normal
repartizate, s se determine un interval de ncredere pentru media
parametrului x, la nivelul de ncredere =1-=0,95.
Bibliografie
1- Onicescu O.- Lecii de statistic matematic- Editura tehnic -
Bucureti 1958
2- Ciucu G.,Craiu V.-Inferena statistic- EDP Bucureti 1974
3- Ciucu G.,Craiu V.-Probleme de statistic matematic, EDP
Bucureti 1968,
4- Ungureanu M.- Teoria experimentului i prelucrarea datelor
experimentale - Rotaprint IP Bucureti 1983

S-ar putea să vă placă și