Documente Academic
Documente Profesional
Documente Cultură
FACULTATEA DE TRANSPORTURI
Noiuni generale
Orice cercetare statistic pornete de la o colectivitate sau populaie alctuit din elemente
sau indivizi care au o caracteristic general i care se difereniaz prin anumite atribute.
Elementele colectivitii (populaiei) se numesc uniti.
n studiul colectivitilor statistice, n majoritatea cazurilor suntem nevoii s studiem numai
pri din ntreaga colectivitate. Ori, n acest caz, se pune n mod natural ntrebarea dac concluziile
ce le obinem concord cu rezultatul ce l-am obine dac studiem ntreaga populaie. Apare astfel
problema de a studia modul n care valorile tipice (pe baza crora tragem concluzii) ale colectivitii
pariale investigate pot furniza informaii asupra valorilor tipice ale ntregii colectiviti.
Vom presupune, n cele ce urmeaz, c urmrim o anumit caracteristic a colectivitii
generale i c aceast caracteristic este descris de o variabil aleatoare X definit pe un cmp de
probabilitate {Q, K, P}, n care elementele mulimii Q sunt tocmai elementele colectivitii
generale, K este un corp borelian de pri ale lui Q, iar P este o probabilitate pe K.
Dup cum se tie, dac Q este finit, atunci K coincide cu mulimea prilor lui Q, iar P este
o repartiie discret uniform pe Q.
Faptul c suntem obligai s cercetm numai o anumit parte din populaie este impus de
natura concret a colectivitii. Astfel, dac numrul elementelor populaiei este infinit, n mod
necesar nu putem cerceta dect un numr finit i deci obinem o informaie trunchiat.
Dar, n cazul cnd numrul elementelor populaiei este finit, atunci cnd cercetarea calitii
elementelor conduce la distrugerea lor, evident c se impune alegerea unui numr finit pentru
cercetare.
Dac inem seama de faptul c orice investigare (cercetare) implic i anumite cheltuieli,
rezult clar c suntem obligai s cercetm numai o parte din populaia total.
Vom numi selecie (eantion) o colectivitate parial de elemente alese la ntmplare.
Numrul elementelor dintr-o selecie l vom numi volumul seleciei.
Spunem c o selecie este repetat, dac elementul ales la ntmplare este reintrodus n
colectivitatea general naintea efecturii urmtoarei alegeri.
Selecia este nerepetat dac, elementele alese nu se mai introduc n colectivitatea general.
S efectum deci o selecie de volum n dintr-o colectivitate C i s notm cu xi, x2, ..., xn
valorile de observaie. Acestea se refer la valorile unei variabile aleatoare X care d legitatea
caracteristicii studiate.
Considerate aposteriori, valorile de selecie x1, x2, ..., xn sunt valori bine determinate ale
variabilei aleatoare X.
Privite apriori, valorile X1, X2, Xn pot fi considerate ca variabile aleatoare independente,
identic repartizate cu variabila X, n cazul unei selecii repetate.
Dac selecia este nerepetat, atunci variabilele X 1, X2, Xn sunt dependente, dependena fiind
de tipul lanurilor cu legturi complete.
Dac volumul colectivitii generale este suficient de mare iar volumul seleciei este
suficient de mic, deosebirea dintre o selecie repetat i una nerepetat este nesemnificativ i, ca
atare, n aplicaiile practice o selecie nerepetat se trateaz dup metodele seleciei repetate.
Estimaii
Teoria estimaiei urmrete evaluarea parametrilor unei repartiii n general cunoscute.
Valorile numerice obinute se numesc estimaii sau estimatori. Se obin estimaii punctuale n cazul
n care se folosesc datele seleciei pentru a obine valorile parametrilor i estimaii ale intervalelor
de ncredere n cazul n care se determin un interval n care se afl, cu o anumit probabilitate
valoarea estimat.
Un estimator al parametrului se va nota cu . O estimaie este nedeplasat dac
M , adic media estimaiei este egal chiar cu valoarea teoretic a parametrului estimat.
PL U 1
Este de dorit ca 1 s fie ct mai mare (de obicei este cuprins ntre 0,9 i 0,99) iar
intervalul L , U s fie ct mai mic. n stabilirea intervalelor se utilizeaz caracteristicile
numerice cuantile. Se numesc cuantile de ordin valoarea x a variabilei aleatoare x pentru
F x P x x
care
adic valoarea variabilei aleatoare care are la stnga ei aria sub curba
P x x 1
1
2 2
P x x
2 2
P x x x1 1 1
2 2 2 2
x
2
folosi faptul c
este repartizat N 0,1 . Se noteaz cu z cuantila de ordinul
n
pentru repartiia N 0,1 . Evident
z
P z z z F z F z 1 1
1
1
2 2 2 2 2 2
z , z
Aadar intervalul
Din anumite puncte de vedere este recomandabil s se utilizeze acele intervale care las att la
z z
Deoarece repartiia N 0,1 este simetric fa de axa Oy avem relaia
1
2
Din relaiile
z
x
z
1
2
n
z *
x z *
1
1
n
n
2
2
x z *
x z *
1
1
n
n
2
2
rezult
X z
X z
1
1
n
n
2
2
Aadar intervalul cutat este
z z
1
2
1
2
1
2
L , U
X z
Mrimea E z1
,X z
1
n
n
2
Metoda descris mai poate fi aplicat i n cazul n care x nu este repartizat normal deoarece z
este repartizat N 0,1 indiferent de repartiia variabilelor x1 , x 2 ,..., x n (teorema limit central).
Cazul cnd dispersia este necunoscut
Dac nu se cunoaste dispersia n estimarea intervalelor se utilizeaz dispersia de selecie care
este un estimator nedeplasat al dispersiei deoarece E s 2 2
Se consider x1 , x 2 ,..., x n o selecie dintr-o populaie de tipul N , 2 .
Conform celor artate anterior mrimea
X
s
este repartizat T n 1 i, ca urmare
n
P t T t F t F t 1 1
n ,1 n1,1 n1,1 n ,1 2 2
2 2 2 2
X
P t T t
P
t
1
n 1,1
n 1,1
s
n 1, 2
n 1, 2
2
2
s
s
X t
i X tn 1,1
n 1,1
n
n
2
2
Ca urmare intervalul cutat este
s
s
,X t
n 1,1
n
n
2
s
n acest caz eroarea este E t n 1,1
n
2
L ,U
X t
n 1,1
2
n 1,1
n 30
N 1 , 12
n1
x1i
n1
si X 2
i o selecie
n2
x2i
n2
Considernd variabila aleatoare X 1 X 2 , ea este normal repartizat iar estimaia i dispersia ei vor
fi M X 1 X 2 M X 1 M X 2 1 2 i D X 1 X 2 D X 1 D X 2
inut cont c x1i i x 2i sunt independente.
Mai departe, variabila aleatoare
X 2 1 2
D X1 X 2
12 22
unde am
n1 n2
X 2 1 2
22
n1 n2
2
1
este repartizat
N(0,1).
Deoarece,
P z z z 1
2 1 2
z z
rezulta
12 22
12 22
X1 X 2 z
1 2 X 1 X 2 z
1
1
n1 n2
n1 n2
2
2
Aadar, intervalul de estimaie pentru diferena mediilor este
2
2
2
2
1, 2 X 1 X 2 z1 1 2 , X 1 X 2 z1 1 2
n1 n2
n1 n2
2
2
12 22
.
n1 n2
2
s
n1
1 2 x2i X 2
n
n1 n2 2
n1 n2 2
2
ca un estimator nedeplasat pentru .
Avem ntr-adevr,
n1 1 M s12 n2 1 M s22 n1 1 12 n2 1 22 2
2
M sp
n1 n2 2
n1 n2 2
n continuare vom arta c mrimea
Se observ c T
X 2 1 2
X1 X 2
sp
1 1
n1 n2
1X2
X 2 1 2
1 1
este repartizat T n1 n2 2
sp
n1 n2
deoarece
sp
1
1
n1 n2
X1 X 2
x
n1
variabila
1i
n1 n2 2 2
1X2
s
1
1
p
n1 n2
1
1
n1 n2
X 1 1 2 x2 i X 2
sp
sp
1
1
n1 n2
n1
este de tipul
s 2p
x1i X 1
n2
n1 n2 2
x2i X 2
2 n1 n2 2
n1 n2 2
Dar
x1i X 1
n1
T este repartizat T n1 n2 2 i
P t Tt 1 1
n1 n2 2, n1 n2 2,1 2 2
2 2
x2 i X 2
n2
n1 n2 2 ,
n1 n2 2 ,1
rezult c
11
11
X1 X2 t sp 12X1 X2 t sp
n1n22,1 n n
n1n22,1 n n
2 12
2 12
Deci,
1 , 2
eroarea E t n n
1
2 2 ,1
2
sp
X1 X 2 t
n1 n 2 2 ,1
sp
2
1
1
1
1
, X1 X 2 t
s
p
n n 2 2 ,1
n1 n2
n1 n2
21
cu
1
1
.
n1 n 2
2 2
P v 1 1
n ,1 n1,1 2 2
2 2
6
n 1s 2 n 1s
s
2
2
n 1 2 2 2
n ,1 n1,1
n
1
,
1
,1
2
2
2
Deci,
si
2
.
s12
12
F
P f F f 1 1
n1 1,n2 1, n1 1,n2 1,1 2 2
2 2
Rezult c
s s
f f
s s
2 22
2 22
2 22
n11,n2 1, n11,n2 1,
1 211 2
s22
s22
f
,
f
2
2
n1 1, n 2 1,
n1 1, n 2 1,1
s
s
1
2
2
1
L , U
Teste statistice
Metodele de verificare a ipotezelor se bazeaz pe teste statistice care constau n examinarea
seleciilor obinute pentru o variabil aleatoare i a unor funcii de elementele seleciilor.
Notaii conventionale
Ipoteza testat, presupus adevarat, se numete ipoteza nul i se noteaz H0. Testarea
necesit i formularea unei ipoteze complementare, numit ipotez alternativ i notat H A. Dac se
accept H0, n mod normal se respinge HA i invers.
Din acest motiv, ipotezele H0 si HA se aleg s fie complementare.
Dac testul privete valoarea unui parametru , de exemplu H 0 : 0 i H A : 1 se
poate ntmpla ca toi ceilali parametri ce caracterizeaz distribuiile s fie cunoscui i, dup
acceptarea uneia din cele dou ipoteze, distribuiile x, 0 i x, 1 devin complet definite. n
acest caz, ipotezele sunt numite simple. Dac ns ceilali parametric nu sunt cunoscui complet,
ipotezele se numesc ipoteze compuse. De exemplu, dac distribuia este normal i parametrul
cautat este , iar dispersia este necunoscut, suntem n cazul unei ipoteze compuse.
Probabilitatea unei decizii gresite
La verificarea ipotezelor se pot comite dou feluri de erori:
1. Erorile de tipul 1 constau n respingerea ipotezei H0 atunci cnd aceasta este adevrat.
2. Erorile de tipul 2 constau n acceptarea ipotezei H0 atunci cnd aceasta este fals.
Probabilitatile celor dou tipuri de erori se noteaz de obicei cu respectiv :
= P (respinge H0 / H0 adevrat)
= P (accept H0 / H0 fals) = P (respinge HA / HA adevrat)
Deci, este riscul de a respinge n mod greit H0 i este riscul de a respinge n mod greit HA.
Probabilitatea de a respinge ipoteza H0 atunci cnd aceasta este fals 1 se numete
puterea testului. Coeficientul este numit i nivel de semnificaie. Desigur c este de dorit ca
valorile i s fie ct mai mici. Valoarea lui se alege i n funcie de importana implicaiilor
acceptrii sau respingerii ipotezelor testate. De exemplu, un coeficient de 0,05 este considerat ca
bun pentru majoritatea problemelor din practic. Dac ns este vorba de un medicament foarte
activ cum ar fi digoxina, este de preferat a alege ntre 0,01 si 0,05.
Pentru a verifica o ipotez se folosesc datele de selecie pentru calcularea unui test statistic.
Domeniul de valori ale testului care corespunde respingerii ipotezei H0 cu probabilitatea se
numete regiune critic.
Metodologia de verificare cuprinde n principiu urmtoarele etape:
1. se presupune, pe baza unor teste anterioare sau pe baza structurii fenomenului studiat, o
repartiie pentru populaia statistic din care se face selectia;
2. se formuleaz ipoteza;
3. se calculeaz valoarea testului ales i se compar cu limitele de acceptare, respectiv
respingere;
4. se accept sau se respinge, n funcie de rezultat, ipoteza H0.
Ipoteze asupra mediei
Dispersia cunoscut
Se consider o selecia dintr-o populaie normal N , 2 . Considerm variabila aleatoare X
. Datorit linearitii operatorului de mediere avem:
M X M
M x
n
1 i
D x n
n
n2
n2
2
n
X
este
D X
X E X
repartizata
N 0,1 .
HA
Regiunea critic
z z
zz
1
z z1
z z1
Dispersia necunoscut
n acest caz se nlocuiete n formula anterioar
variabila aleatoare
cu estimaia sa
s x i se ine cont c
X
s
este repartizat Student cu n-1 grade de libertate.
n
N 2 ,
2
2
Variabila aleatoare
X X 1 2
X X 2 1 2
z 1
1
este, dupa cum s-a aratat anterior, repartizat
12 22
D X1 X 2
n1 n2
N(0,1).
2
p
n 1 s12 n2 1 s22
1
n1
1i
n1 n2 2
ca un estimator nedeplasat pentru 2 .
X 1 1 2 x2i X
2
n1 n2 2
X 2 1 2
1 1
este repartizat T n1 n2 2
sp
n1 n2
d
aleatoare s d dup cum se poate arta uor, este repartizat Student cu n-1 grade de libertate.
n
Compararea proporiilor
Dac vom considera un experiment n care rspunsul este de tip da sau nu, de exemplu
vindecare sau nevindecare, supravieuire sau moarte, etc., numrul de rezultate k de un anumit tip n
n repetri ale experimentului este o variabil aleatoare repartizat binomial.
Deoarece avem, dup cum s-a calculat anterior E k np i D k npq , variabila aleatoare
standardizat z
k E k
D k
k
p
n
k np
Fie dou populaii de tip urna Poisson cu bile albe i bile negre, cu parametrii (probabilitatea
bilei albe) p1 i respectiv p 2 . n dou selecii din cele dou populaii, de volum n1 i respectiv
n 2 presupunem c s-a obinut rspuns pozitiv de k1 i respectiv k 2 ori.
ki
Fie hi , i 1,2 . n cazul ipotezei nule H 0 : p1 p 2 p , variabila aleatoare h1 h2 va fi
ni
distribuit cu media 0 i dispersia
1 1
p 1 p1 p 2 1 p 2
D h1 h2 1
p1 p
n1
n2
n1 n2
h1 h2
1
1
p1 p
n1 n 2
va fi repartizat
k1 k 2
.
n1 n 2
10
1
1
h1
h2
2n1
2n2
pentru h1 i h2 : z
1 1
p1 p
n1 n2
Estimarea dispersiei
Considerm o selecie de volum n dintr-o populaie normal N , 2 . Conform celor artate
n 1 s 2 este repartizat 2 n 1 .
anterior variabila aleatoare v
2
Estimarea raportului a dou dispersii
Se consider selecia aleatoare x11 , x12 ,..., x1n dintr-o populaie N 1 , 12
aleatoare x 21 , x 22 ,..., x 2 n2 dintr-o populaie N 2 , 22 .
1
2
1
2
1
2
2
2
2
s12
2
Se calculeaz F 2 lundu-se
s2
1
n 1 s 2
v
2
x
n
s s22 .
2 X n X n n X
2
n X
2
i o selecie
este repartizat F n1 1, n 2 1 .
E xi
xi
x
x
0 i D 2 i
1
Dar i
este repartizat N(0,1) cci E
x
1 i
2
s max
k 2
1 i
n 1 j 1
Gmax c
PGmax c 1
c) Testul Hartley
Daca selectiile au acelasi volum se poate aplica pentru k 12 testul H calc
iar ipoteza H 0 se respinge daca
probabilitatea
PHmax H 1
Hcalc H
max si2
min si2
verosimilitate.
Spunem c estimatorii i i ( X 1 , X 2 ,..., X n ) sunt de verosimilitate maxim pentru
i , i 1, s dac realizeaz maximul funciei de verosimilitate.
12
maxim.
1) Se arat c un estimator eficient este un estimator de verosimilitate maxim.
2) Un estimator de verosimilitate maxim este estimator consistent, iar pentru valori mari
ale lui n este o variabil aleatoare ce urmeaz legea normal N( , [ I( )] 1 ) , unde este
parametrul estimat.
Exemplu.
i abaterea standard dac se consider caracteristica X, care urmeaz legea normal N(m, ).
Rezolvare:
M(X) = m i (X ) , f(x; m, )
1
2
( x m)2
22
2 ln
( x m) 2
, de unde
2 2
ln f ( x; m, ) x m
ln f ( x; m, )
1 ( x m) 2
,
iar
.
m
2
3
Se obine:
n
n
ln f ( X k ; m, )
X m
ln V
1
k 2 2
m
m
k 1
k 1
(X
k 1
m) .
n
ln V
ln f ( X k ; m, ) n
1 ( X k m) 2
1 n
[
]
[ 2 ( X k m) 2 ]
3
3
k 1
k 1
k 1
(X
sau:
k 1
k 1
Exemplu.
m) 0
(X k m) 2 ] 0
1 n
m Xk X
n k 1
.
n
1
2
(X k X ) 2
n k 1
distribuia teoretic:
X P(m, k )
k 0, m
b) s se arate c estimatorul
c) s se arate c estimatorul
Rezolvare:
a) Funcia de probabilitate pentru caracteristica X este
f(x; p) =
ln f (X k ; p)
0 , avem c
p
k 1
n
(
k 1
Xk m Xk
1 n
nX
mn
nX
0 , unde X X k .
) 0 , adic
p
1 p 1 p
p
1 p
n k 1
(1 p) X mp pX 0 ,
de unde se obine
1
X pentru parametrul p.
m
1
1
1
M ( X ) M (X ) mp p , iar apoi pentru dispersie se poate scrie succesiv:
m
m
m
D 2 ( p )
1 2
1
D (X ) 2 2
2
m
mn
D2 ( X k )
k 1
1
m2n2
(X )
k 1
1
D 2 ( X ) mpq pq
2
nD
(
X
)
2
0, n .
m2n2
m2n
m n mn
D 2 (X ) 0 , deci estimatorul
Prin urmare, s-a obinut M( p ) = p i lim
n
este estimator
ln f (X; p) 2
1
n
) ]n 2
M[(X mp) 2 ] 2
D 2 (X )
2
p
p (1 p)
p (1 p) 2
n
mn
mp(1 p)
.
2
p(1 p)
p (1 p)
2
1
, deci estimatorul p este estimator eficient
I( p )
pentru parametrul p.
14
Bibilografie:
1. Buiga, A., Drago C., Lazr D., Parpucea I., Todea A. - Statistic I - Ed. Presa Universitar
Clujean, Cluj-Napoca, 2003;
2. Ivanov M. Matematici Speciale, Curs Universitatea Constantin Brncui Tg. Jiu,
2006;
3. Cenu G., erban R., Raischi C., - Matematici pentru economiti Bibiloteca Digital
A.S.E., 2008.
15