Documente Academic
Documente Profesional
Documente Cultură
a Aplicat
a
Mihai N. Pascu
1 Octombrie 2016
Contents
1 Elemente de teoria probabilit atilor 3
1.1 Spatiu de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Continuitatea masurii de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Variabile aleatoare 7
2.1 Variabile aleatoare discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Variabile aleatoare continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Caracteristici numerice ale variabilelor aleatoare: media si dispersia . . . . . . . . . . . . . . . . . . . 14
2.4 Transformarea mediei si dispersiei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5 Medie si momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Statistica matematic a 36
5.1 Selectii aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5.2 Reprezent ari grace si caracteristici numerice ale selectiilor aleatoare . . . . . . . . . . . . . . . . . . 37
5.2.1 Caracteristici numerice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3 Reprezent ari grace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.1 Reprezent ari prin puncte (dot diagrams) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.3.2 Diagrame ca serii de timp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.3.3 Diagrame r adacina-frunza (Stem-and-leaf diagrams) . . . . . . . . . . . . . . . . . . . . . . . 38
5.3.4 Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3.5 Box-and-whiskers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.3.6 Grace de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1
7 Metode de estimare a parametrilor 51
7.1 Metoda momentelor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7.2 Metoda verosimilit
atii maxime . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
8 Intervale de ncredere 55
8.1 Intervale de ncredere pentru media unei populatii normale cu dispersie cunoscut a . . . . . . . . . . 55
8.2 Intervale de ncredere pentru medie n cazul selectiilor mari . . . . . . . . . . . . . . . . . . . . . . . 56
8.3 Intervale de ncredere pentru media unei populatii normale cu dispersie necunoscut a . . . . . . . . . 57
8.4 Intervale de ncredere pentru dispersia unei populatii normale . . . . . . . . . . . . . . . . . . . . . . 58
8.5 Intervale de ncredere pentru proportia unei populatii . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.6 Intervale de predictie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
10 Regresia liniara 68
10.1 Metoda celor mai mici p atrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
10.2 Analiz
a de corelatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2
1 Elemente de teoria probabilit
atilor
1.1 Spatiu de probabilitate
Elementul de baz a n teoria probabilit
atilor este notiunea de spatiu de probabilitate, modelul matematic al efectu
arii
unui experiment pentru care multimea rezultatelor posibile este cunoscut a, dar nu se poate preciza cu exactitate
rezultatul efectu
arii experimentului naintea efectu arii acestuia.
Vom nota prin o multime nevid a arbitrar a, ale c
arei elemente pot gndite ca reprezentnd rezultatele posibile
ale efectu
arii unui anumit experiment (vom numi elementele lui evenimente elementare).
F1 F F2 ;
Exemplul 1.3 Data ind o submultime arbitrara S P ( ), ea nu este n general o -algebra. Se poate demonstra
ca exista o -algebra minimala ce contine pe S, notata prin (S), si numita -algebra generata de S.
Faptul ca (S) este o -algebra minimala ce contine pe S nseamna ca (S) este o -algebra, S (S), si
oricare ar o alta -algebra F cu proprietatea ca S F rezulta (S) F.
n general are loc incluziunea S (S), cu egalitate numai n cazul n care S este o -algebra pe .
Exemplul 1.4 Un exemplu important de -algebra generata de o familie de multimi este -algebra multimilor
Boreliene din R, denita prin
1. ;; 2F
2. Pentru orice n 1 si A1; : : : ; An 2 F, avem A1 [ : : : [ An , A1 \ : : : \ An 2 F
T1
3. Pentru orice sir de evenimente A1 ; A2 ; : : : 2 F, avem n=1 An 2 F
def
4. A; B 2 F =)A B = (A B) [ (B A) 2 F
Demonstratie. Exercitiu.
O multime nevid
a pe care s-a denit o algebr
a F se numeste spatiu masurabil, si se noteaz
a ( ; F).
1. P ( ) = 1
3
2. Oricare ar evenimentele A1 ; A2 ; : : : 2 F incompatibile (disjuncte) doua cte doua, are loc egalitatea
1
! 1
[ X
P An = P (An ) :
n=1 n=1
1. P (;) = 0
2. P (A1 [ : : : [ An ) = P (A1 ) + : : : + P (An ), oricare ar A1 ; : : : ; An 2 F disjuncte doua cte doua
3. P (A) P (B), oricare ar A; B 2 F cu A B
4. 0 P (A) 1, oricare ar A 2 F
5. P (Ac ) = 1 P (A), oricare ar A 2 F
6. P (B A) = P (B) P (A), oricare ar A; B 2 F cu A B
7. P (A [ B) = P (A) + P (B) P (A \ B), oricare ar A; B 2 F.
Demonstratie. Exercitiu.
Exemplul 1.9 n cazul aruncarii unui zar, putem considera ca spatiu de probabilitate ( ; F; P ), unde
= f1; 2; : : : ; 6g
F = P( ) = f;; f1g ; f2g ; : : : f1; 2; : : : ; 6gg
1
P : F ! [0; 1), P (f1g) = P (f2g) = : : : = P (f6g) = 6
Exemplul 1.10 n cazul aruncarii unui ban, putem considera ca spatiu de probabilitate ( ; F; P ), unde
= fB; Sg
F = P ( ) = f;; fBg ; fSg ; fB; Sgg
1
P : F ! [0; 1), P (fBg) = P (fSg) = 2 (sau mai general P (fBg) = p, P (fSg) = 1 p cu 0 < p < 1, n
cazul n care banul este masluit)
Exemplul 1.11 n cazul aruncarii a doua monede, putem considera ca spatiu de probabilitate ( ; F; P ), unde
Exercitii
4
Exercitiul 1.2 Sa se demonstreze ca -algebra Boreliana pe R denita de (1) poate descrisa alternativ ca (S),
unde S este oricare din urmatoarele familii de multimi:
a) S = fA R : A multime nchisa n Rg
b) S = f(a; b) : a; b 2 R; a < bg
c) S = f[a; b) : a; b 2 R; a < bg
d) S = f[a; b] : a; b 2 R; a < bg
e) S = f(a; b] : a; b 2 R; a < bg
f ) S = f( 1; a) : a 2 Rg
g) S = f( 1; a] : a 2 Rg
1.2 Continuitatea m
asurii de probabilitate
Pentru a demonstra continuitatea m
asurii de probabilitate, introducem mai nti notiunea de limit
a a unui sir de
evenimente, dup
a cum urmeaz a.
si \1 [ 1
lim sup An = Ai : (3)
n=1 i=n
Observatia 1.2 Este usor de observat ca evenimentul lim inf An consta n evenimentele elementare ! 2 ce
apartin tuturor evenimentelor An , eventual cu exceptia unui numar nit de indici n 1.
De asemenea, se poate arata ca evenimentul lim sup An consta n evenimentele elementare ! 2 ce apartin
unei innitati de evenimente An . Evenimentul lim sup An se mai noteaza An i:o: (An innitely often).
oricare ar m 1.
Intersectnd incluziunile obtinute pentru m = 1; 2; : : : obtinem
\1 [1
lim inf An Ai = lim sup An ;
m=1 i=m
mcheind demonstratia.
Propozitia anterioara este rezultatul corespunzator n cazul sirurilor de evenimente pentru lim inf si lim sup din
cazul sirurilor de numere reale (lim inf xn lim sup xn ). Tot ca n cazul sirurilor de numere reale, spunem c a sirul
de evenimente (An )n 1 are limit a dac
a limita inferioar
a si cea superioara coincid.
Denitia 1.4 Spunem ca sirul de evenimente (An )n 1 are limita daca lim inf An = lim sup An . n caz armativ,
notam prin lim An valoarea comuna a celor doua limite, adica
5
Are loc urm
atoarea.
Propozitia 1.5 a) Daca (An )n 1 este un sir crescator de evenimente (adica A1 A2 : : :), atunci sirul (An )n 1
S1
are limita si limn!1 An = n=1 An .
b) Daca (An )n 1 este un sir descrescator de evenimente (adica A1 A2 : : :), atunci sirul (An )n 1 are limita
T1
si limn!1 An = n=1 An .
Demonstratie. Exercitiu.
Cu aceast
a preg
atire, putem acum demonstra urm
atoarea.
Teorema 1.6 Daca (An )n 1 este un sir de evenimente care are limita, atunci exista limita limn!1 P (An ) si are
loc
limn!1 P (An ) = P (limn!1 An ) : (5)
n particular, daca (An )n 1 este un sir crescator de evenimente atunci
[1
limn!1 P (An ) = P An ; (6)
n=1
Demonstratie. Prima armatie a teoremei rezult a din inegalitatea (8) din consecinta de mai jos, observnd c a
dac
a sirul de evenimente (An )n 1 are limit
a, atunci lim inf An = lim sup An si toate inegalit
atile devin egalit
ati.
Pentru a demonstra a doua armatie, notnd B1 = A1 si Bn = An An 1 pentru n 1, este usor de ar atat
a au loc relatiile [ni=1 Bi = An (n 1), si [1
(Bn )n 1 este un sir de evenimente incompatibile, si c B
i=1 i = [ 1
i=1 Ai .
Folosind aceasta, obtinem
1
X n
X
P (limn!1 An ) = P ([1 1
i=1 Ai ) = P ([i=1 Bi ) = P (Bi ) = lim P (Bi ) = lim P ([ni=1 Bi ) = lim P (An ) :
n!1 n!1 n!1
i=1 i=1
Consecinta 1.7 Daca (An )n 1 este un sir arbitrar de evenimente, atunci are loc
P (lim inf An ) lim inf P (An ) lim sup P (An ) P (lim sup An ) : (8)
T1 T1
Demonstratie. Pentru orice n 1 avem i=n Ai Am oricare ar m n, si deci P ( i=n Ai )
P (Am ) oricare
ar m n.
Trecnd la lim inf (pentru n xat, cu m ! 1) obtinem
T1
P ( i=n Ai ) lim inf P (Am ) :
T1 S1 T1
Cum evenimentele Bn = i=n Ai formeaz a un sir cresc
ator de evenimente, cu limn!1 Bn = n=1 i=n Ai =
lim inf An , trecnd la limita cu n ! 1 si folosind din teorema anterioara obtinem
T1
P (lim inf An ) = P (limn!1 Bn ) = limn!1 P (Bn ) = limn!1 P ( i=n Ai ) lim inf P (Am ) :
6
2 Variabile aleatoare
n practica, variabilele aleatoare apar ca functii ce depind de rezultatul efectu arii unui anumit experiment. Spre
exemplu, la aruncarea a dou a zaruri, suma numerelor obtinute este o variabil
a aleatoare. n general, n experimente
n care num aram (masini aate pe sosea, arunc ari ale unui zar pna la obtinerea unui sase, piese defecte, etc)
variabilele aleatore obtinute sunt variabile aleatore discrete, iar n experimentele n care m asuram (voltajul elec-
tric, cantitatea de apa de ploaie, duritatea unui anumit material, etc), variabilele aleatoare obtinute sunt variabile
aleatoare continue.
Denitia matematic a precis
a este urmatoarea.
Denitia 2.1 (Variabil a aleatoare) O variabila aleatoare reala pe spatiul de probabilitate ( ; F; P ) este o functie
X : ! R masurabila n raport cu -algebrele corespunzatoare (F pe , respectiv -algebra Boreliana B pe R),
adica cu proprietatea ca
X 1 (B) = f! 2 : X (!) 2 Bg 2 F
pentru orice multime Boreliana B 2 B.
Pentru a calcula diverse caracteristice numerice asociate variabilei aleatoare X, introducem functia de dis-
tributie corespunz
atoare, dup
a cum urmeaz a.
Denitia 2.2 (Functia de distributie) Functia de distributie a unei variabile aleatoare este functia F = FX :
R ! R denita prin
F (x) = P (X x) ; x 2 R: (9)
Observatia 2.3 Folosind functia de distributie a variabilei aleatoare X putem spre exemplu determina probabili-
tatea ca variabila X sa ia valori ntr-un anumit interval (a; b]:
Aceasta egalitate are loc deoarece evenimentele fX ag si fa < X bg sunt disjuncte, si verica fX ag [
fa < X bg = fX bg, si deci din Denitia 1.6 a probabilitatii obtinem
F (b) = P (X b)
= P (X a) + P (a < X b)
= F (a) + P (a < X b) ;
Propozitia 2.4 (De caracterizare a functiei de distributie) Functia de distributie F : R ! R a unei vari-
abile aleatoare are urmatoarele proprietati.
Reciproc, se poate arata ca daca o functie F : R ! R verica proprietatile 1) - 3) de mai sus, atunci exista o
variabila aleatoare (pe un anumit spatiu de probabilitate) avnd F ca functie de distributie.
7
are propriet
atile cerute. Pentru aceasta, ar
at
am mai nti c
a are loc egalitatea
P (f! 2 : X (!) xg) = P (f! 2 :! F (x)g) = P ((0; F (x)]) = ((0; F (x)]) = F (x) ;
deoarece P = este m
asura Lebesgue pe intervalul (0; 1), relatie ce arat
a c
a F este functia de distributie a variabilei
aleatoare X.
1. Daca I este un interval ce nu contine nici una din valorile posibile ale variabilei aleatoare discrete X, atunci
P (X 2 I) = 0: (13)
adica este egala cu suma probabilitatilor pi corespunzatoare valorilor posibile xi pentru care a < xi b.
3. Suma tuturor probabilitatilor pi corespunzatoare valorilor xi este egala cu 1, adica
X
pi = 1: (15)
i
Denitia 2.7 (Functie de densitate de probabilitate) Pentru o variabila aleatoare discreta X ce ia valorile
x1 ; x2 ; x3 ; : : : cu probabilitatile p1 ; p2 ; p3 ; : : : ; denim functia de probabilitate f = fX a variabilei aleatoare X
prin
pi ; daca x = xi (i = 1; 2; 3; : : :)
f (x) = :
0; n rest
8
Figure 1: Gracul functiei de probabilitate f (x) si a functiei de distributie F (x) a variabilei aleatoare X reprezen-
tnd rezultatul arunc
arii unui zar.
Cunoscnd functia de probabilitate a unei variabile aleatoare (sau valorile posibile si probabilit
atile respective),
putem determina functia de distributie corespunz
atoare astfel:
X X
F (x) = f (xi ) = pi : (16)
xi x xi x
9
Figure 2: Gracul functiei de probabilitate f (x) si a functiei de distributie F (x) a variabilei aleatoare X reprezen-
tnd num arul de steme obtinute la aruncarea a dou a monede.
Exemplul 2.10 (Problema astept arii - spatiu num arabil de evenimente ) Se arunca n mod repetat o mo-
neda si se considera variabila aleatoare X reprezentnd numarul de ncercari efectuate pna la prima aparitie a
stemei.
n acest caz variabila aleatoare X poate lua valorile 1; 2; 3; : : : (un numar innit, numarabil, de valori posibile),
cu probabilitatile P (X = 1) = P (S) = 21 , P (X = 2) = P (BS) = 12 12 = 14 , P (X = 3) = P (BBS) = 12 12 12 = 18 ,
samd. Avem deci
1 2 3 :::
X= 1 1 1 :
2 4 8 :::
De observat ca relatia (15) este vericata n acest caz: folosind formula seriei progresiei geometrice, obtinem:
X X 1 1 1 1 1 1
pi = = + + + ::: = = 1:
2 i 2 4 8 2 1 12
i 1 i 1
10
Observatia 2.13 Spre deosebire de variabilele aleatoare discrete, n cazul variabilelor aleatoare continue avem
P (X = x) = 0 (18)
oricare ar x 2 R.
Motivul este urmatorul: din continuitatea masurii de probabilitate avem
P (X = x) = lim P (a < X b)
a%x
b&x
= lim P (X b) P (X a)
a%x
b&x
= lim F (b) F (a)
a%x
b&x
Z b
= lim f (u) du
a%x a
b&x
Z x
= f (u) du
x
= 0:
Din relatia (18) rezulta ca spre deosebire de cazul variabilelor aleatoare discrete, n cazul unei variabile aleatoare
X continue urmatoarele probabilitati sunt egale
Z b
P (a < X < b) = P (a X < b) = P (a X b) = P (a < X b) = F (b) F (a) = f (u) du; (19)
a
Rb
toate ind egale cu a f (u) du (aria de sub gracul functiei de densitate f (x) ntre a si b).
Mai general, pentru orice interval I R avem
Z
P (X 2 I) = f (u) du: (20)
I
Observatia 2.14 (Leg atura ntre functia de densitate si cea de distributie) Daca X este o variabila aleatoare
continua avnd densitatea f; atunci relatia (17) permite calculul functiei de distributie:
Z x
F (x) = f (u) du; x 2 R:
1
Reciproc, daca functia de densitate f este o functie continua (eventual cu exceptia unui numar nit de puncte),
din relatia (17) rezulta ca functia de distributie a unei variabile aleatoare continue este o functie continua, si mai
mult, ca este o functie derivabil a (eventual cu exceptia punctelor de discontinuitate ale functiei de densitate f (x)).
Derivnd relatia (17) n raport cu x obtinem
F 0 (x) = f (x) (21)
pentru orice x 2 R pentru care functia f (x) este continua. Aceasta relatie ne permite sa determinam functia de
densitate f (x) atunci cnd cunoastem functia de distributie F (x).
Observatia 2.15 Daca X este o variabila aleatoare continua avnd functia de densitate f (x), atunci au loc ur-
matoarele.
adica este egala cu aria de sub gracul densitatii f (x) ntre a si b (vezi Figura 3).
11
Figure 3: Probabilitatea P (a < X b) este egal
a cu aria de sub gracul densit
atii f (x) ntre a si b.
Exemplul 2.16 Sa consideram variabila aleatoare continua X avnd functia de densitate data de f (x) = 0:75 1 x2
pentru x 2 [ 1; 1] si 0 n rest. Sa se determine functia de distributie a variabilei aleatoare X si sa se calculeze
1 1 1
probabilitatile P 2 X 2 si P 4 X 2 . Care este valoarea lui x pentru care P (X x) = 0:5?
Folosind relatia (17) distingem urmatoarele cazuri.
i) Daca x 1, atunci Z Z x x
F (x) = f (u) du = 0du = 0
1 1
Am obtinut deci 8
< 0; x 1
F (x) = 0:5 + 0:75x 0:25x3 ; 1<x 1 :
:
1; x>1
Pentru a calcula probabilitatile cerute, folosim relatia (53):
Z 1 Z 1
1 1 2 2
P X = f (u) du = 0:75 1 u2 du = 0:6875
2 2 1
2
1
2
12
sau alternativ
1 1 0:75 0:25 81
P X 2 = F (2) F =1 0:5 + = 0:3164:
4 4 4 64 256
Pentru a determina valoarea lui x pentru care are loc egalitatea P (X x) = 0:5, sa observam ca deoarece
3
P (X x) = F (x), relatia data se mai poate scrie sub forma
p F (x) = 0:5.
p Obtinem deci 0:5 + 0:75x 0:25x = 0:5,
2
sau echivalent x x 3 = 0, cu solutiile x1 = 0, x2 = 3 si x3 = 3. Cum numai solutia x = 0 convine (de
ce?), avem x = 0.
Exercitii
Exercitiul 2.2 Consideram functia de probabilitate f (x) = kCx3 pentru x 2 f0; 1; 2; 3g si 0 n rest. Sa se determine
valoarea constantei k, si sa se reprezinte grac functia f si functia de distributie F corespunzatoare.
Exercitiul 2.3 Sa se reprezinte grac functiile f si F n cazul f (0) = f (3) = 61 , f (1) = f (2) = 13 . Poate functia
f avea alte valori nenule?
Exercitiul 2.4 Fie X variabila aleatoare reprezentnd numarul de ani nainte ca o anumita piesa sa se defecteze.
Presupunem ca X are functia de probabilitate f (x) = kx3 pentru x 2 f0; 1; 2; 3; 4g si 0 n rest. Sa se reprezinte
grac functia f si functia de distributie F corespunzatoare.
k
Exercitiul 2.5 Daca variabila aleatoare X are functia de probabilitate f (x) = x! pentru x 2 N si 0 n rest, sa se
determine valoarea constantei k si probabilitatea P (X 3).
Exercitiul 2.6 Sa se reprezinte grac functia de densitate f (x) = 41 pentru x 2 (2; 6) si 0 n rest, precum si functia
de densitate F corespunzatoare. Sa se determine probabilitatile P (X 4) si P (X 3).
a) P (X c) = 90%
1
b) P (X c) = 2
c) P (X c) = 5%
Exercitiul 2.8 Functia de distributie F a unei variabile aleatoare X este data de F (x) = 0 daca x < 0 si F (x) =
1 e 0:1x daca x 0. Sa se reprezinte grac F si functia de densitate f . Sa se determine valoarea lui c astfel nct
P (X c) = 95%.
Exercitiul 2.9 Fie X grosimea (n milimetri) a unei garnituri produse de o anumita masina. Presupunem ca
variabila aleatoare X are functia de densitate f (x) = kx daca 0:9 < x < 1 si 0 n rest. Sa se determine k. Care
este probabilitatea ca o garnitura produsa va avea o grosime ntre 0:95 si 1:05 mm?
Exercitiul 2.10 Doua suruburi sunt alese la ntmplare fara nlocuire dintr-o cutie ce contine 7 suruburi cu let pe
dreapta si 3 suruburi cu let pe stnga. Fie X variabila aleatoare reprezentnd numarul de suruburi extrase avnd
letul pe partea stnga. Sa se determine P (X = 0), P (X = 1), P (X = 2), P (1 < X < 2) si P (0:5 < X < 5).
Exercitiul 2.11 Sa se determine probabilitatea ca nici unul din cele trei becuri ale unui semafor sa nu trebuiasca
schimbat n primele h1500 ore de functionare
i daca durata de viata X a unui bec este o variabila aleatoare avnd
2
densitatea f (x) = 6 0:25 (X 1:5) pentru 1 x 2 si 0 n rest, unde x este masurat n multiplii de 1000 ore.
Exercitiul 2.12 Daca diametrul X al unei bare este o variabila aleatoare avnd densitatea f (x) = k pentru
1119:9 x 120:1 si 0 n rest, aproximativ cte bare vor defecte ntr-un lot de 500 bare, daca o bara este
considerata defecta cnd diametrul ei este mai mic dect 119:91 sau mai mare dect 120:09?
13
0:2x
Exercitiul 2.13 Daca durata de viata a unui rulment este o variabila aleatoare cu densitatea f (x) = ke
pentru 0 x 10 si 0 n rest, care este valoarea lui k? Care este probabilitatea P (X 5)?
Exercitiul 2.14 Sa se determine functia de probabilitate a variabilei aleatoare X reprezentnd numarul de aruncari
ale unui zar pna la aparitia fetei 6. Sa se verice ca are loc relatia (52).
Exercitiul 2.15 Presupunem ca anumite suruburi au o lungime L = 400+X mm, unde X este o variabila aleatoare
avnd densitatea f (x) = 43 1 x2 pentru 1 x 1 si 0 n rest. Sa se determine valoarea lui c astfel nct cu
probabilitate de 95% un surub va avea o lungime cuprinsa ntre 400 c si 400 + c.
Exercitiul 2.16 Presupunem ca ntr-un proces automatizat de umplere a conservelor cu ulei, continutul unei con-
serve (n litri) este Y = 100 + X, unde X este o variabila aleatoare avnd densitatea f (x) = 1 jxj pentru jxj 1 si
0 pentru jxj > 1. Sa se reprezinte grac f si functia de distributie F corespunzatoare. ntr-un lot de 1000 conserve,
aproximativ cte conserve vor contine 100 de litri de ulei sau mai mult? Care este probabilitatea ca o conserva sa
contina mai putin de 99.5 litri ulei? Dar mai putin de 99 litri ulei?
Exercitiul 2.17 Fie functia de densitate f data de f (x) = kx2 daca 0 x 2 si 0 n rest. Sa se determine
valoarea constantei k. Sa se determine constantele c1 si c2 astfel nct P (X c1 ) = 0:1 si P (X c2 ) = 0:9.
Exercitiul 2.18 Fie X raportul vanzarilor la prot pentru o anumita rma. Presupunem ca X are functia de
distributie F data de 8
< 0; x<2
F (x) = x2 4
; 2 x<3 :
: 5
1; x 3
Sa se determine si sa se reprezinte grac functia de densitate f corespunzatoare. Care este probabilitatea ca X
sa e cuprins ntre 2:5 (40% prot) si 5 (20% prot)?
Exercitiul 2.19 Fie X o variabila aleatoare ce poate lua orice valoare reala. Care sunt complementarele eveni-
mentelor fX bg, fX < bg, fX ag, fX > ag, fa X bg, fa < X bg?
unde prin f am notat functia de probabilitate a lui X n cazul n care X este o variabil a aleatoare discret a, respectiv
functia de densitate a lui X n cazul n care X este o variabil a aleatoare continu a.
Abaterea
p p
atratica medie (X) a variabilei aleatoare X se deneste ca ind radicalul dispersiei, adic a
(X) = 2 (X).
Media M (X) a unei variabile aleatoare X se mai numeste valoarea asteptat a / asteptarea lui X, deoarece ea
este egala cu valoarea medie a lui X atunci cnd se efectueaz a multe ncerc ari.
Cantitati precum M (X) (media) sau 2 (X) (dispersia) care indic a anumite propriet ati ale distributiei n cauz
a
se numesc parametrii ai distributiei. Media si dispersia sunt cei mai importanti parametrii ai unei distributii.
Observ am c a n general (cu exceptia cazului unei variabile aleatoare discrete avnd o singur a valoare posibil a),
avem 2 (X) > 0. n continuare vom presupune c a M (X) si 2 (X) exista (si sunt nite), ca n majoritatea cazurilor
ce apar n probleme practice.
14
Figure 4: Gracul functiilor de densitate si de distributie n cazul distributiei uniforme pe intervalul (a; b).
Exemplul 2.17 Fie X variabila aleatoare reprezentnd numarul de fete stema obtinut la aruncarea unei monede.
n acest caz variabila aleatoare X este data de
0 1
X= 1 1 ;
2 2
respectiv
Z 1 2 Z b 2 3 b 2
2 a+b a+b 1 1 a+b (b a)
(X) = x f (x) dx = x dx = x = :
1 x a 2 b a 3 (b a) 2 12
a
Figura 4 indica gracele functiei de densitate f si a functiei de distributie F corespunzatoare distributiei uniforme
pe intervalul (a; b).
Teorema 2.19 Daca functia f (de probabilitate sau de densitate) a unei distributii este simetrica fata de dreapta
x = c, atunci media distributiei este M (X) = c.
Demonstratie. n cazul unei distributii continue avnd densitatea f , conform denitiei mediei avem:
Z 1 Z c Z 1
M (X) = xf (x) dx = xf (x) dx + xf (x) dx:
1 1 c
15
Folosind substitutia x = c u n prima integral a, respectiv substitutia x = c + u n a doua integral
a, si faptul
c
a functia f este simetric
a fat
a de dreapta x = c (adic a f (c u) = f (c + u)), obtinem:
Z 1 Z 1
M (X) = (c u) f (c u) du + (c + u) f (c + u) du
Z0 1 0
= (c u + c + u) f (c + u) du
0
Z 1
= 2c f (c + u) du
Z0 1
= 2c f (x) dx
c
= c;
R1 Rc R1
deoarece 1 f = 1 si deci 1 f = c f = 12 (functia f ind simetric a fat
a de x = c).
Demonstratia este similar
a n cazul unei distributii discrete.
Teorema 2.20 (Transformarea mediei si dispersiei) Daca o variabila aleatoare X are medie M (X) = si
dispersie 2 (X) = 2 , atunci media si dispersia variabilei aleatoare
Y = aX + b (a > 0, b 2 R)
sunt date de
2
M (Y ) = a + b si (Y ) = a2 2
: (27)
n particular, variabila aleatoare standardizat
a Z corespunzatoare lui X, data de
X
Z= (28)
2
are medie M (Z) = 0 si dispersie (Z) = 1.
sau echivalent Z x
P (X x) = f (u) du:
1
v b
Folosind substitutia u = a , obtinem:
Z x
v b 1
P (Y x) = f dv;
1 a a
16
si deci functia de densitate a variabilei aleatoare Y este
1 v b
fY (v) = f :
a a
Putem deci calcula media variabilei aleatoare Y conform denitiei
Z 1 Z 1
1 x b
M (Y ) = xfY (x) dx = x f dx:
1 1 a a
x b
Folosind substitutia y = a (sau echivalent x = ay + b), obtinem
Z 1
1
M (Y ) = (ay + b) f (y) ady
1 a
Z 1
= (ay + b) f (y) dy
1
Z 1 Z 1
= a yf (y) dy + b f (y) dy
1 1
= a + b;
R1
conform denitiei medie a lui X si deoarece 1 f = 1 (functia f ind o functie de densitate).
n mod similar putem calcula dispersia variabilei aleatoare Y
Z 1
2 2
(Y ) = (x Y ) fY (x) dx
1
Z 1
2 1 x b
= (x a b) f dx
1 a a
Z 1
2 1
= (ay + b a b) f (y) adx
1 a
Z 1
2
= a2 (x ) f (y) dx
1
= a2 2
;
1
M (Z) = =0
si dispersie
2
2 1 2
(Z) = = 1;
ncheind demonstratia.
unde f reprezint
a functia de probabilitate a lui X (n cazul unei variabile X discrete) sau functia de densitate a lui
X (n cazul unei variabile aleatoare X continue).
17
n cazul particular al alegerii functiei g (x) = xk se obtine momentul de ordin k al variabilei aleatoare X
X Z 1
k k
M X = xi f (xi ) sau xk f (x) dx; (30)
i 1
k
iar n cazul alegerii functiei g (x) = (x ) se obtine momentul centrat de ordin k al variabilei aleatoare X
X Z 1
k k k
M (X ) = (xi ) f (xi ) sau (x ) f (x) dx: (31)
i 1
Observ
am c
a momentul de ordin 1 (k = 1 n formula (30)) coincide cu media a variabilei aleatoare X
= M (X) ;
2
si c
a momentul centrat de ordin 2 (k = 2 n formula (31)) coincide cu dispersia a variabilei aleatoare X
2 2
= M (X ) .
Exercitii
Sa se determine media si dispersia variabilei aleatoare X n urm
atoarele cazuri (f reprezint
a functia de proba-
bilitate sau de densitate a variabilei aleatoare X).
Exercitiul 2.21 f (x) = kCx3 , x 2 f0; 1; 2; 3g si 0 n rest.
Exercitiul 2.22 X reprezinta rezultatul aruncarii unui zar.
Exercitiul 2.23 f (x) = 2x pentru 0 x 1 si 0 n rest.
x
Exercitiul 2.24 f (x) = e pentru x > 0 si 0 n rest.
Exercitiul 2.25 Y = 4X 2, unde X este variabila aleatoare din anterior.
Exercitiul 2.26 X este variabila aleatoare uniforma pe [0; 10].
Exercitiul 2.27 Daca diametrul X (n centimetri) al unor suruburi are densitatea f (x) = k (x 0:9) (1:1 x)
pentru 0:9 < x < 1:1 si 0 n rest, sa se determine k; si 2 . Sa se reprezinte grac densitatea f .
Exercitiul 2.28 Daca n exercitiul anterior un surub este considerat defect atunci cnd diametrul sau difera cu
mai mult de 0:06 cm fata de 1 cm, care este probabilitatea ca un surub sa e defect?
Exercitiul 2.29 n exercitiul anterior, care este valoarea maxima posibila a deviatiei fata de 1 cm pentru care
probabilitatea ca un surub sa e defect este de 10%?
Exercitiul 2.30 Care este valoarea asteptata a sumei la aruncarea de 20 de ori a unui zar? Comparati valoarea
obtinuta cu valoarea experimentala (efectuati experimentul de un numar de ori si nregistrati valorile obtinute).
Exercitiul 2.31 O statie de benzina este alimentata n ecare Smbata. Presupunem ca volumul X de benzina
vnduta (n zeci de mii de litri) este o variabila aleatoare avnd densitatea f (x) = 6x (1 x) pentru 0 x 1 si
0 n rest. Sa se determine media, dispersia si variabila aleatoare standardizata corespunzatoare lui X.
Exercitiul 2.32 Ce capacitate trebuie sa aiba rezervorul din problema anterioara, daca probabilitatea ca rezervorul
sa e golit ntr-o anumita saptamna este de 5%?
Exercitiul 2.33 Daca durata de viata a unor cauciucuri (n mii de kilometri) are densitatea f (x) = e x pentru
x > 0 si 0 n rest, ce kilometraj sunteti asteptat sa obtineti cu acest tip de cauciucuri? Pentru = 0:05, determinati
probabilitatea ca un cauciuc va avea o durata de viata mai de cel putin 30000 km.
Exercitiul 2.34 La aruncarea unui zar, o persoana cstiga attia lei cti indica zarul. Ct ar trebui sa plateasca
persoana pentru un joc, pentru ca jocul sa e cinstit (echitabil)?
Exercitiul 2.35 Care este valoarea asteptata a protului zilnic al unui magazin care vinde X curcani pe zi cu
probabilitatile f (5) = 0:1, f (6) = 0:3, f (7) = 0:4 si f (8) = 0:2, daca protul pentru un curcan vndut este de 35
lei?
18
3 Distributii discrete clasice
3.1 Distributia Bernoulli
Probabil cel mai simplu tip de variabil
a aleatoare discreta, variabila aleatoare Bernoulli modeleaz
a efectuarea unui
experiment n care poate apare unul din dou a rezultate posibile, numite succes, respectiv insucces. Spre exemplu,
aruncarea unei monede poate modelat a printr-o variabil
a aleatoare Bernoulli (convenim spre exemplu c a obtinerea
stemei este succes).
Atribuind succesului valoarea 1 (cu probabilitatea p 2 (0; 1)), si insuccesului valoarea 0 (cu probabilitate q =
1 p), reprezent am variabila aleatoare Bernoulli cu parametrul p (probabilitatea obtinerii succesului) sub forma
0 1
X= :
1 p p
M (X) = 0 (1 p) + 1 p = p
si
2 2 2
(X) = (0 p) (1 p) + (1 p) p = p (1 p) :
1 2 ::: n
X= 1 1 1 :
n n ::: n
si
n
X 2
2 n+1 1
(X) = i
i=1
2 n
n n
!
1 X X(n + 1)
2
2
= i (n + 1) i+n
n i=1 i=1
4
!
2
1 n (n + 1) (2n + 1) n (n + 1) (n + 1)
= (n + 1) +n
n 6 2 4
2 2
(n + 1) (2n + 1) (n + 1) (n + 1)
= +
6 2 4
n2 1
= :
12
n jocurile de noroc (num arul de aparitii a stemei la aruncarea unui ban, num
ar de aparitii a unei anumite
fete la aruncarea unui zar, etc)
n controlul calit
atii produselor (num
arul de piese defecte dintr-un lot, etc)
19
n sondajele de opinie (num
arul de persoane care prefer
a un anumit candidat, num
arul de persoane asupra
c
arora un anumit medicament a avut efectul dorit, etc)
n toate aceste situatii suntem interesati de numarul total de aparitii a unui anumit eveniment A n n ncerc ari
independente, n ecare din acestea probabilitatea de aparitie a evenimentului A ind P (A) = p. Dac a ntr-o
anumit a ncercare evenimentul A nu apare, atunci nseamn a c
a a aparut evenimentul contrar lui A (adic a Ac ), cu
c not
probabilitate P (A ) = 1 p = q.
Evenimentul A se numeste succes (chiar dac a aceasta nseamn a spre exemplu c a o pies
a aleas
a dintr-un lot are
a un anumit autobuz a ntrziat, etc), iar evenimentul contrar Ac se numeste insucces.
defectiuni, c
Distributia binomiala sau variabila aleatoare binomial a X cu parametrii n si p este
X = num
arul de aparitii a lui A n n ncerc
ari.
Este usor de observat ca valorile posibile ale lui X sunt 0; 1; : : : ; n (de ce?), si deci variabila aleatoare binomial
a
cu parametrii n si p este de forma
0 1 2 ::: n
X= :
p0 p1 p2 : : : pn
Pentru a determina probabilit atile f (x) = px = P (X = x), s
a observam ca X = x nseamn
a c
a evenimentul A
arut de x ori si evenimentul Ac a ap
a ap arut de n x ori n cele n ncerc
ari.
Cum cele n ncerc ari sunt independente, putem calcula probabilitatea de aparitie de x ori a evenimentului A
urmata de aparitia de n x ori a evenimentului Ac astfel:
Aceasta este ns
a numai una din posibilele moduri de aparitie x ori a evenimentui A si de n x ori a evenimentului
Ac . Cum num ari distincte a x de A si n x de Ac este conform Propozitiei ?? (cu k = 2, n1 = x
arul total de aranj
si n2 = n x) egal cu
n!
= Cnx ;
x! (n x)!
obtinem c
a probabilitatea P (X = x) de aparitie de x ori a evenimentului A n n ncerc
ari este
P (X = x) = Cnx px q n x
: (32)
Cnx px q n x
; x 2 f0; 1; : : : ; ng
f (x) = : (33)
0; n rest
Exemplul 3.1 Sa se determine probabilitatea obtinerii a cel putin doi de sase la aruncarea de patru ori a unui zar.
Sa notam cu A evenimentul constnd n aparitia lui sase la aruncarea zarului (evenimentul succes). Numarul
de succese la aruncarea de patru ori a zarului este o variabila aleatoare binomiala cu parametrii n = 4 (numarul de
ncercari) si probabilitatea succesului p = P (A) = 61 .
Probabilitatea ceruta este deci
20
Propozitia 3.2 Media si dispersia variabilei aleatoare binomiale cu parametrii n si p sunt
2
M (X) = np si (X) = npq:
Folosind aceast
a formul
a (cu a = q si b = p) si denitia mediei, obtinem
X n
X n 1 n 1
M (X) = xi f (xi ) = xCnx px q n x
= n (q + p) p = n (1 p + p) p = np:
xi x=0
Se poate ar
ata c
a distributia Possion se obtine ca limit
a a distributiei binomiale cu parametrii n si p, atunci
cnd n ! 1 si p ! 0 astfel nct np ! (spre exemplu considernd np = constant).
21
Exemplul 3.4 Daca probabilitatea producerii unui surub defect este p = 0:01, care este probabilitatea ca un lot de
100 suruburi sa contina mai mult de doua suruburi defecte?
Considernd gasirea unui surub defect n lot ca ind un succes, probabilitatea ceruta este data de distributia
binomiala X cu parametrii n = 100 si p = 0:01
P (X > 2) = 1 P (X 2)
= 1 P (X = 0) P (X = 1) P (X = 2)
0
= 1 C100 0:99100 C100
1
0:01 0:9999 C100
2
0:012 0:9998
0:0794
Cum valoarea lui p = 0:01 este mica, putem aproxima variabila aleatoare X prin variabila aleatoare Poisson cu
parametrul = np = 100 0:01 = 1. Obtinem astfel urmatoarea aproximare a probabilitatii cerute:
0 1 2
11 11 11
P (A) 1 e e e
0! 1! 2!
5
= 1
2e
0:0803:
Observam ca rezultatul obtinut prin aproximarea variabilei aleatoare binomiale prin variabila aleatoare Poisson
este foarte bun (valoarea exacta a probabilitatii este 0:0794, iar valoarea aproximativa este 0:0803).
Exemplul 3.5 n medie, ntr-o anumita parcare intra 2 masini pe minut. Care este probabilitatea ca ntr-un minut
4 sau mai multe masini sa intre n parcare?
Sa consideram X variabila aleatoare reprezentnd numarul de masini care intra n lot ntr-un minut. Pentru a
ntelege ca X are aproximativ o distributie Poisson, consideram minutul mpartit n n subintervale de timp (spre
exemplu secunde, n = 60) si e p probabilitatea ca o masina sa intre n parcare ntr-un astfel de subinterval de timp
(presupunem ca aceasta probabilitate este aceeasi pentru ecare subinterval, si ca sosirile n subintervale diferite
sunt independente unel de altele).
Variabila aleatoare X (numarul de masini ce intra ntr-un minut n parcare) este deci o variabila aleatoare
binomiala cu parametrii n si p, si cum n este mare si p este mic, putem arpoxima variabila aleatoare binomiala X
printr-o variabila aleatoare Poisson cu medie = np = 2.
Putem deci aproxima probabilitatea ceruta astfel
P (X 4) = 1 P (X < 4)
= 1 P (X = 0) P (X = 1) P (X = 2) P (X = 3)
20 22
1
22 23
1 e 2 e e 2 e 2
0! 1! 2! 3!
19
= 1
3e2
0:143
19
Probabilitatea ceruta este aproximativ 1 3e2 0:143.
X = num
arul ncerc
ari efectuate pn
a la prima aparitie a succesului.
Spre exemplu, num arul de aruncari ale monedei (un experiment Bernoulli cu parametrul p = 21 ) pn a la prima
aparitie a stemei este o variabil
a aleatoare geometrica cu parametrul p = 12 . Similar, num
arul de arunc
ari ale zarului
pn
a la prima aparitie a fetei 6 este o variabil a cu parametrul p = 16 .
a aleatoare geometric
Explicit, o variabil a aleatoare cu parametrul p 2 (0; 1) este de forma
1 2 3 4 :::
X= ;
p1 p2 p3 p4 :::
22
i 1
unde pi = p (1 p) , i = 1; 2; : : :
Media si dispersia variabilei aleatoare geometrice cu parametrul p sunt date de
1
M (X) = ;
p
respectiv
2 1 p
(X) = :
p2
Se poate demonstra urm
atoarea.
Propozitia 3.6 (Lipsa de memorie a variabilei aleatoare geometrice) Daca X este o variabila aleatoare
geometrica, atunci
P ( X = n + kj X > n) = P (X = k) ; n; k 1: (35)
Reciproc, o variabila aleatoare discreta X ce ia valori 1; 2; : : :si verica proprietatea anterioara este o variabila
aleatoare geometrica.
Demonstratie. Conform denitiei probabilit
atii conditionate, avem
P (X = n + k; X > n)
P ( X = n + kj X > n) =
P (X > n)
P (X = n + k)
=
1 P (X n)
n+k 1
(1 p) p
= Pn
1 i=1 P (X = i)
n+k 1
(1 p) p
= Pn i 1
1 i=1 (1 p) p
n+k 1
(1 p) p
= n
1 p 11 (1(1 p)p)
n+k 1
(1 p) p
= n
(1 p)
k 1
= (1 p) p
= P (X = k) :
Reciproc, considernd n = 1 n relatia (35), avem
P ( X = k + 1j X > 1) = P (X = k) ;
sau echivalent (folosind denitia probabilit
atii conditionate)
P (X = k + 1) = P (X > 1) P (X = k) ;
oricare ar k = 1; 2; : : :
k 1
Notnd cu p = P (X = 1) 2 (0; 1), inductiv dup a k = 1; 2; : : : se poate demonstra ca P (X = k) = (1 p) p,
k = 1; 2; : : : ; si deci este o variabil
a aleatoare geometric a cu parametrul p.
O generalizare a variabilei aleatoare geometrice este variabila binomial a negativ a cu parametrii k 2 N si
p 2 (0; 1), ce reprezint a num arul de ncercari efectuate ntr-un sir de experimente Bernoulli cu parametrul p pn a
la obtinerea a k 1 succcese. Numele de negativ a provine din faptul c a dac
a la variabila aleatoare binomiala
num arul de ncerc ari n era xat si num arul k de succese era aleator, la variabila aleatoare binomial a negativ
a,
num arul de succese k este xat si num arul de ncercari n este aleator. Variabila aleatoare binomial a negativ
a este
deci ntr-un anumit sens opusa/negativa variabilei aleatoare binomiale.
O variabila aleatoare binomial a negativ
a cu parametrii k 2 N si p 2 (0; 1) este de forma
k k + 1 k + 2 k + 3 :::
X= ;
pk pk+1 pk+2 pk+3 : : :
i k
unde pi = Cik 1
1
(1 p) pk , i = k; k + 1; : : :
23
Observatia 3.7 Daca X este o variabila aleatoare binomiala negativa cu parametrii k 2 N si p 2 (0; 1), si notnd
cu X1 numarul de ncercari efectuate pna la apritia primului succes, cu X2 numarul de ncercari suplimentare
pna la aparitia celui de-al doilea succes, samd, este usor de observat ca are loc egalitatea
X = X1 + : : : + Xk ;
Se poate demonstra c
a media si dispersia variabilei aleatoare negative sunt date de
k
M (X) =
p
si
2 (1 p) k
(X) = :
p2
Exercitiul 3.1 Sa se demonstreze formulele anterioare:
a) Direct
b) Folosind observatia anterioara.
M x M n x
Cnx 1 ; x 2 f0; 1; 2; : : : ; ng
f (x) = N N : (36)
0; n rest
Daca extragerile se fac f a nlocuire, atunci probabilitatea extragerii unui obiect defect nu mai este aceeasi n
ar
cele n extrageri, si deci n acest caz numarul de obiecte defecte extrase nu mai este o variabil a aleatoare binomial
a.
Pentru a determina functia de probabilitate n acest caz, proced am astfel. Probabilitatea P (X = x) este prob-
abilitatea extragerii a x piese defecte (din cele M ) si a n x piese ne-defecte (din cele N M ). n acest caz spatiul
de probabilitate are un num ar nit de cazuri egal probabile, si deci avem
num
ar cazuri favorabile Cx Cn x
P (X = x) = = M Nn
M
:
num
ar cazuri posibile CN
O variabil
a aleatoare avnd functia de probabilitate
( x n x
CM C N M
f (x) = CNn ; x 2 f0; 1; 2; : : : ; ng (37)
0; n rest
24
Daca extragerea se face fara nlocuire, atunci X are o distributie cu parametrii N = 10, M = 3 si n = 2.
Functia de probabilitate este n acest caz
( x 2 x
C 3 C7
2 ; x 2 f0; 1; 2g
f (x) = C10 :
0; n rest
Observatia 3.10 Se poate arata ca daca N; M si N M au valori mari comparativ cu n, atunci la extragerea fara
nlocuire se obtine aproximativ aceleasi probabilitati ca la extragerea cu nlocuire, si deci distributia hipergeometrica
poate aproximata prin distributia binomiala (cu parametrii n si p = M N ).
n cazul particular al unei populatii innite (N 1) putem folosi distributia binomiala, indiferent daca ex-
tragerea se face cu sau fara nlocuire.
Exercitii
Exercitiul 3.2 Se arunca simultan cinci monede. Sa se determine functia de probabilitate a variabilei aleatoare
X reprezentnd numarul de steme obtinute. Sa se determine probabilitatea obtinerii nici unei steme, a cel putin
unei steme, a nu mai mult de 4 steme.
Exercitiul 3.3 Daca probabilitatea de a nimeri o tinta este de 25% si se trag simultan 4 focuri, care este probabil-
itatea ca tinta sa e nimerita cel putin o data?
Exercitiul 3.4 n exercitiul anterior, daca probabilitatea de a nimeri tinta este de 5% si se trag simultan 20 de
focuri, probabilitatea de nimeri tinta cel putin o data va creste sau va scade? Ghiciti, apoi calculati.
Exercitiul 3.5 Presupunem ca 4% din barele produse de o anumita masina au defecte de fabricatie, independent
unele de altele. Daca o cutie contine 100 de bare produse de aceasta masina, care este aproximarea Poisson a
probabilitatii ca o cutie sa contina x = 0; 1; : : : ; 5 bare cu defecte de fabricatie?
Exercitiul 3.6 Un experiment a aratat ca numarul de particole alfa emise pe secunda ntr-un proces radioactiv
este o variabila aleatoare X avnd o distributie Poisson. Daca X are medie 0:5, care este probabilitatea de a observa
doua sau mai multe particole alfa ntr-o secunda?
Exercitiul 3.7 Fie p = 2% probabilitatea ca un anumit tip de bec sa se defecteze ntr-o perioada de testare de 24
ore. Sa se determine probabilitatea ca o rma luminoasa continnd 15 astfel de becuri sa functioneze 24 de ore fara
defectiuni.
Exercitiul 3.8 Ghiciti cu ct va mai mica probabilitatea din exercitiul anterior daca rma luminoasa ar contine
100 de becuri n loc de 15 becuri. Calculati probabilitatea n acest caz.
Exercitiul 3.9 Daca un ghiseu poate servi cel mult 4 clienti pe minut, si daca numarul mediu de clienti este de
120 clienti pe ora, care este probabilitatea ca ntr-un minut clientii sa trebuiasca sa astepte la coada?
Indicatie: se va folosi aproximarea Poisson.
Exercitiul 3.10 Sa presupunem ca n producerea unor rezistente de 60 (omi), piesele fara defecte sunt cele care
au ntre 58 si 62 omi, si probabilitatea unei rezistente de a defecte este 0:1%. Rezistentele se vnd n loturi de
200 de bucati, cu garantia ca nici una din rezistente nu este defecta. Care este probabilitatea de a gasi un lot care
nu respecta aceasta garantie?
Indicatie: se va folosi aproximarea Poisson.
Exercitiul 3.11 O cutie contine 20 de sigurante, din care 5 sunt defecte. Sa se determine probabilitatea ca alegnd
la ntmplare 3 sigurante fara nlocuire, x dintre acestea sa e defecte.
Exercitiul 3.12 Sa presupunem ca un test de perceptie extrasenzoriala consta n numirea corecta (n orice ordine)
a trei carti extrase dintr-un pachet de 13 carti de joc. Sa se determine probabilitatea ca o persoana, numai ghicind
la ntmplare sa numeasca corect: (a) 0 carti, (b) 1 carte, (c) 2 carti, (d) 3 carti.
Exercitiul 3.13 Un distribuitor vinde gume elastice n pachete de 100 de bucati si garanteaza ca cel mult 10%
din acestea au defecte. Un client inspecteaza ecare pachet alegnd la ntamplare 10 gume elastice din pachet fara
nlocuire. Daca el determina ca nici una din cele 10 gume extrase nu are defecte, el accepta pachetul, iar n caz
contrar l refuza. Sa se determine probabilitatea ca procednd astfel, clientul respinge un pachet ce contine 10 gume
elastice cu defecte (si deci pachetul respecta conditiile de garantie).
Exercitiul 3.14 Daca X reprezinta numarul de masini ce trec printr-un anumit loc ntre ora 2300 si ora 2400 , si
daca X are o distributie Poisson cu medie 5, care este probabilitatea de a observa mai putin de 5 masini ntr-un
minut?
25
4 Distributii continue clasice
Prezent
am n continuare cteva distributii continue de probabilitate clasice.
Denitia 4.1 Spunem ca X este o variabila aleatoare uniforma continua pe intervalul [a; b] (notam X 2 U nif ([a; b]))
daca X are functia de distributie f data de
1
f (x) = b a; x 2 [a; b]
: (38)
0; n rest
Observatia 4.2 Functia f denita de relatia anterioara este ntr-adevar o functie de densitate deoarece este ne-
negativa (f (x) 0 oricare ar x 2 R) si are integrala egala cu 1:
Z 1 Z b b
1 x b a
f (x) dx = dx = = = 1.
1 a b a b a a b a b a
oricare ar t 2 R f0g, si
'X (0) = M e0 X = M e0 = M (1) = 1:
26
Observatia 4.4 Functia f data de relatia anterioara este ntr-adevar o densitate deoarece este ne-negativa (f (x)
0 oricare ar x 2 R) si are integrala egala cu 1:
Z 1 Z 1
1
f (x) dx = e x dx = e x 0 = e 1 e0 = 1:
1 0
1
= 2:
27
Observatia 4.5 Folosind faptul ca functia generatoare de moment a variabilei aleatoare exponentiale este 'X (t) =
t pentru t < , se poate calcula usor media si dispersia variabilei astfel.
0 0 1
1 2 2
M (X) = 'X (t) = (t ) = (t ) = ( ) = :
t=0 t=0 t=0
Propozitia 4.6 Daca X este o variabila aleatoare cu valori positive ce verica relatia (41) pentru orice t; t > 0,
atunci X are o distributie exponentiala cu parametru .
mp
artind relatia (41) cu t obtinem deci
S (t + t) S (t) 1 o ( t)
= + :
t S (t) t
28
Cum membrul drept al acestei egalit ati are limita atunci cnd t tinde la zero (deoarece lim t!0 o( tt) = 0),
rezult
a c
a si membrul stng al acestei relatii are limita atunci cnd t ! 0, adic
a functia S este derivabil
a n
punctul t, si avem
S 0 (t)
= ; t 0:
S (t)
Integrnd aceast
a egalitate n raport cu t pe intervalul [0; x], obtinem
Z x 0 Z x
S (t)
dt = dt;
0 S (t) 0
Propozitia 4.7 Daca X1 ; : : : ; Xn 2 Exp ( ) sunt variabile aleatoare exponentiale cu parametru independente,
atunci variabila aleatoare
1
Y = X1 + : : : + Xn 2 n; (43)
1
are o distributie gamma cu parametrii n si .
= :::
t t
n
t
=
n
1
= 1 t
k
= (1 t) ;
unde k = n si = 1 . Functia generatoare de moment a variabilei aleatoare Y coincide deci cu functia generatoare
k
de moment (1 t) a distributiei (k; ) (pentru k = n si = 1 ), si deci Y 2 n; 1
29
4.3 Distributia normal
a
Variabila aleatoare normal a are un rol fundamental n teoria probabilit
atilor si statistica matematic a, datorit
a Teo-
remei limit
a central
a, care arm a c
a suma unor variabile aleatoare independente si identic distribuite corespunz ator
normate converge n distributie c atre distributia normal
a. Mai precis, dac a X1 ; X2 ; : : : este un sir de variabile
aleatoare independente identic distribuite (abreviat i.i.d.), cu medie = M (X1 ) si dispersie 2 = 2 (X1 ), atunci
X1 + : : : + Xn n
p ! X 2 N (0; 1)
n n!1
n distributie, adic
a Z t
X1 + : : : + Xn n 1 x2
P p t ! p e 2 dx
n n!1 2 1
Importanta acestei teoreme este dat a de faptul ca oricare ar distributia variabilelor X1 ; X2 ; : : : indepen-
dente, suma Sn = X1 + : : : + Xn corespunz ator normat a (adic
a sc
aznd din Sn media M (Sn ) = n si mp artind
a X = Sn pnn are medie 0 si
rezultatul la radicalul dispersie 2 (Sn ) = n 2 , astfel nct variabila aleatoare rezultat
dispersie 1) tinde c
atre o anumita distributie - distributia normal a standard.
2
Denitia 4.8 Spunem ca variabila aleatoare X are o distributie normala cu parametrii si (notam X 2
N ; 2 ) daca X are densitatea
1 (x )2
f (x) = p e 2 2 ; x 2 R:
2 2
2
n cazul = 0 si = 1 spunem ca X are o distributie normal
a standard (X 2 N (0; 1)).
2
Figure 5: Gracul densit
atii normale pentru cteva valori ale mediei si dispersiei .
Observatia 4.9 Functia f din denitia anterioara este ntr-adevar o densitate deoarece este ne-negativa (f (x) 0
oricare ar x 2 R) si are integrala egala cu 1. Pentru a arata aceasta, sa observam ca este sucient sa consideram
cazul = 0 si 2 = 1, deoarece folosind substitutia u = x avem
Z 1 Z 1 Z 1
1 1 (x 2)2 1 u2
f (x) dx = p e 2 dx = p e 2 du;
1 2 1 2 1
30
Observam n continuare ca:
Z 1 Z 1 Z 1 1=2
2 x2 2 x2 x2
p e 2 dx = p e 2 dx e 2 dx
2 0 2 1 1
Z 1 Z 1 1=2
2 x2 y2
= p e 2 dx e 2 dy
2 0
Z 1 Z 1 1=2
2 x2 +y 2
p = e 2 dy dx :
2 0 0
Folosind substitutia y = ux, si schimbnd ordinea de integrare, obtinem echivalent:
Z 1 Z 1 Z 1 1=2
2 x2 2 x2 +u2 x2
p e 2 dx = p e 2 xdu dx
2 0 2 0 0
Z 1 Z 1 (1+u2 )x2 ! !1=2
2
= p e 2 xdu dx
2 0 0
Z 1 x=1 ! !1=2
2 1 (1+u2 )x2
= p e 2 du
2 0 1 + u2
x=0
Z 1 1=2
2 1
= p du
2 0 1 + u2
2 u=1 1=2
= p ( arctan uju=0 )
2
2 1=2
= p (arctan 1 arctan 0)
2
2 1=2
= p
2 2
= 1;
ncheind astfel demonstratia.
2
Media si dispersia variabilei aleatoare normale X 2 N ; sunt
2 2
M (X) = si (X) = ;
2
adic
a chiar parametrii distributiei normale N ; .
x
R1
Observatia 4.10 Pentru a demonstra aceste relatii, se foloseste substitutia u = si faptul ca 1
f = 1.
2
Functia generatoare de moment a variabilei aleatoare normale X 2 N ; este
2 2
t+ 2 t
'X (t) = e ; t 2 R: (44)
x
Pentru a ar
ata aceasta, folosind din nou substitutia u = obtinem:
tX
'X (t) = M e
Z 1
1 (x )2
= etx p e 2 2 dx
1 2 2
Z 1
1 u2
= p et(u + ) e 2 du
2 1
Z 1
1 t (u t )2 2 2
= p e e 2 e 2 t du
2 1
Z 1
2 2 1 (u t )2
= et e 2 t p e 2 du
1 2
2 2
= et + 2 t ;
31
ultima egalitate rezultnd din faptul c a integrala este egal
a cu 1 (este integrala densit
atii variabilei N (t ; 1)).
n practic
a este deseori util s
a transform am o variabila aleatoare normal a N ; 2 ntr-o variabil a aleatoare
normala standard N (0; 1). Aceast a transformare este data de urm atoarea.
2 2
Propozitia 4.11 Daca X 2 N ; este o variabila aleatoare normala cu medie si dispersie , atunci
X
Z= 2 N (0; 1)
Demonstratie. S
a determin
am mai nti leg
atura ntre functiile de distributie ale variabilelor aleatoare X si Z:
X
FZ (x) = P (Z x) = P x = P (X x + ) = FX ( x + ) .
Derivnd aceast
a egalitate n raport cu x, obtinem relatia de leg
atur
a ntre densit
atile variabilelor aleatoare X
si Z:
d d
fZ (x) = FZ (x) = FX ( x + ) = f ( x + ) :
dx dx
(x )2
Cum X 2 ; 2
avem f (x) = p 1 e 2 2 , si deci obtinem
2 2
1 ( x+ )2 1 x2
fZ (x) = p e 2 2 =p e 2 ;
2 2 2
si deci conform denitiei rezult
a ca Z 2 N (0; 1) este o variabil
a aleatoare normala standard.
Propozitia anterioar
a este util
a n practic
a, deoarece ea arat
a c
a n principiu putem reduce studiul unei variabile
aleatoare la cazul cnd aceasta este o variabil a aleatoare normal a standard.
Rezultatul urm ator arata ca suma unor variabile aleatoare normale independente este o variabil a aleatoare
normal a.
2 2
Propozitia 4.12 Daca X1 2 N 1; 1 si X2 2 N 2; 2 sunt variabile aleatoare independente, atunci X1 +X2 2
N 1 + 2 ; 21 + 22 .
( 2+ 2
1 2 )t
= e( 1 + 2 )t+ 2 :
Observatia 4.13 Daca densitatea f a unei variabile aleatoare X este simetrica fata de 0, atunci functia de dis-
tributie verica
F ( x) = 1 F (x) ; x 2 R: (45)
Motivul este urmatorul:
Z x Z 1
F ( x) = P (X x) = f (t) dt = f (t) dt = P (X > x) = 1 P (X x) = F (x) :
1 x
32
Figure 6: Gracul unei densit
ati simetrice fat
a de 0 veric
a F ( x) = 1 F (x).
x2
n particular, deoarece densitatea f (x) = p12 e 2 a variabilei normale standard X 2 N (0; 1) este simetric a
fat
a de 0, rezulta c
a dac a valorile functiei de distributie F (x) sunt cunoscute pentru valori positive x, atunci si
valorile F (x) pentru valori negative x sunt cunoscute (sunt determinate de relatia (45)).
Referitor la variabila aleatoare normal a X 2 N ; 2 se poate usor ar ata c
a probabilitatea P (jX j k )
depinde numai de k si este independent a de si 2 . Alegnd k = 1; 2 sau 3 rezult a c
a 68:27% din valorile unei
variabile avelatoare normale X 2 N ; 2 se aa la o distant a mai mic
a dect fat a de , c a 95:45% din valori
sunt la disanta mai mic a dect 2 fat a de , respectiv c a 99:73% din valori sunt la o distant
a mai mic
a dect 3
fat
a de .
Alte doua valori utile sunt urm atoarele: 95% din valori sunt la distant
a mai mic a dect 1:96 fat
a de , iar 99%
din valori sunt la distanta mai mic a dect 2:58 fat a de .
2
4.4 Distributia
2
O variabil
a aleatoare X are o distributie (hi p
atrat) cu n grade de libertate dac
a se poate scrie ca o sum
a
X = X12 + : : : + Xn2
2
Figure 7: Functia de densitate (n) pentru cteva valori ale num
arului de grade de libertate n.
2
O denitie echivalent
a a distributiei este urm
atoarea.
2
Denitia 4.14 Spunem ca o variabila aleatoare X are o distributie cu n 2 N grade de libertate (si notam
X 2 2 (n)) daca are densitatea
n x
cx 2 1 e 2 ; x 0
f (x) =
0; x<0
1
R1 z 1 t
(c = n2 n iar (z) = 0 t e dt, Re z > 0, este functia Gamma).
2 (2)
33
Pentru a ar ata c
a cele dou
a denitii
n
anterioare coincid, putem calcula functia generatoare de moment. n ambele
cazuri se obtine 'X (t) = (1 2t) 2 pentru t < 12 , si deci cele doua denitii coincid.
Media si dispersia variabilei aleatoare X 2 2 (n) sunt date de
2
M (X) = n si (X) = 2n;
Figure 8: Functia de densitate T (n) pentru cteva valori ale gradelor de libertate n.
O denitie echivalent
a a distributiei T este urm
atoarea.
Denitia 4.16 Spunem ca variabila aleatoare X are o distributie T cu n grade de libertate (notam X 2 T (n))
daca are densitatea 8 n+1
< x2 2
f (x) = c 1 + n ; x 0
: 0; x<0
1 (x) (y)
(c = p
nB ( n
iar B (x; z) = (x+y) , x; y > 0, este functia Beta).
2 ;2)
1
34
Media si dispersia variabilei aleatoare X 2 T (n) sunt
2 n
M (X) = 0 (n > 1) si (X) = (n > 2):
n 2
35
5 Statistica matematic
a
Cuvntul statistic aa fost initial folosit pentru a desemna o colectie de date despre populatie si situatia economica,
date vitale pentru conducerea unui stat. Cu timpul, Statistica a devenit o metod a stiintic
a de analiz a aplicat
a n
toate stiintele naturale si sociale, ind o ramur a important
a a matematicii.
Ca un exemplu de deductie statistic a, prezentam urm
atoarea problem a a sondajului de opinie n alegeri.
Exemplul 5.1 Daca selectia este aleatoare si sucient de larga, cu ncredere de 95% avem ca proportia a popu-
latiei ce verica un anumit criteriu (ce prefera un anumit candidat, spre exemplu) verica
r r
P (1 P ) P (1 P )
P 1:96 < < P + 1:96 ;
n n
unde n reprezinta volumul selectiei iar P reprezinta proportia populatiei selectate ce verica criteriul ales.
Spre exemplu, daca ntr-o selectie de n = 1000 persoane 600 prefera candidatul X (si deci proportia selectie este
600
P = 1000 = 0:60), atunci cu ncredere de 95% putem arma ca rezultatul votului pentru candidatul X va
r r
0:60 (1 0:60) 0:60 (1 0:60)
0:57 = 0:60 1:96 < < 0:60 + 1:96 = 0:63;
1000 1000
adica n intervalul (0:57; 0:63), numit interval de ncredere.
Scopul Statisticii matematice este ca plecnd de la informatia continut a ntr-un esantion al populatiei s a obtin
a
informatii despre ntreaga populatie n cauza. Deductiile statistice sunt deductii inductive (de la particular la
general), spre deosebire de cele deductive (de la general la particular), si din aceast a cauza ele nu sunt deductii
sigure, siguranta lor ind m asurata n termeni de teoria probabilit atilor.
Spre exemplu, dac a o cutie contine un milion de seminte de ori avnd dou a culori (albe si rosii), este practic
imposibil s a se determine procentul exact de seminte ce vor produce ori de culoare alb a f
ar
a a planta toate aceste
seminte si a observa apoi culoarea ec arei ori. O alt
a idee este s
a alegem numai un esantion de seminte (s a spunem
cteva sute de seminte), s a le plant
am, si pe baza culorilor orilor obtinute s a tragem o concluzie asupra culorilor
ntregului lot de seminte. Acesta este deductia inductiv a (de la particular la general), si este evident c a acest tip
de deductie nu este unul sigur, dar putem formula concluzii cu anumite probabilit ati.
3. Testare distructiv
a (spre exemplu, daca se doreste testarea duratei de viat
a a unor becuri, acestea sunt distruse
n testare. Este imposibil observarea ntregii cantitati de becuri produse de produc ator, deoarece ar nsemna
pierderea ntregului prot realizat de pe urma producerii lor!)
Prin populatie ntelegem totalitatea observatiilor ce fac scopul investigatiei. Elementele populatiei se numesc
indivizi sau unitati statistice.
Un esantion/selectie este o submultime de observatii din populatia considerat a. Pentru ca concluziile statistice
sa e valide, selectia trebuie sa e reprezentativ a populatiei.
Exist a ns
a n practic
a tendinta de a alege esantionul pe anumite criterii de convenient a, sau prin eliminarea
anumitor date pe diverse criterii, ap arnd astfel selectii incorecte/p
artinitionare.
Pentru a nl atura acest neajuns, este de dorit alegerea unui esantion n mod aleator/arbitrar. Gndim astfel se-
lectia esantionului ca ind un experiment n care ecare observatie este valoarea observat a a unei variabile aleatoare.
Valorile astfel obtinute determin a distributia acestei variabile aleatoare (populatia studiat
a).
Mai precis, s a consider
am c a X este variabila aleatoare ce reprezint a valoarea unei selectii din populatie, iar fX
si FX sunt densitatea, respectiv functia de distributie a variabilei aleatoare X.
36
Consider am c
a esantionul se alege prin repetarea de n ori, n conditii identice si independente, a observatiei
variabilei aleatoare X. Valorile observate x1 ; : : : ; xn le putem deci privi ca si valori observate a n variabile aleatoare
X1 ; : : : ; Xn independente si identic distribuite, avnd aceeasi densitate fx si distributie FX ca si a ntregii populatii.
Variabilele aleatoare X1 ; : : : ; Xn formeaza deci o selectie/esantion aleator dac a sunt independente si au aceeasi
distributie (cu a ntregii populatii).
Scopul select arii unui esantion dintr-o populatie este de a obtine informatii despre populatia n cauz a. Spre
exemplu, considernd din nou exemplul anterior, dac a not am prin 1faptul c a o semint
a va produce o oare alb a,
si prin 0faptul c a va produce o oare rosie, si dac
a x1 ; : : : ; x100 sunt valorile observate ale unei selectii de volum
100 din ntreaga populatie, atunci putem estima proportia de seminte ce vor produce ori de culoare alb a prin
media de selectie
x1 + : : : + x100
x= :
100
Media de selectie x este un caz particular de statistic a. Mai general, denim o statistica ca ind o functie ce
depinde de valorile observate ale selectiei.
5.2 Reprezent
ari grace si caracteristici numerice ale selectiilor aleatoare
5.2.1 Caracteristici numerice
Fie x1 ; : : : ; xn valorile observate ale unei selectii aleatoare X1 ; : : : ; Xn de volum n dintr-o populatie X. Denim
urmatoarele caracteristici numerice ale selectiei:
x1 +:::+xn
Media de selectie: x = n (reprezint
a o estimare pentru media = EX a populatiei X)
Pn
2 (x x)2 2
Dispersia de selectie: = i=1n i1 a o estimare pentru dispersia 2 = E (X
(reprezint ) a populatiei
X)
p
Abaterea p
atratic
a medie de selectie = 2
5.3 Reprezent
ari grace
5.3.1 Reprezent
ari prin puncte (dot diagrams)
Datele x1 ; : : : ; xn se reprezint a grac prin puncte (ca natimi). Dac
a datele selectei sunt bidimensionale, adic
a
(x1 ; y1 ) ; : : : ; (xn ; yn ) se reprezint
a grac punctele corespunzatoare.
Spre exemplu, considernd o selectia de date bidimensionale
(12; 2); (13; 3); (21; 4); (27; 5); (33; 1); (34; 3); (35; 9); (37; 4); (40; 4); (40; 2); (41; 7)
37
Graficul valorilor selec iei
45
40 2, 40 4, 40 7, 41
4, 37
35 3, 34 9, 35
1, 33
30
5, 27
25
20 4, 21 Selectie
15
2, 12 3, 13
10
5
0
0 2 4 6 8 10
12; 13; 21; 27; 33; 34; 35; 37; 40; 40; 41:
Exemplul 5.2 Reprezentnd grac aceste valori, se obtine urmatorul grac (se observa tendinta crescatoare a
datelor selectiei).
Minute in apa
60
50
40
30 Minute in apa
Linear (Minute in apa)
20
10
0
0 5 10 15
5.3.3 Diagrame r
ad
acin
a-frunz
a (Stem-and-leaf diagrams)
Pentru un num ar mare de date de selectie (n 20), aceste reprezent ari sunt de preferat celor prin puncte.
Pentru a construi aceast a reprezentare, se mparte ecare valoare xi observat a n dou
a p
arti: r
ad
acin
a (una sau
mai multe cifre de la nceputul lui xi ) si frunz
a (restul cifrelor dupa radacin
a).
Se asaz
a apoi ecare rad
acin a ntr-o coloana vertical
a si ecare frunza n linia corespunz
atoare r ad
acinii.
Spre exemplu, dac a valorile selectiei sunt
43; 119; 121; 21; 33; 32; 57; 45; 56; 44;
38
alegnd ca r
ad
acin
a cifra zecilor si a sutelor, iar ca frunz
a cifra unit
atilor, se obtine urm
atoarea reprezentare.
R
adacin
a Frunz a Frecvente
2 1 1
3 2; 3 2
4 3; 5; 4 3
5 6; 7 2
11 9 1
12 1 1
5.3.4 Histograme
Sunt un mod mai compact de reprezentare a datelor dect cele prin diagrame r ad
acin
a-frunza.
Pentru a cosntrui histograma,
p se mparte domeniul valorilor selectiei n subintervale disjuncte de lungime egal
a
(5 20 subintervale sau n subintervale, unde n este volumul selectiei).
Se determin a frecventele (relative sau absolute, cumulate sau nu) a datelor selectiei n aceste subintervale, si se
reprezinta apoi pe axa x subintervalele considerate iar pe axa y frecventele respective (ca nltimi ale dreptunghi-
urilor respective).
Spre exemplu, n urma unui sondaj asupra vrstei a angajatilor, s-a determinat c a vrstele acestora sunt cuprinse
n intervalul [20; 60]. mpartind vrstele n 5 subintervale de lungime egal a, a rezultat urm atorul tabel.
Se obtine urm
atoarea histograma a frecventelor absolute ale selectiei.
5.3.5 Box-and-whiskers
Aceste diagrame sunt utile pentru a ar ata modul n care valorile selectiei sunt dispersate n jurul medianei, f ar
a
a ar
ata ns
a valorile efective ale selectiei. Acest tip de reprezentare este folosit atunci cnd volumul selectiei este
mare, sau pentru a compara dou a sau mai multe seturi de date.
Pentru a construi acest tip de reprezentare, se ordoneaz a mai nti cresc ator valorile observate. Se determin a
apoi mediana (valoarea din mijloc, sau cvartila Q2 ) si cvartilele Q1 si Q3 . Se construieste apoi reprezentarea grac a
desennd un dreptunghi ntre cvartilele Q1 si Q3 , cu o dreapta verticala n dreptul medianei, si n exteriorul acestuia
se prelungesc doua drepte pentru a indica domeniul valorilor selectiei.
39
Histograma frecven elor relative
cumulate a vrstelor
120
100
80
60 Frecven e relative
cumlate ale vrstelor
40
20
0
[20,29) [30,39) [40,49) [50,60]
13; 14; 6; 9; 10; 21; 17; 15; 15; 7; 10; 13; 13; 8; 11:
Ordonnd cresc
ator aceste date se obtine sirul
6; 7; 8; 9; 10; 10; 11; 13; 13; 13; 14; 15; 15; 17; 21
si se determina mediana Q2 = 13 (cum n acest caz avem n = 15 date, mediana este valoarea x 15+1 = x8 = 13).
2
Se determin a apoi cvartila Q1 astfel nct cel mult 25% din date sunt mai mici sau egale cu Q1 . Se obtine
Q1 = 9.
Se determina cvartila Q3 astfel nct cel mult 75% din date sunt mai mici sau egale cu Q3 . Se obtine Q1 = 14.
Se reprezint
a grac un dreptunghi ntre Q1 = 9 si Q3 = 14, cu o linie vertical a n dreptul medianei Q2 = 13, si
se prelungesc dou a drepte orizontale pna n dreptul celei mai mici si a celei mai mari valori (6, respectiv 21).
Figure 13: Diagrama Box-and-Whiskers indic a cea mai mica si cea mai mare valoare a selectiei (6 si 21), mediana
(Q2 = 13) si domeniul n care sunt cuprinse 25%, 50%; si 75% din date (pna la Q1 ; Q2 , respectiv Q3 ).
1 i 0:5
zi = ; i = 1; 2; : : : ; n;
n
40
Rx u2
iar (x) = p12 1
e 2 du este functia de distributie normal
a standard (n Excel, (x) se calculeaz
a folosind
1
functia NORMSDIST(x), iar (x) se calculeaz
a folosind functia NORMSINV(x)).
Pentru a testa spre exemplu daca datele de selectie
191; 205; 220; 176; 183; 190; 201; 205; 185; 214
41
6 Notiuni de teoria estimatiei
n multe din aplicatiile statisticii matematice se presupune ca populatia studiat
a are o distributie cunoscut
a ce
depinde de anumiti parametrii necunoscuti, ce urmeaz a a determinati.
Deductiile statistice se pot grupa n dou
a categorii:
Observatia 6.1 ^ se mai numeste si estimator punctual, deoarece evalund ^ pentru valori x1 ; : : : ; xn concrete
ale unei selectii X1 ; : : : ; Xn se obtine o singura valoare (punct) ce estimeaza pe , spre deosebire de alti estimatori
care estimeaza pe printr-un domeniu de valori (intervale de ncredere).
Exemplul 6.2 Sa presupunem ca populatia X studiata are o distributie data cu medie necunoscuta. Un estimator
al mediei necunoscute este n acest caz ^ = X1 +:::+X n
n
= X (media de selectie).
nlocuind variabilele aleatoare X1 ; : : : ; Xn ale selectiei prin valorile observate x1 ; : : : ; xn se obtine estimarea
punctuala a lui :
x1 + : : : + xn
x= :
n
Denitia 6.3 Spunem ca ^ = ^ (X1 ; : : : ; Xn ) este une estimator corect (unbiased) daca media lui ^ coincide cu
M ^ = . (47)
Daca ^ nu este un estimator corect spunem ca ^ este un estimator incorect (biased) si denim eroarea /
bias-ul estimatorului ^ prin
B=M ^ : (48)
X1 +:::+Xn
Exemplul 6.4 Spre exemplu, ^ = X = n este un estimator corect al mediei a populatiei, deoarece
42
n P 2
(Xi X)
De asemenea, dispersia de selectie s2 = i=1n 1 este un estimator corect al dispersiei 2
a populatiei X.
Pentru a arata aceasta, sa observam mai nti ca
2 1 2
M X1 X = M ((n 1) X1 X2 : : : Xn )
n2
1 2
= M ((n 1) (X1 ) (X2 ) : : : (Xn ))
n2
1 2 2 2 2
= (n 1) M (X1 ) + M (X2 ) + : : : + M (Xn )
n2
1 2
= (n 1) 2 + 2 + : : : + 2
n2
1 2
= (n 1) 2 + (n 1) 2
n2
1
= n (n 1) 2
n2
n 1 2
= ;
n
deoarece datorita independentei avem M ((Xi ) (Xj )) = M (Xi ) M (Xj )=( ) ( ) = 0, si
2 2 2 2
M (Xi ) = M (X ) = (X) = , oricare ar i; j 2 f1; : : : ; ng cu i 6= j.
Obtinem deci
Pn 2! n n
Xi X 1 X 2 1 X n 1
2 i=1 2 2
M s =M = M Xi X = = ;
n 1 n 1 i=1
n 1 i=1
n
P
n 2
(Xi X )
si deci s2 = i=1n 1 este un estimator corect al dispersiei 2 a populatiei X.
Ca un exemplu de estimator incorect (biased) putem considera
Pn 2
c2 = i=1 Xi X
;
n
care este un estimator incorect al dispersiei 2 a populatiei X.
Bias-ul (sau eroarea) acestui estimator este n acest caz
2
n 1
B = M c2 2
= 2 2
=
n n
43
Teorema 6.5 Daca X1 ; : : : ; Xn este o selectie de volum n dintr-o populatie X avnd densitatea f (x; ) ce depinde
de parametrul necunoscut , si daca ^ = ^ (X1 ; : : : ; Xn ) este un estimator corect al lui , atunci are loc
1
D2 ^ R 2 : (49)
@ ln f (x; )
n R @ f (x; ) dx
Mai mult, egalitatea are loc daca si numai daca densitatea f (x; ) a populatiei se poate scrie sub forma
n acest caz, un estimator pentru care are loc egalitatea n inegalitatea (49) este dat de
Derivnd aceast
a egalitate n raport cu obtinem
Z Z
@f (x; ) @ ln f (x; )
dx = 0 () f (x; ) dx = 0; (51)
R @ R @
@ ln f (X; )
adic
aM @ = 0.
Deoarece ^ este un estimator corect al lui , avem:
= M ^
= M ^ (X1 ; : : : ; Xn )
Z
= ^ (x1 ; : : : ; xn ) fX ;:::;X (x1 ; : : : ; xn ) dx1 : : : dxn
1 n
Rn
Z n
Y
= ^ (x1 ; : : : ; xn ) f (xj ; )dx1 : : : dxn ;
Rn j=1
deoarece X1 ; : : : ; Xn ind variabile aleatoare si identic distribuite (cu densitatea f (x; )), densitatea variabilei
aleatoare vectoriale (X1 ; : : : ; Xn ) este dat
a de
n
Y
fX1 ;:::;Xn (x1 ; : : : ; xn ) = f (xj ; ):
j=1
oricare ar i = 1; : : : ; n, si deci
Z Xn n
@ ln f (xi ; ) Y
f (xj ; )dx1 : : : dxn = 0:
Rn i=1 @ j=1
44
nmultind aceast
a relatie cu , si sc
aznd-o din relatia (52) obtinem:
Z Xn n
^ (x1 ; : : : ; xn ) @ ln f (xi ; ) Y
f (xj ; )dx1 : : : dxn = 1;
Rn i=1
@ j=1
sau echivalent !
Xn
^ (X1 ; : : : ; Xn ) @ ln f (Xi ; )
M =1
i=1
@
2
Folosind inegalitatea Schwarz ((M (XY )) M X 2 M Y 2 ) obtinem:
n
!!2
X @ ln f (Xi ; )
1 = M ^ (X1 ; : : : ; Xn )
i=1
@
0 !2 1
2 Xn
@ ln f (Xi ; ) A
M ^ (X1 ; : : : ; Xn ) M@ ;
i=1
@
de unde obtinem
2 1
D2 ^ = M ^ (X1 ; : : : ; Xn ) :
Pn @ ln f (Xi ; )
2
M i=1 @
Deoarece variabilele aleatoare Xi sunt independente si identic distribuite, si folosind din nou relatia (51), obtinem
1
D2 ^ Pn @ ln f (Xi ; ) @ ln f (Xj ; )
i;j=1 M @ @
1
=
Pn @ ln f (Xi ; )
2 P @ ln f (Xi ; ) @ ln f (Xj ; )
i=1 M @ +2 1 i<j n M @ @
1
=
Pn @ ln f (Xi ; )
2 P @ ln f (Xi ; ) @ ln f (Xj ; )
i=1 M @ +2 1 i<j n M @ M @
1
=
Pn @ ln f (Xi ; )
2
i=1 M @
1
= 2
@ ln f (X1 ; )
nM @
1
= R 2 ;
@ ln f (x; )
n R @ f (x; ) dx
Xn
@ ln f (Xi ; )
= k ( ) ^ (X1 ; : : : ; Xn ) : (53)
i=1
@
@ ln f (x; ) 1 1 not
= k ( ) ^ (x; : : : ; x) k ( ) = F ( ) Q (x) + G ( ) ;
@ n n
oricare ar x 2 R.
45
@ ln f (x; )
nlocuind aceast
a expresie pentru @ n relatia (53) si rezolvnd n raport cu ^, obtinem:
n
X
^ (X1 ; : : : ; Xn ) = F( ) G( )
Q (Xi ) + n + ;
k( ) k( )
| {z } i=1 | {z }
h (constant) g (constant)
adic
a
n
X
^ (X1 ; : : : ; Xn ) = h Q (Xi ) + g:
i=1
Xn Pn
@ ln f (Xi ; ) i=1 L (Xi )
= k( ) ;
i=1
@ n
@ ln f (x; ) k( )
= (L (x) ):
@ n
Prin integrare n raport cu se obtine
Z
k( )
ln f (x; ) = (L (x) )d
n}
| {z
A00 ( )
Z
= A00 ( ) (L (x) )d
Z
= A0 ( ) (L (x) ) A0 ( ) ( 1) d
Z
= A0 ( ) (L (x) )+ A0 ( ) d
= A0 ( ) (L (x) ) + A ( ) + N (x) ;
adic
a
M (L (X) ) = 0 () M (L (X)) = ;
de unde se obtine
Pn n
L (Xi ) 1X 1
M ^ (X1 ; : : : Xn ) = M i=1
= M (L (Xi )) = n = ;
n n i=1 n
46
Pn
L(Xi )
si deci ^ (X1 ; : : : ; Xn ) = i=1n este un estimator corect al lui .
Derivnd din nou relatia Z
(L (x) ) f (x; ) dx = 0
n raport cu , se obtine Z Z
2
A00 ( ) (L (x) ) f (x; ) dx = f (x; ) dx = 1;
si deci Z
2 1
(L (x) ) f (x; ) dx = ;
A00 ( )
sau echivalent
2 1
D2 (L (X)) = M (L (X) ) = :
A00 ( )
Folosind faptul c
a variabilele aleatoare Xi sunt independente si identic distribuite, obtinem
Pn Pn
2 ^ 2 i=1 L (Xi ) D2 (L (Xi )) 1
D (X1 ; : : : ; Xn ) = D = i=1 2
= 00
:
n n nA ( )
si deci are loc n acest caz egalitatea n inegalitatea din enuntul teoremei:
1
D2 ^ (X1 ; : : : ; Xn ) = R 2 ;
@ ln f (x; )
n R @ f (x; ) dx
ncheind demonstratia.
Exemplul 6.6 Considerm o populatie X avnd o distributie Poisson cu parametrul necunoscut. Functia de
probabilitate este n acest caz
x
e x! ; x 2 N
f (x; ) = :
0; n rest
Avem x
ln f (x; ) = ln e = + x ln ln (x!) ;
x!
si deci
@ ln f (x; ) x
= 1; x 2 N:
@
47
Din teorema anterioara rezulta ca pentru orice estimator corect ^ = ^ (X1 ; : : : ; Xn ) al lui avem
1
D2 ^ R 2
@ ln f (x; )
n R @ f (x; ) dx
1
= P1 2 x
x
n x=0 1 e x!
1 1
= e
P1 x 2e
P1 x P1 x
n 2 x=0 x2 x! x=0 x x! + e x=0 x!
1 1
= 0
n e 0 2e 0
2 (e ) (e ) +e e
1 1
= 1 2
n 2 + 2+1
= :
n
Aceasta arata ca dispersia minima posibila pentru un estimator corect al lui este n.
Denitia 6.7 Numim estimator ecient un estimator corect ^ al lui pentru care are loc egalitatea n inegalitatea
anterioara, adica un estimator avnd dispersia minima
1
D2 ^ (X1 ; : : : ; Xn ) = R 2 : (55)
@ ln f (x; )
n R @ f (x; ) dx
X1 +:::+Xn
Exemplul 6.8 Se considera estimatorii c1 = X1 si c2 = X = n ai medie ai unei populatii X. Care
dintre acesti estimatori este mai bun?
Sa observam ca ambii estimatori sunt corecti, deoarece
M (c1 ) = M (X1 ) = M (X) =
si
X1 + : : : + Xn M (X1 ) + : : : + M (Xn )
M (c2 ) = M = = .
n n
Calculnd dispersiile acestor estimatori obtinem
2 2
D2 (c1 ) = M (X1 ) = M (X ) = 2
(X) = 2
si
!
2
2 X1 + : : : + Xn
D (c2 ) = M
n
0 !2 1
X n
1
= M@ Xi A
n2 i=1
n
1 X
= M ((Xi ) (Xj ))
n2 i;j=1
n
1 X 2
= M (Xi )
n2 i=1
n
1 X 2
= (X)
n2 i=1
1 2
= n
n2
2
= ;
n
48
datorita faptului ca variabilele aleatoare X1 ; : : : ; Xn sunt independente si identic distribuite.
Se observa ca
2
2
= D2 (c1 ) ;
D2 (c2 ) =
n
si deci c2 este un estimator mai bun al medie dect c1 (valorile estimatorului c2 sunt mai grupate n jurul valorii
medii ).
M ^ = B ( );
unde B ( ) (eroarea, sau bias-ul estimatorului ^) este o functie de volumul n al selectiei ce veric
a limn!1 B ( ) = 0.
Similar teoremei din sectiunea anterioar
a, are loc n acest caz urm atoarea:
Observatia 6.10 n inegalitatea anterioara se considera abaterea patratica fata de si nu fata de media M ^ =
2
B ( ), si deci M ^ nu reprezinta dispersia estimatorului ^.
Denitia 6.11 Un estimator ^ pentru care are loc egalitatea n inegalitatea anterioara se numeste estimator
sucient al parametrului necunoscut .
Sa observam c
a daca ^ este un estimator ecient al parametrului (si deci ^ este un estimator corect) atunci
bias-ul B ( ) = M ^ = 0 este identic zero, si deci ^ realizeaz
a egalitatea n inegalitatea anterioar a. Rezulta
deci c
a un estimator ecient este si un estimator sucient, dar reciproca nu este n general adev arat a.
Sa presupunem c a nu exista un estimator ecient al parametrului necunoscut al densit atii f (x; ), si deci
aceasta nu se poate scrie sub forma
Daca f
acnd o schimbare de variabil
a = h ( ) densitatea f (x; h ( )) admite un estimator ecient pentru ,
atunci ea se poate scrie sub forma
si deci
ln f (x; ) = A0 h 1 ( ) L (x) h 1 ( ) + A h 1
( ) + N (x)
= A1 ( ) L (x) + A0 ( ) + N (x) ;
unde
A1 ( ) = A0 h 1
( ) si A0 ( ) = A h 1
( ) h 1
( ) A0 h 1
( ) :
Obtinem
0 0
A1 ( ) = A00 h 1
( ) h 1
( )
0 0 0 0
A0 ( ) = A0 h 1
( ) h 1
( ) h 1
( ) A0 h 1
( ) h 1
( ) A00 h 1
( ) h 1
( )
1 0
= h ( ) A00 h 1
( ) h 1
( )
si deci
0
A0 ( )
= 0
A1 ( )
49
(deoarece ambii membrii sunt egali cu h 1 ( )).
Schimbarea de variabil
a determinata de relatia anterioar
a conduce la o estimatie ecient
a a parametrului
Pn
L (Xi )
^ = i=1 ;
n
din care folosind substitutia = h ( ) se obtine pentru estimatorul
Pn
^ = h (^ ) = h i=1 L (Xi )
n
50
7 Metode de estimare a parametrilor
7.1 Metoda momentelor
Reamintim c
a dac
a X1 ; : : : ; Xn este o selectie de volum n dintr-o populatie X, am denit:
Metoda momentelor (introdus a de K. Pearson, 1928) presupune estimarea parametrului necunoscut (sau a
parametrilor necunoscuti) ai distributiei populatiei X prin egalarea momentelor teoretice cu cele de selectie: M1 =
1 , M2 = 2 ; : : : ) se scriu attea ecuatii cte sunt necesare pentru determinarea parametrilor necunoscuti).
Estimatorii astfel obtinuti se numesc estimatori de moment / estimatori ai momentelor.
Exemplul 7.1 Presupunem ca X1 ; : : : ; Xn reprezinta o selectie dintr-o populatie X avnd o distributie exponentiala
cu parametru necunoscut > 0. Sa se estimeze prin metoda momentelor.
Densitatea populatiei X este n acest caz
x
e ; x 0
f (x) = :
0; x<0
Momentul de ordin nti al populatiei este deci
Z 1 Z 1 Z 1 Z 1 1
x x 0 x 1 x 1 x 1
M1 = M (X) = xf (x) dx = x e = x e dx = xe 0
+ e dx = e = ;
1 0 0 0 0
51
Observatia 7.2 n cazul n care variabila aleatoare X este discreta, n formula anterioara densitatea f (x; ) se
nlocuieste prin probabilitatea P (X = x) ca variabila aleatoare X sa ia valoarea x, si deci n acest caz functia de
verosimilitate devine
L( ) = P (X = x1 ) : : : P (X = xn )
= P (X1 = x1 ) : : : P (Xn = xn )
= P (X1 = x1 ; : : : ; Xn = xn ) ;
Exemplul 7.3 O urna contine un numar necunoscut de bile albe si negre. Sa se estimeze probabilitatea p a
extragerii unei bile albe din urna.
Consideram o selectie de volum n din urna (cu ntoarcerea n urna a bilei extrase nainte de urmatoarea ex-
tragere). Notam cu 1 extragerea unei bile albe din urna si cu 0 extragerea unei bile negre, si deci populatia este n
acest caz descrisa de variabila aleatoare X avnd functia de probabilitate
8
< p; x=1 1 x
px (1 p) ; x = 0; 1
f (x; p) = P (X = x) = 1 p; x = 0 = :
: 0; n rest
0; n rest
Daca x1 ; : : : ; xn sunt valorile observate ale variabilelor aleatoare X1 ; : : : ; Xn ale selectiei, atunci functia de
verosimilitate este
Yn Pn Pn
1 x n i=1 xi
L (p) = pxi (1 p) i = p i=1 xi (1 p) :
i=1
Sa observam ca deoarece functia logaritm este o functie strict crescatoare, functia L (p) si atinge maximul n
acelasi punct cu functia ln L (p), si determinam n continuare punctul n care functia ln L (p) si atinge valoarea
maxima.
Punctele critice ale functiei ln L (p) sunt date de ecuatia
n n
! !
d ln L (p) d X X
= 0 () xi ln p + n xi ln (1 p) = 0
dp dp i=1 i=1
n n
!
1X 1 X
() xi n xi = 0
p i=1 1 p i=1
n
X n
X
() (1 p) xi np + p xi = 0
i=1 i=1
Pn
i=1 xi
() p= =x
n
Este usor de observat ca aceasta valoare a lui p este un punct de maxim al functiei ln L (p) (si deci si al functiei
de verosimilitate L (p)), si deci estimatorul de verosimilitate maxima este dat de
Pn
Xi
p^ (X1 ; : : : ; Xn ) = i=1 = X:
n
n mod similar calculului din exemplul anterior, n general functiile L ( ) si ln L ( ) si ating maximul n acelasi
punct . Pentru a determina deci punctul de maxim al functiei de verosimilitate L ( ) determin am punctul de
maxim al functiei ln L ( ). Dac
a aceast
a functie este derivabil
a, atunci punctul de maxim este un punct critic, si
deci veric
a ecuatia
Xn
d ln L ( ) @ ln f (xi ; )
= 0 () = 0; (57)
d i=1
@
numit
a ecuatia verosimilit
atii maxime.
52
Exemplul 7.4 Sa se determine parametrul al distributiei Poisson a unei populatii X folosind o selectie de volum
n din aceasta populatie.
Fie x1 ; : : : ; xn sunt valorile observate ale unei selectii X1 ; : : : ; Xn din populatia X. Deoarece functia de proba-
bilitate este n acest caz x
f (x; ) = P (X = x) = e ; x 2 f0; 1; 2; : : :g ;
x!
ecuatia verosimilitatii maxime devine
Xn
d ln L ( ) @ ln f (xi ; )
= 0 () =0
d i=1
@
Xn
@
() ( + xi ln ln (xi !)) = 0
i=1
@
n
X xi
() 1+ =0
i=1
n
1X
() n+ xi = 0
i=1
Pn
i=1 xi
() = =x
n
Obtinem deci estimatorul de verosimilitate maxima
Pn
^ (X1 ; : : : ; Xn ) = i=1 Xi
= X:
n
Are loc urm
atoarea:
Teorema 7.5 Daca exista o estimatie ecienta a parametrului necunoscut , atunci ea coincide cu cu estimatia
de verosimilitate maxima ^.
53
Teorema 7.6 Daca exista o estimatie sucienta a parametrului necunoscut , atunci orice estimatie de verosimil-
itate maxima ^ este o anumita functie de (adica ^ (X1 ; : : : ; Xn ) = ' (X1 ; : : : ; Xn ) ).
Ca o alt
a aplicatie a metodei verosimilit
atii maxime, consider
am urm
atorul exemplu.
2
Exemplul 7.7 Sa se estimeze parametrii distributiei normale N ; folosind metoda verosimilitatii maxime.
n general,pentru valori mari ale volumului selectiei, metoda verosimilit atii maxime produce un estimator aprox-
imativ corect si ecient, ce are o distributie aproximativ normal a. Exemplul anterior arat a c
a estimatorul de
verosimilitate maxim a a lui c 2 este 2
vericaM c2 n 1 2
= n 2
, si deci este un estimator aproximativ corect.
O alta proprietate a metodei verosimilit atii maxime este c a 1 ; : : : ; bk sunt estimatori de verosimilitate max-
a dac b
ima a parametrilor 1 ; : : : ; k , atunci estimatorul de verosimilitate maxim a pentru ' ( 1 ; : : : ; k ) este ' b1 ; : : : ; bk .
P P 2
n exemplul anterior am obtinut ^ = n1 i=1 Xi si c2 = n1 i=1 Xi X , si deci un estimator de verosimilitate
n n
p p q
c Pn 2
maxim a pentru abaterea p atratica medie = 2 este dat de b = 2 = n1 i=1 Xi X .
54
8 Intervale de ncredere
n cursul anterior am determinat diverse estim ari ^ ale parametrului necunoscut al densit atii unei populatii X,
folosind o selectie X1 ; : : : ; Xn a acestei populatii.
n practic a, valoarea calculat a ^ (x1 ; : : : ; xn ) a lui ^ (X1 ; : : : ; Xn ) folosind valorile observate x1 ; : : : ; xn ale selectiei
X1 ; : : : ; Xn nu coincide aproape niciodat a cu valoarea real a a parametrului necunoscut .
Ne punem problema ct de apropiat a este ^ de valoarea real a a lui , n sensul determin arii unui interval (L; U )
(L = L (X1 ; : : : ; Xn ) si U = U (X1 ; : : : ; Xn ) sunt variabile aleatoare ce depind de variabilele aleatoare X1 ; : : : ; Xn
ale selectiei) astfel nct 2 (L; U ) cu o probabilitate dat a, adic a
P (L < < U) = 1 ;
pentru o valoare 2 (0; 1) xat a.
nlocuind variabilele aleatoare X1 ; : : : ; Xn prin valorile observate x1 ; : : : ; xn obtinem l = L (x1 ; : : : ; xn ) si u =
u (x1 ; : : : ; xn ), si numim intervalul (l; u) un interval de 100 (1 ) % ncredere pentru parametrul necunoscut .
n general, se poate determina un interval de ncredere pentru parametrul necunoscut dac a exist a o variabil a
aleatoare = g (X1 ; : : : ; Xn ; ) cu propriet atile:
1. Functia g depinde netrivial de selectia X1 ; : : : ; Xn si ;
2. Distributia lui nu depinde de sau de alti parametrii necunoscuti.
n aceste ipoteze, determinarea unui interval de 100 (1 ) % ncredere pentru se face astfel: se determin
a
constantele cL si cU astfel nct
P (cL g (X1 ; : : : ; Xn ; ) cU ) = 1 ;
si se rezolv
a dubla inegalitate n raport cu pentru a obtine
P (L (X1 ; : : : ; Xn ) U (X1 ; : : : ; Xn )) = 1 :
Variabilele aleatoare L si U astfel obtinute dau valorile l si u ale intervalului (l; u) de 100 (1 ) % ncredere
pentru parametrul necunoscut .
8.1 Intervale de ncredere pentru media unei populatii normale cu dispersie cunos-
cut
a
Consideram cazul unei populatii X avnd o distributie normal a N ; 2 cu dispersie cunoscut a 2 si medie
necunoscut a . Dac a X1 ; : : : ; Xn este o selectie de volum n din populatia X, atunci suma X1 + : : : + Xn este tot
o variabil
a aleatoare normal a (deoarece X1 ; : : : ; Xn sunt variabile normale independente), cu medie n si dispersie
n 2 . Rezulta c
a variabila aleatoare
X1 +:::+Xn
X1 + : : : + Xn n n X
Z= p = =
n p
n
p
n
este o variabil
a aleatoare normal
a standard (medie 0 si dispersie 1).
Pentru 2 (0; 1), consideram punctul z 2 R cu proprietatea c a aria aat
a la dreapta acestui punct, sub gracul
x2
densit
atii normale standard f (x) = p1 e 2 , este egal
a cu . Echivalent, aria aat
a la stnga lui z este egal
a cu
2
1 , adic a Z z
1 = f (x) dx = P (Z z )= (z ) ;
1
ecuatie ce permite determinarea lui z folosind functia de distributie normal
a standard :
1
z = (1 ). (58)
Cu aceast
a alegere, rezult
a ca aria aat
a ntre punctele z =2 si z =2 este egal
a cu 1 :
P z =2 <Z<z =2 =1 P Z>z =2 P Z< z =2 =1 =2 =2 = 1 :
Xp
Cum Z = n
, rezolvnd dubla inegalitate din relatia anterioar
a n raport cu parametrul necunoscut avem
P X z =2 p < <X +z =2 p =1 ;
n n
si obtine astfel urm
atoarea.
55
Propozitia 8.1 Daca x1 ; : : : ; xn sunt valorile observate ale unei selectii X1 ; : : : ; Xn dintr-o populatie normala
X 2 N ; 2 cu dispersie cunoscuta, atunci un interval de 100 (1 ) % ncredere pentru media a populatiei
este
(l; u) = x z =2 p ;x + z =2 p
n n
unde x = x1 +:::+x
n
n
este media valorilor observate ale selectiei iar z =2 este determinat astfel nct z =2 =1 2
1
R y x2
( (y) = p2 1
e 2 dx este functia de distributie a variabilei aleatoare normale standard - a se vedea Anexele 1
si 2).
P E X E =1 ;
E z =2 p ;
n
tinde n distributie c
atre o variabil
a aleatoare normal
a standard, adic
a
! Z y
X 1 x2
P <y ! (y) = p e 2 dx;
p n!1 2 1
n
oricare ar z 2 R.
Daca abaterea p
atratic
a medie a populatiei este necunoscut
a, atunci nlocuind pe prin estimatorul
s
Pn 2
i=1 Xi X
S= ;
n 1
se poate ar
ata c
a pentru n sucient de mare (n 40), variabila aleatoare obtinut
a
X
Z= N (0; 1)
pS
n
56
Propozitia 8.4 Pentru un volum n al selectiei sucient de mare, un interval de 100 (1 ) % ncredere pentru
media a populatiei X este
s s
(l; u) = x z =2 p ; x + z =2 p
n n
q Pn 2
i=1 (xi x)
unde x = x1 +:::+x
n
n
este media valorilor observate ale selectiei, s = n 1 este o estimare a abaterii patratice
R y x2
medii , iar z =2 este determinat astfel nct z =2 = 1 2 ( (y) = p12 1
e 2 dx este functia de distributie
a variabilei aleatoare normale standard).
8.3 Intervale de ncredere pentru media unei populatii normale cu dispersie necunos-
cut
a
Pentru a construi intervalele de ncredere n acest caz, avem nevoie de dou a tipuri de distributii continue, si anume
distributia 2 si distributia Student.
Daca X1 ; : : : ; Xn 2 N (0; 1) sunt variabile aleatoare normale standard independente, atunci distributia variabilei
aleatoare
Y = X12 + : : : + Xn2
2
se numeste distributie (chi p
atrat) cu n grade de libertate. Se poate ar
ata c
a densitatea acestui tip de variabil
a
aleatoare este
0;
x 0
f (x) = n ;1 x
cn x 2 x>0 e 2 ;
1
R1
unde cn = n este o constant
a de normare (aleas
a astfel nct 1 f (x) dx = 1).
( n2 )
22
a Y 2 2 (n) este o variabil
Dac a aleatoare 2 cu n grade de libertate si Z 2 N (0; 1) este o variabil
a aleatoare
normal
a standard, atunci distributia variabilei aleatoare
Z
T =q
Y
n
f (x) = cn 1 + ;
n
( n+1
2 )
R1
unde cn = n1 este o constant
a de normare (aleas a astfel nct 1 f (x) dx = 1).
( n2 )
n sectiunile anterioare am observat c a daca populatia X 2 N ; 2 este normal a, atunci variabila aleatoare
X
p
n
este o variabil
a aleatoare normal
a standard. r
Pn 2
i=1 (Xi X )
Daca abaterea p
atratic
a medie nu este cunoscut
a, atunci nlocuind pe prin estimatorul S = n 1 ,
obtinem
X
X p
n Z
T = =r =q ;
pS 2 Y
n (n 1) S2
n 1
n 1
X Pn (Xi X)
2
2
unde Z = p
2 N (0; 1) este o variabil
a aleatoare normal
a standard, iar Y = i=1 2 2 (n 1) este o
n
2
variabil
a aleatoare cu n 1 grade de libertate.
Rezult a deci ca variabila aleatoare T are o distributie Student cu n 1 grade de libertate, si alegnd ca si n
cazul distributiei normale punctul t =2;n 1 astfel nct aria de sub densitatea acestei distributii, aat
a la dreapta
acestui punct s a e egal
a cu =2, obtinem
P t =2;n 1 T t =2;n 1 =1 :
57
Propozitia 8.5 Daca x1 ; : : : ; xn sunt valorile observate ale unei selectii X1 ; : : : ; Xn dintr-o populatie normala
X 2 N ; 2 cu dispersie necunoscuta, atunci un interval de 100 (1 ) % ncredere pentru media a populatiei
este
s s
(l; u) = x t =2;n 1 p ; x + t =2;n 1 p
n n
q Pn 2
i=1 (xi x)
unde x = x1 +:::+x
n
n
este media si s = n 1 este abaterea patratica medie a valorilor observate ale selectiei,
iar t =2;n 1 este determinat astfel nct F t =2;n 1 = 1 2 (F (y) este functia de distributie a variabilei aleatoare
Student cu n 1 grade de libertate - a se vedea Anexa 3).
(n 1) S 2
P 1 =2;n 1 2 =2;n 1 =1 ;
2
de unde rezolvnd n raport cu obtinem urm
atoarea.
Propozitia 8.6 Daca x1 ; : : : ; xn sunt valorile observate ale unei selectii X1 ; : : : ; Xn dintr-o populatie normala
X 2 N ; 2 , atunci un interval de 100 (1 ) % ncredere pentru dispersia 2 a populatiei este
!
(n 1) s2 (n 1) s2
(l; u) = ;
=2;n 1 1 =2;n 1
q Pn 2
i=1 (xi x)
unde x = x1 +:::+x
n
n
este media si s = n 1 este abaterea patratica medie a valorilor observate ale selectiei,
iar ;n 1 este determinat astfel nct F ;n 1 = 1 (F (y) este functia de distributie a variabilei aleatoare
2
cu n 1 grade de libertate - a se vedea Anexa 4).
Observatia 8.7 n mod similar se pot determina intervale de ncredere de marginire inferioara sau superioara
pentru dispersie:
2
- intervale de marginire inferioara pentru 2 : (l; 1) = (n 1)s ; 1
;n 1
(n 1)s2
- intervale de marginire superioara pentru : ( 1; u) = 1; :
1 ;n 1
58
Media selectiei P^ = X = X1 +:::+Xn
n este un estimator corect al proportiei p a populatiei ce veric
a respectiva
caracteristic
a de interes:
n n
X1 + : : : + Xn 1X 1X
M P^ = M = M (Xi ) = p = p:
n n i=1 n i=1
are aproximativ o distribue normala. Cum dispersia 2 = p (1 p) este necunoscut a, o nlocuim prin estimatorul
c2 = P^ 1 P^ si obtinem c ^
a pentru valori sucient de mari ale lui n, variabila aleatoare Z = q PP^ (1 pP^ ) N (0; 1)
n
are aproximativ o distributie normal
a.
Observatia 8.8 n practica, valori sucient de mari pentru volumul n al selectiei nseamna ca n^
p 15 si
n (1 p^) 15.
Alegnd ca si n cazul estim
arii mediei punctul z =2 cu proprietatea c
a aria de sub densitatea normal
a standard,
la dreapta acestui punct, este egal a cu =2, obtinem
0 1
P^ p
P @ z =2 q z =2 A = 1 : (59)
P^ (1 P^ )
n
P P^ p E 1 ;
q
p(1 p)
comparnd cu inegalitatea (59) scrisa sub forma echivalenta P P^ p z =2 n = 1 , se obtine
q
z =2 p(1n p) E, de unde rezolvnd pentru n obtinem conditia
z =2
2
n p (1 p) :
E
Folosind faptul ca p (1 p) 14 , obtinem eroarea de aproximare P^ p nu va depasi valoarea E cu probabilitate
cel putin (1 ) daca volumul n al selectiei este ales astfel nct
1 z =2 2 z =2 2
n p (1 p) :
4 E E
Observatia 8.11 Ca si n celelalte cazuri prezentate, nlocuind z =2 prin z se pot obtine intervale de marginire
inferioara sau superioara pentru proportia necunoscuta p.
59
8.6 Intervale de predictie
Vom considera problema determin arii unui interval de predictie a unei valori dintr-o populatie normal a X 2
N ; 2 .
Pentru aceasta, consider
am o selectie X1 ; : : : ; Xn dintr-o populatia X, si observ
am c
a valoarea Xn+1 a observatiei
viitoare veric
a
M Xn+1 X = =0
si
h 2
i 2
1
2 2 2 2
M Xn+1 X = (Xn+1 ) + X = + = 1+ ;
n n
si deci
Xn+1 X
Z= q 2 N (0; 1) :
1 + n1
q Pn
2 1 2
Dac
a dispersia nu este cunoscut
a, nlocuind prin estimatorul S = n 1 i=1 Xi X obtinem variabila
aleatoare
Xn+1 X
T = q ;
S 1 + n1
si se poate ar
ata c
a variabila aleatoare T are o distributie Student cu n 2 grade de libertate.
Pentru a obtine un interval de 100 (1 ) % ncredere pentru valoarea Xn+1 a observatiei viitoare, consider
am
punctul t =2;n 2 cu proprietatea c a aria de sub densitatea distributiei Student cu n 2 grade de libertate la dreapta
acestui punct este egala cu =2, adic a
F t =2;n 2 = 1 ;
2
unde F este functia de distributie Student cu n 2 grade de libertate (a se vedea Anexa 3).
Obtinem deci 0 1
Xn+1 X
P@ t =2;n 2 q t =2;n 2
A=1 ;
S 1 + n1
de unde rezolvnd n raport cu Xn+1 obtinem echivalent
0 1
S S
P @X t =2;n 2 q Xn+1 X +t =2;n 2 q
A=1 :
1 + n1 1+ 1
n
Un interval de predictie de 100 (1 ) % ncredere pentru observatia unei valori dintr-o populatie normal
a este
deci 0 1
s s
(l; u) = @x t =2;n 2 q ; x + t =2;n 2 q A;
1 + n1 1 + n1
q Pn 2
unde x = x1 +:::+x
n
n
este media iar s = 1
n 1 i=1 (xi x) este dispersia esantionului x1 ; : : : ; xn .
60
9 Testarea ipotezelor statistice
Un test statistic const a n obtinerea unei deductii bazat a pe o selectie din populatie prin testarea unei anumite
ipoteze (rezultata din experienta anterioara, din observatii, din teorie, sau din cerinte legate de calitatea produselor,
etc). De multe ori aceast a ipoteza este o armatie referitoare la valoarea parametrului necunoscut al densit atii
populatiei, spre exemplu media sau dispersia populatiei.
Rezultatul testarii este apoi folosit pentru luarea unei anumite decizii, cum ar decizia de cump arare a unui
anumit automobil (bazat a pe testul priving consumul de carburant), de administrare a unui anumit medicament
(bazata pe testul privind ecienta acestuia), de aplicare a unei anumite strategii de marketing (bazat a pe testul
privind reactia consumatorilor la aceast a strategie), etc.
Testarea unei ipoteze statistice este procedeul prin care folosind informatia dintr-o selectie a populatiei se ajunge
la o decizie asupra ipotezei n cauz a. Daca informatia data de selectie este consistenta cu ipoteza, atunci se accepta
ipoteza, iar n caz contrar aceasta este respins a.
Pentru a ntelege modul de aplicare a testului statistic, consider am urm atorul exemplu.
Exemplul 9.1 Dorim sa cumparam 100 km de cablu de un anumit tip, cu conditia ca specicatia producatorului
ca acest cablu are o rezistenta de rupere de = 0 = 200 kg este ndeplinita. Aceasta reprezinta testarea ipotezei
(numita ipoteza nul a) = 0 = 200. Decidem sa nu cumparam cablul daca testul statistic arata ca valoarea reala
= 1 < 200, deoarece aceasta arata ca acest tip de cablu are o rezistenta la rupere mai mica dect cea dorita.
Valoarea 1 se numeste ipoteza alternativ a a testului. Formalizam aceasta prin
H0 : = 200
H1 : < 200
Daca rezultatul testului sugereaza ca ipoteza nula H0 este adevarata, vom accepta aceasta ipoteza, iar n caz
contrar o vom respinge (si vom accepta deci ipoteza alternativa H1 ).
Trebuie avut nsa n vedere ca vericarea cu siguranta a ipotezei considerate este imposibila n practica (cu
exceptia cazului cnd se poate selecta ntreaga populatie), si deci vericarea ipotezelor statistice trebuie avuta n
vedere probabilitatea luarii unei decizii gresite: vom nota prin probabilitatea de a respinge ipoteza nula H0 cnd
de fapt aceasta este adevarata. Valoarea se numeste nivelul de semnicatie al testului.
Selectnd n mod aleator 25 de role de cablu, si taind cte o bucata din ecare, obtinem un esantion de volum
n = 25 din populatia considerata. Daca se masoara rezistenta la rupere a ecarei bucti de cablu, obtinem spre
exemplu rezistenta medie de rupere x = 197 kg si abaterea patratica medie s = 6 kg.
Ne punem problema daca diferenta 197 200 = 3 este datorata anumitor factori aleatori (erori de masurare,
spre exemplu), sau daca ea este semnicativa pentru populatia studiata.
Daca presupunem ca rezistenta cablului este o variabila aleatoare normala N ; 2 , n ipoteza ca = 0 = 200
(adica daca ipoteza nula este adevarata), variabila aleatoare
X 0
T =
pS
n
61
Figure 15: Functia de densitate a distributiei Student este simetric
a fat
a de origine.
si deci respingem ipoteza nula = 0 = 200 si acceptam ipoteza alternativa = 1 < 200.
1. Se formuleaz
a ipoteza nul
a( = 0 n exemplul anterior)
2. Se formuleaz
a ipoteza alternativ
a( < 0 n exemplul anterior)
3. Se alege un nivel de semnicatie dorit (spre exemplu 5%; 1%, 0:1%, etc)
4. Se determin a o variabila aleatoare ^ = g (X1 ; : : : ; Xn ) ce depinde de parametrul necunoscut al populatiei,
arei distributie nu depinde de . Folosind distributia variabilei aleatoare ^ se determin
dar a c a valoarea critic
a
c (P (T c) = n exemplul anterior)
(1) > 0
(2) < 0
(3) 6= 0
(1) si (2) se numesc ipoteze alternative unilaterale, iar (3) se numeste ipotez a alternativ
a bilaterala.
n cazul ipotezei alternative (1), valoarea critic a c trebuie aleasa la dreapta lui 0 , pentru c
a n acest caz valorile
din ipoteza alternativ a se aa la dreapta lui 0 (a se vedea Figura 16). Regiunea pentru care se accept a ipoteza
nula (la stnga lui c n acest caz) se numeste regiune de acceptare, iar regiunea pentru care se respinge ipoteza
nula (la dreapta lui c n acest caz) se numeste regiune de respingere. Valoarea c care separ a aceste regiune se
numeste valoare critic a.
n mod similar, n cazul ipotezei (2), valoarea critic a c trebuie aleas a la stanga lui 0 , iar n cazul ipotezei
alternative (3), valorile critice c1 si c2 trebuie alese de o parte si de alta a lui 0 .
Toate cele trei ipoteze alternative prezentate apar n probleme practice, cum ar :
- atunci cnd este important ca valoarea lui s a nu depaseasc
a o valoarea maxim a admisa 0 (spre exemplu
tensiunea maxim a de alimentare a unui circuit electric), se alege ipoteza alternativ a (1)
- atunci cnd este important ca valoarea lui s a nu e mai mic a dect o valoare minim a admis a 0 (ca n
exmplul anterior), se alege ipoteza alternativ a (2)
- atunci cnd este important ca valoarea lui s a aib
a exact dimensiunea dorit a (spre exemplu diametrul unui
surub trebuie s a aib
a o dimensiune precis a pentru a putea nletat), se alege ipoteza alternativ a (3).
62
Figure 16: Cele trei tipuri de ipoteze alternative: (1) > 0 (sus), (2) < 0 (mijloc) si (3) 6= 0 (jos).
Cu toate c a nu putem elimina aparitia acestor dou a tipuri de erori, putem alege nivele acceptabile de aparitie a
acestor erori, si .
Spre exemplu, s a consider am cazul testarii ipotezei = 0 n cazul ipotezei alternative = 1 > 0 (celelate
cazuri sunt similare).
Alegem o valoare critic a corespunz am valoarea ^ = g (x1 ; : : : ; xn )
atoare, si pentru un esantion xat x1 ; : : : ; xn calcul
pentru o anumit a functie g (spre exemplu, n cazul n care reprezint a media, alegem g (x1 ; : : : ; xn ) = x = x1 +:::+x
n
n
).
Daca ^ > c respingem ipoteza nul a ^ c o accept
a, iar dac am.
Valoarea ^ este valoarea observat a a variabilei aleatoare ^ = g (X1 ; : : : ; Xn ), deoarece x1 ; : : : ; xn sunt valorile
observate ale selectiei X1 ; : : : ; Xn .
n cazul unei erori de tip I, ipoteza nul a este respins a desi ea este adev
arat a (adica = 0 ), si deci probabilitatea
acestei erori este
P ^ (X1 ; : : : ; Xn ) > c = 0 = ;
iar = 1 se numeste puterea testului ( este probabilitatea de a respinge ipoteza nul a atunci cnd ea este
falsa).
Probabilitatile si din formulele anterioare depind de valoarea lui c, si este dorit ca valoarea lui c s a e
astfel aleasa nct ambele probabilit ati s
a e ct mai mici. Acest lucru nu este ns a posibil, deoarece pentru ca
probabilitatea s a e minim a, c trebuie ales ct mai mare (spre dreapta lui 0 ), si atunci probabilitatea creste.
n practic
a, se alege o valoare convenabil a pentru (spre exemplu = 5% sau 1%), se determin a valoarea lui c,
si apoi se calculeaz a valoarea lui . Dac a valoarea obtinut a este prea mare, atunci se repet a testul, considernd
o selectie de volum mai mare.
Daca ipoteza alternativ a nu este de forma = 1 ci de una din formele (1) (3), atunci probabilitatea este o
functie de (numit a caracteristic a de operare). Gracul acestei functii (numit curb a caracteristic a) permite
determinarea probabilit atii pentru o anumit a valoarea a lui (si al volumului n al selectiei).
63
9.3 Test pentru media a unei populatii normale cu dispersie cunoscut
a
2 2
Presupunem c
a populatia X 2 N ; este normal
a cu dispersie cunoscut
a, si consider
am spre exemplu cazul
testului
H0 : = 0
H1 : 6 = 0
pentru media a populatiei (cazul ipotezelor alternative < 0 , respectiv > 0 este similar).
X1 +:::+Xn
Daca X1 ; : : : ; Xn este o selectie a populatiei X 2 N ; 2 , rezult
a c
a media de selectie X = n este o
2 2
variabil
a aleatoare normal
aN ; n cu medie si dispersie n . Dac
a ipoteza nul
a este adev
arat
a (adic
a = 0 ),
variabila aleatoare
X 0
Z= 2 N (0; 1)
p
n
este o variabil
a aleatoare normal
a standard.
Pentru un nivel de semnicatie xat, determin am punctul z =2 cu proprietatea c
a aria de sub densitatea
normala standard, la dreapta acestui punct, este egal
a cu =2, adic
a
z =2 =P Z z =2 =1
2
unde este functia de distributie normal a standard (a se vedea Anexa 1 sau Anexa 2).
Folosind faptul c
a distributia normal
a standard este simetric
a fat
a de origine, obtinem c
a dac
a ipoteza nul
a este
adev
arat
a, atunci !
X 0
P z =2 z =2 = 1 ;
p
n
P 0 z =2 p X 0 +z =2 p =1 :
n n
Testul este deci urm atorul: pentru valori observate x1 ; : : : ; xn ale selectiei X1 ; : : : ; Xn , se calculeaz
a media
x1 +:::+xn
x= n . Dac
a valoarea calculat a x apartine regiunii de respingere 1; 0 z =2 n [ 0 + z =2 pn ; 1
p
se respinge ipoteza nul a (si deci se accepta ipoteza alternativ a 6= 0 ), iar n caz contrar se accept a ipoteza nul
a
= 0.
Denim P -valoarea testului ca ind egal a cu cel mai mic nivel de semnicatie pentru care se respinge ipoteza
nul
a pentru un esantion x1 ; : : : ; xn xat. n cazul prezentat, aceasta revine la
!
x 0 x 0
x = 0 z =2 p () z =2 = () =1 ;
n p
n
p
n
2
x
adic
a =2 1 p
0
.
n
Exemplul 9.2 Fie X o populatie cu o distributie normala avnd dispersie cunoscuta 2 = 9. Folosind un esantion
de volum n = 10 cu medie x; sa se testeze ipoteza nula = 0 = 24 n cazul ipotezei alternative
64
Cazul (a). n acest caz, determinam valoarea lui c astfel nct P X > c = 24 = = 0:05, adica
c 24
P (X cj = 24) = p =1 = 0:95:
0:9
c 24
P (X cj = 24) = p = = 0:05:
0:9
n practica, daca crestem volumul n al esantionului (spre exemplu de la n = 10 la n = 100), valoarea erorii
( )=1 ( ) scade. n functie de problema n cauza, volumul n al selectiei se alege astfel nct valoarea erorii
( ) sa e acceptabila (n caz contrar, se alege un esantion de volum mai mare si se repeta testul).
H0 : = 0
H1 : 6 = 0
pentru media a populatiei (cazul ipotezelor alternative < 0 , respectiv > 0 este similar).
Cum dispersia 2 a populatiei este necunoscuta, proced
am n mod
q similar cazului dispersiei cunoscute, nlocuind
1
Pn 2
abaterea p atratic
a medie (necunoscut a) prin estimatorul S = n 1 i=1 Xi X , unde X1 ; : : : ; Xn este o
selectie de volum n din populatia X.
Variabila aleatoare rezultat
a
X 0
T = S p
n
65
are n acest caz o distributie Student cu n 1 grade de libertate, si procednd n mod analog cazului anterior,
determinam punctul t =2;n 1 astfel nct aria de sub densitatea Student cu n 1 grade de libertate, la dreapta
acestui punct este egal
a cu 2 , adic
a
F t =2;n 1; =1
2
unde F este functia de distributie Student cu n 1 grade de libertate (se va folosi Anexa 3).
Testul este urm a valoarea t = xps 0 ,
atorul: pentru valori observate x1 ; : : : ; xn ale selectiei X1 ; : : : ; Xn se calculeaz
q Pn
n
x1 +:::+xn 1 2
unde x = n si s = n 1 i=1 (xi x) . Dac at2 = t =2;n 1 ; t =2;n 1 se respinge ipoteza nul a = 0,
iar n caz contrar aceasta este acceptat a.
Exemplul 9.3 Testnd rezistenta la rupere a unor frnghii pentru un esantion de volum n = 16, s-a determinat
valoarea medie x = 4482 kg si abaterea patratica medie s = 115 kg. Presupunnd ca rezistenta la rupere este o
variabila aleatoare normala, sa se testeze ipoteza = 0 = 4500 kg.
Consideram nivelul de semnicatie = 5%. Daca ipoteza nula este adevarata, atunci variabila aleatoare
X 0 X 4500
T = =
pS pS
n n
2
9.5 Test pentru dispersia a unei populatii normale
2
Presupunem c
a populatia X 2 N ; este normal
a si dorim s
a test
am
2 2
H0 : = 0
2 2
H1 : 6 = 0
F =2;n 1 =1 si F 1 =2;n 1 = ;
2 2
unde F reprezint a functia de distributie a variabilei 2 cu n 1 grade de libertate (Anexa 4).
Pentru un nivel de semnicatie xat, testul este urm atorul:
q pentru valori observate x1 ; : : : ; xn ale selectiei
(n 1)s2 Pn 2
X1 ; : : : ; Xn se calculeaza valoarea y = 2 , unde s = 1
n 1 i=1 (xi x) si x = x1 +:::+x
n
n
. Daca y 2 =
0
2 2
1 =2;n 1; =2;n 1 se respinge ipoteza nul
a = 0, iar n caz contrar aceasta este acceptat
a.
66
Exemplul 9.4 Folosind un esantion dintr-o populatie normala, de volum n = 15 avnd dispersie s2 = 13, sa se
testeze ipoteza nula 2 = 20 = 10 n cazul ipotezei alternative 2 = 21 = 20.
Consideram un nivel de semnicatie = 5%. Daca ipoteza nula este adevarata, atunci variabila aleatoare
S2 S2
Y = (n 1) 2 = 14 = 1:4S 2
0 10
Observatia 9.5 Att n cazul testului pentru media unei populatii normale cu dispersie necunoscuta, ct si n cazul
testului pentru dispersia unei populatii normale, pentru a calcula puterea testului este nevoie de tabele suplimentare
(pentru distributia Student, respectiv pentru distributia 2 ). n acest curs nu vom studia aceste probleme.
H0 : p = p0
H1 : p=6 p0
67
10 Regresia liniar
a
n sectiunile anterioare am considerat experimente pentru care am observat o singur a cantitate (variabil a) aleatoare,
iar esantioanele respective au constat din date reprezentate de numere reale x1 ; : : : ; xn . n aceast a sectiune vom
considera experimente n care suntem interesati de doua cantit ati (variabile) aleatoare, si deci esantioanele respective
vor reprezentate de perechi de numere reale (x1 ; y1 ) ; : : : ; (xn ; yn ).
Vom distinge dou a tipuri de experimente:
1. n analiza de corelatie ambele cantit ati sunt variabile aleatoare si suntem interesati de relatiile dintre
acestea. Spre exemplu, leg atura dintre variabilele aleatoare X si Y reprezentnd uzura rotilor din fat a ale
unei masini, ntre notele X la Matematica si notele Y la Fizic
a ale studentilor, etc.
2. n analiza regresiv a una din cele doua variabile (spre exemplu x) este privita ca o variabil
a ce poate
masurata (determinata) cu precizie, numit
a variabila independent a, si suntem interesati de modul cum
cealalt
a variabil
a (numita variabila dependent a) depinde de aceasta. Spre exemplu suntem interesati de
modul cum depinde tensiunea Y n functie de vrsta x, de aportul de crestere Y al animalelor n functie de
cantitatea zilnic
a de hrana x, etc.
n general, ntr-un anumit experiment alegem valorile x1 ; : : : ; xn si apoi observ am valorile y1 ; : : : ; yn ale unei
variabile aleatoare Y , obtinnd astfel un esantion (x1 ; y1 ) ; : : : ; (xn ; yn ). n analiza regresiv
a suntem interesati de
dependenta variabilei aleatoare Y de x, mai precis de dependenta mediei = (x) a variabilei aleatoare Y de x.
Vom considera cazul cel mai simplu, si anume cazul unei dependente liniare
(x) = k0 + k1 x; (60)
y = k0 + k1 x; (61)
numit
a dreapt a de regresie, astfel nct suma p atratelor distantelor punctelor (n directia vertical
a) la aceast
a
dreapt
a s
a e minim a.
Pentru aceasta, observ am ca distanta punctului (xi ; yi ) (n directia vertical
a) la dreapta y = k0 + k1 x este
jyi k0 k1 xi j, si deci suma p
atratelor acestor distante este
n
X 2
D= (yi k0 k1 xi ) :
i=1
Pentru a obtine minimul acestei expresii, conform teoremei lui Fermat derivatele n raport cu k0 si k1 trebuie
s
a e nule, de unde obtinem sistemul
@D
@k0 = 0 ;
@D
@k1 = 0
sau echivalent Pn
2 Pi=1 (yi k0 k1 xi ) = 0
n :
2 i=1 xi (yi k0 k1 xi ) = 0
68
Sistemul anterior se mai poate scrie sub forma
Pn Pn
k0 nP+ k1 i=1 xP
i = i=1 yiP
n n n :
k0 i=1 xi + k1 i=1 x2i = i=1 xi yi
datorita ipotezei c
a cele n valori x1 ; : : : ; xn nu sunt toate egale. Rezult a deci c
a sistemul anterior are solutie unic
a,
si observ
am ca din prima ecuatie a sistemului, prin mp artire cu n obtinem
n n
1X 1X
k0 = yi k1 xi = y k1 x;
n i=1 n i=1
unde
x1 + : : : + xn y1 + : : : + yn
x= si y= :
n n
Pentru a-l determina pe k1 , folosind regula lui Cramer, avem
P
n
P P yi P P P
P P P
xi xi yi n xi yi xi yi xi yi n1 xi yi (n 1) sxy sxy
k1 = P 2 = P 2 = P 2 = = 2 ;
n (xi x) n (xi x) (xi x) (n 1) sxx sx
unde
n
X X
1 1 1X X
sxy = (xi x) (yi y) = xi yi xi yi
n 1 i=1
n 1 n
Xn X
1 2 1 1 X 2
s2x = (xi x) = x2i xi :
n 1 i=1
n 1 n
y y = k1 (x x) (62)
unde
x1 + : : : + xn y1 + : : : + yn
x= si y= (63)
n n
si
sxy
k1 = ; (64)
s2x
cu
1 X 1X X 1 X 1 X 2
sxy = xi yi xi yi si s2x = x2i xi : (65)
n 1 n n 1 n
Exemplul 10.2 Scaderea volumului y (n procente) pentru diferite valori x ale presiunii (n atmosfere) a fost
determinata conform tabelului urmator.
xi yi
4; 000 2:3
6; 000 4:1
8; 000 5:7
10; 000 6:9
Folosind formulele din propozitia anterioara determinam
x1 + : : : + x4 28; 000 y1 + : : : + y4 19:0
x= = = 7; 000 , y= = = 4:75;
4 4 4 4
69
si
1 28; 0002 20; 000; 000 1 28; 000 19:0 15; 400
s2x = 216; 000; 000 = , sxy = 148; 400 = ;
3 4 3 3 4 3
si deci
sxy 15; 400
k1 = = = 0:00077:
s2x 20; 000; 000
Ecuatia dreptei de regresie este deci
y 4:75 = 0:00077 (x 7; 000) () y = 0:00077x 0:64:
Ecuatia obtinuta arata ca dependenta procentului mediu al scaderii volumului Y n raport cu presiunea x este
(x) = 0:00077x 0:64.
10.2 Analiz
a de corelatie
n aceasta sectiune suntem interesati de determinarea relatiei dintre dou a variabile aleatoare X si Y folosind un
esantion (x1 ; y1 ) ; : : : ; (xn ; yn ).
Vom folosi
x1 + : : : + xn y1 + : : : + yn
x= si y=
n n
pentru mediile esantioanelor,
n
X n
X
1 2 1 2
s2x = (xi x) si s2y = (yi y)
n 1 i=1
n 1 i=1
70
Teorema 10.4 Coecientul de corelatie a doua variabile aleatoare X si Y verica
1 1;
si n plus = 1 sau = 1 daca si numai daca punctele variabilele aleatoare X si Y sunt linear dependente (adica
Y = mX + n sau X = mY + n pentru anumite valori m; n 2 R).
Spunem c a variabilele aleatoare X si Y sunt necorelate dac a = 0 (coecientul de corelatie este egal cu 0).
Se poate ar ata c
a daca variabilele aleatoare X si Y sunt independente, atunci ele sunt necorelate (adic a = 0).
Reciproca acestui rezultat nu este n general adev arat a (adic
a dou
a variabile aleatoare necorelate nu sunt n general
independente).
Dac a ns
a n plus variabilele aleatoare X si Y sunt si normale, atunci reciproca este adev arat
a, si deci pentru
variabile aleatoare normale X si Y avem
X si Y sunt independente () = 0:
Folosind aceste rezultate, putem elabora un test statistic pentru a determina dac
a dou
a variabile aleatoare
normale X si Y sunt independente.
Pentru a testa ipoteza = 0 cu ipoteza alternativ
a > 0 proced am astfel.
P (T c) = F (c) = 1
(F (x) reprezint
a aici functia de distributie Student cu n 2 grade de libertate - se va folosi Anexa 3)
3. Se calculeaz
a valoarea coecientului de corelatie r din formula (66) corespunz
atoare esantionului (x1 ; y1 ) ; : : : ; (xn ; yn ).
4. Se calculeaz
a r
n 2
t=r :
1 r2
Daca t c se accept a ipoteza = 0 (adic
a X si Y sunt variabile aleatoare independente), iar n caz contrar
se respinge aceast
a ipotez
a.
Exemplul 10.5 Consideram X si Y variabilele aleatoare reprezentnd numarul de greseli n asamblare n prima
parte, respectiv n a doua parte a unui anumit proces de fabricatie.
Prespunem ca valoarea coecientul de corelatie r pentru un anumit esantion (x1 ; y1 ) ; : : : ; (x10 ; y10 ) de volum
n = 10 a fost r = 0:6. Alegnd un nivel de semnicatie = 5%, folosind Anexa 3 cu n 2 = 8 grade de libertate
determinam valoarea qcritica c din ecuatia F (c) = 1 = 0:95, si gasim c = 1:86.
8
Obtinem t = 0:6 0:64 = 2:12 > 1:86 = c. Respingem deci ipoteza nula = 0 si acceptam ipoteza > 0 (aceasta
nseamna o corelatie pozitiv a a variabilelor aleatoare X si Y ). Practic, aceasta arata ca exista o anumita legatura
ntre numarul de greseli de fabricatie din prima si din a doua parte a procesului de fabricatie (daca un muncitor
face multe/puine greseli n prima parte a procesului de fabricatie, el face de asemenea multe/putine greseli n a
doua parte a procesului de fabricatie).
Exercitii
S
a se determine si s
a se reprezinte grac dreapta de regresie si esantionul corespunz
ator n urm
atoarele cazuri.
Exercitiul 10.1 (2; 12) ; (5; 24) ; (9; 33) ; (14; 50)
Exercitiul 10.2 ( 2; 3:5) ; (0; 1:5) ; (2; 1:0) ; (4; 0:5) ; (6; 1:0)
Voltaj x (volti) 30 30 60 60 90 90
Curent y (amperi) 3:1 3:2 6:3 6:5 10:0 10:1
71
Exercitiul 10.4 (Legea lui Hooke)
Forta x (kg) 1 2 3 4
Deplasare y (cm) 3:1 5:9 8:8 12:1
Temperatura x 1 10 35 60 91
Conductivitate y 0:337 0:345 0:365 0:380 0:395
Viteza x (mph) 30 40 50 60
Distanta y (ft) 160 240 330 435
S
a se determine media, dispersia si abaterea p
atratic
a medie a urm
atoarelor esantioane.
Exercitiul 10.9 21:0; 21:6; 19:9; 19:6; 15:6; 20:6; 22:1; 22:2
Exercitiul 10.10 0:28; 1:5; 1:2; 0:15; 2:0; 0:69; 1:2; 0:50; 0:47; 0:087
Exercitiul 10.11 Numarul de carti mprumutate de la o biblioteca a fost de 500 n ziua de Luni, 450 Marti, 480
Miercuri, 460 Joi, si 510 Vineri. Sa se testeze ipoteza ca ca numarul de carti mprumutate de la biblioteca nu
depinde de ziua saptamnii, folosind un nivel de semnicatie = 5%.
72
11 Observatii privind estimatorul S 2 al dispersiei 2
al unei populatii
normale N ; 2
Pentru a determina un estimator al dispersiei unei populatii normale si a intervalelor de ncredere pentru aceasta,
am folosit faptul c
a daca X1 ; : : : ; Xn sunt variabile aleatoare normale N ; 2 identic distribuite cu medie si
dispersie 2 , atunci estimatorul dispersiei S 2 denit prin
Pn 2
i=1 Xi X
S2 = ; (67)
n 1
1
Pn
unde X = n i=1 Xi este estimatorul mediei , are proprietatea c
a
n
X
(n 1) S 2 2 2
2
= Xi X 2 (n 1)
i=1
2
este o distributie cu n 1 grade de libertate. Prezent
am n continuare o demonstratie a acestui rezultat.
Propozitia 11.1 Daca X1 ; : : : ; Xn 2 N ; 2 sunt variabile aleatoare normale independente cu medie si dis-
Pn Pn 2
persie 2 , atunci X = n1 i=1 Xi si S 2 = n 1 1 i=1 Xi X sunt de asemenea variabile aleatoare independente,
si variabila aleatoare
n
X
(n 1) S 2 2
2
= Xi X 2 2 (n 1)
i=1
2
are o distributie cu n 1 grade de libertate.
t
Demonstratie. Pentru n > 1 arbitrar xat, consider am vectorul e1 = p1n ; : : : ; p1n 2 Rn . Cum dimensiunea
spatiului vectorial Rn este n, se pot determina vectorii e2 ; : : : ; en 2 Rn astfel nct e1 ; e2 ; : : : ; e0n formeaz
1 a o baz a
e1
B e2 C
ortonormal a n Rn (adic a ei ej = ij , pentru i; j 2 f1; : : : ; ng). Considernd matricea U = B @
C avnd ca
A
en
linii vectorii e1 ; : : : ; en , rezult
a c
a matricea U este o matrice ortogonal a (adica U U t = U t U = In este matricea
unitate n Mn n (R)): elementul corespunz ator liniei i si coloanei j din matricea U U t este de fapt produsul scalar
ei ej = ij conform alegerii vectorilor ortonormali e1 ; : : : ; en , si deci U = (uij )1 i;j n = ( ij )1 i;j n = In este
matricea unitate.
Consider am variabilele aleatoare Y1 ; : : : ; Yn denite prin
0 1 0 1 0 1
Y1 X1 u11 X1 + : : : + u1n Xn
B Y2 C B C B C
B C = U B X2 C = B u21 X1 + : : : + u2n Xn C ;
@ A @ A @ A
Yn Xn un1 X1 + : : : + unn Xn
0 1 0 1
X1 Y1
B X2 C B C
sau n form a matriceal a Y = U X, unde X = B C si Y = B Y2 C.
@ A @ A
Xn Yn
Observ am ca ind o combinatie liniar a de variabile aleatoare independente, Y1 ; : : : ; Yn sunt de asemenea variabile
aleatoare normale. Putem determina usor media si dispersia variabilelor aleatoare Yi :
0 1
X n Xn Xn
M (Yi ) = M @ uij Xj A = uij M (Xj ) = uij ; (68)
j=1 j=1 j=1
si 0 1
Xn n
X n
X n
X
Var (Yi ) = 2 @ uij Xj A = 2
(uij Xj ) = u2ij 2
(Xj ) = 2
u2ij = 2
; (69)
j=1 j=1 j=1 j=1
73
t
folosind independenta variabilelor
Pn aleatoare X1 ; : : : ; Xn 2 N ; 2 si faptul c
a ei = ui1 ui2 : : : uin este
2
un vector unitar (si deci j=1 uij = ei ei = 1).
Deoarece Y1 ; : : : ; Yn sunt variabile aleatoare normale, pentru a verica independenta lor este sucient s
a veric
am
c
a ele sunt necorelate. Avem
Observ
am c
a dac
a k 6= l, atunci datorit
a independentei variabilelor aleatoare Xk si Xl avem
2
M (Xk Xl ) = M (Xk ) M (Xl ) = = ;
iar dac
a k = l avem
M (Xk Xl ) = M Xk2
2
= M (Xk + )
2 2
= M (Xk ) + 2 M (Xk )+
2 2
= M (Xk ) + 2 (M (Xk ) )+
2 2
= +2 ( )+
2
= + 2:
Obtinem deci
n
X n
X
2
Cov (Yi ; Yj ) = (uik ujl M (Xk Xl )) uik ujl
k;l=1 k;l=1
Xn n
X
2 2 2
= uik ujl + kl uik ujl
k;l=1 k;l=1
Xn n
X n
X
2 2 2
= (uik ujl ) + (uik ujl kl ) uik ujl
k;l=1 k;l=1 k;l=1
Xn
2
= (uik ujl )
k=1
2
= ei ej
2
= ij ;
ceea ce arat
a c
a Y1 ; : : : ; Yn sunt necorelate: cov (Yi ; Yj ) = 0 pentru i 6= j. Cum Y1 ; : : : ; Yn sunt variabile aleatoare
normale, aceasta arat a c a Y1 ; : : : ; Yn sunt si independente.
t
S
a observ
am c
a din alegerea lui e1 = p1 ; : : : ; p1 si din denitia variabilei aleatoare Y1 avem
n n
1 1 X1 + : : : + Xn p
Y1 = u11 X1 + : : : + u1n Xn = p X1 + : : : + p Xn = p = nX: (70)
n n n
74
S
a mai observ a S 2 admite reprezentarea echivalent
am c a
n
X
2 2
(n 1) S = Xi X (71)
i=1
Xn
2
= Xi2 2Xi X + X
i=1
n
X n
X 2
= Xi2 2X Xi + nX
i=1 i=1
n
X 2
= Xi2 2XnX + nX
i=1
n
X 2
= Xi2 nX :
i=1
De asemenea, din denitia variabilelor aleatoare Y1 ; : : : ; Yn si folosind faptul ca U este o matrice ortogonal
a,
obtinem
Xn X n
t
Yi2 = Yt Y = (U X) (U X) = Xt U t U X = Xt X = Xi2 : (72)
i=1 i=1
Folosind din nou faptul ca U este o matrice ortogonal a avnd elementele primei linii egale cu p1 , comparnd
n
atii U U t = In se obtine
elementele primei coloane din cei doi membrii ai egalit
n
X n
X
1 p
uij p = i1 () uij = n i1 ; i 2 f1; : : : ; ng :
j=1
n j=1
Pn p
n particular, j=1 uij = n i1 = 0 oricare ar i 2 f2; : : : ; ng, si folosind relatiile (68) (69) rezult
a c
a
Yi
2 N (0; 1), i 2 f2; : : : ; ng, sunt variabile aleatoare normale standard. Deoarece conform demonstratiei anterioare
(n 1)S 2
ele sunt si independente, din reprezentarea (74) rezult
a c
a variabila aleatoare 2 este o sum
a de p
atrate a n 1
(n 1)S 2 2
variabile aleatoare normale standard independente, si deci conform denitiei 2 2 (n 1) este o variabil
a
aleatoare 2 cu n 1 grade de libertate.
75
Observatii
Pn 2 2
1. Ash, pag. 275 ( i=1 Xi X 2 (n 1))
76