Sunteți pe pagina 1din 9

Curs: Statistică (2018-2019) Universitatea din Bucureşti

Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

Tema 3
Solut, ii

Exercit, iul 1

a) Nivelul de zgomot al unei maşini de spălat este o v.a. de medie 44 dB şi de abatere standard
5 dB. Admiţand aproximarea normală care este probabilitatea să găsim o medie a zgomotului
superioară la 48 dB intr-un eşantion de talie 10 maşini de spălat ?
b) O telecabină are o capacitate de 100 de persoane. Ştiind că greutatea populaţiei (ţarii) este o
v.a. de medie 66.3 Kg şi o abatere standard de 15.6 Kg şi presupunand că persoanele care
au urcat in telecabină au fost alese in mod aleator din populaţie, care este probabilitatea ca
greutatea totală acestora să depăşească 7000 Kg ?

a) Fie X nivelul de zgomot produs de o maşină de spălat luată la intamplare şi X̄10 media unui eşantion
de talie 10. Presupunem că aproximarea gaussiană are loc pentru n = 10. Avem
52
 
X̄10 ∼ N 44, ,
10
 
de unde P(X̄10 > 48) ' P Z > 5/ 48−44

10
= P(Z > 2.53) = 1 − 0.9943 = 0.0057, unde Z ∼ N (0, 1).
Observăm că această proabilitate este foarte mică.
b) Fie X greutatea unei persoane luate la intamplare şi X̄100 greutatea media a unui eşantion de 100 de
persoane. Aplicand approximarea gaussiană (Teorema Limită Centrală) avem
15.62
 
X̄100 ' N 66.3, ,
100
 
de unde P(X̄100 > 7000
100 ) ' P Z > 70−66.3

15.6/ 100
= P(Z > 2.37) = 0.0089, unde Z ∼ N (0, 1).

Exercit, iul 2

Fie X1 , . . . , Xn un eşantion de talie n dintr-o populaţie de medie µ şi varianţă σ 2 . Arătaţi că


varianţa varianţei eşantionului este:

1 n−3 4
 
V(S 2 ) = µ4 − σ
n n−1

unde µ4 = E[(Xi − µ)4 ] este momentul centrat de ordin 4. Ce revine această formulă in cazul
Gaussian (normal) ?

Am văzut la curs că

n n n
" n #2
X X X 1 X
(n − 1)S =
2
(Xi − X̄) =
2
(Xi − µ) − n(X̄ − µ) =
2 2
(Xi − µ) −
2
(Xi − µ) .
i=1 i=1 i=1
n i=1
Dacă notăm cu Zi = Xi − µ atunci observăm că v.a. Zi sunt i.i.d. iar E[Zi ] = 0, E[Zi2 ] = σ 2 şi E[Zi4 ] = µ4 .
Avem că

Grupele: 301, 311, 321 Pagina 1


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

!2  2
n n n n
X 1 X X 1 X XX
(n − 1)S 2 = (Zi )2 − Zi = (Zi )2 − Z2 + 2 Zi Zj 
i=1
n i=1 i=1
n i=1 i i<j
n
n−1X 2 XX
= (Zi )2 − Zi Zj
n i=1 n i<j

de unde obţinem

 2 
n
 n−1X 2 XX
(n − 1)2 E[(S 2 )2 ] = E  (Zi )2 − Zi Zj  

n i=1 n i<j
   ! 
2 n n
n−1 4(n 1)
 X XX − X XX
= E Zi4 + 2 Zi2 Zj2  − 2
E Zk2  Zi Zj 
n i=1 i<j
n i<j
k=1
 2 
4  XX
+ 2 E  Zi Zj   (?)

n i<j

Pentru primul termen din suma de mai sus avem


 
2 n 2
n−1 n−1
 X XX 
Zi + 2
4
Zi Zj =
2 2
nµ4 + n(n − 1)σ 4 .

E 
n i=1 i<j
n

Termenul al doilea din ecuaţia (?) este 0 deoarece conţine sau termeni de forma E[Zi Zj Zk2 ], cu i 6= j 6= k, sau
termeni de forma E[Zj Zk3 ] cu j 6= k.
Pentru ultimul termen avem din ecuaţia (?) avem
 2   
4  X X 4 X X 2(n − 1) 4
Zi Zj   = 2 E  Zi2 Zj2  = σ ,

E
n2 i<j
n i<j
n

restul termenilor fiind zero deoarece sunt de forma E[Zi2 Zj Zk ] sau E[Zi Zj Zk Zl ] cu i 6= j 6= k 6= l.
Combinand rezultatele obţinem că

(n − 1)2 (n − 1)3 4 n−1 4


(n − 1)2 V[S 2 ] = µ4 + σ +2 σ − (n − 1)2 E[S 2 ]2
n n n
(n − 1)2 (n − 1)(3 − n) 4
= µ4 + σ
n n
 
prin urmare V[S 2 ] = 1
n µ4 − n−3 4
n−1 σ .
2σ 4
In cazul normal avem că µ4 = 3σ 4 (de ce ?) deci V[S 2 ] = n−1 (vedeţi leagea χ2 ).

Grupele: 301, 311, 321 Pagina 2


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

Exercit, iul 3

Fie X1 , . . . , Xn un eşantion de talie n dintr-o populaţie de medie µ şi varianţă σ 2 . Arătaţi că

µ3
Cov(X̄, S 2 ) =
n

unde µ3 = E[(Xi − µ)3 ] este momentul centrat de ordin 3. Acest rezultat ne arată că cele două
statistici sunt asimptotic necorelate.

Dacă notăm cu Zi = Xi − µ, atunci X̄ − µ = Z̄ şi E[Z̄] = 0. Mai mult,

n
X n
X n
X
(Xi − X̄)2 = (Zi − Z̄)2 = Zi2 − nZ̄ 2
i=1 i=1 i=1

prin urmare

" n #!
1 X
Cov(X̄, S ) = Cov(X̄ − µ, S ) = Cov Z̄,
2 2 2
Z − nZ̄ 2
n − 1 i=1 i
" n
!# " " n
!# #
1 X 1 X
= E Z̄ 2
Zi − nZ̄ 2
= E Z̄ 2
Zi − nE[Z̄ ]
3
n−1 i=1
n−1 i=1

Cum

" !#   ! " n #
n n n
X 1 X  X 2  1 X
E Z̄ Zi2 = E Zj Zi = E Zi3 = µ3
i=1
n j=1 i=1
n i=1

şi
! n  ! " n #
n n
1  X X X 1 X µ3
E[Z̄ ] = 3 E
3
Zi  Zj  Zk  = 3 E Zi = 2
3
n i=1 j=1
n i=1
n
k=1

rezultă că Cov(X̄, S 2 ) = 1 µ3
= n .
µ3

n−1 µ3 − n

Exercit, iul 4

Fie X1 , X2 , . . . , Xn un es, antion de talie n dintr-o populat, ie F cu E[X12 ] < ∞.


1. a) Arătat, i că E[X1 ] = arg minE[(X1 − t)2 ].
t∈R
n
X (Xi − t)2
b) Determinat, i argmint∈R .
i=1
n

2. Notăm cu x 21 = F −1 1
mediana repartit, iei lui X1

2

Grupele: 301, 311, 321 Pagina 3


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

a) Arătat, i că dacă F este continuă pe R s, i strict crescătoare pe o vecinătate a lui x 12 atunci

x 12 = arg minE[|X1 − t|].


t∈R

Pn |Xi −t|
b) Determinat, i, în funct, ie de paritatea lui n, arg min i=1 n .
t∈R

1. a) Dacă definim f : t ∈ R → E[(X1 − t)2 ], atunci f (t) = t2 − 2E[X1 ]t + E[X12 ] este o funct, ie de
gradul doi strict convexă. Astfel are sens să vorbim de minimul (unic) acesteia care se determină
rezolvând ecuat, ia f 0 (t) = 2t − 2E[X1 ] = 0 ⇐⇒ t = E[X1 ].
Pn Pn
Xi Xi2
b) În mod similar, funct , ia g(t) = t − 2
2 i=1
n t + i=1
n admite un unic minim în punctul critic
P n
Xi
dat de t = i=1
n = X̄n .
2. În acest exercit, iu vom folosi o metodă diferită de cea din Exercit, iul 4 din Tema 1 de a arăta rezultatul
de la punctul a).
Reamintim (a se vedea Exercit, iul 6 din Tema 1) că dacă Z ≥ 0 atunci
Z ∞
E[Z] = P(Z > z) dz. (?)
0
a) Să observăm pentru început că |X1 − t| = (X1 − t)+ + (t − X1 )+ , prin urmare

PP(|X1 − t| > z) = P((X1 − t)+ + (t − X1 )+ > z)


= P((X1 − t)+ + 0 > z s, i X1 ≥ t) + P(0 + (t − X1 )+ > z s, i X1 < t)
= P(X1 − t > z) + P(t − X1 > z).

Folosind relat, ia din (?) avem

Z ∞
E[|X1 − t|] = P(|X1 − t| > z) dz
Z0 ∞ Z ∞
= P(X1 − t > z) dz + P(t − X1 > z) dz
Z0 ∞ Z0 ∞
= (1 − F (z + t)) dz + F (t − z) dz
0 0
Z ∞ Z t
= (1 − F (u)) du + F (u) du.
t −∞

Avem că (folosim că F este continuă)


E[|X1 − t|] = −(1 − F (t)) + F (t) = 2F (2) − 1
∂t
s, i cum F este o biject, ie strict crescătoare într-o vecinătate a lui x 21 deducem că

2F (t) − 1 > 0 ⇐⇒ t > x 12 s, i 2F (t) − 1 < 0 ⇐⇒ t < x 21

de unde funct, ia t → E[|X1 − t|] îs, i atinge minimul în t = x 12 .

Grupele: 301, 311, 321 Pagina 4


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

b) Funct, ia g(t) = i=1 |Xin−t| este liniară pe port, iuni iar panta sa se schimbă în fiecare Xi . Fie X(1) ≤
Pn
X(2) ≤ · · · ≤ X(n) statisticile de ordine de rang 1, 2, . . . , n s, i să notăm cu X(0) = −∞ s, i X(n+1) = ∞.
Putem observa că funct, ia g are panta − nn pe intervalul (−∞, X(1) ), − n−2 n pe intervalul [X(1) , X(2) ),
etc. s, i apoi panta n pe intervalul [X(n−1) , X(n) ) s, i n pe intervalul [X(n) , ∞). Altfel spus, panta este
n−2 n
2(k−1)−n
n pe intervalul [X(k−1) , X(k) ).
Distingem două cazuri în funct, ie de paritatea lui n:
• dacă n este par, panta lui g se va anula pe un interval care corespunde la [X( n2 ) , X( n2 +1) ) prin urmare g
este minimă pe acest interval (în practică se ia mijocul acestui interval)
• dacă n ete impar atunci panta lui g nu se anulează s, i în acest caz funct, ia atinge valoarea minimă în
X( n2 +1) )

Astfel observăm că valoarea care minimizează funct, ia i=1 |Xin−t| este chiar mediana empirică.
Pn

n impar n par
2.5

3.0
2.5
2.0

2.0
g(t)

g(t)
1.5

1.5
1.0

x(n) + x(n+1)
1.0

2 2

x(n+1)
2 2

−3 −2 −1 0 1 −1 0 1 2 3

t t

Exercit, iul 5

X1 , . . . , Xn un eşantion de talie n cu funcţia de repartiţie F (x) şi densitatea f (x) şi (Y1 , . . . , Yn )


versiunea ordonată crescător a acestuia. Notăm cu Hk (x) şi hk (x) funcţia de repartiţie şi densitatea
v.a. Yk . Fie Y1 = inf Xi şi Yn = sup Xi .
a) Care este funcţia de repartiţie şi densitatea lui Y1 şi Yn ?
b) Care este probabilitatea ca o observaţie dintr-o v.a. de lege N (µ, σ 2 ) să depăşească µ + 3σ ?
c) Dar intr-un eşantion de talie 100 cat este această probabilitate (i.e. probabilitatea ca o
observaţie să depăşească µ + 3σ)?
d) Dintr-un eşantion de talie 100 dintr-o populaţie repartizată N (0, 1) ce valoare nu poate fi
depăşită cu o probabilitate de 99% ?

Grupele: 301, 311, 321 Pagina 5


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

e) O societate de analiză a calităţii apei şi a mediului efectuează un sondaj in laboratoarele sale


(50 la număr, repartizate pe tot teritoriul Romaniei) pentru a testa dacă efectuează măsurători
corecte. Pentru aceasta, serviciul de calitate trimite la fiecare laborator un eşantion de apă
care conţine o anumită concentraţie de crom şi le cere să determine această concentraţie de
crom. Ţinand cont de fluctuaţiile care apar in prepararea soluţiei, precum şi de imprecizia
aparatelor de măsură, societatea presupune că repartiţia concentraţiei de crom (mg/l) este
N (10, 1).
Printre rezultatele obţinute de la laboratoare, două dintre acestea au inregistrat măsurători mai
diferite decat celelalte: laboratorul L1 a inregistrat o concentraţie de 6 mg/l (cea mai mică
valoare inregistrată) iar laboratorul L2 a mă surat o concentraţie de 13 mg/l (cea mai mare dintre
măsurători).
Puteţi spune, cu o probabilitate de 99%, că aceste valori sunt coerente sau că valorile obţinute sunt
aberante (datorită erorilor de măsurare, de calibrare a aparatelor, etc.) ?

a) Se observă cu uşurinţă că

indep.
Hn (x) = P(Yn ≤ x) = P(X1 ≤ x, · · · , Xn ≤ x) = F (x)n
d
hn (x) = Hn (x) = nf (x)F (x)n−1
dx
indep. n
H1 (x) = P(Y1 ≤ x) = 1 − P(Y1 > x) = 1 − P(X1 > x, · · · , Xn > x) = 1 − (1 − F (x))
d n−1
h1 (x) = H1 (x) = nf (x) (1 − F (x))
dx

b) Fie X ∼ N (µ, σ 2 ). Problema cere să găsim probabilitatea P(X > µ + 3σ). Avem (vezi porţiunea roşie
din figură)    
X −µ X −µ
P(X > µ + 3σ) = P >3 =1−P ≤ 3 = 0.00135
σ σ
0.4
0.3
0.2
y

0.1

0.00135
0.0

−4 −2 0 2 4

Grupele: 301, 311, 321 Pagina 6


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

c) Fie X1 , X2 , . . . , Xn un e santion de talie n = 100 dintr-o populaţie normală N (µ, σ 2 ) şi fie Zi =


1{Xi >µ+3σ} variabilele Bernoulli care iau valoarea 1 atunci cand Xi > µ + 3σ şi 0 in rest. Problema
revine la a determina probabilitatea

 
n
i.i.d.
P(Z1 + · · · Zn = 1) = P(Z1 = 1)P(Z1 = 0)n−1 = nP(X1 > µ + 3σ)P(X1 < µ + 3σ)n−1 ' 0.11809
1

d) Fie X1 , X2 , . . . , Xn un e santion de talie n = 100 dintr-o populaţie normală N (0, 1). Problema ne
cere să găsim valoarea lui x pentru care probabilitatea P(X1 < x, X2 < x, · · · , Xn < x) = 0.99. Prin
urmare vrem
√ să găsim pe x aşa incat Hn (x) = 0.99. Din punctul a) avem Hn (x) = F (x) deci
n

x = F ( 0.99) = 3.7177.
−1 n

e) Fie X1 , X2 , . . . , Xn un e santion de talie n = 50 dintr-o populaţie normală N (10, 1) (n = 50 reprezintă


numărul de laboratoare iar Xi este concentraţia de crom din laboratorul i). Din datele problemei avem
că laboratorul 1 a inregistrat cea mai mică valoare (6 mg/l) iar laboratorul 2 a inregistrat cea mai mare
valoare (13 mg/l). Problema ne cere să evaluăm probabilitatea

P(Y1 ≤ 6, Yn ≥ 13) = 1 − P({Y1 > 6} ∪ {Yn < 13}) = 1 − P(Y1 > 6) − P(Yn < 13) + P(Y1 > 6, Yn < 13).
n
Avem că P(Y1 > 6) = P(X1 > 6, · · · , Xn > 6) = (1 − F (6)) iar F (6) = P(X1 ≤ 6) =
P X1 1−10 ≤ −4 ' 0.00003 deci P(Y1 > 6) ' 0.99871.
De asemenea P(Yn < 13) = F (13)n iar cum F (13) = P(X1 ≤ 13) = P X1 −10
≤ 3 ' 0.9986 rezultă că

1
P(Yn < 13) ' 0.9346.
In mod similar, P(Y1 > 6, Yn < 13) = P(6 < X1 < 13, · · · , 6 < Xn < 13) = P(6 < X1 < 13)n şi cum
P(6 < X1 < 13) = P(X1 < 13) − P(X1 ≤ 6) ' 0.9986 obţinem că P(Y1 > 6, Yn < 13) ' 0.9332.
In concluzie avem că P(Y1 ≤ 6, Yn ≥ 13) ' 0.0001.

Exercit, iul 6

Fie X1 , X2 , . . . , Xn un es, antion de talie n dintr-o populat, ie U([0, θ]) cu θ > 0 necunoscut.
a) Fie θ̂n = max {X1 , . . . , Xn }. Determinat, i funct, ia de repartit, ia a lui θ̂n .
b) Arătat, i că θ̂n este un estimator consistent pentru θ.
c) Arătat, i că θ̂n nu este un estimator nedeplasat pentru θ s, i construit, i un asemenea estimator.

a) Observăm că funct, ia de repartit, ie pentru X ∼ U(0, θ) este Fθ (x) = xθ dacă x ∈ (0, θ) s, i Fθ (x) = 0 altfel.
Cum X1 , X2 , . . . , Xn sunt i.i.d. U(0, θ), funct, ia de repartit, ie pentru θ̂n = max {X1 , . . . , Xn } este
 x n
n
Fθ̂n (x) = Pθ (θ̂n ≤ x) = Pθ (X1 ≤ x, · · · , Xn ≤ x) = (Pθ (X1 ≤ x)) = , x ∈ (0, θ).
θ
b) Pentru a arăta că θ̂n este consistent pentru θ trebuie verificat că θ̂n → θ. Putem remarca că θ ≥ θ̂n
P

deoarece fiecare Xi este strict mai mic decât θ. Pentru ε > 0, avem
 n
θ−ε
Pθ (|θ̂n − θ| > ε) = Pθ (θ − θn > ε) = Pθ (θ̂n ≤ θ − ε) =
θ

Dacă ε < θ atunci membrul drept converge la 0 pentru n → ∞ de unde obt, inem concluzia. În caz că ε > θ
atunci membrul drept este egal cu 0 de unde s, i limita.

Grupele: 301, 311, 321 Pagina 7


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

c) Pentru a verifica dacă estimatorul θ̂n este deplasat trebuie să calculăm Eθ [θ̂n ]. Cum funct, ia de repartit, ie
n n−1
a lui θ̂n este Fθ̂n (x) = xθ putem găsi cu us, urint, ă că densitatea este fθ̂n (x) = n xθn pentru x ∈ (0, θ)
s, i 0 altfel. Prin urmare

Z θ Z θ  x n Z 1
y=x/θ nθ
Eθ [θ̂n ] = xfθ̂n (x) dx = n dx = nθ y n dy = .
0 0 θ 0 n+1

Cum Eθ [θ̂n ] 6= θ concluzionăm că estimatorul este deplasat. Dacă definim θ̃n = n+1
n
θ, atunci se observă că θ̃n
este nedeplasat s, i cum θ̂n era consistent iar n+1 converge la 1 deducem că θ̃n este un estimator consistent.
n

Exercit, iul 7

Fie X ∼ B(10, θ) cu θ ∈ (0, 1) necunoscut. Fie θ̂1 = X


10 s, i θ̂2 = X+1
12 doi estimatori pentru θ.
a) Calculat, i Eθ [θ̂1 ] s, i Eθ [θ̂2 ].
b) Calculat, i erorile medii pătratice: M SEθ (θ̂1 ) s, i M SEθ (θ̂2 ).
c) Trasat, i pe acelas, i grafic erorile medii pătratice ale celor doi estimatori ca funct, ii de θ. Pe care
dintre cei doi estimatori îl preferat, i?

a) Cum Eθ [X] = 10θ obt, inem că Eθ [θ̂1 ] = θ s, i Eθ [θ̂2 ] = 12 .


10θ+1

b) Pentru calculul erorii medii pătratice vom folosi următoarea formulă M SEθ (θ̂) = V arθ (θ̂) + Bθ (θ̂)2 .
Cum θ̂1 este un estimator nedeplast rezultă că Bθ (θ̂1 ) = 0 s, i

θ(1 − θ)
M SEθ (θ̂1 ) = V arθ (θ̂1 ) = 10−2 V arθ (X) = .
10

Pentru θ̂2 avem Bθ (θ̂2 ) = 10θ+1


12 − θ de unde

2
V arθ (X) 10θ + 1 6θ − 6θ2 + 1

M SEθ (θ̂2 ) = + −θ = .
122 12 144
c) Avem următoarea figură:

Grupele: 301, 311, 321 Pagina 8


Curs: Statistică (2018-2019) Universitatea din Bucureşti
Instructori: A. Amărioarei, S. Cojocea Facultatea de Matematică şi Informatică

θ^1
θ^2
0.020
MSEθ

0.010
0.000

0.0 0.2 0.4 0.6 0.8 1.0

θ^

Chiar dacă θ̂1 este nedeplasat s, i θ̂2 este deplasat, niciunul dintre cei doi estimatori nu are eroarea medie
pătratică uniform mai mică. Cu toate acestea, eroarea medie pătratică pentru estimatorul θ̂2 este mai
mică decât cea pentru estimatorul θ̂1 pe aproape toată plaja de valori a lui θ (mai exact pe intervalul
√ √ 
1− 11 1+ 11
θ∈ 2
12
, 2 12
). Cum eroarea medie pătratică este mai importantă decât nedeplasarea, recomand

folosirea estimatorului θ̂2 .

Grupele: 301, 311, 321 Pagina 9

S-ar putea să vă placă și