Documente Academic
Documente Profesional
Documente Cultură
1
2 c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
z
y
x
Domeniul G din plan pe care densitatea de probabilitate a unui vector aleator (X, Y )
este nenulă, se numeşte suportul densităţii. Cel mai adesea suportul densităţii este un
domeniu marginit din plan.
Exemplul 1. Fie (X, Y ) un vector aleator ce are densitatea:
2 − y dacă x ∈ [0, 2], y ∈ [1, 2]
fX,Y =
0 ı̂n rest
Suportul densităţii este domeniul dreptunghiular G = [0, 2] × [1, 2]. Graficul lui fX,Y este
vizualizat ı̂n Fig.6.2. El constă din planul haşurat ( de ecuaţie z = 2 − y, (x, y) ∈ G şi din
planul xoy minus dreptunghiul G
Să verificăm că funcţia dată este ı̂ntr-adevăr o densitate. Evident că f (x, y) ≥ 0,iar
ZZ Z 2Z 2 Z 2 Z 2
2 2
fX,Y (x, y)dxdy = 2 − ydx dy = (2y − y /2)|1 dx = 1/2 dx = 1
R2 0 1 0 0
Probabilitatea ca vectorul aleator (X, Y ) să ia valori ı̂n discul D centrat ı̂n punctul de
coordonate (1, 1.5) şi de rază r = 0.5
este ZZ ZZ
P ((X, Y ) ∈ D) = fX,Y dxdy = (2 − y) dxdy
D D
Efectuând schimbarea de variabile:
x = 1 + ρ cos θ
y = 1.5 + ρ sin θ
c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
3
z
(0, 2, 0)
y
x (2, 1, 0)
(2, 2, 0)
Domeniul de integrare din R2 , pentru calculul funcţiei de repartiţie este ilustrat ı̂n Fig.6.3:
Observaţia 6.1.1 Dacă funcţia de repartiţie a vectorului aleator (X, Y ) este definită de
∂2F
densitatea fX,Y , continuă pe R2 , atunci există şi din (6.3) avem:
∂x∂y
∂ 2 FX,Y
(x, y) = fX,Y (x, y), ∀ (x, y) ∈ R2 . (6.4)
∂x∂y
Se ridică următoarea ı̂ntrebare: cunoscând densitatea de probabilitate fX,Y vectorului
aleator (X, Y ) putem afla densităţile de probabilitate fX , fY şi funcţiile de repartiţie
FX , FY ale coordonatelor sale X şi Y ?
Răpunsul este afirmativ, şi pentru a determina funcţiile asociate lui X, respectiv Y ,
observăm că dacă fX,Y este integrabilă ı̂n raport cu x, respectiv y, atunci avem:
RR R ∞ R ∞
1 = R2 fX,Y (x, y)dx dy = −∞ −∞ fX,Y (x, y) dx dy
R ∞ R ∞ (6.5)
= −∞ −∞ fX,Y (x, y) dy dx
4 c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
y
(x, y)
(−∞, x] × (−∞, y]
Fig.6.3: Domeniul de integrare pentru calculul funcţiei de repartiţie a unui vector aleator
(X, Y ).
Ambele funcţii sunt integrale dintr-o funcţie pozitivă fX,Y , deci sunt şi ele pozitive. Din
relaţia (6.5) rezultă de asemenea că:
Z ∞ Z ∞
fX (x) dx = 1, fY (x) dy = 1
−∞ −∞
şi deci funcţiile fX , fY sunt densităţi de probabilitate pentru variabile aleatoare definite
pe R. Să arătăm că fX este chiar densitatea variabilei X, iar fY a variabilei Y .
Într-adevăr conform relaţiei (6.2) funcţia de repartiţie a v.a. X este:
Z x Z ∞ Z x
FX (x) = P (X ≤ x) = P (X ≤ x, Y ∈ R) = fX,Y (x, y) dy dx = fX (x) dx
−∞ −∞ −∞
| {z }
fX (x)
(6.6)
Prin urmare fX este densitatea de probabilitate a variabilei X, pentru că este o densitate
de probabilitate ce defineşte funcţia de repartiţie a lui X.
fX se numeşte densitatea marginală a lui X, iar repartiţia asociată FX , repartiţia
marginală a lui X. Analog, definim densitatea marginală fY , respectiv repartiţia marginală
FY :
Z ∞
fY (y) = fX,Y (x, y) dx (6.7)
−∞
Z y Z y Z ∞
FY (y) = fY (y) dy = fX,Y (x, y) dx dy (6.8)
−∞ −∞ −∞
c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
5
F (x1 , x2 , . . . , xn ) = P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn )
R x1 R xn (6.9)
= −∞
··· −∞
f (x1 , . . . xn ) dx1 · · · dxn
• Dacă (X, Y ) este un vector aleator având densitatea de probabilitate fX,Y şi g :
2
R → R este o funcţie continuă atunci Z = g(X, Y ) este o variabilă aleatoare, şi dacă ı̂n
plus funcţia produs |gf | este integrabilă pe R2 , atunci, v.a. Z are valoare medie şi:
M (g(X, Y )) =
Z ∞Z ∞
g(x, y)f (x, y) dx dy (6.10)
−∞ −∞
Proprietate. M (X + Y ) = M (X) + M (Y ).
Demonstraţie:
R∞ R∞
M (X + Y ) = −∞ −∞
(x + y)f (x, y) dx dy
R∞ R∞ R∞ R∞
= −∞ −∞
xf (x, y) dxdy + −∞ −∞
yf (x, y)dxdy
Z ∞ Z ∞
R∞ R∞
= −∞
x f (x, y) dy dx + −∞
y f (x, y) dx dy
−∞ −∞
| {z } | {z }
fX (x) fY (y)
R∞ R∞
= −∞
xfX (x) dx + −∞
yfY (y) dy = M (X) + M (Y )
Generalizând avem că media unei combinaţii liniare cu coeficienţi reali a n variabile
aleatore este combinaţia liniară cu aceeaşi coeficienţi a mediilor variabilelor:
x2
(0; x2 ) (1 x2 ; x2 )
(x 1 ; 1 x1 )
x1
(x1 ; 0)
Fig.6.4: Distribuţia de probabilitate a vectorului aleator din Exemplul 2 este nenulă pe domeniul
triunghiular haşurat.
24x1 x2 dacă x1 > 0, x2 > 0, 0 < x1 + x2 < 1
f (x1 , x2 ) =
0 ı̂n rest
a) Să se determine densităţile de probabilitate marginale fX1 şi fX2 ;
b) Să se calculeze media variabilei aleatoare Z = 2.5 − 2(X1 + X2 )
Rezolvare: Densitatea de probabilitate a vectorului aleator (X1 , X2 ) este nenulă ı̂n dome-
niul triunghiular, haşurat R ∞ ı̂n Fig.6.4. a)RPentru x1 ∈ (0, 1), densitatea de probabilitate a
1−x1
v.a. X1 este fX1 (x1 ) = −∞ f (x1 , t)dt = 0 24x1 tdt = 12x1 (1−x1 )2 (integrala s-a calcu-
lat pe ”un Rinterval vertical” Rilustrat ı̂n Fig.6.4), şi fX1 (x1 ) = 0 ı̂n rest. Pentru x2 ∈ (0, 1),
∞ 1−x
fX2 (x2 ) = −∞ f (t, x2 )dt = 0 2 24tx2 dt = 12x2 (1 − x2 )2 (integrala s-a calculat pe ”un
interval orizontal” ilustrat ı̂n Fig.6.4) şi fX2 (x2 ) = 0 ı̂n rest.
b)
R ∞Valoarea medie a Rvariabilei Z este M (Z) = 2.5 − 2(M R (X1 ) + M (X2 )). Dar M (X1 ) =
R1
1 2 2 ∞
−∞
x 1 fX 1 (x 1 )dx 1 = 0
12x 1 (1 − x 1 ) dx 1 , iar M (X 2 ) = −∞
x 2 fX 2 (x 2 )dx 2 = 0
12x22 (1 −
x2 )2 dx2 .
notaţie
P ((X1 ≤ x1 ) ∩ (X2 ≤ x2 ) ∩ . . . ∩ (Xn ≤ xn )) =
= P (X1 ≤ x1 , X2 ≤ x2 , . . . , Xn ≤ xn ) =
= P (X1 ≤ x1 )P (X2 ≤ x2 ) · · · P (Xn ≤ xn ), (6.13)
ceea ce este echivalent cu faptul că funcţia de repartiţie a vectorului aleator (X1 , X2 , . . . , Xn )
este produsul funcţiilor de repartiţie marginale:
Se poate demonstra că varibilele aleatoare X1 , X2 , . . . , Xn sunt independente dacă şi numai
dacă oricare ar fi intervalele I1 , I2 , . . . In ⊂ R avem că:
În practică se consideră cazul ı̂n care repartiţiile sunt definite de densităţi de probabilitate.
Propoziţia 6.1.1 Variabilele aleatoare X, Y sunt independente dacă şi numai dacă den-
sitatea de probabilitate a vectorului aleator (X, Y ) este produsul densităţilor v.a. X, Y .
Z x Z y Z x Z y Z x Z y
f (x, y)dx dy = fX (x) dx fY (y) dy = fX (x) fY (y) dx dy
−∞ −∞ −∞ −∞ −∞ −∞
∀ x, y ∈ R, adică:
Z ∞
−x/2 −y)/2 −x/2 −y/2 lim
fX (x) = (1/8)x e e dy = (1/8)x e [−2e ] y=0y→∞
0
= (1/4))x e−x/2 , ∀ x > 0, (6.17)
8 c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
Evident că fX,Y (x, y) = fX (x)fY (y), ∀x, y ∈ R şi deci variabilele X şi Y sunt indepen-
dente.
Propoziţia 6.1.2 Fie (X, Y ) un vector aleator de densitate de probabilitate fX,Y şi fX , fY
densităţile sale marginale.
1. Dacă fY (y0 ) 6= 0, atunci funcţia notată:
fXY (x, y0 )
g(x|y0 ) =
fY (y0 )
este o densitate de probabilitate şi o variabilă aleatoare ce are această densitate se notează
(X|Y = y0 ) şi se numeşte variabila aleatoare X condiţionată de evenimentul (Y = y0 ).
2. Dacă fX (x0 ) 6= 0, atunci funcţia notată:
fXY (x0 , y)
h(y|x0 ) =
fX (x0 )
este o densitate de probabilitate şi o variabilă aleatoare ce are această densitate se notează
(Y |X = y0 ) şi se numeşte variabila aleatoare Y condiţionată de evenimentul (X = x0 ).
Să stabilim relaţia dintre densitatea variabilei condiţionate de o alta variabilă şi den-
sitatea variabilei ce se condiţionează, ı̂n cazul ı̂n care cele două sunt independente. Am
arătat că variabilele aleatoare X, Y sunt independente dacă şi numai dacă
fX (x)fY (y)
În acest caz g(x|y) = = fX (x) şi analog h(y|x) = fY (y), ∀x, y ∈ R. Cu
fY (y)
alte cuvinte, dacă v.a. X, Y sunt independente, cunoaşterea valorii x a lui X, obţinută
printr-o observaţie, măsurare, etc, nu afectează ı̂n nici un fel distribuţia de probabilitate
a lui Y .
y
(x; 1)
(1; 1)
(x; x)
(0; y ) (y; y )
Fig.6.5: Densitatea de probabilitate a vectorului aleator din Exemplul 4 este nenulă pe domeniul
triunghiular haşurat.
fX,Y (0.25, y) 1
h(y|0.25) = = = 1.33, pentru y ∈ (0.25, 1)
fX (0.25) 0.75
10 c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
2. h este strict descrescătoare. În acest caz se exprimă evenimentele (Xi ≥ h−1 (yi )) =
∁(X < h−1 (yi )) şi se exploatează faptul că dacă n evenimente sunt independente atunci
şi opusele lor sunt independente.
Dacă v.a. X şi Y sunt independente, atunci, cov(X, Y ) = 0 şi deci σ 2 (X + Y ) = σ 2 (X) +
σ 2 (Y )
Ţinând seama că σ 2 (aX) = a2 σ 2 (X), ∀ a ∈ R, putem generaliza rezultatul de mai sus la:
Propoziţia 6.2.4 Dacă X1 , X2 , . . . , Xn sunt v.a. independente atunci:
∀ai ∈ R, i = 1, n.
Deoarece covarianţa a două v.a. este un număr real, definim o altă măsură a dependenţei
lor, numită coeficient de corelaţie, care ia valori ı̂ntr-un interval mărginit.
−1 ≤ ρ(X, Y ) ≤ 1. (6.30)
c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
13
Observăm că pentru două variabile aleatoare independente, coeficientul de corelaţie este
0. Este natural să ne ı̂ntrebăm ı̂n ce caz coeficientul de corelaţie a două variabile aleatoare
ia valorile extreme ±1. Răspunsul este dat de:
Propoziţia 6.2.6 Dacă ı̂ntre variabilele X şi Y există o relaţie liniară de forma Y =
aX +b, a, b ∈ R, a 6= 0, atunci coeficientul de corelaţie al v.a. X,Y este ±1, şi anume dacă
a > 0, ρ(X, Y ) = 1, iar dacă a < 0, ρ(X, Y ) = −1. Reciproc, dacă modulul coeficientul
de corelaţie a două variabile aleatoare X, Y este 1 atunci ı̂ntre ele există o relaţie liniară:
Y = aX + b.
Pe de altă parte, σ 2 (aX + b) = a2 σ 2 (X) şi deci σ(aX + b) = |a|σ(X). Rezultă, atunci că:
aσ 2 (X) a
ρ(X, Y ) = 2
= . (6.33)
|a|σ (X) |a|
Prin urmare, pentru a > 0, ρ(X, Y ) = 1, iar pentru a < 0, ρ(X, Y ) = −1.
Reciproc, considerăm funcţia g(a, b) = M [(Y − aX − b)2 ] (variabilele aleatoare X
şi Y sunt fixate) şi să determinăm a, b astfel ı̂ncât g să fie minimă, adică determinăm
parametrii a, b astfel ı̂ncât media abaterii la pătrat a lui Y , faţa de o funcţie liniară de X
să fie minimă.
Pentru a arăta că funcţia g are un minim global o descompunem astfel:
Dar cum prin ipoteză corelaţia ρ(X, Y ) = ±1, avem că g(a0 , b0 ) = M [(Y −a0 X −b0 )2 ] = 0.
Deoarece variabila (Y − a0 X − b0 )2 este pozitivă, media sa este zero dacă şi numai dacă
Y − a0 X − b0 = 0 sau echivalent Y = a0 X + b0 .
În concluzie:
• când coeficientul de corelaţie a două variabile aleatoare este ı̂n valoare absolută
apropiat de zero, variabilele sunt slab corelate (intensitatea legăturii dintre ele este re-
dusă);
• dacă valoarea absolută a coeficientului de corelaţie este apropiată de 1, atunci relaţia
dintre v.a. este ”aproape liniară”, adică valorile (x, y) ale vectorului aleator (X, Y ) sunt
uşor dispersate ı̂n jurul unei drepte de ecuaţie y = ax + b.
• Un vector aleator (X, Y ) ce are modulul coeficientului de corelaţie apropiat de 1,
adica |ρ(X, Y )| = 1 − ǫ, cu ǫ foarte mic, are valorile de observaţie (x, y) legate printr-o
relaţie de forma y = ax + b + N , unde N este o variabilă aleatoare de medie 0 şi dispersie
redusă, independentă de X. Variabila N este numită ı̂n inginerie zgomot (numele, N, vine
de la noise=zgomot) (mai multe detalii despre distribuţia de probabilitate a zgomotului ı̂n
cursul 13, relativ la regresia liniară). Dispersia redusă a zgomotului asigură ı̂mprăstierea
redusă a valorilor de observaţie asupra vectorului (X, Y ) ı̂n jurul dreptei y = ax + b
(Fig.6.6)
În Fig.6.6 se remarcă ı̂mprăştierea mai mare a punctelor ı̂n jurul dreptei când zgomotul
are dispersie mai mare (0.52 > 0.22 ).
Ceea ce am studiat relativ la dependenţa variabilelor aleatoare constituie aspectul
teoretic al problemei. În practica experimentală, se ı̂nregistrează valorile de observaţie
asupra unui vector aleator (X, Y ), se vizualizează norul de puncte (ca ı̂n Fig.6.6). Apriori
nu se cunoaşte intensitatea legăturii dintre cele două variabile. Din punctele (xi , yi ),
i = 1, n, ı̂nregistrate se estimează panta a şi cota b a dreptei y = ax + b ce ”se potriveşte”
cel mai bine datelor. Apoi se decide dacă abaterea punctelor de la dreapta y = ax + b
este rezonabilă sau nu (această problematică va fi abordată ı̂n cursul 13).
Exemplul 5. Fie X o variabilă aleatoare ce are media M (X) = 3 şi dispersia σ 2 (X) = 1,
iar Y = −2X + 5.
Să se calculeze covarianţa şi coeficientul de corelaţie a variabilelor X, Y .
c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
15
10
7 y = 2x + 1 + N
σ(N ) = 0.2
4
y
1
−2
−5
−3 −1.5 0 1.5 3
x
10
7 y = −1.5x + 2 + N
σ(N ) = 0.5
4
y
1
−2
−5
−3 −1.5 0 1.5 3
x
Fig.6.6: Valori de observaţie (x, y) asupra vectorului aleator (X, Y ) legate prin relaţia aproape
liniară y = ax + b + N . Abaterea de la liniaritate este determinată de un zgomot N de abatere
standard σ, redusă . Valorile de observaţie sunt marcate cu albastru, iar dreapta de ecuaţie
y = ax + b este vizualizată ı̂n roşu.
Rezolvare: Deoarece ı̂ntre X şi Y există o relaţie liniară, coeficientul de corelaţie este:
ρ(X, Y ) = −1
Dar cum
cov(X, Y )
ρ(X, Y ) =
σ(X) σ(Y )
calculând σ 2 (Y ) = σ 2 (−2X + 5) = 4σ 2 (X) = 4, rezultă că:
cov(X, Y )
−1 =
2
adică cov(X, Y ) = −2.
Observaţia 6.2.3 Covarianţa şi coeficientul de corelaţie se definesc nu numai pentru v.a.
continue ci şi pentru v.a. discrete. Toate proprietăţile enunţate mai sus sunt valabile, doar
că ı̂n demonstraţii ı̂n locul integralelor avem sume.
16 c E. Petrişor, 2008
Cursul 6, Probabilităţi şi Statistică ı̂n CS
Probleme de antrenamnet
2. Timpii de viaţa a doi tranzistori ı̂ntr-un circuit electronic sunt daţi de coordonatele
vectorului aleator (X, Y ) ce are densitatea de probabilitate:
−(x+2y)
2e dacă x ≥ 0, y ≥ 0
fX,Y =
0 ı̂n rest
Să se calculeze M (X + Y ).
3. Fie (X, Y ) un vector aleator ce are densitatea de probabilitate fX,Y . Să se exprime
modul de calcul al probabilitătilor evenimentelor A, B, A ∪ B ∪ C cu ajutorul densităţii,
ştiind că evenimentele sunt: