Sunteți pe pagina 1din 49

Statistica computat, ională

masterat

Tema 1. Principalele repartit, ii clasice

Titularul cursului: conf. univ. dr. Marusic Galina


STATISTICA COMPUTAŢIONALĂ

Facultatea Calculatoare, Informatică şi Microelectronică


Ciclul de studii II, studii superioare de master
Programul de master Tehnologii Informaţionale;
Managementul Aplicaţiilor Informaţionale

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 2 / 49


Statistica computaţională:
• interfat, a dintre statistici s, i informatică;
• domeniul s, tiint, ei computat, ionale privind s, tiint, a matemaică a statisticilor;
• se află în curs de dezvoltare.

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 3 / 49


Obiectivul general: însuşirea celor mai importante metode de calcul utilizate în Statistica
Matematică.
Obiectivele specifice:
• Cunoaşterea metodelor computationale moderne folosite în statistici, în special metode
de simulare, estimare s, i vizualizare a datelor statistice;
• Înţelegerea rolului calcului computational ca un instrument de analiză statistică a datelor;
• Aplicarea în mod corespunzător metodologiilor computat, ionale în rezolvarea problemelor
de statistică;
• Rezolvarea problemelor economice şi inginereşti folosind metode matematice, metode
statistice şi tehnici informatice;
• Aprofundarea şi aplicarea cunoştinţelor la identificarea şi analiza tendinţelor de
dezvoltare, a metodelor de procesare, de modelare şi de utilizare a aplicaţiilor din
domeniul informaticii aplicate;
• Analiza cerinţelor pieţei şi tendinţelor contemporane privind dezvoltarea produselor soft
din domeniul informaticii aplicate. UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 4 / 49


Statistica:
• o ştiinţă care cu ajutorul teoriei probabilităţilor studiază fenomenele şi procesele din
societate, natură etc. din punct de vedere cantitativ în scopul descrierii acestora şi al
descoperirii legilor care guvernează act, iunea lor;
• obţine informaţii relevante din datele disponibile într-un volum suficient de mare;
• oferă suport pentru fizică, biologie, psihologie, economie, sociologie etc.
• este foarte utilă atunci când relaţiile deterministe referitoare la evenimentul studiat sunt
imposibil ori foarte dificil de aflat;
• o parte matematică a ştiinţei ce se referă la colectarea, interpretarea/explicarea şi
prezentarea datelor.

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 5 / 49


Principalele distribut, ii (repartiţii) clasice şi modelarea lor
matematică

Legi clasice de probabilitate (repartiţii) ale variabilelor aleatoare discrete:

• Repartiţia binomială;
• Repartiţia hipergeometrică;
• Repartiţia geometrică;
• Repartiţia binomială cu exponent negativ;
• Repartiţia multinomială;
• Repartiţia Poisson.

Cristian Niculescu, Probabilităţi şi statistică, pag. 33 - 47


UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 6 / 49


Repartiţia binomială
• repartit, ie discretă;
• are loc atunci când efectuăm un experiment de succes / es, ec de n ori cu probabilitatea p
pentru succes.
• Fie avem făcută o succesiune de n probe Bernoulli. Vom examina repartit, ia unei variabile
aleatoare X , care reprezentâ numărul de succese din succesiunea de n probe Bernoulli
s, i este o variabila aleatoare discretă care ia valorile 0, 1, 2,. . . ,n.
Funct, ia masă de probabilitate (probabilitatea de a avea k succese în n probe)
p X (k ) = Cnk pk qn − k
unde:
n!
Cnk =
k!(n − k )!
este numărul de moduri în care k succese se pot întâmpla în n probe;

pk qn − k
UTM
este probabilitatea asociată cu fiecare mod
Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 7 / 49
Repartiţia binomială (continuare)

• O variabilă aleatoare X având repartit, ie binomială se notează

X ∼ B(n, p)

• Media lui X
m X = np
• Variant, a sau dispersia lui X
σX2 = npq

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 8 / 49


Exemplu

Se aruncă un zar corect de 10 ori. Fie X numărul de apariţii ale feţei 6. Să se calculeze:

• P ( X = 2)
• P ( X ≥ 3)
• P (3 < X < 5)
• P ( X ≤ 8)
• m X - media lui X
• σX2 - dispersia lui X

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 9 / 49


Rezolvare
1
X ∼ B(10, )
6
în limbajul R vom folosi funct, iile dbinom s, i pbinom

• P( X = 2) = p X (2) = C1 20 ( 16 )2 ( 56 )10 − 2 ≈ 0.29071

• P( X ≥ 3) = 1 − P( X ≤ 2) = 1 − FX (2) ≈ 0.2247732

• P(3 < X < 5) = P( X = 4) = C1 40 ( 16 )4 ( 65 )10 − 4 ≈ 0.05426588

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 10 / 49


Rezolvare (continuare)

• P( X ≤ 8) = FX (8) ≈ 0.9999992

• E( X ) = 10 · 1 5
6 = 3

• σX2 = 10 · 16 · 5
6

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 11 / 49


Repartiţia hipergeometrică
Fie Z – o variabilă aleatoare care reprezintă numărul de bile negre care sunt extrase când un
es, antion de m bile este extras (fară revenire) dintr-un lot de n bile, unde: n1 bile negre, n2 bile
albe,
( n1 + n2 = n )
.
• Funct, ia masă de probabilitate a variabilei aleatoare Z:
Cn 1k · Cn − n 1m − k
p Z (k) = k = 0, 1, ..., min(n1 , m)
Cnm
• Media lui Z:
mn1
mZ =
n
• Variant, a sau dispersia lui Z:
mn1 (n − n1 )(n − m)
σZ2 =
n2 ( n − 1) UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 12 / 49


Exemplu
În rezultatul evaluării s-a depistat că într-o gramadă de 100 de mere, 10 sunt stricate. Se aleg
3 mere la întâmplare. Fie Z numărul de mere stricate extrase. Să se calculeze:
• P ( Z = 2)
• P ( Z ≥ 3)
• media lui Z
• dispersia lui Z.

Rezolvare: Z are repartit, ie hipergeometrică, m = 10, n = 90, k = 3

C1 20 ·C9 30 − 2 45·90
• P ( Z = 2) = p Z (2) = = ≈ 0.02504638
C10 30 161700

• P( Z ≥ 3) = 1 − P( Z ≤ 2) = 1 − FZ (2) ≈ 0.000742115
UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 13 / 49


Rezolvare (continuare)

P( Z ≥ 3) poate fi calculată s, i în modul următor:

• P( Z ≥ 3) = P( Z = 3) = p Z (3) ≈ 0.000742115

• media lui Z : 3·10


mZ = 10+90 = 0.3

3·10·90(10+90−3)
• dispersia lui Z: σZ2 = (10+90)2 (10+90−1)
≈ 0.2645455

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 14 / 49


Repartiţia geometrică

Fie X – o variabilă aleatoare discretă, având ca valori toate numerele naturale s, i care
reprezintă numarul de probe Bernoulli până la (s, i incluzând) prima aparit, ie a succesului.
• Funct, ia masă de probabilitate a variabilei X :
∩ ... ∩ F} ∩S) = P( F ) P( F )...P( F ) ∩ P(S) = qk p = p(1 − p)k
px (k ) = P(|F ∩ F {z
| {z }
k k

k = 1, 2, ...

• Media lui X :
∞ ∞ ∞
1− p
E( X ) = ∑ kqk p = p( ∑ (k + 1)qk − ∑ qk ) = p
k =0 k =0 k =0

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 15 / 49


Repartiţia geometrică (continuare)

• Dispersia lui X :

Exemplu: Se aruncă un zar corect. Fie X numărul de aruncări până la (exclusiv) prima
aparit, ie a lui 6. Să se calculeze:

• P ( X = 2)
• P ( X ≥ 3)
• P (3 < X ≤ 5)
• P ( X < 8)
• media lui X
• dispersia lui X

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 16 / 49


Rezolvare
1
Rezolvare: X are repartit, ie geometrică cu parametrul p =
6
• P( X = 2) = p X (2) = ( 56 )2 · 1
6 = 25
216 ≈ 0.1157407

125
• P( X ≥ 3) = 1 − P( X ≤ 2) = 1 − FX (2) = 1 − (1 − (1 − 16 )2 + 1 ) = ( 56 )3 = ≈
216
0.5787037

• P(3 < X ≤ 5) = P( X ≤ 5) − P( X ≤ 3) = FX (5) − FX (3) ≈ 0.1473551

• P( X < 8) = P( X ≤ 7) = FX (7) ≈ 0.767432


UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 17 / 49


Rezolvare (continuare)

1− 61
• media lui X : E( X ) = 1
6

1− 16
• dispersia lui X : σX2 = ( 16 )2

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 18 / 49


Repartiţia binomială cu exponent negativ

Fie X – o variabilă aleatoare care reprezintă numarul de probe Bernoulli necesare pentru
aparit, ia celui de-al r-lea succes (este dat).

• Funct, ia masă de probabilitate a variabilei X :

p X (k ) = Ckr− 1 r k −r
−1 p q , k = r, r + 1, ...

• Media lui X :
r
mX = −r
p
• Dispersia lui X :
r (1 − p )
σX2 =
p2

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 19 / 49


Exemplu

Se aruncă un zar corect. Fie Y numărul de aruncări diferite de 6 până la a treia aparit, ie a lui 6.
Să se calculeze :

• P (Y = 2 )
• P (Y ≥ 3 )
• P (3 ≤ Y < 5)
• P (Y < 8 )
• media lui Y
• dispersia lui Y

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 20 / 49


Rezolvare

1
Y ∼ NB(3, )
6

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 21 / 49


Rezolvare (continuare)

Deoarece P(Y ≥ 3) = 1 − FY (2), în R această valoare se obt, ine:

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 22 / 49


Rezolvare (continuare)

3
mY = 1 − 3 = 15
6
3(1− 16 )
σY2 = ( 16 )2
= 90

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 23 / 49


Repartiţia multinomială

Fie Xi - variabila aleatoare, i = 1, 2, ..., r reprezinta numărul de Ei într-o succesiune de n


probe, iar Ei - probele Bernoulli efectuate.

• Funct, ia masă de probabilitate comună a lui X1 , X2 , .., Xr :

n!
p X1 X2 ...Xr (k1 , k2 , ...kr ) = pk1 pk2 ...prkr
k1 !k2 !...kr ! 1 2
unde k j = 0, 1, 2...; j = 1, 2, ..., r; şi k1 + k2 + ... + k r = n

• Media lui: m Xi = npi

• Dispersia lui: σX2 = np1 (1 − pi )


i

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 24 / 49


Exemplu

Se aruncă un zar corect de 10 ori. Aflat, i probabilitatea ca să obt, inem de i ori i, pentru
i ∈ 1, 2, 3, 4 s, i niciodată 5 sau 6. Fie Xi numărul de aparit, ii ale lui i în 10 aruncări,

• Avem o repartit, ie multinominală cu r = 6, n = 10, pi = 61 , ∀i ∈ 1, 2, ..., 6


• Probabilitatea este

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 25 / 49


Repartiţia Poisson
Considerăm problema sosirii pasagerilor la o stat, ie de autobuz într-un interval de timp
specificat. Fie X (0; t) - numărul de sosiri din intervalul de timp [0; t); X (0; t) - o variabilă
aleatoare discretă luând valori posibile 0, 1, 2, ..., iar repartit, ia ei depinde de t.
• Variabila aleatoare X este repartizată Poisson de parametru λ (λ > 0) dacă are masa de
probabilitate:
λk e−λ
p x (k) = ,k ∈ N
k!
• Media lui X (0; t):
∞ ∞ ∞
kλk λ k −1
E( X (0, t)) = ∑ kpk (0, t) = e−λ ∑ k!
= λe−λ ∑
( k − 1 ) !
= λe−λ eλ = λ
k =0 k =0 k =0

• Dispersia lui X (0; t):

σX2 (0,t) = E( X 2 (0, t)) − [ E( X (0, t))]2 = λ


UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 26 / 49


Exemplu

Fie X repartizată Poisson de parametru λ, unde λ = 9.


Să se calculeze: P( X = 2), P( X ≥ 3), media s, i dispersia lui X.

Rezolvare

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 27 / 49


Principalele distribut, ii (repartiţii) clasice

Legi clasice de probabilitate (repartiţii) ale variabilelor aleatoare continue:


• Repartiţia uniformă
• Repartiţia Gaussiană sau normală.
• Repartiţia lognormală
• Repartiţia gamma
• Repartiţia beta

Cristian Niculescu, Probabilităţi şi statistică, pag. 48 - 73

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 28 / 49


Repartiţia uniformă

Fie X - o variabilă aleatoare continuă, care are repartit, ie uniformă pe un interval de la a la b


(b > a), (este egal probabil să ia orice valoare din acest interval).

• Funct, ia de repartit, ie:



0,
 dacă x < a;
x−a
FX ( x ) = , dacă x ∈ [ a, b]
 b− a
1, dacă x > b

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 29 / 49


Reprezentarea grafică a funct, iei de repartit, ie

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 30 / 49


Repartiţia uniformă

• Densitatea lui X: (
1
b− a , dacă x ∈ [ a, b],
f X (x) =
0, altfel
• Media lui X :

Z∞ Za Zb Z∞
x x2
mX = x f X ( x )dx = 0dx + dx + 0dx = 0 + |b + 0 =
b−a 2( b − a ) a
−∞ −∞ a b

b2 − a2 a+b
= =
2( b − a ) 2

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 31 / 49


Repartiţia uniformă

• Dispersia lui X :

Z∞ Za Zb Z∞
1
σX2 = 2
( x − m X ) f X ( x )dx = 0dx + 2
( x − m X ) dx + 0dx =
b−a
−∞ −∞ a b

˙ X )3
1 (x − m ( b − m X )3 − ( a − m X )3
= 0+ |ba + 0 =
b−a 3 3( b − a )
(b − a)[(b − m x )2 + (b − m X )( a − m X ) + ( a − mX )2
=
3( b − a )
1 b−a 2 b−a 2 b−a 2 ( b − a )2
= [( ) −( ) +( ) ]=
3 2 2 2 12
UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 32 / 49


Exemplu

Fie X repartizată uniform pe intervalul [0,10]. Să se calculeze:


• P ( X = 2)
• f X (2)
• P ( X ≥ 3)
• P (3 < X ≤ 5)
• P ( X < 8)
• media lui X
• dispersia lui X

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 33 / 49


Rezolvare

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 34 / 49


Rezolvare (continuare)

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 35 / 49


Repartiţia Gaussiană sau normală
• Cea mai importanta repartit, ie în teorie s, i practică.
• Fie X – o variabilă aleatoare. X ∼ N (m, σ2 ).
• Densitatea de repartit, ie:

( x − m )2
 
1
f x (x) = √ exp − , −∞ < x < ∞; m > 0; σ > 0
σ 2π 2σ2
• Funct, ia de repartit, ie:

( u − m )2
Z x  
1
Fx ( x ) = √ exp − du, −∞ < x < ∞; m > 0; σ > 0
σ 2π −∞ 2σ2
• Calcul de probabilităt, i:

( x − m )2
Z b  
1
P( a < X ≤ b) = √ exp − dx = FX (b) − FX ( a), a, b ∈ R; a < b
σ 2π a 2σ2 UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 36 / 49


Repartiţia Gaussiană sau normală (continuare)
• Media lui X :

• Dispersia lui X :

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 37 / 49


Exemplu

Fie X ∼ N (3, 9).


Să se calculeze P(−3 < X ≤ 6).

Rezolvare:

P(−3 < X ≤ 6) = FX (6) − FX (−3) = 0.8185946

În limbajul R:

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 38 / 49


Repartiţia lognormală

Vom considera Y = X1 X2 ...Xn Vom determina repartit, ia lui Y când n devine mare, iar
variabilele aleatoare X j , j = 1, 2, ..., n pot lua numai valori pozitive.

Variabila aleatoare Y = e X are repartit, ie lognormală dacă X este o variabilă aleatoare cu


repartit, ie normală.

• Funct, ia de repartit, ie:

ln y − ln θY
  
1 y
FY (y) = FU ( ) = FU ln , y>0
σ ln Y σ ln Y θY

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 39 / 49


Repartiţia lognormală

• Densitatea lui Y:
( 1√
yσX 2π
exp[− 2σ12 (ln y − m X )2 ], pentru y > 0
f Y (y) = X
0, altfel

parametrii m X şi σX care apar în densitatea lui Z sunt media şi deviaţia standard a lui X,
sau ln Y , dar nu ale lui Y
• Deviaţia standard a lui Y: σX = σlnY unde medianele lui X şi Y sunt notate cu θ X ,
respectiv θY .
În termeni de θY şi σln Y , media şi dispersia lui Y sunt:
σ2
• mY = θY exp( ln2 Y )
• σY2 = mY2 [exp(σln
2 ) − 1]
Y
UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 40 / 49


Exemplu

Fie Y repartizată lognormal


X = ln Y ∼ N (3, 1)
Să se calculeze:
• f Y (2)
• P (Y ≥ 3 )
• P (3 < Y < 5)
• P (Y ≤ 8 )
• media lui Y
• dispersia lui Y

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 41 / 49


Rezolvare

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 42 / 49


Rezolvare (continuare)

• σY2 = mY2 [exp(σln


2 ) − 1] = exp (7)[ exp (1) − 1] = exp (8) − exp (7)
Y

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 43 / 49


Repartiţia gamma
Fie X - o variabilă aleatoare
• Funct, ia de repartit, ie a lui X :

• Densitatea: (
λη η −1 −λx
Γ(η )
x e , pentru x>0
f X (x) =
0, altfel
• Media şi dispersia variabilei aleatoare gamma repartizate X sunt:

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 44 / 49


Exemplu

Fie X repartizată gamma de parametri η = 2, λ = 1 Să se calculeze:

• f X (2)
• P ( X ≥ 3)
• P (3 ≤ X < 5)
• P ( X < 8)
• media lui X
• dispersia lui X

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 45 / 49


Rezolvare

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 46 / 49


Rezolvare (continuare)

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 47 / 49


Repartiţia beta
Numele repartit, iei vine de la funct, ia beta, definită ca:

• Densitatea:
( α + β − 1 ) ! α −1
f X (x) = x (1 − x ) β −1 , α, β ∈ N ∗ , 0 < x < 1
( α − 1) ! ( β − 1) !

• Funct, ia de repartit, ie pentru α, β ∈ N ∗ :



0,
 pentru x ≤ 0,
Γ ( α + β ) R x α −1 − 1
FX ( x ) = Γ(α)Γ( β) 0 u (1 − u) du, pentru 0 < x < 1
β

pentru x ≥ 1 UTM

1,
Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 48 / 49
Exemplu
Fie X repartizată beta, α = 2, β = 1. Să se calculeze:
• f X (0.5)
• P( X ≥ 0.5)
• media lui X
• dispersia lui X
Rezolvare: Fie Y repartizată binomial cu parametrii n = α + β − 2 = 2 + 1 − 2 = 1,
p = x = 0.5

UTM

Universitatea Tehnică a Moldovei Analiza statistică a datelor Chişinău 2021 49 / 49

S-ar putea să vă placă și