Documente Academic
Documente Profesional
Documente Cultură
Sibiu, 2015
Remus BUTĂNESCU-VOLANIN
Probabilități
și statist ică
matematică
cu aplicații în
economie
EDITURA UNIVERSITĂŢII „LUCIAN BLAGA”
SIBIU, 2015
Copertă şi tehnoredactare: Remus C-tin Butănescu-Volanin
Referenţi ştiinţifici:
Prof. dr. ec. Dr. H. C. Ioan Bogdan, Universitatea „Lucian Blaga” din
Sibiu & Universitatea Româno-Americană din Bucureşti
Prof. dr. ing. şi ec. Ioan Abrudan, Universitatea Tehnică din Cluj-Napoca
Prof. dr. ing. Călin Deneș, Universitatea „Lucian Blaga” din Sibiu
519.22.33
CUPRINS
1.1. Probabilităţi 9
5
3.5. Distribuţiile geometrice 127
6
PROBABILITĂŢI
ȘI
OPERAȚII CU
PROBABILITĂȚI
1.
OBIECTIVELE CAPITOLULUI
Obiectivul principal al acestui capitol este de a expune conceptele de bază folosite
în teoria probabilităţilor, ajutându-vă:
să înţelegeţi conceptul de probabilitate;
să rețineți diferitele modalități de cuantificare a probabilităților;
să deprindeţi operaţiile aditive şi multiplicative cu probabilităţi;
să înțelegeți teorema lui Bayes și să dobândiți abilitatea de a o folosi în
determinarea probabilităților „a posteriori”.
8
1.1. Probabilităţi
Probabilitatea este o măsură a posibilității ca un anumit eveniment să se
producă.
În expresie matematică, această măsură îmbracă forma unui număr care
aparține intervalului de variaţiei probabilistică [0, 1]. Cazurile extreme ale
variaţiei probabilistice sunt date de imposibilitate şi, respectiv, de
necesitate. Astfel, valoarea de 0 a probabilității matematice corespunde
evenimentelor imposibil să se producă, în timp ce probabilitatea de 1
caracterizează evenimentele necesare. O probabilitate foarte apropiată de 0
arată faptul că sunt șanse foarte mici ca evenimentul aflat în discuție să se
producă, așa cum o probabilitate foarte apropiată de 1 indică faptul că este
aproape sigur că acesta va avea loc.
Spațiile de selecție
Diferitele rezultate posibile ale unui experiment se numesc puncte de
selecție, iar acestea toate alcătuiesc împreună ceea ce se numește un spațiu
de selecție.
Să presupunem, de exemplu, experimentul observării profitabilității unei
companii într-un anumit an. În legătură cu acest experiment se pot considera
numeroase tipuri de spații de selecție. Dintre acestea să ne oprim asupra
unui spațiu cu doar două puncte de selecție, și anume: „compania a obținut
în anul respectiv profit” și „compania nu a obținut în anul considerat profit”.
Dacă experimentul ar fi constat în observarea profitabilității pe parcursul a
doi ani consecutivi, un spațiu de selecție ar putea fi compus din următoarele
4 puncte de selecție:
a) (anul 1 – profit, anul 2 – profit);
b) (anul 1 – profit, anul 2 – fără profit)
c) (anul 1 – fără profit, anul 2 – profit)
d) (anul 1 – fără profit, anul 2 – fără profit)
Diagrama Venn
În ce privește abordarea clasică a cuantificării probabilității asociate unui
eveniment, un instrument foarte util se poate dovedi diagrama Venn.
Pentru exemplificare, să considerăm că din totalul celor 267 angajaţi TESA
ai unei companii, 116 sunt ingineri (nI), 98 sunt economişti (nE) şi 14 sunt
şi ingineri şi economişti (nI si E). Folosind diagrama Venn din figura 1.1,
putem cuantifica probabilitatea ca la selectarea la întâmplare a unui angajat,
acesta să nu aibă pregătire inginerească sau economică. Pentru aceasta,
trebuie să determinăm mai întâi numărul angajaţilor care nu au pregătire
inginerească sau economică.
Aşa cum se poate vedea în diagrama Venn, numărul angajaţilor care sunt
ingineri fără a fi şi economişti este:
Aşadar, numărul angajaţilor care sunt ingineri, economişti sau ambele este:
11
Figura 1.1 Diagrama Venn
12
Așadar, probabilitatea ca angajatul selectat să aibă pregătire inginerească
(I) sau economică (E) se mai poate calcula astfel:
13
inginerescă și mulțimea angajaților cu altă pregătire în afara celei inginerești
sau economice nu au puncte de intersecție, i.e. I ∩ A = ).
Rezumând toate cele arătate, se poate enunța regula generală de adunare a
probabilităților de manifestare a două evenimente oarecare A și B:
14
Continuând același efort deductiv, se poate formula regula generală de
adunare a probabilităților pentru n evenimente oarecare (Ei , i = 1, 2 ...,
n}):
unde însumarea pentru i1 < i2 < ... < ir se face pentru toate combinările de n
luate câte r, posibile de format din cei r indici considerați din mulțimea de
indici 1, 2 ..., n}.
Probabilități condiționate
Să considerăm din nou exemplul prezentat cu ajutorul diagramei Venn din
figura 1.1 și să calculăm, de această dată, probabilitatea ca, în situația în
care după selectarea întâmplătoare a unui angajat se constată că acesta este
inginer, el să fie, de asemenea, și economist (P(E |I)). Întrucât numărul de
ingineri care sunt și economiști este de 14 (= număr de cazuri favorabile)
iar numărul total de ingineri este de 116 (= număr total de cazuri posibile),
se poate scrie, aplicând relația generală de cuantificare a probabilităților, că:
15
Reguli de înmulțire a probabilităților
Folosind relația generală de calcul a probabilității condiţionate a unui
eveniment B de către un eveniment A, se poate obține regula generală de
înmulțire a probabilităților pentru două evenimente A și B:
16
Dacă probabilitatea de manifestare a unui eveniment nu afectează
probabilitatea de apariție a unui alt eveniment, se spune că cele două
evenimente sunt independente. Dacă două evenimente A și B sunt
independente, atunci:
și
unde:
P(1a) reprezintă probabilitatea ca la prima extragere să apară o bilă albă;
P(2a) = probabilitatea ca la a doua extragere să apară o bilă albă;
P(2a|1a) = probabilitatea ca la a doua extragere să apară o bilă albă dacă
la prima extragere a apărut, de asemenea, o bilă albă. Această probabilitate
este egală cu 23 / 39, deoarece după extragerea unei bile albe, fără ca
aceasta să fie reintrodusă apoi în urnă, rămân în urnă doar 23 de bile albe
dintr-un total de 39 de bile albe și negre.
În cel de-al doilea caz, ca urmare a faptului că bilele sunt reintroduse în
urnă, probabilitatea de extragere a unei bile albe rămâne aceeași de la o
17
extragere la alta. Cele două evenimente sunt, așadar, independente, ceea ce
înseamnă că:
unde:
B’ reprezintă evenimentul complementar lui B, adică non-manifestarea
acestuia. Este evident că P(B) + P(B’) = 1.
18
Întrucât evenimentul A poate fi văzut ca o reuniune a evenimentelor A ∩ B
și A ∩ B’, înseamnă că:
19
Pe baza acestei relații se poate demonstra teorema lui Bayes*, teoremă
descoperită încă din secolul XVIII, și potrivit căreia:
unde:
r = 1, 2, ..., k.
Într-adevăr, pronind de la relația generală de calcul a unei probabilități
condiționate, se poate scrie:
*
Cf. Stephen M. STIGLER, Who Discovered Bayes's Theorem, The American Statistician, Vol. 37, No.
4, Part 1 (Nov. 1983), pp. 290-296, nu se poate ști cu siguranță dacă pastorul englez Thomas Bayes
(1702? - 1761) este într-adevăr cel care a descoperit primul această teoremă. Cu toate acestea, teorema
continuă să-i poarte numele...
20
Așadar, în condițiile în care se constată post-factum că investiția nu a fost
finalizată la termen, probabilitatea ca greva să fi avut loc este de 70%.
Pentru rezolvarea mai ușoară a unor astfel de probleme este utilă construirea
așa-numitului „arbore de probabilități”. Acesta este o reprezentare grafică
a evenimentelor problemei, împreună cu condiționările dintre ele și
probabilitățile asociate. În figura 1.2 este reprezentat un astfel de arbore de
probabilități pentru exemplul nostru.
21
Așadar, în condițiile în care se constată post-factum că investiția a fost
finalizată la termen, probabilitatea ca greva să fi avut loc este de 20%.
22
VARIABILE ALEATOARE
ȘI
FUNCȚII
PROBABILISTICE
2.
OBIECTIVELE CAPITOLULUI
să înțelegeți ce sunt variabilele aleatoare și să distingeți între variabilele
aleatoare discrete și cele continue;
să rețineți în ce constau funcțiile probabilistice asociate variabilelor aleatoare;
să înțelegeți ce este și cum se determină valoarea așteptată și, respectiv,
varianța unei variabile aleatoare, precum și relațiile de determinare a valorii
așteptate și varianței sumei și produsului unor variabile aleatoare;
să înțelegeți ce sunt și cum se determină momentele unei variabile aleatoare;
să rețineți cum se obține și cum se poate folosi funcția generatoare de momente
a unei variabile aleatoare.
24
2.1. Introducere: Ce sunt variabilele aleatoare?
O variabilă aleatoare (intâmplătoare) este o funcție reală definită pe
mulțimea evenimentelor elementare asociate unui experiment probabilistic.
Aceasta înseamnă că variabilele aleatoare* sunt variabile ale căror valori se
înregistrează probabilistic, adică fără a putea fi prezise cu certitudine.
Probabilitățile asociate valorilor posibile ale variabilelor aleatoare pot fi
descrise de diferite funcții probabilistice. De exemplu, o variabilă aleatoare
X este descrisă de o funcție de probabilitate uniformă dacă poate înregistra
echiprobabil (i.e. cu aceeași probabilitate) orice valoare dintr-un interval
[a, b] de valori.
Variabilele aleatoare se împart în variabile aleatoare discrete și continue.
O variabilă aleatoare discretă este o funcție discontinuă, ea putând înregistra
doar valori punctuale. De exemplu, pentru experimentul aruncării cu un zar
se poate considera variabila aleatoare discretă definită pe mulțimea
numerelor întregi de la 1 la 6, corespunzătoare celor 6 fețe ale zarului.
O variabilă aleatoare continuă poate înregistra un număr infinit de valori
nenumărabile x care aparțin unui interval cuprins între două puncte a şi b (a
< x < b). Ele se definesc în legătură cu măsurarea unor mărimi (precum
greutatea, lungimea, înălţimea, temperatura sau presiunea).
Orice funcție de variabile aleatoare este și ea o variabilă aleatoare.
*
În această lucrare, variabilele sunt notate cu litere mari. De regulă, acestea sunt litere de la sfârșitul
alfabetului.
25
2.2. Funcţiile probabilistice
Probabilitățile asociate variabilelor aleatoare pot fi descrise cu ajutorul
următoarelor tipuri de funcții:
a) Funcții de probabilitate. Aceste funcții descriu probabilitățile asociate
variabilelor aleatoare discrete, stabilind legătura dintre valorile punctuale pe
care le pot înregistra acestea și probabilitățile respective;
b) Funcții de densitate probabilistică. Ele descriu probabilitățile asociate
variabilelor aleatoare continue;
c) Funcții de distribuție probabilistică. Acestea descriu probabilitățile
cumulate până la o anumită valoare particulară pe care o poate înregistra
variabila considerată.
Toate aceste funcții probabilistice pot fi univariate (asociate unei singure
variabile aleatoare), bivariate (asociate la două variabile aleatoare,
considerate simultan) sau chiar multivariate (asociate la mai mult de două
variabile aleatoare, considerate simultan).
26
pentru x = 1, 2, 3, 4, 5, 6, 7.
Substituind cele 5 valori pe care le poate lua x obţinem:
27
Să determinăm acum o funcţie de probabilitate pentru variabila X a
numărului total de apariţii ale banului la realizarea experimentului care
constă în aruncarea de 5 ori a unei monede. Pentru aceasta, construim mai
întâi tabelul 2.1, care descrie elementele componente ale spaţiului de
probabilitate pentru acest experiment, la care sunt asociate probabilităţile
corespunzătoare şi valoarea x a variabilei numărului de apariţii ale banului.
Întrucât spaţiul de probabilitate este compus din 32 de elemente cu şanse
egale de manifestare, fiecare dintre aceste elemente are o probabilitate de
manifestare egală cu 1/32:
Tabelul 2.1
Elementul din Numărul de
spaţiul de apariţii ale banului Probabilitatea
probabilitate (x)
BBBBB 5
BBBBS 4
BBBSB 4
BBSBB 4
BSBBB 4
SBBBB 4
BBBSS 3
BBSBS 3
28
Tabelul 2.1 - continuare
BSBBS 3
SBBBS 3
BBSSB 3
BSBSB 3
SBBSB 3
BSSBB 3
SBSBB 3
SSBBB 3
BBSSS 2
BSBSS 2
SBBSS 2
BSSBS 2
SBSBS 2
29
Tabelul 2.1 - continuare
SSBBS 2
BSSSB 2
SBSSB 2
SSBSB 2
SSSBB 2
BSSSS 1
SBSSS 1
SSBSS 1
SSSBS 1
SSSSB 1
SSSSS 0
30
Se poate observa faptul că numărătorul fiecăreia dintre fracţiile care
determină probabilităţile de mai sus este egal cu numărul de combinări de 5
luate câte x.
Prin urmare, se poate presupune că o funcţie de probabilitate pentru
variabila numărului total de apariţii ale banului la realizarea experimentului
care constă în aruncarea de 5 ori a unei monede este:
unde x = 0, 1, 2, 3, 4 şi 5.
Întrucât numărul de combinări de 5 luate câte x este pozitiv pentru orice
valoare posibilă a lui x, înseamnă că este îndeplinită prima condiţie necesară
pentru ca această funcţie să poate fi o funcţie de probabilitate.
Cunoscând faptul că suma combinărilor de n luate cât x este egală cu 2n,
rezultă că şi cea de-a doua condiţie necesară pentru ca această funcţie să
poate fi o funcţie de probabilitate este îndeplinită:
31
Fiind îndeplinite ambele condiţii necesare, putem afirma că această funcţie
poate fi o funcţie de probabilitate pentru variabila aleatoare considerată.
32
Variabilele aleatoare ale sumei și produsului a două variabile aleatoare
discrete
Considerând simultan variabila aleatoare discretă X, care poate înregistra
valorile x DX, și variabila aleatoare discretă Y, care poate înregistra
valorile y DY, se pot defini variabilele aleatoare ale căror valori sunt
egale cu suma sau produsul tuturor perechilor de valori (x, y) (DX х
DY).
Funcția de probabilitate asociată fiecăreia dintre aceste variabile este
funcția bivariată de probabilitate a variabilelor X și Y.
33
Probabilitatea ca o variabilă X, a cărei funcţie de densitate probabilistică
este f (x), să înregistreze o valoare care aparţine unui interval [a, b] este
egală cu:
şi, de asemenea,
34
Cea de-a doua condiţie necesară îmbracă, pentru funcţia considerată, forma:
Asemănător,
35
Aşadar, rezultă că:
Figura 2.1
Aria de sub graficul funcţei reprezentată în figura 2.1 este egală, conform
celor obţinute mai sus, cu 1. Această valoare se poate obţine şi pe baza
observaţiei că sub graficul funcţiei se formează, împreună cu axele
sistemului de coordonate, două triunghiuri dreptunghice care au fiecare aria
egală cu (0,25 · 4) / 2 = 0,5 .
Să determinăm acum probabilitatea ca variabila X să înregistreze o valoare
oarecare din intervalul [2, 5]. Această probabilitate este:
36
f(2) = 0,125
Figura 2.2
37
Prin urmare, aria triunghiului dreptunghic haşurat din figura 2.2 este egală
cu (2 · 0,125) / 2 = 0,125 , ceea ce confirmă valoarea probabilităţii
căutate.
O familie de funcții cu aplicații importante în statistica probabilistică este
dată de relația:
unde:
α > 0;
β > 0.
Pentru a putea fi folosite în aceste aplicații, trebuie mai întâi definite valorile
lui k pentru care aceste funcții pot fi unele de densitate probabilistică.
Prima condițíe pentru ca aceste funcții să fie unele de densitate
probabilistică impune ca valoarea lui k să fie una pozitivă.
Cea de-a doua condiție îmbracă forma:
Valorile lui k pentru care este satisfăcută această condiție se pot obține
făcând substituția y = x / β.
Se poate scrie, astfel:
38
Ultima integrală obținută este însă chiar funcția gamma definită de
parametrul α, Γ (α).
Se obține, așadar, că:
unde:
α > 0;
β > 0.
Importanța deosebită a acestor funcții decurge din faptul că ele se constituie
ca și funcții de densitate probabilistică pentru orice variabilă aleatoare
distribuită după o distribuție probabilistică gamma.
O variabilă aleatoare este o variabilă aleatoare gamma dacă și numai dacă
funcția ei de densitate probabilistică este o funcție de densitate
probabilistică gamma.
În capitolul 4 vor fi prezentate cele mai importante distribuții probabilistice
gamma, precum și principalele lor caracteristici.
O altă familie de funcții cu aplicații importante în statistica probabilistică
este cea a funcțiilor beta, funcții aflate în strânsă legătură cu funcțiile
gamma, ele fiind descrise de relația generală:
unde:
39
x > 0;
y > 0.
O proprietate importantă a acestor funcții constă în faptul că ele pot fi
reprezentate și sub forma unor integrale. Una dintre aceste reprezentări este
dată de relația*:
unde:
x > 0;
y > 0.
Pe baza funcțiilor beta și ținând cont de cele două relații de mai sus, se
poate construi familia de funcții de densitate probabilistică beta:
unde:
α > 0;
β > 0.
Se poate observa destul de ușor faptul că cele două condiții necesare pentru
ca aceste funcții să poată juca rolul unor funcții de densitate probabilistică
sunt, într-adevăr, îndeplinite.
Astfel, aceste funcții iau valori mai mari sau egale cu zero, întrucât toți
termenii din care sunt compuse sunt egali sau mai mari decât zero.
În ce privește cea de-a doua condiție necesară, se verifică faptul că:
*
Demonstrația acestei relații depășește scopul lucrării de față.
40
O variabilă aleatoare este o variabilă aleatoare beta dacă și numai dacă
funcția ei de densitate probabilistică este o funcție de densitate
probabilistică beta. În capitolul 4 vor fi prezentate cele mai importante
caracteristici ale unei distribuții beta, precum și un caz particular important
de distribuție beta, i.e. distribuția beta uniformă (distribuția beta cu
parametrii α = 1 și β = 1).
41
Un exemplu de funcție care poate servi ca și funcție bivariată de densitate
probabilistică este:
42
unde:
f (x, y) reprezintă funcția bivariată de densitate probabilistică a variabilelor
X și Y;
g (x) este funcția univariată sau marginală de densitate probabilistică a
variabilei X;
h (y) este funcția univariată sau marginală de densitate probabilistică a
variabilei Y.
Revenind la exemplul nostru se obține că:
43
O proprietate importantă este cea conform căreia funcția bivariată de
densitate probabilistică a două variabile independente X și Y este egală cu
produsul funcțiilor univariate (sau marginale) de densitate probabilistică ale
celor două variabile:
44
Dacă X este o variabilă aleatoare continuă iar f (t) este valoarea pe care o
înregistrează funcția ei de densitate probabilistică pentru X = t, atunci
funcția dată de:
Mai mult, atunci când derivata lui F (x) există, este îndeplinită și condiția:
unde:
F (x, y) reprezintă funcția bivariată de distribuție probabilistică pentru
variabilele aleatoare X și Y;
F (x) = funcția univariată de distribuție probabilistică pentru variabila
aleatoare X;
45
F (y) = funcția univariată de distribuție probabilistică pentru variabila
aleatoare Y.
În paragraful 2.5 este exemplificată această proprietate pentru două
variabile aleatoare independente discrete.
unde:
E (x) este valoarea așteptată* a variabilei X;
D este domeniul de valori pe care le poate înregistra variabila X;
f (x) = funcția de probabilitate a variabilei aleatoare discrete X.
b) pentru variabile aleatoare continue:
unde:
f (x) este funcția de densitate probabilistică asociată variabilei aleatoare
continue X.
Pornind de la relațiile de mai sus, este ușor de observat faptul că valoarea
așteptată a unei constante (C) este egală cu acea constantă:
*
Întrucât valoarea așteptată este o medie aritmetică, o notație alternativă pentru această valoare este ,
simbolul mediei aritmetice. Litera E este folosită în statistica probabilistică deoarece ea este inițiala
denumirii în engleză a valorii așteptate, i.e. „Exprected value”.
46
Ținând cont de acest fapt se poate obține o proprietate importantă a valorii
așteptate, conform căreia:
unde:
A și B sunt două constante.
Relațiile de determinare a varianței unei variabile aleatoare sunt:
a) pentru variabile aleatoare discrete:
unde:
= E (X);
f (x) = funcția de probabilitate a variabilei aleatoare discrete X.
b) pentru variabile aleatoare continue:
unde:
= E (X);
f (x) este funcția de densitate probabilistică asociată variabilei aleatoare
continue X.
Varianța unei variabile aleatoare oarecare X se poate determina și cu
următoarea relație de calcul simplificat:
47
Varianța este echivalentă cu pătratul unei alte valori foarte importante în
statistica inferențială, i.e. abaterea standard * ( ) a variabilei considerate.
Acesta este motivul pentru care varianța unei variabile aleatoare X se mai
notează și cu (X).
2
*
Abaterea standard este media pătratică a abaterilor față de valoarea așteptată a tuturor valorilor
probabile pe care o variabilă le poate înregistra.
48
Această relație este demonstrată în paragraful 2.6 al acestui capitol.
Ținând cont de această relație și de proprietatea conform căreia valoarea
așteptată a produsului a două variabile aleatoare independente este egală cu
produsul valorilor așteptate ale acestora (a se vedea paragragul următor), se
obține că pentru două variabile aleatoare independente covarianța este nulă.
unde:
DX este domeniul de valori pe care le poate înregistra variabila X;
DY este domeniul de valori pe care le poate înregistra variabila Y;
49
f (x, y) = P (X = x, Y = y) reprezintă funcția bivariată de probabilitate a
celor două variabile, X și Y;
f (x) = P (X = x) reprezintă funcția univariată sau marginală de
probabilitate a variabilei X;
f (y) = P (Y = y) reprezintă funcția univariată sau marginală de
probabilitate a variabilei Y.
În demonstrația de mai sus au fost folosite relațiile existente între funcțiile
univariate sau marginale de probabilitate a variabilelor discrete X și Y și
funcția bivariată de probabilitate a acestora:
50
În demonstrația de mai sus au fost folosite relațiile existente între funcțiile
univariate sau marginale de probabilitate a variabilelor continue X și Y și
funcția bivariată de probabilitate a acestora:
unde:
C este o constantă;
E (C) = C este valoarea așteptată a constantei C.
Pentru a exemplifica proprietatea de liniaritate în cazul a două variabile
aleatoare discrete, să considerăm datele din tabelul 2.2, privitoare la
greutatea măsurată la nivelul unui lot de 50 de pachete de pufuleți cu
surprize, obținută prin însumarea greutății pufuleților din pachete (variabila
X) și a greutății jucăriilor-surpriză introduse în aceste pachete (variabila Y).
Pe baza acestor date putem determina valoarea așteptată a greutății la
extragerea aleatoare a unui pachet de pufuleți cu surprize, valoare utilă
companiei în efortul de îmbunătățire a managementului costurilor cu
transportul acestor produse.
Pentru aceasta trebuie construită mai întâi distribuția probabilistică bivariată
corespunzătoare acestor date. Aceasta este prezentată în tabelul 2.3.
Probabilitățile din acest tabel au fost calculate prin împărțirea frecvențelor
absolute înregistrate pentru fiecare combinație posibilă a greutăților într-un
pachet la numărul total de pachete (50).
51
Tabelul 2.2
Greutatea
pufuleților
(grame)
99 100 101 Total
Greutatea
jucăriilor-
surpriză
(grame)
18 1 3 6 10
19 4 9 8 21
20 7 5 1 13
21 4 1 1 6
Total 16 18 16 50
52
Tabelul 2.3
Greutatea
pufuleților
(grame)
99 100 101 Total
Greutatea
jucăriilor-
surpriză
(grame)
18 0,02 0,06 0,12 0,20
Tabelul 2.4
x P(X = x) x·P(X = x)
99 0,32 31,68
100 0,36 36,00
101 0,32 32,32
Total 1,00 100,00
53
Tabelul 2.5
y P(Y = y) y·P(Y = y)
18 0,20 3,60
19 0,42 7,98
20 0,26 5,20
21 0,12 2,52
Total 1,00 19,30
Tabelul 2.6
P(x, y) =
x y x+y = P(X = x,Y = y) =
= P(X = x)·P(Y = y)
18 117 0,32 · 0,20 = 0,0640
19 118 0,1344
99
20 119 0,0832
21 120 0,0384
18 118 0,0720
19 119 0,1512
100
20 120 0,0936
21 121 0,0432
18 119 0,0640
19 120 0,1344
101
20 121 0,0832
21 122 0,0384
Total 1,0000
54
Tabelul 2.7
55
unde:
DX este domeniul de valori pe care le poate înregistra variabila X;
DY este domeniul de valori pe care le poate înregistra variabila Y.
În mod asemănător, dacă X și Y sunt două variabile aleatoare independente
continue, se poate scrie:
56
Tabelul 2.8
Număr
camere
2 3 4 Total
Preț
curățenie
(lei / cameră)
10 18088 6118 2394 26600
57
De exemplu, probabilitatea de alegere a unui număr de 4 camere cu condiția
unei scheme de curățenie cu un preț de 10 lei / cameră este egală cu
produsul dintre probabilitatea totală (sau marginală) a opțiunii pentru un
număr de 4 camere și probabilitatea totală (sau marginală) a alegerii unei
scheme de curățenie cu un preț de 10 lei / cameră:
58
Probabilitățile de manifestare izolată a celor două variabile considerate se
mai numesc și probabilități marginale deoarece ele se regăsesc ca și totaluri
marginale în tabelul de distribuție a probabilităților de înregistrare simultană
(probabilități condiționate) a valorilor (luate două câte două) care definesc
cele două variabile*.
Tabelul 2.9
Număr
camere
2 3 4 Total
Preț
curățenie
(lei / cameră)
10 0,2584 0,0874 0,0342 0,3800
*
Un asemenea tabel se numește și tabel cu dublă intrare sau tabel de corelație. Cea de-a doua denumire
este motivată de faptul că distribuția probabilităților condiționate poate fi utilizată și în scopul analizei
legăturii statistice probabilistice dintre cele două variabile considerate.
59
Pornind de la egalitatea dintre valoarea așteptată a produsului a două
variabile aleatoare independente și produsul valorilor așteptate ale acestora,
se obține, de asemenea, și următoarea relație importantă:
unde:
C este o constantă;
E (C) = C este valoarea așteptată a constantei C.
Această relație se explică pe baza faptului că o constantă este independentă
față de orice variabilă aleatoare.
Tabelul 2.10
x P(X = x) x·P(X = x)
2 0,6800 1,3600
3 0,2300 0,6900
4 0,0900 0,3600
Total 1,0000 2,4100 = E(X) = X
Tabelul 2.11
y P(Y = y) y·P(Y = y)
10 0,3800 3,8000
12 0,4700 5,6400
15 0,1500 2,2500
Total 1,0000 11,6900 = E(Y) = Y
60
Tabelul 2.12
x, y P(x, y) (x·y)·P(x, y)
2, 10 0,2584 5,1680
2, 12 0,3196 7,6704
2, 15 0,1020 3,0600
3, 10 0,0874 2,6220
3, 12 0,1081 3,8916
3, 15 0,0345 1,5525
4, 10 0,0342 1,3680
4, 12 0,0423 2,0304
4, 15 0,0135 0,8100
Total 1,0000 28,1729 = E(X·Y) = XY
61
Pentru exemplificarea acestei proprietăți să considerăm din nou variabilele
aleatoare independente X și Y ale căror distribuții sunt prezentate în tabelele
2.10 și 2.11.
Tabelul 2.13
x P(X = x) (x - X )2 (x - X )2·P(X = x)
2 0,6800 0,1681 0,1143
3 0,2300 0,3481 0,0801
4 0,0900 2,5281 0,2275
Total 1,0000 0,4219 = Var (X)
Tabelul 2.14
y P(Y = y) (y - Y )2 (y - Y )2·P(Y = y)
10 0,3800 2,8561 1,0853
12 0,4700 0,0961 0,0452
15 0,1500 10,9561 1,6434
Total 1,0000 2,7739 = Var (Y)
Tabelul 2.15
x, y s = x + y P(s) = P(x, y) (s - S )2 (s - S )2·P(S = s)
2, 10 12 0,2584 4,41 1,1395
2, 12 14 0,3196 0,01 0,0032
2, 15 17 0,1020 8,41 0,8578
3, 10 13 0,0874 1,21 0,1058
3, 12 15 0,1081 0,81 0,0876
3, 15 18 0,0345 15,21 0,5247
4, 10 14 0,0342 0,01 0,0003
4, 12 16 0,0423 3,61 0,1527
4, 15 19 0,0135 24,01 0,3241
3,1958 = Var (S) =
Total 1,0000 Var (X) + Var (Y) =
0,4219 + 2,7739
E(S) = (x + y) ·P(x, y) = 14,10
62
În tabelele 2.13 și 2.14 sunt calculate varianțele celor două variabile, iar în
tabelul 2.15 este calculată varianța variabilei sumei (S) dintre cele două
variabile (ignorăm faptul că aceasta nu are, în acest caz, nicio semnificație
practică). Se poate observa că, într-adevăr, varianța sumei dintre cele două
variabile este egală cu suma varianțelor lor.
63
Pe de altă parte, egalitatea dintre valoarea așteptată a produsului a două
variabile independente și produsul valorilor așteptate ale celor două
variabile face ca într-un astfel de caz covarianța să fie nulă:
64
Tabelul 2.16
x2, y2 P(x2, y2) (x2·y2)·P(x2, y2)
4, 100 0,2584 103,3600
4, 144 0,3196 184,0896
4, 225 0,1020 91,8000
9, 100 0,0874 78,6600
9, 144 0,1081 140,0976
9, 225 0,0345 69,8625
16, 100 0,0342 54,7200
16, 144 0,0423 97,4592
16, 225 0,0135 48,6000
868,6489
Total 1,0000
= E(X2·Y2)
65
Tabelul 2.17
x2 P(X2 = x2) x2·P(X2 = x2)
4 0,6800 2,7200
9 0,2300 2,0700
16 0,0900 1,4400
6,2300
Total 1,0000
= E(X2)
Tabelul 2.18
y2 P(Y2 = y2) y2·P(Y2 = y2)
100 0,3800 38,0000
144 0,4700 67,6800
225 0,1500 33,7500
139,4300
Total 1,0000
= E(Y2)
66
unde:
’r reprezintă momentul absolut de ordinul r al variabilei aleatoare discrete
X, definită pe domeniul de valori D;
unde:
’r reprezintă momentul absolut de ordinul r al variabilei aleatoare
continue X.
Se poate observa faptul că momentul absolut de ordinul 1 al unei variabile
oarecare X este echivalent cu valoarea așteptată a acesteia:
unde:
r reprezintă momentul centrat de ordinul r al variabilei aleatoare discrete
X, definită pe domeniul de valori D și a cărei medie aritmetică (valoare
așteptată) este egală cu ;
unde:
r reprezintă momentul centrat de ordinul r al variabilei aleatoare continue
X, a cărei medie aritmetică (valoare așteptată) este egală cu .
67
Se poate ușor observa faptul că momentul centrat de ordinul 1 al unei
variabile oarecare este egal cu 0.
De asemenea, se poate observa faptul că momentul centrat de ordinul 2 al
unei variabile oarecare este echivalent cu varianța acesteia.
O relație importantă între momentul centrat de ordinul 2 al unei variabile
aleatoare oarecare, momentul ei absolut de ordinul 2 și valoarea sa așteptată
(echivalentă cu momentul ei absolut de ordinul 1) este:
Această relație este, de fapt, cazul particular al unei relații foarte importante
care există între momentul centrat de ordinul r al unei variabile aleatoare
oarecare și cele r momente absolute ale acesteia. Această relație se obține
pe baza dezvoltării lui (X ‒ ) r:
*
În mod asemănător se poate obține relația de calcul simplificat pentru covarianță:
68
Folosind această relație se pot obține, de pildă, următoarele relații pentru 3
și 4 :
*
Aceste distribuții sunt prezentate în capitolele următoare.
69
unde:
reprezintă abaterea standard* a distribuției considerate.
Deși momentele pot fi de cele mai multe ori determinate direct pe baza
calculelor necesare ale sumelor sau integralelor implicate, se poate folosi în
acest scop și tehnica bazată pe funcția generatoare de momente.
Pentru o variabilă aleatoare discretă X, definită pe domeniul de valori D,
funcția generatoare de momente este dată de:
*
Reamintim că abaterea standard este rădăcina varianței, fiind totodată echivalentă cu media pătratică a
abaterilor față de valoarea așteptată a tuturor valorilor probabile pe care o variabilă le poate înregistra.
**
Pentru o variabilă aleatoare continuă raționamentul este asemănător, cu deosebirea că sumele sunt
înlocuite de integrale definite de la -∞ la +∞, iar f (x) este funcția de densitate probabilistică.
70
r
Se poate observa că într-o astfel de dezvoltare, coeficienții rapoartelor t /
r! sunt chiar momentele absolute ale variabilei considerate.
Aceasta înseamnă că momentul absolut de ordinul r al unei variabile X
poate fi obținut ca și derivată de ordinul r a funcției generatoare de
momente a acesteia:
71
Derivând succesiv această funcție în raport cu t = 0, se pot determina acum,
de pildă, momentele absolute de ordinul 1, 2, 3 și 4* ale variabilei X:
*
Aceste momente se pot determina și cu ajutorul motorului de calcul „Wolfram Alpha”. Adresele
directe pentru calculul celor patru momente absolute sunt:
http://www.wolframalpha.com/input/?i=derivate+1%2F16*((1%2Be%5Et)%5E4)+where+t%3D0
http://www.wolframalpha.com/input/?i=2th+derivate+1%2F16*((1%2Be%5Et)%5E4)+where+t%3D0
http://www.wolframalpha.com/input/?i=3th+derivate+1%2F16*((1%2Be%5Et)%5E4)+where+t%3D0
http://www.wolframalpha.com/input/?i=4th+derivate+1%2F16*((1%2Be%5Et)%5E4)+where+t%3D0
72
Pe baza acestor rezultate se pot obține mai departe, în afară de momentul
centrat de ordinul 1 (echivalent cu momentul absolut de ordinul 1 și cu
valoarea așteptată), momentul centrat de ordinul 2 (echivalent cu varianța),
momentul centrat de ordinul 3 (necesar pentru determinarea statisticii 1) și,
respectiv, momentul centrat de ordinul 4 al variabilei X (necesar pentru
determinarea statisticii 2):
73
Aceasta înseamnă, mai departe, că:
- abaterea standard a variabilei considerate este:
*
Distribuțiile normale sunt prezentate în capitolul 4.
74
Tabelul 2.19
0 0,0625 0,0000
1 0,2500 0,2500
2 0,3750 0,7500
3 0,2500 0,7500
4 0,0625 0,2500
Total 1,0000 2,0000 = E(X)
Tabelul 2.20
unde:
a și b sunt două constante.
76
Momentele-produs ale unei perechi de variabile aleatoare
Pentru o pereche de variabile aleatoare X și Y poate fi utilă determinarea
momentelor-produs absolute sau centrate.
Momentul-produs absolut de ordinul r și, respectiv, s pentru o pereche de
variabile aleatoare X și Y este echivalent cu valoarea așteptată a produsului
puterilor de ordinul r și, respectiv, s ale celor două variabile.
Prin urmare, dacă variabilele aleatoare X și Y sunt discrete, relația de
determinare a momentului-produs absolut de ordinul r și, respectiv, s este:
unde:
r, s = 0, 1, 2, ...
Dacă variabilele aleatoare X și Y sunt continue, relația de determinare a
momentului-produs absolut de ordinul r și, respectiv, s este:
unde:
r, s = 0, 1, 2, ...
Momentul-produs centrat de ordinul r și, respectiv, s pentru o pereche de
variabile aleatoare discrete X și Y este:
unde:
r, s = 0, 1, 2, ...
77
Dacă variabilele aleatoare X și Y sunt continue, relația de determinare a
momentului-produs centrat de ordinul r și, respectiv, s este:
unde:
r, s = 0, 1, 2, ...
Se poate observa faptul că momentul-produs centrat de ordinul r = 1 și,
respectiv, s = 1 este echivalent cu covarianța celor două variabile
considerate. Prin urmare, folosind relația de calcul simplificat al covarianței,
se poate scrie:
78
funcție de distribuție probabilistică se va putea obține apoi funcția de
densitate probabilistică căutată.
Pentru exemplificare, să considerăm o variabilă aleatoare X, a cărei funcție
de densitate probabilistică este dată de:
79
Prin urmare, funcția de densitate probabilistică a variabilei Y = X 3 este:
De asemenea**:
*
Calculul online al acestei probabilitățíi P (0,2 < X < 0,7) cu ajutorul motorului „Wolfram Alpha” se
poate verifica la adresa: http://www.wolframalpha.com/input/?i=integrate+12x%5E2(1-
x)+for+x%3D0.2+to+0.7
**
Calculul online al acestei probabilitățíi P (0,008 < Y < 0,343) cu ajutorul motorului „Wolfram
Alpha” se poate verifica la adresa: http://www.wolframalpha.com/input/?i=integrate+4(1-
x%5E(1%2F3))+for+x%3D0.008+to+0.343
80
Acest fapt este reprezentat grafic în figurile 2.4 și 2.5.
Figura 2.4
81
Figura 2.5
82
Diferențiind acest rezultat în funcție de z, se obține:
83
Folosind aceeași metodă a funcției de distribuție probabilistică, să aflăm mai
departe, în cadrul unui alt exemplu, funcția de densitate probabilistică a
variabilei Z = (X + Y) / 2, cunoscând că, de această dată, funcția bivariată
de densitate probabilistică a variabilelor X și Y este:
84
Prin urmare, funcția de densitate probabilistică a variabilei Z = (X + Y) / 2
este dată de:
85
În capitolul 3 al acestei lucrări este prezentată funcția generală de
probabilitate asociată unei variabile de tipul variabilei X. Conform relației
care descrie această funcție generală de probabilitate, se obține că funcția de
probabilitate pentru variabila X este:
unde:
x = 0, 1, 2, 3, 4.
În conformitate cu schimbarea de variabilă y = 1 / (1 + 2x), se obține că x
= (1 ‒ y) / 2y, ceea ce înseamnă că:
unde:
y = 1, 1/3, 1/5, 1/7, 1/9.
Se poate ușor observa că probabilitățile asociate acestor valori ale variabilei
Y sunt aceleași cu probabilitățile asociate valorilor corespunzătoare
înregistrate de variabila X. De pildă, probabilitatea ca Y să ia valoarea 1/7
este egală cu probabilitatea ca X să ia valoarea 3:
86
Așadar, în astfel de cazuri probabilitățile trebuie calculate pentru fiecare
valoare particulară înregistrată de variabila considerată.
Atunci când variabila X și variabila Y = u(X) sunt continue, pentru a putea
folosi metoda transformării sau a schimbării de variabilă trebuie îndeplinite
următoarele condiții:
- funcția y = u(x) să fie diferențiabilă;
- funcția y = u(x) să fie ori crescătoare, ori descrescătoare pentru toate
valorile din domeniul de definiție al variabilei X, pentru care f (x) ≠ 0.
Aceste condiții fac posibilă existența funcției inverse x = w(y),
diferențiabile (mai puțín atunci când u’ (x) = 0*) pentru toate valorile y
corespunzătoare.
Dacă se întâmplă așa, atunci pentru toate valorile y corespunzătoare funcția
de densitate probabilistică a variabilei Y = u(X) este dată de:
*
Din acest motiv trebuie evitate, în folosirea acestei metode, intervalele închise de valori pentru care
densitățile probabilistice sunt diferite de 0..
87
Întrucât ecuația care relaționează valorile variabilei X de valorile variabilei
Y,
Se poate verifica faptul că pentru orice constante reale a și b, a < b, are loc
egalitatea:
88
Aceste probabilități sunt reprezentate în figurile 2.6 și 2.7.
Figura 2.6
89
Figura 2.7
unde:
f (x1, x2) și derivata parțială trebuie exprimate în termeni de y și x2.
90
unde:
f (x1, x2) și derivata parțială trebuie exprimate în termeni de x1 și y.
Pe baza acestor funcții bivariate de densitate probabilistică, se determină
apoi funcția marginală a variabilei Y:
sau:
91
Pentru x1 > 0 și 0 < y < 1 se obține astfel că:
Pentru a afla funcția de probabilitate (în cazul unor variabile discrete) sau de
densitate probabilistică (în cazul unor variabile continue) a variabilei Y, pe
baza acestei metode, este necesară, astfel, identificarea funcției de
probabilitate sau a funcției de densitate probabilistică a cărei funcție
generatoare de momente este dată de produsul funcțiilor generatoare de
momente ale variabilelor X1, X2, ..., Xn.
De exemplu, se poate arăta, folosind această metodă, faptul că funcția de
probabilitate a variabilei Y a sumei unor variabile Poisson* X1, X2, ..., Xn
este dată chiar de funcția de probabilitate Poisson cu parametrul λ egal cu
suma parametrilor λ1, λ2, ..., λn ai variabilelor X1, X2, ..., Xn.
Se întâmplă așa, deoarece:
*
Distribuțiile și variabilele Poisson sunt prezentate în capitolul 3.
93
94
DISTRIBUŢII
PROBABILISTICE
DISCRETE 3.
OBIECTIVELE CAPITOLULUI
Obiectivul principal al acestui capitol este de a prezenta distribuţiile statistice
probabilistice discrete, ajutându-vă:
să identificaţi evenimentele ale căror probabilităţi pot fi determinate cu ajutorul
distribuţiilor statistice probabilistice discrete;
să înţelegeţi relaţiile de determinare a probabilităţilor cu ajutorul distribuţiilor
statistice probabilistice discrete;
să puteţi descrie distribuţiile statistice probabilistice discrete mai importante
prin prisma valorii așteptate, a varianţei, a coeficientului de asimetrie şi a
coeficientului de aplatizare.
96
3.1 Distribuţiile „Bernoulli”
Cele mai simple distribuții probabilistice sunt distribuțiile „Bernoulli”,
acestea fiind distribuții ale unor variabile aleatoare binare, adică ale unor
variabile care pot înregistra doar 2 variante mutual exclusive. Asemenea
variabile aleatoare se mai numesc și variabile aleatoare de tip „Da / Nu”,
fiind descrise de o variantă care exprimă manifestarea unui anumit
eveniment de interes (varianta „Da”) și o variantă care exprimă absența
manifestării acestui eveniment de interes (varianta „Da”). În cadrul derulării
unui experiment, manifestarea evenimentului de interes este considerată un
succes, iar absența manifestării acestuia este considerată un insucces.
Considerând, de pildă, experimentul aruncării unei monede, se poate
construi distribuția „Bernoulli” de mai jos:
Tabelul 3.1
x P (x)
„Ban” 1 / 2 = 0,50
„Stemă” 1 / 2 = 0,50
Total 1,00
Un alt exemplu clasic este cel în legătură cu experimentul aruncării unui zar,
pentru care se poate considera distribuția „Bernoulli” de mai jos:
Tabelul 3.2
x P (x)
„Fața cu numărul 6” 1 / 6 = 0,1667
„O față cu un număr diferit de numărul 6” 5 / 6 = 0,8333
Total 1,0000
97
Unei distribuții „Bernoulli” nenumerice i se poate asocia o variabilă
„Bernoulli” (XB), adică o variabilă care urmează o distribuție „Bernoulli”
numerică discretă, obținută prin alocarea valorii de 1 pentru înregistrarea
succesului (manifestarea evenimentului de interes) și alocarea valorii de 0
pentru înregistrarea insuccesului (absența manifestarea evenimentului de
interes).
Astfel, dacă ne referim din nou la experimentul aruncării unui zar și
considerăm ca eveniment de interes apariția feței cu numărul 6, atunci se
poate asocia acestui experiment variabila „Bernoulli” care urmează
distribuția numerică discretă de mai jos (cele două valori care definesc
variabila aleatoare, i.e. 0 și 1, sunt considerate în ordine crescătoare):
Tabelul 3.3
x P (XB = x)
0 0,8333
1 0,1667
Total 1,0000
98
3.2 Distribuţiile binomiale
Distribuţiile binomiale sunt distribuțíi probabilistice ale variabilelor
aleatoare care definesc experimente binomiale, adică experimente care
constau în derularea unui anumit număr de probe de tip „Bernoulli”.
Distribuţiile binomiale sunt definite de legea de probabilitate:
unde:
Xb reprezintă o variabilă aleatoare care urmează o distribuţie binomială;
x = 0, 1, 2, ..., n;
n şi p = parametrii distribuţiei binomiale dată de legea de probabilitate
P(Xb = x; n, p). Primul parametru (n) indică numărul de probe de tip
„Bernoulli” care alcătuiesc experimentul binomial considerat, iar p indică
probabilitatea de succes la derularea unei astfel probe. În cadrul unui
experiment binomial, probele care-l alcătuiesc sunt independente între ele,
ceea ce înseamnă că probabilitatea de succes rămâne neschimbată pentru
fiecare probă.
Aruncarea de n ori a unei monede sau a unui zar sunt exemple clasice de
experimente binomiale.
Astfel, conform legii de probabilitate binomială, probabilitatea ca la 7
aruncări ale unei monede să apară de 3 ori stema este egală cu:
99
Cunoscându-se faptul că procentul rebuturilor de pe o linie de fabricaţie este
de 2%, se poate determina probabilitatea ca din 100 de produse realizate,
5 să fie defecte:
100
(dând factori comuni pe n şi pe p)
101
Întrucât p + q = 1 (acestea sunt probabilități care definesc împreună în
totalitate un spațiu de eșantionare) și, prin urmare, q = 1 – p, se obţine în
cele din urmă:
unde:
(XB; p) este variabila „Bernoulli” cu probabilitatea de succes p.
*
A se vedea capitolul 2.
102
Tabelul 3.4
103
Tabelul 3.4 - continuare
10
11
12
Total 1,0000000000
Se confirmă faptul că:
Prin urmare,
104
Aceasta înseamnă că:
105
Conform acestui rezultat, rezultă astfel că:
106
(deoarece varianței sumei unor variabile aleatoare independente este egală
cu suma varianțelor acestora*)
unde:
(XB; p) este variabila „Bernoulli” cu probabilitatea de succes p.
Aşadar, varianţa distribuţiei binomiale se poate determina în funcţie de
parametrii n şi p. Astfel, valori mai mari ale parametrului n determină valori
mai mari ale varianţei distribuţiei binomiale.
În ce priveşte parametrul p, valori mai mari ale varianţei distribuţiei
binomiale se obţin pe măsură ce acest parametru se apropie mai mult de
valoarea de 0,5, valoare pentru care varianţa este cea mai mare.
Se poate exemplifica acest fapt pe baza tabelului 3.5., în care sunt redate
valorile varianţei distribuţiei binomiale atunci când n ia valori de la 5 la 7,
iar p variază în salturi egale cu 0,1.
Tabelul 3.5
n 5 5 5 5 5 5 5 5 5
p 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Varianţa distribuţiei
0,45 0,80 1,05 1,20 1,25 1,20 1,05 0,80 0,45
binomiale
n 6 6 6 6 6 6 6 6 6
p 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Varianţa distribuţiei
0,54 0,96 1,26 1,44 1,50 1,44 1,26 0,96 0,54
binomiale
n 7 7 7 7 7 7 7 7 7
p 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
Varianţa distribuţiei
0,63 1,12 1,47 1,68 1,75 1,68 1,47 1,12 0,63
binomiale
*
A se vedea capitolul 2.
107
creşterea numărului de probe duce la creşterea numărului de evenimente
probabile;
- incertitudinea rezultatului unui experiment binomial este mai mică atunci
când diferenţa dintre probabilitatea de succes (p) şi cea de insucces (1−p)
este mai mare; în astfel de situaţii scade incertitudinea privitoare la
rezultatul mai probabil (indiferent care este acesta).
108
Pe baza primelor două relații, se pot obţine dn nou valoarea așteptată şi
varianţa unei distribuţii binomiale. Astfel, valoarea așteptată este:
109
Aşadar, varianţa este:
Cel de-al treilea moment absolut al unei distribuţii binomiale se poate scrie
şi el în funcţie de μ:
110
Folosind acest rezultat, se obţine că:
111
P(X) = probabilitatea de obţinere
0,30
0,2461
0,25
0,2051 0,2051
a x succese 0,20
0,35 0,3230
P(X) = probabilitatea de obţinere
0,2907
0,30
0,25
a x succese
0,10
0,0543
0,05 0,0130 0,0022
0,0002 0,0000 0,0000 0,0000
0,00
1 2 3 4 5 6 7 8 9 10 11
x = număr de succese
112
0,35
a x succese
0,2013
0,20
0,15
0,1074
0,0881
0,10
0,05 0,0264
0,0000 0,0000 0,0001 0,0008 0,0055
0,00
1 2 3 4 5 6 7 8 9 10 11
x = număr de succese
(întrucât σ2 = npq)
113
Figura 3.4 Distribuţia binomială a variabilei XB; n = 10, p = 0,25
114
Avem însă:
Aşadar:
Pentru t = 0, avem:
Aşadar:
115
Cel de-al patrulea moment absolut al unei distribuţii binomiale se poate
scrie şi el în funcţie de μ = np:
Folosind acest rezultat se poate obţine mai departe, la nivelul unei distribuţii
binomiale, relaţia de determinare a coeficientului de kurtosis propus de
către Irwin Fisher (γ2):
116
Conform acestei relaţii, rezultă că atunci când numărul de probe (n) tinde
spre infinit, coeficientul de kurtosis tinde spre 0, indiferent de valoarea
probabilităţii de succes (p), ceea ce înseamnă că forma distribuţiei
binomiale capătă tot mai mult alura unei distribuţii normale* (kurtosis nul).
Pentru a ilustra acest fapt, am reprezentat în figura 3.6 distribuţia binomială
caracterizată prin parametrul p = 0,25, asemenea distribuţiilor din figurille
3.4 şi 3.5, dar cu n = 50.
0,14
P(X) = probabilitatea de
0,12
obţinere a x succese
0,10
0,08
0,06
0,04
0,02
0,00
1 3 5 7 9 11 13 15 17 19 21 23 25
x = număr de succese
*
Distribuția normală este prezentată în capitolul 4.
117
însă, cateogoriile de evenimente care se pot manifesta în cadrul unei probe
nu sunt doar în număr de două, ci de m, m > 2.
Notând cu x1, x2, ... xm frecvențele urmărite de manifestare ale celor m
categorii de evenimente și cu p1, p2, ... pm probabilitățile constante de
manifestare a celor m tipuri de evenimente în cadrul celor n probe care
alcătuiesc un experiment multinomial, se poate formula următoarea lege
generală de probabilitate multinomială:
unde:
118
3.4 Distribuţiile binomiale negative
Uneori putem fi interesaţi în legătură cu numărul de probe necesare în
cadrul unui experiment binomial până la obţinerea unui anumit număr de
succese.
De exemplu, ne-ar putea interesa care este probabilitatea ca al 10-lea copil
expus la o boală contagioasă să fie primul care să o şi contacteze. Sau un
candidat ar putea fi interesat în legătură cu probabilitatea ca la un test grilă
la cea de-a 20-a întrebare să nimerească la întâmplare răspunsul corect
pentru a 5-a oară.
Pentru ca la cea de-a x-a probă să se înregistreze cel de-al k-lea succes
trebuie ca pentru primele x − 1 probe să se înregistreze k − 1 succese.
Probabilitatea pentru realizarea acestei situaţii este, conform legii binomiale
(pozitive):
Pe de altă parte, obţinerea unui succes la cea de-a x-a probă are o
probabilitate egală cu p.
Se obține astfel legea de probabilitate binomială negativă:
unde:
Xb* reprezintă o variabilă aleatoare care urmează o distribuţie binomială
negativă;
x = k, k + 1, k + 2, ...;
k şi p = parametrii distribuţiei binomiale negative în cauză.
Denumirea de distribuţii binomiale negative a fost dată deoarece valorile
obţinute pe baza legii binomiale negative sunt termenii succesivi ai
dezvoltării unui binom ridicat la o putere negativă, şi anume:
119
Să calculăm, de exemplu, probabilitatea ca cel de-al 10-lea angajat al unei
firme expus la o boală contagioasă să fie primul care să se îmbolnăvească,
în condiţiile în care se cunoaşte că 20% dintre angajaţii expuşi la această
boală se îmbolnăvesc. Conform legii binomiale negative, probabilitatea
căutată este:
respectiv,
Se poate arăta uşor că valorile obţinute prin legea binomială negativă se pot
obţine şi pe seama legii binomiale pozitive:
120
să se îmbolnăvească, în condiţiile în care se cunoaşte că 20% dintre
angajaţii expuşi la această boală se îmbolnăvesc:
121
(considerând y = x − k, ceea ce înseamnă că x = y + k)
Prin urmare,
122
Tabelul 3.6
P(Xb* = x)
x x·P(Xb* = x)
k = 1, p = 0,5
1 0,50000000 0,50000000
2 0,25000000 0,50000000
3 0,12500000 0,37500000
4 0,06250000 0,25000000
5 0,03125000 0,15625000
6 0,01562500 0,09375000
7 0,00781250 0,05468750
8 0,00390625 0,03125000
9 0,00195313 0,01757813
10 0,00097656 0,00976563
11 0,00048828 0,00537109
12 0,00024414 0,00292969
13 0,00012207 0,00158691
14 0,00006104 0,00085449
15 0,00003052 0,00045776
16 0,00001526 0,00024414
17 0,00000763 0,00012970
18 0,00000381 0,00006866
19 0,00000191 0,00003624
20 0,00000095 0,00001907
Total 0,99999905 1,99997902
123
Varianţa unei distribuţii binomiale negative
Varianţa unei distribuţii binomiale negative se poate calcula cu ajutorul
relaţiei:
124
respectiv,
respectiv,
125
Se obţine, aşadar, relaţia:
126
Revenind la varianţa unei distribuţiei binomiale negative, rezultă că:
unde:
Xg reprezintă variabila numărului de experimente independente de tip
Bernoulli necesare până la apariţia primului succes;
x = 1, 2, 3, ...
p = parametrul distribuţiei geometrice, acelaşi cu parametrul care defineşte
experimentele Bernoulli asociate, i.e. probabilitatea de succes la derularea
acestora.
127
Folosind această relaţie să calculăm, de exemplu, probabilitatea ca un
produs să treacă un test de calitate doar la a 4-a sa testare a acestuia, în
condiţiile în care probabilitatea de a trece testul la oricare testare realizată
este de 30%:
128
a) numărul de variante în care se pot alege x bile din totalul celor k bile de
culoarea căutată este egal cu numărul de combinări de k luate câte x;
b) numărul de variante în care se pot alege n − x bile din totalul celor N −
k bile de culoarea diferită de cea căutată este egal cu numărul de combinări
de N − k luate câte n − x;
c) numărul de variante în care se pot alege x bile de culoarea căutată şi n −
x bile de culoare diferită de cea căutată din totalul celor N bile, este egal cu
produsul dintre numărul de variante de la punctul a) şi numărul de variante
de la punctul b);
d) numărul de variante în care se pot alege n bile din totalul celor N bile din
urnă este egal cu numărul de combinări de N luate câte n.
Prin urmare, o distribuţie hipergeometrică este dată de legea de
probabilitate:
unde:
x = 0, 1, 2, ..., n;
x ≤ k;
n − x ≤ N − k.
O distribuţie hipergeometrică este, precum se poate observa, definită de 3
parametri: numărul de probe (n), mărimea populaţiei statistice supuse
experimentului hipergeometric (N), şi mărimea părţii din populaţia statistică
pentru care se constată existenţa proprietăţii căutate în cadrul
experimentului hipergeometric (k).
Pentru exemplificare, să considerăm o companie care are un parc auto
format din 20 de camioane. Cunoscându-se faptul că din cele 20 de
camioane, 3 emit noxe in exces, am putea fi interesaţi să determinăm
probabilitatea ca la testarea la întâmplare a 5 camioane, să nu emită niciunul
noxe în exces:
129
Este de aşteptat, desigur, ca la testarea la întâmplare a doar 4 camioane,
probabilitatea ca niciunul să nu emită noxe în exces să fie mai mare, aşa
cum se şi verifică:
Astfel:
130
(considerând y = x − 1 şi m = n − 1)
Obţinem, aşadar:
(cum m = n − 1)
Dacă numărul de camioane care emit noxe în exces creşte însă la 4, este de
aşteptat ca, în medie, la testarea la întâmplare a 5 camioane, unul dintre
acestea să emită noxe în exces:
131
Este de aşteptat ca numărul de camioane care emit noxe în exces în cadrul
eşantionului ales la întamplare să depindă direct proporţional de numărul de
camioane care emit noxe în exces în cadrul întregului parc auto al companiei
(k).
Astfel, dacă toate camioanele companiei ar emite noxe în exces (k = N),
atunci este sigur că toate camioanele testate (n) vor emite noxe în exces. La
fel, dacă jumătate din camioanele companiei ar emite noxe în exces, atunci
este de aşteptat ca tot jumătate din camioanele testate să emită noxe în
exces.
Revenind la exemplul nostru, se poate afirma că dacă o cincime dintre
camioanele firmei emit noxe în exces (20/5 = 4 camioane), atunci este de
aşteptat ca tot o cincime din camioanele testate (5/5 = 1 camion) să emită
noxe în exces.
Tabelul 3.7
Total 1,0000
Media
aritmetică
(valoarea
așteptată)
132
Distribuţia probabilistică pentru experimentul considerat în acest exemplu
este prezentată în tabelul 3.7, în care este calculată şi media aritmetică prin
însumarea valorilor pe care le poate înregistra variabila statistică (valorile
x), ponderate cu probabilităţile asociate lor, determinate conform legii de
probabilitate hipergeometrică.
Se confirmă faptul că media aritmetică este în acest caz egală cu 1.
(considerând y = x − 2 şi m = n − 2)
133
(cum m = n − 2)
134
Să verificăm acest rezultat pentru distribuţia hipergeometrică exemplificată
în tabelul 3.7. Parametrii distribuţiei considerate în acest tabel au fost: n =
5; N = 20 şi k = 4. Pentru aceste valori ale parametrilor, varianţa
distribuţiei hipergeometrice, conform relaţiei obţinute mai sus, este:
Tabelul 3.8
P(Xh = x)
x x2 x2 · P(Xh = x)
n = 5, N = 20, k = 4
0 0,2817 0 0,0000
1 0,4696 1 0,4696
2 0,2167 4 0,8669
3 0,0310 9 0,2786
4 0,0010 16 0,0165
Total 1,0000 1,6316
135
Aproximarea unei distribuţii hipergeometrice printr-o distribuţie
binomială atunci când N tinde spre infinit
Atunci când N tinde spre infinit, legea hipergeometrică tinde să ia forma
legii binomiale.
Pentru a demonstra acest fapt, considerăm valoarea p = k/N, fixată. Ceea
ce este de arătat, în aceste condiţii, este că:
136
Se poate observa acum că:
137
De asemenea, atunci când n, x şi t sunt fixate, în timp ce k ia valori
proporţionale cu valorile lui N, avem:
Rezultă că:
138
Prin urmare, într-adevăr:
Tabelul 3.9
x P(Xh = x) pentru n = 15, N = 40, k = 10
0 0,0039
1 0,0362
2 0,1340
3 0,2580
4 0,2852
5 0,1882
6 0,0747
7 0,0175
8 0,0023
9 0,0001
10 0,0000
Total 1,0000
139
Să considerăm mai departe alte două experimente hipergeometrice, definite
tot de parametrul n = 15, dar realizate la nivelul unor colectivităţi statistice
mai mari, şi anume de volum N1 = 400 şi, respectiv, N2 = 8000.
Cunoscând faptul că aproximarea unei distribuţii hipergeometrice se poate
face printr-o distribuţie binomială caracterizată de parametrul p = k/N, vom
căuta să fixăm valorile k1 şi k2 pentru cel de-al treilea parametru
caracteristic unui experiment hipergeometric astfel încât să aibă loc
egalitatea:
Tabelul 3.10
x P(Xh = x) pentru n = 15, N1 = 400, k1 = 100
0 0,0122
1 0,0641
2 0,1547
3 0,2281
4 0,2296
5 0,1672
6 0,0910
7 0,0377
8 0,0120
9 0,0029
10 0,0005
Total 0,9999
140
Tabelul 3.11
x P(Xh = x) pentru n = 15, N2 = 8000, k2 = 2000
0 0,0133
1 0,0667
2 0,1558
3 0,2253
4 0,2254
5 0,1652
6 0,0917
7 0,0392
8 0,0130
9 0,0034
10 0,0007
Total 0,9999
Tabelul 3.12
x P(Xb = x) pentru n = 15, p = 0,25
0 0,0134
1 0,0668
2 0,1559
3 0,2252
4 0,2252
5 0,1651
6 0,0917
7 0,0393
8 0,0131
9 0,0034
10 0,0007
Total 0,9999
141
Se poate observa că distribuţia probabilistică din tabelul 3.11 este cea mai
apropiată de distribuţia binomială cu parametrii n = 15 şi p = 0,25 = k/N,
reprezentată în tabelul 3.12 pentru valori x de la 0 la 10. Aşadar se constată
că într-adevăr legea hipergeometrică este tot mai bine aproximată de legea
binomială pe măsură ce valoarea lui N creşte, în timp ce raportul k/N
rămâne constant şi este egală cu parametrul p al distribuţiei binomiale în
cauză.
unde:
iar xi poate lua una dintre valorile 0, 1, ..., n, astfel încât xi ki și:
142
Pentru exemplificarea folosirii legii de probabilitate hipergeometrică
multivariată, să presupunem că din cele 20 de perechi de pantofi găsite cu
defecte la un control de calitate al unui anumit lot de fabricație, 9 sunt cu
defecte considerate minore, 7 sunt cu defecte considerate majore și 4 au
ambele tipuri de defecte.
Putem afla, în acest caz, care este probabilitatea ca la extragerea aleatoare a
5 perechi de pantofi dintre cele 20, în scopul unor verificări mai amănunțite,
2 perechi să fie cu defecte considerate minore, o pereche să fie cu defecte
considerate minore și 2 perechi cu ambele tipuri de defecte:
143
Considerând această egalitate în relaţia care descrie legea de probabilitate
binomială, rezultă că:
Se poate observa acum faptul că toate cele x − 1 rapoarte din partea stângă
a acestui produs tind spre 1 atunci când n tinde către ∞.
Pe de altă parte, ultimul factor al produsului se poate desface în doi
subfactori:
144
Se poate, de asemenea, observa că atunci când x este fixat iar n tinde către
∞, cel de-al doilea subfactor tinde şi el către 1.
În ce priveşte primul dintre cei doi subfactori, se poate scrie:
unde:
reprezintă parametrul distribuţiei Poisson;
x = 0, 1, 2, ...
Fiind expresia unui cazului limită al legii de probabilitate binomiale (pentru
care numărul parametrul n tinde către ∞, în timp ce produsul np rămâne
constant), legea de probabilitate Poisson poate aproxima, în anumite
condiţii, probabilităţile unui experiment binomial.
Astfel, legea Poisson oferă o bună aproximare a probabilităţilor unui
experiment binomial dacă n ≥ 20 şi p ≤ 0,05.
Dacă n ≥ 100 şi np ≤ 10, atunci aproximarea probabilităţilor unui
experiment binomial cu ajutorul legii Poisson va fi una foarte bună.
Să revenim la exemplul nostru, în care un experiment binomial este
caracterizat printr-un număr de 2000 de probe şi o probabilitate de succes
145
(p) de 0,005. Avâmd în vedere faptul că n ≥ 100 şi np ≤ 10, este de
aşteptat ca aproximarea cu ajutorul legii de probabilitate Poisson a
probabilităţii ca variabila binomială să ia valoarea (x) de 20 să fie una
foarte bună.
Pentru a obţine această aproximare, trebuie calculat mai întâi parametrul :
146
unei distribuţii probabilistice. Aplicată la cazul unei distribuţii Poisson,
aceasta ia forma:
Înlocuind pe x cu şi pe k cu x − 1, obţinem:
147
(diferenţiind în raport cu )
Tabelul 3.13
x
0 0,0497871 0,0000000
1 0,1493612 0,1493612
2 0,2240418 0,4480836
3 0,2240418 0,6721254
4 0,1680314 0,6721254
5 0,1008188 0,5040941
6 0,0504094 0,3024564
7 0,0216040 0,1512282
8 0,0081015 0,0648121
9 0,0027005 0,0243045
10 0,0008102 0,0081015
11 0,0002210 0,0024305
12 0,0000552 0,0006629
13 0,0000127 0,0001657
14 0,0000027 0,0000382
15 0,0000005 0,0000082
Total 0,9999999 2,9999980
148
Pentru exemplificare, să considerăm distribuţia Poisson caracterizată de
parametrul = 3. În tabelul 3.13 sunt prezentate probabilităţile asociate
variabilei aleatoare XP pentru valori de la 0 la 15. Calculând media
distribuţiei doar la nivelul acestor valori ale variabilei XP, se obţine deja o
valoare foarte apropiată (= 2,9999980) de valoarea lui = 3.
149
(întrucât suma care apare în interiorul parantezelor drepte este echivalentă
cu dezvoltarea în serie de puteri a funcţiei f () = e )
Tabelul 3.14
x
0 0,0497871 0,000000
1 0,1493612 0,149361
2 0,2240418 0,896167
3 0,2240418 2,016376
4 0,1680314 2,688502
5 0,1008188 2,520470
6 0,0504094 1,814739
7 0,0216040 1,058598
8 0,0081015 0,518497
9 0,0027005 0,218741
10 0,0008102 0,081015
11 0,0002210 0,026735
12 0,0000552 0,007954
13 0,0000127 0,002154
14 0,0000027 0,000535
15 0,0000005 0,000123
Total 0,9999999 11,999967
11,999967 − 2,9999980 2 = 2,99998
150
Aşadar, varianţa distribuţiei Poisson este, într-adevăr egală şi ea cu
parametrul distribuţiei Poisson, :
151
Folosind această relaţie, rezultă că funcţia generatoare de momente pentru o
distribuţie Poisson este:
152
Considerând acum t = 0 se pot confirma relaţiile de determinare a mediei
şi, respectiv, varianţei unei distribuţii Poisson:
153
Putem determina mai departe coeficienţii de asimetrie şi, respectiv, kurtosis,
pe baza momentelor centrate de ordinul 3 şi 4.
Pentru început, determinăm momentele absolute de ordinul 3 şi 4:
În relaţiile de mai sus s-a folosit notaţia uzuală pentru momentul absolut de
ordinul r al unei variabile aleatoare X:
154
3.6-3.8, în care sunt sunt ilustrate distribuţiile Poisson pentru = 2; 5 şi
10.
0,30
P(X) = probabilitatea de
obţinere a x succese
0,25
0,20
0,15
0,10
0,05
0,00
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
x = număr de succese
0,20
0,18
P(X) = probabilitatea de
obţinere a x succese
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31
x = număr de succese
155
0,14
P(X) = probabilitatea de
0,12
156
forma unei distribuţii normale, aşa cum se poate vedea şi cu ajutorul figurii
3.10, în care este reprezentată distribuţia Poisson pentru = 30.
0,08
P(X) = probabilitatea de
0,07
obţinere a x succese
0,06
0,05
0,04
0,03
0,02
0,01
0,00
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61
x = număr de succese
157
(scoţând din integrală termenii independenţi de y)
158
(deoarece (1) = 1)
unde:
(k, ) reprezintă funcţia incompletă Gamma superioară cu parametrii k şi
.
Pentru exemplificare, să verificăm această relaţie pentru k = 5 şi = 7. În
acest scop, să calculăm mai întâi probabilitatea cumulată a distribuţiei
Poisson pentru k = 5 şi = 7, folosind valorile distribuţiei Poisson din
tabelul 3.15:
159
Tabelul 3.15
0 0,0009119
1 0,0063832
2 0,0223411
3 0,0521293
4 0,0912262
5 0,1277167
Total 0,3007083
*
Pentru aflarea valorilor funcţiei incomplete Gamma se pot folosi şi calculatoare on-line de funcţii
statistice, cum sunt, de exemplu, cele de la adresele:
http://www.danielsoper.com/statcalc3/calc.aspx?id=23 sau
http://keisan.casio.com/has10/SpecExec.cgi?id=system/2006/1180573447
160
Folosind acest rezultat, putem să calculăm acum integrala definită a cărei
valoare este egală cu valoarea (6, 7):
−∞
(deoarece e = 0)
161
Înmulţind această valoare cu 1 / (k!) = 1 / (5!), se obţine într-adevăr:
162
Înmulţind această valoare cu 1 / (k!) = 1 / (6!), se obţine:
Procesele Poisson
După cum am arătat, distribuţia Poisson se obţine ca limită a distribuţiei
binomiale, atunci când numărul de probe (parametrul n) tinde către ∞, în
timp ce produsul np rămâne constant. Faptul că acest produs rămâne
constant este echivalent cu faptul că probabilitatea de succes (p) tinde către
0, motiv pentru care distribuţia Poisson se mai numeşte şi legea
evenimentelor rare.
În acest paragraf vom arăta că distribuţia Poisson, ca şi lege a evenimentelor
rare, poate fi folosită şi pentru rezolvarea unor probleme care nu au o
legătură directă cu distribuţia binomială.
Astfel, distribuţia Poisson poate servi ca şi model pentru aflarea numărului
de apariţii ale unui eveniment pe parcursul unei anumite perioade de timp
sau într-o anumită regiune din spaţiu, atunci când sunt îndeplinite
următoarele condiţii:
1) numărul de apariţii care se înregistrează pentru intervale de timp sau
regiuni fără puncte comune se manifestă ca o variabilă independentă;
2) probabilitatea ca un singură apariţie să se înregistreze într-un interval de
timp foarte scurt sau într-o regiune foarte mică este direct proporţională cu
mărimea intervalului de timp sau a regiunii considerate;
3) probabilitatea ca mai mult de o apariţie să se înregistreze într-un astfel de
interval foarte mic sau într-o astfel de regiune foarte mică este neglijabilă.
Un proces care satisface aceste 3 condiţii se numeşte proces Poisson.
De exemplu, distribuţia Poisson poate descrie numărul de greşeli de tipărire
per pagină, numărul de bacterii dintr-o anumită cultură sau numărul de
163
clienţi care sosesc la un ghişeu bancar, atunci când este cunoscut numărul
mediu de succese pentru un interval de timp dat sau pentru o porţiune de
spaţiu clar delimitată.
Astfel, dacă, de pildă, se cunoaşte faptul că numărul mediu de clienţi care se
prezintă într-o anumită zi a săptămânii (să zicem, luni) la un anumit ghişeu
bancar este de 32, putem să aflăm probabilitatea ca într-o astfel de zi (ziua
de luni) să se prezinte la acest ghişeu cel mult 25 de clienţi. Această
probabilitate se poate determina ca şi probabilitate Poisson cumulată, pe
care o putem calcula, aşa cum am arătat în paragraful anterior, cu ajutorul
funcţiei incomplete Gamma superioară*:
*
Pentru realizarea calcului necesar, am folosit, de această dată, motorul de calcul „Wolfram Alpha”.
Adresa directă pentru calculul fracţiei noastre este:
https://www.wolframalpha.com/input/?i=1%2F25!*Gamma[26%2C+32]
164
apariţie să se înregistreze într-un interval de timp foarte scurt (i.e. de la t la t
+ t) este direct proporţională cu mărimea intervalului de timp considerat
();
2) probabilitatea ca mai mult de o apariţie să se înregistreze într-un astfel de
interval foarte mic de timp este neglijabilă;
3) probabilitatea ca o apariţie să se producă pe parcursul unui asemenea
interval de timp este independentă de ceea ce s-a întâmplat înainte de
momentul t.
Conform celei de-a doua dintre aceste condiţii, atunci când t este foarte
mic există doar două posibilităţi ca pe intervalul de timp egal cu t + t să
se înregistreze x apariţii, şi anume:
a) pe intervalul de timp de la momentul 0 la t să se înregistreze x apariţii,
ceea ce înseamnă că pe intervalul de timp de la t la t + t nu se
înregistrează nicio apariţie (figura 3.11);
momentul
0 t t + Δt
x apariţii 0 apariţii
Figura 3.11
momentul
0 t t + Δt
x − 1 apariţii 1 apariţie
Figura 3.12
165
Aceasta înseamnă că probabilitatea ca pe intervalul de timp egal cu t + t
să se înregistreze x apariţii este egală cu:
Atunci:
Însă:
167
Așadar, se poate scrie că:
Însă:
168
Revenind din nou la sistemul infinit de ecuaţii diferenţiale pe care-l avem de
rezolvat, se obţine mai departe, pentru x = 2, ecuaţia::
Însă:
169
Rămâne de arătat că:
Însă:
170
Astfel, se verifică într-adevăr faptul că:
171
Această valoare depinde însă de valoarea lui , și, respectiv, a lui t. Întrucât
unitatea de spațiu considerată în exemplul nostru este egală cu 100 mp,
înseamnă că:
172
DISTRIBUŢII
PROBABILISTICE
CONTINUE 4.
OBIECTIVELE CAPITOLULUI
Obiectivul principal al acestui capitol este de a prezenta distribuţiile statistice
probabilistice continue, ajutându-vă:
să identificaţi evenimentele ale căror probabilităţi pot fi determinate cu ajutorul
distribuţiilor statistice probabilistice continue;
să înţelegeţi relaţiile de determinare a probabilităţilor cu ajutorul distribuţiilor
statistice probabilistice continue;
să puteţi aplica relaţiile de determinare a probabilităţilor cu ajutorul distribuţiilor
statistice probabilistice continue în rezolvarea unor probleme de ordin
economic.
174
4.1. Distribuţiile continue uniforme
Cele mai simple distribuții probabilistice continue sunt distribuțiile continue
uniforme.
O variabilă aleatoare este distribuită după o distribuție continuă uniformă
dacă și numai dacă funcția ei de densitate probabilistică este dată de relația
generală:
unde:
α și β sunt constante reale și α < β.
Faptul că aceste funcții pot fi funcții de densitate probabilistică se poate
demonstra destul de ușor.
Astfel, prima condiție necesară pentru a putea fi funcții de densitate
probabilistică, i.e. condiția ca ele să fie pozitive, este îndeplinită deoarece α
< β, ceea ce face ca raportul 1 / β < α să fie pozitiv.
Cea de-a doua condiție necesară pentru a putea fi funcții de densitate
probabilistică este, de asemenea, îndeplinită, deoarece:
175
Această distribuție este folosită ca și distribuție de referință în statistica
matematică. Un domeniu important în care distribuția uniformă standard se
dovedește foarte utilă este cel al generării de numere aleatoare.
Mai jos se va arăta că distribuția uniformă standard este totodată
echivalentă cu un caz particular de distribuție beta (a se vedea paragraful
dedicat distribuțiilor beta).
176
Aceasta înseamnă că varianța distribuțiilor continue uniforme este:
177
Acest rezultat este echivalent cu aria dreptunghiului hașurat din figura 4.1,
dreptunghi cu lungimea egală cu b – a și înălțimea egală cu 1 / β – α.
Figura 4.1
178
În aceste condiții, valoarea așteptată a timpului de recepție este, conform
celor arătate mai sus, dată de ora 7:45 a.m. (= mijlocul intervalului cuprins
între orele 7:00 și 8:30 a.m.).
Se poate, de asemenea, determina probabilitatea ca recepția să aibă loc în
întervalul de ±1 față de această valoare medie. Pentru aceasta, trebuie
determinată mai întâi valoarea abaterii standard (calculele se fac în minute):
179
4.2. Distribuţiile gamma
Conform celor arătate în capitolul 2, o variabilă aleatoare este distribuită
după o distribuție gamma dacă și numai dacă funcția ei de densitate
probabilistică este dată de relația generală:
unde:
α > 0;
β > 0.
Un exemplu de variabilă care poate urma o distribuție gamma este consumul
zilnic de energie electrică dintr-un anumit oraș.
Să presupunem că într-un anumit oraș consumul zilnic de energie electrică
(în milioane kWh) este o variabilă (X) care urmează o distribuție gamma cu
parametrii α = 4 și β = 3. Dacă centrala electrică a orașului are o
capacitate de 25 milioane kWh, atunci probabilitatea ca într-o zi energia
electrică furnizată de aceasta să fie insuficientă este:
180
(integrând de mai multe ori prin părți*)
Figura 4.2
*
Rezultatul se poate obține și online, cu ajutorul motorului de calcul „Wolfram Alpha”, la adresa:
http://www.wolframalpha.com/input/?i=integrate+%281%2F%283%5E4*gamma%5B4%5D%29*x%5
E%284-1%29*e%5E%28-x%2F3%29%29+from+25+to+infinity
181
4.3. Distribuţiile exponențiale
Distribuțiile exponențiale sunt cazuri particulare de distribuții gamma.
Forma generală a distribuțiilor exponențiale se obține pornind de la forma
generală a distribuțiilor gamma și alegând α = 1 și β = θ.
Prin urmare, o variabilă aleatoare este distribuită după o distribuție
exponențială dacă și numai dacă funcția ei de densitate probabilistică este
dată de relația generală:
unde:
θ > 0.
Se poate arăta însă faptul că:
unde:
θ > 0.
182
Asemănător, se poate arăta că varianța unei distribuții exponențiale este
egală cu pătratul parametrului θ al acesteia. Pentru aceasta trebuie
determinată mai întâi valoarea așteptată a pătratului lui X:
183
Aceasta înseamnă că într-adevăr:
184
Diferențiind această funcție, se obține funcția de densitate probabilistică:
După cum se poate observa, această familie de funcții nu este alta decât cea
a funcțiilor exponențiale caracterizate de parametrul θ = 1 / α.
Să presupunem, de pildă, că numărul de mii de kilometri care pot fi parcurși
cu un anumit tip de anvelope se distribuie după o distribuție exponențială
caracterizată de parametrul θ = 35, ceea ce înseamnă că numărul mediu de
kilometri care pot fi parcurși cu acest tip de anvelope este de 35.000.
Dorim să aflăm, în aceste condiții:
a) probabilitatea ca o asemenea anvelopă să poată fi folosită pentru
parcurgerea a cel puțin 25.000 km;
b) probabilitatea ca o astfel de anvelopă să poată fi folosită pentru
parcurgerea a cel mult 45.000 km;
c) probabilitatea ca o anvelopă de acest tip să poată fi folosită pentru
parcurgerea între 25.000 și 45.000 km.
d) probabilitatea ca dintr-un set de 4 anvelope de acest tip, cel puțin două să
poată fi folosite pentru parcurgerea a mai mult de 30.000 km.
Întrucât θ = 35, rezultă că variabila de uzură Y a acestor anvelope este
caracterizată de parametrul α = 1 / θ = 1 / 35 ≈ 0,0286 anvelope uzate
la 1000 de km parcurși.
185
Așadar:
a) probabilitatea ca numărul de kilometri care pot fi parcurși cu o asemenea
anvelopă să fie de cel puțin 25.000 km este:
186
Prin urmare, probabilitatea ca numărul de kilometri care pot fi parcurși cu o
anvelopă de acest tip să fie de cel puțin 25.000 este de aproximativ
48,95%.
Rezultatul obținut este reprezentat în figura 4.3.
Figura 4.3
187
Aceeași probabilitate se poate determina prin considerarea variabilei
Poisson (XP) a numărului mediu de anvelope care se uzează prin
parcurgerea a 45.000 de km:
188
Figura 4.4
189
Rezultatul obținut este reprezentat în figura 4.5.
Figura 4.5
190
Prin urmare, probabilitatea ca numărul de kilometri care pot fi parcurși cu
un asemenea tip de anvelopă să fie cuprins între 25.000 și 45.000 km este
de aproximativ 21,31%.
d) folosind același algoritm ca la punctul a), rezultă că probabilitatea ca
numărul de kilometri care pot fi parcurși cu o asemenea anvelopă să fie mai
mare de 30.000 km este:
191
Prin urmare, probabilitatea ca cel puțin 2 anvelope dintr-un set de 4
anvelope de acest tip să poată fi folosite pentru parcurgerea a mai mult de
30.000 km este de 56,64%.
*
Cf. Vladimir SPOKOINY, Thorsten DICKHAUS, Basics of Modern Mathematical Statistics,
Springer-Verlag, Berlin & Heidelberg, 2015, p. 172.
**
Cf. Encyclopædia Britannica, http://www.britannica.com/biography/Karl-Pearson
192
Valoarea așteptată și varianța distribuțiilor χ 2
Valoarea așteptată a unei distribuții χ 2 este egală cu parametrul ν al
acesteia. Această proprietate se poate demonstra arătând mai întâi că
valoarea așteptată a unei distribuții gamma este egală cu αβ.
Într-adevăr, valoarea așteptată a unei distribuții gamma este:
Ultima egalitate are loc pe baza proprietății funcțiilor gamma, potrivit căreia
(i + 1) = i (i) așa cum s-a arătat în capitolul 3.
193
Întrucât distribuțiile χ 2 sunt distribuții gamma cu parametrii α = ν / 2 și β
= 2, se confirmă, astfel, faptul că valoarea așteptată a unei distribuții χ 2
este*:
demonstra arătând mai întâi că varianța unei distribuții gamma este egală cu
αβ 2.
Pentru aceasta, trebuie determinată valoarea așteptată a distribuției
pătratului unei variabile gamma:
*
Referindu-ne din nou la distribuțiile exponențiale, care sunt distribuții gamma cu parametrii α = 1 și
β = θ, se confirmă, de asemenea, faptul că valoarea așteptată a acestora este:
194
(integrala funcției obținute este egală cu 1, deoarece este vorba chiar despre
funcția de densitate probabilistică pentru o variabilă aleatoare distribuită
după o distribuție gamma)
195
Se confirmă, prin urmare, faptul că varianța unei distribuții χ este*:
2
unde:
α > 0;
β > 0.
*
Referindu-ne încă o dată la distribuțiile exponențiale, care sunt distribuții gamma cu parametrii α=1
și β = θ, se verifică, de asemenea, faptul că varianța acestora este:
196
(integrala este, conform proprietăților funcțiilor beta descrise în capitolul 2,
o reprezentare a funcției beta cu parametrii α + 1 și β)
197
Aceasta înseamnă că varianța unei distribuții beta este:
198
b) probabilitatea ca cel puțin 20% din restaurantele noi din oraș să dea
faliment într-un an este egală cu:
*
Rezultatul se poate obține și online, cu ajutorul motorului de calcul „Wolfram Alpha”, la adresa:
http://www.wolframalpha.com/input/?i=integrate+%28%28gamma%5B7%5D%2F%28gamma%5B2%
5D*gamma%5B5%5D%29%29*x%5E%282-1%29*%281-x%29%5E%285-1%29%29+from+0.2+to+1
199
Așadar, probabilitatea ca cel puțin 20% din restaurantele noi din oraș să
dea faliment într-un an este egală cu 65,53%. Acest rezultat este
reprezentat în figura 4.6.
Figura 4.6
200
(întrucât Γ(1) = 1 și Γ(2) = (2 ‒ 1)! = 1)
201
produs este, de asemenea, în mod obișnuit, tot o variabilă cu o distribuție
normală;
- Ele pot aproxima foarte bine multe alte distribuții statistice continue, dar și
discrete, precum cele binomiale;
- Se poate considera că distribuțiile normale constituie „piatra unghiulară” a
distribuțiilor cu care se operează în statistica inferențială. Motivul constă în
faptul că ele reprezintă distribuții ale estimațiilor obținute la nivel de
eșantion statistic pentru un parametru care caracterizează o populație
statistică. Acest fapt este cel care explică în cea mai mare măsură
importanța acestor distribuții în cercetarea statistică.
Una dintre primele aplicații intuitive ale distribuțiilor normale a fost în
legătură cu analiza erorilor de măsurare manifestate în cadrul observațiilor
astronomice fie ca urmare a folosirii unor instrumente imperfecte, fie din
cauza lipsei de experiență a observatorilor*.
Astfel, în secolul XVII, mai exact în anul 1632, Galileo a făcut următoarele
observații în legătură cu aceste erori de măsurare**:
- Ele par de neevitat;
- Erorile mici se manifestă mai des decât cele mari;
- Ele se distribuie simetric, adică sunt la fel de predispuse în a subestima
sau în a supraestima valorile reale;
- Valoarea reală căutată se plasează în imediata vecinătate a celei mai mari
concentrări de valori obținute prin măsurători.
Cel care a făcut prima referire explicită la forma generală a distribuțiilor
normale a fost, însă, în secolul XVIII, Abraham de Moivre, statistician și
consultant al pasionaților de jocuri de noroc, deseori solicitat să facă difeite
calcule, laborioase pentru acele timpuri, în legătură cu șansele de câștig în
cadrul unor asemenea jocuri.
Acest statistician este, de fapt, cel care a observat pentru prima dată faptul
că atunci când se realizează un număr mare de probe, o distribuție binomială
poate fi suficient de bine estimată de către o curbă (curba normală), așa cum
se poate vedea, de pildă, în figura 4.7***.
*
David M. LANE (coord.). Introduction to Statistics.
http://onlinestatbook.com/Online_Statistics_Education.pdf (accesat: 2 decembrie 2015), p.255.
**
Cf.: Leonid E. MAISTROV. Probability theory: A historical sketch. Transl. Samuel KOTZ. New
York: Academic Press, 1974. Apud: Deborah J. BENNETT. Randomness. Second printing. Harvard
University Press, Cambridge, Massachusetts, London, England 1998, p 90.
(http://www.dmae.upm.es/WebpersonalBartolo/Probabilidad/2_Prob_elemental/Libros%20de%20proba
bilidad/randomness%20-%20by%20deborah%20j.%20bennett.pdf – accesat în 4 decembrie 2015)
***
David M. LANE (coord.). Introduction to Statistics.
http://onlinestatbook.com/Online_Statistics_Education.pdf (accesat: 2 decembrie 2015), pp. 253-255.
202
În urma acestei observații, el a și dedus, de altfel, formula curbei normale,
pe care a și publicat-o în 12 noiembrie 1733, aceasta constituind, astfel,
prima apariție a unei distribuții normale în literatura consacrată*.
Mai târziu, adică la începutul secolului XIX, s-a descoperit faptul că erorile
de măsurare manifestate în cadrul observațiilor astronomice, la care se
referea, așa cum am văzut, Galileo, pot fi descrise de o distribuție
normală**. Acest fapt este datorat eforturilor independente ale americanului
Robert Adrian (1808) și ale germanului Carl Friedrich Gauss (1809) de a
descrie această distribuție și de a arăta că ea descrie foarte bine
manifestarea unor astfel de erori***.
În 1812, folosindu-se de rezultatele lui Gauss și de propriile observații în
legătură cu sumele unor numere aleatoare, Marquis Pierre-Simon Laplace a
formulat o teoremă extrem de importantă pentru statistica inferențială. Este
*
Richard L. SCHEAFFER & Linda J. YOUNG. Introduction to Probability and Its Applications. Third
Edition. Brooks/Cole, Cengage Learning, Boston, USA, 2009,, p. 249.
**
David M. LANE (coord.). Introduction to Statistics.
http://onlinestatbook.com/Online_Statistics_Education.pdf (accesat: 2 decembrie 2015), p.255.
***
Thomas DIETZ & Linda KALOF. Introduction to Social Statistics: The Logic of Statistical
Reasoning. Wiley-Blackwell, 2009, p. 231.
203
vorba despre „teorema limitei centrale”, cunoscută și sub numele de
„legea numerelor mari”.
Conform acestei teoreme, distribuția probabilistică a variabilei sumei unei
mulțimi mari de numere aleatoare independente, uniform distribuite
probabilistic (o astfel de mulțime poate fi, de exemplu, cea a rezultatelor
obținute la aruncarea cu un zar), este una cu o formă aparte, foarte apropiată
de cea a unui clopot.
Această teoremă este aplicabilă și variabilei mediei unei mulțimi de numere
aleatoare independente, uniform distribuite probabilistic, ca urmare a
faptului că aceasta este egală cu suma numerelor în cauză, raportată la
numărul acestora*.
Legea numerelor mari este remarcabilă prin faptul că, potrivit ei, ceea ce se
obține atunci când se adună sau se face media unei mulțimi mari de numere
aleatoare nu este ceva haotic ci, contrar a ceea ce ne-am putea aștepta, ceva
destul de ordonat, în orice caz mult mai ordonat decât numerele aleatoare
care fac parte din mulțimea la nivelul căreia este aplicabilă această lege.
Deoarece, în afara variabilei erorilor de măsurare manifestate în cadrul
observațiilor astronomice, multe alte variabile obținute în legătură cu
măsurători necesare eforturilor științifice ale secolului XIX, păreau să
urmeze un comportament probabilistic similar, s-a considerat că o
disttribuție care aproximează foarte bine un astfel de comportament merită
să fie numită o „distribuție normală”**.
Așa cum se poate intui și cu ajutorul figurii 4.7, o distribuție normală este o
curbă teoretică, construită pe seama unui număr infinit de observații.
Dacă X este o variabilă aleatoare care urmează o distribuție normală, atunci
funcția sa de densitate probabilistică este una care este definită de 2
parametri: media sau valoarea așteptată (), respectiv abaterea standard a
acesteia ():
unde:
x sunt valori cuprinse pe intervalul (‒,+);
este valoarea așteptată a distribuției normale în cauză;
*
Ibidem.
**
Ibidem, p. 232.
204
este abaterea standard a distribuției normale în cauză;
= 3,14159...;
e = 2,71828....
După cum se poate observa, se poate vorbi despre o familie infinită de
funcții normale, orice funcție normală fiind strict determinată de cei doi
parametri: media sau valoarea așteptată (), respectiv abaterea standard a
acesteia ().
Faptul că valoarea așteptată a unei distribuții normale este egală cu este
demonstrat mai jos:
205
Egalitatea varianței unei distribuții normale cu
2
și, implicit, a abaterii
standard a acesteia cu , este demonstrată mai jos:
206
(integrala definită de la ‒ la + dintr-o funcție normală este egală cu 1)
Trebuie subliniat faptul că primul dintre parametrii unei funcții normale ()
poate înregistra orice valoare cuprinsă pe intervalul (‒,+), în timp ce ,
jucând rolul abaterii standard a unei distribuții statistice, nu poate fi decât
strict pozitivă. Acest fapt determină ca orice funcție normală să fie, de
asemenea, una strict pozitivă.
Așa cum se întâmplă și în cazul oricărei alte funcții de densitate
probabilistică, f (X = x; , ) nu este echivalentă cu probabilitatea ca X =
x (aceasta fiind, așa cum s-a arătat în capitolul 2, egală întotdeauna cu 0), ci
este expresia înălțimii curbei normale pentru X = x.
De asemenea, știm, pe baza celor arătate în capitolul 2, că pentru a putea fi
o funcție de densitate probabilistică, aria de sub curba funcției f (X = x; ,
) trebuie să fie egală cu 1.
Pentru a verifica această proprietate, se poate face schimbarea de variabilă:
207
Ultima egalitate are loc pe seama integralei lui Euler-Poisson:
208
Figura 4.9 Distribuțíi normale caracterizate de același parametru ,
dar cu abateri standard diferite
209
Tot pentru x = se obţine și valoarea maximă a unei funcţii normale.
Pentru a demonstra mai ușor acest fapt, se poate arăta că funcția ln(f(x))
are valoarea sa maximă în punctul x = .
Într-adevăr, se poate scrie că:
210
Aceasta înseamnă că valoarea maximă a unei funcții normale se atinge
pentru media acesteia (), ea fiind totodată invers proporțională în raport cu
abaterea standard a funcției (). Astfel, atunci când abaterea standard este
de n ori mai mare, valoarea maximă a funcției este de n ori mai mică
(distribuția normală se aplatizează direct proporțional cu abaterea ei
standard ceea ce este în acord, desigur, cu faptul că o funcție normală este
una perfect simetrică).
De asemenea, întrucât, așa cum se va arăta mai jos, pentru punctele x = ‒
şi x = + derivata a doua a unei funcții normale se anulează,
înseamnă că acestea sunt puncte de inflexiune pentru o astfel de funcție.
Într-adevăr, se poate scrie că:
211
Întrucât atât f (x; , ), cât și 4 sunt strict pozitive, se obține apoi că:
212
Din mulțimea infinită de distribuții normale, o importanță centrală o are așa-
numita „distribuție normală standard” , i.e. distribuția normală definită de
parametrii = 0 și = 1, reprezentată în figura 4.10.
214
Ceea ce rezultă de aici este un fapt foarte important, și anume că funcția de
distribuție a unei variabile aleatoare X este echivalentă cu funcția de
distribuție normală standard obținută prin transformarea valorilor lui X
în valori Z:
*
Calculul P (0 < Z < 1000/1100) s-a făcut cu ajutorul motorului de calcul „Wolfram Alpha”, integrând
funcția normală standard pe intervalul 0 – 1000/1100. Acest calcul se poate verifica la adresa:
http://www.wolframalpha.com/input/?i=integrate+%281%2Fsqrt%282*pi%29*e%5E%28-
%28x%5E2%29%2F2%29+from+0+to+1000%2F1100 (accesat: 15 decembrie 2015)
216
Figura 4.11
*
Calculul P (0 < Z < 500/1100) s-a făcut cu ajutorul motorului de calcul „Wolfram Alpha”, integrând
funcția normală standard pe intervalul 0 – 500/1100. Acest calcul se poate verifica la adresa:
http://www.wolframalpha.com/input/?i=integrate+%281%2Fsqrt%282*pi%29*e%5E%28-
%28x%5E2%29%2F2%29+from+0+to+500%2F1100 (accesat: 16 decembrie 2015)
217
Prin urmare, este 67,53% probabil ca un asemenea tub fluorescent să
funcționeze mai puțin de 9500 de ore, situație reprezentată în figura 4.12.
Figura 4.12
*
Calculul P (0 < Z < 2000/1100) s-a făcut cu ajutorul motorului de calcul „Wolfram Alpha”, integrând
funcția normală standard pe intervalul 0 – 2000/1100. Acest calcul se poate verifica la adresa:
http://www.wolframalpha.com/input/?i=integrate+%281%2Fsqrt%282*pi%29*e%5E%28-
%28x%5E2%29%2F2%29+from+0+to+2000%2F1100 (accesat: 16 decembrie 2015)
218
Așadar, probabilitatea ca un asemenea tub fluorescent să funcționeze cel
mult 7000 de ore este de doar 3,45%. Interpretarea grafică pentru această
situație este redată în figura 4.13.
Figura 4.13
*
A se vedea capitolul 2.
219
(valoarea așteptată a produsului dintre o variabilă aleatoare și o constantă
este egală cu produsul dintre acea constantă și valoarea așteptată a variabilei
aleatoare considerate*)
*
Cf. capitolul 2.
**
Cf. capitolul 2.
220
(dat fiind faptul că atunci când y , y2 e ‒y2 / 2 0, deoarece e ‒y2 / 2
tinde mai repede spre decât y2)
221
Folosind relația de determinare a momentului centrat de ordinul 4, precum și
schimbarea de variabilă (x ‒ ) / = y x = y + ; dx = dy, se
poate arăta că și cel de-al doilea coeficient gamma pentru caracterizarea
formei (2), este egal cu 0. Astfel:
222
Aceasta înseamnă că:
Prin urmare, orice distribuție normală are oblicitate nulă și nu prezintă exces
de kurtosis. Aceasta înseamnă că toate distribuțiile normale sunt
caracterizate prin aceeași formă.
Într-adevăr, ceea ce poate diferenția între ele două sau mai multe distribuții
normale nu poate fi decât scara dată de valoarea abaterii standard. Revenind
la exemplul anterior privind durata de funcționare a unor tuburi fluorescente
circulare, care urmează o distribuție normală cu o valoare așteptată de
9000 de ore și o abatere standard de 1100 de ore, se poate arăta că
această distribuție este caracterizată, de asemenea, de un exces de kurtosis
nul, deși, aparent, ea ar fi, conform figurilor 4.11-4.13, o distribuție
platicurtică.
Pentru aceasta este suficient să reprezentăm distribuția la scara dată de
valoarea abaterii ei standard. În figura 4.14 sunt reprezentate două distribuții
normale. Prima este distribuția normală standard, iar cea de-a doua este
distribuția normală caracterizată de parametrii = 9000 și de = 1100.
Scara folosită pentru reprezentarea celor două distribuții este egală cu
valoarea pentru fiecare caz în parte ( = 1 și, respectiv, = 1100).
Precum se observă, cele două distribuții au aceeași formă.
223
Figura 4.14
unde:
m R;
s > 0.
224
Această funcție poate servi ca și funcție de densitate probabilistică deoarece
este pozitivă pentru orice valoarea a lui x și:
225
normală) cu valoarea așteptată și cu abaterea standard a distribuției. O altă
deosebire importantă față de distribuțiile normale, constă în faptul că
distribuțiile log-normale sunt distribuții asimetrice cu coadă la dreapta. În
figura 4.15 este reprezentată pentru exemplificare distribuția log-normală cu
parametrii m = 4 și s = 1.
*
Opțiunile sunt contracte încheiate între două părți, prin care se stipulează dreptul dar nu și obligația
uneia dintre părți (cumpărătorul opțiunii) de a întreprinde o acțiune prestabilită, care constă, de obicei,
în a cumpăra sau a vinde celeilalte părți un anumit activ suport.
**
Fabio CLEMENTI & Mauro GALLEGATI, Pareto’s Law of Income Distribution: Evidence for
Germany, the United Kingdom, and the United States,
https://ideas.repec.org/p/wpa/wuwpmi/0505006.html
226
care sunt obținute de circa 97% ‒ 99% din populație, poate fi suficient de
bine descrisă de o distribuție log-normală.
În ce privește folosirea distribuțiilor log-normale în cadrul tehnicilor
moderne de estimare a prețurilor viitoare ale opțiunilor financiare, se poate
da ca exemplu celebrul model Black-Scholes, denumit așa după numele
economiștilor Fischer Black și Myron Scholes, cei care l-au dezvoltat încă
din anul 1973 în cadrul lucrării lor „The Pricing of Options and Corporate
Liabilities” *.
Astfel, una dintre premisele acestui model este că randamentele opțiunilor
urmează aproximativ o distribuție log-normală.
*
Fischer BLACK & Myron SCHOLES, The Pricing of Options and Corporate Liabilities, Journal of
Political Economy, Vol. 81, No. 3 (Mai - Iunie, 1973), University of Chicago Press, pp. 637-654,
http://www.jstor.org/stable/1831029
227
228
DISTRIBUȚII DE
EȘANTIONARE 5.
OBIECTIVELE CAPITOLULUI
231
Tabelul 5.1 Eșantioane obținute prin metoda eșantionării fără repetare
pentru cazul populației „părinte” a valorilor 0, 1, 2, 3
Prima A doua A treia
Eșantion
valoare valoare valoare
obținut
extrasă extrasă extrasă
2 0, 1, 2
1
3 0, 1, 3
0 1 0, 2, 1
2
3 0, 2, 3
1 0, 3, 1
3
2 0, 3, 2
2 1, 0, 2
0
3 1, 0, 3
0 1, 2, 0
1 2
3 1, 2, 3
0 1, 3, 0
3
2 1, 3, 2
1 2, 0, 1
0
3 2, 0, 3
0 2, 1, 0
2 1
3 2, 1, 3
0 2, 3, 0
3
1 2, 3, 1
1 3, 0, 1
0
2 3, 0, 2
0 3, 1, 0
3 1
2 3, 1, 2
0 3, 2, 0
2
1 3, 2, 1
232
Tabelul 5.2 Eșantioane obținute prin metoda eșantionării cu repetare
pentru cazul populației „părinte” a valorilor 0, 1, 2, 3
Prima A doua A treia
Eșantion
valoare valoare valoare
obținut
extrasă extrasă extrasă
0 0, 0, 0
1 0, 0, 1
0
2 0, 0, 2
3 0, 0, 3
0 0, 1, 0
1 0, 1, 1
1
2 0, 1, 2
3 0, 1, 3
0
0 0, 2, 0
1 0, 2, 1
2
2 0, 2, 2
3 0, 2, 3
0 0, 3, 0
1 0, 3, 1
3
2 0, 3, 2
3 0, 3, 3
0 1, 0, 0
1 1, 0, 1
0
2 1, 0, 2
3 1, 0, 3
1
0 1, 1, 0
1 1, 1, 1
1
2 1, 1, 2
3 1, 1, 3
233
Tabelul 5.2 - continuare
0 1, 2, 0
1 1, 2, 1
2
2 1, 2, 2
3 1, 2, 3
1
0 1, 3, 0
1 1, 3, 1
3
2 1, 3, 2
3 1, 3, 3
0 2, 0, 0
1 2, 0, 1
0
2 2, 0, 2
3 2, 0, 3
0 2, 1, 0
1 2, 1, 1
1
2 2, 1, 2
3 2, 1, 3
2
0 2, 2, 0
1 2, 2, 1
2
2 2, 2, 2
3 2, 2, 3
0 2, 3, 0
1 2, 3, 1
3
2 2, 3, 2
3 2, 3, 3
0 3, 0, 0
1 3, 0, 1
3 0
2 3, 0, 2
3 3, 0, 3
234
Tabelul 5.2 - continuare
0 3, 1, 0
1 3, 1, 1
1
2 3, 1, 2
3 3, 1, 3
0 3, 2, 0
1 3, 2, 1
3 2
2 3, 2, 2
3 3, 2, 3
0 3, 3, 0
1 3, 3, 1
3
2 3, 3, 2
3 3, 3, 3
235
Tabelul 5.3
Valori Frecvență
Variante ale Probabilitate de
apărute în de apariție, apariție,
variabilei
eșantion, conform
mediilor de tabelului
indiferent de
eșantionare, 5.1,
momentul
j
apariției lor nj
0, 1, 2 1,00 6 6 / 24 = 0,25
0, 1, 3 1,33 6 0,25
0, 2, 3 1,67 6 0,25
1, 2, 3 2,00 6 0,25
Total 24 1,00
236
unde:
este variabila aleatoare a valorilor mediilor determinate la nivelul
eșantioanelor de mărime n care se pot forma din populația „părinte”
considerată;
Xi, (i = 1, 2, ..., n) reprezintă cele n variabile aleatoare ale valorilor
posibile la nivelul celor n extrageri necesare în cadrul eșantionării.
238
Tabelul 5.4
0, 1, 2 1,00 6 6 / 64 =
0,093750
0, 1, 3 1,33 6 0,093750
0, 2, 3 1,67 6 0,093750
1, 2, 3 2,00 6 0,093750
0, 0, 1 0,33 3 0,046875
0, 0, 2 0,67 3 0,046875
0, 0, 3 1,00 3 0,046875
1, 1, 0 0,67 3 0,046875
1, 1, 2 1,33 3 0,046875
1, 1, 3 1,67 3 0,046875
2, 2, 0 1,33 3 0,046875
2, 2, 1 1,67 3 0,046875
2, 2, 3 2,33 3 0,046875
3, 3, 0 2,00 3 0,046875
3, 3, 1 2,33 3 0,046875
3, 3, 2 2,67 3 0,046875
0, 0, 0 0,00 1 0,015625
1, 1, 1 1,00 1 0,015625
2, 2, 2 2,00 1 0,015625
3, 3, 3 3,00 1 0,015625
Total 64 1,000000
239
Tabelul 5.5
Probabilitate de
Medii de Frecvență apariție,
eșantionare, de apariție,
j nj
0,00 1 1 / 64 = 0,015625
0,33 3 0,046875
0,67 6 0,093750
1,00 10 0,156250
1,33 12 0,187500
1,67 12 0,187500
2,00 10 0,156250
2,33 6 0,093750
2,67 3 0,046875
3,00 1 0,015625
Total 64 1,000000
Pe baza tabelului 5.5, se poate construi acum tabelul 5.6, în care sunt
realizate calculele necesare determinării varianței valorilor înregistrate de
către variabila .
Potrivit acestor calcule, varianța valorilor înregistrate de către variabila
este:
240
Tabelul 5.6
Medii de Probabilitate
eșantionare, de apariție,
j
241
Varianța distribuției de eșantionare a mediilor în cazul eșantionării
fără repetare
În cazul eșantionării fără repetare, variabilele aleatoare corespunzătoare
celor n extrageri sunt, precum se știe, dependente. Aceasta înseamnă că
valoarea covarianței pentru două astfel de variabile este diferită de 0.
În cele ce urmează, se va putea vedea că pentru a ajunge la relația de
determinare a varianței distribuției de eșantionare a mediilor în cazul
eșantionării fără repetare, este necesar să obținem, mai întâi, o relație de
determinare a covarianței pentru oricare două variabile aleatoare (Xi și Xj)
corespunzătoare celor n extrageri în funcție de varianța valorilor care
compun populația „părinte” ( 2).
Astfel, varianța variabilei în cazul eșantionării fără repetare este:
242
unde 1 ≤ i ≠ j ≤ n.
Ca și în cazul eșantionării cu repetare, varianța oricărei variabile Xi,
corespunzătoare extragerii de ordinul i, 1 ≤ i ≤ n, este egală cu varianța
valorilor care compun populația „părinte” ( 2):
unde 1 ≤ i ≠ j ≤ n.
243
Deoarece, în cazul eșantionării cu repetare, variabilele corespunzătoare
celor n extrageri sunt independente, covarianța dintre oricare două variabile
Xi și Xj, 1 ≤ i ≠ j ≤ n, este egală cu 0, ceea ce face ca varianța distribuției
de eșantionare a mediilor să fie egală, așa cum s-a arătat deja, cu / n.
2
unde 1 ≤ ≠ β ≤ N;
N · (N – 1) = numărul total de combinații între abaterile xα – și abaterile
xβ – . Aceasta înseamnă că fiecare astfel de combinație are asociată o
probabilitate egală cu 1 / [N · (N – 1)].
Determinarea covarianței C (Xi, Xj), 1 ≤ i ≠ j ≤ n, în funcție de varianța
valorilor care compun populația „părinte” ( 2) se poate deduce pe baza
următoarelor egalități care au loc atunci când 1 ≤ ≠ β ≤ N:
244
(întrucât suma abaterilor unui grup de valori de la media lor este egală
întotdeauna cu 0)
246
unde 1 ≤ ≠ β ≤ 4.
Întrucât valorile pe care le pot înregistra variabilele xα și xβ sunt valorile
populației „părinte” 0, 1, 2, 3 , ale căror medie este egală cu (0 + 1 + 2
+ 3) / 4 = 1,5, înseamnă că, potrivit calculelor din tabelul 5.7, putem scrie:
Tabelul 5.7
xα xβ xα – xβ – (xα – ) · (xβ – )
0 1 -1,5 -0,5 0,75
0 2 -1,5 0,5 -0,75
0 3 -1,5 1,5 -2,25
1 0 -0,5 -1,5 0,75
1 2 -0,5 0,5 -0,25
1 3 -0,5 1,5 -0,75
2 0 0,5 -1,5 -0,75
2 1 0,5 -0,5 -0,25
2 3 0,5 1,5 0,75
3 0 1,5 -1,5 -2,25
3 1 1,5 -0,5 -0,75
3 2 1,5 0,5 0,75
Sumă -5,00
-5 / 12 =
Medie
= -0,4167 = C (xα, xβ)
247
Prin urmare, varianța variabilei este:
Tabelul 5.8
248
Astfel, în cazul eșantionării cu repetare, pentru abaterea standard a
distribuției de eșantionare a mediilor este valabilă relația:
249
are la bază următoarea teoremă (formulată în temeiul unei importante
teoreme a matematicianului rus Pafnuti Lvovici Cebâșev):
Tabelul 5.9
251
Abaterea standard a valorilor de la media lor aritmetică este, în acest caz,
egală cu:
Tabelul 5.10
253
Figura 5.2 Distribuția valorilor determinate pentru eșantioanele de
mărime n = 3 extrase fără repetare din populația „părinte” compusă
din valorile 0, 1, 2, 3
254
Dacă X1, X2, ... Xn formează un eșantion extras aleator dintr-o
populație infinită de valori cu media și varianța , atunci variabila
2
Z,
*
Demonstrațiile teoremelor 1-4 depășesc scopul lucrării de față. De asemenea, nu este demonstrată în
lucrarea de față prima parte a teoremei 5. Cea de-a doua parte a acestei teoreme este însă demonstrată
mai jos, la paginile 258-261.
255
1) Dacă o variabilă aleatoare X urmează distribuția normală standard
(distribuția normală standard este prezentată în paragraful 4.6), atunci
variabila X urmează o distribuție χ cu parametrul ν = 1;
2 2
2) Dacă X1, X2, ... Xn sunt variabile aleatoare independente care urmează
fiecare distribuții normale standard, atunci variabila Y a sumei variabilelor
X12, X22, ... Xn2 urmează o distribuție χ 2 cu parametrul ν = n;
3) Dacă X1, X2, ... Xn sunt variabile aleatoare independente care urmează
fiecare distribuții χ cu parametrii ν1, ν2, ... și, respectiv, νn, atunci variabila
2
2
a) și s sunt variabile independente;
b) variabila aleatoare (n ‒ 1) s2 / 2 urmează o distribuție χ 2 cu
parametrul ν = n ‒ 1 grade de libertate.
Toate aceste teoreme sunt utile în testarea unor ipoteze statistice. În
particular, cea de 5-a teoremă este utilă pentru inferențierea în legătură cu
varianța statistică.
2
Este de subliniat faptul că varianța unui eșantion aleator (s ) de mărime n
se determină cu relația:
256
Mai departe, notând xi ‒ = ai se poate scrie:
257
(deoarece valoarea așteptată a pătratelor valorilor ai se identifică cu varianța
valorilor populației „părinte” ( ))
2
Așadar, într-adevăr:
2
O relație alternativă de calcul pentru s , utilă în cazul în care sunt cunoscute
doar date centralizate, este:
258
Demonstrația acestei relații nu este dificilă:
259
Cea de-a doua parte a teoremei 5 nu este, de asemenea, dificil de
demonstrat. Pentru aceasta, se poate folosi egalitatea găsită mai sus (a se
vedea paginile 255-256):
260
aleatoare (n ‒ 1) s /
2
2 urmează o distribuție χ 2 cu parametrul ν = n ‒ 1
grade de libertate.
Datorită celor 5 teoreme enunțate, distribuțiile χ
2
se pot folosi în foarte
multe aplicații.
În particular, teorema 5 poate fi utilă în fundamentarea de teste statistice
privitoare la varianța sau abaterea standard a unei variabile care urmează o
distribuție normală. Aplicații ale acestui fapt sunt, de exemplu, în legătură
cu controlul statistic al calității producției, pe baza observațiilor înregistrate
la nivel de eșantioane ale produselor realizate.
De pildă, să presupunem că un producător de sucuri declară că abaterea
standard () a cantității de suc îmbuteliat de acesta în sticle de 2 litri este
mai mică de 0,003 litri. Pentru a testa dacă afirmația producătorului poate
fi susținută statistic, se alege un eșantion de mărime n = 11 din aceste sticle
de suc. Presupunând că variabila cantității de suc îmbuteliat urmează o
distribuție normală și că la nivelul eșantionului ales se observă o abatere
standard (s) egală cu 0,0018 litri, ce se poate fi spune despre afirmația
producătorului?
Întrucât variabila cantității de suc îmbuteliat urmează o distribuție normală,
se poate afirma că variabila (n ‒ 1) s2 / 2 urmează o distribuție χ 2 cu
parametrul ν = n ‒ 1 = 11 ‒ 1 = 10 grade de libertate. Această distribuție
este reprezentată în figura 5.3.
261
Probabilitatea ca variabila X = (n ‒ 1) s / să fie mai mică decât o
2 2
262
Aceasta înseamnă că în ipoteza că abaterea standard () a cantității de suc
îmbuteliat de producător în sticle de 2 litri este în realitate egală cu 0,003
litri, atunci:
*
Cf. Donald L. HARNETT, Introduction to Statistical Methods, 3rd edition, Addison-Wesley Longman
Publishing Company, 1982, pp. 283-284.
263
unde:
‒∞ < t < +∞;
ν reprezintă numărul de grade de libertate.
După cum se poate observa, o astfel de distribuție este definită tot de un
parametru notat cu ν. Folosirea aceleiași notații (ν) pentru parametrul
distribuțiilor t ca și în cazul distribuțiilor χ este justificată de faptul că acest
2
264
mai întâi pe z în funcție de y și t și determinăm derivata parțială a lui z
astfel exprimat, în funcție de t:
265
Pentru ultima integrală obținută se poate face, mai departe, schimbarea de
variabilă:
unde:
‒∞ < t < +∞.
266
Se verifică, prin urmare, că h (t) este chiar funcția de densitate probabilistică
„Student” cu ν grade de libertate.
2
2) Dacă și s sunt media și varianța unui eșantion de mărime n, selectat
aleator dintr-o populație „părinte” de valori care urmează o distribuție
normală cu media și varianța , atunci variabila T,
2
*
A se vedea capitolul 2.
267
urmează o distribuție t cu parametrul ν = n ‒ 1 grade de libertate.
Pentru ilustrarea utilității familiei de distribuții t în efortul de inferențiere
statistică în legătură cu media unei populații „părinte” de valori care
urmează o distribuție normală, în cazul în care nu se cunoaște varianța
populației „părinte”, să presupunem, de exemplu, că pe parcursul celor 13
măsurători din cadrul unui test privitor la consumul de carburant al unui
anumit model de autoturism, s-a constatat un consum mediu de 5,5 litri la
100 de km parcurși, cu o abatere standard de 0,4 litri la 100 de km
parcurși. Presupunând, de asemenea, că variabila consumului de carburant
la 100 de km parcurși urmează o distribuție normală, ce se poate spune, în
aceste condiții, despre afirmația producătorului acestui model de autoturism,
conform căreia consumul mediu de carburant pentru acesta este de 5 litri la
100 de km?
Întrucât nu se cunoaște varianța variabilei consumului de carburant al
modelului considerat de autoturism la nivelul întregii populații „părinte” de
astfel de autoturisme fabricate de către producătorul în cauză, este necesară,
în acest caz, utilizarea unei distribuții probabilistice t.
Fiind vorba despre n = 13 măsurători realizate în cadrul testului desfășurat,
înseamnă că trebuie să luăm în considerare o distribuție t caracterizată de
parametrul ν = n ‒ 1 = 13 ‒ 1 = 12 grade de libertate. Această distribuție
este reprezentată în figura 5.4.
268
Figura 5.4 Distribuția t caracterizată de ν = 12 grade de libertate
*
Calculând această probabilitate cu ajutorul motorului de calcul „Wolfram Alpha”
(http://www.wolframalpha.com/input/?i=P%28X%3E4%29+student+distribution+12+degrees+of+freed
om), se obține o valoare de aproximativ 0,00088.
269
Distribuțiile t pot fi folosite și la inferențierea statistică în legătură cu
diferența dintre mediile a două populații „părinte” de valori care urmează
distribuții normale, în cazul în care varianțele acestora sunt necunoscute
(dacă acestea sunt cunoscute se vor folosi în acest scop distribuțiile
normale).
270
Conform relației de mai sus, atunci când numărul de grade de libertate tinde
spre infinit, varianța distribuțiilor t tinde spre 1, adică spre varianța
distribuției normale standard.
Distribuțiile F
O altă familie importantă de distribuții pentru inferențierea statistică în
legătură cu selecția realizată la nivelul unor populații statistice de valori care
urmează distribuții normale este cea a distribuțiilor F, denumite așa ca
urmare a faptului că au fost studiate prima dată, în anul 1924, de către
statisticianul și biologul Ronald Aylmer Fisher*.
*
Cf. Donald L. HARNETT, Introduction to Statistical Methods, 3rd edition, Addison-Wesley Longman
Publishing Company, 1982, p. 294.
271
Funcția generală de densitate probabilistică a familiei de distribuții F este
dată de:
unde:
ν1 și ν2 reprezintă parametrii gradelor de libertate care descriu o distribuție
F;
β (ν1 / 2, ν2 / 2) este funcția beta* cu parametrii ν1 / 2 și ν2 / 2.
Importanța distribuțiilor F decurge din faptul că ele se folosesc în analiza de
varianță, cu ajutorul lor putându-se estima raportul dintre varianțele
necunoscute a două populații „părinte”.
Estimarea acestui raport se poate face pe baza varianțelor determinate la
nivelul a două eșantioane selectate aleator, câte unul pentru fiecare dintre
cele două populații „părinte”.
În timp ce, așa cum am arătat, distribuțiile normale pot fi folosite la
inferențierea statistică în legătură cu diferența dintre mediile a două
populații „părinte” de valori care urmează distribuții normale, ale căror
varianțe sunt cunoscute, iar distribuțiile t pot fi folosite la inferențierea
statistică în legătură cu diferența dintre mediile a două populații „părinte”
*
A se vedea capitolul 2.
272
de valori care urmează distribuții normale, ale căror varianțe sunt
necunoscute, distribuțiile F pot fi folosite la inferențierea statistică în
legătură cu raportul dintre varianțele a două astfel de populații „părinte”.
Utilitatea distribuțiilor F pentru efortul de inferențiere statistică în legătură
cu raportul dintre varianțele a două populații „părinte” de valori care
urmează distribuții normale decurge din următoarele două teoreme:
1) Dacă U și V sunt două variabile aleatoare independente care urmează
distribuții χ cu ν1 și, respectiv, ν2 grade de libertate, atunci variabila F,
2
273
de F și v și determinăm derivata parțială a lui u astfel exprimat, în funcție
de F:
274
Pentru ultima integrală obținută se poate face, mai departe, schimbarea de
variabilă:
275
Înlocuind acest rezultat în relația lui h (F) se obține în final că pentru F >
0:
276
urmează distribuții χ 2 cu parametrii ν1 = n1 ‒ 1 și, respectiv, ν2 = n2 ‒ 1
grade de libertate;
b) faptul că două eșantioane selectate aleator, de mărime n1 și, respectiv,
n2, sunt independente, înseamnă că toate cele n1 + n2 variabile care le
alcătuiesc pe acestea sunt, de asemenea, independente, ceea ce determină ca
și variabilele aleatoare U și V de la punctul a) să fie independente. Acest
fapt dă posibilitatea aplicării pentru aceste variabile aleatoare a teoremei
precedente. Prin urmare, se poate afirma că variabila F,
277
este valabilă relația:
unde:
este procentila cu rangul = (1 – α) · 100 a distribuției F cu ν1
și ν2 grade de libertate; prin aceasta se înțelege valoarea pentru care există o
probabilitate egală cu 1 – α ca o variabilă care urmează distribuția F cu ν1
și ν2 să ia valori pe intervalul
De exemplu, pentru α = 0,10, ν1 = 23 și ν2 = 7 se obține că:
*
A se vedea:
http://www.wolframalpha.com/input/?i=F+distribution%5B23%2C7%5D+alpha+%3D+0.90
**
A se vedea:
http://www.wolframalpha.com/input/?i=F+distribution%5B7%2C23%5D+alpha+%3D+0.10
278
Tabelul 5.11
Țara A Țara B
279
Conform rezultatelor care se pot obține și online, cu ajutorul motorului de
calcul „Wolfram Alpha”, 95% din valorile acestei distribuții aparțin
**
intervalului ≈ (0,44*; 2,27 ). Acest fapt este reprezentat în figura 5.7,
unde s-a notat cu α diferența dintre 100% și gradul de încredere cerut
(95%), i.e. α = 100% ‒ 95% = 1 ‒ 0,95 = 0,05.
Prin urmare, se poate scrie că:
*
A se vedea:
http://www.wolframalpha.com/input/?i=F+distribution%5B24%2C24%5D+alpha+%3D+0.975
**
A se vedea:
http://www.wolframalpha.com/input/?i=F+distribution%5B24%2C24%5D+alpha+%3D+0.025
280
Pe baza datelor din tabelul 5.11 se obține mai departe că:
281
Figura 5.7
282
unde:
s12 și s22 sunt varianțele determinate la nivelul a două eșantioane
independente de mărime n1 = ν1 + 1 și, respectiv, n2 = ν2 + 1, selectate
aleator din cele două populații „părinte”;
este procentila cu rangul = (1 – α / 2) · 100 a distribuției F
cu ν1 și ν2 grade de libertate;
este procentila cu rangul = (1 – α / 2) · 100 a distribuției F
cu ν2 și ν1 grade de libertate;
este procentila cu rangul = (α / 2) · 100 a distribuției F
cu ν2 și ν1 grade de libertate;
este procentila cu rangul = (α / 2) · 100 a distribuției F
cu ν1 și ν2 grade de libertate.
283
284
BIBLIOGRAFIE
SELECTIVĂ
285
286
Tudorel ANDREI, Stelian STANCU, Statistica - Teorie şi aplicaţii,
Editura ALL, Bucureşti, 1995.
Constantin ANGHELACHE, Statistică teoretică şi economică – teorie şi
aplicaţii, Editura Economică, Bucureşti, 2004.
Mariana-Elena BALU, Bazele statisticii, Editura Fundaţiei „România de
Mâine”, Bucureşti, 2007.
Tudor BARON, Constantin ANGHELACHE, Emilia ŢIŢAN, Statistică,
Editura Economică, Bucureşti, 1996.
Maria BĂDIŢĂ, Silvia Elena CRISTACHE, Statistică – aplicaţii practice,
Editura Mondan, Bucureşti, 1998.
Peter C. BELL, Peter E. F. NEWSON, Statistics for Business with
Spreadsheets: Text and Cases, 2nd edition, Scientific Press, South San
Francisco, California, 1992.
Deborah J. BENNETT. Randomness. Second printing. Harvard University
Press, Cambridge, Massachusetts, London, England, 1998.
Elena BIJI, Tudor BARON, Statistică teoretică şi economică, Editura
didactică şi pedagogică, Bucureşti, 1995.
Fischer BLACK & Myron SCHOLES, The Pricing of Options and
Corporate Liabilities, Journal of Political Economy, Vol. 81, No. 3 (Mai -
Iunie, 1973), University of Chicago Press, pp. 637-654.
Ken BLACK, Business statistics. An introductory course, West Publishing
Company, 1999.
Harvey J. BRIGHTMAN, Howard SCHNEIDER, Statistics for Business
Problem Solving, South-Western Publishing Company, 1992.
Remus BUTĂNESCU, Statistică în afaceri (manual pentru uzul
studenţilor), Editura „Mira Design” Sibiu, 2000.
Remus BUTĂNESCU-VOLANIN, Statistică descriptivă. Ediția a 2-a.
Editura Universității „Lucian Blaga” Sibiu, 2014.
Thomas DIETZ & Linda KALOF. Introduction to Social Statistics: The
Logic of Statistical Reasoning. Wiley-Blackwell, 2009.
Iosif Constantin DRĂGAN, Mihai C. DEMETRESCU, Practica
prospectării pieţii, Editura Europa Nova, Bucureşti, 1996.
Liliana DUGULEANĂ, Bazele statisticii economice, Editura C.H. Beck,
Bucureşti, 2012.
287
John E. FREUND, Ronald E. WALPOLE, Mathematical Statistics, 4th
edition, Prentice-Hall Inc., 1987.
Morris HAMBURG, Basic Statistics: A Modern Approach, 3rd edition,
Harcourt Brace Jovanovich, 1985.
Donald L. HARNETT, Introduction to Statistical Methods, 3rd edition,
Addison-Wesley Longman Publishing Company, 1982.
Dumitru IACOB, Statistica, Editura Universităţii „Ştefan cel Mare”,
Suceava, 2000.
Alexandru ISAIC-MANIU, Constantin MITRUŢ, Vergil VOINEAGU,
Statistica pentru managementul afacerilor, ediţia a II-a, Editura
Economică, Bucureşti, 1999.
Alexandru ISAIC-MANIU Constantin MITRUŢ, Vergil VOINEAGU,
Statistică, Editura Universitară, Bucureşti, 2004.
Elisabeta JABA, Ana GRAMA, Analiza statistica cu SPSS sub Windows,
Editura Polirom, Iaşi, 2004.
Elisabeta JABA, Statistica, ediţia a II-a, Editura Economică, Bucureşti,
2000.
Gerald KELLER, Brian WARRACK, Henry BARTEL, Statistics for
management and economics, 3rd edition, Duxbury Press, 1994.
David M. LANE (coord.). Introduction to Statistics.
http://onlinestatbook.com/Online_Statistics_Education.pdf
Leonid E. MAISTROV. Probability theory: A historical sketch. Transl.
Samuel KOTZ. New York: Academic Press, 1974.
Ludwig von MISES, The Ultimate Foundation of Economic Science, Van
Nostrand Edition, 1962, http://www.mises.org
Neil J. SALKIND, Statistics for People who (think They) Hate Statistics,
2nd edition, Sage Publications, Inc., 2003,
http://books.google.com/books?id=naHRZCYkJ3sC
Richard L. SCHEAFFER & Linda J. YOUNG. Introduction to Probability
and Its Applications. Third Edition. Brooks/Cole, Cengage Learning,
Boston, USA, 2009.
Doina Maria SIMION, Statistică descriptivă, Editura Universităţii „Lucian
Blaga” din Sibiu, 2002.
Murray R. SPIEGEL, David P. LINDSTROM, Statistics, McGraw-Hill
Professional, 2000, http://books.google.com/books?id=KdDzrQGAlnkC
288
Vladimir SPOKOINY, Thorsten DICKHAUS, Basics of Modern
Mathematical Statistics, Springer-Verlag, Berlin & Heidelberg, 2015.
Stephen M. STIGLER, Who Discovered Bayes's Theorem, The American
Statistician, Vol. 37, No. 4, Part 1 (Nov. 1983), pp. 290-296.
Vladimir TREBICI (coord.), Mică enciclopedie statistică, Editura
Stiinţifică şi Enciclopedică, Bucureşti, 1985.
Emilia ŢIŢAN, Simona GHIŢĂ, Angelica BĂCESCU-CĂRBUNARU,
Bazele statisticii, Editura Meteora Press, Bucureşti, 2002.
*** http://www.wolframalpha.com
289