Documente Academic
Documente Profesional
Documente Cultură
PROBABILITATE
Teoria probabilităţilor este o parte integrantă a statisticii în general, dar este, în particular,
esenţială pentru teoria inferenţei statistice, care asigură decidenţilor (oameni de afaceri,
economişti) un grup de metode care ii ajută în procesul de luare a deciziilor în condiţii de
incertitudine. Incertitudinea provine din cauză că, în situaţiile din viaţa reală avem rareori
informaţii perfecte referitoare la variatele input-uri ale unei decizii. Indiferent dacă incertitudinile
se referă la cererea pentru produsul nostru, la nivelul viitor al ratelor dobânzii sau la posibilitatea
unei greve de muncă, teoria probabilităţilor este utilă pentru măsurarea gradului de incertitudine
pe care îl presupune o astfel de situaţie. Teoria probabilităţilor ne permite să evităm ignorarea
incertitudinii sau considerarea acesteia într-un mod întâmplător, oferindu-ne o bază pentru a trata
incertitudinea într-o manieră consistentă şi raţională.
1
observarea unui număr par la aruncarea cu zarul nu poate fi folosit ca eveniment elementar,
deoarece el poate fi descompus în trei rezultate posibile: 2, 4 şi 6; în acest caz avem un
eveniment.
Un eveniment este orice colecţie de evenimente elementare; el este un subansamblu al
mulţimii S. Evenimentele se notează cu majuscule şi pot fi definite prin cuvinte sau prin lista
evenimentelor elementare componente. Reluând exemplul anterior, evenimentul observarea unui
număr par la aruncarea unui zar poate fi descris alternativ ca A = {2,4,6}. Convenţional, când
utilizăm literele pentru enumerarea (listarea) evenimentelor elementare care formează un spaţiu
de selecţie, utilizăm notaţia Ei pentru a desemna evenimentul cu rangul i din listă.
Dacă notăm cu Ei (i=1,6) evenimentul constând în apariţia feţei cu i puncte a unui zar, este
natural să considerăm realizarea evenimentului Ei sau a evenimentului Ej (apariţia feţei cu i
puncte sau a feţei cu j puncte) tot un eveniment, pe care îl numim reuniunea celor două
evenimente şi îl notăm Ei U Ej.
Evenimentul Ω = E1 U E2 U E3 U E4 U E5 U E6, care se realizează întotdeauna când
aruncăm zarul (la orice aruncare a zarului apare una dintre cele 6 feţe), îl numin eveniment
sigur.
Evenimentul care nu se realizează în nicio probă a experimentului se numeşte eveniment
imposibil, îl notăm cu Φ şi este complementarul evenimentului sigur (în exemplul nostru,
corespunde situaţiei în care zarul s-ar aşeza pe o muchie, deci niciuna din cele 6 feţe nu apare).
Evenimentul E1 U…U Ei-1 U Ei+1 U… U E6, care se realizează atunci şi numai atunci când
nu se realizează evenimentul Ei, îl numim eveniment complementar al lui Ei şi îl notăm CEi sau
Ei . Evenimentul sigur este complementarul evenimentului imposibil.
Considerând două evenimente A şi B, vom spune că:
• evenimentul care implică realizarea atât a lui A cât şi a lui B reprezintă intersecţia
celor două evenimente şi îl notăm A ∩ B;
• evenimentul A implică evenimentul B (A ⊂ B), dacă în orice probă în care se
realizează evenimentul A se realizează şi evenimentul B;
• evenimentele A şi B sunt echivalente (A=B), dacă şi numai dacă A ⊂ B şi B ⊂ A;
• diferenţa evenimentelor A şi B (A-B) este evenimentul care se realizează într-o
probă, dacă se realizează evenimentul A şi nu se realizează evenimentul B; A – B =
A∩ B ;
• evenimentele A şi B se numesc compatibile, dacă în cel puţin o probă a
experimentului se realizează şi A şi B (A ∩ B ≠ Ø);
• evenimentele A şi B se numesc incompatibile, dacă producerea unuia dintre ele
intr-o probă, atrage după sine imposibilitatea producerii celuilalt eveniment în
aceeaşi probă (A ∩ B = Ø).
Observaţii:
• orice eveniment este compatibil cu evenimentul sigur relativ la acelaşi experiment:
∀ A, A ∩ Ω ≠ Ø;
• oricare două evenimente contrare sunt incompatibile;
• evenimentul sigur şi cel imposibil sunt contrare şi deci incompatibile ( Ω ∩ Ø = Ø).
2.2 Definirea probabilităţii
Cuvântul probabilitate nu are o definiţie precisă. Există trei interpretări distincte ale
probabilităţii care oferă trei moduri de abordare în determinarea probabilităţii cu care un rezultat
particular se va produce.
Abordarea clasică încearcă să deducă probabilitatea unui rezultat în mod logic din natura
simetrică a experimentului. Dacă o monedă perfect echilibrată este aruncată, de exemplu, este
logic să ne aşteptăm ca rezultatul cap şi rezultatul pajură să fie egal probabile; putem afirma că
probabilitatea să observăm o apariţie a pajurei este 1/2 . În general, dacă un experiment are n
posibile rezultate, fiecare fiind egal probabile, probabilitatea apariţiei oricărui rezultat particular
este 1/n. O astfel de probabilitate o numim teoretică, deoarece este calculată fără efectuarea
experimentului, folosind doar informaţia care se cunoaşte despre situaţia fizică.
Abordarea empirică presupune exprimarea probabilităţii unui rezultat ca o măsură a
frecvenţei relative de apariţie. Presupunem că un experiment aleator este repetat de n ori (n
2
fiind un număr mare). Dacă x reprezintă numărul de cazuri în care un rezultat particular a apărut
în cele n încercări (probe), raportul x/n constituie o bună estimare pentru probabilitatea cu care
acest rezultat particular va apărea. De exemplu, dacă 700 dintre ultimii 1000 de clienţi care au
intrat într-un magazin, au cumpărat ceva, probablitatea ca orice client care va intra in magazin să
cumpere este de 0.7. Cu cât n este mai mare, cu atât va fi mai bună estimarea probabilităţii
dorite. Probabilitatea determinată folosind rezultatele unui experiment efecuat de un anumit
număr de ori, se numeşte probabilitate empirică, sau frecvenţă relativă.
În multe situaţii practice, rezultatele experimentale nu sunt probabil egale şi nu există un
istoric al repetărilor experimentului; de exemplu, dacă dorim să estimăm probabilitatea ca
vânzările unei firme să atingă valoare de 1 milion de euro într-un an. În astfel de cazuri apelăm la
o abordare subiectivă, în care probabilitatea asociată unui rezultat particular reflectă doar
gradul nostru de încredere că acest rezultat va apărea; altfel spus, ea reflectă o evaluare
personală a situaţiei şi se poate baza doar pe intuiţie. În multe cazuri, totuşi, intuiţia ori evaluarea
subiectivă a unui om de afaceri este probabil influenţată de rezultatele obţinute în situaţii similare;
astfel, abordarea prin intermediul frecvenţei relative joacă adesea un rol important în formarea
probabilităţilor subiective.
Fiecărui eveniment elementar Ei dintr-un câmp de evenimente fundamental (evenimentele
au probabilităţi egale de apariţie) îi ataşăm un număr P(Ei), numit probabilitatea lui Ei , care să
reprezinte probabilitatea obţinerii acestui rezultat particular; ea se calculează după formula:
număr de cazuri favorabile lui E i
P(Ei)=
număr de cazuri posibile
Pentru orice câmp de evenimente S = {E1,E2,…,En}, probabilităţile asociate evenimentelor
elementare Ei trebuie să îndeplinească următoarele cerinţe de bază:
1. 0 ≤ P(Ei) ≤ 1, pentru fiecare i
n
2. ∑ P(E ) = 1 .
i =1
i
P( A ∩ B) 1 / 6 1
P(A/B) = = =
P( B) 3/ 6 3
P( A ∩ B) 1 / 6 1
P(B/A) = = =
P( A) 2/6 2
4
P(A) + P( A ) = 1.
Regula complementului, pentru orice eveniment A, este:
P(A) = 1 – P( A ).
Deşi simplă, regula este foarte folositoare: uneori este mai uşor să calculăm probabilitatea
producerii unui eveniment, calculând doar probabilitatea ca acesta să nu se producă şi scăzând
rezultatul din 1.
• Regula adunării – ne permite determinarea probabilităţii unei reuniuni de evenimente
pe baza probabilităţilor altor evenimente. Pentru oricare două evenimente A şi B, regula adunării
lor este:
P(A U B) = P(A) + P(B) – P(A ∩ B).
Dacă cele două evenimente sunt reciproc exclusive, atunci P(A ∩ B) = 0, iar regula adunării se
simplifică:
P(A U B) = P(A) + P(B).
• Regula înmulţirii – ne permite să determinăm probabilitatea unor evenimente
combinate; ea este, practic, o altă modalitate de calcul a probabilităţilor condiţionate. Pentru
oricare două evenimente A şi B, regula înmulţirii lor este:
P(A ∩ B) = P(A) × P(B/A)
= P(B) × P(A/B).
Cele două formule sunt echivalente; utilizarea uneia sau alteia într-o situaţie concretă depinde de
informaţiile pe care le deţinem.
Pentru cazul particular în care cele două evenimente A şi B sunt independente:
P(A/B) = P(A) şi P(B/A) = P(B)
regula înmulţirii se simplifică:
P(A ∩ B) = P(A) × P(B).
O metodă foarte utilă pentru calculul probabilităţilor este arborele de probabilitate, în care
diferitele evenimente posibile ale unui experiment sunt reprezentate prin linii sau ramuri ale
acestuia; metoda este utilă în special pentru a ne asigura că am identificat toate evenimentele
elementare si am atribuit corect probabilităţile asociate.
Exemplul 2.1. Considerând experimentul aruncării unei monede (rezultate posibile Cap şi
Pajură) de două ori, câmpul de evenimente asociat este:
S = { CC, CP, PC, PP }.
Arborele de probabilitate al acestui experiment este prezentat în figura 2.2.
Figura 2.2. Arborele de probabilitate pentru aruncarea unei monede de două ori.
5
Metoda se poate aplica orcărui experiment aleator care poate fi descompus în mai multe
etape (în exemplul nostru, prima şi a doua aruncare a monedei). Punctele din figură sunt numite
noduri iar ramurile care pornesc din fiecare nod particular reprezintă rezultatele alternative care
pot apărea din acel punct. Nodul iniţial este numit origine. Orice rută a arborelui de la origine
până la un nod terminal corespunde unui eveniment elementar posibil. În exemplul nostru, avem
patru evenimente simple cu probabilităţi egale de apariţie.
Folosind cunoştinţele despre probabilităţile condiţionate şi regulile probabilităţilor, putem
reprezenta alternativ mulţimea rezultatelor astfel:
S = { C1 ∩ C2 , C1 ∩ P2, P1 ∩ C2, P1 ∩ P2 }.
unde evenimentele sunt definite astfel:
• C1 = capul a fost observat la prima aruncare;
• C2 = capul a fost observat la a doua aruncare;
• P1 = pajura a fost observată la prima aruncare;
• P2 = pajura a fost observată la a doua aruncare;
Arborele probabilităţii acestui experiment, folosind noile notaţii, este prezentat în figura 2.3.
Figura 2.3. Arborele probabilităţii pentru aruncarea unei monede de două ori.
6
O variabilă aleatoare este o funcţie care asociază o valoare numerică fiecărui eveniment
elementar dintr-un câmp de evenimente. Altfel spus, considerând un experiment aleator, dacă
asociem un număr real fiecărui rezultat posibil din mulţimea rezultatelor, ansamblul acestor
numere, supuse hazardului, constituie o variabilă aleatoare. Mai puţin formal, putem spune că o
variabilă aleatoare este o variabilă a cărei valoare numerică este determinată de rezultatul unui
experiment aleator.
În mod uzual, variabilele aleatoare sunt notate cu majuscule de la sfârşitul alfabetului (X, Y,
W,...) iar valorile acestora cu litere mici (x,y,w,...).
În funcţie de numărul de valori posibile pe care şi le pot asuma, variabilele aleatoare sunt
de două tipuri: discrete şi continue. O variabilă aleatoare discretă poate lua o mulţime
numărabilă de valori; o variabilă aleatoare continuă poate lua o mulţime nenumărabilă de
valori. Mai simplu, o variabilă aleatoare este discretă dacă putem identifica prima valoare, a doua
valoare etc. În majoritatea situaţiilor practice, o variabilă discretă reprezintă numărul de ori în
care un atribut particular este observat: numărul de produse defecte dintr-un lot, numărul de
apeluri telefonice primite într-o anumită oră la o centrală telefonică, numărul de cumpărători,
observaţi într-o perioadă, care preferă un anumit produs.
Observaţii. O muţime numărabilă de valori posibile nu înseamnă în mod necesar o mulţime
finită; este posibilă numărarea valorilor unei variabile aleatoare fără o limită superioară. De
exemplu, numărul de aruncări ale unei monede până la prima apariţie a pajurei ; această
variabilă aleatoare poate fi 1 ( dacă la prima aruncare apare pajura ), 2 (dacă la prima aruncare
apare capul şi la a doua apare pajura) şi aşa mai departe. O astfel de variabilă nu are limită
superioară a valorii sale, dar, fiind numărabilă (putem identifica toate valorile posibile ), ea este
discretă.
Mulţimea valorilor posibile ale unei variabile aleatoare continue este un interval al dreptei
reale (nu neapărat mărginit) sau chiar axa reală; altfel spus, este o mulţime nenumărabilă infinită
de valori posibile. În mod specific, astfel de variabile înregistrează valoarea unor măsurători cum
ar fi timpul, greutatea, lungimea.
2.4.1. Variabila aleatoare discretă.
Atunci când cunoaştem valorile posibile ale unei variabile aleatoare şi probabilităţile
asociate acestor valori, putem spune că avem repartiţia variabilei aleatoare ( sau distribuiţia sa
de probabilitate).
Un tabel, matrice, formulă sau grafic ce conţine toate valorile posibile ale unei variabile
aleatoare discrete împreună cu probabilităţile asociate acestora poartă denumirea de repartiţie a
variabilei aleatoare discrete (distribuiţie discretă de probabilitate ).
Fie X, o variabilă aleatoare discretă asociată unui anumit experiment aleator. Funcţia de
probabilitate a acestei variabile este funcţia p, definită astfel:
p: R → [0,1]
x a p(x) = P( X=x ),
unde P( X=x ) este probabilitatea ca variabila X să ia valoarea particulară x în momentul realizării
experimentului; ea este suma proabilităţilor asociate evenimentelor elementare pentru care X ia
valoarea x.
În experimentul aruncării unei monede de două ori (exemplul 2.1.), considerăm că variabila
aleatoare X reprezintă numărul de apariţii ale pajurei; X poate lua deci oricare din cele trei valori:
0,1 sau 2. Probabilităţile pot fi asociate valorilor lui X cu ajutorul datelor din tabelul 2.1 , care
cuprinde fiecare eveniment elementar şi probabilităţile acestora, calculate anterior prin
intermediul arborelui de probabilitate.
7
Tabelul 2.1.
Valorile lui X corespunzătoare evenimentelor elementare.
Eveniment elementar x Probabilitate
CC 0 1/4
CP 1 1/4
PC 1 1/4
PP 2 1/4
0 1/4
1 1/2
2 1/4
8
Figura 2.5. Reprezentarea grafică a distribuţiei de probabilitate a lui X
= ∑ p( x ) .
xi ∈ X
i
Proprietăţile mediei. Dacă X şi Y sunt două variabile aleatoare discrete, iar a este o
constantă oarecare, sunt adevărate relaţiile:
• E(a) = a
• E(aX) = aE(X)
• E(X+Y) = E(X) + E(Y)
E(X-Y) = E(X) – E(Y)
E(XY) = E(X)*E(Y), dacă X şi Y sunt variablile aleatoare independente, adică:
P( X=x | Y=y0 ) = P(X=x) sau
P(Y=y | X=x0 ) = P(Y=y), ∀x0 ∈ X şi y 0 ∈ Y .
9
Dacă X este o variabilă aleatoare discretă, atunci ∀a, b ∈ R, Y= ax + b este tot o variabilă
aleatoare discretă a cărei medie este:
E(Y) = a E(X) + b.
Dispersia (varianţa) unei variabile aleatoare discrete X, cu xi valori posibile care apar cu
probabilităţile p(xi) şi a cărei medie este E(x) = μ, o definim astfel:
V (X ) = σ 2 = ∑ (x
xi ∈ X
i − μ ) 2 ⋅ p ( xi ) .
∑x
2
V (X ) = i ⋅ p ( xi ) − μ 2 .
xi ∈ X
σ = V ( X ).
Proprietăţile dispersiei. Dacă X şi Y sunt două variabile aleatoare discrete iar a este o
constantă oarecare, sunt adevarate relaţiile:
• V(a) = 0
• V(aX) = a2 V(X)
• V(X+a) = V(X)
• V(X+Y) = V(X) + V(Y)
V(X-Y) = V(X) – V(Y), dacă X şi Y sunt independente.
Exemplul 2.2. Presupunem următorul joc: după ce mizăm 1 euro, aruncăm un zar şi primim un
număr de monede de 20 eurocenţi egal cu numărul de puncte obţinute la aruncarea zarului.
Dacă notăm cu x numărul obţinut la aruncarea zarului, putem defini variabila aleatoare discretă X
astfel:
x 1 2 3 4 5 6
Dacă notăm cu Y câştigul net, exprimat în eurocenţi, pe care îl obţinem la acest joc, Y este
tot o variabilă aleatoare discretă pe care o putem defini astfel:
Y = 20 ⋅ X − 100
Ţinând cont de proprietăţile mediei şi dispersiei, putem calcula cei trei indicatori ai variabilei
Y, fără a descrie funcţia sa de probabilitate, astfel:
E (Y ) = 20 ⋅ E ( X ) − 100 = 20 ⋅ (21 / 6) − 100 = −30 eurocenţi
σ y = V (Y ) = 34.16.
Numim moment teoretic niţial de ordinul k al variabilei aleatoare discrete X expresia:
M k = E( X k ) = ∑x
x∈ X i
k
i pi ; k ∈ Ν
10
Momentul teoretic centrat de ordinul k al variabilei X este:
μ k ( X ) = M k ( X − μ ) = E (( x − μ ) k ); k ∈ Ν
unde E(X)=μ.
Momentul centrat de ordinul doi este dispersia variabilei aleatoare X, iar momentul iniţial de
ordinul întâi este media.
Spre deosebire de variabilele aleatoare discrete care au un număr finit de valori posibile (de
exemplu, x = 0,1,2,... ,n) sau un număr infinit numărabil de valori (x = 0,1,2,...), variabilele
aleatoare continue au un număr infinit nenumărabil de valori posibile si pot lua orice valoare într-
un interval cuprins între două puncte a şi b ( a < x < b ). În timp ce pentru o variabilă aleatoare
discretă este specific procesul de numărare, pentru o variabilă aleatoare continuă este specifică
măsurarea unor atribute, cum ar fi: lungimea, greutatea, timpul, temperatura.
Putem enumera toate valorile posibile ale unei variabile aleatoare discrete şi este
semnificativă considerarea probabilităţii ca o valoare particulară (individuală) pe care aceasta o
poate lua; nu putem însă enumera toate valorile unei variabile aleatoare continue, deoarece
există întotdeauna o altă valoare posibilă între oricare două dintre aceste valori – de aceea doar
intervalele sunt semnificative pentru această variabilă. Probabilitatea ca o variabilă aleatoare
continuă X să ia o anumită valoare particulară este zero. Nu este practic posibil să asociezi o
probabilitate pozitivă fiecărei valori din mulţimea infinită (nenumărabilă) a acestora iar
suma acestor probabilităţi să ramână egală cu 1. Pentru o astfel de variabilă are semnificaţie
doar probabilitatea ca valoarea luată de X să fie cuprinsă într-un anumit interval de valori.
O variabilă aleatoare este continuă dacă ansamblul valorilor sale posibile corespunde
celor dintr-un interval dat, finit sau infinit.
Exemplul 2.3. Un experiment aleator poate fi considerat observarea duratei convorbirilor
telefonice pentru un eşantion reprezentativ de angajaţi ai unei companii într-o zi de lucru. Dacă
notăm cu X durata convorbirilor (măsurată în minute), deoarece angajaţii au fost selactaţi
întâmplător (şi în număr suficient de mare), iar ansamblul valorilor posibile corespunde unui
interval de timp, atunci X este o variabilă aleatoare continuă. Reprezentarea grafică a datelor
astfel culese se poate realiza printr-o histogramă prin dreptunghiuri (figura 2.6.) ale cărei
frecvenţe relative pot fi reduse proporţional cu mărimea intervalului de variaţie, astfel încât
suprafaţa histogramei să fie egală cu 1, iar suprafaţa fiecărui dreptunghi să reprezinte proporţia
în care rezultatele măsurătorilor aparţin acestei clase (interval).
frecvenţe relative
0,3
0,25
0,2
0,15
0,1
0,05
0
2 2 5 5 8 8 11 11 14 14 17 17 20
durata convorbirilor (minute)
11
Dacă realizăm un număr foarte mare de măsurători, frecvenţele relative rezultate pot aproxima
distribuţia frecvenţelor relative pentru întreaga populaţie a duratelor convorbirilor telefonice, iar
proporţia pe care o reprezintă aria unui dreptunghi ar putea fi o bună aproximaţie a adevăratei
probabilităţi de a obţine o mărime plasată în acest interval. Experienţa a arătat că, cu cât volumul
eşantionului de măsurători devine mai mare iar dimensiunea intervalelor mai mică, poligonul
frecvenţelor pentru o astfel de distribuţie (ajustat pentru a avea o suprafaţă totală egală cu 1)
devine o curbă.
Pentru o variabilă aleatoare continuă X, definim funcţia de repartiţie astfel:
F : R → [0,1], F ( x) = P( X < x) .
Funcţia de repartiţie are următoarele proprietăţi:
• F (∞ ) = 1
• F (−∞) = 0
• 0 ≤ F ( x) < 1; ∀x ∈ R
• P (a ≤ X < b) = F (b) − F (a ); a, b ∈ R, a < b
• F (a ) ≤ F (b) dacă a < b
Numim densitate de probabilitate (de repartiţie) a variabilei aleatoare X funcţia:
f : R → [o, ∞], integrabilă pe R, astfel încât:
x
F ( x) = ∫ f (t )dt
−∞
b
• P (a < X < b) = ∫ f ( x)dx, a < b
a
−∞
- formula simplificată:
∞
V ( x) = ∫x f ( x)dx − μ 2
2
−∞
σ = V (X ) = σ 2
• momentul iniţial de ordinul k (k ∈ N)
∞
M k (X ) = ∫x ⋅ f ( x)dx
k
−∞
F(x)
Putem spune că funcţia de repartiţie reprezintă aria suprafaţei situată între curba lui f şi axa
orizontală şi la stânga lui x; aria acestei suprafeţe, pentru X = x, este nulă.
13
2.5 Funcţii de probabilitate particulare ale variabilelor aleatoare
discrete
Cel mai utilizat tip de cercetare statistică este, fară îndoială, sondajul statistic; scopul său
este de a cunoaşte numărul de unităţi statistice de un anumit tip particular din interiorul unei
populaţii date. În domeniul probabilităţilor există, în acelaşi timp, o variabilă aleatoare discretă
definită ca numărul de rezultate de un anumit tip care este posibil de obţinut în urma realizării
unei experienţe aleatoare specifice. Funcţia de probabilitate a unei astfel de variabile se numeşte
legea binomială sau, în anumite cazuri, legea lui Poisson.
Studiul acestei variabile aleatoare discrete particulare şi al funcţiei sale de probabilitate este
absolut necesar pentru sondajul statistic, prezentat în partea a treia a acestei lucrări.
2.5.1 Distribuţia binomială
Distribuţia binomială este poate cea mai importantă distribuţie discretă. Înaintea descrierii
componentelor unui context binomial considerăm necesară definirea unei noţiuni preliminare,
direct corelată cu repartiţia binomială şi, poate, mai bine cunoscută, schema lui Bernoulli (sau
schema bilei revenite a lui Bernoulli);aceasta este o experienţa aleatoare al cărei ansamblu de
rezultate se poate rezuma prin două stări: succes şi eşec. Prezentăm câteva exemple ale unor
experiemente de acest tip:
• aruncarea unui zar cu dorinţa de a obţine un 6; în acest caz, schema lui Bernoulli
este aruncarea zarului, succesul constă în evenimentul obţinerea unui 6 iar eşecul
constă în evenimentul obţinerea unui număr diferit de 6; probabilitatea unui succes,
notată cu p este p=1/6 iar probabilitatea eşecului, notată cu q este q = 5/6 = 1 - p;
• extragerea unei bile dintr-o urnă care conţine 10 bile albe şi 20 de bile negre, cu
dorinţa de a extrage o bilă albă; schema lui Bernoulli este extragerea unei bile;
succesul, definit prin evenimentul extragerea unei bile albe are probabilitatea
p=10/30=1/3 iar eşecul, definit prin evenimentul extragerea unei bile negre are
probabilitatea q = 20/30 = 2/3 = 1 - p.
Cea mai importantă caracteristică a unui experiment aleator binomial este faptul că există
doar două rezultate posibile. Exemple de experienţe aleatoare cu o astfel de dihotomie a
rezultatelor sunt numeroase: la aruncarea unei monede rezultă cap sau pajură; un candidat
electoral este votat sau nu, un produs fabricat este corespunzător sau rebut; un angajat este
bărbat sau femeie, la revizia contabilă o factură este corectă sau incorectă. Convenţional, cele
două rezultate posibile sunt calificate prin succes sau eşec.
Experimentele binomiale care prezintă interes implică, de obicei, mai multe încercări
(probe) ale experimentului de bază; în definirea unui experiment binomial, aceste încercări
trebuie să satisfacă o serie de condiţii sau, altfel spus, un experiment binomial posedă
următoarele proprietăţi:
• experimentul constă într-un număr fix n de încercări;
• rezultatul fiecărei încercări poate fi clasificat în una din cele două categorii: succes
sau eşec;
• probabilitatea p a succesului rămâne constantă pentru fiecare încercare;
• fiecare probă a experimentului este independentă de celelalte probe ale acestuia.
Câteva exemple de experimente binomiale:
♦ Aruncarea de 10 ori a unei monede şi observarea rezultatului fiecărei aruncări.
Desemnarea uneia dintre cele două posibile rezultate ale fiecărei probe (aruncări)
ca succes este arbitrară. Să presupunem că apariţia capului (banului) reprezintă
un succes; dacă moneda este echilibrată corect, probabilitatea succesului este
p=0.5 pentru fiecare dintre cele 10 aruncări, independente între ele. Într-un astfel
de experiment binomial, punctul maxim de interes îl reprezintă numărul de
succese (de apariţii ale capului monedei) observate in cele 10 probe. Variabila
aleatoare care înregistrează numărul de succese observate în cele n=10 încercări
este numită variabilă aleatoare binomială.
♦ Testarea a 500 de produse selectate aleator dintr-un lot de produse fabricate de
o firmă pentru a stabili dacă au defecte (sunt rebuturi) sau nu. Numărul de
încercări ale experimentului este 500; fiecare încercare (testarea unui produs
14
selectat) are două rezultate posibile: rebut sau nonrebut. Presupunând că rata
rebuturilor este de 1% şi calificând apariţia unui rebut ca succes, probabilitatea
succesului este p=0.01 şi cea a eşecului q=0.99. Deoarece produsele au fost
selectate aleator pentru testare, cele 500 de încercări sunt independente.
♦ Intervievarea unui eşantion aleator de 1000 de persoane cu privire la preferinţa
pentru un anumit canal de televiziune, A, în defavoarea celorlalte. Experimentul
este compus din 1000 de încercări; fiecare încercare (interogarea unei persoane
selectate) are două rezultate posibile: repondentul preferă canalul de televiziune
A sau nu. Dacă presupunem că 30% din populaţie preferă canalul A, atunci
p=0.3, iar q=0.7 (încercările sunt independente).
Observaţii:
• în fiecare dintre exemplele anterioare am făcut o presupunere care ne-a
permis să asociem o valoare lui p;
• în general, succesul este definit în mod arbitrar în cadrul unui experiment
binomial (şi nu este întotdeauna ceea ce ne-am dori să se întâmple - definim
ca succes găsirea unui rebut);
• variabila aleatoare care ne interesează într-un astfel de experiment este
numărul de succese.
15
Proba 1 Proba 2 Proba 3 Evenimente Probabilităţile
X
elementare evenimentelor
elementare
S SSS p3 3
p
S
E SSE p2(1-p) 2
p (1-p)
S S SES 2
p (1-p) 2
p
p E
(1-p)
(1-p) E SEE p (1-p) 2 1
S ESS p2(1-p) 2
S p
(1-p) E p
(1-p) E ESE p (1-p) 2 1
E p
(1-p) S EES p (1-p) 2 1
(1-p)
F EEE (1-p) 3 0
0 (1-p)3
1 3p(1-p)2
2 3p2(1-p)
3 p3
Aplicând şi în acest caz regula înmulţirii pentru evenimente elementare şi ţinând cont de
datele din tabelul 6.1, observăm că probabilitatea ca un astfel de eveniment simplu să apară este
px(1-p)n-x; pentru a determina şi coeficienţii acestor evenimente simple, studiem din nou arborele
de probabilitate: numărul de evenimente cu x succese este egal cu numărul de rute (ramuri ale
arborelui) în care succesul apare de x ori, altfel spus cu numărul de posibilităţi de a alege x
obiecte dintr-un total de n obiecte, cunoscut din matematică drept Cnx:
n!
C nx =
x!(n − x)!
16
Pentru experimentul cu trei încercări din exemplul 2.4, calculăm aceşti coeficienţi în tabelul
2.4
Coeficienţii binomiali (n=3)
Tabelul 2.4
x
x C3
0 C30=1
1 C31=3
2 C32=3
3 C33=1
⎧C x p x ⋅ (1 − p ) n − x ≥ 0, daca. x ∈ {0,...,1,.....n}
p ( x) = ⎨ n
⎩0, pentru oricare alta valoare a lui x
2. ∑ε C
xi X
x
n p x (1 − p ) n − x =1
Deoarece pentru demostrarea acestei egalităţi se foloseşte formula binomului lui Newton,
această distribuţie particulară de probabilitate a primit numele binomială.
Pentru a exemplifica aplicarea formulei generale a lui p(x), revenim la exemplul 2.4, unde X
: B(3;1/6):
3!
p(x=0)=p(0)= (1/6) 0 (5/6) 3 =0.5788
0!2!
3!
p(x=1)=p(1)= (1/6) 1 (5/6) 2 =0.3472
1!2!
3!
p(x=2)=p(2)= (1/6) 2 (5/6) 1 =0.0694
2!1!
3!
p(x=3)=p(3)= (1/6) 3 (5/6) 0 =0.0046
3!0!
Distribuţia binomială în acest caz este prezentată în tabelul 2.5 iar reprezentarea sa grafică este
realizată în figura 2.10.
17
Tabelul 2.5. Distribuţia binomială pentru n=3 şi p=1/6
x p(x)
0 0.5788
1 0.3472
2 0.0694
3 0.0046
k
k ∑ p ( x)
x =0
0 0.5788
1 0.9260
2 0.9954
3 1.0000
18
Caracteristicile numerice ale unei variabile aleatoare binomiale X : B(n,p) sunt:
• media E(X)=np
• dispersia V(X)=np(1-p)
2.5.2 Distribuţia Poisson (Legea evenimentelor rare)
A doua distribuţie discretă ca importanţă este distribuţia Poisson. Dacă o variabilă aleatoare
binomială reprezintă numărul de succese care apar într-un număr fix de încercări, o variabilă
aleatoare Poisson reprezintă numărul de evenimente rare (succese) care apar într-un interval de
timp sau o regiune specificate. Prezentăm câteva exemple de activităţi la care se poate aplica cu
succes distribuţia Poisson: înregistrarea numărului de convorbiri telefonice primite de la un
pupitru (tablou de comandă) într-o perioadă specificată de timp; înregistrarea numărului de sosiri
la o locaţie service într-o perioadă dată de timp; înregistrarea numărului de bacterii dintr-o cultură
specificată. Pentru ca distribuţia Poisson să poată fi aplicată corect unor astfel de situaţii
practice, trebuie să fie îndeplinite trei condiţii care reprezintă proprietăţile unui experiment
Poisson:
• numărul de succese care apar în oricare interval este independent de numărul de
succese care apar în oricare alt interval;
• probabilitatea ca un succes să apară într-un interval este aceeaşi pentru toate
intervalele de mărime egală şi este proporţională cu mărimea intervalului;
• probabilitatea ca două sau mai multe succese să apară într-un interval tinde spre
zero pe măsură ce intervalul devine mai mic.
În descrierea anterioară a experimentului Poisson, succesul se referă la apariţia unui
eveniment de interes (dorit, asteptat) iar intervalul se referă fie la un interval de timp fie la un
interval de spaţiu (arie sau regiune). Modelul Poisson se poate deci aplica atunci când
evenimentele de interes apar aleator, în mod independent unul faţă de celălalt şi rareori.
Variabila aleatoare Poisson indică numărul de succese care apar pe durata unui interval
de timp dat sau într-o regiune specificată, într-un experiment Poisson.
Fie λ > 0, dacă x este o variabilă aleatoare astfel încât
e −λ λx
∀ x ∈ N,
x!
p(x)=P(X=x)=
0 pentru oricare altă valoare a lui x
atunci X este o variabilă aleatoare discretă supusă unei legi Poisson de parametru λ , notată X :
P0( λ ).
În formula distribiţiei de probabilitate a unei variabile aleatoare Poisson
e −λ λx
P(X=x) = p(x)= , x=0,1,...
x!
λ reprezintă numărul mediu de succese apărute într-un interval dat de timp sau spaţiu iar e =
2.71828... este baza logaritmilor naturali.
e −λ λx
Pentru λ > 0, funcţia f : R → R dacă x ∈ R
x!
f(x)=
19
Pentru a utiliza în practică formula distribuţiei de probabilitate Poisson, trebuie să obţinem o
estimaţie a lui λ , de obicei dintr-o serie de date anterioară (istorică). Pentru a facilita calcului
probabilităţilor Poisson, valorile tabelare ale probabilităţilor Poisson cumulative sunt prezentate
în anexa nr 7.
Numărul de valori pe care o varibilă aleatoare Poisson şi le poate asuma este nelimitat;
variabila aleatoare Poisson este o variabilă discretă cu infinit de multe valori posibile – spre
deosebile de variabila aleatoare binomială, care are un număr finit de valori posibile.
Dacă X este o variabilă aleatoare Poisson pentru care λ este numărul mediu de succese
apărute într-un anumit interval, media şi dispersia acesteia au aceeaşi valoare:
E(X) = V(X) = λ .
Contextul utilizării practice a unei variabile supuse legii lui Poisson se poate defini astfel:
Fie X : B(n;p)
dacă n → ∞ (n este mare)
şi p → 0 (p este mic)
atunci X: ≅ P0( λ ) unde λ = np
Acest enunţ ne permite să considerăm o lege Poisson ca o aproximare a legii binomiale
pentru care, în acelaşi timp, n este mare şi p este mic şi lui λ îi atribuim valoarea produsului np.
Cu cât valoarea lui n este mai mare şi cea a lui p este mai mică, cu atât această aproximare este
mai corectă; în practică se consideră valabilă aproximarea dacă n ≥ 50 şi np ≤ 10 sau p < 0.05.
Exemplul 2.5. Considerăm că într-o populaţie umană 0.2% dintre persoanele acesteia
suferă de o anumită boală M. Selectăm întâmplător şi cu revenire un eşantion de 500 de
persoane şi ne propunem să răspundem următoarelor întrebări:
a) care este probabilitatea să numărăm exact trei persoane care suferă de maladia M?
n = 500 încercări; la fiecare încercare, probabilitatea de succes este p = 0.002 iar cea de
eşec este 1-p=0.998.
Daca x = numărul de bolnavi din cele 500 de încercări, atunci X : B(500;0.002).
Observăm că n ≥ 50 iar np = 500*0.002 = 1 ≤ 10 (p=0.002<0.05); putem considera:
e −1 *13
X:B(500;0.002) ≅ P0(500*0.002)*(0.998) 497 ≅
3! =0.06131
b) care este probabilitatea să găsim mai mullt de două persoane bolnave în interiorul
eşantionului?
Considerând X: ≅ P0(1), obţinem:
P(X>2)=P(X=3)+P(X=4)+...+P(X=500)
=1-[P(x = 0) + P(x = 1) + P(x = 2)]
≅ 1-(0.3679+0.3679+0.1839)
≅ 0.0803
2.5.3 Distribuţia uniformă discretă
Reconsiderăm experienţa aleatoare a aruncării unui zar, pentru care am precizat anterior
că oricare din feţele zarului are o probabilitate egală de apariţie. Se poate defini o variabilă
aleatoare X care poate lua una dintre valorile 1,2,...,6 cu aceeaşi probabilitate, p=1/6, numită
variabilă aleatoare uniformă discretă.
Generalizând, o variabilă aleatoare discretă este uniformă, dacă repartiţia sa este:
⎛ 1..........2..........k ..........n ⎞
X= ⎜⎜ ⎟⎟
⎝1 / n......1 / n......1 / n........1 / n ⎠
P(X=K)=1/n; k= 1, n
Legea de repartiţie uniformă discretă caracterizează evenimentele elementare ale unei
variabile aleatoare discrete X pentru care probabilităţile sunt egale:
20
f(x)=1/n, ∀ x∈{1,2,...,n}
Reprezentarea grafică a unui astfel de repartiţiei este prezentată în figura 2.11.
n2 −1
σ=
12
2.6 Funcţii de probabilitate particulare ale variabilelor aleatoare
continue
2.6.1 Distribuţia continuă uniformă
O distribuţie continuă care beneficiază de o mare simplitate descriptivă dar şi de o limitată
aplicabilitate practică, fiind utilizată în special ca intrument teoretic, este distribuţia uniformă.
O variabilă aleatoare X, definită pe un interval a ≤ x ≤ b, este uniform distribuită dacă funcţia
sa de densitate a probabilităţii este:
1
f(x)= a ≤ x ≤ b, unde a<b
b−a
Altfel spus, o variabilă aleatoare continuă este distribuită uniform dacă:
• ea nu se pooate realiza (produce) decât pe un interval finit de valori(a ≤ x<b);
• şi nu există nici o regiune a acestui interval în care ea să aibă şanse mai mari de a
se realiza decât în alte regiuni.
Principalele caracteristici numerice ale unei variabile aleatoare uniforme sunt:
a+b
o media E ( X ) =
2
(b − a ) 2
o dispersia V ( X ) =
12
Reprezentarea grafică a unei distribuţii continue uniforme este cea din figura 2.12.
21
Figura 2.12. Distribuţia continuă uniformă
22
O variabilă aleatoare care este normal distribuită (sau este supusă unei legi normale de
probabilitate) se numeşte variabilă aleatoare normală, se notează cu X : N( μ ; σ 2 ) - unde μ şi
σ 2 reprezintă valorile mediei şi dispersiei acestei variabile - şi are o reprezentare grafică precum
cea din figura 2.13.
Se observă că variabila normală poate lua orice valoare pe axa reală (de la - ∞ la + ∞ ) iar
funcţia normală de densitate a probabilităţii f(x) este continuă; are valori pozitive pentru toate
valorile lui x, este simetrică în raport cu x = μ , posedă un punct de maximum pentru x = μ (şi y
1
= ) şi două puncte de inflexiune (unul în x = μ − σ şi altul în x = μ + σ ) . Fiind vorba de o
σ 2π
funcţie de densitate de probabilitate, aria suprafeţei delimitată de curba funcţiei şi axa orizontală
este egală cu 1 şi, din cauza simetriei, aria fiecărei suprafeţei de o parte si alta a axei x = μ este
egală cu 0.5. Ca în cazul oricărei alte funcţii de densitate de probabilitate, valoarea lui f(x) nu
este probabilitatea cu care X ia valoarea x, ci o expresie a înălţimii curbei la valoarea x.
Cu toate că, aparent, o distribuţie normală este complet determinată odată cu specificarea
celor doi parametri μ şi σ 2 , în realitate, există o întreagă familie de distribuţii normale care au
aceeaşi formă (clopotul lui Gauss) dar diferă una de cealaltă prin localizarea mediei şi dispersia
valorilor. În figura 2.14 sunt prezentate trei distribuţii normale cu aceeaşi dispersie dar cu medii
diferite, iar în figura 2.15 sunt reprezentate trei distribuţii normale cu aceeaşi medie şi dispersii
diferite.
23
Figura 2.15. Distribuţii normale cu aceeaşi medie şi dispersii diferite.
Din infinitatea de distribuţii normale, una dintre acestea este utilizată ca model de referinţă
pentru toate celelalte: distribuţia normală standard, care are media μ = 0 şi dispersia σ 2 = 1.
Variabila aleatoare normală corespunzătoare, cu media zero şi abaterea standard egală cu
unitatea, se numeşte variabilă aleatoare normală standard, notată cu Z : N(0,1) .
Calculul probabilităţilor pentru o variabilă supusă unei legi normale se efectuează cu
ajutorul tabelului de distribuţie a probabilităţilor variabilei Z : N(0,1) prezentat în anexa nr 8.
Acest tabel cuprinde valorile lui P(0 ≤ Z ≤ z) pentru valori ale lui z pozitiv precizate la două
zecimale; valoarea lui P(0 ≤ Z ≤ z) se găseşte la intersecţia liniei corespunzătoare întregului şi
primei zecimale cu coloana corespunzătoare celei de a doua zecimale.
Exemplul 2.6. Presupunem că durata timpului în care studenţii rezolvă un test grilă este
cunoscută ca fiind normal distribuită, cu o medie de 60 de minute şi o abatere standard de 8
minute. Dacă înregistrăm (observăm) timpul necesar pentru un anumit student, care este
probabilitatea ca timpul acestuia să fie cuprins între 60 şi 70 de minute?
Notăm cu X timpul necesar pentru rezolvarea testului; probabilitatea pe care ne-am propus
să o aflăm este: P(60 ≤ X ≤ 70) - zona haşurată din figura 2.16a.
24
Reamintim că probalilitatea ca o variabilă aleatoare continuă X să ia o valoare particulară
este zero; de aceea:
P(60 ≤ X ≤ 70) = P(60 < X < 70).
Pentru a putea utiliza tabelul distribuţiei normale trebuie să transformăm variabila normală
X din exemplul nostru în variabila normală standard Z. Standardizarea unei variabile normale se
realizează astfel:
x−μ
Z=
σ
Interpretarea lui Z este foarte importantă: o valoare a lui Z: semnifică (este egală cu)
distanţa de la valoarea corespunzătoare a lui X până la medie, măsurată în număr de abateri,
standard ale lui X.
Pentru a afla probabilitatea dorită: P(60 < X < 70), trebuie să determinăm intervalul valorilor
lui z corespunzător intervalului de valori ale lui x care ne interesează:
60 − 60 x − 60 70 − 60
60 < X < 70 ⇒ < <
8 8 8
⇒ P(60 < X < 70) = P(0 < Z < 1.25) zona haşurată din figura 6.9b
O astfel de probabilitate, care are formula generală P(0 < Z < z0) se poate determina cu
ajutorul tabelului distribuţiei normale standard: localizăm rândul pe care se plasează 1.2 şi apoi
căutăm intersecţia acestuia cu coloana 0.05;
P(60 < X < 70) = P(0 < Z < 1.25) = 0.3944
Probabilitatea ca un anumit student să rezolve testul în intervalul de timp cuprins între 60 şi
70 de minute este deci 0.3944.
Am precizat anterior că valoarea z corespunzătoare unei valori x0 date are o interpretare
foarte importantă. Deoarece x0 - μ exprimă distanţa dintre x0 şi medie, valoarea z
corespunzătoare exprimă aceeaşi distanţă în număr de abateri standard:
x0 − μ
z0 =
σ
Probabilitatea ca o variabilă să ia o valoare în cadrul intervalului definit de z0 abateri
standard de la medie, rămâne constantă pentru orice variabilă aleatoare normală. Cu alte
cuvinte, pentru oricare variabilă aleatoare normală X, cu media μ şi abaterea medie pătratică
σ , avem:
P ( μ − z 0σ < X < μ + z 0σ ) = P ( − z 0 < Z < z 0 )
Deoarece o distribuţie normală este simetrică, este suficient să prezentăm în tabel valorile
probabilităţilor pentru P(0 ≤ Z ≤ z0); aria totală a suprafeţei delimitată de curba normală şi
abscisă fiind egală cu 1, orice probabilitate dorită poate fi obţinută prin adunări sau scăderi de la
valorile de această formă ale probabilităţilor.
Reluând exemplul 2.6, să presupunem că dorim calculul următoarelor probalilităţi:
a) probabilitatea ca un student să rezolve testul în mai mult de 70 de minute;
b) probabilitatea ca un student să rezolve testul într-un interval cuprins între 50 şi 70 de
minute;
c) probabilitatea ce un student să rezolve testul într-un interval cuprins între 65 şi 70 de
minute;
Rezolvarea acestor cerinţe se bazează pe datele din anexa distribuţiei normale şi
propietăţile distribuţiei normale.
a) X ≥ 70
x − 60 70 − 60
≥
8 8
Z ≥ 1.25
25
În figura 2.17 sunt prezentate grafic cele două suprafeţe de interes situate sub curba
normală: A1 corespunde probabilităţii dorite iar A2 corespunde probabilităţii ca 0 ≤ Z ≤ 1.25; aria
totală fiind egală cu unitatea, datorită simetriei curbei faţă de z=0, întreaga suprafaţă din partea
dreaptă este egală cu 0,5: A1+A2 = 0.5.
26
Probabilitatea dorită este:
P(−1.25 ≤ Z ≤ 1.25) = A1 + A2 ;
valoarea lui A2 o cunoaştem deja şi, datorită simetriei distribuţiei normale, putem calcula şi
valoarea lui A1 :
Probabilitatea dorită corespunde suprafeţei haşurate din figura 2.19; ea se poate determina
ca diferenţă între ariile a două suprafeţe ale căror probabilităţii se găsesc în anexă.
P (0.63 ≤ Z ≤ 1.25) = A = A1 − A2
Unde: A1 = P (0 ≤ Z ≤ 1.25)
A2 = P (0 ≤ Z ≤ 0.63)
Rezultă: P (0.63 ≤ Z ≤ 1.25) = P (0 ≤ Z ≤ 1.25) − P (0 ≤ Z ≤ 0.63) =
= 0.3944 − 0.2357 = 0.1587
Aşa cum am văzut din exemplul prezentat, în viaţa reală multe caracteristici cantitative
continue sunt în mod natural distribuite după un model normal. Din punct de vedere statstic,
frecvenţa lor relativă este distribuită în aceeaşi manieră ca şi densitatea de probabilitate a unei
legi normale: înălţimea sau greutatea persoanelor dintr-o populaţie dată, rezistenţa tijelor de
metal în cadrul unei producţii industriale, volumul conţinutului sticlelor dintr-o firmă de
îmbuteliere, notele obţinute la un examen de către studenţii unui an de studiu etc.
Un alt exemplu al utilităţii legii normale îl constituie furnizarea unui instrument de comparare
între valori aparţinând unor distribuţii normale diferite.
Exemplu 2.7. Notele obţinute la un test naţional de către elevii unui colegiu A sunt
distribuite după o lege normală N(7.2;0.81) iar notele obţinute la acelaşi test de către elevii unui
alt colegiu B sunt normal distribuite N(6.9;1). Considerând un elev care a obţinut nota 7.4 la
colegiul A şi alt elev care a obţinut nota 7.3 la colegiul B, ne propunem să determinăm care dintre
cei doi elevi este mai bine clasat în raport cu ceilalţi elevi din colegiul său.
27
Pentru a stabili acest lucru, standardizăm nota fiecărui elev, altfel spus calculăm
echivalentul notei sale într-o distribuţie N(0;1).
• Pentru elevul de la colegiul A nota sa de 7.4 într-o distribuţie N(7.2;0.81) devine:
7.4 − 7.2
= 0.2
0.9
• Pentru elevul de la colegiul B, nota sa de 7.3 într-o distrubuţie N(6.9;1) devine:
7.3 − 6.9
= 0.4
1
Se observă că elevul de la colegiul B, chiar dacă a obţinut o notă brută inferioară celei a
elevului de la colegiul A, este mai bine clasat decât acesta, deoarece pe scara comună a
variabilei Z nota sa este superioară.
Vom prezenta în continuare câteva proprietăţi ale variabilelor aleatoare normale.
Dacă X este o variabilă aleatoare normală iar a este o constantă, atunci variabilele: X+a, X-
a şi aX sunt şi ele normal distribuite. În cazul special în care X şi Y sunt două variabile aleatoare
normale şi independente, atunci şi variabilele X+Y şi X-Y sunt normal distribuite. Prin
generalizare, putem enunţa următoarea teoremă referitoare la suma unor varibile supuse unor
legi normale.
Fie X1, X2...Xn n variabile aleatoare independente unele faţă de altele, astfel:
X i : N ( μ i ; σ 2 ), ∀i ∈ {1,...n}
şi fie Y = ∑ Xi
i
Atunci Y : N ( μ ; σ 2 )
Unde μ = μ1 + ... + μ n = ∑μ i
i
σ 2 = σ 12 + ... + σ n2 = ∑ σ i
2
2.6.3 Distribuţia χ
2
O distribuţie derivată din distribuţia normală, care are un rol foarte important în inferenţa
statistică este distribuţia χ 2 (numită şi repartiţia Helmert-Pearson):
Fie X1, X2,.....Xn n variabile aleatoare independente astfel încât ∀ i ∈ {1,2,...., n} ⇒ Xi :
N(0;1),
Dacă X = X 12 + X 22 + ....... + X n2 , atunci X este o variabilă aleatoare continuă supusă unei
funcţii de densitate de probabilitate numită χ 2 cu n grade de libertate şi o notăm:
X: χ 2 n (n, numărul de grade de libertate, reprezintă parametrul specific al acestei distribuţii,
aşa cum n şi p sunt pentru o distribuţie binomială, λ pentru o distribuţie Poisson şi n şi σ 2
pentru o distribuţie normală).
Dacă X : χ n2 , valorile corespunzătoare mediei şi dispersiei acestei variabile sunt:
E( X ) = n
V ( X ) = 2n
Reprezentarea grafică a funcţiei de densitate de probabilitate a unei variabile X supusă
unei legi χ n2 , pentru trei valori ale lui n, se regăseşte în figura 2.20;
Figura 2.20. Funcţia de densitate de probabilitate a unei variabile X supusă unei legi χ n2
29
o asimetrică întâi, pentru valori mai mici ale lui n (n = 3, în graficul 2.20);
o din ce în ce mai simetrică, pe măsură ce n creşte(n = 10, în graficul 2.20);
• atunci când n este suficient de mare, forma graficului se apropie de curba unei legi
normale N(n;2n).
În timp ce tabelul distribuţiei unei variabile Z : N(0;1) prezintă valorile probabilităţilor de la
intersecţia unei linii şi unei coloane ca definind o valoare a lui Z, tabelul distribuţiei X : χ n2
procedează invers: el indică, pentru valori ale lui n de la 1 la 30, diferite valori ale lui x, pentru o
variabilă X : χ n2 , la dreapta cărora aria suprafeţei delimitată de curbă, P [ X > x ] , corespunde
unei valori α .
Astfel, pentru o variabilă X: χ 152 , dacă dorim să aflăm pentru care valoare a lui x, P [ X > x ]
= 0.05, găsim această valoare la intersecţia liniei n=15 şi a coloanei α = 0.05 :
x = 24.996 (figura 2.21a)
a) b)
Figura 2.21. Determinarea valorilor critice ale funcţiei χ 2
Pentru o variabilă X: χ 102 , dacă dorim să aflăm pentru care valoare a lui x, P [ X > x ] =0.05,
deducem mai întâi că dacă P [ X > x ] = 0.05, atunci P [ X > x ] =0.95 şi căutăm la intersecţia liniei
n = 10 cu coloana α = 0.95 pentru a găsi valoarea dorită:
x = 3.940
Atunci când am analizat reprezentarea grafică a diferitelor legi χ n2 , am menţionat că pe
măsură ce n creşte, repartiţia χ n2 tinde lent, conform teoremei limită centrală, spre repartiţia
normală N(n;2n). Datorită acestei tendinţe, există o formulă care permite, pentru n>30, estimarea
unei valori particulare x supusă unei legi χ n2 , plecând de la o valoare z supusă unei legi N(0;1):
Fie X : χ n2
1
Dacă n>30, atunci x ≅ ( z + 2 n − 1) 2
2
Unde z = o valoare particulară pe axa lui Z:N(0;1),echivalentă celei căutate pentru x, pe axa
X : χ n2 .
Cu cât valoarea lui n este mai mare, cu atât formula aproximării este mai corectă.
30
2.6.4 Distribuţia student (t)
Z
T= ,
X
n
Atunci T este o variabilă aleatoare continuă supusă unei funcţii de densitate de probabilitate
numită t a lui student cu n grade de libertate, pe care o notăm:
T : tn
Reprezentarea grafică a unei astfel de variabile are aspectul unei distribuţii normale N(0;1)
aplatizate, incluzând şi proprietăţile de simetrie ale acesteia (figura 2.22).
Figura 2.22. Densitatea de repartiţie a unei variabile Student pentru diferite valori ale lui n
Se observă că, pe măsură ce n are valori mai mici, forma clopotului este mai largă şi plată,
iar pe măsură ce valorile lui n sunt mai mari, forma clopotului este mai îngustă şi mai înaltă,
tinzând progresiv către cea a lui N(0;1), atunci când n → ∞ .
Valorile mediei şi dispersiei pentru o astfel de variabilă sunt:
E(T)=0
n
V (T ) = , dacă n > 2
n−2
Obsevaţie: conform analizei reprezentării grafice, pentru valori mari ale lui n:
M(T)=0
V (T ) → 1
În tabelul cu valorile specifice acestei distribuţii, valorile unei variabile se regăsesc la
intersecţia unei linii care precizează numărul gradelor de libertate ale lui tn cu o coloană care
precizează aria α a suprafeţei situată la dreapta acestei valori, sub curbă.
31
Astfel, pentru o variabilă T : t21, găsim valoarea t pentru care P[T > t ] este 0.05 (figura
2.23), la intersecţia liniei n = 21 şi a coloanei α = 0.05 :
t = 1.721.
32