Sunteți pe pagina 1din 73

Curs - Probabilităţi şi Statistică 2021/2022

Facultatea de Matematică şi Informatică


Universitatea Babeş-Bolyai, Cluj-Napoca
Teoria Probabilităţilor

Teoria probabilităţilor este o disciplină a matematicii care se ocupă de studiul fenomenelor aleatoare.

• aleator = care depinde de o ı̂mprejurare viitoare şi nesigură; supus ı̂ntâmplării


• provine din latină: aleatorius; alea (lat.) = zar; joc cu zaruri; joc de noroc; şansă; risc

,→ se măsoară şansele pentru succes sau riscul pentru insucces al


unor evenimente

Fenomene şi procese aleatoare apar, de exemplu, ı̂n:

→ jocuri de noroc, pariuri, loto (6 din 49)


→ previziuni meteo
→ previziuni economice / financiare [Sursa: www.financialmarket.ro]

→ sondaje de opinie, asigurări (evaluarea riscurilor, pierderilor)

→ ı̂n informatică:
 sisteme de comunicare, prelucrarea informaţiei, modelarea traficului ı̂n reţea;
 analiza probabilistică a unor algoritmi, fiabilitatea sistemelor;
 algoritmi de simulare, machine learning, data mining, recunoaşterea formelor sau a vocii;
 generarea de numere aleatoare, algoritmi aleatori: de tip Monte-Carlo, de tip Las Vegas etc.
Octave online: https://octave-online.net
Exemplu: Generarea de valori aleatoare (ı̂n Octave/Matlab)

a=rand % valoare aleatoare ı̂ntre 0 şi 1


v1=rand(1,10) %vector cu 10 valori aleatoare ı̂ntre 0 şi 1
a=4; b=10;
v2=a+(b-a)*rand(1,15) %vector cu 15 valori aleatoare ı̂ntre 4 şi 10
z=randi(6,1,20)
%vector cu 20 de valori aleatoare din mulţimea {1,2,3,4,5,6}

Exerciţiu: Generaţi un vector cu 100 de valori aleatoare 0 şi 1, ı̂n care 0 şi 1 au aceleaşi şanse
de apariţie.

1
Răspuns: floor(2*rand(1,100)) sau randi(2,1,100)-1

Algoritmi aleatori
Def. 1. Un algoritm pe cursul executării căruia se iau anumite decizii aleatoare este numit
algoritm aleator (randomizat).
 durata de execuţie, spaţiul de stocare, rezultatul obţinut sunt variabile aleatoare (chiar dacă se
folosesc aceleaşi valori input)
 la anumite tipuri de algoritmi corectitudinea e garantată doar cu o anumită probabilitate
 ı̂n mod paradoxal, incertitudinea ne poate oferi mai multă eficienţă
Exemplu: Random QuickSort, ı̂n care elementul pivot este selectat aleator

• Algoritm de tip Las Vegas este un algoritm aleator, care returnează la fiecare execuţie rezultatul
corect (independent de alegerile aleatoare făcute); durata de execuţie este o variabilă aleatoare.
Exemplu: Random QuickSort

• Un algoritm aleatoriu pentru care rezultatele obţinute sunt corecte doar cu o anumită probabil-
itate se numeşte algoritm Monte Carlo.
,→ se examinează probabilitatea cu care rezultatul este corect; probabilitatea de eroare poate fi
scăzută semnificativ prin execuţii repetate, independente;
Exemplu:
 testul Miller-Rabin, care verifică dacă un număr natural este prim sau este număr compus; tes-
tul returnează fie răspunsul “numărul este sigur un număr compus” sau răspunsul “numărul este
probabil un număr prim”;
Exerciţiu: Fie S(1),...,S(300) un vector cu 300 de elemente, din mulţimea {0, 1, 2} (ordinea lor
este necunoscută). −→ De care tip este următorul algoritm (scris ı̂n Octave)?

S=randi(3,1,300)-1;
k=0;
do
k=k+1;
i=randi(300);
until (S(i) == 0)
i % indicele, pentru care S(i)=0
k % număr iteraţii până se găseşte aleator un 0

Răspuns: Algoritm de tip Las Vegas.

2
Versiunea Monte Carlo a problemei formulate anterior: se dă M numărul maxim de iteraţii.
M=3;
S=randi(3,1,300)-1;
k=0;
do
k=k+1 ;
i=randi(300);
until ( (S(i) == 0) || (k==M) )
i % indicele, pentru care S(i)=0 sau pentru care k==M
k
% număr iteraţii până se găseşte
% aleator un 0 sau programul s-a oprit
S(i)
 dacă 0 este găsit, atunci algoritmul se ı̂ncheie cu rezultatul corect, altfel algoritmul nu găseşte
niciun 0.

Noţiuni introductive:
• Experienţa aleatoare este acea experienţă al cărei rezultat nu poate fi cunoscut decât după
ı̂ncheierea ei.
• Evenimentul este rezultatul unui experiment.
Exemple:
 Experiment: aruncarea a două zaruri, eveniment: ambele zaruri indică 1
 experiment: aruncarea unei monede, eveniment: moneda indică pajură
 experiment: extragerea unei cărţi de joc, eveniment: s-a extras as
 experiment: extragerea unui număr la loto, eveniment: s-a extras numărul 27
• evenimentul imposibil, notat cu ∅, este evenimentul care nu se realizează niciodată la efectuarea
experienţei aleatoare
• evenimentul sigur este un eveniment care se realizează cu certitudine la fiecare efectuare a
experienţei aleatoare
• spaţiul de selecţie, notat cu Ω, este mulţimea tuturor rezultatelor posibile ale experimentului
considerat
 spaţiul de selecţie poate fi finit sau infinit
• dacă A este o submulţime a lui Ω atunci A se numeşte eveniment aleator, iar dacă A are un
singur element atunci A este un eveniment elementar.
 O analogie ı̂ntre evenimente şi mulţimi permite o scriere şi o exprimare mai comode ale unor
idei şi rezultate legate de conceptul de eveniment aleator.

3
Exemplu: Experimentul: aruncarea unui zar, spaţiul de selecţie: Ω = {e1 , e2 , e3 , e4 , e5 , e6 },
ei : s-a obţinut numărul i (i = 1, . . . , 6) ; e1 , e2 , e3 , e4 , e5 , e6 sunt evenimente elementare
A: s-a obţinut un număr par ⇒ A = {e2 , e4 , e6 }
Ā: s-a obţinut un număr impar ⇒ Ā = {e1 , e3 , e5 } ♣
Operaţii cu evenimente
• dacă A, B ⊆ Ω, atunci evenimentul reuniune A ∪ B este un eveniment care se produce dacă cel
puţin unul din evenimentele A sau B se produce
• dacă A, B ⊆ Ω, atunci evenimentul intersecţie A ∩ B este un eveniment care se produce dacă
cele două evenimente A şi B se produc ı̂n acelaşi timp
• dacă A ⊆ Ω atunci evenimentul contrar sau complemetar Ā este un eveniment care se realizează
atunci când evenimentul A nu se realizează
• A, B ⊆ Ω sunt evenimente incompatibile (disjuncte), dacă A ∩ B = ∅
• dacă A, B ⊆ Ω, atunci evenimentul diferenţă A \ B este un eveniment care se produce dacă A
are loc şi B nu are loc, adică
A \ B = A ∩ B̄
Relaţii ı̂ntre evenimente
• dacă A, B ⊆ Ω, atunci A implică B, dacă producerea evenimentului A conduce la producerea
evenimentului B: A ⊆ B
• dacă A implică B şi B implică A, atunci evenimentele A şi B sunt egale: A = B
Proprietăţi ale operaţiilor ı̂ntre evenimente A, B, C ⊆ Ω
Operaţiile de reuniune şi intersecţie sunt operaţii comutative:

A ∪ B = B ∪ A, A ∩ B = B ∩ A,

asociative
(A ∪ B) ∪ C = A ∪ (B ∪ C), (A ∩ B) ∩ C = A ∩ (B ∩ C) ,
şi distributive

(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C), (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C);

satisfac legile lui De Morgan

A ∪ B = Ā ∩ B̄, A ∩ B = Ā ∪ B̄.

Are loc Ā¯ = A.

4
Frecvenţa relativă şi frecvenţa absolută
Def. 2. Fie A un eveniment asociat unei experienţe, repetăm experienţa de n ori (ı̂n aceleaşi
condiţii date) şi notăm cu rn (A) numărul de realizări ale evenimentului A; frecvenţa relativă a
evenimentului A este numărul
rn (A)
fn (A) =
n

rn (A) este frecvenţa absolută a evenimentului A.


Definiţia clasică a probabilităţii
Def. 3. Într-un experiment ı̂n care cazurile posibile sunt finite la număr şi au aceleaşi şanse de a
se realiza, probabilitatea unui eveniment A este numărul
numărul de cazuri favorabile apariţiei lui A
P (A) = .
numărul total de cazuri posibile
 Prin repetarea de multe ori a unui experiment, ı̂n condiţii practic identice, frecvenţa relativă
fn (A) de apariţie a evenimentului A este aproximativ egală cu P (A)

fn (A) ≈ P (A), dacă n → ∞.

Exemplu: Experiment: Se aruncă 4 monede. Evenimentul A: (exact) 3 din cele 4 monede indică
pajură; experimentul s-a repetat de n = 100 de ori şi evenimentul A a apărut de 22 de ori.

fn (A) =?, P (A) =?


22
Răspuns: fn (A) = 100 = 0.22

Ω = {(c, c, c, c), (c, p, p, p), . . . , (p, p, p, c), (p, p, p, p)}


4
A = {(c, p, p, p), (p, c, p, p), (p, p, c, p), (p, p, p, c)} ⇒ P (A) = 24 = 0.25 ♠
Exemplu - Joc de zaruri (sec. XVII): Un pasionat jucător de zaruri, cavalerul de Méré, susţinea
ı̂n discuţiile sale cu B. Pascal că a arunca un zar de 4 ori pentru a obţine cel puţin o dată faţa şase,
este acelaşi lucru cu a arunca de 24 ori câte două zaruri pentru a obţine cel puţin o dublă de şase.
Cu toate acestea, cavalerul de Méré a observat că jucând ı̂n modul al doilea (cu două zaruri
aruncate de 24 ori), pierdea faţă de adversarul său, dacă acesta alegea primul mod (aruncarea
unui singur zar de 4 ori). Pascal şi Fermat au arătat că probabilitatea de câştig la jocul cu un
singur zar aruncat de 4 ori este p1 ≈ 0.5177, iar probabilitatea p2 ≈ 0.4914 la jocul cu două
zaruri aruncate de 24 de ori. Deşi diferenţa dintre cele două probabilităţi este mică, totuşi, la

5
un număr mare de partide, jucătorul cu probabilitatea de câştig p1 câştigă ı̂n faţa jucătorului cu
probabilitatea de câştig p2 . Practica jocului confirmă astfel justeţea raţionamentului matematic,
contrar credinţei lui de Méré.

Definiţia axiomatică a probabilităţii


Definiţia clasică a probabilităţii poate fi utilizată numai ı̂n cazul ı̂n care numărul cazurilor
posibile este finit. Dacă numărul evenimentelor elementare este infinit, atunci există evenimente
pentru care probabilitatea ı̂n sensul clasic nu are nici un ı̂nţeles.
Probabilitatea geometrică: Măsura unei mulţimi corespunde
lungimii ı̂n R, ariei ı̂n R2 , volumului ı̂n R3 . Fie M ⊂ D ⊂ Rn ,
n ∈ {1, 2, 3}, mulţimi cu măsură finită.
Alegem aleator un punct A ∈ D (ı̂n acest caz spaţiul de selecţie
este D). Probabilitatea geometrică a evenimentului “A ∈ M ” este
măsura(M )
P (A ∈ M ) := .
măsura(D)
M ⊂ D ⊂ R2

O teorie formală a probabilităţii a fost creată ı̂n anii ’30 ai sec-


olului XX de către matematicianul rus Andrei Nikolaevici Kolmogorov, care, ı̂n anul 1933,
a dezvoltat teoria axiomatică a probabilităţii ı̂n lucrarea sa Conceptele de bază ale Calculului
Probabilităţii.
 P : K → R este o funcţie astfel ı̂ncât oricărui eveniment aleator A ∈ K i se asociază valoarea
P (A), probabilitatea de apariţie a evenimentului A
,→ K este o mulţime de evenimente şi are structura unei σ-algebre (vezi Def. 4)
,→ P satisface anumite axiome (vezi Def. 5)
Def. 4. O familie K de evenimente din spaţiul de selecţie Ω se numeşte σ-algebră dacă sunt
satisfăcute condiţiile:
(i) K este nevidă;
(ii) dacă A ∈ K, atunci Ā ∈ K;

[
(iii) dacă An ∈ K, n ∈ N∗ , atunci An ∈ K.
n=1

Perechea (Ω, K) se numeşte spaţiu măsurabil.

6
Exemple: 1) Dacă ∅ = 6 A ⊂ Ω atunci K = {∅, A, Ā, Ω} este o σ-algebră.
2) P(Ω):= mulţimea tuturor submulţimilor ale lui Ω este o σ-algebră.
3) Dacă (Ω, K) este un spaţiu măsurabil şi ∅ =
6 B ⊆ Ω, atunci

B ∩ K = {B ∩ A : A ∈ K}

este o σ-algebră pe mulţimea B, iar (B, B ∩ K) este un spaţiu măsurabil.


P. 1. Proprietăţi ale unei σ-algebre: Dacă K este o σ-algebră ı̂n Ω, atunci au loc proprietăţile:
(1) ∅, Ω ∈ K;
(2) A, B ∈ K =⇒ A ∩ B, A \ B ∈ K;

\

(3) An ∈ K, n ∈ N =⇒ An ∈ K.
n=1

Def. 5. Fie K o σ-algebră ı̂n Ω. O funcţie P : K → R se numeşte probabilitate dacă satisface


axiomele:
(i) P (Ω) = 1;
(ii) P (A) ≥ 0 pentru orice A ∈ K;
(iii) pentru orice şir (An )n∈N∗ de evenimente două câte două disjuncte (adică Ai ∩Aj = ∅ pentru
orice i 6= j) din K are loc
[∞  X ∞
P An = P (An ) .
n=1 n=1

Tripletul (Ω, K, P ) format din spaţiul măsurabil (Ω, K) şi probabilitatea P : K → R se numeşte
spaţiu de probabilitate.
P. 2. Fie (Ω, K, P ) un spaţiu de probabilitate. Au loc proprietăţile:
(1) P (Ā) = 1 − P (A) şi 0 ≤ P (A) ≤ 1;
(2) P (∅) = 0;
(3) P (A \ B) = P (A) − P (A ∩ B);
(4) A ⊆ B =⇒ P (A) ≤ P (B), adică P este monotonă;
(5) P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

7
Exerciţiu: a) Să se arate că pentru ∀ A, B, C ∈ K are loc:

P (A ∪ B ∪ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).

b) Pentru A1 , ..., An ∈ K care e formula similară de calcul pentru P (A1 ∪ A2 ∪ ... ∪ An )?


Exemplu: Dintr-un pachet de 52 de cărţi de joc se extrage o carte aleator. Care este probabilitatea
p de a extrage a) un as sau o damă de pică? b) o carte cu inimă sau un as?
R.: a) A: s-a extras un as; D: s-a extras damă de pică; A şi D sunt două evenimente disjuncte
(incompatibile)
4+1
p = P (A ∪ D) = P (A) + P (D) = ;
52
b) I: s-a extras o carte cu inimă; I şi A nu sunt evenimente incompatibile
13 + 4 − 1 4
p = P (I ∪ A) = P (I) + P (A) − P (I ∩ A) = = .
52 13

Evenimente independente
Def. 6. Fie (Ω, K, P ) un spaţiu de probabilitate. Evenimentele A, B ∈ K sunt evenimente
independente dacă
P (A ∩ B) = P (A)P (B).
Observaţie: Fie evenimentele A, B ∈ K. Evenimentele A şi B sunt independente, dacă
apariţia evenimentului A, nu influenţează apariţia evenimentului B şi invers. Două eveni-
mente se numesc dependente dacă probabilitatea realizării unuia dintre ele depinde de faptul că
celălalt eveniment s-a produs sau nu.
Exerciţiu: Se aruncă un zar de două ori.
A: primul număr este 6; B: al doilea număr este 5; C: primul număr este 1.
Sunt A şi B evenimente independente?
Sunt A şi C evenimente independente? Sunt A şi C evenimente disjuncte?
Sunt B şi C evenimente dependente? ♣
P. 3. Fie (Ω, K, P ) un spaţiu de probabilitate şi fie A, B ∈ K. Sunt echivalente afirmaţiile:
(1) A şi B sunt independente.
(2) Ā şi B sunt independente.
(3) A şi B̄ sunt independente.
(4) Ā şi B̄ sunt independente.

8
Def. 7. Fie (Ω, K, P ) un spaţiu de probabilitate. B1 , . . . , Bn sunt n evenimente independente
(ı̂n totalitate) din K dacă

P (Bi1 ∩ · · · ∩ Bim ) = P (Bi1 ) · . . . · P (Bim )

pentru orice submulţime finită {i1 , . . . , im } ⊆ {1, 2, ..., n}.

Exemplu: Se dă algoritmul de tip Monte-Carlo


M=input(’M=’) % numar maxim de iteratii; M >= 1
M=3 % maximale Anzahl Iterationen; M >= 1
S=[0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3];
% 0,1,2,3 apar fiecare cu probabilitatea 5/20=1/4
S=S(randperm(length(S))) % permutare aleatoare a lui S
k=0;
do
k=k+1;
i=randi(20);
% se alege o valoare aleatoare S(i)
until ( (S(i) == 0) || (k==M) )
fprintf(’k: %d \n’,k)
fprintf(’S(%d): %d \n’,i,S(i))
Se calculează probabilităţile următoarelor evenimente (din punct de vedere teoretic):
 M −1
3 1
P (“primul 0 este găsit la a M -a iteraţie”) = · ,
4 4
 M
3
P (“0 nu este găsit ı̂n M iteraţii”) = ,
4
probabilitatea evenimentului complementar este
 M
3
P (“cel puţin un 0 este găsit ı̂n M iteraţii”) = 1 − −→ 1, când M → ∞.
4

Exemplu: 1) A, B, C ∈ K sunt trei evenimente independente (ı̂n totalitate), dacă

P (A ∩ B) = P (A)P (B), P (A ∩ C) = P (A)P (C), P (B ∩ C) = P (B)P (C),

9
P (A ∩ B ∩ C) = P (A)P (B)P (C).
2) Cele 4 feţe ale unui tetraedru regulat sunt vopsite astfel: una este roşie, una este albastră, una
este verde şi una este colorată având cele trei culori. Se aruncă tetraedrul şi se consideră eveni-
mentele: R: tetraedrul cade pe o parte ce conţine culoarea roşie; A: tetraedrul cade pe o parte ce
conţine culoarea albastră; V : tetraedrul cade pe o partea ce conţine culoarea verde.
Sunt cele 3 evenimente independente ı̂n totalitate?

R.: Nu, cele 3 evenimente nu sunt independente ı̂n totalitate pentru că P (R ∩ A ∩ V ) = 14 6=
P (R)P (A)P (V ) = 81 .
3) Pentru a verifica dacă n evenimente distincte B1 , . . . , Bn sunt independente ı̂n totalitate câte
relaţii trebuie verificate?
R.: Cn2 + Cn3 + ... + Cnn = 2n − Cn0 − Cn1 = 2n − 1 − n. 

Probabilitate condiţionată

Def. 8. Fie (Ω, K, P ) un spaţiu de probabilitate şi fie A, B ∈ K. Probabilitatea condiţionată a


evenimentului A de evenimentul B este P (·|B) : K → [0, 1] definită prin

P (A ∩ B)
P (A|B) = ,
P (B)

dacă P (B) > 0. P (A|B) este probabilitatea apariţiei evenimentului A, ştiind că evenimentul B
s-a produs.

Observaţie: Fie evenimentele A, B ∈ K astfel ı̂ncât P (A) > 0 şi P (B) > 0. Evenimentele A şi
B sunt independente (a se vedea Def. 6), dacă apariţia evenimentului A, nu influenţează apariţia
evenimentului B şi invers, adică

P (A|B) = P (A) şi P (B|A) = P (B) .

Exemplu: Se extrag succesiv fără returnare două bile dintr-o urnă cu 4 bile albe şi 5 bile roşii.
a) Ştiind că prima bilă este roşie, care este probabilitatea (condiţionată) ca a doua bilă să fie albă?
b) Care este probabilitatea ca ambele bile să fie roşii?
R.: pentru i ∈ {1, 2} fie evenimentele
Ri : la a i-a extragere s-a obţinut o bilă roşie;
Ai = R̄i : la a i-a extragere s-a obţinut o bilă albă;
a) P (A2 |R1 ) = 84 . b) P (R1 ∩ R2 ) = P (R2 |R1 )P (R1 ) = 48 · 59 . ♣

10
P. 4. Pentru A, B ∈ K, P (A) > 0, P (B) > 0 au loc:

P (A ∩ B) = P (B)P (A|B) = P (A)P (B|A) ,

P (Ā|B) = 1 − P (A|B).

Fig.1. Probabilităţi condiţionate

Def. 9. O familie {H1 , . . . Hn } ⊂ K de evenimente din Ω se numeşte partiţie sau sistem complet
[n
de evenimente a lui Ω, dacă Hi = Ω şi pentru fiecare i, j ∈ {1, . . . , n}, i 6= j, evenimentele
i=1
Hi şi Hj sunt disjuncte, adică Hi ∩ Hj = ∅.

Exemplu: Dacă B ⊂ Ω atunci {B, B̄} formează o partiţie a lui Ω. ♠

P. 5. (Formula probabilităţii totale) Într-un spaţiu de probabilitate (Ω, K, P ) considerăm partiţia


{H1 , ..., Hn } a lui Ω cu Hi ∈ K şi P (Hi ) > 0 ∀ i ∈ {1, . . . , n}, şi fie A ∈ K. Atunci are loc

P (A) = P (A|H1 )P (H1 ) + ... + P (A|Hn )P (Hn ).

Exemplu: Într-o urnă sunt 7 bile albe, notate cu 1,2,3,4,5,6,7, şi 6 bile roşii notate cu 8,9,10,11,12,13.
Se extrage o bilă. a) Ştiind că bila extrasă este roşie, care este probabilitatea (condiţionată) p1 ,
ca numărul ı̂nscris să fie divizibil cu 4? b) Ştiind că prima bilă este roşie, care este probabilitatea
(condiţionată) p2 , ca o a doua bilă extrasă să fie un număr impar? (Prima bilă nu s-a returnat ı̂n
urnă!)
R.: Se consideră evenimentele:
A1 : prima bilă extrasă are ı̂nscris un număr divizibil cu 4;
B1 : prima bilă extrasă este roşie;
C1 : prima bilă extrasă are ı̂nscris un număr impar;
C2 : a doua bilă extrasă are ı̂nscris un număr impar.
a) p1 = P (A1 |B1 ) = 62 .

11
b) p2 = P (C2 |B1 ) =? Folosim Def.8 şi P.4, scriem succesiv
P (C2 ∩ B1 ) P (C2 ∩ B1 ∩ C1 ) + P (C2 ∩ B1 ∩ C̄1 )
p2 = P (C2 |B1 ) = =
P (B1 ) P (B1 )
6 3 7 3
P (C2 |B1 ∩ C1 )P (B1 ∩ C1 ) + P (C2 |B1 ∩ C̄1 )P (B1 ∩ C̄1 ) 12 · 13 + 12 · 13 13
= = 6 = .
P (B1 ) 13
24


Exemplu: Ce probabilităţi calculează programul de mai jos? Ce tip de algoritm aleator este?
I randi(imax,n,m) generează o n×m matrice cu valori ı̂ntregi aleatoare (pseudoaleatoare)
ı̂ntre 1 şi imax.
clear all
ci=0;
cp=0;
c=0;
a=0;
b=0;
N=1000;
A=[1:20];
for i=1:N
r= randi(length(A));
v=A(r);
ci=ci+mod(v,2);
cp=cp+(mod(v,2)==0);
c=c+ mod(v,2)*(mod(v,3)==0);
a=a+ mod(v,2)*(6<=v && v<=10);
b=b+ (mod(v,2)==0)*(v>=14);
end
p1=c/ci
p2=a/ci
p3=b/cp
R.: Se extrage aleator un număr din şirul A=[1,2,...,20].
Ip1 estimează probabilitatea condiţionată ca numărul ales aleator să fie divizibil cu 3, ştiind că
s-a extras un număr impar;
I p2 estimează probabilitatea condiţionată ca numărul ales aleator să provină din mulţimea
{6, 7, 8, 9, 10}, ştiind că s-a extras un număr impar;

12
I p3 estimează probabilitatea condiţionată ca numărul ales aleator să provină din mulţimea
{14, 15, 16, 17, 18, 19, 20}, ştiind că s-a extras un număr par.
Algoritmul este de tip Monte-Carlo! ♣
Exerciţiu: Să se calculeze valorile teoretice pentru probabilităţile p1, p2, p3 din exemplul
anterior! ♠
P. 6. (Regula de ı̂nmulţire) Fie (Ω, K, P ) un spaţiu de probabilitate şi fie A1 , . . . , An ∈ K astfel
ı̂ncât P (A1 ∩ · · · ∩ An−1 ) > 0. Atunci,

P (A1 ∩ · · · ∩ An ) = P (A1 )P (A2 |A1 ) . . . P (An |A1 ∩ · · · ∩ An−1 ).

Exemplu: Într-o urnă sunt 2 bile verzi şi 3 bile albastre. Se extrag 2 bile succesiv, fără returnare.
Care este probabilitatea ca
a) prima bilă să fie verde, iar cea de-a doua albastră?
b) cele 2 bile să aibă aceeaşi culoare?
c) a doua bilă să fie albastră?
d) prima bilă să fie verde, ştiind că a doua este albastră?
e) se mai extrage o a treia bilă; se cere probabilitatea ca prima bilă să fie verde, cea de-a doua
albastră şi a treia tot albastră.
R.: Notăm pentru i ∈ {1, 2, 3} evenimentele:
Ai : la a i-a extragere s-a obţinut bilă albastră; Vi : la a i-a extragere s-a obţinut bilă verde;
a) folosim P.4: P (V1 ∩ A2 ) = P (A2 |V1 )P (V1 ) = 43 · 25
b) P ((V1 ∩ V2 ) ∪ (A1 ∩ A2 )) = P (V1 ∩ V2 ) + P (A1 ∩ A2 ) = P (V2 |V1 )P (V1 ) + P (A2 |A1 )P (A1 ) =
1 2 2 3
4 · 5 + 4 · 5
c) folosim formula probabilităţii totale P.7:
3
P (A2 ) = P (A2 |V1 )P (V1 ) + P (A2 |A1 )P (A1 ) = 4 · 25 + 24 · 3
5
3 2
P (V1 ∩A2 ) P (A2 |V1 )P (V1 ) 4·5
d) folosim P.4: P (V1 |A2 ) = P (A2 ) = P (A2 ) = 3 2 2 3
4 5+4·5
·

e) formula de ı̂nmulţire a probabilităţilor P.6:


2
P (V1 ∩ A2 ∩ A3 ) = P (V1 ) · P (A2 |V1 ) · P (A3 |V1 ∩ A2 ) = 5 · 43 · 23 .

13
Fig. 3. Extragere fără returnare

Formula lui Bayes


Formula lui Bayes este o metodă de a ”corecta” (a revizui, a ı̂mbunătăţi) pe baza unor noi date
(informaţii) disponibile o probabilitate determinată apriori. Se porneşte cu o estimare pentru
probabilitatea unei anumite ipoteze H (engl. hypothesis). Dacă avem noi date (date de antrenare,
dovezi, informaţii, evidenţe - engl. evidence) E, ce privesc ipoteza H, se poate calcula o proba-
bilitate ”corectată” pentru ipoteza H, numită probabilitate posterioară (a-posteriori).
,→ P (H) probabilitatea ca ipoteza H să fie adevărată, numită şi probabilitatea apriori;
,→ probabilitatea condiţionată P (H|E) este probabilitatea posterioară (corectată de cunoaşterea
noilor date / informaţii);
,→ P (E|H) probabilitatea ca să apară datele (informaţiile), ştiind că ipoteza H este adevarată;
,→ P (E|H̄) probabilitatea ca să apară datele (informaţiile), ştiind că ipoteza H este falsă (ipoteza
H̄ este adevarată).
Folosind P.5 are loc:
P (E) = P (E|H) · P (H) + P (E|H̄) · P (H̄) = P (E|H) · P (H) + P (E|H̄) · (1 − P (H)).

Formula lui Bayes este ı̂n acest caz


P (E|H) · P (H) P (E|H) · P (H)
P (H|E) = = .
P (E) P (E|H) · P (H) + P (E|H̄) · P (H̄)

P. 7. (Formula lui Bayes)


Într-un spaţiu de probabilitate (Ω, K, P ) considerăm partiţia {H1 , . . . , Hn } a lui Ω cu Hi ∈ K

14
şi P (Hi ) > 0 ∀ i ∈ {1, ...n}, şi fie E ∈ K astfel ı̂ncât P (E) > 0. Atunci,
P (E|Hj )P (Hj ) P (E|Hj )P (Hj )
P (Hj |E) = = ∀ j ∈ {1, 2, ..., n}.
P (E) P (E|H1 )P (H1 ) + ... + P (E|Hn )P (Hn )
 pentru i ∈ {1, 2, ..., n} P (Hi) sunt probabilităţi apriori pentru Hi, numite şi ipoteze (aserţiuni;
engl. hypothesis)
 E se numeşte evidenţă (dovadă, premisă, informaţie; engl. evidence);
 cu formula lui Bayes se calculează probabilităţile pentru ipoteze, cunoscând evidenţa: P (Hj |E),
j ∈ {1, 2, ..., n}, care se numesc probabilităţi posterioare (ulterioare);
 P (E|Hi), i ∈ {1, 2, ..., n}, reprezintă verosimilitatea (engl. likelihood) datelor observate.
 Se pot calcula probabilităţile cauzelor, date fiind (cunoscând / ştiind) efectele; formula lui
Bayes ne ajută să diagnosticăm o anumită situaţie sau să testăm o ipoteză.
Exemplu: Considerăm evenimentele (ı̂n teste clinice):
H: o persoană aleasă aleator dintr-o populaţie are o anumită alergie A
E: testul clinic returnează pozitiv privind alergia A
Ē: testul clinic returnează negativ privind alergia A
 din statistici anterioare sunt cunoscute:
p = P (H), probabilitatea ca o persoană selectată aleator din populaţie să sufere de alergia A;
sensibilitatea testului s1 = P (E|H);
specificitatea testului s2 = P (Ē|H̄);
 probabilitatea de a obţine răspuns fals pozitiv este P (E|H̄) = 1 − s2;
 un test clinic bun implică valori apropiate de 1 pentru s1 şi s2;
I cunoscând p, s1 , s2 se doreşte a se determina valoarea predictivă P (H|E):
P (E|H) · P (H) P (E|H) · P (H) s1 · p
P (H|E) = = = .
P (E) P (E|H) · P (H) + P (E|H̄) · P (H̄) s1 · p + (1 − s2 ) · (1 − p)

Variable aleatoare
Exemplu: Un jucător aruncă două monede ⇒ Ω = {(c, p), (c, c), (p, c), (p, p)} (c=cap; p=pajură)
X indică de câte ori a apărut pajură: ⇒ X : Ω → {0, 1, 2}
⇒ P (X = 0) = P (X = 2) = 14 , P (X = 1) = 1
2 

Notaţie 1. variabilă/variabile aleatoare → v.a.


O variabilă aleatoare este:
I discretă, dacă ia un număr finit de valori (x1 , . . . , xn ) sau un număr infinit numărabil de valori

15
(x1 , . . . , xn , . . . )
I continuă, dacă valorile sale posibile sunt nenumărabile şi sunt ı̂ntr-un interval (sau reunine de
intervale) sau ı̂n R
V.a. discrete: exemple de v.a. numerice discrete: suma numerelor obţinute la aruncarea a
4 zaruri, numărul produselor defecte produse de o anumită firmă ı̂ntr-o săptămână; numărul
apelurilor telefonice ı̂ntr-un call center ı̂n decursul unei ore; numărul de accesări ale unei anu-
mite pagini web ı̂n decursul unei anumite zile (de ex. duminica); numărul de caractere transmise
eronat ı̂ntr-un mesaj de o anumită lungime; exemple de v.a. categoriale (→ se clasifică ı̂n cat-
egorii): prognoza meteo: ploios, senin, ı̂nnorat, ceţos; calitatea unor servicii: nesatisfăcătoare,
satisfăcătoare, bune, foarte bune, excepţionale . . . )

V.a. continue sunt v.a. numerice: timpul de funcţionare până la defectare a unei piese electron-
ice, temperatura ı̂ntr-un oraş, viteza ı̂nregistrată de radar pentru maşini care parcurg o anumită
zonă . . .
Variabile aleatoare numerice - definiţie formală
Def. 10. Fie (Ω, K, P ) spaţiu de probabilitate. X : Ω → R este o variabilă aleatoare, dacă
{ω ∈ Ω : X(ω) ≤ x} ∈ K pentru fiecare x ∈ R.
Variabile aleatoare discrete X : Ω → {x1 , x2 , . . . , xi , . . . }

Def. 11. Distribuţia de probabilitate a v.a. discrete X


   
x1 x2 . . . xi . . . xi
X∼ =
p1 p2 . . . pi . . . pi i∈I
P
I ⊆ N (mulţime de indici nevidă); pi = P (X = xi ) > 0, i ∈ I, cu pi = 1.
i∈I
 O variabilă aleatoare discretă X este caracterizată de distribuţia de probabilitate P [X]:
(1) P [X] : {x1 , x2 , . . . } → [0, 1], definită prin P [X](x) = P (X = x) ∀ x ∈ {x1 , x2 , . . . }.
 Notăm {X = xi} = {ω ∈ Ω : X(ω) = xi}; acesta este un eveniment din K pentru fiecare
i ∈ I.
Distribuţii discrete clasice
Distribuţia discretă uniformă: X ∼ U nid(n), n ∈ N∗
 
1 2 ... n
X∼  
1 1 1
n n ... n

16
Exemplu: Se aruncă un zar, fie X v.a. care indică numărul apărut
 
1 2 ... 6
⇒X∼ 1 1 1
6 6 ... 6

Matlab/Octave: unidrnd(n, ...), randi(n, ...) generează valori aleatoare; unidpdf(x, n) cal-
culează P (X = x), dacă X ∼ U nid(n).
Distribuţia Bernoulli: X ∼ Bernoulli(p), p ∈ (0, 1)
 
0 1
X∼
1−p p
Exemplu: ı̂n cadrul unui experiment poate să apară evenimentul A (succes) sau Ā (insucces)
X = 0 ⇔ dacă Ā apare; X = 1 ⇔ dacă A apare
⇒ X ∼ Bernoulli(p) cu p := P (A)
 
0 1
X∼
1 − P (A) P (A)

generare ı̂n Matlab/Octave:
n=1000;
p=0.3;
nr=rand(1,n);
X=(nr<=p) % vector de date avand distributia Bernoulli(p)
%%%%%%%%
Y=floor(rand(1,n)+p)% vector de date avand distributia Bernoulli(p)
%%%%%%%%

Distribuţia binomială: X ∼ Bino(n, p), n ∈ N∗ , p ∈ (0, 1)


ı̂n cadrul unui experiment poate să apară evenimentul A (succes) sau Ā (insucces)
• A = succes cu P (A) = p, Ā = insucces P (Ā) = 1 − p
• se repetă experimentul de n ori
• v.a. X= numărul de succese ı̂n n repetări independente ale experimentului ⇒ valori posibile:
X ∈ {0, 1, . . . , n}

P (X = k) = Cnk pk (1 − p)n−k , k ∈ {0, . . . , n}.


 
k
X ∼ Bino(n, p) ⇐⇒ X ∼
Cnk pk (1 − p)n−k k∈{0,...,n}

17
Exemplu: Un zar se aruncă de 10 ori, fie X v.a. care indică de câte ori a apărut numărul 6
⇒ X ∼ Bino(10, 61 ).
→ are loc formula binomială n
X
n
(a + b) = Cnk ak bn−k
k=0
pentru a = p şi b = 1 − p se obţine
n
X
1= Cnk pk (1 − p)n−k .
k=0

Matlab/Octave: binornd(n, p, ...) generează valori aleatoare; binopdf(x, n, p) calculează


P (X = x), dacă X ∼ Bino(n, p).
 Distribuţia binomială corespunde modelului cu extragerea bilelor dintr-o urnă cu bile de
două culori şi cu returnarea bilei după fiecare extragere:
Într-o urnă sunt n1 bile albe şi n2 bile negre. Se extrag cu returnare n bile; fie v.a. X1 = numărul
de bile albe extrase; X2 = numărul de bile negre extrase
⇒ X1 ∼ Bino(n, p1 ) cu p1 = n1n+n 1
2
, X2 ∼ Bino(n, p2 ) cu p2 = n1n+n
2
2
.
Exemplu: Fie un canal de comunicare binară care transmite cuvinte codificate de N biţi fiecare.
Probabilitatea transmiterii cu succes a unui singur bit este p, iar probabilitatea unei erori este
1 − p. Presupunem, de asemenea, că un astfel de cod este capabil să corecteze până la m erori
(ı̂ntr-un cuvânt), unde 0 ≤ m ≤ N . Se ştie că transmiterea biţilor succesivi este independentă,
atunci probabilitatea transmiterii cu succes a unui cuvânt este P (A), unde
A: cel mult m erori apar ı̂n transmiterea celor N biţi
m
X
P (A) = CNk pN −k (1 − p)k .
k=0

Exerciţii: 1) Un client accesează o dată pe zi o anumită pagină web, care oferă produse bio,
cu probabilitatea 0.4. Cu ce probabilitate clientul accesează această pagină ı̂n total de 3 ori ı̂n
următoarele 6 zile?
2) O reţea de laborator este compusă din 15 calculatoare. Reţeaua a fost atacată de un virus
nou, care atacă un calculator cu o probabilitatea 0.4, independent de alte calculatoare. Care este
probabilitatea ca virusul a atacat a) cel mult 10 computere; b) cel puţin 10 calculatoare; c) exact
10 calculatoare? ♣

18
Distribuţia hipergeometrică: X ∼ Hyge(n, n1 , n2 ), n, n1 , n2 ∈ N∗
Într-o urnă sunt n1 bile albe şi n2 bile negre. Se extrag fără returnare n bile.
Fie v.a. X = numărul de bile albe extrase ⇒ valori posibile pentru X sunt {0, 1, . . . , n∗ } cu

n1 dacă n1 < n (mai puţine bile albe decât numărul de extrageri)
n∗ = min(n1 , n) =
n dacă n1 ≥ n (mai multe bile albe decât numărul de extrageri)

Fie n1 , n2 , n ∈ N cu n ≤ n1 + n2 şi notăm n∗ = min(n1 , n).

Cnk1 Cnn−k
⇒ P (X = k) = n
2
, k ∈ {0, . . . , n∗ }.
Cn1 +n2
Matlab/Octave: hygernd(n1 + n2 , n1 , n, ...) generează valori aleatoare;
hygepdf(x, n1 + n2 , n1 , n) calculează P (X = x), dacă X ∼ Hyge(n, n1 , n2 ).
Exemplu: 1) Într-o urnă sunt n1 = 2 bile albe şi n2 = 3 bile negre. Se extrag fără returnare
n = 3 bile. Fie v.a. X = numărul de bile albe extrase. Vom calcula P (X = 1) cu două metode:
Prima metodă: Pentru i ∈ {1, 2, 3} fie evenimentele
Ai : la a i-a extragere s-a obţinut bilă albă
Ni = Āi : la a i-a extragere s-a obţinut bilă neagră.
Scriem

P (X = 1) = P (A1 ∩ N2 ∩ N3 ) + P (A1 ∩ N2 ∩ N3 ) + P (A1 ∩ N2 ∩ N3 ),


2 3 2 1
P (A1 ∩ N2 ∩ N3 ) = P (A1 )P (N2 |A1 )P (N3 |A1 ∩ N2 ) = · · =
5 4 3 5
3 2 2 1
P (N1 ∩ A2 ∩ N3 ) = P (N1 )P (A2 |N1 )P (N3 |N1 ∩ A2 ) = · · =
5 4 3 5
3 2 2 1
P (N1 ∩ N2 ∩ A3 ) = P (N1 )P (N2 |N1 )P (A3 |N1 ∩ N2 ) = · · =
5 4 3 5
3
⇒ P (X = 1) = .
5
A doua metodă: O bilă albă din două se poate alege ı̂n C21 = 2 moduri, două bile neagre din trei
se pot alege ı̂n C32 = 3 moduri, trei bile din cinci se pot alege ı̂n C53 = 10 moduri
C21 · C32 2·3 3
⇒ P (X = 1) = = = .
C53 10 5
2) Loto 6 din 49 → Care este probabilitatea de a nimeri exact 4 numere câştigătoare?
R.: Între cele 49 de bile exact n1 = 6 sunt câştigătoare (“bilele albe”) şi n2 = 43 necâştigătoare
(“bilele negre”). Care este probabilitatea ca din n = 6 extrageri fără returnare, exact k = 4

19
numere să fie câştigătoare?

C64 C43
2
⇒ P (X = 4) = 6
C49

Distribuţia geometrică X ∼ Geo(p), p ∈ (0, 1)
În cadrul unui experiment poate să apară evenimentul A (succes) sau Ā (insucces)
• A = succes cu P (A) = p, Ā = insucces P (Ā) = 1 − p
• se repetă (independent) experimentul până apare prima dată A (“succes”)
• v.a. X arată de câte ori apare Ā (numărul de “insuccese”) până la apariţia primului A (“suc-
ces”) ⇒ valori posibile: X ∈ {0, 1, . . .}

P (X = k) = p(1 − p)k pentru k ∈ {0, 1, 2, . . . }.


Matlab/Octave: geornd(p, ...) generează valori aleatoare; geopdf(x, p) calculează P (X = x),
dacă X ∼ Geo(p).
Exemplu: X v.a. ce indică numărul de retransmisii printr-un canal cu zgomot (canal cu per-
turbări) până (ı̂nainte de) la prima recepţionare corectă a mesajului; X are distribuţie geometrică.

Variabile aleatoare independente
Def. 12. Variabilele aleatoare discrete X (care ia valorile {xi , i ∈ I}) şi Y (care ia valorile
{yj , j ∈ J}) sunt independente, dacă şi numai dacă
P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ) ∀ i ∈ I, j ∈ J,
unde P (X = xi , Y = yj ) = P ({X = xi } ∩ {Y = yj }) ∀ i ∈ I, j ∈ J.
Observaţie: Fie evenimentele Ai = {X = xi }, i ∈ I, şi Bj = {Y = yj }, j ∈ J.
V.a. X şi Y sunt independente ⇐⇒ ∀ (i, j) ∈ I × J evenimentele Ai şi Bj sunt independente (a
se vedea Def. 6).
Exemplu: Se aruncă o monedă de 10 ori. Fie X v.a. care indică de câte ori a apărut pajură ı̂n
primele cinci aruncări ale monedei; fie Y v.a. care indică de câte ori a apărut pajură ı̂n ultimele
cinci aruncări ale monedei. X şi Y sunt v.a. independente. Care este distribuţia de probabilitate
a lui X, respectiv Y ?

P. 8. Fie variabilele aleatoare discrete X (care ia valorile {xi , i ∈ I}) şi Y (care ia valorile
{yj , j ∈ J}). Sunt echivalente afirmaţiile:

20
(1) X şi Y sunt v.a. sunt independente;
(2) P (X = x|Y = y) = P (X = x) ∀x ∈ {xi , i ∈ I}, y ∈ {yj , j ∈ J};
(3) P (Y = y|X = x) = P (Y = y) ∀x ∈ {xi , i ∈ I}, y ∈ {yj , j ∈ J};
(4) P (X ≤ x, Y ≤ y) = P (X ≤ x) · P (Y ≤ y) ∀ x, y ∈ R.
Def. 13. X = (X1 , . . . , Xm ) este un vector aleator discret dacă fiecare componentă a sa este o
variabiă aleatoare discretă.
Fie K ⊆ N o mulţime de indici şi fie date xk := (x1,k , ..., xm,k ) ∈ Rm , k ∈ K.
Dacă X : Ω → {xk , k ∈ K} este un vector aleator discret, atunci

P (X = xk ) := P {ω ∈ Ω : X(ω) = xk } , k ∈ K,


determină distribuţia de probabilitate a vectorului aleator discret X

xk
 
X∼ .
P (X = xk ) k∈K

 Vectorii aleatori sunt caracterizaţi de distribuţiile lor de probabilitate! De exemplu, un vector


aleator cu 2 componente:  
(xi , yj )
X = (X, Y ) ∼
pij (i,j)∈I×J

unde I, J ⊆ N sunt mulţimi de indici,


P ((X, Y ) = (xi , yj )) = P ({X = xi } ∩ {Y = yj }), pij > 0 ∀ i ∈ I, j ∈ J,
pij :=X
iar pij = 1.
(i,j)∈I×J
Y
... yj ...
X
 Uneori distribuţia vectorului (X, Y ) se dă sub formă tabelară: ..
.
..
.
..
.
..
.
xi ... pij ...
.. .. .. ..
. . . .

Exemplu: Fie vectorul aleator discret (X, Y ) cu distribuţia dată de


Y 0 1
X
1 1
următorul tabel: -1 14 12 =⇒ P (X = −1, Y = 0) = 4 , P (X = −1, Y = 1) = 2 , etc.
1 1
2 8 8
a) Să se determine P (X = −1), P (X ≤ 3), respectiv P (Y = 1), P (Y ≤ −1).
b) Sunt X şi Y v.a. independente?

21
Observaţie: Dacă X şi Y sunt v.a. independente, atunci

(2) pij = P (X = xi , Y = yj ) = P (X = xi )P (Y = yj ) ∀ i ∈ I, j ∈ J.

 Dacă X şi Y sunt v.a. independente, şi se ştiu distribuţiile lor, atunci distribuţia vectorului
aleator (X, Y ) se determină pe baza formulei (2).
 Dacă se cunoaşte distribuţia vectorului aleator (X, Y ) distribuţiile lui X şi Y se determină
astfel: X
P (X = xi ) = pij ∀i ∈ I
j∈J
X
P (Y = yj ) = pij ∀j ∈ J.
i∈I
Exemplu:
 Modelul urnei cu r culori cu returnarea bilei după fiecare extragere: fie pi probabilitatea
de a extrage o bilă cu culoarea i, i = 1, r dintr-o urnă; fie Xi v.a. ce indică numărul de bile de
culoarea i, i = 1, r după n extrageri cu returnarea bilei extrase, iar ordinea de extragere a bilelor
de diverse culori nu contează

P (X1 = k1 , . . . , Xr = kr ) = probabilitatea de a obţine ki bile cu culoarea i, i = 1, r,


din n = k1 + ... + kr extrageri cu returnarea bilei extrase
n!
= · pk11 · . . . · pkr r ,
k1 ! . . . kr !
 (X1, ..., Xr ) este un vector aleator discret.
 cazul r = 2 corespunde distribuţiei binomiale (modelul binomial cu bile de două culori ı̂ntr-o
urnă, a se vedea pg. 18): (X1 , X2 ) este un vector aleator discret, iar X1 + X2 = n; X1 şi X2 nu
sunt v.a. independente.
Operaţii cu variabile aleatoare (numerice)
• Cunoscând distribuţia vectorului (X, Y ) cum se determină distribuţia pentru X + Y , X · Y ,
X 2 − 1, 2Y ?
Exemplu: Fie vectorul aleator discret (X1 , X2 ) cu distribuţia dată de următorul tabel:
X2 0 1 2
X1
2 1 2 . Determinaţi: a) distribuţiile variabilelor aleatoare X1 şi X2 ;
1 16 16 16
1 5 5
2 16 16 16
b) distribuţiile variabilelor aleatoare X1 + X2 şi X1 · X2 , X12 − 1;
c) dacă variabilele aleatoare X1 şi X2 sunt independente sau dependente.

22
   
1 2 0 1 2
R.: a) X1 ∼ 5 11 şi X2 ∼ 3 6 7 .
16
 16  16 16 16    
1 2 3 4 0 1 2 4 0 3
b) X1 + X2 ∼ 2 2 7 5 şi X1 · X2 ∼ 3 1 7 5 , X12 − 1 ∼ 5 11
16 16 16 16 16 16 16 16 16 16
2
c) X1 şi X2 nu sunt independente, pentru că 16 = P (X1 = 1, X2 = 0) 6= P (X1 = 1)P (X2 =
5 3
0) = 16 · 16 . ♥
• Cunoscând distribuţiile variabilelor aleatoare independente (discrete) X şi Y , cum se determină
distribuţia pentru X + Y , X · Y ?
Exerciţiu: Fie X,Y v.a. independente, având distribuţiile
   
0 1 −1 0 1
X∼ 1 2 , Y ∼ 1 1 1
3 3 2 4 4

a) Care sunt distribuţiile v.a. 2X + 1, Y 2 , dar distribuţia vectorului aleator (X, Y )?


b) Care sunt distribuţiile v.a. X + Y , X · Y , max(X, Y ), min(X, Y 2 )? ♣
Exerciţiu: Se aruncă două zaruri. a) Să se scrie distribuţia de probabilitate pentru variabila
aleatoare, care este suma celor două numere apărute. b) Să se scrie distribuţia de probabilitate
pentru variabila aleatoare, care este produsul celor două numere apărute. ♠

Def. 14. Valoarea medie a unei variabile aleatoare discrete (numerice) X, care ia valorile
{xi , i ∈ I}, este X
E(X) = xi P (X = xi ),
i∈I
X
dacă |xi |P (X = xi ) < ∞.
i∈I

 Valoarea medie a unei variabile aleatoare caracterizează tendinţa centrală a valorilor acesteia.
P. 9. Fie X şi Y v.a. discrete. Au loc proprietăţile:
→ E(aX + b) = aE(X) + b pentru orice a, b ∈ R;
→ E(X + Y ) = E(X) + E(Y );
→ Dacă X şi Y sunt v.a. independente, atunci E(X · Y ) = E(X)E(Y ).
→ Dacă g : R → R e o funcţie astfel ı̂ncât g(X) este v.a., atunci
X
E(g(X)) = g(xi )P (X = xi ),
i∈I
P
dacă |g(xi )|P (X = xi ) < ∞.
i∈I

23
Matlab/Octave: mean(x)
1 
pentru x = [x(1), ..., x(n)], se calculează mean(x) = x(1) + ... + x(n)
n
Exemplu: Joc: Se aruncă un zar; dacă apare 6, se câştigă 3 u.m. (unităţi monetare), dacă apare 1
se câştigă 2 u.m., dacă apare 2,3,4,5 se pierde 1 u.m. În medie cât va câştiga sau pierde un jucător
după 30 de repetiţii ale jocului?
Răspuns: Fie X v.a. care indică venitul la un joc
 
−1 2 3
X∼ 4 1 1
6 6 6

Pentru i ∈ {1, ..., 30} fie Xi venitul la al i-lea joc; Xi are aceeaşi distribuţie ca X. Venitul mediu
al jucătorului după 30 de repetiţii ale jocului este
1
E(X1 + ... + X30 ) = E(X1 ) + ... + E(X30 ) = 30 · E(X) = 30 · · (2 − 4 + 3) = 5 (u.m.).
6
Aşadar jucătorul câştigă ı̂n medie 5 u.m.
Exerciţiu:
Input: Fie A(1),...,A(200) un vector cu 200 de elemente, din care 50 sunt egale cu 0, 70 egale cu
1 şi 80 sunt egale cu 2 (ordinea lor este necunoscută).
Output: Să se găsească un 0 ı̂n vector, alegând aleator un element din şir şi verificând dacă acesta
este 0.
Întrebare: În medie câte iteraţii sunt necesare ı̂nainte să apară primul 0?
clear all
A=[zeros(1,50), zeros(1,70)+1,zeros(1,80)+2];
index=randperm(length(A));
A=A(index);
c=0;
i=randi(length(A));
while A(i)˜=0
c=c+1;
i=randi(length(A));
end
fprintf(’nr. iteratii inainte sa apara primul 0: %d \n’,c)
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
clear all
A=[zeros(1,50), zeros(1,70)+1,zeros(1,80)+2];
s=[];
N=1000;
for j=1:N
index=randperm(length(A));
A=A(index);

24
c=0;
i=randi(length(A));
while A(i)˜=0
c=c+1;
i=randi(length(A));
end
s=[s,c];
end
fprintf(’nr. mediu de iteratii: %4.3f \n’,mean(s))

50
Probabilitatea să apară la orice iteraţie 0 este p = 200 = 0.25.
Notăm cu X v.a. care indică numărul de iteraţii necesare ı̂nainte să apară primul 0
⇒ X ∼ Geo(p).
Numărul mediu de iteraţii necesare ı̂nainte să apară primul 0 este E(X). Se poate arăta că
E(X) = 1−p 1−0.25
p = 0.25 = 3. t
Def. 15. Fie X1 , . . . , Xn cu n ∈ N, n ≥ 2, variabile aleatoare discrete, care iau valori ı̂n
mulţimile X1 , . . . , Xn . X1 , . . . , Xn sunt variabile aleatoare independente, dacă
P (X1 = x1 , . . . , Xn = xn ) = P (X1 = x1 ) · . . . · P (Xn = xn )
pentru fiecare x1 ∈ X1 , . . . , xn ∈ Xn .
Exemplu: Se aruncă patru zaruri. Fie Xi v.a. care indică numărul apărut la al i-lea zar.
a) X1 , X2 , X3 , X4 sunt v.a. independente;
b) X1 + X2 şi X3 + X4 sunt v.a. independente;
c) X1 + X2 + X3 şi X4 sunt v.a. independente.
Def. 16. Funcţia de repartiţie F : R → [0, 1] a unei variabile aleatoare X discrete, care ia
valorile {xi , i ∈ I}, este
X
F (x) = P (X ≤ x) = P (X = xi ) ∀x ∈ R.
i∈I:xi ≤x

Exemplu: Fie v.a. discretă X dată prin:


P (X = −1) = 0.5, P (X = 1) = 0.3, P (X = 4) = 0.2 .
=⇒ X are funcţia de repartiţie FX : R → [0, 1]


 0, dacă x < −1
0.5, dacă − 1 ≤ x < 1

FX (x) = P (X ≤ x) =

 0.5 + 0.3 = 0.8, dacă 1 ≤ x < 4
0.5 + 0.3 + 0.2 = 1, dacă 4 ≤ x .

25
P. 10. Funcţia de repartiţie F a unei variabile aleatoare discrete X are următoarele proprietăţi:
(1) F (b) − F (a) = P (X ≤ b) − P (X ≤ a) = P (a < X ≤ b) ∀a, b ∈ R, a < b.
(2) F este monoton crescătoare, adică pentru orice x1 < x2 rezultă F (x1 ) ≤ F (x2 ).
(3) F este continuă la dreapta, adică lim F (x) = F (x0 ) ∀ x0 ∈ R.
x&x0
(4) lim F (x) = 1 şi lim F (x) = 0.
x→∞ x→−∞

Matlab/Octave: binocdf(x, n, p), hygecdf(x, n1 +n2 , n1 , n), geocdf(x, p) calculează


F (x) = P (X ≤ x) pentru X ∼ Bino(n, p), X ∼ Hyge(n1 + n2 , n1 , n), respectiv X ∼ Geo(p).
pkg load statistics
clear all
close all
% X˜Bino(n,p)
n=5; % nr. repetari ale experimentului
p=0.4; %probabilitatea de a obtine succes
x=-1:0.001:6;
y=binocdf(x,n,p);
plot(x,y,’r.’)
title(’FUNCTIA DE REPARTITIE - Distr. binomiala’)

Variabile aleatoare continue


V.a. continuă: ia un număr infinit şi nenumărabil de valori ı̂ntr-un interval sau reuniune de
intervale (v.a. poate lua orice valoare din intervalul considerat);
 v.a. continue pot modela caracteristici fizice precum timp (de ex. timp de instalare, timp de
aşteptare), greutate, lungime, poziţie, volum, temperatură (de ex. X e v.a. care indică durata de
funcţionare a unui dispozitiv până la prima defectare; X e v.a. care indică temperatura ı̂ntr-un
oraş la ora amiezii)
 ea este caracterizată de funcţia de densitate.
Def. 17. Funcţia de densitate a unei v.a. continue X este funcţia f : R → R pentru care are loc
Z x
P (X ≤ x) = f (t)dt, ∀ x ∈ R.
−∞

Funcţia F : R → [0, 1] definită prin


Z x
F (x) = P (X ≤ x) = f (t)dt, ∀ x ∈ R,
−∞

se numeşte funcţia de repartiţie a v.a. continue X.

26
P. 11. Fie f funcţia de densitate şi F funcţia de repartiţie a unei v.a. continue X. Au loc
proprietăţile:
(1) f (t) ≥ 0 pentru orice t ∈ R;
Z∞
(2) f (t) dt = 1;
−∞
Z b
(3) F (b) − F (a) = P (a < X ≤ b) = f (t)dt ∀ a, b ∈ R, a < b;
a
(4) P (X = a) = 0 ∀ a ∈ R;
(5) pentru ∀ a < b, a, b ∈ R au loc
Zb
F (b)−F (a) = P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = f (t)dt;
a

(6) F este o funcţie monoton crescătoare şi continuă pe R;


(7) lim F (x) = 1 şi lim F (x) = 0.
x→∞ x→−∞
(8) dacă F este derivabilă ı̂n punctul x, atunci F 0 (x) = f (x).
Observaţie: Orice funcţie f : R → R, care are proprietăţile (1), (2) din P.11 este o funcţie de
densitate.
Exemple de distribuţii clasice continue
æDistribuţia uniformă pe un interval [a, b]: X ∼ U nif [a, b], a, b ∈ R, a < b
• funcţia de densitate este
(
1 , pentru x ∈ [a, b]
f (x) = b−a
0, pentru x ∈ R \ [a, b]
Matlab/Octave:
 pentru a = 0, b = 1: rand(M, N ) returnează o matrice M × N cu valori aleatoare din [0,1]
 unifrnd(a, b, M, N ), respectiv (b − a)rand(M, N ) + a returnează o matrice M × N cu
valori aleatoare din [a, b]
 pentru X ∼ U nif [a, b]: unifpdf(x, a, b) calculează f (x), iar unifcdf(x, a, b) calculează
F (x) = P (X ≤ x).
æ Distribuţia normală (Gauss): X ∼ N (m, σ 2 ), m ∈ R, σ > 0
• funcţia de densitate este
(x − m)2
 
1
f (x) = √ exp − , x ∈ R.
σ 2π 2σ 2
27
Friedrich Gauss şi legea normală N (m, σ 2 ) (bancnota de 10 DM)

• Pentru m = 0, σ = 1: N (0, 1) se numeşte distribuţia standard normală.


• Distribuţia normală se aplică ı̂n: măsurarea erorilor (de ex. termenul eroare ı̂n analiza regre-
sională), ı̂n statistică (teorema limită centrală, teste statistice) etc.
Matlab/Octave: normrnd(m, σ, M, N ) returnează o matrice M × N cu valori aleatoare;
 pentru X ∼ N (m, σ2): normpdf(x, m, σ) calculează f (x), iar normcdf(x, m, σ) calculează
F (x) = P (X ≤ x).
æDistribuţia exponenţială: X ∼ Exp(λ), λ > 0
• funcţia de densitate este  −λx
λe , pentru x > 0
f (x) =
0, pentru x ≤ 0
Matlab/Octave: exprnd λ1 , M, N returnează

o matrice M × N cu valori aleatoare;
 pentru X ∼ Exp(λ): exppdf x, λ calculează f (x), iar expcdf x, λ1 calculează F (x) =
1
 
P (X ≤ x).
pkg load statistics
clear all
close all
figure
title(’Functia de densitate a legii exponentiale’)
hold on
L=[1,2,4]; % lambda parametru
t=[-1:0.01:2];
plot(t, exppdf(t,1/L(1)), ’r*’)
plot(t, exppdf(t,1/L(2)), ’b*’)
plot(t, exppdf(t,1/L(3)), ’g*’)
legend(’lambda=1’,’lambda=2’,’lambda=4’)

28
æDistribuţia Student: X ∼ St(n), n ∈ N∗
• distribuţia Student cu n ∈ N∗ grade de libertate are funcţia de densitate
 n+1
2 − 2
Γ n+1
 
2 x
f (t) = √  1+ , t∈R
nπΓ n2 n
unde funcţia Gamma este
Z∞
Γ(a) = v a−1 exp(−v)dv, a > 0
0
Matlab/Octave: trnd(n, M, N ) returnează o matrice M × N cu valori aleatoare;
 pentru X ∼ St(n): tpdf(x, n) calculează f (x), iar tcdf(x, n) calculează
F (x) = P (X ≤ x).
æDistribuţia Chi-pătrat: X ∼ χ2 (n), n ∈ N∗
• distribuţia χ2 cu n ∈ N∗ grade de libertate are funcţia de densitate

 0, dacă x ≤ 0
f (x) = 1 n
 x
2 −1 · exp
n n2 · x − , dacă x > 0,
Γ( 2 )2 2

Matlab/Octave: chi2rnd(n, M, N ) returnează o matrice M × N cu valori aleatoare;


 pentru X ∼ χ2(n): chi2pdf(x, n) calculează f (x), iar chi2cdf(x, n) calculează F (x) =
P (X ≤ x).
Exemplu: Fie X ∼ Exp(0.5) v.a. care indică timpul de funcţionare a unei baterii (câte luni
funcţionează bateria). Folosind simulări, să se estimeze a) P (2 ≤ X ≤ 4); b) P (X > 3) şi să se
compare rezultatele obţinute cu rezultatele teoretice.
pkg load statistics
N=10000;
X=exprnd(2,1,N);
p=sum((2<=X)&(X<=4))/N
q=sum(X>3)/N
> p=0.23280
> q=0.22060
Z 4 4
−0.5t −0.5t
P (2 ≤ X ≤ 4) = 0.5e dt = −e = e−1 − e−2 ≈ 0.23254
2 2
Z 3 Z ∞ ∞
−0.5t −0.5t −0.5t
P (X > 3) = 1 − 0.5e dt = 0.5e dt = −e = e−1.5 ≈ 0.22313 ♣
−∞ 3 3

Matlab/Octave:

29
Distribuţia Generare Funcţia de repartiţie Probabilitate
v.a. discrete X valori aleatoare FX (x) = P (X ≤ x) P (X = x)
Bino(n, p) binornd(n, p) binocdf(x, n, p) binopdf(x, n, p)
U nid(n) unidrnd(n) unidcdf(x, n) unidpdf(x, n)
Hyge(n,n1 ,n2 ) hygernd(n1 +n2 ,n1 ,n) hygecdf(x,n1 +n2 ,n1 ,n) hygepdf(x,n1 +n2 ,n1 ,n)
Geo(p) geornd(p) geocdf(x, p) geopdf(x, p)
Distribuţia Generare Funcţia de repartiţie Funcţia de densitate
v.a. continue X valori aleatoare FX (x) = P (X ≤ x) fX (x)
U nif [a, b] unifrnd(a, b) unifcdf(x, a, b) unifpdf(x, a, b)
N (m, σ 2 ) normrnd(m, σ) normcdf(x, m, σ) normpdf(x, m, σ)
Exp(λ) exprnd( λ1 ) expcdf(x, λ1 ) exppdf(x, λ1 )

Observaţie: Dacă ı̂n cadrul aceluiaşi program Matlab/Octave se generează val-


ori aleatoare (de exemplu cu rand, randi, binornd, hygernd, unidrnd,
geornd, unifrnd, normrnd, exprnd, etc.) atunci acestea pot fi considerate ca
fiind valorile unor variabile aleatoare independente.

30
Proprietăţi

V.a. discretă V.a. continuă


• caracterizată de distribuţia de probabilitate • caracterizată de funcţia de densitate f
discretă
  Z x
xi
X∼ P (X ≤ x) = f (t)dt
P (X = xi ) i∈I Z ∞ −∞
X
• P (X = xi ) = 1 • f (t)dt = 1
i∈I −∞
X Z
• P (X ∈ A) = P (X = xi ) • P (X ∈ A) = f (t)dt
i∈I: xi ∈A A
• funcţia de repartiţie F (x)=P (X ≤ x) ∀x ∈ R • funcţia de
Z repartiţie F (x)=P (X ≤ x) ∀x∈R
X x
• F (x) = P (X = xi ) ∀x ∈ R • F (x) = f (t)dt ∀x ∈ R
i∈I: xi ≤x −∞
• F este funcţie continuă la dreapta • F este funcţie continuă ı̂n orice punct x ∈ R
• F este discontinuă ı̂n punctele xi , ∀ i ∈ I
• ∀ a < b, a, b ∈ R X • ∀ a < b, a, b ∈ R
P (a ≤ X ≤ b) = P (X = xi ) P (a ≤ X ≤ b) = P (a < X ≤ b)
i∈I:a≤xi ≤b
Zb
= P (a ≤ X < b) = P (a < X < b) = f (t) dt
a
Za
• P (X = a) = 0 dacă a ∈
/ {xi : i ∈ I} • P (X = a) = f (t) dt = 0 ∀ a ∈ R
a
• dacă F este derivabilă ı̂n punctul x
⇒ F 0 (x) = f (x).

Exemplu: Fie X v.a. care indică timpul de funcţionare neı̂ntreruptă (ı̂n ore) până la prima
defectare a unui aparat, pentru care P (X > x) = 2−x , x > 0 şi P (X > x) = 1, x ≤ 0. Să se
determine fX şi P (2 < X < 3).

31
Vector aleator continuu
Def. 18. (X1 , . . . , Xn ) este un vector aleator continuu dacă fiecare componentă a sa este o
variabiă aleatoare continuă.
Def. 19. f(X,Y ) : R × R → R+ este funcţia de densitate a vectorului aleator continuu (X, Y ),
dacă Z x Z y 
P (X ≤ x, Y ≤ y) = f(X,Y ) (s, t)dt ds ∀x, y ∈ R.
−∞ −∞
Def. 20. F(X,Y ) : R × R → R+ este funcţia de repartiţie a vectorului aleator (X, Y ) (discret
sau continuu), dacă
F(X,Y ) (x, y) = P (X ≤ x, Y ≤ y) ∀ x, y ∈ R.
X2 0 3
Exemplu: Vectorul aleator discret (X1 , X2 ) este dat prin următorul X 1

tabel de contingenţă: -2 0.4 0.3


4 0.2 0.1

Funcţia de repartiţie F(X1 ,X2 )

=⇒ (X1 , X2 ) are funcţia de repartiţie F(X1 ,X2 ) : R × R → [0, 1]




 0, dacă x1 < −2 sau x2 < 0
 0.4, dacă − 2 ≤ x1 < 4 şi 0 ≤ x2 < 3


F(X1 ,X2 ) (x1 , x2 ) = P (X1 ≤ x1 , X2 ≤ x2 ) = 0.7, dacă − 2 ≤ x1 < 4 şi 3 ≤ x2
0.6, dacă 4 ≤ x1 şi 0 ≤ x2 < 3




1, dacă 4 ≤ x1 şi 3 ≤ x2 .

32
P. 12. Pentru un vector aleator continuu (X, Y ) au loc proprietăţile:
Z ∞ Z ∞ 
1. f(X,Y ) (u, v) dv du = 1.
−∞ −∞

2. F(X,Y ) este funcţie continuă.


3. Dacă F(X,Y ) este derivabilă parţial ı̂n (x, y), atunci are loc:
∂ 2 F(X,Y ) (x, y)
= f(X,Y ) (x, y).
∂x∂y
Z Z
4. P ((X, Y ) ∈ A) = f(X,Y ) (u, v)dudv, A ⊂ R2 .
| {z }
A

I Dacă se cunoaşte funcţia de repartiţie F(X,Y ) pentru vectorul aleator (X, Y ) (discret sau
continuu), atunci FX , respectiv FY , se determină cu

(3) FX (x) = lim F(X,Y ) (x, y), FY (y) = lim F(X,Y ) (x, y).
y→∞ x→∞

Exemplu: Funcţia de repartiţie a vectorului aleator (X, Y ) este F(X,Y ) : R × R → [0, 1]




 0, dacă x < 0 sau y < 1
 x(y − 1), dacă 0 ≤ x < 1 şi 1 ≤ y < 2


F(X,Y ) (x, y) = x, dacă 0 ≤ x < 1 şi 2 ≤ y
y − 1, dacă 1 ≤ x şi 1 ≤ y < 2




1, dacă 1 ≤ x şi 2 ≤ y .

Ce distribuţie au X, respectiv Y ?
R.: Se determină FX , FY cu (3) şi se calculează fX = FX0 , fY = FY0 ; se obţine
X ∼ U nif [0, 1], Y ∼ U nif [1, 2]. ♣

I Dacă se cunoaşte funcţia de densitate f(X,Y ) pentru vectorul aleator continuu (X, Y ), atunci
fX , respectiv fY , se determină cu
Z ∞ Z ∞
(4) fX (x) = f(X,Y ) (x, y)dy, ∀x ∈ R, fY (y) = f(X,Y ) (x, y)dx, ∀y ∈ R.
−∞ −∞

33
Exemplu pentru o distribuţie normală bidimensională: (X, Y )
are funcţia de densitate (graficul acestei funcţii este dat ı̂n figura
alăturată)
1 − x2 +y2
f(X,Y ) (x, y) = e 2 , x, y ∈ R.

Z ∞
1 − x2
=⇒ fX (x) = f(X,Y ) (x, y)dy = √ e 2 , ∀x ∈ R,
−∞ 2π
Z ∞
1 y2 f(X,Y ) pentru distribuţia normală
=⇒ fY (y) = f(X,Y ) (x, y)dx = √ e− 2 , ∀y ∈ R. bidimensională
−∞ 2π
=⇒ X, Y ∼ N (0, 1).

Def. 21. X1 , . . . , Xn sunt n variabilele aleatoare independente (discrete sau continue), dacă

P (X1 ≤ x1 , . . . , Xn ≤ xn ) = P (X1 ≤ x1 ) · . . . · P (Xn ≤ xn ) ∀ x1 , . . . , xn ∈ R.

Observaţie (n = 2 in definiţia de mai sus): X1 şi X2 sunt două variabilele aleatoare indepen-
dente (discrete sau continue), dacă

P (X1 ≤ x1 , X2 ≤ x2 ) = P (X1 ≤ x1 ) · P (X2 ≤ x2 ) ∀ x1 , x2 ∈ R,

adică
F(X1 ,X2 ) (x1 , x2 ) = FX1 (x1 ) · FX2 (x2 ) ∀ x1 , x2 ∈ R.

P. 13. Variabilele aleatoare continue X1 (cu funcţia de densitate fX1 ) şi X2 (cu funcţia de densi-
tate fX2 ) sunt independente, dacă şi numai dacă

f(X1 ,X2 ) (x1 , x2 ) = fX1 (x1 )fX2 (x2 ) ∀ x1 , x2 ∈ R,

unde f(X1 ,X2 ) este funcţia de densitate a vectorului aleator (X1 , X2 ).

Exemplu: (X1 , X2 ) are distribuţie uniformă pe I = [a1 , b1 ] × [a2 , b2 ], cu a1 , a2 , b1 , b2 ∈ R,


a1 < b1 , a2 < b2 dacă

1
 dacă (x1 , x2 ) ∈ I
f(X1 ,X2 ) (x1 , x2 )= (b1 − a1 )(b2 − a2 )
0 dacă (x1 , x2 ) ∈
/ I.

34
Cu (4) se calculează
 
1 1
dacă x1 ∈ [a1 , b1 ] dacă x2 ∈ [a2 , b2 ]
 
fX1 (x1 ) = b − a1 şi fX2 (x2 ) = b − a2
 01 dacă x1 ∈ R \ [a1 , b1 ].  02 dacă x2 ∈ R \ [a2 , b2 ].
=⇒ X1 ∼ U nif [a1 , b1 ], X2 ∼ U nif [a2 , b2 ];
se observă f(X1 ,X2 ) = fX1 · fX2 =⇒ X1 şi X2 sunt v.a. independente! _
Exemplu: Fie (X, Y ) vector aleator continuu, având funcţia de repartiţie
(1 − e−x )(1 − e−2y ) dacă x > 0 şi y > 0

F(X,Y ) (x, y) =
0 ı̂n rest
Sunt X şi Y v.a. independente? Să se calculeze P (1 ≤ X ≤ 2 ≤ Y ≤ 3).
R.: Se calculează FX (x) = 1 − e−x pentru x > 0 şi FX (x) = 0 pentru x ≤ 0, precum şi
FY (y) = 1 − e−2y pentru y > 0 şi FY (y) = 0 pentru y ≤ 0. Se verifică
F(X,Y ) (x, y) = FX (x) · FY (y) ∀ x, y ∈ R.
Deci, X şi Y sunt v.a. independente.
Z 2Z 3
P (1 ≤ X ≤ 2 ≤ Y ≤ 3) = fX (u)fY (v)dudv = (e−1 − e−2 )(e−4 − e−6 ) ≈ 0.00368.
1 2
_
Def. 22. Valoarea medie a unei v.a. continue X, care are funcţia de densitate f , este
Z∞ Z∞
E(X) = tf (t)dt, dacă |t|f (t)dt < ∞.
−∞ −∞
 Valoarea medie a unei variabile aleatoare caracterizează tendinţa centrală a valorilor acesteia.

P. 14. Proprietăţi ale valorii medii; fie X, Y v.a. continue:


→ E(aX + b) = aE(X) + b pentru orice a, b ∈ R;
→ E(X + Y ) = E(X) + E(Y );
→ Dacă X şi Y sunt variabile aleatoare independente, atunci E(X · Y ) = E(X)E(Y ).
→ Dacă g : R → R e o funcţie, astfel ı̂ncât g(X) este o v.a. continuă, atunci
Z ∞
E(g(X)) = g(x)fX (x)dx,
−∞
Z ∞
dacă |g(x)|fX (x)dx < ∞.
−∞

35
Exemplu: Durata drumului parcurs de un elev dimineaţa de acasă până la şcoală este o v.a.
uniform distribuită ı̂ntre 20 şi 26 minute. Dacă elevul porneşte la 7:35 (a.m.) de acasă şi are ore
de la 8 (a.m.), care este probabilitatea ca elevul să ajungă la timp la şcoală? În medie cât durează
drumul elevului până la şcoală?
Răspuns: fie X (v.a.) = durata drumului parcurs până la şcoală (ı̂n minute) ⇒ X ∼ U nif [20, 26]
( 1 1
26−20 = 6 , dacă 20 ≤ t ≤ 26
=⇒ fX (t) =
0, ı̂n rest.
Z 25 Z 25
1 25 − 20 5
P (“elevul ajunge la timp la şcoală”) = P (X ≤ 25) = fX (t)dt = dt = = .
−∞ 20 6 6 6
Z ∞ Z 26
1 1 t2 26
E(X) = tfX (t)dt = t · dt = · = 23 (minute).
−∞ 20 6 6 2 20

Def. 23. Varianţa (dispersia) unei variabile aleatoare X (discrete sau continue) este
 
2
V (X) = E (X − E(X)) ,
  p
2
(dacă valoarea medie E (X −E(X)) există). Valoarea V (X) se numeşte deviaţia standard
a lui X şi o notăm cu Std(X).
I Varianţa unei variabile aleatoare caracterizează ı̂mprăştierea (dispersia) valorilor lui X ı̂n jurul
valorii medii E(X).

P. 15. Proprietăţi ale varianţei (pentru v.a. discrete sau continue):


→ V (X) = E(X 2 ) − E 2 (X).
→ V (aX + b) = a2 V (X) ∀ a, b ∈ R.
→ Dacă X şi Y sunt variabile aleatoare independente, atunci V (X + Y ) = V (X) + V (Y ).
Exemple: 1) Fie X ∼ Bino(n, p). Să se arate că E(X) = np şi V (X) = np(1 − p).
R.: Pentru i ∈ {1, . . . , n} fie Xi ∼ Bernoulli(p) (adică P (Xi = 1) = p, P (Xi = 0) = 1 − p),
astfel ı̂ncât X1 , . . . , Xn sunt v.a. independente. Observăm că X1 + . . . + Xn ∼ Bino(n, p). Deci,
X1 + . . . + Xn şi X au aceeaşi distribuţie, aşadar ele au aceeaşi valoare medie şi aceeaşi varianţă
E(X) = E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ) = p + ... + p = np.
V.a. X1 , . . . , Xn sunt independente şi folosind P.15, obţinem
V (X) = V (X1 + · · · + Xn ) = V (X1 ) + · · · + V (Xn ) = np(1 − p) = np(1 − p).

36
2) Dacă X ∼ N (m, σ 2 ) să se arate că E(X) = m, V (X) = σ 2 .
R.: Funcţia de densitate a lui X este
(x − m)2
 
1
fX (x) = √ exp − , x ∈ R.
2πσ 2σ 2
Când m = 0 şi σ = 1 obţinem funcţia de densitate a distribuţiei normale standard
 2
1 x
ϕ(x) = √ exp − , x ∈ R.
2π 2
Din P.11-(2) rezultă Z ∞
ϕ(t)dt = 1.
−∞
x−m
În calculele de mai jos utilizăm schimbarea de variabilă t =
σ
Z ∞ Z ∞
(x − m)2
 
1
E(X) = xfX (x)dx = √ x exp − dx
−∞ 2πσ −∞ 2σ 2
Z ∞  2 Z ∞  2
σ t 1 t
= √ t exp − dt + m √ exp − dt
2π Z−∞ 2 −∞ 2πσ 2

= 0+m ϕ(t)dt = m .
−∞

Folosind aceeaşi schimbare de variabilă şi apoi integrare prin părţi, avem
Z ∞
(x − m)2
 
2 1 2
V (X) = E[(X − m) ] = √ (x − m) exp − dx
2πσ −∞ 2σ 2
Z ∞ Z ∞   2 0
σ2
 2
2 t σ2 t
= √ t exp − dt = √ t − exp − dt
2π −∞ 2 2π −∞ 2
 2  ∞ Z ∞
σ2
  2 
t t
= t − exp − −√ − exp − dt

2 2π −∞ 2
−∞
Z ∞
= 0 − 0 + σ2 ϕ(t)dt = σ 2 .
−∞

3) Vectorul aleator (X, Y ) are funcţia de densitate



x − y, dacă 0 ≤ x ≤ 1 şi − 1 ≤ y ≤ 0
f(X,Y ) : R2 → R f(X,Y ) (x, y) =
0, altfel .

37
Să se calculeze E(X) şi E(X 2 ).
R.: Z 0
Z ∞ 1
(x − y) dy = x + , dacă 0 ≤ x ≤ 1

fX (x) = f(X,Y ) (x, y)dy = 2
−∞  −1
0, altfel .

Z ∞ Z 1  
1 7
E(X) = xfX (x)dx = x x+ dx = .
−∞ 0 2 12

Z ∞ Z 1  
1 5
E(X 2 ) = x2 fX (x)dx = x2 x+ dx = .
−∞ 0 2 12


I Matlab/Octave: mean, var, std
Fie x = [x1 , . . . , xn ] valorile unei v.a. X
1
mean(x) = (x1 + · · · + xn )
n

mean(x) ≈ E(X) pentru n suficient de mare


n n
1X 1 X
var(x, 1) = (xi − mean(x))2 , var(x) = (xi − mean(x))2
n i=1 n − 1 i=1

var(x, 1) ≈ V (X), var(x) ≈ V (X) pentru n suficient de mare

n
! 21 n
! 21
1 X 1 X
std(x, 1) = (xi − mean(x))2 , std(x) = (xi − mean(x))2
n i=1 n − 1 i=1

std(x, 1) ≈ Std(X), std(x) ≈ Std(X) pentru n suficient de mare

Def. 24. (Xn )n este şir de v.a. independente, dacă ∀ {i1 , . . . , ik } ⊂ N v.a. Xi1 , . . . , Xik sunt
independente, adică

P (Xi1 ≤ xi1 , . . . , Xik ≤ xik ) = P (Xi1 ≤ xi1 ) · · · · · P (Xik ≤ xik )

∀ xi1 , . . . , xik ∈ R.

38
Exemplu: a) Xn = v.a. care indică numărul apărut la a n-aruncare a unui zar ⇒ (Xn )n şir de v.a.
independente.
b) Se aruncă o monedă
(
0 : la a n-a aruncare a apărut cap,
Xn =
1 : la a n-a aruncare a apărut pajură.
⇒ (Xn )n şir de v.a. independente.
c) Xn = v.a. care indică numărul apărut la al n-lea joc de ruletă
⇒ (Xn )n şir de v.a. independente. ♣
Def. 25. Şirul de v.a. (Xn )n converge aproape sigur (a.s.) la v.a. X, dacă

P {ω ∈ Ω : lim Xn (ω) = X(ω)} = 1.
n→∞
a.s.
Notaţie: Xn −→ X
 Cu alte cuvinte, convergenţa aproape sigură Xn a.s.

→ X impune ca Xn (ω) n să conveargă la
X(ω) pentru fiecare ω ∈ Ω, cu excepţia unei mulţimi “mici” de probabilitate nulă;
a.s.
dacă Xn −→ X atunci evenimentul
M = {ω ∈ Ω : (Xn (ω))n nu converge la X(ω)} are P (M ) = 0.
Exemple: 1) În spaţiul de probabilitate (Ω, K, P ) fie A ∈ K cu P (A) = 0.4 şi P (Ā) = 0.6:
(
1 + n1 , pentru ω ∈ A
Xn (ω) = =⇒ P ({ω ∈ Ω : lim Xn (ω) = ???}) = 1.
− n1 , pentru ω ∈ Ā. n→∞

Definim
(
1, pentru ω ∈ A
X(ω) = =⇒ P ({ω ∈ Ω : lim Xn (ω) = X(ω)}) = P (A) + P (Ā) = 1.
0, pentru ω ∈ Ā. n→∞

a.s.
Aşadar Xn −→ X.
2) Fie Ω := [0, 1] spaţiul de selecţie, P probabilitatea pe [0,1] indusă de măsura Lebesgue pe
[0,1], adică pentru ∀α < β din [0, 1] are loc
       
P [α, β] = P [α, β) = P (α, β] = P (α, β) := β − α (lungimea intervalului)
a.s.
2a) Xn (ω) = ω + ω n + (1 − ω)n , ω ∈ [0, 1], n ≥ 1 ⇒ Xn −→ ???
R.: 
 ω pentru ω ∈ (0, 1)
lim Xn (ω) = 1 pentru ω = 0
n→∞
2 pentru ω = 1.

39
Fie X(ω) = ω pentru fiecare ω ∈ Ω

⇒ {ω ∈ Ω : lim Xn (ω) = ω} = (0, 1)


n→∞
⇒ P ({ω ∈ Ω : lim Xn (ω) = ω}) = P ((0, 1)) = 1.
n→∞
a.s.
Xn −→ X.

2b) Xn (ω) = (−1)n ω, ω ∈ [0, 1], n ≥ 1; converge Xn n a.s.?
R.: (Xn )n nu converge a.s. spre o v.a.; şirul Xn (ω) n este convergent doar ı̂n ω = 0, iar
P ({0}) = 0. N

Frecvenţe relative şi absolute (a se vedea Def.2): Fie A un eveniment asociat unei experienţe,
repetăm experienţa de n ori (ı̂n aceleaşi condiţii date) şi notăm cu rn numărul de realizări ale
evenimentului A; frecvenţa relativă a evenimentului A este numărul
rn (A)
fn (A) =
n
rn (A) este frecvenţa absolută a evenimentului A.
Experiment: Se aruncă o monedă de n ori; A: se obţine pajură
n frecvenţă absolută frecvenţă relativă
rn (A) fn (A)
100 48 0.48
1000 497 0.497
10000 5005 0.5005
a.s. 1
fn (A) −→ 2 (a se vedea P.17)

40
Legea tare a numerelor mari (LTNM)
Legea numerelor mari se referă la descrierea rezultatelor
unui experiment repetat de foarte multe ori. Conform acestei
legi, rezultatul mediu obţinut se apropie tot mai mult de val-
oarea aşteptată, cu cât experimentul se repetă de mai multe
ori. Aceasta se explică prin faptul că abaterile aleatoare se
compensează reciproc.
Legea numerelor mari are două formulări: legea slabă a
numerelor mari (LSNM) şi legea tare a numerelor mari Fig. 5. Jacob Bernoulli (timbru
(LTNM). emis ı̂n 1994 cu ocazia Congresului
N Scurt istoric: Jacob Bernoulli (1655 -1705) a formu- Internaţional al Matematicienilor din
lat LSNM pentru frecvenţa relativă a unui experiment şi a Elveţia)
dat răspunsul la ı̂ntrebarea “Putem aproxima empiric prob-
abilităţile?” (ı̂n opera publicată postum, ı̂n 1713, Ars con-
jectandi);  Teorema lui Bernoulli afirmă: ”Frecvenţele relative converg ı̂n probabilitate la
probabilitatea teoretică.”

Def. 26. Şirul de v.a. (Xn )n cu E|Xn | < ∞ ∀ n ∈ N verifică legea tare a numerelor mari
(LTNM) dacă
n
!
n 1 X  o
P ω ∈ Ω : lim Xk (ω) − E(Xk ) = 0 = 1,
n→∞ n
k=1

adică
n
1 X 
a.s.
Xk − E(Xk ) −→ 0.
n
k=1

P. 16. Fie (Xn )n şir de v.a. independente având aceeaşi distribuţie şi există m = E(Xn ) ∀ n ∈ N.
⇒ (Xn )n verifică LTNM, adică
1 a.s.
(X1 + · · · + Xn ) −→ m.
n
1
În simulări: (X1 + · · · + Xn ) ≈ m, dacă n este suficient de mare.
n
Exemplu 1: Fie X1 , ..., Xn , ... ∼ U nid(6) v.a. independente; are loc E(Xn ) = 1+2+3+4+5+6
6 =
1 a.s.
3.5 ∀ n ≥ 1. Folosind P.16 rezultă că (Xn )n verifică LTNM, adică (X1 + ... + Xn ) −→ 3.5.
n
Simulare LTNM (Matlab/Octave):

41
pkg load statistics
clear all
close all

n=1000;
x=unidrnd(6,1,n);
for i=1:n
s(i)=mean(x(1:i)); %media primelor i valori
end
fprintf(’valoarea medie din simulari %5.3f\n’, mean(x))
% este egala cu s(n)
vmt=mean([1:6]); % val medie teoretica in acest exemplu
fprintf(’valoarea medie teoretica %5.3f\n’,vmt)
figure
hold on
plot([1:n],vmt*ones(1,n),’g-’)
plot([1:n],s,’r-’)
plot([1:n],s,’b.’)
xlabel(’Nr. aruncari zar’)
ylabel(’Media numerelor aparute’)

Fig. 4. Simulare LTNM

Exemplu 2: Fie (Xn )n şir de v.a. independente, având aceeaşi distribuţie ca v.a. X şi varianţă
finită: E(Xn ) = E(X) ∈ R, V (Xn ) = V (X) ∈ R pentru fiecare n ∈ N∗ .
Definim Yn = (Xn − E(X))2 ∀ n ∈ N∗ ⇒ (Yn )n este şir de v.a. independente, având aceeaşi
distribuţie ca v.a. (X − E(X))2 şi E(Yn ) = E((X − E(X))2 ) = V (X) ∀ n ∈ N∗ .
P.16 ⇒ (Yn )n verifică LTNM

1 
a.s.
Y1 + ... + Yn −→ V (X),
n
42
adică
1 2 2

a.s.
(X1 − E(X)) + ... + (Xn − E(X)) −→ V (X).
n
Caz particular: Fie X1 , ..., Xn , ... ∼ U nid(6) v.a. independente; are loc E(Xn ) = 1+2+3+4+5+6
6 =
7 2 2 35
2 = 3.5, V (Xn ) = E(Xn ) − E (Xn ) = 12 ≈ 2.91666 ∀ n ≥ 1. Folosind P.16 rezultă că
1  a.s. 35
(Yn )n = (Xn − 3.5)2 n verifică LTNM, adică (X1 − 3.5)2 + ... + (Xn − 3.5)2 −→ .

n 12
pkg load statistics
clear all
close all
n=1000;
x=unidrnd(6,1,n);
for i=1:n
z(i)=var(x(1:i),1); %varianta primelor i valori
end
fprintf(’varianta din simulari %5.3f\n’, var(x,1))
% este egala cu z(n)
v=[1:6];
vt= mean(v.ˆ2)-(mean(v))ˆ2;
fprintf(’varianta teoretica %5.3f\n’, vt)
figure
hold on
plot([1:n],vt*ones(1,n),’g-’)
plot([1:n],z,’r-’)
plot([1:n],z,’b.’)
xlabel(’Nr. aruncari zar’)
ylabel(’Varianta numerelor aparute’)

Exemplu 3: Fie X1 , ..., Xn , ... ∼ U nif [−1, 1] v.a. independente. Spre ce valoare converge a.s.
şirul
1
Zn = (X12 + ... + Xn2 ), n ∈ N∗ ?
n
a.s.
R.: Aplicăm P.16 pentru şirul de v.a. independente (Xn2 )n =⇒ Zn −→ E(X12 ). Calculăm
Z 1
2 2 1 1 t3 1 1
E(X1 ) = t dt = · = .
−1 1 − (−1) 2 3 −1 3
a.s.
=⇒ Zn −→ 13 . N
P. 17. Fie A un eveniment asociat unei experienţe, repetăm experienţa de n ori (ı̂n aceleaşi
condiţii date şi independent unele de altele). LTNM: cu cât repetăm mai des un experiment (n →
∞), cu atât mai bine aproximează frecvenţa relativă fn (A) a evenimentului A probabilitatea sa
teoretică de apariţie P (A):
a.s.
fn (A) −→ P (A), dacă n → ∞.

43
În simulări: fn (A) ≈ P (A), dacă n este suficient de mare.
Demonstraţie pentru P.17: Aplicăm P.16 pentru şirul de v.a. independente (Xn )n , unde

1, dacă A apare ı̂n a n- a execuţie a experimentului
Xn =
0, dacă Ā apare ı̂n a n- a execuţie a experimentului
 
0 1 
=⇒ Xn ∼ =⇒ Xn ∼ Bernoulli P (A)
1 − P (A) P (A)
=⇒ E(Xn ) = 0 · (1 − P (A)) + 1 · P (A) = P (A) ∀n ∈ N∗ .
1 a.s.
P.16 =⇒ (X1 + ... + Xn ) −→ P (A).
n
1 a.s.
Dar (X1 + ... + Xn ) = fn (A) (frecvenţa relativă a lui A) =⇒ fn (A) −→ P (A). 
n

44
Statistică matematică

I Statistica matematică este o ramură a matematicii aplicate, care se ocupă de colectarea, gru-
parea, analiza şi interpretarea datelor referitoare la anumite fenomene ı̂n scopul obţinerii unor
previziuni;
• statistica descriptivă: metode de colectare, organizare, sintetizare, prezentare şi descriere a
datelor numerice (sau nenumerice) ı̂ntr-o formă convenabilă
• statistica inferenţială: metode de interpretare a rezultatelor obţinute prin metodele statisticii
descriptive, utilizate apoi pentru luarea deciziilor.
I O colectivitate sau populaţie statistică C este o mulţime de elemente care au anumite ı̂nsuşiri
comune ce fac obiectul analizei statistice. Numărul elementelor populaţiei se numeşte volumul
populaţiei.
Exemple de populaţii statistice: mulţimea persoanelor dintr-o anumită ţară, localitate, zonă etc.
ı̂ntr-un anumit an; multimea gospodăriilor din Romania la un moment dat; mulţimea consuma-
torilor unui anumit produs; mulţimea societăţilor care produc un anumit produs; angajaţii unei
societăţi; studenţii unei facultăţi.
I Eşantionul E reprezintă o submulţime a unei populaţii statistice E ⊂ C, constituită după criterii
bine stabilite:
a) să fie aleatoare;
b) toate elementele colectivităţii să aibe aceeaşi şansă de a fi alese ı̂n eşantion;
c) eşantionul să fie reprezentativ (structura eşantionului să fie apropiată de structura populaţiei);
d) volumul eşantionului să fie suficient de mare.
I Unitatea statistică (indivizii) este elementul, entitatea de sine stătătoare a unei populaţii statis-
tice, care posedă o serie de trăsături caracteristice ce-i conferă apartenenţa la populaţia studiată.
De exemplu: unitatea statistică simplă: un salariat, un student, un agent economic, o trăsătură, o
părere; unitatea statistică complexă: o grupă de studenţi sau o echipă de salariaţi, o familie sau o
gospodărie, o categorie de mărfuri.
I Variabila statistică sau caracteristica reprezintă o ı̂nsuşire, o proprietate măsurabilă a unei
unităţi statistice, ı̂ntâlnită la toate unităţile care aparţin aceleiaşi colectivităţi şi care prezintă vari-
abilitate de la o unitate statistică la alta. Caracteristica sau variabila statististică corespunde unei
variabile aleatoare.
Exemple de caracteristici: vârsta, salariul, preferinţele politice, preţul unui produs, calitatea unor
servicii, nivelul de studii.
a) variabile (caracteristici) continue → iau un număr infinit şi nenumărabil de valori ı̂ntr-un in-
terval sau reuniune de intervale (de ex.: greutatea, ı̂nălţimea, valoarea glicemiei, temperatura
aerului)

45
b) variabile (caracteristici) discrete → iau număr finit sau infinit dar numărabil de valori discrete
(de ex.: numări elevi ai unei şcoli, numărul liceelor existente ı̂ntr-un oraş, valoarea IQ)
 caracteristicile de la a) şi b) sunt variabile numerice (cantitative)
c) variabile (caracteristici) nominale (de ex.: culoarea ochilor, ramura de activitate, religia)
d) variabile (caracteristici) nominale ordinale (de ex.: starea de sănătate / calitatea unor servicii -
precară, mai bună, bună, foarte bună)
e) variabile (caracteristici) dihotomiale (binare) (de ex.: stagiul militar - satisfăcut/nesatisfăcut,
starea civilă - căsătorit/necăsătorit)
 caracteristicile de la c),d),e) sunt variabile calitative
 variabilele nominale mai sunt numite variabile categoriale
I Datele statistice reprezintă observaţiile rezultate dintr-o cercetare statistică, sau ansamblul val-
orilor colectate ı̂n urma unei cercetări statistice.
De exemplu: un angajat al unei companii are o vechime de 6 ani ı̂n muncă. Angajatul reprezintă
unitatea statistică, vechimea ı̂n muncă este caracteristica (variabila) cercetată, iar 6 este valoarea
acestei caracteristici.
O colectivitate (populaţie) C este cercetatată din punctul de vedere al caracteristicii (variabilei
statistice) X.
Distribuţia caracteristicii X poate fi
1) complet specificată (de ex.: X ∼ Exp(3), X ∼ Bin(10, 0.3), X ∼ N (0, 1))

2) specificată, dar depinzând de unul sau mai mulţi parametri necunoscuţi


(de ex.: X ∼ Exp(λ), X ∼ Bin(10, p), X ∼ N (m, σ 2 ))
3) necunoscută: X ∼?
• ı̂n cazul 2) parametrii sunt necunoscuţi, iar ı̂n cazul 3) distribuţia este necunoscută
,→ se estimează → teoria estimaţiei / intervale de ı̂ncredere
,→ se testează → teste statistice
I Fie E ⊂ C un eşantion. Se numesc date de selecţie relative la caracteristica X datele statistice
x1 , . . . , xn obţinute prin cercetarea indivizilor care fac parte din eşantionul E.
I Datele de selecţie x1 , . . . , xn pot fi considerate ca fiind valorile unor variabile aleatoare X1 , . . . , Xn ,
numite variabile de selecţie şi care se consideră a fi variabile aleatoare independente şi având
aceeaşi distribuţie ca X.
I Fie x1 , . . . , xn datele statistice pentru caracteristica cercetată X, notăm cu X1 , . . . , Xn vari-
abilele de selecţie corespunzătoare. Fie g : Rn → R o funcţie astfel ı̂ncât g(X1 , . . . , Xn ) este o
variabilă aleatoare.
g(X1 , . . . , Xn ) se numeşte funcţie de selecţie sau estimator

46
g(x1 , . . . , xn ) se numeşte valoarea funcţiei de selecţie sau valoarea estimatorului.

• Exemple de estimatori (funcţii de selecţie) sunt: media de selecţie, dispersia de selecţie,


momentul centrat de selecţie de ordinul doi, funcţia de repartiţie empirică.
 Estimatorii (funcţiile de selecţie) se folosesc ı̂n statistică pentru estimarea punctuală a unor
parametri necunoscuţi, pentru obţinerea unor intervale de ı̂ncredere pentru parametri necunoscuţi,
pentru verificarea unor ipoteze statistice.
Fie x1 , . . . , xn datele statistice pentru caracteristica cercetată X, notăm cu X1 , . . . , Xn variabilele
de selecţie corespunzătoare:

I media de selecţie (empirică)


1
X̄n = (X1 + · · · + Xn )
n
I valoarea mediei de selecţie
1
x̄n = (x1 + · · · + xn )
n
I varianţa (dispersia) de selecţie (empirică)
n
1 X
Sn2 = (Xk − X̄n )2
n−1
k=1

I valoarea varianţei (dispersiei) de selecţie


n
1 X
s2n = (xk − x̄n )2
n−1
k=1

I abaterea standard de selecţie (empirică)


n
! 21
1 X
Sn = (Xk − X̄n )2
n−1
k=1

I valoarea abaterii standard de selecţie


n
! 12
1 X
sn = (xk − x̄n )2
n−1
k=1

I momentul centrat de selecţie (empiric) de ordinul doi


n
1X
Mn = (Xk − X̄n )2
n
k=1

47
I valoarea momentului centrat de selecţie (empiric) de ordinul doi
n
1X
mn = (xk − x̄n )2
n
k=1

I funcţia de repartiţie empirică Fn : R × Ω → [0, 1]


#{i ∈ {1, ..., n} : Xi (ω) ≤ x}
Fn (x, ω) = ,x ∈ R
n
I valoarea (expresia) funcţiei de repartiţie empirice Fn : R → [0, 1]
#{i ∈ {1, ..., n} : xi ≤ x}
Fn (x) = , x ∈ R.
n
Def. 27. g(X1 , . . . , Xn ) este estimator nedeplasat pentru parametrul necunoscut θ, dacă

E(g(X1 , . . . , Xn )) = θ.

g(X1 , . . . , Xn ) este estimator consistent pentru parametrul necunoscut θ, dacă


a.s.
g(X1 , . . . , Xn ) −→ θ.

Fie g1 = g1 (X1 , . . . , Xn ) şi g2 = g2 (X1 , . . . , Xn ) estimatori nedeplasaţi pentru parametrul ne-


cunoscut θ. g1 (X1 , . . . , Xn ) este mai eficient decât g2 (X1 , . . . , Xn ), dacă V (g1 ) < V (g2 ).
Observaţii:
1) Media de selecţie X̄n este un estimator nedeplasat şi consistent pentru media teoretică E(X)
a caracteristicii X; ı̂n simulări E(X) ≈ x̄n .
În Octave: mean(d), unde d este vectorul datelor statistice.
2) Varianţa de selecţie Sn2 este un estimator nedeplasat şi consistent pentru varianţa teoretică
V (X) a caracteristicii X; ı̂n simulări V (X) ≈ s2n .
În Octave: var(d), unde d este vectorul datelor statistice.
2∗ ) Momentul centrat de selecţie de ordinul doi Mn nu este un estimator nedeplasat pentru
varianţa teoretică V (X) a caracteristicii X; el este un estimator consistent pentru varianţa teo-
retică V (X) a caracteristicii X; ı̂n simulări se foloseşte şi V (X) ≈ mn .
În Octave: var(d,1), unde d este vectorul datelor statistice.
3) Deviaţia standard pde selecţie Sn nu este un estimator nedeplasat pentru deviaţia standard teo-
retică Std(X) = V (X) a caracteristicii X; el este un estimator consistent pentru deviaţia
standard teoretică Std(X) a caracteristicii X; ı̂n simulări se foloseşte Std(X) ≈ sn .
În Octave: std(d), unde d este vectorul datelor statistice.

48
4) Funcţia de repartiţie de selecţie Fn (x, ·) calculată ı̂n x ∈ R este un estimator nedeplasat
şi consistent pentru FX (x), care este valoarea funcţiei de repartiţie teoretice calculată ı̂n x; ı̂n
simulări FX (x) ≈ Fn (x).
În Octave: empirical cdf(x,d)= Fn (x), unde d este vectorul datelor statistice şi
length(d)=n.
pkg load statistics % exemple de estimatori
clear all
close all
d=randsample([4:10],400,1);
% note (la o anumita materie) in clasa a X-a intr-un anumit oras
% extragere cu repetitie (de 400 de ori) din vectorul [4,5,6,7,8,9,10]
% distributia teoretica X: P(X=k)=1/7 pentru k in {4,5,6,7,8,9,10}
note=[4:10];
m=mean(d) % valoarea mediei de selectie
m_teor=mean(note) %media teoretica E(X)
v=var(d) % valoarea variantei de selectie
v1=var(d,1) % valoarea momentului centrat de selectie de ordinul 2
v1_teor=var(note,1) %varianta teoretica V(X)
% sau altfel: mean(note.ˆ2)-mean(note)ˆ2
st=std(d) % valoarea deviatiei standard de selectie
st1=std(d,1)
st1_teor=std(note,1) %deviatia standard teoretica Std(X)=sqrt(V(X))
figure(1)
hold on
x=4:0.01:10;
y=empirical_cdf(x,d); %valoarea functiei de repartitie de selectie
plot(x,y,’r*’) % graficul functiei de repartitie de selectie
y_teor=empirical_cdf(x,note); %valoarea functiei de repartitie teoretice
plot(x,y_teor,’b*’)
legend(’F. de repartitie de selectie’, ’F. de repartitie teoretica’)
title(’FUNCTIA DE REPARTITIE EMPIRICA / TEORETICA’)
figure(2)
h=hist(d,[4:10])
bar([4:10],h/length(d),’hist’);
title(’HISTOGRAMA FRECVENTELOR RELATIVE’)
figure(3)
bar([4:10],h,’hist’);
title(’HISTOGRAMA FRECVENTELOR ABSOLUTE’)

Exemplu: Fie (Xn )n şirul variabilelor de selecţie pentru caracteristica cercetată X ∼ Bernoulli(p),
unde p ∈ (0, 1) este parametru necunoscut. Estimatorul
1
p̂(X1 , ..., Xn ) = (X1 + ... + Xn ) = X̄n (media de selecţie)
n
49
este un estimator nedeplasat şi consistent pentru parametrul necunoscut p.
R.: X ∼ Bernoulli(p) =⇒ E(X) = p;
  1 
=⇒ E p̂(X1 , ..., Xn ) = E(X1 ) + ... + E(Xn ) = E(X) = p.
n
LTNM (a se vedea P.16) implică
1 a.s.
p̂(X1 , ..., Xn ) = (X1 + ... + Xn ) −→ p.
n
Deci, p̂(X1 , ..., Xn ) este un estimator nedeplasat şi consistent pentru parametrul necunoscut p.
Dacă x1 , . . . , xn ∈ {0, 1} sunt date statistice, atunci valoarea estimată pentru p este
1
p ≈ p̂(x1 , ..., xn ) = (x1 + ... + xn ) = x̄n .
n

Metoda momentelor pentru estimarea parametrilor necunoscuţi θ = (θ1 , . . . , θr ) pentru


distribuţia caracteristicii cercetate X
de exemplu:
X ∼ Exp(λ) parametrul necunoscut: θ = λ
X ∼ N (m, σ 2 ) parametri necunoscuţi: (θ1 , θ2 ) = (m, σ 2 )
X ∼ U nif [a, b] parametri necunoscuţi: (θ1 , θ2 ) = (a, b)
Fie x1 , . . . , xn datele statistice pentru caracteristica cercetată X şi fie X1 , . . . , Xn variabilele de
selecţie corespunzătoare.
Se rezolvă sistemul
n

 E(X k ) = 1 X X k ,

n i=1 i

k = {1, ..., r}

cu necunoscutele θ1 , . . . , θr .
Soluţia sistemului θ̂1 , . . . , θ̂r este estimatorul pentru parametrii necunoscuţi ai distribuţiei carac-
teristicii X.

Exemplu 1: Folosind metoda momentelor, să se estimeze parametrul necunoscut θ := a pentru


X ∼ U nif [0, a]; se dau datele statistice: 0.1,0.3,0.9,0.49,0.12,0.31,0.98,0.73, 0.13,0.62.

50
R.: Fie X1 , . . . , Xn variabilele de selecţie. Avem cazul: r = 1, calculăm E(X) = a2 , n = 10,
x̄n = 0.468. Se rezolvă
n n
1X a 1X
E(X) = Xi =⇒ = Xi .
n i=1 2 n i=1

Estimatorul pentru parametrul necunoscut a este


n
2X
â(X1 , ..., Xn ) = Xi .
n i=1

Valoarea estimatorului este


n
2X
â(x1 , ..., xn ) = xi = 0.936 .
n i=1

Parametrul necunoscut a este estimat cu valoarea 0.936.


I Este â(X1 , ..., Xn ) un estimator nedeplasat pentru parametrul a?
R.: Da, se arată că E(â(X1 , ..., Xn )) = a. ♥
Exemplu 2:
Folosind metoda momentelor, să se estimeze parametrii necunoscuţi θ1 := m şi θ2 = σ 2 pentru
X ∼ N (m, σ 2 ); se dau datele statistice:

0.831, 0.71, −0.2, −0.04, 2.08, −1.2, 0.448, −0.18, −0.27, −0.55 .

R.: Fie n = 10, iar X1 , ..., Xn variabile de selecţie. Avem cazul: r = 2, calculăm E(X) = m,
E(X 2 ) = V (X) + E 2 (X) = σ 2 + m2 (a se vedea exemplul de pe pg. 37), x̄n = 0.1629 (calculat
ı̂n Octave cu mean(x), unde x este vectorul datelor statistice), mn = 0.7346 (calculat ı̂n Octave
cu var(x,1)). Se rezolvă
 n
 n
 1 X  1X
m̂ = Xi
m = Xi

 


n i=1

 n i=1
n =⇒ are soluţia n n
!2
1 X 1 1
Xi2
 2 2
 X X
 σ +m = n
2
 σ̂ = n Xi2 − Xi

 

 
i=1 i=1
n i=1

Estimatorii sunt
n
1X
m̂(X1 , ..., Xn ) = Xi = X̄n (media de selecţie),
n i=1

51
n n
!2
1X 1X
σ̂ 2 (X1 , ..., Xn )= Xi2 − Xi =Mn (momentul centrat de selecţie de ordinul doi)
n i=1
n i=1
Valorile estimatorilor sunt
n
1X
m̂(x1 , ..., xn ) = xi = x̄n = 0.1629 ,
n i=1

n n
!2
1X 1X
σ̂ 2 (x1 , ..., xn )= x2i − xi =mn = 0.7346 .
n i=1
n i=1

Metoda verosimilităţii maxime pentru estimarea parametrului necunoscut θ al distribuţiei


caracteristicii cercetate X
Fie x1 , . . . , xn datele statistice pentru caracteristica cercetată X şi fie X1 , . . . , Xn variabilele de
selecţie corespunzătoare. Notăm
(
P (X = x1 ) · . . . · P (X = xn ), dacă X e v.a. discretă
L(x1 , . . . , xn ; θ) =
fX (x1 ) · . . . · fX (xn ), dacă X e v.a. continuă cu funcţie de densitate fX .

Aceasta este funcţia de verosimilitate pentru parametrul θ şi datele statistice x1 , . . . , xn .

Metoda verosimilităţii maxime se bazează pe principiul că valoarea cea mai verosimilă (cea mai
potrivită) a parametrului necunoscut θ este aceea pentru care funcţia de verosimilitate L(x1 , . . . , xn ; θ)
ia valoarea maximă:

(1) L(x1 , . . . , xn ; θ̂) = max L(x1 , . . . , xn ; θ).


θ

∂L
θ̂ este punct de maxim global pentru funcţia de verosimilitate. Se rezolvă sistemul =
∂θ
∂ 2L
0 şi se arată că < 0.
∂θ2
Deseori este mai practic să se considere varianta transformată
∂ ln L ∂ 2 ln L
= 0 cu < 0. În unele situaţii (1) se rezolvă prin alte metode; de exemplu ı̂n cazul
∂θ ∂θ2
∂L ∂ ln L
ı̂n care = 0 nu are soluţie (echivalent cu = 0 nu are soluţie).
∂θ ∂θ
52
Observaţie: Dacă distribuţia caracteristicii cercetate depinde de k parametri necunoscuţi (θ1 , . . . , θk )
atunci se rezolvă sistemul
∂L  ∂ 2L 
= 0, j = 1, k şi se arată că matricea este negativ definită.
∂θj ∂θi ∂θj 1≤i≤j≤k
Se poate lucra şi cu varianta transformată:
∂ ln L  ∂ 2 ln L 
= 0, j = 1, k şi se arată că matricea este negativ definită.
∂θj ∂θi ∂θj 1≤i≤j≤k
O matrice M este negativ definită dacă y t M y < 0 pentru orice y ∈ Rn \ {0n }.
Reamintire: dacă a, b > 0, atunci au loc proprietăţile:
a
ln(a · b) = ln a + ln b, ln(ab ) = b · ln a, ln = ln a − ln b.
b

Exemplu: Folosind metoda verosimilităţii maxime să se estimeze parametrul θ := p ∈ (0, 1) al


distribuţiei
 Bernoulli,
0 1
X∼ , cu datele statistice: 0,1,1,0,0,0,1,0,1,0.
1−p p
⇒ n = 10, x1 = 0, x2 = 1, x3 = 1, x4 = 0...;P (X = x) = px (1 − p)1−x , x ∈ {0, 1}
⇒ L(x1 , . . . , xn ; p) = P (X = x1 ) · . . . · P (X = xn ) = px1 +···+xn (1 − p)n−(x1 +···+xn )
⇒ ln L(x1 , . . . , xn ; p) = (x1 + · · · + xn )ln(p) + (n − (x1 + · · · + xn ))ln(1 − p)
∂ ln L 1
= 0 ⇒ p = (x1 + · · · + xn ).
∂p n
∂ 2 ln L
Are loc: < 0.
∂p2
Estimatorul de verosimilitate maximă pentru parametrul necunoscut p este
1
p̂(X1 , . . . , Xn ) = (X1 + · · · + Xn ) = X̄n ,
n
unde X1 , . . . , Xn sunt variabilele de selecţie. Valoarea estimată este
1 4
p̂(x1 , . . . , xn ) = (x1 + · · · + xn ) = x̄n = = 0.4 .
n 10
I Este p̂(X1 , ..., Xn ) un estimator nedeplasat pentru parametrul p?

53
Intervale de ı̂ncredere şi teste statistice
Noţiuni de bază
I Fie α ∈ (0, 1) nivelul de semnificaţie (probabilitatea de risc).
Def. 28. Cuantila de ordin α pentru distribuţia caracteristicii cercetate X este numărul
zα ∈ R pentru care
P (X < zα ) ≤ α ≤ P (X ≤ zα ).
Dacă α = 0.5 atunci z0.5 se numeşte mediană.
 dacă X este v.a. continuă, atunci: zα este cuantilă de ordin α ⇐⇒ P (X ≤ zα ) = α ⇐⇒
FX (zα ) = α
 dacă FX este funcţie inversabilă, atunci zα = FX−1(α)
• α · 100% din valorile lui X sunt mai mici sau egale cu zα
De exemplu, pentru α = 0.5 şi X v.a.continuă: 50% din valorile aleatoare ale lui X sunt mai
mici sau egale cu z0.5 (mediana), adică P (X ≤ z0.5 ) = 0.5 (.
• Matlab/Octave: quantile

clear all
pkg load statistics
x = normrnd(0,1,1,100000);
alfa=[0.025 0.25 0.50 0.75 0.975];
z = quantile(x,alfa)
>> z =
-1.9690715 -0.6799775 -0.0061794 0.6770515 1.9567869
 
1 3 5 7
Exemplu: Fie X ∼ v.a. discretă
0.25 0.375 0.375 0.25

=⇒ P (X < 3) = 0.25 ≤ 0.5 ≤ P (X ≤ 3) = 0.25 + 0.375 = 0.625 =⇒ z0.5 = 3 este mediana.

Distribuţii de probabilitate continue frecvent folosite ı̂n statistică


şi cuantilele lor corespunzătoare

 distibuţia normală N (0, 1)


funcţia de repartiţie FN (0,1) (x) =normcdf(x, 0, 1);
cuantila zα = norminv(α, 0, 1), adică FN (0,1) (zα ) = α;
 distibuţia Student St(n)
funcţia de repartiţie FSt(n) (x) = tcdf(x, n);
cuantila tα = tinv(α, n), adică FSt(n) (tα ) = α;

54
 distibuţia Chi-pătrat χ2(n)
funcţia de repartiţie Fχ2 (n) (x) = chi2cdf(x, n);
cuantila cα = chi2inv(α, n), adică Fχ2 (n) (cα ) = α;
Exemple: norminv(0.01, 0, 1) = −2.3263, norminv(1 − 0.01, 0, 1) = 2.3263,
tinv(0.05, 10) = −1.8125, tinv(1 − 0.05, 10) = 1.8125,
chi2inv(0.05, 10) = 3.9403, chi2inv(1 − 0.05, 10) = 18.307.

• Pentru cuantilele distribuţiei normale N (0, 1) are loc zα = −z1−α pentru orice α ∈ (0, 1);
• pentru cuantilele distribuţiei Student St(n) are loc tα = −t1−α pentru orice α ∈ (0, 1).

Exemplu: Să se arate că: a) X ∼ N (0, 1) ⇐⇒ −X ∼ N (0, 1);


b) pentru cuantilele distribuţiei normale N (0, 1) are loc zα = −z1−α pentru orice α ∈ (0, 1);
c) proprietatea analoagă are loc şi pentru distribuţia Student St(n), adică tα = −t1−α pentru orice
α ∈ (0, 1).
R.: a) Fie x ∼ N (0, 1). Scriem pentru orice u ∈ R

F−X (u) = P (−X ≤ u) = P (X > −u) = 1 − P (X ≤ −u) = 1 − FX (−u).

Aceasta implică

0 1 u2
f−X (u) = F−X (u) = FX0 (−u) = fX (−u) = √ e− 2 , ∀u ∈ R.

Deci −X ∼ N (0, 1). Folosind rezultatul deja demonstrat şi relaţia X = −(−X), obţinem că
−X ∼ N (0, 1) =⇒ X ∼ N (0, 1).
b) Fie X ∼ N (0, 1) şi zα , z1−α cuantile ale sale. Rezultă că

P (X ≤ zα ) = α, P (X ≤ z1−α ) = 1 − α.

Scriem şi folosim faptul că −X şi X urmează distribuţia N (0, 1)

P (X ≤ zα ) = α = 1 − P (X ≤ z1−α ) = P (X > z1−α ) = P (−X < −z1−α ) = P (X < −z1−α )


= P (X ≤ −z1−α ).

Pentru distribuţia N (0, 1) cuantila zα e unic determinată din relaţia P (X ≤ zα ) = α (pentru că
FX e o funcţie inversabilă şi atunci zα = FX−1 (α)), aşadar obţinem că zα = −z1−α .
c) Raţionamentul este analog. Se foloseşte X ∼ St(n) ⇐⇒ −X ∼ St(n). ♣

55
Intervale de ı̂ncredere
În paragrafele anterioare s-a văzut cum poate fi estimat un parametru necunoscut, folosind
datele dintr-un eşantion. Se pune problema cât este de bună această estimare a parametrului
necunoscut, adică vom calcula o anumită ”marjă de eroare”.
Presupunem că studiem media (teoretică) a timpului de aşteptare la un anumit ghişeu al unei
bănci. Prin studierea unui eşantion de volum 200 s-a constatat că media de seleţie a timpului
de aşteptare este x̄200 = 10 (minute). Dacă considerăm un alt eşantion probabil obţinem o altă
valoare pentru x̄200 .
Problemă: putem construi un interval (aleator) care să acopere valoarea reală a parametrului
necunoscut studiat cu o anumită probabilitate dată (numit nivel de ı̂ncredere)?
Pe baza datelor din eşantion acest interval aleator va deveni un interval numeric.
Fie x1 , . . . , xn datele statistice pentru caracteristica cercetată X, a cărei distribuţie (de obicei
necunoscută) depinde de parametrul necunoscut θ; notăm cu X1 , . . . , Xn variabilele de selecţie
corespunzătoare. Se precizează fie α ∈ (0, 1) nivelul de semnificaţie, fie 1 − α, care se numeşte
nivelul de ı̂ncredere.
Se caută doi estimatori g1 (X1 , . . . , Xn ) şi g2 (X1 , . . . , Xn ) astfel ı̂ncât
 
P g1 (X1 , . . . , Xn ) < θ < g2 (X1 , . . . , Xn ) = 1 − α
  
⇔P θ∈ / g1 (X1 , . . . , Xn ), g2 (X1 , . . . , Xn ) = α
 
I g1 (X1 , . . . , Xn ), g2 (X1 , . . . , Xn ) se numeşte interval de ı̂ncredere bilateral pentru parametrul
necunoscut
 θ 
I g1 (x1 , . . . , xn ), g2 (x1 , . . . , xn ) este valoarea intervalului de ı̂ncredere pentru parametrul
necunoscut θ
I g1 (X1 , . . . , Xn ) este limita inferioară a intervalului de ı̂ncredere, valoarea sa este g1 (x1 , . . . , xn )
I g2 (X1 , . . . , Xn ) este limita superioară a intervalului de ı̂ncredere,  valoarea sa este g2 (x1 , . . . , xn
)
I probabilitatea ca parametrul necunoscut θ să fie ı̂n intervalul g1 (X1 , . . . , Xn ), g2 (X1 , . . . , Xn )
este 1 − α (nivelul de ı̂ncredere)    
I există şi intervale de ı̂ncredere unilaterale: − ∞, g3 (X1 , . . . , Xn ) , g4 (X1 , . . . , Xn ), ∞ ,
estimatorii g3 şi g4 sunt astfel ı̂ncât
   
P θ < g3 (X1 , . . . , Xn ) = 1 − α, respectiv P g4 (X1 , . . . , Xn ) < θ = 1 − α
  
I − ∞, g3 (x1 , . . . , xn ) g4 (x1 , . . . , xn ), ∞ sunt valorile intervalelor de ı̂ncredere unilaterale
pentru parametrul necunoscut θ

56
 
I probabilitatea ca parametrul necunoscut θ să fie ı̂n intervalul − ∞, g3 (X1 , . . . , Xn ) este
 
1 − α, respectiv probabilitatea ca θ să fie ı̂n intervalul g4 (X1 , . . . , Xn ), ∞ este 1 − α.
æ Nu este corect să
afirmăm că probabilitatea
ca intervalul numeric con-
struit (din datele statistice)
să cuprindă valoarea reală
a parametrului necunoscut
θ este 1 − α. Intervalul de
ı̂ncredere este un interval
aleator, deci extremităţile
sale sunt v.a. Prin ur-
mare interpretarea corectă
a lui 1 − α este următoarea:
dacă, facem un număr
foarte mare de selecţii (din
mai multe eşantioane) şi
calculăm de fiecare dată
intervalul de ı̂ncredere cu
nivelul de ı̂ncredere 1 − α,
atunci (1 − α) · 100% din ı̂n această simulare: din 25 de intervale de ı̂ncredere, un interval nu conţine
aceste intervale vor conţine valoarea reală 0; paramterul necunoscut este θ=media teoretică; datele statistice
valoarea reală pentru θ. au fost generate, de fapt, cu normrnd(0,1)

P. 18. (Teorema limită


centrală) Fie (Xn )n un şir de v.a. independente, care au aceeaşi distribuţie. Fie m = E(Xn ) şi
σ 2 = V (Xn ) > 0 ∀ n ≥ 1. Are loc
! Zb
X̄n − m 1 2
− t2
lim P ≤ b = F N (0,1) (b) = √ e dt,
n→∞ √σ 2π
n
−∞

pentru orice b ∈ R, iar X̄n = n1 (X1 + · · · + Xn ).


æ FN (0,1) (b)=normcdf(b, 0, 1) funcţia de repartiţie a legii normale standard N (0, 1)
æ Consecinţă (la P. 18): pentru
! orice a < b are loc
X̄n − m
I lim P a < σ < b = FN (0,1) (b)−FN (0,1) (a)=normcdf(b, 0, 1)-normcdf(a, 0, 1).
n→∞ √
n

57
 
X̄n −m
I P a < √σ < b ≈ FN (0,1) (b) − FN (0,1) (a)=normcdf(b, 0, 1)-normcdf(a, 0, 1),
n
pentru n > 30 (n suficient de mare).

Exemplul 1: Dacă (Xn )1≤n≤100 sunt variabile de selecţie pentru caracteristica cercetată
X ∼ Bernoulli(0.5), să se estimeze P (0.35 < X̄100 < 0.65), folosind P.18 (Teorema limită
centrală). p p
R.: Se calculează m = E(Xn ) = E(X) = 0.5 şi σ = V (Xn ) = V (X) = 0.5 şi se scrie
!
X̄100 − 0.5
P (0.35 < X̄100 < 0.65) = P −3 < 0.5 <3 .

100

Cf. P. 18 şi a consecinţei de mai sus


!
X̄100 − 0.5
=⇒ P − 3 < 0.5 < 3 ≈ normcdf(3, 0, 1) − normcdf(−3, 0, 1) = 0.9973

100
 
=⇒ P X̄100 ∈ (0.35, 0.65) ≈ 0.9973,
aşadar pentru o caracteristică de tip Bernoulli(0.5), media de selecţie X̄100 aparţine cu o proba-
bilitate foarte mare intervalului (0.35, 0.65) .
Observaţie: (0.35, 0.65) nu este valoarea unui interval de ı̂ncredere! ♥
Exemplul 2: Se ştie că 40% din populaţia unui orăşel susţine un anumit candidat la alegerile
viitoare. Dacă (Xn )1≤n≤600 sunt variabile de selecţie pentru distribuţia Bernoulli(0.4), adică
∀ n ∈ {1, ..., 600}
Xn = 1 ⇐⇒ persoana a n-a votează acest candidat,
Xn = 0 ⇐⇒ persoana a n-a nu votează acest candidat,
deci Xn ∼ Bernoulli(0.4). Folosind P.18 (Teorema limită centrală) estimaţi P (X̄600 > 0.43).
Calculaţi E(X̄600 ) şi V (X̄600 ).
R.: Dacă (Xn )1≤n≤600 sunt variabile de selecţie pentru Bernoulli(0.4), se calculează m =
E(Xn ) = 0.4 şi σ 2 = V (Xn ) = 0.24 ∀ n ∈ N∗ şi se doreşte estimarea probabilităţii
P (X̄600 > 0.43) = 1 − P (X̄600 ≤ 0.43).
Cf. P. 18
   
 X̄600 − 0.4 0.43 − 0.4   X̄600 − 0.43
=⇒ P (X̄600 ≤ 0.43) = P  q ≤ q =P q ≤ 1.5

0.24 0.24 0.24
600 600 600

≈ FN (0,1) (1.5) = normcdf(1.5, 0, 1) = 0.93319

58
=⇒ P (X̄600 >0.43) ≈ 0.066807. 
1
E(X̄600 ) = 600 E(X1 ) + ...E(X600 ) = 0.4 şi
 
1 1
V (X̄600 ) = 6002 V (X1 ) + ... + V (X600 ) = 600 · 0.24 = 0.0004. ♠
Exerciţiu: 100 de zaruri sunt aruncate. Folosind P.18 (Teorema limită centrală), estimaţi proba-
bilitatea ca suma numerelor obţinute să fie ı̂ntre 300 şi 400!

Recapitulare (notaţii)
Variabilele de selecţie pentru caracteristica X datele statistice pentru caracteristica X
X1 , ..., Xn x1 , ..., xn
sunt v.a. independente, au aceeaşi distribuţie ca X sunt valorile (numerice) ale v.a. X1 , ..., Xn
Estimator Valoarea estimatorului
media de selecţie valoarea mediei de selecţie
1 1
X̄n = (X1 + · · · + Xn ) x̄n = (x1 + · · · + xn )
n n
varianţa (dispersia) de selecţie valoarea varianţei (dispersiei) de selecţie
n n
2 1 X 1 X
Sn = (Xk − X̄n )2 2
sn = (xk − x̄n )2
n−1 n−1
k=1 k=1
abaterea standard de selecţie valoarea abaterii standard de selecţie
n
! 12 n
! 21
1 X 1 X
Sn = (Xk − X̄n )2 sn = (xk − x̄n )2
n−1 n−1
k=1 k=1

P. 19. Fie X1 , . . . , Xn variabile de selecţie pentru X ∼ N (m, σ 2 ), atunci pentru media de


X̄n − m 1
selecţie are loc ∼ N (0, 1), unde X̄ n = (X1 + · · · + Xn ) .
√σ n
n

Reamintim: X ∼ N (m, σ 2 ) =⇒ E(X) = m, V (X) = σ 2 (a se vedea calculele de pe pg. 37).

Interval de ı̂ncredere pentru media teoretică m = E(X) a caracteristicii cercetate X, când


dispersia σ 2 = V (X) este cunoscută
Exemplu: Un profesor a ı̂nregistrat pe parcursul mai multor ani rezultatele elevilor săi la un anu-
mit tip de test. Punctajul unui elev este o v.a. X ∈ (0, 100), având abaterea standard egală cu 10.
Media de selecţie a calificativelor a 144 de elevi este 68. Dacă α = 0.05, să se construiască un
interval de ı̂ncredere bilateral pentru valoarea medie (teoretică) E(X) a punctajului obţinut de un

59
elev la test.

I se dau α ∈ (0, 1), σ, datele statistice x1 , . . . , xn


I fie X1 , . . . , Xn variabilele de selecţie corespunzătoare caracteristicii cercetate X
I construim intervale de ı̂ncredere pentru parametrul necunoscut m = E(X)
I dacă X ∼ N (m, σ 2 ) sau n > 30 şi X are o distribuţie necunoscută, atunci P. 18 şi P. 19 implică
X̄n − m
(5) ∼ N (0, 1)
√σ
n

I cuantilele legii normale N (0, 1):


z1− α2 = norminv(1 − α2 , 0, 1), z1−α = norminv(1 − α, 0, 1), zα = norminv(α, 0, 1)

• un interval de ı̂ncredere bilateral pentru m = E(X) (media teoretică) când dispersia este
cunoscută este  σ σ 
X̄n − √ · z1− α2 , X̄n + √ · z1− α2 ,
n n
deoarece:
 σ σ   X̄n − m 
P X̄n − √ · z1− 2 < m < X̄n + √ · z1− 2 = P − z1− 2 <
α α α < z1− 2
α
n n √σ
n
(5) α α
= FN (0,1) (z1− α2 ) − FN (0,1) (−z1− α2 ) = FN (0,1) (z1− α2 ) − FN (0,1) (z α2 ) = 1 − − = 1 − α
2 2
 σ   
• intervale de ı̂ncredere unilaterale: − ∞, X̄n − √ · zα , X̄n − √σn · z1−α , ∞ , adică
n
 σ   σ 
P m < X̄n − √ · zα = 1 − α, P X̄n − √ · z1−α < m = 1 − α .
n n

Interval de ı̂ncredere pentru media teoretică E(X) Expresia intervalului de ı̂ncredere,


când dispersia σ 2 = V (X) este cunoscută: folosind datele statistice
 σ σ 
bilateral x̄n − √ · z1− 2 , x̄n + √ · z1− 2
α α
n n
 σ 
unilateral − ∞ , x̄n − √ · zα
n
 σ 
x̄n − √ · z1−α , ∞
n

Exemplu: Un profesor a ı̂nregistrat pe parcursul mai multor ani rezultatele elevilor săi la un
anumit tip de test. Punctajul unui elev este o v.a. X ∈ (0, 100), având abaterea standard egală cu

60
10. Media de selecţie a calificativelor a 144 de elevi este 68. Dacă α = 0.05, să se construiască
un interval de ı̂ncredere bilateral pentru valoarea medie (teoretică) E(X) a punctajului obţinut de
un elev la test.
R:  σ σ 
x̄n − √ · z1− α2 , x̄n + √ · z1− α2
n n
unde n = 144, σ = 10, x̄n = 68, α = 0.05, z1− α2 = norminv(1 − 0.05 2 , 0, 1) ≈ 1.96 . Pe baza
datelor statistice valoarea intervalului de ı̂ncredere bilateral este (66.367, 69.633) . ♣

P. 20. Fie X1 , . . . , Xn variabile de selecţie pentru X ∼ N (m, σ 2 ), atunci pentru media de


X̄n − m
selecţie şi abaterea standard de selecţie are loc Sn
∼ St(n − 1), unde

n
n
! 21
1 X
Sn = (Xk − X̄n )2 .
n−1
k=1

Interval de ı̂ncredere pentru media teoretică m = E(X) a caracteristicii cercetate X, când


dispersia V (X) este necunoscută

Exemplu: Media de selecţie a lungimii a 100 de şuruburi este 15.5 cm, iar varianţa de selecţie
este 0.09 cm2 . Să se construiască un interval de ı̂ncredere 99% bilateral pentru media (teoretică)
a lungimii şuruburilor.

I se dau α ∈ (0, 1), datele statistice x1 , . . . , xn


I fie X1 , . . . , Xn variabilele de selecţie corespunzătoare caracteristicii cercetate X
I construim intervale de ı̂ncredere pentru parametrul necunoscut m = E(X)
I dacă X ∼ N (m, σ 2 ) sau n > 30 şi X are o distribuţie necunoscută, atunci P.20 implică

X̄n − m
Sn
∼ St(n − 1)

n

I cuantilele legii Student St(n − 1):


t1− α2 = tinv(1 − α2 , n − 1), t1−α = tinv(1 − α, n − 1), tα = tinv(α, n − 1)

• un interval de ı̂ncredere bilateral pentru m = E(X) (media teoretică), când dispersia este

61
 Sn Sn 
necunoscută este: X̄n − √ · t1− 2 , X̄n +
α √ · t1− 2 , adică
α
n n
 Sn Sn 
P X̄n − √ · t1− α2 < m < X̄n + √ · t1− α2 = 1 − α
n n
 Sn   Sn 
• intervale de ı̂ncredere unilaterale − ∞, X̄n − √ · tα , X̄n − √ · t1−α , ∞ , adică
n n
 Sn   Sn 
P m < X̄n − √ · tα = 1 − α, P X̄n − √ · t1−α < m = 1 − α
n n

Interval de ı̂ncredere pentru media teoretică E(X) Expresia intervalului de ı̂ncredere,


când dispersia V (X) este necunoscută folosind datele statistice
 sn sn 
bilateral x̄n − √ · t1− 2 , x̄n + √ · t1− 2
α α
n n
 sn 
unilateral − ∞ , x̄n − √ · tα
n
 sn 
x̄n − √ · t1−α , ∞
n

Exemplu: Media de selecţie a lungimii a 100 de şuruburi este 15.5 cm, iar varianţa de selecţie
este 0.09 cm2 . Să se construiască un interval de ı̂ncredere 99% bilateral pentru media (teoretică)
a lungimii şuruburilor.
R.: valoarea intervalului de ı̂ncredere bilateral pentru media teoretică m, când varianţa este ne-
cunoscută, este  
sn sn
x̄n − √ · t1− α2 , x̄n + √ · t1− α2
n n

unde x̄n = 15.5, sn = 0.3 (s2n = 0.09), α = 0.01, t1− α2 = tinv(0.995,99) = 2.6264, n = 10.
Valoarea intervalului de ı̂ncredere bilateral este 15.421208, 15.578792 . ♣

P. 21. Fie X1 , . . . , Xn variabile de selecţie pentru X ∼ N (m, σ 2 ), atunci pentru varianţa de


n
2 1 X
n−1 2 2
selecţie are loc σ2 Sn ∼ χ (n − 1), unde Sn = (Xk − X̄n )2 .
n−1
k=1

Exemplu: Timpul necesar unei unităţi CPU pentru a realiza un anumit tip de operaţii are distribuţie
normală cu media 20 de secunde şi abaterea standard 3 secunde. Într-un eşantion de 25 de astfel
de operaţii, care este probabilitatea ca varianţa de selecţie (a timpului necesar tipului de operaţii

62
studiate) să depăşească 12 secunde?
R: Vom folosi P.21. Scriem succesiv
 25 − 1 25 − 1   24 
2 2 2
P (S25 > 12) = P S25 > · 12 = 1 − P S ≤ 32 .
32 32 9 25
24 2
Dar 9 S25 ∼ χ2 (25 − 1) (cf. P.21)
2
=⇒ P (S25 > 12) = 1 − Fχ2 (24) (32) = 1 − chi2cdf(32, 24) ≈ 1 − 0.87301 = 0.12699 .

Interval de ı̂ncredere pentru varianţa (dispersia) teoretică σ 2 = V (X) a caracteristicii


cercetate X

Exemplu: Media de selecţie a lungimii a 100 de şuruburi produse de o anumita firmă este 15.5
cm, iar varianţa de selecţie este 0.09 cm2 . Să se construiască un interval de ı̂ncredere 99% bilat-
eral pentru varianţa (teoretică) a lungimii şuruburilor. Dacă varianţa este prea mare (adică peste
0.099 cm2 ), aparatul, care produce şuruburile, trebuie reglat. Se presupune că lungimea unui
şurub (produs de această firmă) are o distribuţie normală.

I se dau α ∈ (0, 1), datele statistice x1 , . . . , xn


I fie X1 , . . . , Xn variabilele de selecţie corespunzătoare caracteristicii cercetate X
I construim intervale de ı̂ncredere pentru parametrul necunoscut σ 2 = V (X)
I dacă X ∼ N (m, σ 2 ), atunci P.21 implică n−1 2 2
σ 2 Sn ∼ χ (n − 1)
I cuantilele distribuţiei χ2 (n − 1) (Chi-pătrat cu n − 1 grade de libertate):
c1− α2 = chi2inv(1 − α2 , n − 1), c α2 = chi2inv( α2 , n − 1), c1−α = chi2inv(1 − α, n − 1),
cα = chi2inv(α, n − 1)
 
2 n−1 2 n−1 2
• un interval de ı̂ncredere bilateral pentru varianţa teoretică σ = V (X) este: c α · Sn , c α · Sn ,
1− 2 2
adică n − 1
2 2 n − 1 2
P · Sn < σ < · Sn = 1 − α
c1− α2 c α2
   
n−1 2 n−1 2
• intervale de ı̂ncredere unilaterale: 0, cα · Sn , c1−α · Sn , ∞ , adică

2 n − 1 2 n − 1 
P σ < · Sn = 1 − α, P · Sn2 <σ 2
= 1 − α.
cα c1−α
63
Interval de ı̂ncredere pentru Expresia intervalului de ı̂ncredere,
varianţa (dispersia) teoretică V (X) folosind datele statistice
 
n−1 2 n−1 2
bilateral c1− α · sn , c α · sn
2 2
 
unilateral 0 , n−1
cα · sn
2

 
n−1 2
c1−α · sn , ∞

Interval de ı̂ncredere pentru Expresia intervalului de ı̂ncredere,


abaterea standard teoretică Std(X) folosind datele statistice
q q 
n−1 n−1
bilateral c1− α · sn , c α · sn
2 2
 q 
unilateral 0 , n−1cα · sn
q 
n−1
c1−α · sn , ∞

Exemplul 1: Media de selecţie a lungimii a 100 de şuruburi produse de o anumita firmă este
15.5 cm, iar varianţa de selecţie este 0.09 cm2 . Să se construiască un interval de ı̂ncredere 99%
bilateral pentru varianţa (teoretică) a lungimii şuruburilor. Dacă varianţa este prea mare (adică
peste 0.099 cm2 ), aparatul, care produce şuruburile, trebuie reglat. Se presupune că lungimea
unui şurub (produs de această firmă) are o distribuţie normală.
R.: valoarea intervalului de ı̂ncredere bilateral pentru varianţa teoretică este
 
n−1 2 n−1 2
· sn , · sn
c1− α2 c α2
unde x̄n = 15.5, s2n = 0.09, α = 0.01, c1− α2 = chi2inv(0.995, 99) = 138.99,
c α2 =chi2inv(0.005,  99) = 66.510. Valoarea intervalului de ı̂ncredere bilateral este
0.064107, 0.133965 . Acest interval conţine şi valori peste 0.099, deci aparatul, care produce
şuruburile, trebuie reglat! ♣
Exemplul 2: Durata de funcţionare a unui anumit tip de baterie este 500 de ore. Pe baza unui
eşantion s-au testat 64 de baterii şi s-a obţinut media de 525 de ore şi abaterea standard de 25 de
ore. Să se construiască un interval de ı̂ncredere 99%
a) bilateral pentru media (teoretică);
b) unilateral pentru abaterea standard teoretică (care are marginea inferioară 0 şi se cere să se

64
calculeze marginea superioară)
a duratei de funcţionare a acestui tip de baterii (se presupune că durata de funcţionare a acestui
tip de baterie urmează distribuţia normală).
R.: a) Valoarea intervalului de ı̂ncredere bilateral pentru media teoretică, când varianţa este ne-
cunoscută, este  sn sn 
x̄n − √ · t1− α2 , x̄n + √ · t1− α2
n n

cu n = 8, x̄n = 525, sn = 25, α = 0.01, t1− α2 = tinv(0.995, 63) = 2.6561 =⇒ valoarea
intervalului de ı̂ncredere bilateral pentru medie este (516.7, 533.3) .
b)
 Expresia
q intervalului
 de ı̂ncredere unilateral pentru abaterea standard (teoretică) este
0, n−1cα · sn , cu n = 64, sn = 25, α = 0.01, cα = chi2inv(0.01, 63) = 39.8551 =⇒
valoarea intervalului de ı̂ncredere unilateral pentru abaterea standard este (0, 31.432) . ♣

Interval de ı̂ncredere pentru proporţia necunoscută p, a caracteristicii cercetate


X ∼ Bernoulli(p)
Exemplu: p· 100% din populaţia unui oraş susţine un anumit candidat la alegerile viitoare, unde
p ∈ (0, 1) este parametru necunoscut. S-a ales un eşantion aleatoriu de dimensiunea 2000 şi s-a
determinat că 980 de persoane susţin candidatul. Construiţi un interval de ı̂ncredere bilateral cu
nivelul de ı̂ncredere 95% pentru proporţia p necunoscută.

I se dau α ∈ (0, 1), datele statistice x1 , . . . , xn ∈ {0, 1}


I fie X1 , . . . , Xn variabilele de selecţie corespunzătoare caracteristicii cercetate X
I construim intervale de ı̂ncredere pentru parametrul necunoscut p ∈ (0, 1)
X̄n − p
I dacă X ∼ Bernoulli(p), atunci P. 18 implică q ∼ N (0, 1) pentru n suficient de mare
p(1−p)
n
I cuantilele legii normale N (0, 1):
z1− α2 = norminv(1 − α2 , 0, 1), z1−α = norminv(1 − α, 0, 1), zα = norminv(α, 0, 1)

• intervalul de ı̂ncredere bilateral pentru p:


r r
 X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
X̄n − · z1− 2 , X̄n +
α · z1− 2 ,
α
n n
adică
r r
 X̄n (1 − X̄n ) X̄n (1 − X̄n ) 
P X̄n − · z1− 2 < p < X̄n +
α · z1− 2 = 1 − α
α
n n
65
r
 X̄n (1 − X̄n ) 
• intervale de ı̂ncredere unilaterale: 0 , X̄n − · zα ,
r n
 X̄n (1 − X̄n ) 
X̄n − · z1−α , 1 , adică
n
r r
 X̄n (1 − X̄n )   X̄n (1 − X̄n ) 
P p < X̄n − · zα = 1 − α, P X̄n − · z1−α < p = 1 − α
n n

Interval de ı̂ncredere pentru Expresia intervalului de ı̂ncredere,


proporţia p folosind datele statistice
 q q 
x̄n (1−x̄n ) x̄n (1−x̄n )
bilateral x̄n − n · z1− α2 , x̄n + n · z1− α2 ∩ (0, 1)
r
 x̄n (1 − x̄n ) 
unilateral 0 , x̄n − · zα ∩ (0, 1)
n
r
 x̄n (1 − x̄n ) 
x̄n − · z1−α , 1 ∩ (0, 1)
n

Exemplul 1: p· 100% din populaţia unui oraş susţine un anumit candidat la alegerile viitoare,
unde p ∈ (0, 1) este parametru necunoscut. S-a ales un eşantion aleatoriu de dimensiunea 2000 şi
s-a determinat că 980 de persoane susţin candidatul. Construiţi un interval de ı̂ncredere bilateral
cu nivelul de ı̂ncredere 95% pentru proporţia p necunoscută.
R.: Intervalul de ı̂ncredere bilateral este
r r
 x̄n (1 − x̄n ) x̄n (1 − x̄n ) 
x̄n − · z1− α2 , x̄n + · z1− α2 ∩ (0, 1) ,
n n
0.05
unde n = 2000, α = 0.05, x̄n = 980/2000 = 0.49, z1− α2 = norminv(1 − 2 , 0, 1) ≈ 1.96 .
Valoarea intervalului de ı̂ncredere bilateral este (0.4678, 0.51212) . ♦

Teste statistice
Fie x1 , . . . , xn datele statistice pentru caracteristica cercetată X, notăm cu X1 , . . . , Xn variabilele
de selecţie corespunzătoare.
 Ipoteza statistică este o presupunere relativă la un parametru necunoscut θ
 Metoda de stabilire a veridicităţii unei ipoteze statistice se numeşte test (criteriu de verificare).
 Rezultatul testării se foloseşte apoi pentru luarea unor decizii (cum ar fi: eficienţa unor medica-
mente, strategii de marketing, alegerea unui produs etc.).

66
 Se formulează ipoteza nulă H0 şi ipoteza alternativă H1, privind parametrul θ; fie θ0 o valoare
dată
I. H0 : θ = θ0 H1 : θ 6= θ0
II. H0 : θ ≥ θ0 H1 : θ < θ0
III. H0 : θ ≤ θ0 H1 : θ > θ0
Se dă α ∈ (0, 1) nivelul de semnificaţie (probabilitatea de risc). Formularea unui test revine la
construirea unei regiuni critice U ⊂ Rn (pentru cazurile I, II, respectiv III) astfel ı̂ncât

P ((X1 , . . . , Xn ) ∈ U |H0 ) = α

ceea ce este echivalent cu


P ((X1 , . . . , Xn ) ∈
/ U |H0 ) = 1 − α
Concluzia testului:
(x1 , . . . , xn ) ∈
/ U ⇒ ipoteza H0 este admisă
(x1 , . . . , xn ) ∈ U ⇒ ipoteza H0 este respinsă, ı̂n favoarea ipotezei H1
 O colectivitate este testată ı̂n raport cu caracteristica X.
• test pentru valoarea medie teoretică E(X)
 când varianţa teoretică V (X) este cunoscută: testul lui Gauss (testul Z)
 când varianţa teoretică V (X) este necunoscută:
p testul Student (testul T)
• test pentru abaterea standard teoretică V (X) sau pentru varianţa teoretică V (X):
testul χ2
• test asupra proporţiei (test Gauss aproximativ)
Paşii pentru efectuarea unui test statistic:
• Care parametru se testează? Care test este potrivit?
• Care este ipoteza nulă H0 şi care este ipoteza alternativă H1 ?
• Care este nivelul de semnificaţie (probabilitatea de risc) α ?
• Calculul valorii estimatorului pe baza datelor statistice
• Concluzia testului

Test pentru media teoretică m = E(X) a caracteristicii cercetate X, când varianţa σ 2 =


V (X) este cunoscută (testul Z, testul Gauss)
I se dau α ∈ (0, 1), m0 , σ
I dacă X ∼ N (m, σ 2 ) sau n > 30 şi X are o distribuţie necunoscută, atunci P.18 şi P.19 implică

67
X̄n − m
∼ N (0, 1)
√σ
n
x̄n − m0
I folosind datele statistice x1 , . . . , xn , se calculează z =
√σ
n
I cuantilele legii normale N (0, 1):
z1− α2 = norminv(1 − α2 , 0, 1), z1−α = norminv(1 − α, 0, 1), zα = norminv(α, 0, 1)
I. H0 : m = m0 II.H0 : m ≥ m0 III. H0 : m ≤ m0
H1 : m 6= m0 H1 : m < m0 H1 : m > m0
Se acceptă H0 dacă |z| < z1− α2 z > zα z < z1−α
Se respinge H0 ı̂n favoarea lui H1 , dacă |z| ≥ z1− α2 z ≤ zα z ≥ z1−α

I ı̂n Octave/Matlab: ztest


x=normrnd(0,1,1,1000);
[a1,˜,a2]=ztest(x,0,1,’tail’,’both’,’alpha’,0.01) % cazul I
[b1,˜,b2]=ztest(x,0,1,’tail’,’left’,’alpha’,0.01) % cazul II
[c1,˜,c2]=ztest(x,0,1,’tail’,’right’,’alpha’,0.01) % cazul III
Observaţie: 1) Testele statistice şi ı̂ntervalele de ı̂ncredere: Se observă că
I. |z| < z1− α2 ⇐⇒ x̄n − √σn · z1− α2 < m0 < x̄n + √σn · z1− α2 , adică m0 (valoarea testată) aparţine
intervalului de ı̂ncredere bilateral (se vedea tabelul de pe pg. 60) ⇐⇒ se acceptă H0
II. z > zα ⇐⇒ m0 < x̄n − √σn · zα , adică m0 (valoarea testată) aparţine intervalului de ı̂ncredere
unilateral (se vedea tabelul de pe pg. 60) ⇐⇒ se acceptă H0
III. z < z1−α ⇐⇒ x̄n − √σn · z1−α < m0 , adică m0 (valoarea testată) aparţine intervalului de
ı̂ncredere unilateral (se vedea tabelul de pe pg. 60) ⇐⇒ se acceptă H0
2) regiunea critică U ⊂ Rn pentru testul mediei, când varianţa este cunoscută are următoarele
expresii:
n ūn − m0 1
n o 
I. U = (u1 , . . . , un ) ∈ R : ≥ z1− α2 , unde ūn = u1 + · · · + un
√σ n
n
n
n ūn − m0 o
II. U = (u1 , . . . , un ) ∈ R : ≤ zα
√σ
n

n ūn − m0
n o
III. U = (u1 , . . . , un ) ∈ R : σ ≥ z1−α

n
Exemplu: Un profesor a ı̂nregistrat pe parcursul mai multor ani rezultatele elevilor săi. Califica-
tivul unui elev este o v.a. cu valoarea ı̂ntre 1 şi 100, având abaterea standard egală cu 12. Actuala

68
clasă are 36 de elevi şi media calificativelor lor este 73.2. Se poate afirma din punct de vedere
statistic că media calificativelor din actuala clasă este egală cu 73.5? (α = 0.05)
R.: Se efectuează testul:
H0 : m = 73.5, H1 : m 6= 73.5, testul Z (Gauss) pentru medie, când varianţa este cunoscută
σ 2 = 122 (din textul problemei σ = 12).
Se calculează
x̄n − m0 73.2 − 73.5
z= σ = 12 = −0.15 =⇒ |z| < z1− α2 = norminv(1 − α2 , 0, 1) = 1.96
√ √
n 36
=⇒ (pe baza datelor statistice) se acceptă H0 , adică se poate afirma pe baza datelor statistice, că
media calificativelor din actuala clasă este egală cu 73.5 . ♠

Test pentru media teoretică m = E(X) a caracteristicii cercetate X, când varianţa V (X)
este necunoscută (Testul T, testul Student)
I se dau α ∈ (0, 1), m0
X̄n − m
I dacă X ∼ N (m, σ 2 ) sau n > 30 şi X are o distribuţie necunoscută, atunci Sn


n
St(n − 1)
x̄n − m0
I folosind datele statistice x1 , . . . , xn se calculează t = sn

n
I cuantilele legii Student cu n − 1 grade de libertate St(n − 1):
t1− α2 = tinv(1 − α2 , n − 1), t1−α = tinv(1 − α, n − 1), tα = tinv(α, n − 1)
I. H0 : m = m0 II. H0 : m ≥ m0 III. H0 : m ≤ m0
H1 : m 6= m0 H1 : m < m0 H1 : m > m0
Se acceptă H0 dacă |t| < t1− α2 t > tα t < t1−α
Se respinge H0 ı̂n favoarea lui H1 , dacă |t| ≥ t1− α2 t ≤ tα t ≥ t1−α

I ı̂n Octave/Matlab: ttest


x=normrnd(0,1,1,1000);
[a1,˜,a2]=ttest(x,0,’tail’,’both’,’alpha’,0.01) % cazul I
[b1,˜,b2]=ttest(x,0,’tail’,’left’,’alpha’,0.01) % cazul II
[c1,˜,c2]=ttest(x,0,’tail’,’right’,’alpha’,0.01) % cazul III
Observaţie: Se observă că
I. |t| < t1− α2 ⇐⇒ x̄n − √snn · t1− α2 < m0 < x̄n + sn

n
· t1− α2 , adică m0 (valoarea testată) aparţine

69
intervalului de ı̂ncredere bilateral (se vedea tabelul de pe pg. 62) ⇐⇒ se acceptă H0
II. t > tα ⇐⇒ m0 < x̄n − √snn · tα , adică m0 (valoarea testată) aparţine intervalului de ı̂ncredere
unilateral (se vedea tabelul de pe pg. 62) ⇐⇒ se acceptă H0
III. t < t1−α ⇐⇒ x̄n − √snn · t1−α < m0 , adică m0 (valoarea testată) aparţine intervalului de
ı̂ncredere unilateral (se vedea tabelul de pe pg. 62) ⇐⇒ se acceptă H0
Exemplu: Specificaţiile unui anumit medicament indică faptul că fiecare comprimat conţine
ı̂n medie 2.4 g de substanţă activă. 100 de comprimate alese la ı̂ntâmplare din producţie sunt
analizate şi se constată că ele conţin ı̂n medie 2.5 g de substanţă activă cu o deviaţie standard de
0.2 g. Se poate spune că medicamentul respectă specificaţiile (cu α = 0.01)?
R.: H0 : m = 2.4 cu H1 : m 6= 2.4, testul Student. ♣

p
Test pentru varianţa σ 2 = V (X) / abaterea standard σ = V (X) / a caracteristicii cerc-
etate X

I se dau α ∈ (0, 1), σ0


n−1 2
I dacă X ∼ N (m, σ 2 ), atunci σ 2 Sn ∼ χ2 (n − 1)
n−1 2
I folosind datele statistice x1 , . . . , xn se calculează c = · sn
σ02
I cuantilele χ2 (Chi-pătrat) cu n − 1 grade de libertate:
c1− α2 = chi2inv(1 − α2 , n − 1), c α2 = chi2inv( α2 , n − 1), c1−α = chi2inv(1 − α, n − 1),
cα = chi2inv(α, n − 1)

I. H0 : σ = σ0 II. H0 : σ ≥ σ0 III. H0 : σ ≤ σ0
H1 : σ 6= σ0 H1 : σ < σ0 H1 : σ > σ0
Se acceptă H0 , dacă c α2 < c < c1− α2 c > cα c < c1−α
Se respinge H0 ı̂n favoarea lui H1 , dacă c ∈
/ (c α2 , c1− α2 ) c ≤ cα c ≥ c1−α

I ı̂n Matlab: vartest

x=normrnd(0,1,1,1000);
[a1,˜,a2]=vartest(x,1,’tail’,’both’,’alpha’,0.01) % cazul I
[b1,˜,b2]=vartest(x,1,’tail’,’left’,’alpha’,0.01) % cazul II
[c1,˜,c2]=vartest(x,1,’tail’,’right’,’alpha’,0.01) % cazul III

70
Observaţie: Se observă că
q q
I. c α2 < c < c1− α2 ⇐⇒ cn−1α · sn < σ0 < n−1
c α · sn , adică σ0 (valoarea testată) aparţine
1− 2 2
intervalului de ı̂ncredereqbilateral (se vedea tabelul de pe pg. 64) ⇐⇒ se acceptă H0
II. c > cα ⇐⇒ σ0 < n−1 cα · sn , adică σ0 (valoarea testată) aparţine intervalului de ı̂ncredere
unilateral (se vedeaq tabelul de pe pg. 64) ⇐⇒ se acceptă H0
III. c < c1−α ⇐⇒ cn−1 1−α
· sn < σ0 , adică σ0 (valoarea testată) aparţine intervalului de ı̂ncredere
unilateral (se vedea tabelul de pe pg. 64) ⇐⇒ se acceptă H0
Exemplu: Un manager este suspicios că un utilaj, care umple anumite cutii cu ceai, trebuie
ı̂nlocuit cu unul mult mai precis. 121 de cutii cu ceai sunt cântărite. S-a obţinut o medie de 196.6
g şi o abatere standard de 2.09 g pentru acest eşantion.
a) Pe baza datelor statistice se poate afirma că abaterea standard a utilajului este de 2 g?
b) Sunt datele suficiente pentru a concluziona, că utilajul trebuie reglat pentru că nu pune (ı̂n
medie) 200 g de ceai ı̂ntr-o cutie? (α = 0.01)
Să se folosească metoda intervalelor de ı̂ncredere pentru a obţine răspunsurile pentru aceste
teste statistice.
R.: n = 121, x̄n = 196.6, sn = 2.09, σ0 = 2, m0 = 200, α = 0.01; vom folosi metoda
intervalelor de ı̂ncredere:
a) H0 : σ = 2 cu H1 : σ 6= 2 , test pentru abaterea standard
c1− α2 = chi2inv(1 − α2 , n − 1), c α2 = chi2inv( α2 , n − 1);  calculăm valoarea intervalului
q q
n−1 n−1

de ı̂ncredere pentru abaterea standard: c α · s n , cα · s n = 1.764015, 2.464349 ; cum
1− 2 2

σ0 = 2 aparţine acestui interval numeric, se acceptă H0 : se poate afirma că abaterea standard a
utilajului este de 2 g.
b) H0 : m = 200 cu H1 : m 6= 200, testul Student
t1− α2 = tinv(1 − α2 , n −  1); calculăm valoarea intervalului
 de ı̂ncredere pentru medie (când
varianţa este necunoscută): x̄n − √snn · t1− α2 , x̄n + √snn · t1− α2 = (196.109828, 197.090172); cum
m0 = 200 nu aparţine acestui interval numeric se respinge H0 ı̂n favoarea lui H1 . Utilajul trebuie
reglat pentru că nu pune (ı̂n medie) 200 g de ceai ı̂ntr-o cutie! ♣

Test asupra proporţiei p pentru caracteristica X ∼ Bernoulli(p) (testul Gauss aproximativ)


I se dau α ∈ (0, 1), p0
X̄n − p
I dacă X ∼ Bernoulli(p) şi np(1 − p) ≥ 10, atunci q ∼ N (0, 1)
p(1−p)
n

71
x̄n − p0
I folosind datele statistice x1 , . . . , xn se calculează z = q ; ı̂n plus,
p0 (1−p0 )
n
se verifică np0 (1 − p0 ) ≥ 10
I cuantilele legii normale N (0, 1):
z1− α2 = norminv(1 − α2 , 0, 1), z1−α = norminv(1 − α, 0, 1), zα = norminv(α, 0, 1)
I. H0 : p = p0 II. H0 : p ≥ p0 III. H0 : p ≤ p0
H1 : p 6= p0 H1 : p < p0 H1 : p > p0
Se acceptă H0 dacă |z| < z1− α2 z > zα z < z1−α
Se respinge H0 ı̂n favoarea lui H1 , dacă |z| ≥ z1− α2 z ≤ zα z ≥ z1−α

Observaţie: Se observă căq q


x̄n (1−x̄n )
I. |z| < z1− α2 ⇐⇒ x̄n − n · z1− α2 < p0 < x̄n + x̄n (1−x̄
n
n)
· z1− α2 , adică p0 (valoarea
testată) aparţine intervalului de ı̂ncredere bilateral (se vedea tabelul de pe pg. 66) ⇐⇒ se acceptă
H0 q
II. z > zα ⇐⇒ p0 < x̄n − x̄n (1−x̄n
n)
· zα , adică p0 (valoarea testată) aparţine intervalului de
q tabelul de pe pg. 66) ⇐⇒ se acceptă H0
ı̂ncredere unilateral (se vedea
III. z < z1−α ⇐⇒ x̄n − x̄n (1−x̄ n
n)
· z1−α < p0 , adică m0 (valoarea testată) aparţine intervalului
de ı̂ncredere unilateral (se vedea tabelul de pe pg. 66) ⇐⇒ se acceptă H0
Exemplu: O monedă s-a aruncat de 100 de ori şi s-a obţinut de 61-de ori “pajură”. Pe baza aces-
tor informaţii se poate afirma că moneda este măsluită? Adică p 6= 0.5, unde p este probabilitatea
cu care apare “pajură” la o aruncare. Se ia α = 0.05.
R.: n = 100, p0 = 0.5 ⇒ np0 (1 − p0 ) = 100 · 0.5 · 0.5 ≥ 10
H0 : p = 0.5, H1 : p 6= 0.5, test pentru proporţia p
61
x̄n − p0 100 − 0.5
z=q =q = 2.2
p0 (1−p0 ) 0.5(1−0.5)
n 100
z > z1− α2 = norminv(1 − 0.05 2 , 0, 1) = 1.96 =⇒ H0 se respinge; pe baza datelor statistice se
deduce că moneda este măsluită. 

72

S-ar putea să vă placă și