Sisteme de Variabile Aleatoare. Elemente de Statistică

Figura 1.14 Figura 1.
15
Repartiţia Student se utilizează ı̂n testarea ipotezelor statistice.
4. Repartiţia Fisher-Snedecor (repartiţia F). Fie X1 , X2 , . . . , Xn
şi Y1 , Y2 , . . . , Ym variabile aleatoare independente repartizate normal cu
mediile egale cu zero şi abaterile medii pătratice egale cu unu. În acest
caz, variabila aleatoare
P
n
1 2
Xi2 /n χ (n)
Fn,m = i=1
Pm = n
1 2
Yj2 /m χ (m)
j=1 m
are repartiţie numită Fisher-Snedecor cu n şi m grade de libertate.

Repartiţia Fisher-Snedecor se utilizează ı̂n testarea ipotezelor statistice
privind compararea a două dispersii. Se notează F (ν1 , ν2 ) sau Fν1 ,ν2 , unde
ν1 şi ν2 sunt grade de libertate. Pentru repartiţia F au fost elaborate
tabele.
1.11 Sisteme de variabile aleatoare

1.11.1 Variabile aleatoare vectoriale
Există mulţi indicatori economici care se determină prin câteva vari-
abile aleatoare, acestea formând un sistem. De exemplu, cheltuielile unei
ı̂ntreprinderi se formează din 2 componente – fixe şi variabile; nivelul
de trai al cetăţenilor se caracterizează printr-un şir de mărimi variabile
ş.a.m.d.
35
Valorile unor indicatoari economici determină mărimile altor indica-
tori. Din această cauză, una din problemele centrale ı̂n analiza economică
constă ı̂n identificarea existenţei interdependenţei dintre diferiţi indicatori,
cât şi intensitatea acesteia. De exemplu, relaţia dintre cererea şi preţul la
careva marfă; relaţia dintre inflaţie şi nivelul şomajului etc. Prin urmare,
este vorba despre relaţiile dintre anumite variabile aleatoare.
Dacă X şi Y sunt două variabile aleatoare, atunci cuplul Z = (X; Y )
se numeşte vector aleator bidimensional sau variabila aleatoare bidimen-
sională. În cazul ı̂n care X şi Y sunt variabile aleatoare discrete cu numere
finite de valori posibile, adică X = (x1 , x2 , . . . , xn ) şi p = (p1 , p2 , . . . , pn ) –
probabilităţile respective, iar Y = (y1 , y2 , . . . , ym ) şi p′ = (p′1 , p′2 , . . . , p′m ),
atunci Z=(X;Y) este tot o variabilă aleatoare discretă determinată de
perechile ordonate (xi ; yj ), i = 1; n, j = 1, m şi probabilităţile
pij = P [(X = xi ) · (Y = yj )].
În situaţia aceasta, variabila aleatoare Z = (X; Y ) poate fi reprezen-
tată printr-un tabel de forma celui ce urmează.
Tabelul 1.1
Y
y1 y2 ... yj ... ym P (X= xi )
X
P
m
x1 p11 p12 ... p1j ... p1m p1 = p1j
j=1
Pm
x2 p21 p22 ... p2j ... p2m p2 = p2j
j=1
... ... ... ... ... ... ... ...
P
m
xi pi1 pi2 ... pij ... pim pi = pij
j=1
... ... ... ... ... ... ... ...
Pm
xn pn1 pn2 ... pnj ... pnm pn = pnj
j=1
P ′ (Y = yj ) p′1 = p′2 = ... p′j = ... p′m = 1
Pn Pn Pn Pn
pi1 pi2 pij pim
i=1 i=1 i=1 i=1
Funcţia de repartiţie a variabilei aleatoare bidimensionale se notează

prin simbolul F (x, y) şi se defineşte prin relaţia
F (x, y) = P (X < x, Y < y), (1.30)
adică F(x,y) este probabilitatea apariţiei evenimentului (X < x, Y < y).
Tabelul prezentat mai sus se numeşte repartiţia variabilei aleatoare (X; Y ).
36
Având tabelul repartiţiei variabilei Z = (X; Y ), putem determina repar-
tiţia fiecărei componente X şi Y . Probabilităţile obţinute pentru compo-
nentele lui X şi Y se numesc probabilităţi marginale sau probabilităţi
P
m Pn
limită. Astfel, P (X = xi ) = pij şi P (Y = yj ) = pij .
j=1 i=1
Pentru vectorul aleator se defineşte noţiunea de probabilităţi condi-
ţionate ı̂n mod analog cu această noţiune definită pentru evenimentele
aleatoare. Astfel, vom numi probabilitate condiţionată a variabilei alea-
toare X, cu condiţia că variabila aleatoare Y obţine o anumită valoare yj
(adică Y = yj ), mărimea
P [(X = xi ) · (Y = yj )] pij
PY =yj (X = xi ) = = ′ . (1.31)
P (Y = yj ) pj
P
n
Suma tuturor probabilităţilor condiţionate, adică PY =yj (X = xi ),
i=1
trebuie să fie egală cu unu.
Din relaţia (1.31) obţinem
P [(X = xi ) · (Y = yj )] = P (X = xi ) · PX=xi (Y = yj ) =
P (Y = yj ) · PY =yj (X = xi ). (1.32)
Dacă X şi Y sunt variabile aleatoare independente, atunci
P [(X = xi ) · (Y = yj )] = P (X = xi ) · P (Y = yj ) (1.33)
şi F (x, y) = F (x) · F (y).

Suma produselor valorilor posibile ale lui X cu probabilităţile condi-
ţionate ale acestora se numeşte valoare medie condiţionată a variabilei
aleatoare X atunci când Y = yj .
n
X n
X
MY =yj (X) = xi PY =yj (xi ) sau My (X) = xi Py (xi ). (1.34)
i=1 i=1
În mod analog,

m
X m
X
MX=xi (Y ) = yj PX=xi (yj ) sau Mx (Y ) = yj Px (yj ). (1.35)
j=1 j=1
Exemplul 1.19. Se dă repartiţia variabilei aleatoare bidimensionale

(X,Y).
37
Tabelul 1.2
Y
3 5 P (X= xi )
X
2 0, 10 0, 06 0, 16
3 0, 30 0, 18 0, 48
4 0, 20 0, 16 0, 36
P (Y = yj ) 0, 6 0, 4 1
Să se determine:
a) repartiţiile separate ale fiecărei variabile aleatoare X şi Y ;
b) probabilităţile condiţionate ale variabilei aleatoare X;
c) valorile medii condiţionate ale variabilei aleatoare X.
Rezolvare. Conform celor menţionate mai sus, avem:
2
X
P (X = x1 ) = P (X = 2) = p1j = 0, 10 + 0, 06 = 0, 16;
j=1
2
X
P (X = x2 ) = P (X = 3) = p2j = 0, 30 + 0, 18 = 0, 48;
j=1
2
X
P (X = x3 ) = P (X = 4) = p3j = 0, 20 + 0, 16 = 0, 36;
j=1
3
X
P (Y = y1 ) = P (Y = 3) = pi1 = 0, 10 + 0, 30 + 0, 20 = 0, 6;
i=1
3
X
P (Y = y2 ) = P (Y = 5) = pi2 = 0, 06 + 0, 18 + 0, 16 = 0, 4.
i=1
Scriem repartiţiile separate ale variabilelor X şi Y
X 2 3 4 Y 3 4
P 0, 16 0, 48 0, 35 P′ 0, 6 0, 4
Calculăm probabilităţile condiţionate ale variabilei aleatoare X. Con-

form formulei (1.31), avem:
P [(X = 2) · (Y = 3)] 0, 1 1
PY =3 (X = 2) = = = ;
P (Y = 3) 0, 6 6
P [(X = 3) · (Y = 3)] 0, 3
PY =3 (X = 3) = = = 0, 5;
P (Y = 3) 0, 6
38
P [(X = 4) · (Y = 3)] 0, 2 1
PY =3 (X = 4) = = = .
P (Y = 3) 0, 6 3
Suma acestor probabilităţi trebuie să fie egală cu unu. Într-adevăr:

1 1
+ 0, 5 + = 1.
6 3
În mod analog găsim: PY =5 (X = 2) = 0, 15; PY =5 (X = 3) = 0, 45;
PY =5 (X = 4) = 0, 40; şi 0, 15 + 0, 45 + 0, 40 = 1.
Calculăm valorile medii condiţionate ale variabilei aleatoare X apli-
când relaţia (1.35).
3
X
MY =3 (X) = xi PY =3 (xi ) = x1 PY =3 (x1 ) + x2 PY =3 (x2 )+
i=1
x3 PY =3 (x3 ) = 2 · 0, 167 + 3 · 0, 5 + 4 · 0, 333 = 3, 166;
3
X
MY =5 (X) = xi PY =5 (xi ) = x1 PY =5 (x1 ) + x2 PY =5 (x2 )+
i=1
x3 PY =5 (x3 ) = 2 · 0, 15 + 3 · 0, 45 + 4 · 0, 4 = 3, 25. #
Figura 1.16
Din relaţia (1.35) observăm că valoriile medii condiţionate MX=xi (Y )
(se mai notează M (Y /x)) constituie o funcţie de x. Această funcţie se nu-
meşte funcţie de regresie a lui Y ı̂n raport cu X (se mai spune Y ajustat
cu X) şi se notează prin ϕ(x), adică
ϕ(x) = M (Y /x). (1.36)
39
Vectorul aleator (X; Y ) poate fi reprezentat geometric printr-un câmp
de puncte situate ı̂n planul xOy. Pentru o valoare concretă X = xi , mă-
rimea Y este variabilă aleatoare cu careva repartiţie şi valoarea ei medie
este, de fapt, valoarea medie condiţionată M (Y /xi ). Dacă vom lua mai
multe valori pentru x şi vom calcula pentru fiecare din ele mediile condi-
ţionate M (Y /x), atunci, unind punctele (x; M (Y /x)), vom obţine o linie
numită linie sau curbă de regresie a lui Y ı̂n raport cu X.
În mod analog poate fi construită şi curba de regresie a lui X ı̂n raport
cu Y .
Astfel, observăm că particularitatea legăturii dintre variabilele alea-
toare X şi Y constă ı̂n faptul că unei valori ale lui X ı̂i corespunde o
repartiţie de valori a variabilei aleatoare Y , adică pentru diferite valori
ale lui X avem diferite repartiţii ale lui Y . Funcţia de regresie reprezintă
dependenţa dintre valorile variabilei aleatoare X şi media condiţionată a
variabilei aleatoare Y .
1.11.2 Covarianţa şi coeficientul de corelaţie

Considerăm două variabile aleatoare X şi Y . Admitem că ı̂ntre ele
există o legătură statistică (stocastică), adică unei valori xi ı̂i corespunde
o repartiţie de valori ale lui Y . Fie, de asemenea, se cunoaşte funcţia
(linia) de regresie a lui Y ı̂n raport cu X.
Următoarea problemă care se cere rezolvată este problema corelaţiei.
Ea are ca scop să caracterizeze cantitativ intensitatea legăturii dintre
X şi Y , adică să determine gradul de concentrare al valorilor lui Y ı̂n
vecinătatea liniei de regresie. Pentru aceasta se calculează covarianţa şi
coeficientul de corelaţie.
Se numeşte covarianţă a variabilelor aleatoare discrete X şi Y va-
loarea medie a produselor abaterilor acestor variabile de la mediile sale,
adică
Cov(X, Y ) = M [(X − M (X))(Y − M (Y ))] (1.37)
sau
n X
X m
Cov(X, Y ) = [xi − M (X)][yj − M (Y )]pij .
i=1 j=1
Se stabileşte simplu că
Cov(X, Y ) = M (XY ) − M (X)M (Y ). (1.38)
Observăm că:
40
a) Cov(X, X) = M (X 2 ) − [M (X)]2 = D(X);
b) Cov(aX, bY ) = abCov(X, Y ), a şi b – numere reale;
c) Cov(X, Y ) = Cov(Y, X);
d) Cov(X, Y ) = 0, dacă X şi Y sunt variabile aleatoare independente.
Covarianţa depinde de unităţile ı̂n care se măsoară variabilele aleatoare
X şi Y , ceea ce constituie o incomoditate ı̂n utilizarea covarianţei. Pentru
a ı̂nlătura acest neajuns se calculează coeficientul de corelaţie ρXY , care
nu depinde de unităţile ı̂n care se măsoară X şi Y .
Cov(X, Y )
ρXY = . (1.39)
σX σY
Variabilele X şi Y pentru care ρXY = 0 se numesc necorelate. Dacă
ı̂nsă ρXY 6= 0, se spune că X şi Y sunt corelate.
Coeficientul de corelaţie are următoarele proprietăţi:
a) Dacă X şi Y sunt independente, atunci ρXY = 0, adică ı̂n acest
caz X şi Y sunt necorelate. Afirmaţia reciprocă nu este ı̂ntotdeauna
adevărată.
b) −1 ≤ ρXY ≤ 1.
În practică, se consideră că, dacă
0 ≤ |ρXY | < 0, 2, nu există o legătură semnificativă;
0, 2 ≤ |ρXY | < 0, 5, există o legătură slabă;
0, 5 ≤ |ρXY | < 0, 75, există o legătură de intensitate medie;
0, 75 ≤ |ρXY | < 0, 95, există o legătură puternică;
0, 95 ≤ |ρXY | < 1, putem considera că există o legătură funcţională.
Exemplul 1.20. Pe parcursul a câtorva ani, s-au facut investiţii ı̂n
două ramuri ale economiei. Dividendele obţinute (ı̂n procente) din aceste
investiţii constituie variabila aleatoare bidimensională (X, Y ) cu repartiţia
prezentată ı̂n următorul tabel.
Tabelul 1.3
Y
−10 5 10 P (X= xi )
X
−10 0, 05 0, 25 0, 30 0, 6
20 0, 15 0, 20 0, 05 0, 4
P (Y = yj ) 0, 20 0, 45 0, 35 1
a) Să se determine repartiţiile marginale ale variabilelor aleatoare X

şi Y ;
41
b) Să se calculeze coeficientul de corelaţie dintre X şi Y ; să se sta-
bilească existenţa dependenţei dintre ele;
c) Se examinează două variante de investiţii – să se plaseze bani doar
ı̂n una din ramurile economiei sau ı̂n ambele ramuri ı̂n proporţii egale; să
se stabilească care din variante este mai puţin riscantă.
Rezolvare. a) Repartiţiile marginale sunt prezentate ı̂n tabel. Astfel
avem:
X −10 20 Y −10 5 10
P 0, 6 0, 4 P′ 0, 20 0, 45 0, 35
b) Calculăm coeficientul de corelaţie. Pentru aceasta determinăm ca-

racteristicile numerice ale variabilelor aleatoare X şi Y .
M (X) = −10 · 0, 6 + 20 · 0, 4 = 2;
M (Y ) = −10 · 0, 2 + 5 · 0, 45 + 10 · 0, 35 = 3, 25;
D(X) = M (X 2 ) − [M (X)]2 = 100 · 0, 6 + 400 · 0, 4 − 4 = 216;
D(Y ) = 100 · 0, 2 + 25 · 0, 45 + 100 · 0, 35 − 3, 252 = 55, 6875;
√ p
σ(X) = 216 = 14, 7; σ(Y ) = 55, 6875 = 7, 46;
2 X
X 3
Cov(X, Y ) = xi yj pij − M (X) · M (Y ) =
i=1 j=1
−10 · (−10) · 0, 05 + (−10) · 5 · 0, 25 + (−10) · 10 · 0, 3+

20 · (−10) · 0, 15 + 20 · 5 · 0, 2 + 20 · 10 · 0, 05 − 2 · 3, 25 = −44.
Astfel,
−44
ρXY = ≈ −0, 4.
14, 7 · 7, 46
Prin urmare, ı̂ntre variabilele X şi Y există o legătură liniară slabă
negativă.
Verificăm acum condiţia de independenţă. În cazul când X şi Y sunt
independente, se verifică relaţia P (x, y) = P (x) · P (y). În problema
prezentată avem, de exemplu, P (X = 20, Y = 5) = 0, 20, iar
P (X = 20) · P (Y = 5) = 0, 4 · 0, 45 = 0, 18,
adică
P (X = 20, Y = 5) 6= P (X = 20) · P (Y = 5).
42
Prin urmare, X şi Y nu sunt variabile aleatoare independente.
c) Riscul plasării banilor ı̂n careva ramură se caracterizează prin gradul
de ı̂mprăştiere a dividendelor, adică prin dispersiile variabilelor aleatoare.
Observăm că D(X) = 216, iar D(Y ) = 55, 6875, adică D(X) > D(Y ).
Prin urmare, este mai riscant să se investească ı̂n prima ramură decât ı̂n
cea de-a doua.
Notăm prin Z variabila aleatoare care exprimă dividendele obţinute de
la investiţiile ı̂n ambele ramuri ı̂n raport de 50:50, adică Z = 0, 5X +0, 5Y ,
şi calculăm caracteristicile numerice ale lui Z.
M (Z) = M (0, 5X + 0, 5Y ) = 0, 5M (X + Y ) = 0, 5(2 + 3, 25) = 2, 625;
D(Z) = D(0, 5X + 0, 5Y ) = 0, 25[D(X) + D(Y ) + 2ρXY σ(X)σ(Y )] =
0, 25[216 + 55, 6875 + 2 · (−0, 4) · 14, 7 · 7, 46] ≈ 45, 989.
Observăm că D(Z) < D(Y ). Prin urmare, există temei să credem că
investiţiile ı̂n ambele ramuri ı̂n proporţii egale ar fi varianta cea mai puţin
riscantă din cele 3 variante examinate. #
1.12 Legea numerelor mari: noţiuni generale

Este bine cunoscut faptul că legile sociale şi economice se manifestă
ca legi statistice. Punerea ı̂n evidenţă a unei concluzii (legităţi) de ordin
statistic se realizează, de regulă, doar după cercetarea unui număr suficient
de mare de cazuri individuale, astfel ı̂ncât să fie ı̂ndeplinite condiţiile aşa-
numitei legi a numerelor mari. Acestea se exprimă prin faptul că
rezultatul mediu al acţiunii unui număr mare de variabile aleatoare in-
dependente nu mai este şi el aleator şi poate fi pronosticat (prezis) cu o
precizie bine determinată.
Prin legea numerelor mari se exprimă una din proprietăţile vari-
abilelor aleatoare şi, ı̂ntr-un sens mai restrâns, se are ı̂n vedere un set
de teoreme prin care se demonstrează următoarele: caracteristicele medii
ale unei mulţimi de variabile aleatoare independente tind către mărimi
constante.
Teoreme importante din legea numerelor mari se demonstrează uti-
lizând inegalitatea Cebâşev.
Fie X – variabilă aleatoare cu media M (X) şi dispersia D(X); pentru
orice număr ε > 0, probabilitatea că abaterea lui X de la media sa M (X)
nu depăşeşte ε se determină prin relaţia
D(X)
P (|X − M (X)| ≤ ε) > 1 − , (1.40)
ε2
43
Dacă pentru n → ∞ şi orice număr ε > 0 există limita consecutivităţii
{pn } şi această limită este egală cu 1, adică
lim P (|Xn − k| < ε) = 1,

n→∞
atunci se spune că consecutivitatea de variabile aleatoare X1 , X2 , . . . ,

Xn , . . . converge ı̂n probabilitate către constanta k.
Se scrie
p prin probabilitate
Xn −→k sau Xn −−−−−−−−−−−−−→k. (1.42)
Ţinând cont de noţiunea de convergenţă ı̂n probabilitate, teorema Ber-
noulli se formulează ı̂n felul următor:
Wn
Fie – frecvenţa relativă a evenimentului A ı̂n n experimente in-
n
dependente, iar p – probabilitatea lui A ı̂n fiecare experiment. Atunci
Wn p Wn prin probabilitate
−→p sau −−−−−−−−−−−−−→p. (1.43)
n n
Astfel, prin legea numerelor mari (formularea clasică dată de Bernoulli)
se afirmă că frecvenţa relativă de apariţie a unui eveniment converge ı̂n
probabilitate către probabilitatea acelui eveniment.
1.13 Elemente de statistică

Statistica este o colecţie de metode utilizate pentru a acumula date
numerice din observaţii şi investigaţii ştiinţifice, cât şi pentru a descrie şi
analiza datele obţinute.
Obiectul de studiu al statisticii ı̂l constituie fenomenele de masă care
au proprietatea de a fi variabile ı̂n timp şi ı̂n spaţiu (sau şi ı̂n timp, şi
ı̂n spaţiu). Fenomenele de masă se produc, de regulă, sub influenţa mai
multor factori de tip stocastic (aleatoriu) şi au la bază anumite legi, numite
legi statistice. Aceste legi se prezintă ı̂n formă de tendinţe predominante
ı̂n masa fenomenelor.
Mulţimea tuturor elementelor (obiectelor, indivizilor) de aceeaşi na-
tură ce posedă caracteristici comune care pot fi supuse observaţiilor şi
măsurărilor se numeşte populaţie statistică sau colectivitate statistică.
O populaţie statistică constă din unităţi sau elemente statistice şi este
o mulţime numărabilă (locuitorii unui oraş sau regiuni, salariile unei cate-
gorii de funcţionari etc.); caracteristica statistică (sau criteriul statistic)
constituie proprietatea comună tuturor elementelor populaţiei (cheltuielile
pentru alimentare ale fiecărui locuitor, cheltuielile pentru transport etc.).
46
Fenomenele din economie şi societate adesea sunt prea numeroase şi
prea complexe pentru a realiza o observare şi analiză pe ı̂ntreaga populaţie
statistică. De aceea s-a ajuns la ideea examinării numai a unei părţi
din populaţia statistică, această parte fiind numită selecţie sau eşantion
(sondaj). Astfel, din populaţia statistică se extrage un eşantion (există
anumite reguli şi procedee pentru formarea unui eşantion), se calculează
indicatorii care caracterizează eşantionul şi apoi rezultatele obţinute se
extind pentru ı̂ntreaga populaţie. Procedeul de obţinere a datelor privind
ı̂ntreaga populaţie, pornind de la un eşantion, se numeşte inferenţă statis-
tică. Prin aceasta se presupune că rezultatele obţinute pentru selecţie sunt
caracteristice şi pentru ı̂ntreaga populaţie. Inferenţa statistică se bazează
pe principiile teoriei probabilităţilor.
1.13.1 Caracteristici numerice de selecţie

Admitem că se examinează o anumită caracteristică X pentru o po-
pulaţie statistică formată din N elemente (de volum N ). Din această
populaţie se formează o selecţie care conţine n elemente (de volum n).
Fie caracteristica X obţine valorile x1 , x2 , . . . , xn care pot fi aranjate ı̂n
ordine crescătoare (nedescrescătoare) x1 ≤ x2 ≤ x3 ≤ . . . ≤ xn . Fie, de
asemenea, x1 , x2 , . . . , xk (k ≤ n) sunt valorile diferite dintre ele, adică
x1 < x2 < . . . < xk . Mărimile xi , i = 1, k, se numesc variante.
Dacă varianta xi se ı̂ntâlneşte ı̂n selecţie de ni ori, atunci numărul
ni
ni se numeşte frecvenţa variantei xi , iar – frecvenţă relativă a acestei
n
variante. Putem alcătui următorul tabel pentru selecţia dată (tabelul
formează aşa-numita serie statistică).
Tabelul 1.4
X x1 x2 ... xk
P
k
ni n1 n2 ... nk ni = n
i=1
ni n1 n2 nk Pk n
i
... =1
n n n n i=1 n
Având o serie statistică, poate fi formată funcţia empirică de repartiţie
F ∗ (x) (funcţia de repartiţie a selecţiei).
nx
F ∗ (x) = ,
n
unde nx – numărul de valori ale variabilei aleatoare (caracteristicii) X
mai mici ca x; n – volumul selecţiei.
47
Funcţia F ∗ (x) dispune de următoarele proprietăţi:
1. 0 ≤ F ∗ (x) ≤ 1;
2. Dacă x1 < x2 , atunci F ∗ (x1 ) ≤ F ∗ (x2 );
3. Pentru x ≤ x1 , funcţia F ∗ (x) = 0, iar pentru x > xk , funcţia F ∗ (x) =
1.
În afară de funcţia de repartiţie F ∗ (x) a selecţiei mai pot fi determinate
şi principalele ei caracteristici numerice – media de selecţie, dispersia şi
abaterea medie pătratică de selecţie.
Media de selecţie
n k
1X 1X
xs = xi , respectiv xs = ni xi . (1.44)
n i=1 n i=1
Dispersia de selecţie (notată şi V ar(X) sau V (X))

n k
1X 1X
Ds = (xi −xs )2 ; Ds = x2s −(xs )2 ; Ds = ni (xi −xs )2 . (1.45)
n i=1 n i=1
Abaterea medie pătratică (notată şi sX )

p
σs = Ds . (1.46)
Poate fi determinat, de asemenea, coeficientul de variaţie al selecţiei

σs
Vs = · 100%. (1.47)
xs
Anterior s-a menţionat că, una din modalităţile de stabilire a legăturii
dintre două variabile aleatoare X şi Y poate servi măsura dependenţei
liniare dintre X şi Y , care se exprimă numeric prin covarianţa Cov(X, Y )
şi coeficientul de corelaţie r(X, Y ) (notat şi rX,Y ):
n n
1X 1X
Cov(X, Y ) = (xi − xs )(yi − y s ) = xi yi − xs y s , (1.48)
n i=1 n i=1
1P n
xi yi − xs y s
Cov(X, Y ) n i=1
r(X, Y ) = = q q . (1.49)
sX · sY
x s − (xs ) · y 2 s − (y s )2
2 2
48
1.13.2 Estimarea parametrilor
S-a menţionat că cercetarea parametrilor unei populaţii statistice poa-
te fi realizată doar utilizând selecţii din această populaţie. Apare ı̂ntreba-
rea: se poate oare de acceptat parametrii selecţiei ı̂n calitate de parametri
ai populaţiei? Valorile parametrilor de selecţie sunt variabile aleatoare şi
ele pot să difere de valorile parametrilor populaţiei. Deci valorile para-
metrilor de selecţie sunt doar estimaţii ale parametrilor populaţiei; ı̂nsăşi
parametrii de selecţie se numesc estimatori ai parametrilor populaţiei
statistice.
Estimarea este procesul prin care se determină (printr-un număr
sau printr-un interval) valoarea parametrului populaţiei statistice pe baza
datelor obţinute din selecţiile acestei populaţii.
O estimaţie (un estimator) este funcţie de selecţie, adică este o vari-
abilă aleatoare care poartă numele de statistică. Din mulţimea de statis-
tici trebuie alese acelea care dau cea mai bună aproximaţie a parametrului
examinat.
Fie x1 , x2 , . . . , xn o selecţie dintr-o populaţie cu repartiţia F (x, Θ),
unde Θ este parametrul real necunoscut şi valoarea căruia trebuie estimată
ı̂n baza selecţiei. Având selecţia, calculăm statistica
e = Θ(x
Θ e 1 , x2 , . . . , xn ).
Mărimea Θ e este o variabilă aleatoare a cărei lege de repartiţie depinde de

legea de repatiţie a populaţiei de referinţă şi de volumul selecţiei.
Pentru ca o estimaţie Θ e a parametrului Θ să fie de bună calitate,
estimaţia trebuie să fie nedeplasată, consistentă şi eficientă.
Se spune că statistica Θe este estimaţie nedeplasată a parametrului
Θ dacă media sa este egală cu valoarea parametrului Θ, adică
e = Θ.
M (Θ) (1.50)
e converge ı̂n probabilitate către valoarea parametrului
Dacă statistica Θ
Θ, adică
p
e −−−−→Θ,
Θ (1.51)
e este o estimaţie consistentă a parametrului Θ.
atunci se spune că Θ
n→∞
O estimaţie nedeplasată Θe se numeşte eficientă dacă D(Θ)
e −−−−→0,
unde n – volumul selecţiei, adică
e = 0.
lim Dn (Θ) (1.52)
n→∞
49
1.13.3 Proprietăţile estimaţiilor de selecţie
Se demonstrează că media de selecţie
n
1X
xs = xi
n i=1
este o estimaţie nedeplasată şi consistentă pentru valoarea medie (speran-

ţa matematică) M (X) a populaţiei statistice.
Dispersia de selecţie
n
1X
Ds = (xi − xs )2
n i=1
este o estimaţie consistentă dar deplasată pentru dispersia D(X) a po-

pulaţiei statistice. Ţinând cont de acest fapt, ı̂n calitate de estimaţie a
dispersiei se ia mărimea
n
n 1 X
Ds = (xi − xs )2 , (1.53)
n−1 n − 1 i=1
numită dispersie modificată de selecţie (se notează prin S 2 ). Disper-

sia modificată de selecţie S 2 este o estimaţie nedeplasată şi consistentă
pentru dispersia populaţiei statistice D(X).
Abaterea medie pătratică modificată
v
u n
√ u 1 X
S = S2 = t (xi − xs )2 (1.54)
n − 1 i=1
este estimaţia abaterii medii pătratice a populaţiei statistice.

De menţionat este faptul că pentru n > 30, diferenţa dintre Ds şi S 2
(adică dintre σs şi S) devine nesemnificativă.
W
Frecvenţa relativă este estimaţie nedeplasată şi consistentă pentru
n
probabilitatea P (X = xi ), iar funcţia empirică de repartiţie F ∗ (x) este
estimaţie pentru funcţia de repartiţie F (x) = P (X < x).
1.13.4 Verificarea ipotezelor statistice

La rezolvarea problemelor din domeniul economiei deseori se cere de-
terminarea legii de repartiţie a unei anumite colectivităţi (populaţii) sta-
tistice. Dacă legea de repartiţie nu este cunoscută, dar se presupune că
50
această lege este de careva tip (să zicem de tipul E), atunci se lansează
ipoteza: colectivitatea statistică X are repartiţia E. Spre exemplu, se
poate emite presupunerea că venitul populaţiei (care este o variabilă
aleatoare) are repartiţie normală.
Sunt situaţii ı̂n care legea de repartiţie este cunoscută, ı̂nsă parametrii
ei nu se ştiu. Dacă există temei să se presupună că parametrul necunoscut
Θ este egal cu valoarea sperată Θ0 , atunci se emite ipoteza: Θ = Θ0 . De
exemplu, se poate face presupunerea cu privire la valoarea venitului mediu
al populaţiei sau cu privire la dispersia ı̂n venituri.
Ipoteza cu privire la tipul legii de repartiţie se numeşte ipoteză statis-
tică neparametrică. Ipoteza cu privire la parametrii unei legi de repar-
tiţie cunoscute se numeşte ipoteză statistică parametrică.
Ipoteza H0 supusă verificării se numeşte ipoteză nulă. Totodată, se
examinează şi ipoteza H1 , numită ipoteză alternativă, care este con-
trară ipotezei nule. De exemplu, se verifică ipoteza că parametrul Θ ia
valoarea Θ0 , adică H0 : Θ = Θ0 . În acest caz, ı̂n calitate de ipoteze
alternative pot fi următoarele:
H11 : Θ 6= Θ0 , H12 : Θ > Θ0 , H13 : Θ < Θ0 , H14 : Θ = Θ1 (Θ1 6= Θ0 ).
O ipoteză se numeşte simplă dacă ea conţine doar o singură ipoteză

alternativă (de exemplu H0 : Θ = Θ0 , H14 : Θ = Θ1 ). Ipoteza se numeşte
compusă dacă ea constă din mai multe ipoteze simple (de exemplu H11 :
Θ 6= Θ0 , H12 : Θ > Θ0 , H13 : Θ < Θ0 ).
Esenţa verificării unei ipoteze statistice constă ı̂n următoarele. Din
colectivitatea examinată se extrage un eşantion (se formează o selecţie)
en (x1 , x2 , . . . , xn ) a aces-
X1 , X2 , . . . , Xn şi se calculează o caracteristică x
tuia, numită statistică (statistica de selecţie). După aceasta, având legea
de repartiţie a selecţiei se stabileşte o valoare, numită valoare critică xcr ,
astfel ı̂ncât dacă ipoteza H0 este adevărată (adică statistica xcr este ı̂n
concordanţă cu ipoteza H0 ), atunci este adevărată egalitatea
P (e
xn > xcr ) = α,
unde α – un număr foarte mic. Adică, ı̂n condiţiile problemei examinate

evenimentul xen > xcr poate fi considerat (cu anumită doză de risc) practic
en > xcr ,
imposibil. Prin urmare, dacă ı̂n cazul studiat se stabileşte că x
atunci ipoteza H0 se respinge ı̂n favoarea ipotezei alternative. Dacă ı̂nsă
en < xcr , atunci ipoteza nulă H0 se acceptă.
x
Procedura (regula) de verificare a unei ipoteze statistice se numeşte
criteriu sau test statistic.
51
O ipoteză poate fi verificată ı̂n baza oricărei statistici care posedă orice
tip de repartiţie. Sunt câteva cazuri, considerate principale, cu următoa-
rele statistici de selecţie: valoarea medie, cota-parte şi dispersia care ur-
mează, sau repartiţie normală, sau repartiţie Student (t), sau repartiţie
Fisher, sau repartiţie χ2 .
Astfel, mulţimea tuturor valorilor posibile ale statisticii x en se divizează
de către valoarea xcr ı̂n două submulţimi care nu se intersectează: submul-
ţimea de valori pentru care ipoteza H0 se respinge, aceasta fiind numită
regiune (sau zonă) de respingere (regiune critică), şi submulţimea de valori
admisibile care conduc la tolerarea ipotezei nule. Dacă valoarea statisticii
en obţinută din selecţie nimereşte ı̂n zona de respingere, atunci ipoteza
x
nulă H0 se respinge ı̂n favoarea ipotezei alternative.
La testarea ipotezelor statistice pot fi comise două tipuri de erori
Ipoteza H0 Nu se respinge Se respinge
Adevărată Decizie corectă Eroare de tipul ı̂ntâi
Falsă Eroare de tipul doi Decizie corectă
Eroarea de tipul ı̂ntâi – se respinge ipoteza nulă H0 când aceasta
este adevărată.
Eroarea de tipul doi – nu se respinge ipoteza nulă H0 când aceasta
este falsă.
Probabilitatea de a comite o eroare de tipul ı̂ntâi se notează prin α şi
se numeşte nivel sau prag de semnificaţie.
Probabilitatea de a comite o eroare de tipul doi se notează prin β (nu
se respinge ipoteza nulă H0 când aceasta este falsă). Prin urmare, proba-
bilitatea de a nu comite eroare de tipul doi este 1−β şi aceasta se numeşte
puterea testului.
Valorile nivelului de semnificaţie α se fixează apriori şi, de regulă, se
aplică una din mărimile 0, 1; 0, 05; 0, 01. Astfel, dacă α = 0, 05, atunci
eroarea de tipul ı̂ntâi nu trebuie comisă mai mult decât ı̂n 5 cazuri din
100.
1.13.5 Teste pentru verificarea ipotezelor statistice

După cum s-a menţionat, o ipoteză statistică se verifică având la dispo-
ziţie datele unei selecţii. Din ea se formează o variabilă aleatoare (numită
statistică sau criteriu) şi se află valoarea exactă sau aproximativă a aces-
teia. Ea se notează: cu U (sau Z), dacă are o repartiţie normală normată;
cu T , dacă are repartiţie Student; cu χ2 , dacă are repartiţie χ2 ; cu F , dacă
are o repartiţie Fisher.
52
Pentru a lua un caz general, vom nota această variabilă aleatoare prin
V.
Numim criteriu statistic o variabilă aleatoare V care serveşte pentru
verificarea ipotezei nule H0 . După alegerea variabilei V , mulţimea tutu-
ror valorilor posibile ale ei se divizează ı̂n două submulţimi – regiunea
(submulţimea) de respingere a ipotezei nule şi regiunea (submulţimea) de
tolerare a ipotezei H0 . Dacă valoarea criteriului V calculată din selecţie
aparţine regiunii critice, atunci ipoteza nulă H0 se respinge ı̂n favoarea
ipotezei alternative; dacă valoarea de selecţie a criteriului V aparţine re-
giunii de tolerare a ipotezei H0 , atunci aceasta nu se respinge.
Punctele de frontieră dintre aceste 2 regiuni se numesc puncte critice.
Să vedem cum se determină punctele critice. Admitem că densitatea
de probabilitate a variabilei aleatoare V ı̂n cazul când ipoteza H0 este
adevărată se dă prin funcţia f (v/H0 ), iar valoarea medie pentru V este v0 .
Atunci probabilitatea că variabila aleatoare V ia valori doar pe intervalul
arbitrar −vα/2 ; vα/2 poate fi determinată prin formula
vα/2
Z
P (−vα/2 < V < vα/2 ) = f (v/H0 )dv.
−vα/2
Ne propunem ca această probabilitate să fie egală cu 1 − α şi calculăm

punctele critice (cuantilele) −vα/2 , vα/2 pentru repartiţia lui V aplicând
următoarele relaţii:
Z
−vα/2
α
P (V ≤ −vα/2 ) = f (v/H0 )dv = ,
2
−∞
Z
+∞
α
P (V ≥ vα/2 ) = f (v/H0 )dv = .
2
vα/2
Prin urmare, avem
P (−vα/2 < V < vα/2 ) = 1 − α,
iar
P ((V ≤ −vα/2 ) ∪ (V ≥ vα/2 )) = α.
Luăm o valoare suficient de mică pentru probabilitatea α (spre exem-
plu 0,05 sau 0,01) asfel ı̂ncât să putem considera evenimentul ,,variabila
53

aleatoare V va obţine valori situate ı̂n afara intervalului −vα/2 ; vα/2 ”
practic imposibil. În aşa caz, vom putea admite că, dacă ipoteza H0 este
adevărată, atunci la verificarea ei prin intermediul criteriului V şi ı̂n baza
datelor unei selecţii valoarea lui v obţinută din selecţie cu siguranţă ter-
buie să nimerească ı̂n intervalul −vα/2 ; vα/2 . Dacă ı̂nsă această valoare
se află ı̂n afara intervalului menţionat, atunci vom avea tot temeiul să
considerăm că cu probabilitatea de 1 − α ipoteza H0 nu este adevărată.
Reamintim că valorile −vα/2 , vα/2 se numesc puncte critice.
Regiunea critică (Rcr ) (−∞; −vα/2 ) ∪ (vα/2 ; +∞) se numeşte regiune
critică bilaterală şi se determină ı̂n cazurile ı̂n care ipoteza alternativă are
forma H1 : Θ 6= Θ0 .
Figura 1.17 Figura 1.18
Mai menţionăm, ı̂ncă o dată, că

regiunile critice se determină ast-
fel ı̂ncât dacă ipoteza nulă este
adevărată, atunci probabilitatea
de respingere a ipotezei nule tre-
buie să fie cel mult egală cu o
valoare dată pentru α, ı̂n general
mică (de exemplu 5% sau 1%).
Există regiuni critice unilate-
rale (fig. 1.17, 1.19).
Figura 1.19
54

Sisteme de Variabile Aleatoare. Elemente de Statistică

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Sisteme de Variabile Aleatoare. Elemente de Statistică

Încărcat de

Drepturi de autor:

Formate disponibile

Figura 1.14 Figura 1.

are repartiţie numită Fisher-Snedecor cu n şi m grade de libertate.

1.11 Sisteme de variabile aleatoare

Funcţia de repartiţie a variabilei aleatoare bidimensionale se notează

Dacă X şi Y sunt variabile aleatoare independente, atunci

şi F (x, y) = F (x) · F (y).

În mod analog,

Exemplul 1.19. Se dă repartiţia variabilei aleatoare bidimensionale

Scriem repartiţiile separate ale variabilelor X şi Y

Calculăm probabilităţile condiţionate ale variabilei aleatoare X. Con-

Suma acestor probabilităţi trebuie să fie egală cu unu. Într-adevăr:

1.11.2 Covarianţa şi coeficientul de corelaţie

Se stabileşte simplu că

Cov(X, Y ) = M (XY ) − M (X)M (Y ). (1.38)

a) Să se determine repartiţiile marginale ale variabilelor aleatoare X

b) Calculăm coeficientul de corelaţie. Pentru aceasta determinăm ca-

−10 · (−10) · 0, 05 + (−10) · 5 · 0, 25 + (−10) · 10 · 0, 3+

1.12 Legea numerelor mari: noţiuni generale

lim P (|Xn − k| < ε) = 1,

atunci se spune că consecutivitatea de variabile aleatoare X1 , X2 , . . . ,

1.13 Elemente de statistică

1.13.1 Caracteristici numerice de selecţie

Dispersia de selecţie (notată şi V ar(X) sau V (X))

Abaterea medie pătratică (notată şi sX )

Poate fi determinat, de asemenea, coeficientul de variaţie al selecţiei

Mărimea Θ e este o variabilă aleatoare a cărei lege de repartiţie depinde de

este o estimaţie nedeplasată şi consistentă pentru valoarea medie (speran-

este o estimaţie consistentă dar deplasată pentru dispersia D(X) a po-

numită dispersie modificată de selecţie (se notează prin S 2 ). Disper-

este estimaţia abaterii medii pătratice a populaţiei statistice.

1.13.4 Verificarea ipotezelor statistice

H11 : Θ 6= Θ0 , H12 : Θ > Θ0 , H13 : Θ < Θ0 , H14 : Θ = Θ1 (Θ1 6= Θ0 ).

O ipoteză se numeşte simplă dacă ea conţine doar o singură ipoteză

unde α – un număr foarte mic. Adică, ı̂n condiţiile problemei examinate

1.13.5 Teste pentru verificarea ipotezelor statistice

Ne propunem ca această probabilitate să fie egală cu 1 − α şi calculăm

Prin urmare, avem

P (−vα/2 < V < vα/2 ) = 1 − α,

Figura 1.17 Figura 1.18

Mai menţionăm, ı̂ncă o dată, că

S-ar putea să vă placă și