Sunteți pe pagina 1din 18

Figura 1.14 Figura 1.

15
Repartiţia Student se utilizează ı̂n testarea ipotezelor statistice.
4. Repartiţia Fisher-Snedecor (repartiţia F). Fie X1 , X2 , . . . , Xn
şi Y1 , Y2 , . . . , Ym variabile aleatoare independente repartizate normal cu
mediile egale cu zero şi abaterile medii pătratice egale cu unu. În acest
caz, variabila aleatoare
P
n
1 2
Xi2 /n χ (n)
Fn,m = i=1
Pm = n
1 2
Yj2 /m χ (m)
j=1 m

are repartiţie numită Fisher-Snedecor cu n şi m grade de libertate.


Repartiţia Fisher-Snedecor se utilizează ı̂n testarea ipotezelor statistice
privind compararea a două dispersii. Se notează F (ν1 , ν2 ) sau Fν1 ,ν2 , unde
ν1 şi ν2 sunt grade de libertate. Pentru repartiţia F au fost elaborate
tabele.

1.11 Sisteme de variabile aleatoare


1.11.1 Variabile aleatoare vectoriale
Există mulţi indicatori economici care se determină prin câteva vari-
abile aleatoare, acestea formând un sistem. De exemplu, cheltuielile unei
ı̂ntreprinderi se formează din 2 componente – fixe şi variabile; nivelul
de trai al cetăţenilor se caracterizează printr-un şir de mărimi variabile
ş.a.m.d.

35
Valorile unor indicatoari economici determină mărimile altor indica-
tori. Din această cauză, una din problemele centrale ı̂n analiza economică
constă ı̂n identificarea existenţei interdependenţei dintre diferiţi indicatori,
cât şi intensitatea acesteia. De exemplu, relaţia dintre cererea şi preţul la
careva marfă; relaţia dintre inflaţie şi nivelul şomajului etc. Prin urmare,
este vorba despre relaţiile dintre anumite variabile aleatoare.
Dacă X şi Y sunt două variabile aleatoare, atunci cuplul Z = (X; Y )
se numeşte vector aleator bidimensional sau variabila aleatoare bidimen-
sională. În cazul ı̂n care X şi Y sunt variabile aleatoare discrete cu numere
finite de valori posibile, adică X = (x1 , x2 , . . . , xn ) şi p = (p1 , p2 , . . . , pn ) –
probabilităţile respective, iar Y = (y1 , y2 , . . . , ym ) şi p′ = (p′1 , p′2 , . . . , p′m ),
atunci Z=(X;Y) este tot o variabilă aleatoare discretă determinată de
perechile ordonate (xi ; yj ), i = 1; n, j = 1, m şi probabilităţile
pij = P [(X = xi ) · (Y = yj )].
În situaţia aceasta, variabila aleatoare Z = (X; Y ) poate fi reprezen-
tată printr-un tabel de forma celui ce urmează.
Tabelul 1.1
 Y
y1 y2 ... yj ... ym P (X= xi )
X
P
m
x1 p11 p12 ... p1j ... p1m p1 = p1j
j=1
Pm
x2 p21 p22 ... p2j ... p2m p2 = p2j
j=1
... ... ... ... ... ... ... ...
P
m
xi pi1 pi2 ... pij ... pim pi = pij
j=1
... ... ... ... ... ... ... ...
Pm
xn pn1 pn2 ... pnj ... pnm pn = pnj
j=1
P ′ (Y = yj ) p′1 = p′2 = ... p′j = ... p′m = 1
Pn Pn Pn Pn
pi1 pi2 pij pim
i=1 i=1 i=1 i=1

Funcţia de repartiţie a variabilei aleatoare bidimensionale se notează


prin simbolul F (x, y) şi se defineşte prin relaţia
F (x, y) = P (X < x, Y < y), (1.30)
adică F(x,y) este probabilitatea apariţiei evenimentului (X < x, Y < y).
Tabelul prezentat mai sus se numeşte repartiţia variabilei aleatoare (X; Y ).

36
Având tabelul repartiţiei variabilei Z = (X; Y ), putem determina repar-
tiţia fiecărei componente X şi Y . Probabilităţile obţinute pentru compo-
nentele lui X şi Y se numesc probabilităţi marginale sau probabilităţi
P
m Pn
limită. Astfel, P (X = xi ) = pij şi P (Y = yj ) = pij .
j=1 i=1
Pentru vectorul aleator se defineşte noţiunea de probabilităţi condi-
ţionate ı̂n mod analog cu această noţiune definită pentru evenimentele
aleatoare. Astfel, vom numi probabilitate condiţionată a variabilei alea-
toare X, cu condiţia că variabila aleatoare Y obţine o anumită valoare yj
(adică Y = yj ), mărimea

P [(X = xi ) · (Y = yj )] pij
PY =yj (X = xi ) = = ′ . (1.31)
P (Y = yj ) pj
P
n
Suma tuturor probabilităţilor condiţionate, adică PY =yj (X = xi ),
i=1
trebuie să fie egală cu unu.
Din relaţia (1.31) obţinem

P [(X = xi ) · (Y = yj )] = P (X = xi ) · PX=xi (Y = yj ) =
P (Y = yj ) · PY =yj (X = xi ). (1.32)

Dacă X şi Y sunt variabile aleatoare independente, atunci

P [(X = xi ) · (Y = yj )] = P (X = xi ) · P (Y = yj ) (1.33)

şi F (x, y) = F (x) · F (y).


Suma produselor valorilor posibile ale lui X cu probabilităţile condi-
ţionate ale acestora se numeşte valoare medie condiţionată a variabilei
aleatoare X atunci când Y = yj .
n
X n
X
MY =yj (X) = xi PY =yj (xi ) sau My (X) = xi Py (xi ). (1.34)
i=1 i=1

În mod analog,


m
X m
X
MX=xi (Y ) = yj PX=xi (yj ) sau Mx (Y ) = yj Px (yj ). (1.35)
j=1 j=1

Exemplul 1.19. Se dă repartiţia variabilei aleatoare bidimensionale


(X,Y).

37
Tabelul 1.2
 Y
3 5 P (X= xi )
X
2 0, 10 0, 06 0, 16
3 0, 30 0, 18 0, 48
4 0, 20 0, 16 0, 36
P (Y = yj ) 0, 6 0, 4 1
Să se determine:
a) repartiţiile separate ale fiecărei variabile aleatoare X şi Y ;
b) probabilităţile condiţionate ale variabilei aleatoare X;
c) valorile medii condiţionate ale variabilei aleatoare X.
Rezolvare. Conform celor menţionate mai sus, avem:
2
X
P (X = x1 ) = P (X = 2) = p1j = 0, 10 + 0, 06 = 0, 16;
j=1
2
X
P (X = x2 ) = P (X = 3) = p2j = 0, 30 + 0, 18 = 0, 48;
j=1
2
X
P (X = x3 ) = P (X = 4) = p3j = 0, 20 + 0, 16 = 0, 36;
j=1
3
X
P (Y = y1 ) = P (Y = 3) = pi1 = 0, 10 + 0, 30 + 0, 20 = 0, 6;
i=1
3
X
P (Y = y2 ) = P (Y = 5) = pi2 = 0, 06 + 0, 18 + 0, 16 = 0, 4.
i=1

Scriem repartiţiile separate ale variabilelor X şi Y

X 2 3 4 Y 3 4
P 0, 16 0, 48 0, 35 P′ 0, 6 0, 4

Calculăm probabilităţile condiţionate ale variabilei aleatoare X. Con-


form formulei (1.31), avem:
P [(X = 2) · (Y = 3)] 0, 1 1
PY =3 (X = 2) = = = ;
P (Y = 3) 0, 6 6
P [(X = 3) · (Y = 3)] 0, 3
PY =3 (X = 3) = = = 0, 5;
P (Y = 3) 0, 6

38
P [(X = 4) · (Y = 3)] 0, 2 1
PY =3 (X = 4) = = = .
P (Y = 3) 0, 6 3

Suma acestor probabilităţi trebuie să fie egală cu unu. Într-adevăr:


1 1
+ 0, 5 + = 1.
6 3
În mod analog găsim: PY =5 (X = 2) = 0, 15; PY =5 (X = 3) = 0, 45;
PY =5 (X = 4) = 0, 40; şi 0, 15 + 0, 45 + 0, 40 = 1.
Calculăm valorile medii condiţionate ale variabilei aleatoare X apli-
când relaţia (1.35).
3
X
MY =3 (X) = xi PY =3 (xi ) = x1 PY =3 (x1 ) + x2 PY =3 (x2 )+
i=1
x3 PY =3 (x3 ) = 2 · 0, 167 + 3 · 0, 5 + 4 · 0, 333 = 3, 166;
3
X
MY =5 (X) = xi PY =5 (xi ) = x1 PY =5 (x1 ) + x2 PY =5 (x2 )+
i=1
x3 PY =5 (x3 ) = 2 · 0, 15 + 3 · 0, 45 + 4 · 0, 4 = 3, 25. #

Figura 1.16
Din relaţia (1.35) observăm că valoriile medii condiţionate MX=xi (Y )
(se mai notează M (Y /x)) constituie o funcţie de x. Această funcţie se nu-
meşte funcţie de regresie a lui Y ı̂n raport cu X (se mai spune Y ajustat
cu X) şi se notează prin ϕ(x), adică
ϕ(x) = M (Y /x). (1.36)

39
Vectorul aleator (X; Y ) poate fi reprezentat geometric printr-un câmp
de puncte situate ı̂n planul xOy. Pentru o valoare concretă X = xi , mă-
rimea Y este variabilă aleatoare cu careva repartiţie şi valoarea ei medie
este, de fapt, valoarea medie condiţionată M (Y /xi ). Dacă vom lua mai
multe valori pentru x şi vom calcula pentru fiecare din ele mediile condi-
ţionate M (Y /x), atunci, unind punctele (x; M (Y /x)), vom obţine o linie
numită linie sau curbă de regresie a lui Y ı̂n raport cu X.
În mod analog poate fi construită şi curba de regresie a lui X ı̂n raport
cu Y .
Astfel, observăm că particularitatea legăturii dintre variabilele alea-
toare X şi Y constă ı̂n faptul că unei valori ale lui X ı̂i corespunde o
repartiţie de valori a variabilei aleatoare Y , adică pentru diferite valori
ale lui X avem diferite repartiţii ale lui Y . Funcţia de regresie reprezintă
dependenţa dintre valorile variabilei aleatoare X şi media condiţionată a
variabilei aleatoare Y .

1.11.2 Covarianţa şi coeficientul de corelaţie


Considerăm două variabile aleatoare X şi Y . Admitem că ı̂ntre ele
există o legătură statistică (stocastică), adică unei valori xi ı̂i corespunde
o repartiţie de valori ale lui Y . Fie, de asemenea, se cunoaşte funcţia
(linia) de regresie a lui Y ı̂n raport cu X.
Următoarea problemă care se cere rezolvată este problema corelaţiei.
Ea are ca scop să caracterizeze cantitativ intensitatea legăturii dintre
X şi Y , adică să determine gradul de concentrare al valorilor lui Y ı̂n
vecinătatea liniei de regresie. Pentru aceasta se calculează covarianţa şi
coeficientul de corelaţie.
Se numeşte covarianţă a variabilelor aleatoare discrete X şi Y va-
loarea medie a produselor abaterilor acestor variabile de la mediile sale,
adică
Cov(X, Y ) = M [(X − M (X))(Y − M (Y ))] (1.37)
sau
n X
X m
Cov(X, Y ) = [xi − M (X)][yj − M (Y )]pij .
i=1 j=1

Se stabileşte simplu că

Cov(X, Y ) = M (XY ) − M (X)M (Y ). (1.38)

Observăm că:

40
a) Cov(X, X) = M (X 2 ) − [M (X)]2 = D(X);
b) Cov(aX, bY ) = abCov(X, Y ), a şi b – numere reale;
c) Cov(X, Y ) = Cov(Y, X);
d) Cov(X, Y ) = 0, dacă X şi Y sunt variabile aleatoare independente.
Covarianţa depinde de unităţile ı̂n care se măsoară variabilele aleatoare
X şi Y , ceea ce constituie o incomoditate ı̂n utilizarea covarianţei. Pentru
a ı̂nlătura acest neajuns se calculează coeficientul de corelaţie ρXY , care
nu depinde de unităţile ı̂n care se măsoară X şi Y .
Cov(X, Y )
ρXY = . (1.39)
σX σY
Variabilele X şi Y pentru care ρXY = 0 se numesc necorelate. Dacă
ı̂nsă ρXY 6= 0, se spune că X şi Y sunt corelate.
Coeficientul de corelaţie are următoarele proprietăţi:
a) Dacă X şi Y sunt independente, atunci ρXY = 0, adică ı̂n acest
caz X şi Y sunt necorelate. Afirmaţia reciprocă nu este ı̂ntotdeauna
adevărată.
b) −1 ≤ ρXY ≤ 1.
În practică, se consideră că, dacă
0 ≤ |ρXY | < 0, 2, nu există o legătură semnificativă;
0, 2 ≤ |ρXY | < 0, 5, există o legătură slabă;
0, 5 ≤ |ρXY | < 0, 75, există o legătură de intensitate medie;
0, 75 ≤ |ρXY | < 0, 95, există o legătură puternică;
0, 95 ≤ |ρXY | < 1, putem considera că există o legătură funcţională.
Exemplul 1.20. Pe parcursul a câtorva ani, s-au facut investiţii ı̂n
două ramuri ale economiei. Dividendele obţinute (ı̂n procente) din aceste
investiţii constituie variabila aleatoare bidimensională (X, Y ) cu repartiţia
prezentată ı̂n următorul tabel.
Tabelul 1.3
 Y
−10 5 10 P (X= xi )
X
−10 0, 05 0, 25 0, 30 0, 6
20 0, 15 0, 20 0, 05 0, 4
P (Y = yj ) 0, 20 0, 45 0, 35 1

a) Să se determine repartiţiile marginale ale variabilelor aleatoare X


şi Y ;

41
b) Să se calculeze coeficientul de corelaţie dintre X şi Y ; să se sta-
bilească existenţa dependenţei dintre ele;
c) Se examinează două variante de investiţii – să se plaseze bani doar
ı̂n una din ramurile economiei sau ı̂n ambele ramuri ı̂n proporţii egale; să
se stabilească care din variante este mai puţin riscantă.
Rezolvare. a) Repartiţiile marginale sunt prezentate ı̂n tabel. Astfel
avem:

X −10 20 Y −10 5 10
P 0, 6 0, 4 P′ 0, 20 0, 45 0, 35

b) Calculăm coeficientul de corelaţie. Pentru aceasta determinăm ca-


racteristicile numerice ale variabilelor aleatoare X şi Y .

M (X) = −10 · 0, 6 + 20 · 0, 4 = 2;
M (Y ) = −10 · 0, 2 + 5 · 0, 45 + 10 · 0, 35 = 3, 25;
D(X) = M (X 2 ) − [M (X)]2 = 100 · 0, 6 + 400 · 0, 4 − 4 = 216;
D(Y ) = 100 · 0, 2 + 25 · 0, 45 + 100 · 0, 35 − 3, 252 = 55, 6875;
√ p
σ(X) = 216 = 14, 7; σ(Y ) = 55, 6875 = 7, 46;
2 X
X 3
Cov(X, Y ) = xi yj pij − M (X) · M (Y ) =
i=1 j=1

−10 · (−10) · 0, 05 + (−10) · 5 · 0, 25 + (−10) · 10 · 0, 3+


20 · (−10) · 0, 15 + 20 · 5 · 0, 2 + 20 · 10 · 0, 05 − 2 · 3, 25 = −44.

Astfel,
−44
ρXY = ≈ −0, 4.
14, 7 · 7, 46
Prin urmare, ı̂ntre variabilele X şi Y există o legătură liniară slabă
negativă.
Verificăm acum condiţia de independenţă. În cazul când X şi Y sunt
independente, se verifică relaţia P (x, y) = P (x) · P (y). În problema
prezentată avem, de exemplu, P (X = 20, Y = 5) = 0, 20, iar

P (X = 20) · P (Y = 5) = 0, 4 · 0, 45 = 0, 18,

adică
P (X = 20, Y = 5) 6= P (X = 20) · P (Y = 5).

42
Prin urmare, X şi Y nu sunt variabile aleatoare independente.
c) Riscul plasării banilor ı̂n careva ramură se caracterizează prin gradul
de ı̂mprăştiere a dividendelor, adică prin dispersiile variabilelor aleatoare.
Observăm că D(X) = 216, iar D(Y ) = 55, 6875, adică D(X) > D(Y ).
Prin urmare, este mai riscant să se investească ı̂n prima ramură decât ı̂n
cea de-a doua.
Notăm prin Z variabila aleatoare care exprimă dividendele obţinute de
la investiţiile ı̂n ambele ramuri ı̂n raport de 50:50, adică Z = 0, 5X +0, 5Y ,
şi calculăm caracteristicile numerice ale lui Z.
M (Z) = M (0, 5X + 0, 5Y ) = 0, 5M (X + Y ) = 0, 5(2 + 3, 25) = 2, 625;
D(Z) = D(0, 5X + 0, 5Y ) = 0, 25[D(X) + D(Y ) + 2ρXY σ(X)σ(Y )] =
0, 25[216 + 55, 6875 + 2 · (−0, 4) · 14, 7 · 7, 46] ≈ 45, 989.
Observăm că D(Z) < D(Y ). Prin urmare, există temei să credem că
investiţiile ı̂n ambele ramuri ı̂n proporţii egale ar fi varianta cea mai puţin
riscantă din cele 3 variante examinate. #

1.12 Legea numerelor mari: noţiuni generale


Este bine cunoscut faptul că legile sociale şi economice se manifestă
ca legi statistice. Punerea ı̂n evidenţă a unei concluzii (legităţi) de ordin
statistic se realizează, de regulă, doar după cercetarea unui număr suficient
de mare de cazuri individuale, astfel ı̂ncât să fie ı̂ndeplinite condiţiile aşa-
numitei legi a numerelor mari. Acestea se exprimă prin faptul că
rezultatul mediu al acţiunii unui număr mare de variabile aleatoare in-
dependente nu mai este şi el aleator şi poate fi pronosticat (prezis) cu o
precizie bine determinată.
Prin legea numerelor mari se exprimă una din proprietăţile vari-
abilelor aleatoare şi, ı̂ntr-un sens mai restrâns, se are ı̂n vedere un set
de teoreme prin care se demonstrează următoarele: caracteristicele medii
ale unei mulţimi de variabile aleatoare independente tind către mărimi
constante.
Teoreme importante din legea numerelor mari se demonstrează uti-
lizând inegalitatea Cebâşev.
Fie X – variabilă aleatoare cu media M (X) şi dispersia D(X); pentru
orice număr ε > 0, probabilitatea că abaterea lui X de la media sa M (X)
nu depăşeşte ε se determină prin relaţia
D(X)
P (|X − M (X)| ≤ ε) > 1 − , (1.40)
ε2

43
Dacă pentru n → ∞ şi orice număr ε > 0 există limita consecutivităţii
{pn } şi această limită este egală cu 1, adică

lim P (|Xn − k| < ε) = 1,


n→∞

atunci se spune că consecutivitatea de variabile aleatoare X1 , X2 , . . . ,


Xn , . . . converge ı̂n probabilitate către constanta k.
Se scrie
p prin probabilitate
Xn −→k sau Xn −−−−−−−−−−−−−→k. (1.42)
Ţinând cont de noţiunea de convergenţă ı̂n probabilitate, teorema Ber-
noulli se formulează ı̂n felul următor:
Wn
Fie – frecvenţa relativă a evenimentului A ı̂n n experimente in-
n
dependente, iar p – probabilitatea lui A ı̂n fiecare experiment. Atunci
Wn p Wn prin probabilitate
−→p sau −−−−−−−−−−−−−→p. (1.43)
n n
Astfel, prin legea numerelor mari (formularea clasică dată de Bernoulli)
se afirmă că frecvenţa relativă de apariţie a unui eveniment converge ı̂n
probabilitate către probabilitatea acelui eveniment.

1.13 Elemente de statistică


Statistica este o colecţie de metode utilizate pentru a acumula date
numerice din observaţii şi investigaţii ştiinţifice, cât şi pentru a descrie şi
analiza datele obţinute.
Obiectul de studiu al statisticii ı̂l constituie fenomenele de masă care
au proprietatea de a fi variabile ı̂n timp şi ı̂n spaţiu (sau şi ı̂n timp, şi
ı̂n spaţiu). Fenomenele de masă se produc, de regulă, sub influenţa mai
multor factori de tip stocastic (aleatoriu) şi au la bază anumite legi, numite
legi statistice. Aceste legi se prezintă ı̂n formă de tendinţe predominante
ı̂n masa fenomenelor.
Mulţimea tuturor elementelor (obiectelor, indivizilor) de aceeaşi na-
tură ce posedă caracteristici comune care pot fi supuse observaţiilor şi
măsurărilor se numeşte populaţie statistică sau colectivitate statistică.
O populaţie statistică constă din unităţi sau elemente statistice şi este
o mulţime numărabilă (locuitorii unui oraş sau regiuni, salariile unei cate-
gorii de funcţionari etc.); caracteristica statistică (sau criteriul statistic)
constituie proprietatea comună tuturor elementelor populaţiei (cheltuielile
pentru alimentare ale fiecărui locuitor, cheltuielile pentru transport etc.).

46
Fenomenele din economie şi societate adesea sunt prea numeroase şi
prea complexe pentru a realiza o observare şi analiză pe ı̂ntreaga populaţie
statistică. De aceea s-a ajuns la ideea examinării numai a unei părţi
din populaţia statistică, această parte fiind numită selecţie sau eşantion
(sondaj). Astfel, din populaţia statistică se extrage un eşantion (există
anumite reguli şi procedee pentru formarea unui eşantion), se calculează
indicatorii care caracterizează eşantionul şi apoi rezultatele obţinute se
extind pentru ı̂ntreaga populaţie. Procedeul de obţinere a datelor privind
ı̂ntreaga populaţie, pornind de la un eşantion, se numeşte inferenţă statis-
tică. Prin aceasta se presupune că rezultatele obţinute pentru selecţie sunt
caracteristice şi pentru ı̂ntreaga populaţie. Inferenţa statistică se bazează
pe principiile teoriei probabilităţilor.

1.13.1 Caracteristici numerice de selecţie


Admitem că se examinează o anumită caracteristică X pentru o po-
pulaţie statistică formată din N elemente (de volum N ). Din această
populaţie se formează o selecţie care conţine n elemente (de volum n).
Fie caracteristica X obţine valorile x1 , x2 , . . . , xn care pot fi aranjate ı̂n
ordine crescătoare (nedescrescătoare) x1 ≤ x2 ≤ x3 ≤ . . . ≤ xn . Fie, de
asemenea, x1 , x2 , . . . , xk (k ≤ n) sunt valorile diferite dintre ele, adică
x1 < x2 < . . . < xk . Mărimile xi , i = 1, k, se numesc variante.
Dacă varianta xi se ı̂ntâlneşte ı̂n selecţie de ni ori, atunci numărul
ni
ni se numeşte frecvenţa variantei xi , iar – frecvenţă relativă a acestei
n
variante. Putem alcătui următorul tabel pentru selecţia dată (tabelul
formează aşa-numita serie statistică).
Tabelul 1.4
X x1 x2 ... xk
P
k
ni n1 n2 ... nk ni = n
i=1
ni n1 n2 nk Pk n
i
... =1
n n n n i=1 n
Având o serie statistică, poate fi formată funcţia empirică de repartiţie
F ∗ (x) (funcţia de repartiţie a selecţiei).
nx
F ∗ (x) = ,
n
unde nx – numărul de valori ale variabilei aleatoare (caracteristicii) X
mai mici ca x; n – volumul selecţiei.

47
Funcţia F ∗ (x) dispune de următoarele proprietăţi:
1. 0 ≤ F ∗ (x) ≤ 1;
2. Dacă x1 < x2 , atunci F ∗ (x1 ) ≤ F ∗ (x2 );
3. Pentru x ≤ x1 , funcţia F ∗ (x) = 0, iar pentru x > xk , funcţia F ∗ (x) =
1.
În afară de funcţia de repartiţie F ∗ (x) a selecţiei mai pot fi determinate
şi principalele ei caracteristici numerice – media de selecţie, dispersia şi
abaterea medie pătratică de selecţie.
Media de selecţie
n k
1X 1X
xs = xi , respectiv xs = ni xi . (1.44)
n i=1 n i=1

Dispersia de selecţie (notată şi V ar(X) sau V (X))


n k
1X 1X
Ds = (xi −xs )2 ; Ds = x2s −(xs )2 ; Ds = ni (xi −xs )2 . (1.45)
n i=1 n i=1

Abaterea medie pătratică (notată şi sX )


p
σs = Ds . (1.46)

Poate fi determinat, de asemenea, coeficientul de variaţie al selecţiei


σs
Vs = · 100%. (1.47)
xs
Anterior s-a menţionat că, una din modalităţile de stabilire a legăturii
dintre două variabile aleatoare X şi Y poate servi măsura dependenţei
liniare dintre X şi Y , care se exprimă numeric prin covarianţa Cov(X, Y )
şi coeficientul de corelaţie r(X, Y ) (notat şi rX,Y ):
n n
1X 1X
Cov(X, Y ) = (xi − xs )(yi − y s ) = xi yi − xs y s , (1.48)
n i=1 n i=1
1P n
xi yi − xs y s
Cov(X, Y ) n i=1
r(X, Y ) = = q q . (1.49)
sX · sY
x s − (xs ) · y 2 s − (y s )2
2 2

48
1.13.2 Estimarea parametrilor
S-a menţionat că cercetarea parametrilor unei populaţii statistice poa-
te fi realizată doar utilizând selecţii din această populaţie. Apare ı̂ntreba-
rea: se poate oare de acceptat parametrii selecţiei ı̂n calitate de parametri
ai populaţiei? Valorile parametrilor de selecţie sunt variabile aleatoare şi
ele pot să difere de valorile parametrilor populaţiei. Deci valorile para-
metrilor de selecţie sunt doar estimaţii ale parametrilor populaţiei; ı̂nsăşi
parametrii de selecţie se numesc estimatori ai parametrilor populaţiei
statistice.
Estimarea este procesul prin care se determină (printr-un număr
sau printr-un interval) valoarea parametrului populaţiei statistice pe baza
datelor obţinute din selecţiile acestei populaţii.
O estimaţie (un estimator) este funcţie de selecţie, adică este o vari-
abilă aleatoare care poartă numele de statistică. Din mulţimea de statis-
tici trebuie alese acelea care dau cea mai bună aproximaţie a parametrului
examinat.
Fie x1 , x2 , . . . , xn o selecţie dintr-o populaţie cu repartiţia F (x, Θ),
unde Θ este parametrul real necunoscut şi valoarea căruia trebuie estimată
ı̂n baza selecţiei. Având selecţia, calculăm statistica
e = Θ(x
Θ e 1 , x2 , . . . , xn ).

Mărimea Θ e este o variabilă aleatoare a cărei lege de repartiţie depinde de


legea de repatiţie a populaţiei de referinţă şi de volumul selecţiei.
Pentru ca o estimaţie Θ e a parametrului Θ să fie de bună calitate,
estimaţia trebuie să fie nedeplasată, consistentă şi eficientă.
Se spune că statistica Θe este estimaţie nedeplasată a parametrului
Θ dacă media sa este egală cu valoarea parametrului Θ, adică
e = Θ.
M (Θ) (1.50)
e converge ı̂n probabilitate către valoarea parametrului
Dacă statistica Θ
Θ, adică
p
e −−−−→Θ,
Θ (1.51)
e este o estimaţie consistentă a parametrului Θ.
atunci se spune că Θ
n→∞
O estimaţie nedeplasată Θe se numeşte eficientă dacă D(Θ)
e −−−−→0,
unde n – volumul selecţiei, adică
e = 0.
lim Dn (Θ) (1.52)
n→∞

49
1.13.3 Proprietăţile estimaţiilor de selecţie
Se demonstrează că media de selecţie
n
1X
xs = xi
n i=1

este o estimaţie nedeplasată şi consistentă pentru valoarea medie (speran-


ţa matematică) M (X) a populaţiei statistice.
Dispersia de selecţie
n
1X
Ds = (xi − xs )2
n i=1

este o estimaţie consistentă dar deplasată pentru dispersia D(X) a po-


pulaţiei statistice. Ţinând cont de acest fapt, ı̂n calitate de estimaţie a
dispersiei se ia mărimea
n
n 1 X
Ds = (xi − xs )2 , (1.53)
n−1 n − 1 i=1

numită dispersie modificată de selecţie (se notează prin S 2 ). Disper-


sia modificată de selecţie S 2 este o estimaţie nedeplasată şi consistentă
pentru dispersia populaţiei statistice D(X).
Abaterea medie pătratică modificată
v
u n
√ u 1 X
S = S2 = t (xi − xs )2 (1.54)
n − 1 i=1

este estimaţia abaterii medii pătratice a populaţiei statistice.


De menţionat este faptul că pentru n > 30, diferenţa dintre Ds şi S 2
(adică dintre σs şi S) devine nesemnificativă.
W
Frecvenţa relativă este estimaţie nedeplasată şi consistentă pentru
n
probabilitatea P (X = xi ), iar funcţia empirică de repartiţie F ∗ (x) este
estimaţie pentru funcţia de repartiţie F (x) = P (X < x).

1.13.4 Verificarea ipotezelor statistice


La rezolvarea problemelor din domeniul economiei deseori se cere de-
terminarea legii de repartiţie a unei anumite colectivităţi (populaţii) sta-
tistice. Dacă legea de repartiţie nu este cunoscută, dar se presupune că

50
această lege este de careva tip (să zicem de tipul E), atunci se lansează
ipoteza: colectivitatea statistică X are repartiţia E. Spre exemplu, se
poate emite presupunerea că venitul populaţiei (care este o variabilă
aleatoare) are repartiţie normală.
Sunt situaţii ı̂n care legea de repartiţie este cunoscută, ı̂nsă parametrii
ei nu se ştiu. Dacă există temei să se presupună că parametrul necunoscut
Θ este egal cu valoarea sperată Θ0 , atunci se emite ipoteza: Θ = Θ0 . De
exemplu, se poate face presupunerea cu privire la valoarea venitului mediu
al populaţiei sau cu privire la dispersia ı̂n venituri.
Ipoteza cu privire la tipul legii de repartiţie se numeşte ipoteză statis-
tică neparametrică. Ipoteza cu privire la parametrii unei legi de repar-
tiţie cunoscute se numeşte ipoteză statistică parametrică.
Ipoteza H0 supusă verificării se numeşte ipoteză nulă. Totodată, se
examinează şi ipoteza H1 , numită ipoteză alternativă, care este con-
trară ipotezei nule. De exemplu, se verifică ipoteza că parametrul Θ ia
valoarea Θ0 , adică H0 : Θ = Θ0 . În acest caz, ı̂n calitate de ipoteze
alternative pot fi următoarele:

H11 : Θ 6= Θ0 , H12 : Θ > Θ0 , H13 : Θ < Θ0 , H14 : Θ = Θ1 (Θ1 6= Θ0 ).

O ipoteză se numeşte simplă dacă ea conţine doar o singură ipoteză


alternativă (de exemplu H0 : Θ = Θ0 , H14 : Θ = Θ1 ). Ipoteza se numeşte
compusă dacă ea constă din mai multe ipoteze simple (de exemplu H11 :
Θ 6= Θ0 , H12 : Θ > Θ0 , H13 : Θ < Θ0 ).
Esenţa verificării unei ipoteze statistice constă ı̂n următoarele. Din
colectivitatea examinată se extrage un eşantion (se formează o selecţie)
en (x1 , x2 , . . . , xn ) a aces-
X1 , X2 , . . . , Xn şi se calculează o caracteristică x
tuia, numită statistică (statistica de selecţie). După aceasta, având legea
de repartiţie a selecţiei se stabileşte o valoare, numită valoare critică xcr ,
astfel ı̂ncât dacă ipoteza H0 este adevărată (adică statistica xcr este ı̂n
concordanţă cu ipoteza H0 ), atunci este adevărată egalitatea

P (e
xn > xcr ) = α,

unde α – un număr foarte mic. Adică, ı̂n condiţiile problemei examinate


evenimentul xen > xcr poate fi considerat (cu anumită doză de risc) practic
en > xcr ,
imposibil. Prin urmare, dacă ı̂n cazul studiat se stabileşte că x
atunci ipoteza H0 se respinge ı̂n favoarea ipotezei alternative. Dacă ı̂nsă
en < xcr , atunci ipoteza nulă H0 se acceptă.
x
Procedura (regula) de verificare a unei ipoteze statistice se numeşte
criteriu sau test statistic.

51
O ipoteză poate fi verificată ı̂n baza oricărei statistici care posedă orice
tip de repartiţie. Sunt câteva cazuri, considerate principale, cu următoa-
rele statistici de selecţie: valoarea medie, cota-parte şi dispersia care ur-
mează, sau repartiţie normală, sau repartiţie Student (t), sau repartiţie
Fisher, sau repartiţie χ2 .
Astfel, mulţimea tuturor valorilor posibile ale statisticii x en se divizează
de către valoarea xcr ı̂n două submulţimi care nu se intersectează: submul-
ţimea de valori pentru care ipoteza H0 se respinge, aceasta fiind numită
regiune (sau zonă) de respingere (regiune critică), şi submulţimea de valori
admisibile care conduc la tolerarea ipotezei nule. Dacă valoarea statisticii
en obţinută din selecţie nimereşte ı̂n zona de respingere, atunci ipoteza
x
nulă H0 se respinge ı̂n favoarea ipotezei alternative.
La testarea ipotezelor statistice pot fi comise două tipuri de erori
Ipoteza H0 Nu se respinge Se respinge
Adevărată Decizie corectă Eroare de tipul ı̂ntâi
Falsă Eroare de tipul doi Decizie corectă
Eroarea de tipul ı̂ntâi – se respinge ipoteza nulă H0 când aceasta
este adevărată.
Eroarea de tipul doi – nu se respinge ipoteza nulă H0 când aceasta
este falsă.
Probabilitatea de a comite o eroare de tipul ı̂ntâi se notează prin α şi
se numeşte nivel sau prag de semnificaţie.
Probabilitatea de a comite o eroare de tipul doi se notează prin β (nu
se respinge ipoteza nulă H0 când aceasta este falsă). Prin urmare, proba-
bilitatea de a nu comite eroare de tipul doi este 1−β şi aceasta se numeşte
puterea testului.
Valorile nivelului de semnificaţie α se fixează apriori şi, de regulă, se
aplică una din mărimile 0, 1; 0, 05; 0, 01. Astfel, dacă α = 0, 05, atunci
eroarea de tipul ı̂ntâi nu trebuie comisă mai mult decât ı̂n 5 cazuri din
100.

1.13.5 Teste pentru verificarea ipotezelor statistice


După cum s-a menţionat, o ipoteză statistică se verifică având la dispo-
ziţie datele unei selecţii. Din ea se formează o variabilă aleatoare (numită
statistică sau criteriu) şi se află valoarea exactă sau aproximativă a aces-
teia. Ea se notează: cu U (sau Z), dacă are o repartiţie normală normată;
cu T , dacă are repartiţie Student; cu χ2 , dacă are repartiţie χ2 ; cu F , dacă
are o repartiţie Fisher.

52
Pentru a lua un caz general, vom nota această variabilă aleatoare prin
V.
Numim criteriu statistic o variabilă aleatoare V care serveşte pentru
verificarea ipotezei nule H0 . După alegerea variabilei V , mulţimea tutu-
ror valorilor posibile ale ei se divizează ı̂n două submulţimi – regiunea
(submulţimea) de respingere a ipotezei nule şi regiunea (submulţimea) de
tolerare a ipotezei H0 . Dacă valoarea criteriului V calculată din selecţie
aparţine regiunii critice, atunci ipoteza nulă H0 se respinge ı̂n favoarea
ipotezei alternative; dacă valoarea de selecţie a criteriului V aparţine re-
giunii de tolerare a ipotezei H0 , atunci aceasta nu se respinge.
Punctele de frontieră dintre aceste 2 regiuni se numesc puncte critice.
Să vedem cum se determină punctele critice. Admitem că densitatea
de probabilitate a variabilei aleatoare V ı̂n cazul când ipoteza H0 este
adevărată se dă prin funcţia f (v/H0 ), iar valoarea medie pentru V este v0 .
Atunci probabilitatea că variabila aleatoare V ia valori doar pe intervalul
arbitrar −vα/2 ; vα/2 poate fi determinată prin formula
vα/2
Z
P (−vα/2 < V < vα/2 ) = f (v/H0 )dv.
−vα/2

Ne propunem ca această probabilitate să fie egală cu 1 − α şi calculăm


punctele critice (cuantilele) −vα/2 , vα/2 pentru repartiţia lui V aplicând
următoarele relaţii:

Z
−vα/2
α
P (V ≤ −vα/2 ) = f (v/H0 )dv = ,
2
−∞
Z
+∞
α
P (V ≥ vα/2 ) = f (v/H0 )dv = .
2
vα/2

Prin urmare, avem

P (−vα/2 < V < vα/2 ) = 1 − α,

iar
P ((V ≤ −vα/2 ) ∪ (V ≥ vα/2 )) = α.
Luăm o valoare suficient de mică pentru probabilitatea α (spre exem-
plu 0,05 sau 0,01) asfel ı̂ncât să putem considera evenimentul ,,variabila

53

aleatoare V va obţine valori situate ı̂n afara intervalului −vα/2 ; vα/2 ”
practic imposibil. În aşa caz, vom putea admite că, dacă ipoteza H0 este
adevărată, atunci la verificarea ei prin intermediul criteriului V şi ı̂n baza
datelor unei selecţii valoarea lui v obţinută din  selecţie cu siguranţă ter-
buie să nimerească ı̂n intervalul −vα/2 ; vα/2 . Dacă ı̂nsă această valoare
se află ı̂n afara intervalului menţionat, atunci vom avea tot temeiul să
considerăm că cu probabilitatea de 1 − α ipoteza H0 nu este adevărată.
Reamintim că valorile −vα/2 , vα/2 se numesc puncte critice.
Regiunea critică (Rcr ) (−∞; −vα/2 ) ∪ (vα/2 ; +∞) se numeşte regiune
critică bilaterală şi se determină ı̂n cazurile ı̂n care ipoteza alternativă are
forma H1 : Θ 6= Θ0 .

Figura 1.17 Figura 1.18

Mai menţionăm, ı̂ncă o dată, că


regiunile critice se determină ast-
fel ı̂ncât dacă ipoteza nulă este
adevărată, atunci probabilitatea
de respingere a ipotezei nule tre-
buie să fie cel mult egală cu o
valoare dată pentru α, ı̂n general
mică (de exemplu 5% sau 1%).
Există regiuni critice unilate-
rale (fig. 1.17, 1.19).

Figura 1.19

54

S-ar putea să vă placă și