Documente Academic
Documente Profesional
Documente Cultură
15
Repartiţia Student se utilizează ı̂n testarea ipotezelor statistice.
4. Repartiţia Fisher-Snedecor (repartiţia F). Fie X1 , X2 , . . . , Xn
şi Y1 , Y2 , . . . , Ym variabile aleatoare independente repartizate normal cu
mediile egale cu zero şi abaterile medii pătratice egale cu unu. În acest
caz, variabila aleatoare
P
n
1 2
Xi2 /n χ (n)
Fn,m = i=1
Pm = n
1 2
Yj2 /m χ (m)
j=1 m
35
Valorile unor indicatoari economici determină mărimile altor indica-
tori. Din această cauză, una din problemele centrale ı̂n analiza economică
constă ı̂n identificarea existenţei interdependenţei dintre diferiţi indicatori,
cât şi intensitatea acesteia. De exemplu, relaţia dintre cererea şi preţul la
careva marfă; relaţia dintre inflaţie şi nivelul şomajului etc. Prin urmare,
este vorba despre relaţiile dintre anumite variabile aleatoare.
Dacă X şi Y sunt două variabile aleatoare, atunci cuplul Z = (X; Y )
se numeşte vector aleator bidimensional sau variabila aleatoare bidimen-
sională. În cazul ı̂n care X şi Y sunt variabile aleatoare discrete cu numere
finite de valori posibile, adică X = (x1 , x2 , . . . , xn ) şi p = (p1 , p2 , . . . , pn ) –
probabilităţile respective, iar Y = (y1 , y2 , . . . , ym ) şi p′ = (p′1 , p′2 , . . . , p′m ),
atunci Z=(X;Y) este tot o variabilă aleatoare discretă determinată de
perechile ordonate (xi ; yj ), i = 1; n, j = 1, m şi probabilităţile
pij = P [(X = xi ) · (Y = yj )].
În situaţia aceasta, variabila aleatoare Z = (X; Y ) poate fi reprezen-
tată printr-un tabel de forma celui ce urmează.
Tabelul 1.1
Y
y1 y2 ... yj ... ym P (X= xi )
X
P
m
x1 p11 p12 ... p1j ... p1m p1 = p1j
j=1
Pm
x2 p21 p22 ... p2j ... p2m p2 = p2j
j=1
... ... ... ... ... ... ... ...
P
m
xi pi1 pi2 ... pij ... pim pi = pij
j=1
... ... ... ... ... ... ... ...
Pm
xn pn1 pn2 ... pnj ... pnm pn = pnj
j=1
P ′ (Y = yj ) p′1 = p′2 = ... p′j = ... p′m = 1
Pn Pn Pn Pn
pi1 pi2 pij pim
i=1 i=1 i=1 i=1
36
Având tabelul repartiţiei variabilei Z = (X; Y ), putem determina repar-
tiţia fiecărei componente X şi Y . Probabilităţile obţinute pentru compo-
nentele lui X şi Y se numesc probabilităţi marginale sau probabilităţi
P
m Pn
limită. Astfel, P (X = xi ) = pij şi P (Y = yj ) = pij .
j=1 i=1
Pentru vectorul aleator se defineşte noţiunea de probabilităţi condi-
ţionate ı̂n mod analog cu această noţiune definită pentru evenimentele
aleatoare. Astfel, vom numi probabilitate condiţionată a variabilei alea-
toare X, cu condiţia că variabila aleatoare Y obţine o anumită valoare yj
(adică Y = yj ), mărimea
P [(X = xi ) · (Y = yj )] pij
PY =yj (X = xi ) = = ′ . (1.31)
P (Y = yj ) pj
P
n
Suma tuturor probabilităţilor condiţionate, adică PY =yj (X = xi ),
i=1
trebuie să fie egală cu unu.
Din relaţia (1.31) obţinem
P [(X = xi ) · (Y = yj )] = P (X = xi ) · PX=xi (Y = yj ) =
P (Y = yj ) · PY =yj (X = xi ). (1.32)
P [(X = xi ) · (Y = yj )] = P (X = xi ) · P (Y = yj ) (1.33)
37
Tabelul 1.2
Y
3 5 P (X= xi )
X
2 0, 10 0, 06 0, 16
3 0, 30 0, 18 0, 48
4 0, 20 0, 16 0, 36
P (Y = yj ) 0, 6 0, 4 1
Să se determine:
a) repartiţiile separate ale fiecărei variabile aleatoare X şi Y ;
b) probabilităţile condiţionate ale variabilei aleatoare X;
c) valorile medii condiţionate ale variabilei aleatoare X.
Rezolvare. Conform celor menţionate mai sus, avem:
2
X
P (X = x1 ) = P (X = 2) = p1j = 0, 10 + 0, 06 = 0, 16;
j=1
2
X
P (X = x2 ) = P (X = 3) = p2j = 0, 30 + 0, 18 = 0, 48;
j=1
2
X
P (X = x3 ) = P (X = 4) = p3j = 0, 20 + 0, 16 = 0, 36;
j=1
3
X
P (Y = y1 ) = P (Y = 3) = pi1 = 0, 10 + 0, 30 + 0, 20 = 0, 6;
i=1
3
X
P (Y = y2 ) = P (Y = 5) = pi2 = 0, 06 + 0, 18 + 0, 16 = 0, 4.
i=1
X 2 3 4 Y 3 4
P 0, 16 0, 48 0, 35 P′ 0, 6 0, 4
38
P [(X = 4) · (Y = 3)] 0, 2 1
PY =3 (X = 4) = = = .
P (Y = 3) 0, 6 3
Figura 1.16
Din relaţia (1.35) observăm că valoriile medii condiţionate MX=xi (Y )
(se mai notează M (Y /x)) constituie o funcţie de x. Această funcţie se nu-
meşte funcţie de regresie a lui Y ı̂n raport cu X (se mai spune Y ajustat
cu X) şi se notează prin ϕ(x), adică
ϕ(x) = M (Y /x). (1.36)
39
Vectorul aleator (X; Y ) poate fi reprezentat geometric printr-un câmp
de puncte situate ı̂n planul xOy. Pentru o valoare concretă X = xi , mă-
rimea Y este variabilă aleatoare cu careva repartiţie şi valoarea ei medie
este, de fapt, valoarea medie condiţionată M (Y /xi ). Dacă vom lua mai
multe valori pentru x şi vom calcula pentru fiecare din ele mediile condi-
ţionate M (Y /x), atunci, unind punctele (x; M (Y /x)), vom obţine o linie
numită linie sau curbă de regresie a lui Y ı̂n raport cu X.
În mod analog poate fi construită şi curba de regresie a lui X ı̂n raport
cu Y .
Astfel, observăm că particularitatea legăturii dintre variabilele alea-
toare X şi Y constă ı̂n faptul că unei valori ale lui X ı̂i corespunde o
repartiţie de valori a variabilei aleatoare Y , adică pentru diferite valori
ale lui X avem diferite repartiţii ale lui Y . Funcţia de regresie reprezintă
dependenţa dintre valorile variabilei aleatoare X şi media condiţionată a
variabilei aleatoare Y .
Observăm că:
40
a) Cov(X, X) = M (X 2 ) − [M (X)]2 = D(X);
b) Cov(aX, bY ) = abCov(X, Y ), a şi b – numere reale;
c) Cov(X, Y ) = Cov(Y, X);
d) Cov(X, Y ) = 0, dacă X şi Y sunt variabile aleatoare independente.
Covarianţa depinde de unităţile ı̂n care se măsoară variabilele aleatoare
X şi Y , ceea ce constituie o incomoditate ı̂n utilizarea covarianţei. Pentru
a ı̂nlătura acest neajuns se calculează coeficientul de corelaţie ρXY , care
nu depinde de unităţile ı̂n care se măsoară X şi Y .
Cov(X, Y )
ρXY = . (1.39)
σX σY
Variabilele X şi Y pentru care ρXY = 0 se numesc necorelate. Dacă
ı̂nsă ρXY 6= 0, se spune că X şi Y sunt corelate.
Coeficientul de corelaţie are următoarele proprietăţi:
a) Dacă X şi Y sunt independente, atunci ρXY = 0, adică ı̂n acest
caz X şi Y sunt necorelate. Afirmaţia reciprocă nu este ı̂ntotdeauna
adevărată.
b) −1 ≤ ρXY ≤ 1.
În practică, se consideră că, dacă
0 ≤ |ρXY | < 0, 2, nu există o legătură semnificativă;
0, 2 ≤ |ρXY | < 0, 5, există o legătură slabă;
0, 5 ≤ |ρXY | < 0, 75, există o legătură de intensitate medie;
0, 75 ≤ |ρXY | < 0, 95, există o legătură puternică;
0, 95 ≤ |ρXY | < 1, putem considera că există o legătură funcţională.
Exemplul 1.20. Pe parcursul a câtorva ani, s-au facut investiţii ı̂n
două ramuri ale economiei. Dividendele obţinute (ı̂n procente) din aceste
investiţii constituie variabila aleatoare bidimensională (X, Y ) cu repartiţia
prezentată ı̂n următorul tabel.
Tabelul 1.3
Y
−10 5 10 P (X= xi )
X
−10 0, 05 0, 25 0, 30 0, 6
20 0, 15 0, 20 0, 05 0, 4
P (Y = yj ) 0, 20 0, 45 0, 35 1
41
b) Să se calculeze coeficientul de corelaţie dintre X şi Y ; să se sta-
bilească existenţa dependenţei dintre ele;
c) Se examinează două variante de investiţii – să se plaseze bani doar
ı̂n una din ramurile economiei sau ı̂n ambele ramuri ı̂n proporţii egale; să
se stabilească care din variante este mai puţin riscantă.
Rezolvare. a) Repartiţiile marginale sunt prezentate ı̂n tabel. Astfel
avem:
X −10 20 Y −10 5 10
P 0, 6 0, 4 P′ 0, 20 0, 45 0, 35
M (X) = −10 · 0, 6 + 20 · 0, 4 = 2;
M (Y ) = −10 · 0, 2 + 5 · 0, 45 + 10 · 0, 35 = 3, 25;
D(X) = M (X 2 ) − [M (X)]2 = 100 · 0, 6 + 400 · 0, 4 − 4 = 216;
D(Y ) = 100 · 0, 2 + 25 · 0, 45 + 100 · 0, 35 − 3, 252 = 55, 6875;
√ p
σ(X) = 216 = 14, 7; σ(Y ) = 55, 6875 = 7, 46;
2 X
X 3
Cov(X, Y ) = xi yj pij − M (X) · M (Y ) =
i=1 j=1
Astfel,
−44
ρXY = ≈ −0, 4.
14, 7 · 7, 46
Prin urmare, ı̂ntre variabilele X şi Y există o legătură liniară slabă
negativă.
Verificăm acum condiţia de independenţă. În cazul când X şi Y sunt
independente, se verifică relaţia P (x, y) = P (x) · P (y). În problema
prezentată avem, de exemplu, P (X = 20, Y = 5) = 0, 20, iar
P (X = 20) · P (Y = 5) = 0, 4 · 0, 45 = 0, 18,
adică
P (X = 20, Y = 5) 6= P (X = 20) · P (Y = 5).
42
Prin urmare, X şi Y nu sunt variabile aleatoare independente.
c) Riscul plasării banilor ı̂n careva ramură se caracterizează prin gradul
de ı̂mprăştiere a dividendelor, adică prin dispersiile variabilelor aleatoare.
Observăm că D(X) = 216, iar D(Y ) = 55, 6875, adică D(X) > D(Y ).
Prin urmare, este mai riscant să se investească ı̂n prima ramură decât ı̂n
cea de-a doua.
Notăm prin Z variabila aleatoare care exprimă dividendele obţinute de
la investiţiile ı̂n ambele ramuri ı̂n raport de 50:50, adică Z = 0, 5X +0, 5Y ,
şi calculăm caracteristicile numerice ale lui Z.
M (Z) = M (0, 5X + 0, 5Y ) = 0, 5M (X + Y ) = 0, 5(2 + 3, 25) = 2, 625;
D(Z) = D(0, 5X + 0, 5Y ) = 0, 25[D(X) + D(Y ) + 2ρXY σ(X)σ(Y )] =
0, 25[216 + 55, 6875 + 2 · (−0, 4) · 14, 7 · 7, 46] ≈ 45, 989.
Observăm că D(Z) < D(Y ). Prin urmare, există temei să credem că
investiţiile ı̂n ambele ramuri ı̂n proporţii egale ar fi varianta cea mai puţin
riscantă din cele 3 variante examinate. #
43
Dacă pentru n → ∞ şi orice număr ε > 0 există limita consecutivităţii
{pn } şi această limită este egală cu 1, adică
46
Fenomenele din economie şi societate adesea sunt prea numeroase şi
prea complexe pentru a realiza o observare şi analiză pe ı̂ntreaga populaţie
statistică. De aceea s-a ajuns la ideea examinării numai a unei părţi
din populaţia statistică, această parte fiind numită selecţie sau eşantion
(sondaj). Astfel, din populaţia statistică se extrage un eşantion (există
anumite reguli şi procedee pentru formarea unui eşantion), se calculează
indicatorii care caracterizează eşantionul şi apoi rezultatele obţinute se
extind pentru ı̂ntreaga populaţie. Procedeul de obţinere a datelor privind
ı̂ntreaga populaţie, pornind de la un eşantion, se numeşte inferenţă statis-
tică. Prin aceasta se presupune că rezultatele obţinute pentru selecţie sunt
caracteristice şi pentru ı̂ntreaga populaţie. Inferenţa statistică se bazează
pe principiile teoriei probabilităţilor.
47
Funcţia F ∗ (x) dispune de următoarele proprietăţi:
1. 0 ≤ F ∗ (x) ≤ 1;
2. Dacă x1 < x2 , atunci F ∗ (x1 ) ≤ F ∗ (x2 );
3. Pentru x ≤ x1 , funcţia F ∗ (x) = 0, iar pentru x > xk , funcţia F ∗ (x) =
1.
În afară de funcţia de repartiţie F ∗ (x) a selecţiei mai pot fi determinate
şi principalele ei caracteristici numerice – media de selecţie, dispersia şi
abaterea medie pătratică de selecţie.
Media de selecţie
n k
1X 1X
xs = xi , respectiv xs = ni xi . (1.44)
n i=1 n i=1
48
1.13.2 Estimarea parametrilor
S-a menţionat că cercetarea parametrilor unei populaţii statistice poa-
te fi realizată doar utilizând selecţii din această populaţie. Apare ı̂ntreba-
rea: se poate oare de acceptat parametrii selecţiei ı̂n calitate de parametri
ai populaţiei? Valorile parametrilor de selecţie sunt variabile aleatoare şi
ele pot să difere de valorile parametrilor populaţiei. Deci valorile para-
metrilor de selecţie sunt doar estimaţii ale parametrilor populaţiei; ı̂nsăşi
parametrii de selecţie se numesc estimatori ai parametrilor populaţiei
statistice.
Estimarea este procesul prin care se determină (printr-un număr
sau printr-un interval) valoarea parametrului populaţiei statistice pe baza
datelor obţinute din selecţiile acestei populaţii.
O estimaţie (un estimator) este funcţie de selecţie, adică este o vari-
abilă aleatoare care poartă numele de statistică. Din mulţimea de statis-
tici trebuie alese acelea care dau cea mai bună aproximaţie a parametrului
examinat.
Fie x1 , x2 , . . . , xn o selecţie dintr-o populaţie cu repartiţia F (x, Θ),
unde Θ este parametrul real necunoscut şi valoarea căruia trebuie estimată
ı̂n baza selecţiei. Având selecţia, calculăm statistica
e = Θ(x
Θ e 1 , x2 , . . . , xn ).
49
1.13.3 Proprietăţile estimaţiilor de selecţie
Se demonstrează că media de selecţie
n
1X
xs = xi
n i=1
50
această lege este de careva tip (să zicem de tipul E), atunci se lansează
ipoteza: colectivitatea statistică X are repartiţia E. Spre exemplu, se
poate emite presupunerea că venitul populaţiei (care este o variabilă
aleatoare) are repartiţie normală.
Sunt situaţii ı̂n care legea de repartiţie este cunoscută, ı̂nsă parametrii
ei nu se ştiu. Dacă există temei să se presupună că parametrul necunoscut
Θ este egal cu valoarea sperată Θ0 , atunci se emite ipoteza: Θ = Θ0 . De
exemplu, se poate face presupunerea cu privire la valoarea venitului mediu
al populaţiei sau cu privire la dispersia ı̂n venituri.
Ipoteza cu privire la tipul legii de repartiţie se numeşte ipoteză statis-
tică neparametrică. Ipoteza cu privire la parametrii unei legi de repar-
tiţie cunoscute se numeşte ipoteză statistică parametrică.
Ipoteza H0 supusă verificării se numeşte ipoteză nulă. Totodată, se
examinează şi ipoteza H1 , numită ipoteză alternativă, care este con-
trară ipotezei nule. De exemplu, se verifică ipoteza că parametrul Θ ia
valoarea Θ0 , adică H0 : Θ = Θ0 . În acest caz, ı̂n calitate de ipoteze
alternative pot fi următoarele:
P (e
xn > xcr ) = α,
51
O ipoteză poate fi verificată ı̂n baza oricărei statistici care posedă orice
tip de repartiţie. Sunt câteva cazuri, considerate principale, cu următoa-
rele statistici de selecţie: valoarea medie, cota-parte şi dispersia care ur-
mează, sau repartiţie normală, sau repartiţie Student (t), sau repartiţie
Fisher, sau repartiţie χ2 .
Astfel, mulţimea tuturor valorilor posibile ale statisticii x en se divizează
de către valoarea xcr ı̂n două submulţimi care nu se intersectează: submul-
ţimea de valori pentru care ipoteza H0 se respinge, aceasta fiind numită
regiune (sau zonă) de respingere (regiune critică), şi submulţimea de valori
admisibile care conduc la tolerarea ipotezei nule. Dacă valoarea statisticii
en obţinută din selecţie nimereşte ı̂n zona de respingere, atunci ipoteza
x
nulă H0 se respinge ı̂n favoarea ipotezei alternative.
La testarea ipotezelor statistice pot fi comise două tipuri de erori
Ipoteza H0 Nu se respinge Se respinge
Adevărată Decizie corectă Eroare de tipul ı̂ntâi
Falsă Eroare de tipul doi Decizie corectă
Eroarea de tipul ı̂ntâi – se respinge ipoteza nulă H0 când aceasta
este adevărată.
Eroarea de tipul doi – nu se respinge ipoteza nulă H0 când aceasta
este falsă.
Probabilitatea de a comite o eroare de tipul ı̂ntâi se notează prin α şi
se numeşte nivel sau prag de semnificaţie.
Probabilitatea de a comite o eroare de tipul doi se notează prin β (nu
se respinge ipoteza nulă H0 când aceasta este falsă). Prin urmare, proba-
bilitatea de a nu comite eroare de tipul doi este 1−β şi aceasta se numeşte
puterea testului.
Valorile nivelului de semnificaţie α se fixează apriori şi, de regulă, se
aplică una din mărimile 0, 1; 0, 05; 0, 01. Astfel, dacă α = 0, 05, atunci
eroarea de tipul ı̂ntâi nu trebuie comisă mai mult decât ı̂n 5 cazuri din
100.
52
Pentru a lua un caz general, vom nota această variabilă aleatoare prin
V.
Numim criteriu statistic o variabilă aleatoare V care serveşte pentru
verificarea ipotezei nule H0 . După alegerea variabilei V , mulţimea tutu-
ror valorilor posibile ale ei se divizează ı̂n două submulţimi – regiunea
(submulţimea) de respingere a ipotezei nule şi regiunea (submulţimea) de
tolerare a ipotezei H0 . Dacă valoarea criteriului V calculată din selecţie
aparţine regiunii critice, atunci ipoteza nulă H0 se respinge ı̂n favoarea
ipotezei alternative; dacă valoarea de selecţie a criteriului V aparţine re-
giunii de tolerare a ipotezei H0 , atunci aceasta nu se respinge.
Punctele de frontieră dintre aceste 2 regiuni se numesc puncte critice.
Să vedem cum se determină punctele critice. Admitem că densitatea
de probabilitate a variabilei aleatoare V ı̂n cazul când ipoteza H0 este
adevărată se dă prin funcţia f (v/H0 ), iar valoarea medie pentru V este v0 .
Atunci probabilitatea că variabila aleatoare V ia valori doar pe intervalul
arbitrar −vα/2 ; vα/2 poate fi determinată prin formula
vα/2
Z
P (−vα/2 < V < vα/2 ) = f (v/H0 )dv.
−vα/2
Z
−vα/2
α
P (V ≤ −vα/2 ) = f (v/H0 )dv = ,
2
−∞
Z
+∞
α
P (V ≥ vα/2 ) = f (v/H0 )dv = .
2
vα/2
iar
P ((V ≤ −vα/2 ) ∪ (V ≥ vα/2 )) = α.
Luăm o valoare suficient de mică pentru probabilitatea α (spre exem-
plu 0,05 sau 0,01) asfel ı̂ncât să putem considera evenimentul ,,variabila
53
aleatoare V va obţine valori situate ı̂n afara intervalului −vα/2 ; vα/2 ”
practic imposibil. În aşa caz, vom putea admite că, dacă ipoteza H0 este
adevărată, atunci la verificarea ei prin intermediul criteriului V şi ı̂n baza
datelor unei selecţii valoarea lui v obţinută din selecţie cu siguranţă ter-
buie să nimerească ı̂n intervalul −vα/2 ; vα/2 . Dacă ı̂nsă această valoare
se află ı̂n afara intervalului menţionat, atunci vom avea tot temeiul să
considerăm că cu probabilitatea de 1 − α ipoteza H0 nu este adevărată.
Reamintim că valorile −vα/2 , vα/2 se numesc puncte critice.
Regiunea critică (Rcr ) (−∞; −vα/2 ) ∪ (vα/2 ; +∞) se numeşte regiune
critică bilaterală şi se determină ı̂n cazurile ı̂n care ipoteza alternativă are
forma H1 : Θ 6= Θ0 .
Figura 1.19
54