Sunteți pe pagina 1din 72

CRISTINA-IOANA FTU

ECONOMETRIE

SUPORT DE CURS










CLUJ-NAPOCA 2010

MINISTERUL EDUCAIEI, CERCETRII, TINERETULUI I SPORTULUI
UNIVERSITATEA CRETIN DIMITRIE CANTEMIR BUCURETI

FACULTATEA DE TIINE ECONOMICE CLUJ-NAPOCA

Str. Teodor Mihali Nr.56, Cluj-Napoca, Jud.Cluj
Tel.+40-264-414751; fax: +040-264-414770

Nr. de nregistrare din Registrul de eviden a prelucrrilor de date cu caracter personal 1919






CRISTINA-IOANA FTU




ECONOMETRIE

SUPORT DE CURS










CLUJ-NAPOCA 2010


MINISTERUL EDUCAIEI, CERCETRII, TINERETULUI I SPORTULUI
UNIVERSITATEA CRETIN DIMITRIE CANTEMIR BUCURETI

FACULTATEA DE TIINE ECONOMICE CLUJ-NAPOCA

Str. Teodor Mihali Nr.56, Cluj-Napoca, Jud.Cluj
Tel.+40-264-414751; fax: +040-264-414770

Nr. de nregistrare din Registrul de eviden a prelucrrilor de date cu caracter personal 1919
P R E F A T

A
Aplicarea instrumentelor statistice la prelucrarea datelor economice are o
istorie secular a. Denumirea si dezvoltarea efectiv a a econometriei ncepe doar
n anul 1930 cnd, la initiativa lui Ragnar Frisch (profesor de economie la Oslo
si laureat al premiului Nobel pentru economie n 1928) si cu sprijinul mate-
maticianului si statisticianului I. Fisher, s-a creat gruparea international a The
Econometric Society care si-a propus s a dezvolte teoriile economice prin inter-
mediul modelelor statistico-matematice.
Se cunoaste c a un model economic reprezint a o form a abstract a de sur-
prindere a realit atii, f acnd leg atura dintre lumea real a, observabil a si spatiul
abstract, form a care se bazeaz a pe concepte specice logicii, matematicii si
economiei. n practic a, n modelele matematice asociate unor probleme eco-
nomice, se ncearc a includerea variabilelor relevante pentru obiectivul propus
iar restul variabilelor (nerelevante) se arunc a n cosul perturbatiilor. O ast-
fel de precizare permite unele distinctii ntre un model economic si un model
econometric.
Astfel, un model econometric are la baz a: o multime de ecuatii ce contin
anumite variabilele ale c aror valori observate pot afectate de anumite erori
(perturbatii) ce sunt variabile aleatoare cu distributii de probabilitate cunoscute.
Metodologia si scopurile econometriei implic a trei aspecte: aspectul de speci-
care (formularea modelelor econometrice), aspectul de inferent a (estimarea si
testarea modelelor econometrice pe baza datelor observate) si aspectul de decizie
(folosirea modelelor econometrice estimate pentru unele predictii (previziuni)).
Prezenta lucrare, Introducere n econometrie (14 lectii) are la baz a, n
principal, lucrarea [2] precum si celelalte lucr ari mentionate la bibliograe. Ea
reprezint a, ntr-o form a concis a, principalele concepte si modele ale econome-
triei, atunci cnd econometria este denit a ca ind: aplicarea metodelor mate-
matice si statistice la analiza datelor economice cu scopul de a da teoriei eco-
nomice un sens empiric care s a permit a vericarea sau inrmarea acestora.
Cluj-Napoca, 8 februarie 2010
C U P R I N S
Prefat a
Capitolul 1
INFEREN TA STATISTIC

A CLASIC

A
Cursul 1
1.1 Teoria selectiei . . . . . . . . . . . . . . . . . . . . . . 1
Cursul 2
1.2 Momentele empirice ale distributiilor statistice . . . . . . . 6
Cursul 3
1.3 Problema estim arii parametrilor . . . . . . . . . . . . . 11
1.4 Estimatori punctuali . . . . . . . . . . . . . . . . . . . 12
Cursul 4
1.5 Estimatori corecti. Estimatori absolut corecti . . . . . . . . 15
Cursul 5
1.6 Ecienta unui estimator . . . . . . . . . . . . . . . . . .20
1.7 Inegalitatea lui Rao -Cramer - Frchet . . . . . . . . . . 22
Capitolul 2
REGRESIA LINIAR

A SIMPL

A (MODEL LINIAR SIMPLU)


Cursul 6
2.1 Functia de regresie. Regresia liniar a simpl a . . . . . . . . . .25
Cursul 7
2.2 Propriet atile estimatorilor b si
b
n cazul regresiei liniare simple . 30
Cursul 8
2.3 Forma matriceal a pentru modelul liniar simplu . . . . . . . 34
Capitolul 3
INFEREN TA STATISTIC

A N REGRESIA LINIAR

A
Cursul 9
3.1 Preciz ari privind distributia normal a . . . . . . . . . . . 38
Cursul 10
3.2 Metoda de estimare prin intervale . . . . . . . . . . . . . 43
Cursul 11
3.3 Distributii de selectie din colectivit ati normale . . . . . . . . 47
3.4 Intervale de ncredere pentru coecientii (parametrii)
si ai regresiei liniare simple. Cazul 1. Interval de ncredere
pentru coecientul de regresie :
2
m arime cunoscut a . . . . . . . 48
Cursul 12
3.5 Cazul 2. Interval de ncredere pentru coecientul de regresie :

2
m arime cunoscut a . . . . . . . . . . . . . . . . . . . . . .52
3.6 Aplicatie. (Intervale de ncredere pentru parametrii si ) . . . 53
Cursul 13
3.7 Interval de ncredere pentru coecientii de regresie.
Cazul:
2
m arime necunoscut a . . . . . . . . . . . . . . . . . .57
3.8 Cazul 3. Interval de ncredere pentru coecientul de regresie
=
0
:
2
m arime necunoscut a . . . . . . . . . . . . . . . . 58
3.9 Aplicatie. Inferenta cu privire la valoarea medie . . . . . . . 59
Capitolul 4
REGRESIA LINIAR

A MULTIPL

A
Cursul 14
4.1 Modelul regresiei multiple . . . . . . . . . . . . . . . . . 62
Bibliograe . . . . . . . . . . . . . . . . . . . . . . . . . 67
E C O N O M E T R I E
Capitolul 1
INFEREN TA STATISTIC

A CLASIC

A
Cursul 1
1.1 Teoria selectiei [1]
Statistica matematic a este o ramur a a matematicii care se ocup a cu
gruparea, analizarea si interpretarea probabilistic a a datelor legate de anumite
fenomene naturale, sociale, economice sau de alt a natur a, precum si cu deter-
minarea unor previziuni privind realizarea viitoare a unor asemenea fenomene.
n cadrul analizei statistice a unui fenomen actioneaz a mai nti statistica
formal a sau descriptiv a, care se ocup a cu culegerea datelor asupra fenomenu-
lui respectiv si cu nregistrarea lor. Apoi intervine statistica matematic a, cu
ajutorul c areia datele sunt analizate si interpretate.
Vom numi populatie (colectivitate) statistic a sau mai simplu popu-
latie (colectivitate) orice multime ale c arei elemente au n comun una sau
mai multe propriet ati (tr as aturi) si care formeaz a obiectul unei analize sta-
tistice. Elementele unei populatii statistice se numesc unit ati sau indivizi.
Propriet atile comune elementelor unei colectivit ati C se numesc caracteristici
ale colectivit atii. Num arul tuturor elementelor (unit atilor) unei colectivit ati C
reprezint a volumul colectivit atii. Evident, colectivit atile pot nite, in-
nite si num arabile sau nenum arabile.
Cercetarea statistic a a unei colectivit ati C, n raport cu o caracteristic a
xat a A, extins a la ntreaga colectivitate, se numeste cercetare total a.
Statistica matematic a foloseste metoda selectiv a, metod a ce const a
n a cerceta colectivitatea dat a C, n raport cu o caracteristic a precizat a A,
prin intermediul unei subcolectivit ati S a lui C, pe care o numim selectie sau
esantion. Num arul unit atilor : cuprinse ntr-o selectie reprezint a volumul
selectiei.
Denitia 1.1.1. Selectia S, de volum :, este reprezentativ a (ea red a cu
delitate structura colectivit atii C) dac a sunt ndeplinite urm atoarele conditii:
colectivitatea din care se extrage selectia S, de volum :, s a e ct mai omogen a
n raport cu caracteristica aleas a X; volumul de selectie : s a e ct mai mare;
alegerea celor : elemente ale selectiei S s a se fac a la ntmplare; oricare din-
tre elementele colectivit atii C s a aib a aceeasi sans a de a gura printre cele :
elemente ale selectiei S.
Metoda selectiv a poate formulat a astfel: se consider a o colectivitate C,
de volum . Pentru a studia aceast a colectivitate, n raport cu o caracteristica
oarecare X, se face o selectie reprezentativa S, de volum :, obtinndu-se
m arimile
1
A
1
,A
2
, ... ,A
n
, (1.1.1)
ce vor reprezenta caracteristica A pentru cele : elemente selectate din colectiv-
itatea C.
Procedeele de baz a folosite n metoda selectiv a sunt: selectia repetat a,
respectiv selectia nerepetat a.
n optica ipotetica", aceste m arimi au un caracter aleator (ntmpl a-
tor) deoarece, n rolul m arimii A
I
, ce reprezint a caracteristica A n cazul ele-
mentului din extragerea i, i = 1, :, poate s a gureze, cu sanse egale, oricare
dintre elementele colectivit atii C. Caracterul aleator al m arimilor (1.1.1) ( nu-
mite variabile aleatoare de selectie) caracterizeaz a att teoria selectiei ct
si ntreaga statistic a matematic a.
Vom nota prin
S
n
(A) = (A
1
, A
2
, ..., A
n
) (1.1.2)
vectorul aleator al variabilelor de selectie (vectorul aleator de selectie)
iar, dac a selectia a avut loc, atunci, vectorul
S
n
(r) =(r
1
, r
2
, ..., r
n
) R
n
(1.1.3)
va reprezenta tocmai vectorul numeric (vectorul valorilor variabilelor de
selectie) asociat acestuia.
n cele ce urmeaz a vom presupune c a pentru selectia repetat a S, de
volum :, dintre cele : valori ale variabilelor de selectie, ce constituie coordo-
natele punctul real :-dimensional (1.1.3), doar / sunt distincte si, mai mult,
pentru a simplica scrierea, admitem c a acestea sunt ordonate cresc ator.
Denitia 1.1.2. Prin repartitia empiric a (de selectie), a unei carac-
teristici de tip discret X, vom ntelege un tablou de forma
X

:
_
r
1
r
2
... r
|
:
1
:
2
... :
|
_
, r
1
< r
2
< ... < r
|
,
|

I=1
:
I
= 1 (1.1.4)
unde r
1
, r
2
, ... , r
|
sunt cele / valori de selectie distincte, :
1
, :
2
, ..., :
|
sunt
frecventele absolute corespunz atoare acestor valori distincte (:
I
reprezint a
num arul de aparitii ale valorii r
I
, printre valorile r
1
, r
2
, ..., r
n
ale variabilelor
de selectie A
1
, A
2
, ..., A
n
, i = 1, /) iar : reprezint a volumul de selectie.
O astfel de repartitia empiric a (de selectie) se mai numeste si repartitie de
frecvente absolute sau serie statistic a.
Denitia 1.1.3. Repartitia empiric a (statistic a sau de selectie), co-
respunz atoare unei caracteristici de tip discret X, exprimat a cu ajutorul
frecventelor relative, are forma
A

:
_
r
1
r
2
... r
|
)
1
)
2
... )
|
_
, )
I
=
:
I
:
, i = 1, /,
|

I=1
)
I
= 1 (1.1.5)
2
unde )
I
sunt frecventele relative corespunz atoare valorilor de selectie r
I
, i =
1, /.
Observatia 1.1.1. Dac a se are n vedere legea numerelor mari, expri-
mat a sub forma teoremei lui Bernoulli, care pune n evident a convergenta
n probabilitate
)
I

j
I
, (1.1.6)
unde )
I
este frecventa relativ a a evenimentului
I
= (A

=r
I
) iar j
I
= P(
I
) =
P(X =r
I
), i = 1, /, atunci repartitia empiric a (1.1.5) corespunde unei vari-
abile aleatoare de selectie A

. Aceast a ultim a precizare motiveaz a notarea


distributiei empirice prin m arimea A

.
Dac a toate cele : valori ale variabilelor de selectie A

sunt distincte ntre


ele, deci dac a / = :, atunci variabila aleatoare de selectie A

are o repartitie
de forma
A

:
_
r
1
r
2
... r
n
1
n
1
n
...
1
n
_
, (1.1.10)
adic a variabila aleatoare de selectie A

este uniform distribuit a deoarece :


I
=
)
I
=
1
n
, i = 1, :.
Observatia 1.1.2. n practic a, adeseori, se folosesc procentele n locul
frecventelor relative. Astfel, num arul de procente 0
I
, corespunz atoare valorii
de selectie r
I
, este dat de formula
0
I
= 100)
I
, i = 1, /,
|

I=1
0
I
= 100. (1.1.12)
Observatia 1.1.3. Repartitiile empirice (statistice) prezentate mai sus s-au
referit la caracteristici (variabile aleatoare) de tip discret ale colectivit atii C.
Dac a ns a o asemenea colectivitate C se cerceteaz a n raport cu o caracteris-
tic a de tip continuu A, atunci cele : valori ale variabilelor de selectie vor
repartizate pe / intervale disjuncte si de lungimi egale cu d. (Este re-
comandabil ca aceste intervale disjuncte s a e de aceesi lungime pentru ca
frecventele absolute (relative) asociate lor s a e comparabile ntre ele.)
Denitia 1.1.4. Repartitia empiric a (statistic a sau de selectie), aso-
ciat a unei caracteristici de tip continuu A, este un tablou de forma
A

:
_
(|
0
, |
1
] (|
1
, |
2
] ... (|
|1
, |
|
]
:
1
:
2
... :
|
_
, (1.1.13)
respectiv de forma
A

:
_
(|
0
, |
1
] (|
1
, |
2
] ... (|
|1
, |
|
]
)
1
)
2
... )
|
_
, (1.1.14)
3
dup a cum intervalelor (|
I1
, |
I
], i = 1, /, le asociem frecventele absolute :
I
, i =
1, /, respectiv frecventele relative )
I
, i = 1, /, unde
|
_
I=1
(|
I1
, |
I
] = (|
0
, |
|
] (1.1.15)
reprezint a intervalul n care sunt cuprinse toate cele : valori ale variabilelor de
selectie.
Observatia 1.1.4. O repartitie empiric a (de selectie) asociat a unei carac-
teristici (variabile aleatoare) de tip continuu ce are formele (1.1.13) sau (1.1.14)
se poate aduce la formele (1.1.4) sau (1.1.5) dac a consider am
r
I
=
|
I1
+|
I
2
, i = 1, /, (1.1.16)
adic a toate cele :
I
valori ale variabilelor de selectie, ce apartin intervalului
(|
I1
, |
I
], se nlocuiesc prin valoarea r
I
ce reprezint a mijlocul acestui interval.
Observatia 1.1.5. Pentru a studia o populatie (colectivitate) cu volum
mare, n raport cu o caracteristic a, vom deosebi dou a tipuri de variabile aleatoare
si anume:
o variabila aleatoare teoretica, notat a prin A, necercetat a n mod
direct, c areia i corespund functii si caracteristici numerice teoretice.
o variabila empirica (de selectie), notat a prin A
*
, ce rezult a pe baza
unei selectii de volum :, variabil a ce se cerceteaz a efectiv si c areia i corespund
functii si caracteristici numerice empirice (de selectie).
Printre obiectivele statisticii matematice gureaz a si problema de a aa
n ce m asur a functiile si caracteristicile numerice empirice, obtinute
cu ajutorul unei selectii de volum :, pot reprezenta (aproxima, estima)
functiile si caracteristicile teoretice necunoscute ale variabilei aleatoa-
re teoretice.
Denitia 1.1.6. Se numeste functie de repartitie de selectie (empir-
ic a) de volum :, functia
1

n
(r,.
(n)
) = 1

n
(r) =
cardr
I
: r
I
< r}
:
=
=
_

_
0 dac a r _ r
1
i
:
dac a r
I
< r _ r
I+1
, i = : 1
1 dac a r r
n
.
(1.1.17)
Dac a ns a dintre cele : valori ale variabilelor de selectie doar / sunt distincte,
atunci relatia de denitie a functiei de repartitie empiric a primeste forma ur-
m atoare
4
1

n
(r,.
(n)
) = 1

n
(r) =
_

_
0 dac a r _ r
1
I

=1
)

dac a r
I
< r _ r
I+1
, i = 1, / 1
1 dac a r r
|
.
(1.1.18)
Teorema ce urmeaz a, numit a si teorema fundamentala a statisticii
matematice, reprezint a suportul teoretic privind folosirea metodei
selective n cercetarea unei colectivit ati statistice.
Teorema 1.1.1. (V.I.Glivenko (1933)) Dac a 1

n
(r) este functia de repar-
titie de selectie corespunz atoare unei selectii bernouliene de volum : si 1(r)
functia de repartitie ce corespunde statisticii (variabilei aleatoare teoretice)
A, atunci
1( lim
n!1
d
n
= 0) = 1, (1.1.20)
unde
d
n
= sup
r2R
[1

n
(r) 1(r)[ (1.1.21)
reprezint a distanta maxim a dintre functia de repartitie (teoretic a) 1(r)
si functia de repartitie de selectie 1

n
(r).
Cu alte cuvinte, dac a volumul de selectie : este destul de mare, atunci
functia de repartitie empiric a poate considerat a o bun a aproximare
pentru functia de distributie teoretic a.
5
Cursul 2
1.2 Momentele empirice ale distributiilor statistice [1]
O analiz a a unei repartitii empirice (statistice) asociat a unei caracteristici
A, n raport cu care se studiaz a o populatie statistic a dat a C, prezint a o ten-
dint a de variatie cu dou a aspecte: de localizare n jurul unei anumite valori
si de mpr astiere. De asemenea, unele repartitii empirice pot prezenta anu-
mite simetrii sau asimetrii n raport cu pozitia de localizare. Gracele asociate
repartitiilor empirice prezint a aceste aspecte numai calitativ. O analiz a cantita-
tiv a, care s a permit a o comparatie a tendintelor de localizare si de mpr astiere,
se poate efectua numai cu ajutorul unor indicatori statistici determinati de va-
lorile caracteristicilor respective. Asemenea indicatori statistici se pot clasica
astfel:
Indicatori de localizare (parametrii tendintei centrale): media arit-
metic a, media geometric a, media armonic a, media p atratic a, mediana, moda,
valoarea central a.
Indicatori de variatie (parametrii variabilit atii): dispersia, abaterea
medie p atratic a (abaterea standard), amplitudinea, coecientul de variatie.
Indicatori pentru asimetrie si aplatizare: coecientul de asimetrie,
coecientul de aplatizare (boltire) sau excesul.
Asemenea indicatori statistici nu pot reliefa ntotdeauna anumite particu-
larit ati (cum ar , spre exemplu, forma (alura)) repartitiei statistice asociate
unei caracteristici X. Acesta este motivul introducerii unor noi caracteristici
statistice cum ar momentele initiale respectiv momentele centrate de ordinul
r, r N.
S a consider am variabila aleatoare empiric a de tip discret A

cu dis-
tributia (repartitia)
A

:
_
r
1
r
2
... r
|
:
1
:
2
... :
|
_
,
|

I=1
:
I
= :. (1.2.1)
Denitia 1.2.1. Momentul de selectie (empiric) de ordiunul r al
distributiei statistice (1.2.1), notat prin :
:
, este o m arime denit a prin relatia
:
:
=
1
:
|

I=1
:
I
r
:
I
, r N, (1.2.2)
respectiv prin relatia
:
:
=
1
:
n

I=1
r
:
I
, r N, (1.2.3)
dac a toate cele : valori ale variabilelor de selectie sunt distincte.
6
Observatia 1.2.1. Dac a repartitia statistic a (empiric a) corespunde unei
caracteristici de tip continuu X, atunci ea are forma
A

:
_
(|
0
, |
1
] (|
1
, |
2
] ... (|
|1
, |
|
]
:
1
:
2
... :
|
_
, (1.2.4)
iar reducerea acesteia, la o repartitie statistic a de forma (1.2.1), se poate face
dac a toate cele :
I
valori ale variabilelor de selectie, ce apartin intervalului
(|
I1
, |
I
], se nlocuiesc prin valoarea r
I
ce reprezint a mijlocul acestui interval,
adic a
r
I
=
|
I1
+|
I
2
, i = 1, /. (1.2.5)
Pe baza acestei observatii rezult a c a relatiile de denitie (1.2.2) si (1.2.3) se
p astreaz a si n cazul repartitiilor statistice asociate unor caracteristici (variabile
aleatoare teoretice) de tip continuu.
Particulariznd pe r n multimea N =0, 1, 2, ...) obtinem, spre exemplu,
pentru r = 0 si r = 1, momentele empirice de ordinul zero, :
0
, respectiv de
ordinul unu, :
1
, denite prin relatiile:
:
0
=
1
:
|

I=1
:
I
= 1, (1.2.6)
:
1
= r =
1
:
|

I=1
:
I
r
I
. (1.2.7)
Momentul empiric de ordinul unu, :
1
, notat si prin r, se mai numeste si
media empirica sau media de selectie, care, de fapt, reprezint a o medie
aritmetic a ponderat a a celor / valori distincte ale variabilelor de selectie n
care ponderile sunt reprezentate de frecventele absolute corespunz atoare acestor
/ valori distincte.
Evident, dac a toate cele : valori ale variabilelor de selectie sunt distincte
(deci dac a avem :
I
= 1, i = 1, :), atunci media de selectie primeste forma
r =
1
:
n

I=1
r
I
, (1.2.8)
adic a ea este o medie aritmetic a simpl a.
Observatia 1.2.2. ntre media armonic a /, media geometric a q si media
aritmetic a r exist a urm atoarea relatie
/ < q < r, (1.2.9)
unde
r =
1
:
|

I=1
:
I
r
I
, / =
:
|

I=1
:
I
r
I
, q =
n

_
|

I=1
r
ni
I
, (1.2.10)
7
iar r centrul de grupare al distributiei empirice.
Denitia 1.2.2. Modulul empiric (valoarea modal a empiric a sau
moda empiric a) al unei distributii empirice (statistice), notat prin

'
0
, este
acea valoare a variabilelor de selectie ce corespunde la o frecvent a absolut a (sau
relativ a) maxim a.
Astfel, dac a max:
1
, :
2
, ..., :
|
= :
I
, (sau max)
1
, )
2
, ..., )
|
= )
I
), atunci

'
0
= r
I
.
Dac a distributia de selectie este de tip continuu iar intervalul [|
I1
, |
I
) co-
respunde frecventei maxime, atunci [|
I1
, |
I
) este intervalul modal iar drept
valoare modal a a acestei distributii empirice se consider a mijlocul acestui
interval modal, adic a

'
0
= r
I
=
|
I1
+|
I
2
. (1.2.11)
O evaluare mai bun a a valorii modale empirice, ce corespunde unei distributii
empirice de tip continuu, se obtine dac a se au n vedere si frecventele asociate
intervalelor al aturate intervalului modal.
Denitia 1.2.3. Dac a valorile r
I
, i = 1, :, corespunz atoare celor : variabile
de selectie A
I
, i = 1, :, sunt distincte ntre ele si dac a, mai mult, ele sunt ordo-
nate cresc ator, atunci valoarea care ocup a locul central n acest sir ordonat de
valori (deci care mparte acest sir de valori n dou a grupe egale ca num ar), no-
tat a prin

'
t
, se numeste mediana empirica (de selectie). Mediana empiric a
este o medie de pozitie si avem

'
t
=
_
rn+1
2
, dac a : = 2/ + 1
1
2
_
r
n
2
+r
n
2
+1
_
, dac a : = 2/
(1.2.12)
Denitia 1.2.4. Se numeste median a empiric a (de selectie) a repartitiei
empirice uniforme
A

:
_
r
1
r
2
r
n
1
n
1
n

1
n
_
, (1.2.13)
r ad acina unic a a ecuatiei
1

n
(

'
t
) =
1
2
. (1.2.14)
Denitia 1.2.5. Prin valoarea central a a unei repartitii empirice se
ntelege m arimea r
c
denit a astfel
r
c
=
r
max
+r
min
2
, (1.2.15)
unde r
min
si r
max
sunt valorile extreme ale sirului valorilor variabilelor de
selectie.
8
Denitia 1.2.6. Prin amplitudinea unei repartitii empirice (statistice)
se ntelege indicatorul statistic reprezentat de diferenta dintre valorile extreme
r
max
si r
min
, adic a
\ = r
max
r
min
. (1.2.16)
.Denitia 1.2.7. Prin momentul centrat de selectie (empiric) de
ordinul r, asociat distributiei empirice, vom ntelege num arul j
:
denit astfel
j
:
=
1
:
|

I=1
:
I
(r
I
r)
:
, r N. (1.2.17)
Observatia 1.2.3. Se constat a c a, de fapt, j
:
reprezint a momentul empiric
centrat de ordinul r corespunz ator distributiei empirice
X

r :
_
r
1
r r
2
r ... r
|
r
:
1
:
2
... :
|
_
, (1.2.18)
distributie ce exprim a abaterile valorilor variabilelor de selectie n raport
cu media de selectie r .
Leg aturile ce exist a ntre momentele centrate empirice si momentele empirice
initiale sunt de forma:
_

_
j
0
= 1,
j
1
= :
1
r = 0,
j
2
= :
2
(:
1
)
2
= :
2
r
2
j
3
= :
3
3:
2
:
1
+ 2(:
1
)
3
= :
3
3r:
2
+ 2r
3
j
4
= :
4
4:
3
:
1
+ 6:
2
(:
1
)
2
3(:
1
)
4
= :
4
4r:
3
+
+6r
2
:
2
3r
4
.............
(1.2.19)
Denitia 1.2.8. Dispersia empiric a, sau dispersia de selectie a unei
distributii de selectie, notat a prin :
2
, este (prin denitie) momentul centrat
empiric de ordinul al doilea, adic a
:
2
= j
2
=
1
:
|

I=1
:
I
(r
I
r)
2
= :
2
(:
1
)
2
. (1.2.20)
iar abaterea medie p atratic a empiric a (de selectie) (abaterea standard
empiric a) va
: =

_
1
:
|

I=1
:
I
(r
I
r)
2
. (1.2.1)
9
Observatia 1.2.4. Asa dup a cum vom vedea, n capitolul privind estimarea
punctual a a parametrilor, dispersia teoretic a este estimat a absolut corect de
c atre dispersia de selectie modicat a :
2
, o caracteristic a denit a astfel
:
2
=
1
: 1
|

I=1
:
I
(r
I
r)
2
, (1.2.22)
iar abaterea medie p atratic a empiric a (de selectie) modicat a, no-
tat a prin :, se va exprima astfel
: =

_
1
: 1
|

I=1
:
I
(r
I
r)
2
. (1.2.23a)
Denitia 1.2.9. Coecientul de variatie este indicatorul statistic denit
de raportul dintre abaterea standard empiric a si media de selectie, adic a
avem

C
u
=
:
r
, respectiv C
u
=
:
r
coecientul de variatie modicat. (1.2.24)
Denitia 1.2.10. Asimetria empiric a, notat a prin
1
, este indicatorul
statistic, asociat unei distributii empirice, denit prin raportul dintre momentul
centrat empiric de ordinul trei si puterea a treia a abaterii standard empirice,
adic a

1
=
j
3
:
3
. (1.2.25)
Denitia 1.2.11. Excesul (boltirea) unei distributii empirice este denit
prin relatia

2
=
j
4
:
4
3, (1.2.26)
unde j
4
este momentul centrat empiric de ordinul patru iar : este abaterea
standard empiric a.
10
Cursul 3
1.3 Problema estim arii parametrilor [1]
Consider am o colectivitate statistic a (nit a sau innit a) Csi A una din-
tre caracteristicile (propriet atile) comune elementelor ei. Asa dup a cum s-a pre-
cizat, o asemenea caracteristic a A este o variabil a aleatoare (teoretic a) de
tip continuu sau de tip discret. Legea de repartitie a acestei variabile aleatoare
se poate exprima e prin functia (densitatea) de probabilitate, e prin functia
de repartitie care, n general, poate s a depind a de unul sau mai multi parametri.
Denitia 1.3.1. Repartitia variabilei aleatoare A este specicat a dac a se
cunoaste forma functional a a functiei (densit atii) de probabilitate (respectiv, a
functiei de repartitie) asociat a iar parametrii de care depinde sunt necunoscuti.
Denitia 1.3.2. Repartitia variabilei aleatoare A este complet speci-
cat a dac a se cunoaste att forma functional a a functiei (densit atii) de proba-
bilitate (respectiv, a functiei de repartitie) asociat a precum si toti parametrii
de care depinde.
Denitia 1.3.3. Repartitia variabilei aleatoare A vom spune c a este ne-
specicat a dac a nu se cunoaste forma functional a a functiei (densitate) de
probabilitate (respectiv, a functiei de repartitie) asociat a.
n cele ce urmeaz a, vom presupune c a variabil a aleatoare teoretic a A
(necercetat a n mod direct) este specicat a prin functia densitate de
probabilitate )(r
1
, r
2
, ..., r
n
; 0
1
, 0
2
, ..., 0
|
) n care parametrii reali 0

, , = 1, /
sunt necunoscuti.
Studiul colectivit atii C, n raport cu o asemenea variabil a aleatoare teore-
tic a A, se va face prin intermediul unei selectii (bernoulliene) reprezenta-
tive o
n
care ne conduce la m arimile aleatoare (potential observabile)
A
1
, A
2
, ..., A
n
numite variabile aleatoare de selectie, unde componenta A
I
,
a vectorul aleator de selectie :-dimensional
o
n
(A) = (A
1
, A
2
, ..., A
n
), (1.3.1)
reprezint a caracteristica A pentru al i-lea element selectat din colectivitatea
C, i = 1, :.
Dac a selectia o
n
a fost efectuat a si s-au determinat (m asurat) valorile
r
I
, corespunz atoare variabilelor de selectie A
I
, i = 1, :, atunci vectorul real
:-dimensional (vectorul valorilor variabilelor de selectie), asociat vec-
torului (1.3.1), va avea forma
o
n
(r) = x = (r
1
, r
2
, ..., r
n
) R
n
. (1.3.2)
Dac a printre cele : componente ale vectorului real x avem doar /, / _ :
componente distincte ce sunt ordonate cresc ator, adic a r
1
< r
2
< ... < r
|
atunci, mpreun a cu frecventele absolute (relative) asociate, selectia reprezen-
tativ a o
n
genereaz a o variabil a de selectie A

(de tip discret sau continuu)


11
care se cerceteaz a efectiv si c areia i corespund functii si caracteristici
numerice de selectie.
Observatia 1.3.1. Printre obiectivele de baz a ale statisticii matem-
atice gureaz a, printre altele, si problema privind m asura n care functiile si
caracteristicile numerice de selectie pot estima (aproxima) functiile
si caracteristicile numerice teoretice ale variabilei aleatoare teoretice A.
n rezolvarea unor astfel de probleme trebuie avut a n vedere urm atoarea pre-
cizare important a: n timp ce functiile si caracteristicile numerice teoretice
ale colectivit atii C, privind caracteristica (variabila aleatoare) A, sunt necunos-
cute dar au forme si valori bine determinate, corespondentele lor, obtinute pe
baza unei selectii o
n
, sunt (n optica ipotetic a) variabile aleatoare (ele
variaz a de la o selectie la alta). Suportul teoretic, privind rezolvarea problemei
mentionat a mai sus, este reprezentat de Teorema lui Glivenko.
Toate aceste preciz ari permit acceptarea principiului de baz a al teoriei
selectiei: variabila (aleatoare) de selectie A

converge n repartitie (n lege)


c atre variabila aleatoare teoretic a A iar caracteristicile numerice ale variabilei de
selectie A

converg n probabilitate c atre caracteristicile numerice analoage


ale variabilei aleatoare teoretice.
1.4 Estimatori punctuali
n contextul paragrafelor precedente, e
o
n
(A) = X = (A
1
, A
2
, ..., A
n
) (1.4.1)
vectorul de selectie asociat studiului colectivit atii C n raport cu o caracteristic a
A.
Denitia 1.4.1. Orice functie de forma
q = q[o
n
(A)] = q(A
1
, A
2
, ..., A
n
), (1.4.2)
se numeste functie de selectie sau statistic a.
Observatia 1.4.1. Asemenea functii de selectie se pot construi ntr-un
num ar innit si, mai mult, oricare asemenea statistic a q(A
1
, A
2
, ..., A
n
), n
optica ipotetic a, este o variabil a aleatoare.
Dac a ns a selectia a fost efectuat a (realizat a), atunci vectorului aleator
n-dimensional X =(A
1
, A
2
, ..., A
n
) i se asociaz a vectorul valorilor vari-
abilelor de selectie, x =(r
1
, r
2
, ..., r
n
) R
n
si avem
q : R
n
R. (1.4.3)
Valoarea real a q(x) =q(r
1
, r
2
, ..., r
n
) ( imaginea punctului x prin functia q)
este un punct bine determinat pe axa real a R. Mai mult, n optica ipotetic a,
un asemenea punct real devine un punct aleator atunci cnd se trece de la o
selectie la alta. Asadar, caracterul aleator al statisticii q(A
1
,A
2
, ..., A
n
) se
p astreaz a si pentru punctele imagine q(r
1
, r
2
, ..., r
n
) situate pe axa real a R.
Pozitiile, pe axa real a R, ale unor asemenea puncte imagine depind de mai
12
multi factori cum sunt: tipul selectiei, volumul de selectie :, trecerea de la o
selectie la alta, forma functional a a statisticii q.
Observatia 1.4.2. S a presupunem c a functia densitate de probabilitate,
asociat a variabilei aleatoare teoretice A, este specicat a prin )(r; 0), unde 0 este
un parametru real necunoscut, 0 1
0
, 1
0
_ R, 1
0
spatiul parametrului
0 sau spatiul valorilor admisibile ale parametrului 0 care poate un interval
deschis sau o regiune a spatiului euclidian R
|
(daca 0 este un parametru vectorial
/dimensional).
Problema estim arii parametrului necunoscut 0 const a n a alege, din
multimea innit a de functii de selectie (de statistici), statistica cea mai bun a
adic a o statistic a q(A
1
, A
2
, ..., A
n
) care se apropie cel mai mult de va-
loarea adev arat a 0
0
a parametrului necunocut 0. Cu alte cuvinte, pentru diferite
selectii, valorile reale corespunz atoare q(r
1
, r
2
, ..., r
n
), s a e concentrate n jurul
valorii adev arate 0
0
a parametrului 0. Din punct de vedere practic putem scrie
relatia
0
0
- q(r
1
, r
2
, ..., r
n
). (1.4.4)
n optica ipotetic a, o asemenea statistic a q(A
1
, A
2
, ..., A
n
) va repre-
zenta un estimator pentru parametrul necunoscut 0 iar, dac a selectia a fost
realizat a, atunci valoarea real a q(r
1
, r
2
, ..., r
n
) este o estimatie a parametrului
necunoscut 0.
Denitia 1.4.2. Operatia prin care determin am (estim am) valorile para-
metrilor necunoscuti se numeste operatie de estimare a parametrilor.
Denitia 1.4.3. Un estimator punctual pentru parametrul necunoscut
0, ce gureaz a n densitatea (functia) de probabilitate )(r; 0), este o functie
de selectie (o statistic a) de forma

0
n
= q
n
(A
1
, A
2
, ..., A
n
) = q(A
1
, A
2
, ..., A
n
) (1.4.5)
care depinde de variabilele de selectie A
I
, i = 1, : si nu depinde de
parametrul necunoscut 0.
Denitia 1.4.4. Dac a selectia o
n
(A) este realizat a, atunci valoarea real a
q
n
(r
1
, ..., r
n
) reprezint a o estimatie punctual a pentru parametrul necunoscut
0 si putem folosi aproximarea (1.4.4).
Dac a parametrul necunoscut 0 are o valoare real a determinat a atunci despre
estimatorul punctual

0
n
se mai spune c a este un estimator conditionat iar dac a
selectia o
n
(A) este realizat a, atunci valoarea real a q
n
(r
1
, r
2
, ..., r
n
) reprezint a
o estimatie (conditionat a) pentru parametrul necunoscut 0.
Denitia 1.4.5. Densitatea de probabilitate asociat a unui estimator
conditionat se numeste functie de verosimilitate si are forma
1
n
(r
1
, r
2
, ..., r
n
; 0) = \
n
(r
1
, r
2
, ..., r
n
; 0) = \
n
(r
1
, r
2
, ..., r
n
[ 0). (1.4.6)
Observatia 1.4.3. n cele ce urmeaz a vom studia asemenea estimatori
punctuali conditionati (pe care i vom numi estimatori conditionati sau,
13
doar estimatori) care au anumite propriet ati cu privire la: consistenta, nede-
plasarea sau deplasarea, ecienta, respectiv sucienta lor.
Denitia 1.4.6. Statistica (estimatorul conditionat)

0
n
= q
n
(A
1
, A
2
, ..., A
n
) (1.4.7)
este un estimator consistent, pentru parametrul necunoscut 0, dac a are loc
convergenta n probabilitate
lim
n!1
1([

0
n
0 [ < -) = 1, pentru orice - 0. (1.4.8)
Valoarea unui estimator consistent, pentru o selectie realizat a, se numeste
estimatie consistent a sau valoarea calculat a a estimatorului consistent.
Aplicatia 1.4.1. S a consider am legea slab a a numerelor mari (LSNM) ex-
primat a sub forma lui Cebsev : Fie (A
n
)
n2N
un sir de variabile aleatoare
independente dou a cte dou a avnd
'(A
|
) = :, 1
2
(A
|
) < 1, / N

(1 constant a real a nit a).


Atunci, pentru orice - 0, are loc relatia
lim
n!1
1
_

1
:
n

|=1
A
|
:

< -
_
= 1. (1.4.9)
Conform Denitiei 1.4.6, relatia (1.4.9) ne arat a c a media de selectie
A =

0
n
= q
n
(A
1
, A
2
, ..., A
n
) =
1
:
n

|=1
A
|
(1.4.10)
reprezint a un estimator consistent pentru parametrul necunoscut 0, unde
0 = : = '(A) = '(A
|
), / = 1, :, (1.4.11)
Valoarea acestui estimator, pentru o selectie realizat a, va reprezenta o esti-
matie conditionat a consistent a pentru parametrul necunoscut : media teo-
retic a si putem folosi aproximarea
0 = : - q
n
(r
1
, r
2
, ..., r
n
) = r =
1
:
n

|=1
r
I
, (1.4.10a)
unde r este num arul real ce exprim a media aritmetic a a valorilor r
I
, i = 1, :
corespunz atoare variabilelor de selectie A
I
, i = 1, :.
Observatia 1.4.5. Relatia (1.4.9) reprezint a expresia analitic a a LSNM sub
forma lui Cebsev: media de selectie converge n probabilitate c atre media
teoretic a : = '(A).Acest rezultat ce se p astreaz a si pentru orice alt moment
c
|
= '(A
|
) sau j
|
= '
_
(A :)
|

, / N

.
14
Cursul 4
1.5 Estimatori corecti. Estimatori absolut corecti [1]
Fie )(r; 0), 0 1
0
, 1
0
_ R, 0 parametru necunoscut, densitatea (functia)
de probabilitate asociat a variabilei aleatoare teoretice A si

0
n
= q
n
(A
1
, A
2
, ..., A
n
) (1.5.1)
un estimator conditionat construit cu ajutorul variabilelor de selectie
A
1
, ..., A
n
despre care presupunem c a sunt independente si identic distribuite
ca si variabila aleatoare teoretic a (generic a) A, adic a avem
)(r; 0) = )
I
(r; 0), i = 1, :. (1.5.2)
Denitia 1.5.1. Estimatorul (conditionat)

0
n
este un estimator abso-
lut corect (consistent si nedeplasat) pentru parametrul necunoscut 0 dac a,
pentru un : oarecare, :, : N

= 1, 2, ...), avem ndeplinite conditiile:


_
a) '(

0
n
) = 0
/) 1
2
(

0
n
) 0, : ,
(1.5.3)
unde
1
2
(

0
n
) = '
_
[

0
n
'(

0
n
)]
2
_
. (1.5.4)
Conditia a) exprim a faptul c a

0
n
este un estimator nedeplasat.
Dac a selectia este realizat a, atunci valoarea estimatorului absolut corect
estimeaz a absolut corect pe 0.
Denitia 1.5.2. Estimatorul (conditionat) (1.5.1) este un estimator
corect (consistent si deplasat) pentru parametrul necunoscut 0 dac a, oricare
ar :, : N

, sunt indeplinite conditiile:


_
a) '(

0
n
) = 0 +/
n
(0);
/) 1
2
(

0
n
) 0, : ,
(1.5.5)
unde
/
n
(0) 0, : . (1.5.5a)
Conditia a) exprim a faptul c a

0
n
este un estimator deplasat.
Dac a selectia este realizat a, atunci valoarea estimatorului corect es-
timeaz a doar corect parametrul necunoscut 0.
Observatia 1.5.1. Pentru simplitate estimatorii conditionati deniti mai
sus i vom numi simplu, dup a caz: estimatori consistenti, estimatori abso-
lut corecti, respectiv estimatori corecti.
Valorile realizate (calculate) ale acestor estimatori, notate prin
15

0
c
=

0
njcolc
= q
n
(r
1
, r
2
, ..., r
n
), (r
1
, r
2
, ..., r
n
) R
n
,

0
c
R, (1.5.6)
se vor numi: estimatii consistente, absolut corecte respectiv corecte.
Denitia 1.5.3. Estimatorul conditionat

0
n
pentru care are loc relatia
lim
n!1
'(

0
n
) = 0, (1.5.7)
se numeste estimator asimptotic corect.
Denitia 1.5.4. M arimea
/
n
(0) = '(

0
n
) 0 (1.5.8)
se numeste deplasarea (distorsiunea) sau eroarea sistematic a a estima-
torului

0
n
.
Teorema 1.5.1. (O conditie sucient a) Orice estimator absolut corect
este si un estimator consistent.
Teorema 1.5.2. Dac a componentele vectorului de selectie o
n
(A) =
(A
1
, ..., A
n
) sunt variabile aleatoare independente si identic distribuite
ca si variabila aleatoare teoretic a (generic a) A (selectia este repetat a), adic a
avem
)(r) = )
I
(r), i = 1, :, (1.5.9)
_
1) '(A) = '(A
I
) = :, i = 1, :; :necunoscut,
2) 1
2
(A) = 1
2
(A
I
) = o
2
, i = 1, :; o
2
cunoscut a,
(1.5.10)
atunci statistica reprezentat a de media de selectie
A = q
n
(A
1
, A
2
, ..., A
n
) =
1
:
n

I=1
A
I
, (1.5.11)
satisface conditiile
_
_
_
a) '(A) = :
/) 1
2
:t
(A) = 1
2
(A) =
o
2
:
0, : ,
(1.5.12)
adic a constituie un estimator absolut corect pentru media teoretic a ne-
cunoscut a :.
Consecinta 1.5.1. Media de selectie A, atunci cnd selectia este repetat a,
este un estimator consistent si nedeplasat pentru media teoretic a necunos-
cut a : = '(A), indiferent de tipul distributiei pe care o urmeaz a variabila
aleatoare teoretic a A.
16
Teorema 1.5.3. Dac a C este o colectivitate (nit a) constituit a din el-
emente iar )(r; :, o
2
) este densitatea (functia) de probabilitate asociat a vari-
abilei aleatoare teoretice A, unde
_

_
1) '(A) = : =
1

I=1
A
I
, : - necunoscut a
2) 1
2
(A) = o
2
=
1

I=1
(A
I
:)
2
, o
2
cunoscut a,
(1.5.13)
iar o
n
(A) = (A
1
, A
2
, ..., A
n
) o selectie nerepetat a de volum : (: _ ), atunci
media de selectie A satisface conditiile:
_
_
_
a) '(A) = :
/) 1
2
nt:t
(A) = 1
2
(A) =
:
1

o
2
:
0, : ,
(1.5.14)
si, conform Denitiei 1.5.1, A constituie un estimator absolut corect pen-
tru media teoretic a necunoscut a : = '(A).
Consecinta 1.5.2. Media de selectie A, atunci cnd selectia este
nerepetat a, constituie un estimator consistent si nedeplasat pentru me-
dia teoretic a necunoscut a :, indiferent de tipul distributiei pe care o urmeaz a
variabila aleatoare teoretic a A.
Observatia 1.5.2 .Conform rezultatelor cuprinse n teoremele mentionate
mai sus, avem inegalitatea
1
2
nt:t
(A) =
:
1
o
2
:
_
o
2
:
= 1
2
:t
(A), (1.5.15)
deoarece
:
1
= 1
: 1
1
_ 1, dac a : _ 1. (1.5.16)
Asa dup a cum se va preciza ulterior, pe baza inegalit atii (1.5.15), media de
selectie A, atunci cnd selectia este nerepetat a, reprezint a un estimator
absolut corect mai bun dect n cazul selectiei repetate.
Teorema 1.5.4. Dac a selectia este repetat a, atunci pentru dispersia
de selectie

o
2
=
1
:
n

I=1
(A
I
A)
2
(1.5.17)
are loc relatia
'
_

o
2
_
= o
2


1
:
o
2

=
: 1
:
o
2

, (1.6.18)
17
deci

o
2
constituie un estimator corect (estimator consistent si deplasat) pen-
tru dispersia teoretic a necunoscut a o
2

, indiferent de tipul distributiei pe


care o urmeaz a variabila aleatoare teoretic a A.
Consecinta 1.5.3. Dispersia de selectie modicat a
o
2
=
1
: 1
n

I=1
(A
I
A)
2
=
:
: 1

o
2
, (1.5.19)
atunci cnd selectia este repetat a, ndeplineste conditiile
_
_
_
a) '(o
2
) = o
2

,
/) 1
2
(o
2
) =
1
:
_
c
4

: 3
: 1
o
4

_
0, : , c
4
= '(A
4
)
(1.5.20)
adic a este un estimator absolut corect (consistent si nedeplasat) pentru dis-
persia teoretic a necunoscut a o
2

, indiferent de distributia pe care o urmeaz a


variabila aleatoare teoretic a A.
Teorema 1.5.5 . Dac a selectia este nerepetat a, atunci dispersia de selectie
(1.5.17) reprezint a un estimator corect (consistent si deplasat) pentru dispersia
teoretic a necunoscut a o
2

deoarece are loc relatia


'
_

o
2
_
= o
2


:
1
o
2

:
=
(: 1)
:( 1)
o
2

, (1.5.21)
iar statistica

o
2
, denit a prin relatia

o
2
=
1

o
2
=
1

:
: 1

o
2
, (1.5.22)
pentru care are loc relatia
'
_

o
2
_
= o
2

(1.5.23)
va reprezenta un estimator nedeplasat pentru o
2

.
Observatia 1.5.3. Dac a n relatia (1.5.22) se are n vedere aproximarea
1

- 1, dac a c:tc :arc, (1.5.24)


atunci se constat a c a avem si aproximarea

o
2
- o
2
=
1
: 1
n

I=1
(A
I
A)
2
, dac a c:tc :arc. (1.5.25)
Asadar, n conditiile mentionate mai sus, Teorema 1.5.5 are loc si n cazul
unei selectii nerepetate. Mai precis, are loc teorema.
18
Teorema 1.5.6. Dac a num arul de elemente , ale unei colectivit ati C, este
mare iar selectia este nerepetat a, atunci dispersia de selectie modi-
cat a o
2
constituie un estimator absolut corect pentru dispersia teoretic a
necunoscut a o
2

, indiferent de distributia pe care o urmeaz a variabila aleatoare


teoretic a A.
Consecinta 1.5.4. Dac a o colectivitate statistic a C este constituit a dintr-
un num ar de elemente sucient de mare, respectiv dintr-un num ar innit si
num arabil de elemente, atunci dispersia de selectie modicat a o
2
, denit a
prin relatia (1.5.19), atunci cnd selectia o
n
(A) = (A
1
, ..., A
n
) este repetat a
sau nerepetat a, reprezint a ntotdeauna un estimator absolut corect pen-
tru dispersia teoretic a necunoscut a o
2

, indiferent de tipul distributiei pe


care o urmeaz a variabila aleatoare teoretic a A o caracteristic a comun a pentru
elementele colectivit atii C.
Observatia 1.5.4. Prin intermediul cazurilor prezentate anterior am sta-
bilit estimatori absolut corecti pentru media teoretic a si dispersia teoretic a.
Mai mult, s-a constatat c a acesti estimatori nu depind de faptul c a selectia este
repetat a sau nerepetat a. O astfel de concluzie se p astreaz a si n cazul general,
adic a asemenea estimatori absolut corecti se pot pune n evident a si pentru mo-
mentele teoretice c
:
, r 2, respectiv pentru momentele centrate teoretice j
:
,
r 2 doar n cazul unei selectii repetate.
19
Cursul 5
1.6 Ecienta unui estimator [1]
Fie o
n
(A) = (A
1
, ..., A
n
) o selectie repetat a relativ a la variabila aleatoare
teoretic a A o caracteristic a comun a pentru elementele colectivit atii C si
)(r; 0) densitatea (functia) de probabilitate asociat a, unde parametrul teoretic
0 este necunoscut.
Fie

0
n
= q
n
(A
1
, A
2
, ..., A
n
) = q(A
1
, A
2
, ..., A
n
), (1.6.1)
o functie (o statistic a) ce depinde de variabilele de selectie A
1
, A
2
, ..., A
n
ce sunt
independente si identic repartizate ca si variabila aleatoare teoretic a A, adic a
avem
)
i
(r; 0) = )

(r; 0) = )(r; 0), i = 1, :. (1.6.2)


Functia de selectie

0
n
poate s a reprezinte un estimator corect (consistent si
deplasat) pentru parametrul necunoscut 0, deci s a e ndeplinite conditiile
_
a) '(

0
n
) = 0 +/
n
(0), /
n
(0) 0, :
/) 1
2
(

0
n
) 0, : .
(1.6.3)
iar m arimea
/
n
(0) = '(

0
n
) 0 (1.6.4)
reprezint a deplasarea (abaterea sau distorsiunea) estimatorului

0
n
. Aceast a de-
plasare va nul a dac a estimatorul

0
n
este absolut corect (consistent si nede-
plasat).
Ecienta estimatorului

0
n
, pentru parametrul necunoscut 0, se pote m a-
sura prin m arimea
1
}}
(

0
n
; 0) = '
_
(

0
n
0)
2
_
, (1.6.5)
ce reprezint a media p atratului abaterii lui

0
n
n raport cu valoarea teoretic a
necunoscut a 0.
Dac a
'
n,co:
(

0
n
) =
_

0
n
[ '(

0
n
) = 0 +/
n
(0), /
n
(0) 0, 1
2
(

0
n
) 0, :
_
(1.6.6)
reprezint a multimea tuturor estimatorilor corecti (consistenti si de-
plasati) corespunz atori parametrului teoretic necunoscut 0, atunci se ridic a
problema privind existenta, n aceast a multime, a unui estimator care s a mini-
mizeze m arimea '
_
(

0
n
0)
2
_
.
Denitia 1.6.1. [14] Functia

0
n
este un estimator ecient (ecace)
deplasat al parametrului necunoscut 0, si se noteaz a prin

0
n,t}}
, dac a
satisface conditia
20
min
b
0n21n;cor(
b
0n)
'
_
(

0
n
0)
2
_
= '
_
(

0
n,t}}
0)
2
_
, (1.6.7)
respectiv conditia
'
_
(

0
n,t}}
0)
2
_
_ '
_
(

0
n
0)
2
_
, \

0
n
'
n,co:
(

0
n
). (1.6.8)
Observatia 1.6.1. Dac a

0
n
este un estimator absolut corect (consis-
tent si nedeplasat) pentru parametrul teoretic necunoscut 0, atunci au loc
relatiile
'(

0
n,t}}
) = 0, (1.6.9)
1
2
(0
n,t}}
) = '
2
(

0
n,t}}
)
_
'(

0
n,t}}
)
_
2
=
= '
2
(

0
n,t}}
) 0
2
. (1.6.10)
Pe baza acestor relatii, relatia (1.6.8) se mai poate transcrie sub forma
1
2
(

0
n,t}}
) _ 1
2
(

0
n
), \

0
n
'
n,oco:
(

0
n
), (1.6.11)
respectiv, sub forma
'
2
(

0
n,t}}
) 0
2
_ '
2
(

0
n
) 0
2
, \

0
n
'
n,oco:
(

0
n
), (1.6.12)
si, de aici, inegalitatea
'
2
(

0
n,t}}
) _ '
2
(

0
n
), \

0
n
'
n,oco:
(

0
n
), (1.6.13)
unde, de data aceasta, multimea
'
n,oco:
(

0
n
) =
_

0
n
[ '(

0
n
) = 0, 1
2
(

0
n
) 0, :
_
(1.6.14)
reprezint a multimea tuturor estimatorilor absolut corecti corespunz atori
parametrului teoretic necunoscut 0.
Observatia 1.6.2. Atunci cnd pentru un parametru teoretic necunoscut
0, se urm areste stabilirea unui estimator

0
n
, se ridic a problema ecacit atii (e-
cientei) acestuia n raport cu un alt estimator al aceluiasi parametru necunoscut
0. Astfel, se ajunge la notiunea de ecacitate (ecient a) relativ a.
Denitia 1.6.2. Dac a

0
n
,

0
n,t}}
'
n,co:
(

0
n
),

0
n
oarccarc iar

0
n,t}}
c:ti:ator
corcct si c)icic:t a| |ni 0
(1.6.15)
21
atunci ecienta relativ a (a estimatorului

0
n
, n raport cu

0
n,t}}
), notat a prin
c
n
(0;

0
n
) = c
n
(0), este denit a prin relatia
c
n
(0) =
'
_
(

0
n,t}}
0)
2
_
'
_
(

0
n
0)
2
_ . (1.6.16)
Denitia 1.6.3. Dac a

0
n
,

0
n,t}}
'
n,oco:
(

0
n
), n:dc
_

0
n
oarccarc iar

0
n,t}}
c:ti:ator
absolut corect si c)icic:t a| |ni 0
(1.6.17)
atunci ecienta relativ a se m asoar a prin raportul
c
n
(0) =
'
2
(

0
n,t}}
)
'
2
(

0
n
)
. (1.6.18)
Pentru ecienta (ecacitatea) relativ a c
n
(0) avem, n mod evident, re-
latia
0 _ c
n
(0) _ 1, (1.6.16a)
respectiv, relatia
c
n
(0) = 1, (1.6.18a)
dac a

0
n
=

0
n,t}}
.
Denitia 1.6.4. Un estimator se numeste asimptotic ecient (asimp-
totic ecace) dac a avem
lim
n!1
c
n
(0) = 1. (1.6.19)
1.7 Inegalitatea lui Rao - Cramr - Frchet
n conditiile paragrafului precedent, e

0
n
= q
n
(A
1
, A
2
, ..., A
n
) (1.7.1)
o statistic a (variabil a aleatoare) cu densitatea de probalilitate
\
n
(x; 0) = \
n
(r
1
, r
2
, ..., r
n
; 0), x = (r
1
, r
2
, ..., r
n
) R
n
, (1.7.2)
unde
x = (r
1
, r
2
, ..., r
n
) R
n
, (1.7.3)
n optica ipotetic a, este un punct aleator din spatiul real :-domensional
(spatiul de selectie) R
n
si, evident, avem
_
R
n
\
n
(x; 0)dx = 1, n:dc dx = dr
1
dr
2
...dr
n
. (1.7.4)
22
Functia (1.7.2) se numeste functie de verosimilitate, atunci cnd este
considerat a ca o functie de 0, respectiv probabilitate de selectie, atunci
cnd este considerat a ca si o functie de x, x = (r
1
, r
2
, ..., r
n
), pentru 0 1
0
, 0
- xat.
S-a precizat faptul c a, dac a

0
n
este un estimator corect (consistent si
deplasat) pentru parametrul necunoscut 0, atunci, prin denitie, trebuie s a e
ndeplinite conditiiele
_
a) '(

0
n
) = 0 +/
n
(0), /
n
(0) 0, :
/) 1
2
(

0
n
) 0, : ,
(1.7.5)
iar ecacitatea unui astfel de estimator se m asoar a prin media p atratului aba-
terii lui

0
n
fat a de 0, adic a
1
}}
(

0
n
, 0) = '
_
(

0
n
0)
2
_
. (1.7.6)
Teorema 1.7.1. (Inegalitatea Rao-Cramr-Frchet) Dac a

0
n
este un
estimator corect pentru parametrul necunoscut 0 atunci, n anumite conditii,
ecacitatea estimatorului

0
n
satisface ntotdeauna inegalitatea
1
}}
(

0
n
, 0) = '
_
(

0
n
0)
2
_
_
[1 +/
0
n
(0)]
2
'
_
_
0 (|: \
n
(x; 0))
00
_
2
_, (1.7.7)
oricare ar 0 1
0
.
Consecinta 1.7.1. Dac a functia de selectie

0
n
= q
n
(A
1
, A
2
, ..., A
n
) (1.7.8)
reprezint a un estimator absolut corect (consistent si nedeplasat) al para-
metrului teoretic necunoscut 0, deci dac a au loc relatiile
_
a) '(

0
n
) = 0
/) 1
2
(

0
n
) 0, : ,
(1.7.9)
atunci inegalitatea lui Rao-Cramr-Frchet primeste forma
'
_
(

0
n
'(

0
n
))
2
_
= 1
2
(

0
n
) _
1
1
8
<
:
2
4
0
00
(ln Vn(x;0))
3
5
2
9
=
;
=
1
1
2
2
4
0
00
(ln Vn(x;0))
3
5
,
(1.7.10)
c aci are loc egalitatea
1
2
_
0
00
(ln\
n
(x; 0))
_
= '
_
_
0
00
(ln\
n
(x; 0))
_
2
_
. (1.7.11)
23
Lema 1.7.1. [1] Are loc egalitatea
'
_
_
0
00
(ln\
n
(x; 0))
_
2
_
= '
_
0
2
00
2
(ln\
n
(x; 0))
_
. (1.7.12)
Observatia 1.7.1. Pe baza relatiei (1.7.12), inegalitatea lui Rao-Cramr-
Frchet, prezentat a sub formele (1.7.7) si (1.7.10), se mai poate transcrie sub
forma
'
_
(

0
n
0)
2
_
_ 1
2
(

0
n
) _
[1 +/
0
n
(0)]
2
'
_
0
2
00
2
[ln\
n
(x; 0)]
_ , (1.7.13)
dac a

0
n
este un estimator corect pentru 0, respectiv sub forma
'
_
(

0
n
0)
2
_
= 1
2
(

0
n
) _
1
'
_
0
2
00
2
[ln\
n
(x; 0)]
_, (1.7.14)
dac a

0
n
este un estimator absolut corect pentru 0.
Denitia 1.7.1 Estimatorul absolut corect

0
n
al parametrului teoretic
necunoscut 0 este un estimator ecient (ecace) dac a relatia (1.7.10) are loc
cu semnul egal.
Cu alte cuvinte, un estimator absolut corect este ecient dac a dispersia
sa si atinge valoarea minim a.
24
Capitolul 2
REGRESIA LINIAR

A SIMPL

A ( MODEL LINIAR SIMPLU)


Cursul 6
2.1 Functia de regresie. Regresia liniar a simpl a [2]
Fie 1 o variabil a aleatoare ale c arei valori depind de o variabil a independent a
(nealeatoare) A , adic a are loc relatia
1 = q(A) +n, (2.1.1)
respectiv relatia functional a
j = q(r) +n, (2.1.2)
unde functia q(r), numit a functie de regresie, are o form a cunoscut a ce
depinde de anumiti coecienti (parametri) necunoscuti iar m arimea n (care se
mai noteaz a si prin -) este o variabil a aleatoare ce reprezint a eroarea de
m asurare (perturbatia).
Observatia 2.1.1. Din punct de vedere matematic, dintre multiplele forme
pe care le poate avea o functie de regresie q(r), amintim:
q(r) = c +,r )or:a |i:iar a
q(r) = c
0
+c
1
r +c
2
r
2
)or:a jara/o|ic a
q(r) = a
0
+a
1
r +a
2
r
2
+... +a
n
r
n
, : N

)or:a jo|i:o:ia| a
q(r) = 1c
or
)or:a crjo:c:tia| a
q(r) = r

)or:a jntcrc
etc.
n cazul regresiei liniare si, n general, a regresie polinomiale, functia
de regresie este liniar a n raport cu parametrii (de regresie). n cazul re-
gresiei exponentiale sau putere aceast a dependent a este neliniar a dar exist a
procedee de liniarizare.
Observatia 2.1.2. O analiza a modelului liniar (a regresiei liniare) se poate
face n functie de presupunerile f acute asupra variabilei aleatoare n.
Astfel, n ipotezele
'(n) =0;1
2
(n) =o
2
, jc:trn oricc A, (2.1.3)
pentru modelul liniar simplu (regresia liniar a simpl a)
1 = c +,A +n, (2.1.4)
25
se obtin relatiile
_
'(1 ) = c +,A
1
2
(1 ) = o
2
,
(2.1.5)
unde caracterul aleator al m arimii 1 este implicat de faptul c a eroarea (per-
turbatia) n, exprimat a prin relatia
n = 1 (c +,A) (2.1.4a)
este o variabil a aleatoare.
Altfel spus, n este termenul neobservat al erorii care reprezint a partea vari-
abilei dependente r amas a (l asat a) neexplicat a de variabilele independente (ex-
plicative sau regresori). M arimile c, , si o
2
sunt parametrii modelului liniar
(2.1.4); c, , numindu-se si coecienti de regresie (coecientii regresiei liniare).
Relatia (2.1.4) mai este cunoscut a si sub denumirea de ecuatia de regresie.
Dac a prin c si

, not am estimatorii parametrilor necunoscuti c si ,
atunci, n baza conditiilor (2.1.5), statistica

1 =
\
'(1 ) = c +

,A (2.1.6)
reprezint a un estimator pentru valoarea medie '(1 ) precizat a n (2.1.5).
Observatia 2.1.3. S a presupunem c a pentru m arimea nealeatoare A
(numit a, uneori, si variabil a de control) se precizeaz a (preselecteaz a) valo-
rile reale r
1
, r
2
, ..., r
n
si, mai mult, c a la ecare asemenea valoare preselectat a
r
I
se asociaz a variabila 1
I
o
n
(1 ) = (1
1
, 1
2
, ..., 1
n
), 1
I
variabila de selectie
ce reprezint a pe 1 la selectia i, i = 1, :.
Atunci, secventa de perechi
(r
1
, 1
1
), (r
2
, 1
2
), ..., (r
n
, 1
n
), (2.1.7)
poate considerat a, n "optica ipotetic a", ca ind o selectie aleatoare
relativ a att la variabila aleatoare 1 precum si la variabila nealeatoare A.
n mod evident, de ndat a ce selectia relativ a la variabila aleatoare 1 a fost
realizat a, secvent a (2.1.7) se transform a ntr-o secvent a de perechi de numere
reale de forma
(r
1
, j
1
), (r
2
, j
2
), ..., (r
n
, j
n
). (2.1.7a)
Cu aceste preciz ari, relatiei (2.1.4) i va corespunde sistemul de ecuatii
de regresie
1
I
= c +,r
I
+n
I
, i = 1, :, (2.1.7b)
respectiv, sistemul echivalent de ecuatii
n
I
= 1
I
(c +,r
I
) = 1
I
'(1
I
), i = 1, :, (2.1.7c)
26
unde m arimile n
I
reprezint a deviatia valorii observate 1
I
fat a de valoarea ei me-
die '(1
I
), i = 1, : (sau eroarea de observatie (de m asurare)). Cu alte cuvinte,
aceste m arimi sunt considerate ca ind reziduurile aleatoare (sau erorile
aleatoare) asociate variabilelor de selectie 1
I
, i = 1, :.
Teorema 2.1.1. n ipotezele Observatiei 2.1.2, estimatorii (n sensul
celor mai mici p atrate) c si

, , corespunz atori parametrilor necunoscuti c
si ,, sunt de forma
_

_
c = 1

,r

, =
n
P
i=1
(YiY )(rir)
n
P
i=1
(rir)
2
=
n
P
i=1
Yi(rir)
n
P
i=1
(rir)
2
,
(2.1.8)
dac a avem ndeplinit a conditia
n

I=1
(r
I
r)
2
,= 0, (2.1.8a)
unde
r =
1
:
n

I=1
r
I
, r R sau
n

I=1
(r
I
r) = 0, (2.1.9)
1 =
1
n
n

I=1
1
I
, 1 variabil a aleatoare (o statistic a). (2.1.10)
Demonstratie. Conform principiului metodei celor mai mici p atrate,
estimatorii optimali n sensul celor mai mici p atrate, c si

, , pentru parametrii
necunoscuti c si ,, vor acele valori ale lui c si , care minimizeaz a functia
(criteriu)
o(c, ,) =
n

I=1
_
o
1
I
_
2
=
n

I=1
[1
I
'(1
I
)]
2
=
n

I=1
[1
I
(c +,r
I
)]
2
, (2.1.11)
unde, n "optica ipotetic a", o(c, ,) reprezint a suma p atratelor variabilelor
abatere
o
1
I
= 1
I
'(1
I
), unde '(1
I
) = c +,r
I
, i = 1, :. (2.1.11a)
Rezolvarea unei asemenea probleme de minim revine, de fapt, la rezolvarea
unei probleme de extrem pentru functia criteriu o(c, ,), unde necunos-
cutele sunt coecientii de regresie c si ,.
Astfel, calculnd derivatele partiale ale functiei o(c, ,) n raport cu c si ,,
obtinem relatiile
27
_

_
0o(c, ,)
0c
= 2
n

I=1
[1
I
(c +,r
I
)] (1) =
= 2
n

I=1
[1
I
c ,r
I
]
0o(c, ,)
0,
= 2
n

I=1
[1
I
(c +,r
I
)] (r
I
) =
= 2
n

I=1
_
r
I
1
I
cr
I
,r
2
I

(2.1.12)
iar conditiile necesare de extrem
0o(c, ,)
0c
= 0,
0o(c, ,)
0,
= 0, (2.1.12a)
conduc la sistemul de ecuatii normale al lui Gauss
_

_
:c +,
n

I=1
r
I
=
n

I=1
1
I
c
n

I=1
r
I
+,
n

I=1
r
2
I
=
n

I=1
r
I
1
I
.
(2.1.13)
Solutiile, precizate n relatiile (2.1.8), se obtin prin rezolvarea sistemului
_

_
: c +

,
n

I=1
r
I
=
n

I=1
1
I
c
n

I=1
r
I
+

,
n

I=1
r
2
I
=
n

I=1
r
I
1
I
.
(2.1.13a)
Mai mult, faptul c a functia o(c, ,) este o sum a de p atrate, ne conduce la
concluzia: punctul stationar ( c,

,) este un punct de minim pentru o astfel de


functie. (Aceast a concluzie se reg aseste si prin intermediul conditiilor suciente
de extrem deoarece matricea hessian a, H( c,

,), asociat a diferentialei totale


de ordinul doi d
2
o(c, ,), este pozitiv denit a).
Observatia 2.1.4. Estimatorii c si

, se mai pot exprima si sub formele
_
c = 1

,r

, =
S
xY
Sxx
,
(2.1.14)
dac a se au n vedere exprim arile
_

_
n

I=1
(1
I
1 )(r
I
r) =
n

I=1
1
I
r
I
:r1
n

I=1
(r
I
r)
2
=
n

I=1
r
2
I
:r
2
,
(2.1.14a)
respectiv notatiile si exprim arile consacrate pentru covarianta de se-
lectie, respectiv pentru dispersiile de selectie
co(r, 1 ) = o
rY
=
1
:
n

I=1
1
I
r
I
r1 , (2.1.15)
28
respectiv
o
2
r
= o
rr
=
1
:
n

I=1
r
2
I
r
2
, o
2
Y
= o
Y Y
=
1
:
n

I=1
1
2
I
1
2
, (2.1.16)
unde , n optica ipotetic a, att dispersia de selectie (statistica o
2
Y
=
o
Y Y
), precum si covarianta de selectie (statistica co(r, 1 ) = o
rY
), ce sunt
functii de variabilele de selectie 1
1
, 1
2
, ..., 1
n
, vor variabile aleatoare.
Aceste ultime preciz ari, subliniaz a faptul c a n optica ipotetic a ns asi
estimatorii (statisticile) c si

, (precizati n relatiile (2.1.8)) sunt variabile
aleatoare.
Dac a selectia a fost efectuat a, atunci estimatorii c si

, vor deveni es-
timatii (numere reale) pentru coecientii de regresie necunoscuti c si ,
deoarece statisticile o
2
Y
= o
Y Y
si co(r, 1 ) = o
rY
se vor nlocui prin nu-
merele reale
o
2

= o

=
1
:
n

I=1
(j
I
j)
2
, respectiv co(r, j) = o
r
=
1
:
n

I=1
1
I
r
I
rj
(2.1.17)
ce reprezint a dispersia empiric a (de selectie), respectiv covarianta em-
piric a de selectie, unde
j =
1
:
n

I=1
j
I
(2.1.17a)
este media de selectie a valorilor variabilelor de selectie.
Observatia 2.1.5. Valoarea minim a a sumei p atratelor erorilor se
poate exprima astfel
o
min
= o( c,

,) =
n

I=1
[1
I
( c +

,r
I
)]
2
=
= :o
Y Y
(1 r
2
rY
), (2.1.18)
unde
r
rY
= r =
o
rY
_
o
rr
_
o
Y Y
, r [1, 1], iar r
2
=

,
o
rY
o
Y Y
=
o
2
rY
o
rr
o
Y Y
, r
2
[0, 1],
(2.1.18a)
reprezint a coecientul de corelatie de selectie, respectiv coecientul de
determinare.
29
Cursul 7
2.2. Propriet atile estimatorilor c si

, n cazul regresiei liniare
simple [2]
Avnd n vedere preciz arile si notatiile din Cursul 6 vom pune n evident a
principalele propriet ati ale estimatorilor (n sensul celor mai mici p atrate) c si

,.
Proprietatea 2.2.1. [P-1.] Estimatorii c si

, sunt functii liniare de
variabilele de selectie 1
1
, 1
2
, ..., 1
n
, adic a avem exprim arile

, =
n

I=1
1
I
(r
I
r)
n

I=1
(r
I
r)
2
=
n

I=1
c
I
1
I
, n:dc c
I
=
(r
I
r)
:o
rr
, i = 1, :, (2.2.1)
respectiv
c = 1

,r =
=
n

I=1
d
I
1
I
, n:dc d
I
=
1
:
r
(r
I
r)
:o
rr
, i = 1, :.
(2.2.2)
Proprietatea 2.2.2. [P-2.] Estimatorii c si

, sunt estimatori absolut
corecti (deci si nedeplasati) pentru parametrii necunoscuti c si ,, adic a avem
_
a) '( c) = c,
/) 1
2
( c) =
c
2
n
_
1 +
r
2
Sxx
_
0, dac a : ,
(2.2.3)
respectiv
_
_
_
'(

,) = ,,
1
2
(

,) =
o
2
:o
rr
0, : .
(2.2.4)
Proprietatea 2.2.3. [P-3.] Estimatorii c si

, sunt ntotdeauna m arimi
corelate si avem
co(

,, c) =
o
2
r
:o
rr
, dac a r ,= 0. (2.2.5)
Proprietatea 2.2.4. [P-4.] Estimatorul absolut nedeplasat, pentru
parametrul necunoscut o
2
, este reprezentat de statistica
o
2
=
1
: 2
n

I=1
_
1
I
( c +

,r
I
)
_
2
=
u
2
: 2
, (2.2.6)
care veric a relatia
30
'( o
2
) = o
2
, (2.2.7)
unde
u
2
= u
T
u =
n

I=1
_
1
I
( c +

,r
I
)
_
2
=
n

I=1
n
2
I
, (2.2.8)
reprezint a suma p atratelor erorilor (reziduurilor) estimate sau suma
p atratelor erorilor reziduale.
Proprietatea 2.2.5. [P-5.] Dac a 1
1
, 1
2
, ..., 1
n
sunt variabile aleatoare
independente si normal distribuite avnd
'(1
I
) = c +,r
I
, 1
2
(1
I
) = o
2
, i = 1, :, (2.2.9)
atunci pentru parametrii necunoscuti c si ,, estimatorii de verosimilitate
maxim a, notati prin c

si ,

, coincid cu estimatorii n sensul celor mai


mici p atrate c si

,, adic a avem
_

_
,

=

, =
n
P
i=1
(YiY )(rir)
n
P
i=1
(rir)
2
=
n
P
i=1
(rir)Yi
n
P
i=1
(rir)
2
=
S
xY
Sxx
,
c

= c = 1

,r
(2.2.10)
unde
_

_
o
rr
=
1
n
n

I=1
(r
I
r)
2
,
o
rY
=
1
n
n

I=1
(1
I
1 )(r
I
r) =
1
n
n

I=1
(r
I
r)1
I
,
r =
1
n
n

I=1
r
I
, 1 =
1
n
n

I=1
1
I
.
(2.2.10a)
Demonstratie. n ipotezele date, functia de verosimilitate, asociat a vari-
abilelor aleatoare 1
1
, 1
2
, ..., 1
n
, va avea forma
1
n
(j
1
, j
2
, ..., j
n
; c, ,) =
n

I=1
)(j
I
; c, ,) =
=
_
1
_
2o
_
n
crj
_

1
2c
2
n

I=1
[j
I
(c +,r
I
)]
2
_
,
(2.2.11)
iar forma logaritmic a a acesteia va
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,) = : |:
_
1
_
2o
_

1
2c
2
n

I=1
[j
I
(c +,r
I
)]
2
.
(2.2.11a)
31
Conform metodei verosimilit atii maxime, va trebui s a determin am sta-
tisticile c

si ,

, ce sunt functii de datele de selectie j


1
, j
2
, ..., j
n
(valorile vari-
abilelor de selectie 1
1
, 1
2
, ..., 1
n
) astfel nct functia (2.2.11a), respectiv functia
(2.2.11), s a aib a valoarea maxim a.
Astfel, calculnd derivatele partiale de ordinul nti ale functiei logaritmice
(2.2.11a), g asim
_

_
0 |: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0c
=
1
c
2
n

I=1
[j
I
(c +,r
I
)]
0 |: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0,
=
1
c
2
n

I=1
[j
I
(c +,r
I
)] (r
I
),
(2.2.11b)
si, pe baza lor, conditiile necesare de extrem ne conduc la sistemul de verosi-
militate
_

_
n

I=1
[j
I
(c +,r
I
)] = 0
n

I=1
[j
I
(c +,r
I
)] r
I
= 0.
(2.2.11c)
Rezolvnd acest sistemul de ecuatii (n care c = c

, , = ,

) se g aseste
solutia (2.2.10).
Faptul c a punctul stationar (c

, ,

) reprezint a un punct de maxim pentru


functia (7.1.11a), respectiv, (2.2.11), va rezulta vericnd conditiile suciente
de extrem.
Astfel, pornind de la derivatele partiale de ordinul nti, precizate n relatiile
(2.2.11b), obtinem derivatele partiale de ordinul doi
_

_
0
2
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0,
2
=
1
o
2
n

I=1
r
2
I
0
2
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0c
2
=
:
o
2
0
2
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0c0,
=
1
o
2
n

I=1
r
I
(2.2.12)
iar matricea Hessian a, asociat a functiei |: 1
n
(j
1
, j
2
, ..., j
n
; c, ,), adic a
H(c, ,) =
_

_
0
2
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0c
2
0
2
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0c0,
0
2
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0,0c
0
2
|: 1
n
(j
1
, j
2
, ..., j
n
; c, ,)
0,
2
_

_
,
(2.2.13)
evaluat a n punctul (c

, ,

), va avea forma
H(c

, ,

) =
_

n
c
2

1
c
2
n

I=1
r
I

1
c
2
n

I=1
r
I

1
c
2
n

I=1
r
2
I
_

_
. (2.2.13a)
32
Deoarece avem

1
=
:
o
2
< 0,

2
=

n
c
2

1
c
2
n

I=1
r
I

1
c
2
n

I=1
r
I

1
c
2
n

I=1
r
2
I

=
=
_

1
o
2
_
2
_
_
:
n

I=1
r
2
I

_
n

I=1
r
I
_
2
_
_
=
=
1
(o
2
)
2
[:(:o
rr
+:r
2
) (:r)
2
] =
=
1
(o
2
)
2
:
2
o
rr
0,
dac a nu toate valorile r
I
, i = 1, :, sunt egale cu zero, atunci, conform criteri-
ului (sucient) al lui Sylvester, rezult a c a matricea Hessian a H(c

, ,

)
este negativ denit a iar punctul stationar (c

, ,

) corespunde la un maxim
pentru functia de verosimilitate considerat a. Aceast a concluzie demonstreaz a
Proprietatea 2.2.5.
Proprietatea 2.2.6. [P-6.] Estimatorii n sensul celor mai mici p atrate
c si

,, pentru parametrii necunoscuti c si ,, atunci cnd suntem n ipotezele
propriet atii precedente, sunt estimatori consistenti.
Demonstratie. Aceast a proprietate este o consecint a a propriet atii precedente
precum si a teoremei conform c areia : orice estimator de verosimilitate maxim a
0

este si un estimator consistent pentru parametrul necunoscut 0.


Proprietatea 2.2.7. [P-7.] n conditiile Propriet atii 2.2.5, estimatorii
n sensul celor mai mici p atrate c = c

si

, = ,

sunt independenti
dac a si numai dac a este ndeplinit a conditia
n

I=1
r
I
= 0. (2.2.14)
Proprietatea 2.2.8. [P-8.] n ipotezele Propriet atii [P-5], pentru para-
metrul necunoscut o
2
, estimatorul de verosimilitate maxim a (o
2
)

este diferit
de estimatorul o
2
precizat n Proprietatea [P-4] si avem
o
2
=
u
2
: 2
,=
u
2
:
= (o
2
)

. (2.2.15)
33
Cursul 8
2.3 Forma matriceal a pentru modelul liniar simplu [2]
Am v azut c a dac a pentru modelul liniar simplu
1 = c +,A +n, (2.3.1)
s-au impuns conditiile
'(n) = 0; 1
2
(n) = o
2
, jc:trn oricc A, (2.3.2)
si, pe baza lor, s-au obtinut relatiile
_
'(1 ) = c +,A
1
2
(1 ) = o
2
,
(2.3.3)
unde c si , sunt parametrii (coecientii) necunoscuti ai modelului liniar (2.3.1).
n cele ce urmeaz a vom prezenta metoda matriceal a privind determinarea
estimatorilor (n sensul celor mai mici p atrate) c si

, .
Forma matriceal a a relatiei (2.3.2)
Y = X +u (2.3.4)
unde, pe baza a : observatii, avem relatiile
1
I
= c +,r
I
+n
I
, i = 1, :, (2.3.4a)
respectiv matricele
Y =
_

_
1
1
1
2
...
1
n
_

_
, di: Y =: 1; X =
_

_
1 r
1
1 r
2
... ...
1 r
n
_

_
, di: X =: 2; (2.3.4b)
u =
_

_
n
1
n
2
...
n
n
_

_
, di: u =: 1; =
_
c
,
_
, di: =2 1, (2.3.4c)
unde X matrice real a cu toate elementele cunoscute iar u vectorul aleator
al erorilor (perturbatiilor) de m asurare sau observare.
Deoarece
X
T
X =
_
1 1 ... 1
r
1
r
2
... r
n
_
_

_
1 r
1
1 r
2
... ...
1 r
n
_

_
=
_

_
:
n

I=1
r
I
n

I=1
r
I
n

I=1
r
2
I
_

_
(2.3.5)
34
iar
X
T
Y =
_

_
n

I=1
1
I
n

I=1
r
I
1
I
_

_
, (2.3.5a)
atunci sistemul de ecuatii normale al lui Gauss, adic a
_

_
:c +,
n

I=1
r
I
=
n

I=1
1
I
,
c
n

I=1
r
I
+,
n

I=1
r
2
I
=
n

I=1
r
I
1
I
(2.3.6)
va avea urm atoarea form a matriceal a
(X
T
X)

= X
T
Y, unde

=
_
c

,
_
. (2.3.7)
Dac a (X
T
X)
1
exist a (deci dac a ra:q X = 2), atunci solutia matriceal a
va de forma

nc
=
_
c

,
_
= (X
T
X)
1
X
T
Y =
_

_
1

,r
n
P
i=1
Yi(rir)
n
P
i=1
(rir)
2
_

_
, (2.3.8)
si, de aici, reg asim solutia
c = 1

,r (2.3.9)

, =
n

I=1
(1
I
1 )(r
I
r)
n

I=1
(r
I
r)
2
=
=
n

I=1
1
I
(r
I
r)
n

I=1
(r
I
r)
2
=
=
o
rY
o
rr
. (2.3.10)
unde
35
o
rr
=
1
:
n

I=1
(r
I
r)
2
; (2.3.10a)
o
rY
=
1
:
n

I=1
(r
I
r)(1
I
1 ); (2.3.10b)
r =
1
:
n

I=1
r
I
; 1 =
1
:
n

I=1
1
I
. (2.3.10c)
Ct priveste forma general a a estimatorului o
2
, corespunz ator para-
metrului necunoscut o
2
, deci relatia
o
2
=
_
YX

nc
_
T
_
YX

nc
_
: /
=
=
Y
T
Y

T
nc
X
T
Y
: /
, (2.3.11)
pentru modelul liniar simplu considerat, avem forma
o
2
=
Y
T
Y

T
nc
X
T
Y
: 2
, (2.3.11a)
unde, la numitor, apare : 2, adic a din num arul de observatii : se scade
2 num arul parametrilor (coiecientilor) necunoscuti ce apar n modelul liniar
considerat.
Exemplul 2.3.1. Dac a matricele Y si X sunt de forma
Y =
_

_
0
0
1
1
3
_

_
si X =
_

_
1 2
1 1
1 0
1 1
1 2
_

_
,
atunci
X
T
X =
_
5 0
0 10
_
, X
T
Y =
_
5
7
_
, (X
T
X)
1
=
_
1
5
0
0
1
10
_
,
iar

nc
=
_
c

,
_
= (X
T
X)
1
X
T
Y =
_
1
5
0
0
1
10
_ _
5
7
_
=
_
1, 0
0, 7
_
.
Asadar, estimatiile n sensul celor mai mici p atrate, corespunz atoare coe-
cientilor de regresie , si c, vor
36
c = 1;

, = 0, 7
iar dreapta de regresie (ecuatia de regresie de selectie) va avea forma
j =

, + cr = 1 + 0, 7r.
Apoi, matricea covariantelor, asociat a estimatorului vectorial al celor
mai mici p atrate, are forma
K
b
mc
= o
2
(X
T
X)
1
= o
2
_
1
5
0
0
1
10
_
=
_
co( c, c) co( c,

,)
co(

,, c) co(

,,

,)
_
,
si, de aici, obtinem
1
2
( c) = co( c, c) =
1
5
o
2
; 1
2
(

,) = co(

,,

,) =
1
10
o
2
; co( c,

,) = 0.
Trecnd la determinarea estimatorului o
2
se constat a c a, pentru suma pa-
tratelor reziduurilor, avem
S = u
T
u = Y
T
Y

T
nc
X
T
Y =
=
_
0 0 1 1 3

_

_
0
0
1
1
3
_

_
1 0, 7

_
1 1 1 1 1
2 1 0 1 2
_
_

_
0
0
1
1
3
_

_
=
= 11 9, 9 = 1, 1
iar pe baza relatiei (2.3.11a), se obtine estimatia
o
2
=
u
2
: 2
=
u
T
u
: 2
=
1, 1
5 2
= 0, 367.
37
Capitolul 3
INFEREN TA STATISTIC

A N REGRESIA LINIAR

A
Cursul 9
3.1 Preciz ari privind distributia normal a [3]
Denitia 3.1.1. Variabila aleatoare de tip continuu A urmeaza reparti tia
normala daca func tia densitate de probabilitate asociata are forma
)(r) =
1
_
2o
c

1
2
(
xm

)
2
, r R (3.1.1)
unde : = '(A), o
2
= 1
2
(A) sunt parametrii reparti tiei, o 0, : R.
Gracul densit atii de probabilitate (3.1.1) este prezentat n Fig. 3.1.1.
Fig. 3.1.1
Functia de repartitie corespunz atoare unei variabile aleatoare normal dis-
tribuite are forma
1(r) = 1(A < r) =
1
_
2o
r
_
1
c

tm
p
2

2
dt (3.1.2)
avnd gracul
38
Fig.3.1.2
si proprietatea
1(:) =
1
_
2o
n
_
1
c

tm
p
2

2
dt =
1
2
, (3.1.3)
dac a se are n vedere relatia ce deneste simetria
)(:a) = )(:+a), \a R. (3.1.3a)
Momentele centrate j
s
, denite prin relatia
j
s
= '((A :)
s
) =
+1
_
1
(r :)
s
)(r; :, o)dr =
=
1
_
2o
+1
_
1
(r :)
s
c

xm
p
2

2
dr, (3.1.4)
vor avea valorile
_
j
2|+1
= 0, / = 0, 1, 2, ...
j
2|
= (2/ 1)!!o
2|
, / = 0, 1, 2, ... .
(3.1.5)
iar, pe baza acestora, coecientii lui R. A. Fisher vor
o
1
(A) =
j
3
(A)
o
3
= 0, o
2
(A) =
j
4
(A)
o
4
3 = 0. (3.1.6)
Denitia 3.1.2. Dac a A este o variabil a aleatoare cu distributia (:; o),
atunci variabila aleatoare 7, denit a prin relatia
7 =
A :
o
, : = '(A), o
2
= 1
2
(A) (3.1.7)
se numeste variabil a aleatoare normal a si normat a, unde '(7) = 0 si
1
2
(7) = 1.
39
Functia densitate de probabilitate asociat a are forma
)

(.) = )(.; 0, 1) =
1
_
2
c

z
2
2
, . R, (3.1.8)
si, evident, au loc relatiile
)(r; :, o) =
1
o
)(
r :
o
; 0, 1) =
1
o
)

(.)[
:=
xm

, (3.1.9)
1(.; 0, 1) = 1

(.) = 1(7 < .) =


1
_
2
:
_
1
c

t
2
2
dt, . R. (3.1.10)
Gracele asociate functiilor )(.; 0, 1) si 1(.; 0, 1) sunt prezentate n gurile
3.1.3 si 3.1.4
Fig. 3.1.3
Fig.3.1.4
si, evident, au loc relatiile
)

(.) = )

(.), . R, (3.1.11)
40
1

(.) = 1 1

(.), . R, (3.1.12)
respectiv, interpretarea
Fig. 3.1.5
Denitia 3.1.3. Functia lui Laplace (func tia integrala a lui Laplace),
notata (.), este denita prin rela tia
(.) =
1
_
2
:
_
0
c

t
2
2
dt (3.1.13)
cu interpretarea
Fig. 3.1.6
Din gracul functiei lui Laplace (.)
41
Fig. 3.1.7
se desprind propriet atile functiei lui Laplace
_

_
1
0
(0) = 0,
2
0
(+) =
1
2
,
3
0
() =
1
2
,
4
0
(.) = (.)
(3.1.14)
precum si relatiile
1(r) =
1
2
+
_
r :
o
_
, r R, (3.1.15)
1(a < A < /) = (
/ :
o
) (
a :
o
), a, / 1, a < /, (3.1.16)
1(t < A < t) = 2(t), t R; (3.1.17)
1([A :[ < -) = 1(:- < A < :+-) = 2(
-
o
), - 0; (3.1.18)
1([A :[ _ -) = 1 2(
-
o
); (3.1.19)
1([A :[ < /o) = 2(/), / 0; (3.1.20)
1([A :[ _ /o) = 1 2(/), (3.1.21)
respectiv, "regula celor trei sigma"
1([A :[ < 3o) = 2(3) 0, 9974 (3.1.22)
42
Cursul 10
3.2 Metoda de estimare prin intervale [1]
Fie C o colectivitate si A o caracteristic a comun a pentru elementele acesteia.
Presupunem c a se cunoaste expresia analitic a pentru functia (densitatea) de
probabilitate asociat a acestei variabile aleatoare teoretice A, adic a )(r; 0), unde
0 este un parametru necunoscut, 0 1
0
do:c:in| jara:ctrn|ni, 1
0
_ R.
Fie o o selectie de volum : si o
n
(A) = (A
1
, A
2
, ..., A
n
) vectorul de selectie
asociat. Dac a selectia s-a realizat, atunci vectorului de selectie o
n
(A) i va core-
spunde un vector numeric : dimensional x = (r
1
, r
2
, ..., r
n
), x R
n
spatiul
de selectie, unde m arimile r
1
, r
2
, ..., r
n
sunt tocmai valorile asociate variabilelor
de selectie A
1
, A
2
, ..., A
n
.
Fie

0
n
= q
n
(A
1
, A
2
, ..., A
n
) (3.2.1)
o statistic a sau o functie de selectie.
Denitia 3.2.1. Dac a selectia a avut loc, atunci functia vectorial a
q
n
: R
n
R, (3.2.2)
ce asociaz a punctului :di:c::io:a| x = (r
1
, r
2
, ..., r
n
), x R
n
num arul real
q
n
(r
1
, r
2
, ..., r
n
) R reprezint a o estimatie (punctual a) pentru parametrul
necunoscut 0 si avem aproximarea
0 - q
n
(r
1
, r
2
, ..., r
n
). (3.2.2a)
n acest caz, despre statistica

0
n
= q
n
(A
1
, A
2
, ..., A
n
) se spune c a reprezint a
un estimator punctual.
n continuare ne propunem s a determin am precizia (respectiv eroarea) pe
care o are un asemenea estimator punctual. Evident, precizia (eroarea) va de-
pinde att de tipul estimatorului folosit ct si de volumul de selectie :.
Metoda de estimare a parametrilor bazat a pe intervale de ncredere const a
n a g asi un interval n care s a se g aseasc a valoarea teoretic a estimat a (para-
metrul estimat) precum si probabilitatea cu care parametrul estimat apartine
acestui interval. Un asemenea interval se va numi interval de ncredere iar
probabilitatea asociat a va reprezenta coecientul de ncredere. Metoda de
construire a unui interval de ncredere se mai numeste si metoda de estimare
prin intervale.
Denitia 3.2.2. Dac a exist a dou a statistici
_
0
1
= 0
1
(A
1
, A
2
, ..., A
n
)
0
2
= 0
2
(A
1
, A
2
, ..., A
n
)
, (3.2.3)
astfel nct probabilitatea evenimentului
1 = 0
1
(A
1
, A
2
, ..., A
n
) < 0 < 0
2
(A
1
, A
2
, ..., A
n
) (3.2.4)
43
s a nu depind a de 0, adic a
1(1) = 1[0
1
(A
1
, A
2
, ..., A
n
) < 0 < 0
2
(A
1
, A
2
, ..., A
n
)] = c = 1 c, (3.2.5)
atunci
(0; c) = (0
1
, 0
2
) = (0
1
(A
1
, A
2
, ..., A
n
), 0
2
(A
1
, A
2
, ..., A
n
)) (3.2.6)
se numeste interval de ncredere pentru parametrul 0 corespunz ator coe-
cientului de ncredere c = 1 c, respectiv nivelului (pragului) de sem-
nicatie c.
M arimile 0
1
= 0, 0
2
= 0 poart a numele de limita inferioar a si respectiv
limita superioar a de ncredere pentru parametrul 0.
Observatia 3.2.1. Dac a coecientul de ncredere c = 1 c este foarte
apropiat de n:n, deci dac a pragul de semnicatie reprezentat de probabilitatea
1(1) = 10 (, 0
1
(A
1
, A
2
, ..., A
n
)] ' [0
2
(A
1
, A
2
, ..., A
n
), = c (3.2.7)
este foarte apropiat de .cro, atunci nseamn a c a inegalitatea reprezentat a de
evenimentul 1 este ndeplinit a n majoritatea cazurilor.
Situndu-ne n aceste conditii si dac a selectia s-a realizat, atunci statisticile
(variabilele aleatoare) 0
1
(A
1
, A
2
, ..., A
n
) si 0
2
(A
1
, A
2
, ..., A
n
) iau valorile reale
bine determinate 0
1
(r
1
, ..., r
n
) si 0
2
(r
1
, ..., r
n
), valori ce determin a intervalul
numeric
a(0; c) = (0
1
(r
1
, r
2
, ..., r
n
), 0
2
(r
1
, r
2
, ..., r
n
)), a(0; c) _ R, (3.2.8)
care acoper a parametrul necunoscut 0 cu o probabilitate (cu un coecient
de ncredere) c apropiat a de n:n.
Observatia 3.2.2. Armatia cuprins a n observatia precedent a trebuie
nteleas a n modul urm ator: dac a, spre exemplu, coecientul de ncredere
are valoarea c = 0, 95, atunci vom spune c a intervalul aleator (intervalul
de ncredere) (0; c) = (0
1
(A
1
, A
2
, ..., A
n
), 0
2
(A
1
, A
2
, ..., A
n
)) acoper a para-
metrul 0 (valoarea adev arat a a acestuia) cu o probabilitate egal a cu 0,95.
Aceasta nseamn a c a: repetnd selectia aleatoare, ce ne conduce la vectorii
de selectie o
n
(A) = (A
1
, A
2
, ..., A
n
), de 100 ori, atunci, dintre cele 100 de in-
tervale numerice observate (corespunz atoare celor 100 de intervale de ncredere,
distincte sau nu, de forma (0; c)), de forma a(0; c), distincte sau nu, n medie,
95 dintre ele cuprind n interiorul lor valoarea adev arat a a parametrului 0 si
doar cinci dintre ele nu.
n concluzie: dac a se consider a coecientul de ncredere c = 1 c
(cpragul de semnicatie sau de risc), iar selectia aleatoare, ce ne conduce la
44
vectorii de selectie o
n
(A) = (A
1
, A
2
, ..., A
n
), se repet a de / ori, atunci dintre
cele / asemenea intervalele observate(numerice), de forma a(0; c), distincte sau
nu, n medie, / 100(1 c)% dintre acestea vor acoperi valoarea adev arat a a
parametrului 0 iar / 100c% dintre ele nu.
Observatia 3.2.3. Mention am c a parametrul 0 nu este o variabil a alea-
toare, n schimb, intervalul de ncredere (0
1
, 0
2
) este aleator deoarece, asa
dup a cum s-a precizat, extremit atile sale 0
1
(A
1
, A
2
, ..., A
n
) si 0
2
(A
1
, A
2
, ..., A
n
)
sunt statistici (variabile aleatoare ce sunt functii de variabilele de selectie care,
la rndul lor, sunt variabile aleatoare). n mod evident, cu ct acest interval
este mai mic si probabilitatea c este mai mare, cu att avem o indicatie mai
precis a cu privire la valoarea necunoscut a a lui 0.
Observatia 3.2.4. Notiunea de interval de ncredere a fost formulat a pentru
prima dat a de Laplace (1814), care ns a l privea ca ind x iar parametrul ca
o variabil a aleatoare. Wilson (1927) a dat interpretarea corect a a intervalului
de ncredere ca ind o variabil a aleatoare iar Neyman (1937) a pus bazele
teoriei moderne a intervalelor de ncredere.
Metoda elementar a pentru construirea intervalelor de incredere. Ne
situ am n ipoteza c a variabila aleatoare teoretic a A are functia densitate de
probabilitate )(r; 0), unde 0 jara:ctrn necunoscut, 0 1
0
, 1
0
_ R. Fie
o
n
(A) = (A
1
, A
2
, ..., A
n
) vectorul variabilelor de selectie.
Metoda elementar a presupune existenta unei functii (statistici)
n = n(A
1
, A
2
, ..., A
n
; 0) (3.2.9)
ce depinde att de variabilele de selectie ct si de parametrul necunoscut 0, cu
propriet atile:
a) este denit a pentru orice 0, 0 1
0
_ Rsi orice punct (r
1
, r
2
, ..., r
n
) R
n
,
R
n
spatiul de selectie asociat selectiei o de volum :;
/) este continu a si strict monoton a n raport cu 0;
c) repartitia sa (functia densitate de probabilitate q(n) asociat a statisticii
n = n(A
1
, A
2
, ..., A
n
; 0 )) nu depinde de parametrul 0.
n aceste conditii, pentru un nivel de ncredere c dat, putem g asi dou a numere
reale a si / astfel nct, cu ajutorul relatiei
1[a < n(A
1
, A
2
, ..., A
n
; 0) < /] =
b
_
o
q(n)dn =
b(o)
_
o(o)
q(n)dn = c, (3.2.10)
putem g asi limitele integralei a = a(c), / = /(c) ca functii de coecientul de
ncredere c si care nu depind de datele de selectie.
n baza monotoniei stricte a functiei n(A
1
, A
2
, ..., A
n
; 0), n raport cu 0,
dubla inegalitate
a < n(A
1
, A
2
, ..., A
n
; 0) < / (3.2.11)
45
se poate transcrie sub o form a echivalent a
0
1
(A
1
, A
2
, ..., A
n
) < 0 < 0
2
(A
1
, A
2
, ..., A
n
), (3.2.12)
unde 0
1
= 0
1
(A
1
, A
2
, ..., A
n
) si 0
2
= 0
2
(A
1
, A
2
, ..., A
n
) sunt dou a functii care
depind de variabilele de selectie si, prin intermediul lui a = a(c) si / = /(c), ele
mai depind si de c. Extremit atile 0
1
(A
1
, A
2
, ..., A
n
) si 0
2
(A
1
, A
2
, ..., A
n
) se pot
determina rezolvnd sistemul de ecuatii
_
n(A
1
, A
2
, ..., A
n
; 0) = a(c)
n(A
1
, A
2
, ..., A
n
; 0) = /(c).
(3.2.13)
Din echivalenta relatilor (3.2.11) si (3.2.12), relatia (3.2.10) se poate transcrie
sub o form a echivalent a, si anume avem
1[0
1
(A
1
, A
2
, ..., A
n
) < 0 < 0
2
(A
1
, A
2
, ..., A
n
)] = c = 1 c, (3.2.14)
unde
(0; c) = (0
1
(A
1
, A
2
, ..., A
n
), 0
2
(A
1
, A
2
, ..., A
n
)) (3.2.15)
este un interval de ncredere pentru parametrul necunoscut 0.
Observatia 3.2.5. Deoarece numerele a si / trebuie s a ndeplineasc a doar
conditia (3.2.10) rezult a c a, pentru parametrul necunoscut 0 se pot determina o
innitate de intervale de ncredere. Dac a ns a se impune conditia ca intervalul
de ncredere sa e de ecient a maxim a (lungime minim a) atunci se ar at a
c a, pentru distributii de probabilitate simetrice (adic a )(r; 0) este o densitate
de probabilitate simetric a), intervalul de ncredere poate s a e de asemenea
simetric.
46
Cursul 11
3.3 Distributii de selectie din colectivit ati normale ([2],[1])
Inferenta statistic a este aria ce descrie procedurile prin care, folosind datele
observate, se formuleaz a anumite concluzii referitoare la populatia din care s-au
obtinut observatiile (datele). Inferenta statistic a are anumite limit ari, si anume:
concluzia (decizia), bazat a pe o analiz a a datelor de selectie, este de natur a
statistic a (se folosesc observatii supuse ntmpl arii) respectiv, se recunoaste, n
mod explicit, nesiguranta concluziei precum si ncercarea de a m asura, ct mai
obiectiv posibil, incertitudinea implicat a.
n paragrafele anterioare, n care s-a studiat problema privind obtinerea
estimatorilor optimali (n sensul celor mai mici p atrate), nu a fost necesar s a se
fac a preciz ari referitoare la distributia pe care o urmeaz a variabilele aleatoare
eroare n
I
. Dac a ns a ne propunem s a determin am intervale de estimare pentru
parametrii de regresie sau s a test am anumite ipoteze asupra acestor parametri,
atunci va trebui s a mai presupunem c a erorile n
I
, i = 1, : sunt variabile aleatoare
normal distribuite, adic a vom considera urm atoarele ipoteze:
_

_
a) '(n
I
) = 0, i = 1, :.
b) 1
2
(n
I
) = o
2
, i = 1, :.
c) n
I
, i = 1, : variabile aleatoare independente
si normal distribuite, deci n
I
~ (0, o
2
), i = 1, :.
d) r
I
si n

sunt independente,
deci co(r
I
, n

) = 0, \i, , = 1, :.
(3.3.1)
Teorema 3.3.1. n ipotezele (3.3.1), variabilele aleatoare 1
I
,
1
I
= c +,r
I
+n
I
, i = 1, :, (3.3.2)
vor de asemenea variabile aleatoare independente si normal distribuite avnd
functiile densitate de probabilitate de forma
)(j
I
; :
I
, o
2
I
) =
1
_
2o
I
exp
_

1
2
_
j
I
:
I
o
I
_
2
_
, i = 1, :. (3.3.3)
Consecinta 3.3.1. Conform propriet atii [P-1], estimatorii optimali (n sen-
sul celor mai mici p atrate) c si

,, precizati de relatiile
c = 1

,r;

, =
n
P
i=1
(YiY )(rir)
n
P
i=1
(rir)
2
(3.3.4)
unde m arimile
o
b o
=
_
o
2
:
_
1 +
r
2
o
rr
_
si o
b
o
=
_
o
2
:o
rr
(3.3.4a)
47
reprezint a abaterile medii p atratice corespunz atoare statisticilor c si

, , sunt
variabile aleatoare normal distribuite pentru care sunt ndeplinite con-
ditiile:
'( c) = c, 1
2
( c) =
o
2
:
_
1 +
r
2
o
rr
_
0, dac a : (3.3.5)
'(

,) = ,, 1
2
(

,) =
o
2
:o
rr
0, dac a : . (3.3.6)
Observatia 3.3.1. Pornind de la denitia unui estimator absolut corect
(consistent si nedeplasat), relatiile (3.3.5) si (3.3.6) ne arat a c a statisticile
c si

, reprezint a estimatori absolut corecti pentru coecientii de regresie
necunoscuti c si ,, deci au loc estim arile (aproxim arile)
c - c, , -

,. (3.3.7)
Consecinta 3.3.2. Statisticile
c =
c '( c)
o
b o
, n:dc o
b o
=
_
o
2
:
_
1 +
r
2
o
rr
_
(3.3.8)

, =

, '(

,)
o
b
o
, n:dc o
b
o
=
_
o
2
:o
rr
, (3.3.9)
sunt variabile aleatoare normale si normate, adic a
c ~ (0, 1),

, ~ (0, 1). (3.3.10)
3.4 Intervale de ncredere pentru coecientii (parametrii) c si ,
ai regresiei liniare simple
Pentru a determina erorile ce se fac atunci cnd se folosesc estimatorii
punctuali c si

,, deci atunci cnd se folosesc aproxim arile (3.3.7), vom trece la
construirea intervalelor de ncredere corespunz atoare coecientilor de regresie
necunoscuti c si ,. Vom deosebi dou a tipuri de intervale de ncredere dup a cum
o
2
= 1
2
(n
I
), i = 1, : (3.4.1)
este o m arime cunoscut a sau necunoscut a (deci o m arime ce trebuie estimat a).
Cazul 1: Interval de ncredere pentru coecientul de regresie c:
o
2
m arime cunoscut a.
Fie o
n
(1 ) = (1
1
, 1
2
, ..., 1
n
) vectorul variabilelor de selectie atunci cnd se-
lectia este repetat a si de volum :. Conform metodei elementare de construire a
unui interval de ncredere, n rolul functiei n = n(1
1
, 1
2
, ..., 1
n
) vom considera
o functie de forma
48
7 = n(1
1
, 1
2
, ..., 1
n
) = c =
c '( c)
o
b o
=
c c
_
c
2
n
_
1 +
r
2
Sxx
_
, (3.4.2)
unde s-au avut n vedere relatiile (3.3.5) si (3.3.4a) iar pentru m arimile r si o
rr
avem exprim arile
o
rr
=
1
:
n

I=1
(r
I
r)
2
=
1
:
n

I=1
(r
I
r)r
I
=
=
1
:
n

I=1
r
2
I
r, n:dc r =
1
:
n

I=1
r
I
, (3.4.3)
care, atunci cnd selectia a fost realizat a, reprezint a media de selectie, respectiv
dispersia de selectie.
Statistica (3.4.2) satisface conditiile a) si /) precizate n descrierea metodei
elementare.
Conform Consecintei 3.3.2, statistica (3.4.2) urmeaz a o distributie nor-
mal a si normat a avnd densitatea de probabilitate de forma
)(.; 0, 1) = )(.) =
1
_
2
exp
.
2
2
, . R, (3.4.4)
care nu depinde de parametrul necunoscut c si, mai mult, avem: '(7) =
'( c) = 0, 1
2
(7) = 1
2
( c) = 1.
Asadar, statistica (3.4.3) satisface conditiile a), /) si c) precizate n descrierea
metodei elementare.
Trecnd la construirea intervalului de ncredere pentru c vom considera
intervalul real (.
1
, .
2
) astfel nct s a aib a loc relatia
1(.
1
< 7 < .
2
) = 1(.
1
< c < .
2
) =
:2
_
:1
)(.)d. = c = 1 c
0
, (3.4.5)
unde c = 1 c
0
este coecientul de ncredere adic a probabilitatea ca in-
tervalul (.
1
, .
2
) s a acopere parametrul necunoscut c. (Am introdus notatia c
0
pentru pragul de semnicatie pentru a nu se confunda cu coecientul de regresie
c).
Cum 7 = c este o variabil a aleatoare normal a si normat a, relatia (3.4.5) se
poate transcrie sub forma
1(.
1
< c < .
2
) = 1(.
1
< 7 < .
2
) = 1(.
2
) 1(.
1
) =
=
_
1
2
+ (.
2
)

_
1
2
+ (.
1
)

=
= (.
2
) (.
1
) = 1 c
0
,
(3.4.6)
49
unde s-au avut n vedere relatiile si propriet atile distributiei normale, respectiv
functia lui Laplace si propriet atile sale (vezi 3.1).
Deoarece functia 7 = c = n(1
1
, 1
2
, ...1
n
) ndeplineste cele trei conditii ale
metodei elementare, evenimentul aleator (.
1
< c < .
2
) = (.
1
< 7 < .
2
) se
poate transcrie sub urm atoarele forme echivalente
(.
1
< c < .
2
) =
_
_
.
1
<
b oo
r

2
n
h
1+
x
2
Sxx
i
< .
2
_
_
=
=
_
c
_
c
2
n
_
1 +
r
2
Sxx
_
.
2
< c < c
_
c
2
n
_
1 +
r
2
Sxx
_
.
1
_
,
(3.4.7)
iar relatia (3.4.6) se poate transcrie suf forma
1
_
c
_
o
2
:
_
1 +
r
2
o
rr
_
.
2
< c < c
_
o
2
:
_
1 +
r
2
o
rr
_
.
1
_
=
= (.
2
) (.
1
) = 1 c
0
. (3.4.8)
Asadar, avem intervalul de ncredere
(c, c) =
_
c
_
o
2
:
_
1 +
r
2
o
rr
_
.
2
, c
_
o
2
:
_
1 +
r
2
o
rr
_
.
1
_
, (3.4.9)
ce se mai poate transcrie si sub forma
(c, c) =
_
_
c
o
_
:
_
1 +
r
2
o
rr
..
2
, c
o
_
:
_
1 +
r
2
o
rr
..
1
_
_
. (3.4.9a)
Dac a se are n vedere lema ce urmeaz a:
Lema 3.4.1. Deoarece functia densitate de probabilitate )(.) este simetric a
n raport cu axa ordonatelor rezult a c a intervalul de ncredere are lungimea
minim a
1[
s
(c, c)] = 2.

0
2
.
o
_
:
_
1 +
r
2
o
rr
(3.4.10)
ce se obtine dac a
.
2
= .
1
= .

0
2
", (3.4.10a)
atunci intervalul de ncredere simetric, notat prin
s
(c, c), va avea forma
50

s
(c, c) =
_
_
c .

0
2
.
o
_
:
_
1 +
r
2
o
rr
, c +.

0
2
o
_
:
_
1 +
r
2
o
rr
_
_
. (3.4.11)
=
_
c .

0
2
.o
b o
, c +.

0
2
o
b o
_
(3.4.11a)
Un astfel de interval de ncredere simetric este aleator deoarece extremit atile
sale sunt variabile aleatoare.
Pornind de la relatia (3.4.8), n care se are n vedere relatia (3.4.10a), obtinem
relatia
1
_
c .

0
2
.o
b o
< c < c +.

0
2
.o
b o
_
=
= (.

0
2
) (.

0
2
) = 2(.

0
2
) = 1 c
0
,
(3.4.12)
iar din egalitatea subliniat a rezult a egalitatea
(.

0
2
) =
1 c
0
2
, (3.4.12a)
care ne permite, atunci cnd este precizat coecientul de ncredere c = 1 c
0
,
s a determin am m arimea (abscisa) necunoscut a .

0
2
, dac a se folosesc Tabelele
asociate functiei lui Laplace (.).
Se mai spune c a
s
(c, c) este 100(1 c
0
)% interval de ncredere unic
si ecient (cel mai scurt) pentru nivelul (pragul) de semnicatie c
0
precizat.
Observatia 3.4.1. Dac a selectia s-a realizat, atunci intervalului aleator

s
(c, c) i va corespunde un interval de ncredere particular (observat
sau numeric), notat prin a
s
(c, c), centrat n c, care, reprezentat pe axa real a,
poate s a acopere sau nu valoarea adev arat a a coecientului de regresie c.
Relatia (3.4.12) are urm atoarea semnicatie: repetnd selectia o de volum
:, relativ la variabila teoretic a (sub cercetare) 1, n aceleasi conditii, de / ori,
atunci vom obtine / asemenea intervale numerice a
s
(c, c), distincte sau nu,
dintre care, n medie, / 100(1 c
0
)% asemenea intervale vor acoperi valoarea
adev arat a a coecientului de regresie c, respectiv /100c
0
% asemenea intervale
nu vor acoperi aceast a valoare.
Cu aceste preciz ari, putem scrie relatia
c = c .

0
2
.
o
_
:
_
1 +
r
2
o
rr
= c .

0
2
.o
b o
(3.4.13)
unde primul termen, c, reprezint a o estimatie absolut corect a pentru para-
metrul c iar al doilea termen, .

0
2
.o
b o
, reprezint a eroarea ce poate s a rezulte
folosind aproximare de forma c - c.
51
Cursul 12
3.5 Cazul 2. Interval de ncredere pentru coecientul de regresie
,: o
2
m arime cunoscut a ([1],[2])
Fie o
n
(A) = (1
1
, 1
2
, ..., 1
n
) vectorul variabilelor de selectie atunci cnd se-
lectia este repetat a si de volum :. Conform metodei elementare de construire a
unui interval de ncredere, n rolul functiei n = n(1
1
, 1
2
, ..., 1
n
), vom considera
o functie de forma
7 = n(1
1
, 1
2
, ..., 1
n
) =

, =

, '(

,)
o
b
o
= (3.5.1)
=

, ,
_
c
2
nSxx
=

, ,
c
p
n
_
1
Sxx
(3.5.1a)
unde s-au avut n vedere relatiile (3.3.4), (3.3.4a) si (3.3.6) din 3.3 iar m arimea
o
rr
a fost precizat a n relatia (3.4.3).
Statistica (3.5.1) satisface conditiile a), /) si c) precizate n descrierea metodei
elementare.
Trecnd la construirea intervalului de ncredere, pentru parametrul
(coecientul) necunoscut ,, vom considera intervalul real (.
1
, .
2
) astfel nct s a
avem
1(.
1
< 7 < .
2
) = 1(.
1
<

, < .
2
) =
:2
_
:1
)(.)d. = c = 1 c, (3.5.2)
unde c = 1 c este coecientul de ncredere (probabilitatea ca intervalul
(.
1
, .
2
) s a acopere parametrul necunoscut ,).(De data aceasta se p astreaz a no-
tatia obisnuit a c pentru nivelul (pragul) de semnicatie.)
Urmnd procedeul descris n Cazul 1, relatia (3.5.2), atunci cnd se are n
vedere Lema 3.4.1, primeste forma nal a
1
_

, .

2
c
p
n
_
1
Sxx
< , <

, +.

2
c
p
n
_
1
Sxx
_
= (.

2
) (.

2
) =
= 2(.

2
) = 1 c = c
(3.5.3)
si, de aici, obtinem relatia
(.

2
) =
1 c
2
, (3.5.3a)
care ne va permite, atunci cnd coecientul de ncredere c = 1c este precizat,
s a determin am m arimea (abscisa) .

2
necunoscut a pn a la acest moment dac a
se folosesc Tabelele valorilor functiei lui Laplace (.).
52
Lungimea minim a a intervalului de ncredere simetric si ecient

s
(,, c) =
_

, .

2
o
_
:
_
1
o
rr
,

, +.

2
o
_
:
_
1
o
rr
_
(3.5.4)
va
1[
s
(,, c)] = /
nIn
= /(.
1
, .
2
)[
:2=:1=:
2
= 2.

2
.
o
_
:
_
1
o
rr
. (3.5.5)
Observatia 3.5.1. Semnicatia acestui interval de ncredere (care este un
interval aleator, dac a ne situ am nainte de a efectua selectia o)
s
(,, c) const a
n:
s
(,, c) acoper a coecientul de regresie , cu o probabilitate egal a cu coe-
cientul de ncredere c = 1 c, respectiv nu-l acoper a cu probabilitatea dat a de
pragul de semnicatie c. Dac a selectia s-a realizat, atunci intervalului aleator

s
(,, c) i va corespunde un interval de ncredere particular (observat
sau numeric) a
s
(c, c), centrat n

,, care reprezentat pe axa real a poate s a
acopere sau nu valoarea adev arat a a coecientului de regresie ,. Semnicatia
acestui interval de ncredere numeric const a n : repetnd selectia o de volum
:, relativ la variabila teoretic a (sub cercetare) 1, n aceleasi conditii, de / ori,
atunci vom obtine / asemenea intervale numerice a
s
(,, c), distincte sau nu, din-
tre care, n medie, / 100(1 c)% asemenea intervale vor acoperi valoarea
adev arat a a coecientului de regresie ,, respectiv /100c% asemenea intervale
nu vor acoperi aceast a valoare.
Cu aceste preciz ari, putem scrie relatia
, =

, .

2
.
o
_
:
_
1
o
rr
=

, .

2
.o
b
o
(3.5.6)
unde primul termen ,

,, reprezint a o estimatie absolut corect a pentru para-
metrul , iar al doilea termen, .

2
.
o
_
:
_
1
Sxx
, reprezint a eroarea (n plus sau
n minus) ce poate s a rezulte folosind o aproximare de forma
, -

,. (3.5.7)
3.6 Aplicatie (Intervale de incredere pentru parametrii c si ,).
Presupunem c a variabila A reprezint a num arul orelor de lucru ntr-un labora-
tor iar variabila 1 productia corespunz atoare acestora. Dorim s a determin am
relatia ce exist a ntre productie si orele de lucru n laborator, atunci cnd se
consider a 10 muncitori pentru care valorile variabilelor r
I
si j
I
ale variabilelor
A si 1 sunt cuprinse n coloanele 2 si 3 ale tabelului de mai jos.
53
Tabelul 3.6.1.
O/:cratia r
I
j
I
r
2
I
j
2
I
r
I
j
I
1 2 3 4 5 6
1 10 11 100 121 110
2 7 10 49 100 70
3 10 12 100 144 120
4 5 6 25 36 30
5 8 10 64 100 80
6 8 7 64 49 56
7 6 9 36 81 54
8 7 10 49 100 70
9 9 11 81 121 99
10 10 10 100 100 100
10

I=1
80 96 668 952 789
Rezolvare. a) Dreapta de regresie estimat a.
Asa dup a cum s-a precizat anterior, pentru regresia direct a, cu ecuatia de
regresie
j
I
= c +,r
I
+n
I
, i = 1, :, (3.6.1)
dreapta de regresie estimat a are forma
j = c +

,r (3.6.2)
unde
c = j

,r, (3.6.2a)

, =
o
r
o
rr
. (3.6.2b)
Deoarece, datele selectiei o, de volum : = 10, cuprinse n primele trei
coloane ale Tabelul 3.6.1, ne permit calculul elementelor din urm atoarele trei
coloane ale tabelului, respectiv sumele pe ecare coloan a, avem:
r =
1
10
10

I=1
r
I
=
80
10
= 8,
j =
1
10
10

I=1
j
I
=
96
10
= 9, 6
54
o
rr
=
1
10
10

I=1
r
2
I
r
2
=
668
10
64 = 2, 8;
o
r
=
1
10
n

I=1
r
I
j
I
jr =
789
10
8 9, 6 =
= 2, 1;
o

=
1
10
10

I=1
j
2
I
j
2
=
952
10
(9, 6)
2
=
= 3, 04,
si, pe baza lor, obtinem estimatiile absolut corecte

, =
o
r
o
rr
=
2, 1
2, 8
= 0, 75 si c = j

,r = 9, 6 0, 75 8 = 3, 6, (3.6.3)
pentru parametrii necunoscuti , si c, respectiv coecientii de corelatie si deter-
minare
r
r
=
o
r
_
o
rr
_
o


21
29
= 0, 724 si r
2
r
=
o
2
r
o
rr
o

= 0, 52. (3.6.4)
Dreapta de regresie estimat a va
j = c +

,r = 3, 6 + 0, 75r, (3.6.5)
unde coecientul unghiular

, = 0, 75 m asoar a productivitatea marginal a a
laboratorului iar ordonata la origine c = 3, 6 ne conduce la concluzia: pro-
ductia laboratorului va egal a cu 3,6 atunci c and nu se lucreaz a n laborator.
Evident, o astfel de concluzie este fals a si ea se datoreaz a faptului c a am f a-
cut o predictie (o prognozare) pentru o valoare a variabilei r pentru valoarea
r = 0 , [5, 10]intervalul n care variaz a variabila independent a r.
b) Intervalul de ncredere pentru parametrul c, dac a o
2
= 4 si c =
0, 95 (respectiv c
0
= 0, 05)
Deoarce Tabelul 3.6.1 contine datele de selectie, conform celor precizate n
3.5, intervalul de ncredere numeric si simetric, asociat intervalului intervalului
de incredere simetric
s
(c; c) (vezi (3.4.11), este de forma
55
a
s
(c, c = 0, 95) =
_
_
c .

0
2
.
o
_
:
_
1 +
r
2
o
rr
, c +.

0
2
o
_
:
_
1 +
r
2
o
rr
_
_
=
=
_
3, 6 1, 96.
2
_
10
_
1 +
8
2
2, 8
, 3, 6 + 1, 96.
2
_
10
_
1 +
8
2
2, 8
_
=
= (3, 6 6, 679, 3, 6 + 6, 679) = (3, 079; 10, 279), (3.6.6)
unde abscisa .

0
2
= 1, 96 a resultat pe baza relatiei (.

0
2
) =
1o0
2
, n care
c
0
= 0, 05 si, evident, folosind Tabelele functiei lui Laplace (.

0
2
).
n concluzie, folosind relatia
c = c .

0
2
.
o
_
:
_
1 +
r
2
o
rr
= 3, 6 6, 679 (3.6.7)
se ajunge la concluzia: estimarea parametrului necunoscut c prin estimatorul
absolut corect c, adic a c - c = 3, 6, se va face cu o eroare de 6, 679.
c) Intervalul de ncredere pentru parametrul ,, dac a o
2
= 4 si c =
0, 95 (respectiv c
0
= 0, 05)
Urmnd procedeul de la punctul b), vom obtine
a
s
(,, c = 0, 95) =
_

, .

2
.
o
_
:
_
1
o
rr
,

, +.

2
.
o
_
:
_
1
o
rr
_
= (3.6.8)
= (0, 75 0, 74; 0, 75 + 0, 74) = (0, 01; 1, 49) (3.6.9)
iar relatia
, =

, .

2
.
o
_
:
_
1
o
rr
= 0, 75 0, 74 (3.6.10)
ne arat a c a aproximnd parametrul necunoscut , prin estimatorul absolut corect

,, adic a , -

, = 0, 75, eroarea va de 0, 74.


56
Cursul 13
3.7 Intervale de ncredere pentru coecientii de regresie. Cazul:
o
2
m arime necunoscut a ([1],[2])
Dac a o
2
este o m arime necunoscut a, atunci conform Teoremei 2.2.4
(P-4), estimatorul nedeplasat pentru o
2
este reprezentat de statistica
o
2
=
1
: 2
n

I=1
_
1
I
(

,
0
+

,
1
r
I
)
_
2
=
u
2
: 2
, (3.7.1)
care veric a relatia
'( o
2
) = o
2
(3.7.2)
unde
u
2
= u
T
u =
n

I=1
_
1
I
(

,
0
+

,
1
r
I
)
_
2
=
n

I=1
n
2
I
, (3.7.3)
reprezint a suma p atratelor erorilor (reziduurilor) estimate sau suma
p atratelor erorilor reziduale. (De precizat este faptul c a, de data aceasta,
modelul regresiei liniare s-a luat sub forma mai potrivit a, adic a 1 = ,
0
+,
1
r+n
(coecientii regresiei liniare c si , s-au schimbat n ,
0
si ,
1
).
n aceste conditii, dac a n relatia (3.3.8) parametrul o
2
(de data aceasta
necunoscut) se nlocuieste prin estimatorul nedeplasat o
2
, atunci vom obtine
statistica
t
1
=

,
0
,
0
_
b c
2
n
_
1 +
r
2
Sxx
_
=

,
0
,
0
_
b u
2
n2
1
n
_
1 +
r
2
Sxx
_
=

,
0
,
0
o
b
o
0
, (3.7.4)
care urmeaz a di:tri/ntia otndc:t cn (: 2) qradc dc |i/crtatc unde, de data
aceasta, eroarea standard corespunz atoare estimatorului optimal

,
0
are
forma
o
b
o
0
=
_
o
2
:
_
1 +
r
2
o
rr
_
=
o
_
:
_
1 +
r
2
o
rr
, (3.7.5)
iar o = o
b c
2, eroarea standard a regresiei, poate exprimat a astfel
o =
_
u
2
: 2
=
_
:o
Y Y
(1 r
2
rY
)
: 2
, (3.7.6)
n care m arimea nenegativ a
r
2
rY
=

,
1
o
rY
o
Y Y
=
o
2
rY
o
rr
o
Y Y
, r
2
r
[0, 1], (3.7.7)
reprezint a coecientul de determinare.
57
Pe baza acestor preciz ari vom putea trece la construirea intervalului de n-
credere pentru parametrul c, atunci cnd parametrul o
2
este o m arime necunos-
cut a.
3.8 Cazul 3. Interval de ncredere pentru coecientul de regresie
,
0
: o
2
m arime necunoscut a.
Considernd statistica (variabila aleatoare) n = n(1
1
, 1
2
, ..., 1
n
) de forma
t
1
= n(1
1
, 1
2
, ..., 1
n
) =

,
0
,
0
o
b
o
0
=

,
0
,
0
b c
p
n
_
1 +
r
2
Sxx
, (3.8.1)
se constat a c a, n mod evident, ea satisface conditiile a), /) si c) ale metodei
elementare, deoarece densitatea de probabilitate asociat a
)(t; : 2) =

_
n1
2
_
_
(: 2)
_
n2
2
_
_
1 +
t
2
: 2
_

n1
2
, t R, (3.8.2)
nu depinde de parametrul necunoscut ,
0
.
Deoarece distributia Student este simetric a, conform Lemei 3.4.1, in-
tervalul de ncredere va un interval real simetric de forma (t

2
, t

2
) R,
iar construirea acestuia se face astfel nct, preciznd coecientul de ncredere
c = 1 c (cnivelul de semnicatie (risc)), s a aib a loc relatia
1(t

2
< t
1
< t

2
) =
|
2
_
|
2
)(t; : 2)dt = c = 1 c. (3.8.3)
Dac a avem n vedere succesiunea de evenimente echivalente
_
t

2
< t
1
< t

2
_
=
_
t

2
<

,
0
,
0
o
b
o
0
< t

2
_
= (3.8.4)
==
_
_
,
0
t

2
.
o
_
:
_
1 +
r
2
o
rr
< ,
0
<

,
0
+t

2
.
o
_
:
_
1 +
r
2
o
rr
_
_
, (3.8.5)
relatia (3.8.3), atunci cnd se are n vedere denitia si propriet atile functiei de
repartitie corespunz atoare distributiei Student
1(t

2
; : 2) = 1(t < t

2
) =
|
2
_
1
)(t; : 2)dt, unde t

2
R, (3.8.6)
se poate transcrie astfel
58
21(t

2
) 1 = 1 c sau 1(t

2
) =
1 +c
2
(3.8.7)
care, de ndat a ce nivelul de sigurant a c
0
precum si num arul gradelor de
libertate = :2 sunt precizate, din Tabele corespunz atoare valorilor functiei
de repartitie a distributiei Student se poate preciza m arimea t

0
2
.
Asadar, intervalul de ncredere simetric pentru parametrul (coecientul de
regresie) ,
0
este de forma

s
(,
0
, c) =
_
_
,
0
t

2
.
o
_
:
_
1 +
r
2
o
rr
,

,
0
+t

2
.
o
_
:
_
1 +
r
2
o
rr
_
_
=
=
_

,
0
t

2
. o
b
o
0
, c +t

2
. o
b
o
0
_
, (3.8.8)
cu lungimea
1[
s
(,
0
, c)] = 2t

2
.
o
_
:
_
1 +
r
2
o
rr
. (3.8.9)
Intervalul
s
(,
0
, c) este un interval de ncredere ecient si unic. Ca-
racterul aleator al intervalului
s
(,
0
, c) este implicat de cele dou a extremit ati
ale sale ce cuprind estimatorul

,
0
iar relatia
1
_
_
,
0
t

2
.
o
_
:
_
1 +
r
2
o
rr
< ,
0
<

,
0
+t

2
.
o
_
:
_
1 +
r
2
o
rr
_
_
=
= 1 [,
0

s
(,
0
, c)] = 1 c (3.8.10)
ne arat a c a un astfel de intervalul de ncredere aleator,
s
(,
0
, c), acoper a co-
ecientul de regresie ,
0
cu o probabilitate egal a cu coecientul de ncredere
c = 1 c iar semnicatia relatiei (3.8.10) se mai poate exprima si prin relatia
,
0
=

,
0
t

2
.
o
_
:
_
1 +
r
2
o
rr
=

,
0
t

2
o
b
o
0
, (3.8.11)
unde primul termen

,
0
reprezint a o estimatie absolut corect a pentru para-
metrul ,
0
iar al doilea termen, t

2
.
o
_
:
_
1 +
r
2
Sxx
, reprezint a eroarea (n plus
sau n minus) ce poate s a rezulte folosind o aproximare de forma ,
0
-

,
0
.
3.9 Aplicatie : Inferenta cu privire la valoarea medie
O aplicatie imediat a a paragrafului precedent se refer a la problema de esti-
mare a valorii medii
'(1 ) = ,
0
+,
1
r (3.9.1)
59
atunci cnd se xeaz a o valoare a variabilei independente r. Astfel, dac a valoarea
de interes este r = r
0
, atunci obtinem relatia
0
0
= '(1
0
) = ,
0
+,
1
r
0
. (3.9.2)
adic a parametrul 0
0
este o combinatie liniar a de parametrii necunoscuti ,
0
si
,
1
ai regresiei liniare simple 1 = ,
0
+,
1
r +n.
Dac a n membrul drept al acestei relatii, parametrii ,
0
si ,
1
se nlocuiesc
prin estimatorii lor optimali

,
0
si

,
1
, adic a

,
0
= 1

,
1
r,

,
1
=
o
rY
o
rr
, (3.9.3)
unde
'(

,
0
) = ,
0
, 1
2
(

,
0
) =
o
2
:
_
1 +
r
2
o
rr
_
0, dac a : (3.9.3a)
'(

,
1
) = ,
1
, 1
2
(

,
1
) =
o
2
:o
rr
0, dac a : , (3.9.3b)
atunci relatia (3.9.2) va primi forma

0
0
=
\
'(1
0
) =

,
0
+

,
1
r
0
(3.9.4)
unde, n ipotezele (3.3.1),

0
0
urmeaz a distributia normal a (c aci estimatorii

,
0
si

,
1
sunt normal distribuiti) si, mai mult, reprezint a un estimator pentru
'(1
0
) = 0
0
.
Deoarece au loc conditiile
'(

0
0
) = 0
0
= '(1
0
), (3.9.5)
1
2
(

0
0
) =
_
1
:
+
(r
0
r)
2
:o
rr
_
o
2
0, dac a : , (3.9.6)
rezult a c a

0
0
=
\
'(1
0
) reprezint a un estimator absolut corect (consistent
si nedeplasat) pentru parametrul 0
0
= '(1
0
) = ,
0
+,
1
r
0
iar m arimea
o
b
00
= o
_
1
:
+
(r
0
r)
2
:o
rr
(3.9.10)
reprezint a abaterea medie p atratic a (eroarea standard) corespunz atoare es-
timatorului

0
0
=
\
'(1
0
).
Observatia 3.9.1. Dac a parametrul o
2
este necunoscut, atunci constru-
irea intervalului de ncredere pentru parametrul '(1
0
) = 0
0
= ,
0
+ r
0
,
1
se va face pornind de la statistica
t =

0
0
0
0
o
b
00
, (3.9.11)
60
care urmeaz a di:tri/ntia otndc:t cn (: 2) qradc dc |i/crtatc unde, de data
aceasta, erorea standard corespunz atoare estimatorului optimal

0
0
=

'(1
0
) are forma
o
b
00
= o
_
1
:
+
(r
0
r)
2
:o
rr
unde o =
_
u
2
: 2
=
_
:o
Y Y
(1 r
2
rY
)
: 2
. (3.9.12)
Conform 3.8, intervalul de ncredere pentru parametrul
0
0
= '(1
0
) = ,
0
+r
0
,
1
va avea forma

s
(0
0
; c) =
s
['(1
0
); c] =
_

0
0
t

2
. o
b
00
,

0
0
+t

2
. o
b
00
_
(3.9.14a)
unde m arimea t

2
se obtine din relatia (3.8.7).
n nal, din expresia lungimii acestui intervalul
1[
s
(0
0
; c)] = 2t

2
. o
b
00
= 2t

2
. o
b
00
= 2t

2
. o
_
1
:
+
(r
0
r)
2
:o
rr
, (3.9.15)
se poate constat a c a cel mai scurt asemenea interval de ncredere (pentru :
xat) va corespunde cazului n care r
0
= r.
Observatia 3.9.2. Dac a ntr-o problem a practic a suntem interesati n a
stabili un cel mai scurt interval de ncredere pentru valoarea medie '(1
0
),
atunci, conform relatiei (3.9.15), va trebui ca: : si o
rr
s a e ct mai mari
iar r
0
ales s a e ct mai apropiat de r.
Exemplul 3.9.1. Dac a relu am aplicatia din 3.6 si consider am parametrul
0
0
= '(1
0
) = ,
0
+,
1
r
0
, atunci estimatorul va de forma

0
0
=
\
'(1
0
) =

,
0
+

,
1
r
0
= 3, 6 + 0, 75r
0
, (3.9.16)
iar dac a se consider a, spre exemplu r
0
= 1, atunci conform datelor cuprinse n
Tabelul 3.6.1, avem elementele: : = 10, r = 8, o
rr
= 2, 8, o
2
= 1, 831, o =
1, 353 si o
b
00
= 1, 84 care, la rndul lor, ne conduc la intervalul de ncredere

s
(0
0
; c) =
s
['(1
0
); c] = (4, 35 4, 243; 4, 35 + 4, 243) = (0, 107; 8, 593),
(3.9.17)
dac a s-a avut n vedere valoarea t

2
= 2, 306 obtinut a cu ajutorul Tabelelor
Student pentru : 2 = 8 grade de libertate si pentru un nivel de semnicatie
c = 0, 05. Acest interval de ncredere are lungimea
1[
s
(0
0
; c)] = 1
s
['(1
0
); 0, 95] = 8, 486.
61
Capitolul 4
REGRESIA LINIAR

A MULTIPL

A
Cursul 14
4.1 Modelul regresiei multiple [2]
n cazul regresiei liniare simple am studiat o relatie de forma
1 = ,
0
+,
1
A +n (4.1.1)
ce exprim a leg atura (conexiunea) dintre o variabil a efect (r aspuns, dependent a,
explicat a, de iesire, endogen a) 1 si o variabil a factor (independent a, explicativ a,
de intrare, exogen a) A , unde n este o variabil a aleatoare ce exprim a eroarea
sau o perturbatie si este cunoscut a si sub denumirea de variabil a rezidual a.
Denitia 4.1.1. Modelul regresiei liniare multiple este un model sta-
tistic ce exprim a conexiunea ce exist a ntre variabila dependent a 1 si variabilele
independente r
1
, r
2
, ..., r
n
de forma
1 = ,
0
+,
1
r
1
+,
2
r
2
+... +,
|
r
|
+n (4.1.2)
unde ,
0
, ,
1
, ,
2
, ..., ,
|
sunt parametri necunoscuti, n este o variabil a alea-
toare (eroare aleatoare) iar r
1
, r
2
, ..., r
|
sunt constante cunoscute.
Dac a vom presupune c a
'(n) = 0, (4.1.3)
atunci se obtine relatia
'(1 ) = ,
0
+,
1
r
1
+,
2
r
2
+... +,
|
r
|
, (4.1.4)
adic a valoarea medie a variabilei aleatoare 1 depinde liniar de parametrii ne-
cunoscuti ,
0
, ,
1
, ,
2
, ..., ,
|
.
Dac a asupra variabilei aleatoare 1 se fac : (: _ /) observatii independente
1
1
, ..., 1
n
, atunci conform relatiei (4.1.2), obtinem relatiile
1
I
= ,
0
+,
1
r
I1
+,
2
r
I2
+... +,
|
r
I|
+n
I
, i = 1, :. (4.1.5)
Aceste : relatii liniare se pot transcrie matriceal astfel
Y = X +u, (4.1.6)
unde
62
Y=
_

_
1
1
1
2
...
1
n
_

_
, di: Y =: 1; (4.1.6a)
X=
_

_
r
0
r
11
... r
1|
r
0
r
21
... r
2|
... ... ... ...
r
0
r
n1
... r
n|
_

_
, di: X = : (/ + 1), r
0
= 1; (4.1.6b)
(X este o matrice nestochastic a ale c arei coloane sunt independente si ele sunt
constituite din observatii privind variabilele explicative);
=
_

_
,
0
,
1
...
,
|
_

_
, di: = ( / + 1) 1; (4.1.6c)
u =
_

_
n
1
n
2
...
n
n
_

_
, di: u = : 1. (4.1.6d)
Dac a vectorul optimal, n sensul celor mai mici p atrate, corespunz ator para-
metrului vectorial necunoscut (4.1.6c) este notat prin

=
_

,
0

,
1
...

,
|
_

_
, di:

= (/ + 1) 1, (4.1.7)
atunci, conform principiului celor mai mici p atrate, cele / + 1 componente ale
parametrului vectorial (4.1.6c) trebuie determinate astfel nct suma p atratelor
reziduurilor s a e minim a, deci s a se minimizeze functia criteriu
o() = o(,
0
, ,
1
, ..., ,
|
), unde
o() =
n

I=1
[1
I
(,
0
+,
1
r
I1
+,
2
r
I2
+... +,
|
r
I|
)
. .
=ui
]
2
=
n

I=1
n
2
I
. (4.1.8)
Aceast a functie criteriu, exprimat a vectorial, se poate scrie sub forma
o() = (YX)
T
(YX) = (4.1.9)
= Y
T
Y2Y
T
X +
T
X
T
X,
63
iar conditia necesar a de extrem asociat a
0o()
0
= 0, (4.1.10)
conduce la sistemul de ecuatii normale ale lui Gauss
(X
T
X)

= X
T
Y, (4.1.11)
si, de aici, rezult a solutia optim a (n sensul celor mai mici p atrate)

=
_

,
0

,
1
...

,
|
_

_
= (X
T
X)
1
X
T
Y, (4.1.12)
dac a (X
T
X)
1
exist a.
Observatia 4.1.1. Studiul unui astfel de model liniar multiplu se va face in
urm atoarele ipoteze:
a) '(n
I
) = 0, i = 1, :, adic a '(u) = 0;
b) 1
2
(n
I
) = o
2
, i = 1, :, adic a 1
2
(u) = M(""
T
)= I
2
;
c) n
I
, i = 1, : variabile aleatoare independente si normal distribuite
(nu obligatoriu), deci n
I
~ (0, o
2
), i = 1, :, adic a u ~ N(0, I
2
);
d) r
I
(m arimi nealeatoare) si n

sunt independente,
adic a co(r
I
, n

) = 0, \i, , = 1, :;
e) X este o matrice nestochastic a cu coloanele liniar independente
deci ra:q(X
T
X) =ra:qX =/ =(X
T
X)
1
exist a.
(4.1.13)
Observatia 4.1.2. Estimatorul

= (

,
0
,

,
1
, ...,

,
|
)
T
are propriet ati simi-
lare cu cele corespunz atoare modelului regresiei liniare simple.
Astfel, dac a introducem notatia
B = (X
T
X)
1
X
T
=
_

_
/
01
/
02
... /
0n
/
11
/
12
... /
1n
... ... ... ...
/
|1
/
|2
... /
|n
_

_
, dimB = (/ + 1) :, (4.1.14)
atunci solutia (4.1.12) se poare scrie sub forma

=
_

,
0

,
1
...

,
|
_

_
= BY =
_

_
/
01
/
02
... /
0n
/
11
/
12
... /
1n
... ... ... ...
/
|1
/
|2
... /
|n
_

_
_

_
1
1
1
2
...
1
n
_

_
, (4.1.15)
si, de aici, rezult a sistemul
64
_

,
0
= /
01
1
1
+/
02
1
2
+... +/
0n
1
n

,
1
= /
11
1
1
+/
12
1
2
+... +/
1n
1
n
... ... ...

,
|
= /
|1
1
1
+/
|2
1
2
+... +/
|n
1
n
(4.1.16)
care ne conduce la prima proprietate a estimatorului

, si anume:

este un
estimator liniar pentru parametrul vectorial .
Observatia 4.1.3. Are loc exprimarea

= (X
T
X)
1
X
T
(X +u) =
= +Bu, (4.1.17)
si, de aici, se obtine relatia
'(

)= , respectiv relatiile '(

,
I
) = ,
I
, i = 0, /, (4.1.18)
care exprim a tocmai proprietatea de nedeplasare a vectorului estimator

, respectiv ale componentelor sale



,
I
, i = 0, /.
Observatia 4.1.4. Matricea de covariant a a vectorului estimator

are
forma
co

= 1
2
(

) = (X
T
X)
1

2
. (4.1.19)
iar estimatorul nedeplasat o
2
, pentru parametrul necunoscut o
2
, va avea forma
o
2
=
_
YX

_
T
_
YX

_
: /
=
Y
T
Y

T
X
T
Y
: /
. (4.1.20)
Exemplul 4.1. Ajustarea printr-o parabol a. Dac a se consider a modelul
liniar
1 = ,
0
+,
1
r +,
2
r
2
+n, (4.1.21)
atunci modelul liniar multiplu (4.1.2) se reg aseste dac a se introduc notatiile :
r
1
= r, r
2
= r
2
iar / = 2.
Deoarece '(n) = 0, din (4.1.21) rezult a relatia
'(1 ) = ,
0
+,
1
r +,
2
r
2
, (4.1.22)
respectiv relatiile
'(1
I
) = ,
0
+,
1
r
I
+,
2
r
2
I
, i = 1, :, (4.1.22a)
dac a asupra variabilei aleatoare 1 se fac : observatii. Asadar, curba de
ajustare pentru punctele ('(1
I
), r
I
), i = 1, : este o parabol a de gradul
doi.
65
Forma matricial a a unui asemenea model, atunci cnd se precizeaz a matricele
Y si X :
Y =
_

_
0
0
1
1
3
_

_
, X =
_

_
1 2 4
1 1 1
1 0 0
1 1 1
1 2 4
_

_
,
va
Y = X +n.
Deoarece
X
T
X =
_
_
5 0 10
0 10 0
10 0 34
_
_
, X
T
Y =
_
_
5
7
13
_
_
, (X
T
X)
1
=
_
_
17
35
0
1
7
0
1
10
0

1
7
0
1
14
_
_
,
conform relatiei (4.1.12), obtinem

=
_

,
0

,
1

,
2
_

_ = (X
T
X)
1
X
T
Y =
_
_
4
7
7
10
3
14
_
_
-
_
_
0, 571
0, 700
0, 214
_
_
,
si, de aici, avem valorile

,
0
= 0, 571;

,
1
= 0, 700;

,
2
= 0, 214,
care reprezint a estimatiile (n sensul celor mai mici p atrate) pentru parametrii
necunoscuti ,
0
, ,
1
si ,
2
iar parabola de ajustare va avea forma

1 =

,
0
+

,
1
r +

,
2
r
2
= 0, 571 + 0, 700r + 0, 214r
2
.
66
Bibliograe
[1] Mihoc, I., F atu, C. I., Calculul probabilit atilor si statistic a matematic a,
Casa de editur a Transilvania Press, 2003.
[2] Mihoc, I., F atu, C. I., Introducere n econometrie, Editura Risoprint,
Cluj-Napoca, 2007.
[3] Mihoc, I., F atu, C. I., Matematici aplicate n economie, Editura Riso-
print, Cluj-Napoca, 2008.
[4] Maddala, G. S., Introduction to Econometrics, John Wiley & Sons LTD,
2001.
[5] Onicescu, O., Botez, M. C., Incertitudine si modelare economic a (En-
tropie informational a), Editura Stiintic a si Enciclopedic a, Bucuresti, 1985.
[6] Pecican, E., Econometrie, Editura All, Bucuresti, 1994.
[7] Pollack, D. G. S., A Course of Econometrics, 2005.
[8] Shiryaev, A. N., Probability, Springer-Verlag, New York, Berlin, 1996.
[9] Stancu, S., Andrei, T., Microeconomie, teorie si aplicatii, Editura All,
Bucuresti, 1997.
[10] Wilks, S. S., Mathematical Statistics, John Wiley & Sons, Inc, New
York, London, 1963.
67

S-ar putea să vă placă și