Sunteți pe pagina 1din 143

CAPITOLUL I

MODELE ECONOMETRICE

1.1. Generalităţi

Modelarea economică reprezintă un proces de


cunoaştere mijlocită a realităţii cu ajutorul unui instrument cu
caracteristici speciale: modelul. Sistemul real supus studiului
este înlocuit prin modelul său, care este o reprezentare
simplificată a obiectului cercetat.
Modelul econometric este, de regulă, o mulţime de
relaţii numerice care permite reprezentarea simplificată a
procesului economic supus studiului (uneori chiar a întregii
economii). Modelele actuale comportă adesea mai mult de
zece relaţii (ecuaţii). Validitatea unui model este testată prin
confruntarea rezultatelor obţinute cu observaţiile statistice.
Pentru a studia un fenomen economic se încearcă
reprezentarea lui prin comportamentul unei variabile. Această
variabilă economică depinde, la rîndul său de alte variabile
de care este legată prin relaţii matematice.
De exemplu, dacă se studiază cererea (C) şi oferta (O)
dintr-un anumit bun pe o piaţă, se ştie că cererea şi oferta
depind de preţul (p) bunului respectiv. Putem scrie că

7
variabilele C şi O sunt funcţii de variabila p şi că la echilibrul
pieţei, trebuie ca cererea să fie egală cu oferta. Se
construieşte astfel un model elementar de forma:

⎧C = f ( p)

[1] ⎨O = g ( p)
⎪ C=O

Oferta şi cererea dintr-un anumit bun depind şi
de alte variabile decât preţul. Astfel, cererea dintr-un bun
alimentar depinde şi de venitul disponibil, de preţul unor
produse analoage etc. La fel, dacă este vorba despre un bun
agricol (grâu,...) oferta depinde de preţul anului precedent.
Relaţia stabilită între variabile în modelul econometric este
dată, de regulă, la un anumit moment de timp t, caz în care
variabilele apar indiciate:
⎧ Ct = f ( pt , x1t , x2t ,..., x nt )

[2] ⎨Ot = g ( pt −1 , x1t , x2t ,..., x rt )
⎪ Ct = Ot

În modelul [2] s-au introdus mai multe variabile
care explică cererea şi oferta dintr-un bun şi s-a considerat
realizarea acestor variabile la momentul t sau t-1. Se observă
că modelul comportă mai multe relaţii. Se zice că avem un
model cu ecuaţii multiple. Evident, se va începe studiul cu un
model mai simplu, cu o unică ecuaţie.

1.2. Model aleator

Să presupunem că se studiază consumul (Ci) dintr-un


anumit bun de către o familie (i). Între alte variabile,
consumul depinde de venitul disponibil al familiei (Vi).
Modelul econometric elementar constă în a exprima Ci în
funcţie de Vi. Desigur, alţi factori – dintre care unii sunt
necunoscuţi – determină de asemenea consumul familiei.

8
Condensăm efectele acestor alţi factori într-unul singur,
aleator, notat εi. Se obţine astfel un model aleator:
[3] C i = f (Vi ) + ε i
Factorul aleator εi este o variabilă aleatoare care
urmează o anumită lege de probabilitate, ce va trebui să fie
specificată prin ipotezele făcute asupra modelului. Cel mai
frecvent, ipotezele se referă doar la momentele de ordinul I şi
II ale variabilei aleatoare εi. Urmează să ne asigurăm că
funcţia f (sau clasa de funcţii) aleasă nu contrazice rezultatele
experienţei. De exemplu, dacă s-a ales f ca o funcţie liniară
(adică f(Vi) = aVi+b), modelul econometric este:
[4] C i = aVi + b + ε i
şi variind pe i pentru diferitele familii studiate, ne vom
asigura că relaţia [4] este bine satisfăcută. Se spune că
„testăm” modelul. Dacă rezultatul obţinut este convenabil, se
va trece la „estimarea” parametrilor a şi b. Apoi, definind o
„regulă de previziune” se va putea determina consumul Ci
dacă se cunoaşte venitul Vi.

1.3. Natura variabilelor care apar în model

Într-un model econometric se disting două tipuri de


variabile:
-exogene. Sunt variabilele explicative ale variabilei studiate
şi se consideră ca fiind date autonom. În modelul [4] Vi este
variabila exogenă (sau explicativă, independentă). Venitul
familiei Vi explică în acest model consumul familiei Ci.
Valoarea variabilei exogene –pentru un i dat şi pentru εi
precizat- permite determinarea consumului Ci.
-endogene. Sunt variabilele de explicat (sau dependente). Ci
este variabila endogenă în modelul precedent. Se poate
remarca faptul că Ci este acum o variabilă aleatoare datorită
lui εi.

9
Distincţia între natura variabilelor este foarte
importantă şi va trebui precizată întotdeauna înainte de a
studia modelul. Când modelul econometric a căpătat
formularea matematică definitivă se spune că modelul a fost
„specificat”. Modelul [4] de mai sus este specificat. Se
cunoaşte forma funcţiei f din expresia Ci = f(Vi) + εi , adică
f(Vi) = aVi+b. Adăugarea variabilei exogene εi dă modelului
formularea definitivă [4].
Mulţimea parametrilor care definesc complet modelul
econometric constituie „structura” acestuia. De exemplu,
dacă a = 0,7 şi b = 23 iar ε urmează o lege de probabilitate
normală de medie (speranţă matematică) egală cu zero şi
dispersie (varianţă) egală cu 5, atunci mulţimea
⎨ a = 0,7; b= 23; σ = 5 ⎬
constituie structura modelului [4]. Scopul va fi acela ca,
plecând de la cuplurile (Ci,Vi) asociate diferitelor familii i, să
se determine structura adevărată a modelului. Cu alte cuvinte,
plecând de la un spaţiu eşantion definit de mulţimea
cuplurilor (Ci,Vi) să se determine structura adevărată a
modelului în spaţiul cu trei dimensiuni al structurilor
⎨ a , b, σ ⎬ . Aici intervine „inducţia”statistică.

1.4. Inducţia statistică

Obiectul inducţiei statistice este de a determina o


procedură care, pornind doar de la observaţiile statistice de
care dispunem, să permită trecerea de la spaţiul eşantion la
spaţiul structurilor. Odată ce modelul a fost ales, se admite că
există un triplet (a, b, σ ) care permite reprezentarea exactă a
procesului prin care valorile variabilelor observate au fost
determinate. În cursul inducţiei statistice modelul nu se mai
modifică. Procedura aleasă – aşa cum se va vedea în
continuare – va consta în obţinerea de estimatori pentru
parametrii a şi b care să permită determinarea celor mai bune

10
valori reale ale acestor parametri. Aceste valori se vor
aprecia, în general, cu ajutorul unor „intervale de încredere”
construite la un prag de semnificaţie (α) dat. De exemplu, în
modelul [4] se va găsi că a∈[0,64;0,78] şi b∈[20;27] cu o
probabilitate de 95% (s-a considerat α=5%). Se poate estima
şi abaterea medie pătratică (σ) a variabilei aleatoare εi. Se va
vedea rolul important jucat de această variabilă aleatoare în
modelul econometric.

1.5. Identificarea modelului

Considerăm din nou modelul Ci=aVi+b+εi. Să


presupunem că procedura utilizată, pornind de la informaţia
deţinută, adică de la cuplurile (Ci,Vi), i=1,2,... nu conduce la
o soluţie unică, ci la două structuri distincte: s0=⎨a0,b0,σ0⎬ ,
s1 =⎨a1,b1,σ1⎬. Deorece legea de probabilitate pentru ε
precizează şi legea de probabilitate pentru C, fiecare structură
(ţinând cont de valorile exogenelor şi de legea lui ε) conduce
la o lege de probabilitate pentru C. Presupunem că structurile
s0 şi s1 conduc la aceeaşi lege de probabilitate pentru
consumul C. Sunt posibile două cazuri:
- s0 şi s1 sunt distincte şi nu putem alege între ele.
Se spune că structurile considerate nu sunt
„identificabile” şi, ca urmare, modelul nu este
identificabil. Din această cauză nu vom putea
determina valorile parametrilor care figurează în
model;
- s0 şi s1 nu sunt distincte, intersecţia lor nu este
vidă. Acestea vor permite identificarea unei
părţi a parametrilor modelului (cei care aparţin
intersecţiei). Se spune că cele două structuri sunt
echivalente, dar nu permit o identificare
completă a modelului.

11
Problema identificării este importantă mai ales în cazul
modelelor cu ecuaţii multiple.

1.6. Previziunea variabilei endogene

Interesul unui model a cărui structură a fost determinată


constă în a-l utiliza pentru previzionarea variabilelor
endogene – într-o etapă viitoare sau într-o circumstanţă dată,
dacă este vorba despre observaţii luate la acelaşi moment -,
atunci când cele exogene au fost fixate. De exemplu, dacă
dorim să studiem evoluţia importurilor (Y) în funcţie de
produsul intern brut (X1) şi de nivelul stocurilor (X2),
modelul econometric este:
yt=a1x1t+a2x2t+b+εt, t=1,2,...,T
unde t este timpul. Datele istorice (pe perioada 1990-2005)
despre Y, X1 şi X2 (observaţiile fiind anuale) permit determinarea
parametrilor modelului. Să presupunem că am găsit estimaţiile
punctuale:
⎧aˆ1 = 0,14

⎨ aˆ 2 = 0,6
⎪ bˆ = 6

Modelul „estimat” este: yˆ t = 0,14 x1t + 0,6 x 2t + 6 . Dacă dorim să
facem o previziune a importurilor pentru anul 2007, trebuie să ştim
care va fi PIB-ul şi nivelul stocurilor în anul 2007. Presupunînd că
aceste variabile exogene sunt x1=1030 şi x2=12,7 vom avea ca
previziune pentru y:
y2007=(0,14).1030+(0,6).(12,7)+6
ˆ
sau, în general, yθ = aˆ1 x1θ + aˆ2 x2θ + b , unde θ este perioada de
p

previziune.
Observaţie. Asupra valorii previzionate trebuie să remarcăm:

12
- valorile exogenelor x1θ, x2θ au fost alese arbitrar,
eventual ţinînd cont de evoluţia lor trecută;
- specificarea modelului nu poate fi perfectă,
forma funcţiei alese pentru a explica evoluţia lui
y neputînd fi suficient de precisă;
- este posibil ca variabilele explicative (exogene)
ale variabilei endogene (explicate), să nu mai
intervină în acelaşi mod ca în perioada 1990-
2005, cînd s-a studiat legatura dintre ele. Este
posibil să aibă loc un şoc, o ruptură care să
perturbe echilibrul dintre variabilele care explică
fenomenul, la momentul previziunii.
Este evident că toate aceste cauze pot constitui surse de
eroare a previziunii. Vom vedea care sunt metodele de a
minimiza eroarea de previziune.

***

Rezumatul capitolului I

Pentru construcţia şi utilizarea unui model econometric,


se parcurg următoarele etape:
- specificarea modelului (găsirea formulării
matematice definitive a legăturii dintre
variabilele care descriu fenomenul sau procesul
economic studiat);
- estimarea parametrilor şi testarea modelului cu
ajutorul statisticilor (seriilor de date observate)
deja cunoscute;
- previziunea variabilei endogene.

1.7. Vocabular uzual

13
Dacă sunteţi familiarizaţi cu statistica matematică, puteţi
trece la capitolul II. În caz contrar, vă reamintim aici cîteva noţiuni
de bază. Lectura acestui paragraf credem că vă va incita să
revedeţi cursul de Statistică matematică

Nor de puncte – Fiind dată o serie de date statistice în


care valorile (xi,yj) apar efectiv de nij ori putem reprezenta
într-un plan toate aceste valori prin puncte de coordonate
(xi,yj) afectate de coeficienţii nij , obţinându-se astfel un nor
de puncte.
Ajustare – Reprezentarea grafică a seriilor de date
economice conduce frecvent la figuri puţin lizibile şi greu de
interpretat din cauza variaţiilor pe termen scurt, numeroase şi
sensibile, dar fără o semnificaţie importantă. Metodele
matematice numite „de ajustare” permit obţinerea unei curbe
simple, cât mai apropiată posibil de mulţimea de puncte
furnizate de observaţiile empirice disponibile.
Ajustare liniară – Atunci când reprezentarea grafică a
unei serii statistice duble dă un nor de puncte de formă
alungită, se încearcă obţinerea unei aproximări bune a acestei
serii cu ajutorul unei drepte, realizându-se astfel o ajustare
liniară. Există mai multe metode pentru găsirea acestei
drepte:
- metoda grafică (se determină punctul mediu M ale
cărui coordonate sunt (x, y ) şi se trasează dreapta care pare a
fi cea mai reprezentativă a seriei, determinând ecuaţia
Y=aX+b. Această metodă este ambiguă pentru că nu ţine
cont de ponderea fiecărui punct în norul de puncte);
- metoda lui Mayer (se regrupează punctele norului în
două submulţimi cărora li se determină punctele medii M1 şi
M2. Dreapta de ajustare este atunci dreapta care trece prin M1
şi M2);
- metoda celor mai mici pătrate (constă în a face
minimă suma pătratelor distanţelor de la punctele norului la o
dreaptă de ecuaţie Y=aX+b numită dreaptă de regresie a lui Y

14
în X. Se arată că panta (coeficientul director) acestei drepte
este a=cov(X,Y)/Var(X). Coeficientul b se obţine scriind că
dreapta de regresie trece prin punctul mediu: b = Y − aX .
Procedând la fel se găseşte dreapta de regresie de ecuaţie
X=a′Y+b′ , cu a′=cov(X,Y)/Var(Y) şi b′ = X − a ′Y . Cele două
drepte de regresie sunt, în general, distincte. Compararea lor
permite măsurarea nivelului de corelaţie al caracteristicilor X
şi Y. Corelaţia se măsoară cu coeficientul de corelaţie
ρ=cov(X,Y)/σ(X)σ(Y). Se constată că ρ2=aa′ şi că ρ variază
între –1 şi 1. ρ2 măsoară unghiul dintre cele două drepte de
regresie, care coincid dacă ρ2=1, adică ρ = 1 . Caracteristicile
X şi Y sunt corelate maximal când ρ este apropiat de 1).
În afara faptului de a da o reprezentare mai mult sau
mai puţin satisfăcătoare legăturii dintre X şi Y, importanţa
ajustării liniare este de a permite previziuni statistice,
asociind lui X o valoare probabilă a lui Y prin relaţia
Y=aX+b.
Probabilitate – Fiind dată o mulţime finită Ω, numim
probabilitate pe Ω orice aplicaţie p a lui P(Ω) – mulţimea
părţilor lui Ω - în intervalul [0,1] care verifică trei condiţii:
- p(A)≥0, pentru ∀ A∈ P(Ω)
- p(Ω)=1
- p(A∪B)= p(A)+ p(B), dacă A,B∈ P(Ω), A∩B=Φ
Ω se numeşte univers (sau univers de probabilităţi). Ω
înzestrat cu probabilitatea p se numeşte spaţiu probabilizat. Orice
parte a lui Ω este un eveniment. Un singleton (mulţime ce conţine
un singur element) al lui Ω se numeşte eveniment elementar sau
eventualitate. Ω este evenimentul cert. Φ este evenimentul
imposibil. A este evenimentul complementar lui A în Ω (se
numeşte eveniment contrar lui A). Dacă A∩B=Φ, evenimentele A
şi B sunt incompatibile.
Variabilă aleatoare – Dacă Ω este un univers finit, numim
„variabilă aleatoare” orice aplicaţie X: Ω →R ( a lui Ω în mulţimea

15
numerelor reale). Mulţimea valorilor lui X, adică X(Ω) se numeşte
universul imagine. Atenţie!- o variabilă aleatoare nu este o
variabilă, ci o aplicaţie! Se observă că nu este necesar să
cunoaştem o probabilitate pe Ω pentru a defini o variabilă aleatoare
pe Ω.
Legea de probabilitate a unei variabile aleatoare – Dacă
universul finit Ω este înzestrat cu o probabilitate p, iar X este o
variabilă aleatoare definită pe Ω, numim lege de probabilitate a
variabilei aleatoare X, aplicaţia px: X(Ω)→[0,1] care asociază
oricărui x∈X(Ω) probabilitatea evenimentului „mulţimea
antecedentelor lui x prin X”. Această mulţime X-1(x) este notată
(X=x). Legea de probabilitate a lui X, notată px este definită prin
px: X(Ω)→[0,1], x →p(X=x). A studia o variabilă aleatoare
înseamnă a-i descoperi legea sa de probabilitate.
Funcţie de repartiţie - Dacă universul finit Ω este înzestrat
cu o probabilitate p, iar X este o variabilă aleatoare definită pe Ω,
se asociază acestei variabile aleatoare funcţia F:R→[0,1] definită
prin F(x)=p(X<x) numită funcţie de repartiţie a variabilei aleatoare
X. Evenimentul (X<x) este imaginea intervalului (− ∞, x ) prin funcţia
X. Funcţia de repartiţie este o funcţie în scară.
Speranţa matematică – Dacă X este o variabilă aleatoare
definită pe universul finit Ω, înzestrat cu probabilitatea p, universul
imagine este o mulţime finită şi ia valorile xi, i=1,2,...,n. Legea de
probabilitate a lui X asociază fiecărui xi probalbilitatea pi=p(X=xi).
Se numeşte speranţă matematică a variabilei aleatoare X, numărul
n

real E ( X ) = ∑ pi xi . E(X) este media în probabilitate a valorilor


i =1

luate de variabila aleatoare X. E(.) este un operator liniar.


Varianţa - Dacă X este o variabilă aleatoare definită pe
universul finit Ω, înzestrat cu probabilitatea p, universul imagine
este o mulţime finită şi ia valorile xi, i=1,2,...,n. Legea de
probabilitate a lui X asociază fiecărui xi probabilitatea pi=p(X=xi).
Se numeşte varianţă a variabilei aleatoare X, numărul real pozitiv

16
n
Var ( X ) = ∑ pi ( xi − E ( X )) 2 . Varianţa este media în probabilitate a
i =1

pătratului distanţelor de la xi la media lor. Rădăcina pătrată


(radicalul) lui Var(X) este ecartul-tip al variabilei aleatoare X, notat
σx.
Momente condiţionate – Se consideră vectorul aleator
( X , Y ) : Ω → R 2 , cu repartiţia P( X = xi , Y = y j ) = p ij , pij > 0, ∑∑ pij = 1 şi
i j

variabila aleatoare condiţionată (X/Y=yj) cu repartiţía


pij
P ( X = xi / Y = y j ) = , p. j = ∑ pij . Momentul de ordinul k al variabilei
p. j i

aleatoare X condiţionat de Y=yj este momentul iniţial de ordinul k


al variabilei aleatoare condiţionate (X/Y=yj):
pij 1
M ( X k / Y = y j ) = ∑ xik P ( X = xi / Y = y j ) = ∑ xik = ∑p ij xik
i i p. j p. j i

Similar se defineşte momentul de ordinul k al variabilei


aleatoare Y condiţionat de X=xi.
Pentru k=1 se obţin mediile condiţionate:
1 1
M (X /Y = y j ) =
p. j
∑x p
i
i ij , M (Y / X = xi ) = ∑ y j pij
pi . j
Se pot defini variabilele aleatoare „medii condiţionate” astfel:
- variabila aleatoare „media lui X condiţionată de Y”, cu
repartiţia:
⎛ M (X /Y = y j )⎞
M ( X / Y ) : ⎜⎜ ⎟, p. j ≥ 0, ∑ p. j = 1
p. ⎟
⎝ j ⎠ j

-variabila aleatoare „media lui Y condiţionată de X” , cu


repartiţia:
⎛ M (Y / X = xi ) ⎞
M (Y / X ) : ⎜⎜ ⎟⎟, p i . ≥ 0, ∑ p i . = 1
⎝ pi . ⎠ i

Regresie – Se numeşte regresia variabilei aleatoare X în


raport cu Y, variabila aleatoare M(X/Y) cu mulţimea valorilor
posibile: M(X/Y=y), x ∈ R.
Similar, regresia variabilei aleatoare Y în raport cu X este:
M(Y/X=x), y ∈ R.

17
Dacă M(X/Y)=aX+b sau M(Y/X)=cY+d se spune că regresia
este liniară
Repartiţía normală – Variabila aleatoare X urmează o
repartiţie normală de parametri m şi σ (se mai scrie şi X ∈ N (m,σ ) )
dacă densitatea ei de probabilitate (derivata funcţiei de repartiţie)
este:
1 ( x − m) 2
f ( x) = exp(− ), x ∈ R, m ∈ R, σ>0
σ 2π 2σ 2
Pentru m=0 şi σ =1 se obţine repartiţia normală „normată” N(0,1),
cu densitatea de probabilitate:

1 x2
f ( x) = exp(− ), x ∈ R,
2π 2
Se arată că parametri m şi σ2 sunt media, respectiv dispersia
variabilei aleatoare X ∈ N (m,σ ) .
Repartiţia χ2 (hi-pătrat) cu n grade de libertate –
Variabila aleatoare X urmează legea de repartiţie hi-pătrat cu n
grade de libertate (se mai scrie şi X ∈ H (n) ) dacă densitatea ei de
repartiţie este:
n
1 −1 x
f ( x) = n
x 2 exp(− ), x>0, n∈ N*
n 2
Γ ( )2 2
2
Dacă variabilele aleatoare X i ∈ N (0,1), i=1,2,...,n sunt
n

independente, atunci variabila aleatoare Y = ∑ X i urmează legea


2

i =1

de repartiţie H(n).
Repartiţia Student cu n grade de libertate S(n) – Variabila
aleatoare X urmează legea de repartiţie Student cu n grade de
libertate dacă densitatea ei de repartiţie este:
n +1

1 ⎛ x2 ⎞ 2
f ( x) = ⎜⎜1 + ⎟⎟ , x ∈ R, n ∈ N *
⎛n 1⎞ n ⎠
nΒ⎜ , ⎟ ⎝
⎝2 2⎠

18
Dacă variabilele aleatoare X ∈ N (0,1), Y ∈ H (n) sunt
independente, atunci variabila aleatoare Z = X ∈ S (n) .
Y
n
Repartiţia Fisher-Snedecor F(n1,n2) – Variabila aleatoare X
urmează legea de repartiţie Fisher-Snedecor cu n1 şi n2 grade de
libertate dacă densitatea ei de repartiţie este:

n1
⎛ n1 ⎞ n21 −1
2
⎜⎜ ⎟⎟ x n +n
− 1 2
n ⎛ n ⎞ 2
f ( x) = ⎝ 2 ⎠ ⎜⎜1 + 1 x ⎟⎟ ,
⎛ n1 n2 ⎞ ⎝ n 2 ⎠ x>0, n1 , n 2 ∈ N *
Β⎜ , ⎟
⎝2 2⎠
Dacă variabilele aleatoare X 1 ∈ H (n1 ) şi X 2 ∈ H (n2 ) sunt
X1
n
independente, atunci variabila aleatoare X = 1 ∈ F (n1 , n 2 ) .
X2
n2

19
CAPITOLUL II
REGRESIA SIMPLĂ

Studiem, pentru început, cel mai simplu model econometric:


o variabilă endogenă reprezintă evoluţia fenomenului considerat şi
această evoluţie este explicată printr-o singură variabilă exogenă.
În cadrul capitolului este prezentată metoda de estimare a
parametrilor care intervin într-un model econometric, se vor
examina proprietăţile estimatorilor obţinuţi şi se vor generaliza
rezultatele analizei pentru modele mai complexe. Într-o prima
parte se va trata obţinerea estimatorilor parametrilor modelului şi
proprietăţilor lor, iar într-o a doua parte se dă o interpretarea
geometrică a metodei utilizate, determinarea intervalelor de
încredere referitoare la parametri şi previziunea care poate fi făcută
cu un astfel de model.

2.1. Modelul liniar al regresiei simple

Considerăm modelul:

(1) yt = axt + b + ε t , t=1, 2, ...,T


în care: Y reprezintă o variabilă endogenă;

20
X o variabilă exogenă;
ε o variabilă aleatoare ale cărei caracteristici vor fi
precizate prin ipoteze.
Se dispune de T observaţii asupra lui Y şi X, adică T cupluri
(xt, yt) care sunt realizări ale lui X şi Y. a şi b sunt parametri reali
necunoscuţi pe care dorim să-i estimăm cu ajutorul observaţiilor
(xt, yt) cunoscute.

Ipoteze fundamentale
Pentru a putea obţine rezultatele enunţate la început, vom
simplifica lucrurile impunînd o serie de ipoteze restrictive asupra
modelului. Ulterior, în alte capitole, se vor relaxa aceste restricţii,
discutînd implicaţiile abandonării unora din aceste ipoteze asupra
calităţii estimatorilor.
I1:
xt şi yt sunt mărimi numerice observate fără eroare;
X –variabila explicativă se consideră dată autonom în
model;
Y –variabila endogenă este o variabilă aleatoare, prin
intermediul lui ε.
I2:
a)- ε urmează o lege de distribuţie independentă de timp,
adică media şi dispersia lui ε nu depind de t:

21
E (ε t ) = 0, ∀t = 1,2,...,T ,

Var (ε t ) = σ ε2 , cantitate finită, ∀t .

Observaţie:
S-au folosit aici, pentru medie şi dispersie, notaţiile E (•) ,

respectiv Var (•) , provenind de la „speranţa matematică” şi


„varianţa” unei variabile aleatoare. Se presupune că studenţii au
cunoştinţe elementare despre teoria probabilităţilor şi statistică
matematică. Altfel, ele trebuie revăzute!
b)- Realizările lui ε sunt independente de realizările lui X în
cursul timpului. Aceasta este ipoteza de homoscedasticitate. În caz
contrar, există heteroscedasticitate.
c)- Independenţa erorilor (se va vedea pe parcurs că variabila
aleatoare ε reprezintă „erori” sau „reziduuri”). Două erori relative
la două observaţii diferite t şi t’ sunt independente între ele,
însemnînd că au covarianţa nulă: cov(ε t , ε t′ ) = 0 , ceea ce implică
E (ε t .ε t ′ ) = 0 .

Prin definiţie, cov( ε t , ε t′ ) = E[(ε t − E (ε t ))(ε t′ − E (ε t′ ))] şi ţinînd cont


de a) rezultă implicaţia.

22
d)- Presupunem că ε urmează o lege de repartiţie normală ,
cu media 0 şi dispersia σ ε , ceea ce poate fi scris astfel:
2

ε ∈ N (0,σ ε2 ) .
I3:
Primele momente empirice ale variabilei X, pentru T
foarte mare, sunt finite:
1 T
∑ xt ⎯T⎯→⎯∞ → x0 (media empirică).
T t =1

1 T

T t =1
( ) 2
xt − x ⎯T⎯⎯→ s 2 (varianţa empirică).
→∞

Această ipoteză va fi folosită pentru a preciza proprietăţile


asimptotice ale estimatorilor parametrilor a şi b.
Ipotezele I1, I2, I3 pot părea foarte restrictive. Vom vedea
ulterior ce consecinţe are abandonarea unora dintre ele asupra
proprietăţilor estimatorilor lui a şi b.

2.2. Determinarea estimatorilor parametrilor


prin metoda celor mai mici pătrate

Determinarea estimatorilor parametrilor a şi b (notaţi cu â şi


b̂ ) prin metoda celor mai mici pătrate (MCMMP)
se face punând condiţia ca suma pătratelor erorilor să fie minimă,
adică:

23
T T

∑ε = ∑ [ y t − axt − b] = ϕ (a, b ) .
2 2
t
t =1 t =1

Pentru ca ϕ (a, b) să fie minimală, trebuie ca:


∂ϕ ∂ϕ
1. condiţii necesare: = 0, = 0.
∂a ∂b

∂ 2ϕ ∂ 2ϕ
∂ϕ 2
∂a 2 ∂a∂b > 0 .
2. condiţii suficiente: > 0,
∂a 2 ∂ 2ϕ ∂ 2ϕ
∂b∂a ∂b 2

Calculăm derivatele parţiale ale funcţiei ϕ (a, b) .


∂ϕ T
= ∑ 2( yt − axt − b )(− xt ) = 0
∂a t =1

∂ϕ T
= ∑ 2( yt − axt − b )(− 1) = 0
∂b t =1

∂ 2ϕ T

∂a 2
= 2∑t =1
xt2 >0

∂ 2ϕ
= 2T
∂b 2

∂ 2ϕ ∂ 2ϕ T
= = 2∑ xt .
∂a∂b ∂b∂a t =1

Atunci, condiţiile de ordinul I (necesare) conduc la sistemul


de ecuaţii:
⎧T T T

⎪∑ xt yt − a∑ xt − b∑ xt
(1)⎪⎨ tT=1 t =1 t =1

⎪ y − a x − Tb = 0 ,
T

⎪⎩∑
t =1
t ∑
t =1
t

24
iar condiţiile suficiente (de ordinul II) sunt verificate. Ecuaţiile
condiţii de ordinul I (numite ecuaţii normale, cu o justificare
geometrică elegantă în partea a II-a), le împărţim la T, rezultând:
⎧1 T 1 T 2
⎪ ∑ xt yt + a ∑ xt − b x = 0
⎨T t =1 T t =1 .
⎪y − ax − b = 0

Din a doua ecuaţie avem bˆ = y − a x şi înlocuind în prima


ecuaţie:
1
aˆ = T
∑ xt yt − y x
=
∑ x y − T y x = ∑ (y − y )(x − x ) .
t t t t
1
∑ x −Tx ∑ (x − x )
2 2

∑ xt − x
2 2 2
t t
T

Am obţinut estimatorii â şi b̂ ai parametrilor a şi b daţi de


relaţiile:


ˆ
a =
∑ ( )(
yt − y xt − x
,
)
⎪⎪
(2) ⎨ (
∑ xt − x
2
)

⎪⎩ bˆ = y − aˆ x

Observaţie:
â este o variabilă aleatoare pentru că e funcţie de yt, iar b̂

este aleator pentru că e funcţie de â .

25
2.3. Proprietăţile estimatorilor

Vom arăta că estimatorii â şi b̂ obţinuţi prin metoda celor mai


mici pătrate sunt nedeplasaţi şi convergenţi. În demonstraţie vom
ţine cont de ipotezele I1, I2, I3. Pentru a uşura demonstrarea
proprietăţilor enunţate, transformăm mai întâi expresiile (2) pentru
a le exprima în funcţie de parametrii a şi b. Vom considera
modelul (1) yt = axt + b + ε t , t=1, 2, ...,T, însumăm după toţi t şi
împărţim la T. Rezultă:
1 1 1
T
∑ yt = a ∑ xt + b + ∑ ε t , adică
T T

(2 ) y = ax + b + ε .

Scădem membru cu membru pe (2) din (1):


(
y t − y = a xt − x + ε t − ε ) ( )
şi înlocuim (y t −y ) în expresia lui â :
∑ [a(x ) ( )]( ) = a∑ (x − x ) + ∑ (ε − ε )(x − x ) = 2
t − x + ε t − ε xt − x t t t
aˆ =
∑ (x − x ) ∑ (x − x )
2 2
t t

=a+
∑ ε (x − x ) − ∑ ε (x − x ) = a + ∑ ε (x − x )
t t t t t

∑ (x − x ) ∑ (x − x )
2 2
t t

(deoarece ∑ ε ( xt − x) =ε ∑ ( xt − x) = 0 ).
Din expresia lui b̂ , avem că bˆ = y − aˆ x , adică y = aˆ x + b , iar din
(2) y = aˆ x + b + ε , astfel că prin scădere rezultă: 0 = (aˆ − a )x + bˆ − b − ε sau
bˆ = b + ε − (aˆ − a )x . Am obţinut că:

26
aˆ = a +
∑ (
ε t xt − x )
∑ (x )
2
t −x

bˆ = b + ε − (aˆ − a )x .

9 â şi b̂ sunt estimatori nedeplasaţi pentru a şi b. Un


estimator este nedeplasat dacă media estimatorului este
chiar parametrul estimat. Vom aplica operatorul de
medie E în relaţiile găsite mai sus.Pentru comoditate,
xt − x
notăm cu wt cantitatea: wt = , astfel că
∑ (x )
2
t −x

aˆ = a + ∑ ε t wt

Rezultă:
E (aˆ ) = E (a ) + ∑ wt E (ε t ) = a , pentru că E(a)=a şi E(εt)=0.

() ()
E bˆ = E (b ) + E ε − xE (aˆ − a )

Avem că: E(b)=b, () ⎛1 ⎞ 1


E ε = E ⎜ ∑ ε t ⎟ = ∑ E (ε t ) = 0 şi
⎝T ⎠ T

()
E (aˆ − a ) = E (aˆ ) − E (a ) = a − a = 0 , deci E bˆ = b .

9 â şi b̂ sunt estimatori convergenţi pentru a şi b. Ştiind


()
că E (aˆ ) = a şi E bˆ = b , este suficient să arătăm că

Var (aˆ ) ⎯T⎯⎯→ 0 şi Var bˆ ⎯T⎯


→∞
()
⎯→ 0 pentru ca
→∞
â şi b̂ să
fie convergenţi în probabilitate către a şi b. Calculăm

varianţa estimatorilor â şi b̂ .

27
Ştim că aˆ = a + ∑ wt ε t , adică aˆ − a = ∑ wt ε t .
⎛ ⎞
Var (aˆ ) = E (aˆ − a ) = E (∑ wt ε t ) = E ⎜ ∑ wt2ε t2 + 2∑ wt wt 'ε t ε t ' ⎟ =
2 2

⎝ t <t ' ⎠
( )
= ∑ wt2 E ε t2 + 2∑ wt wt ' E (ε t ε t ' )
t <t '

Conform ipotezelor fundamentale, E (ε t2 ) = σ ε2 şi E (ε t ε t ' ) = 0 ,


pentru t ≠ t ' , rezultând:
Var (aˆ ) = ∑ wt σ ε = σ ε ∑w
2 2 2 2
t ,
2
⎛ x −x ⎞ 1
dar ∑ t ∑ ⎜⎜ t
w 2
= ⎟ = .
⎝ ∑ xt − x ( )
2 ⎟
⎠ ∑ (x t −x )
2

În final, dispersia estimatorului â este:


σ ε2
Var (aˆ ) =
∑ (x − x )
2 .
t

Conform ipotezei I3, 1


T

2
(
xt − x ⎯T⎯⎯→ s 2
→∞
) şi avem că

σ ε2
Var (aˆ ) = 2
⎯T⎯⎯→ 0 .
→∞
Ts
P
Am obţinut că aˆ ⎯T⎯⎯→ a ( â este convergent în
→∞

probabilitate către a).

Determinăm acum dispersia estimatorului b̂ :


() ( ) [ ] [
Var bˆ = E bˆ − b = E ε − (aˆ − a )x = E ε − 2ε x(aˆ − a ) + (aˆ − a ) x =
2 2 2 2 2
]
= E (ε )− 2 xE [ε (aˆ − a )]+ x E (aˆ − a )
2 2 2

Evaluăm, pe rînd, fiecare termen:

28
( )
2
⎡1 ⎤ ⎡1 ⎛ ⎞⎤
E ε = E ⎢ ∑ ε t ⎥ = E ⎢ 2 ⎜ ∑ ε t + 2∑ ε t ε t ' ⎟ ⎥ =
2 2

⎣T ⎦ ⎣T ⎝ t <t ' ⎠⎦
Tσ ε2 σ ε2
T
1 2 2
T t <t '
( ) T
1
= 2 ∑ E ε t + 2 ∑ E (ε t ε t ' ) = 2 ∑Var (ε t ) = 2 =
T T

(deoarece E (ε t ε t ' ) = 0 ).

[ ]
⎡⎛ 1 ⎞ ⎤ 1 ⎡ 2 ⎤
E ε (aˆ − a ) = E ⎢⎜ ∑ ε t ⎟(∑ wt ε t )⎥ = E ⎢∑ wt ε t + ∑ wt ε t ε t ' ⎥ =
⎣⎝ T ⎠ ⎦ T ⎣ t <t ' ⎦
σ ε2
=
1
T
∑ t t T∑
w E ε 2
+
1
( )
wt E (ε ε
t t' ) =
1
T
∑ t
w Var (ε t ) =
T
∑w t
t <t '

∑ (x − x ) = 0 ,
T T
xt − x 1
dar ∑ wt = ∑ =
t =1
∑ (x − x )
t =1
∑ (x − x )t
2
t
2 t

adică E [ε (aˆ − a )] = 0 .
Folosind aceste rezultate parţiale, se obţine:
2

Var bˆ = () σ ε2
+ x E (aˆ − a ) =
2 2 σ ε2
+ x Var (aˆ ) =
2 σ ε2
+
x σ ε2
∑ (x )
2
T T T −x
t

Dispersia estimatorului b̂ este:

⎡1 x
2

ˆ
Var (b) = σ ε ⎢ + 2
2⎥
⎢⎣ T ∑ ( xt − x) ⎥⎦
1 1 1
Cum însă ⎯⎯⎯→ 0 şi = ⎯⎯⎯→ 0 rezultă că
T T →∞
∑ (x − x ) Ts 2 T →∞
2
t

()
P
Var bˆ ⎯T⎯⎯→ 0 , adică bˆ ⎯T⎯
→∞
⎯→ b
→∞ ( b̂ converge în
probabilitate către b) .

29
2.3.1. Covarianţa estimatorilor â şi b̂

Calculăm acum covarianţa estimatorilor pornind de la definiţie:

( ) [( ( ))] [ ( )]
cov aˆ , bˆ = E aˆ − E (aˆ )) bˆ − E (bˆ = E (aˆ − a ) bˆ − b =
= E [(aˆ − a )(ε − x(aˆ − a ))] = E [ε (aˆ − a ) − x(aˆ − a ) ] =
2

.
= E [ε (aˆ − a )]− xE (aˆ − a ) = − xVar (aˆ ) = −
2 xσ 2
ε

∑ (x − x )
2
t

Matricea de varianţă şi covarianţă a lui â şi b̂ , notată Ω (aˆ ,bˆ )

este deci:
⎛ σ ε2 ⎞
xσ ε2
⎜ − ⎟
⎛ Var (aˆ ) ( )
cov aˆ , bˆ ⎞ ⎜ ∑ xt − x
⎟=⎜
2
( ) ∑ xt − x
2
(

⎟=
)
Ω (aˆ ,bˆ ) = ⎜⎜
ˆ ( )
⎝ cov b, aˆ ()
Var bˆ ⎟ ⎜
⎠ − xσ ε2 ⎡1
σ ε2 ⎢ +
x
2 ⎤


⎜ 2 ⎟
⎜ ∑ xt − x

2
( ) ⎢ T ∑ xt − x ⎥ ⎟
⎣ ⎦⎠ ( )
⎛ 1 ⎞
x
⎜ − ⎟
(
⎜ ∑ xt − x
= σ ε2 ⎜
2
) (
∑ xt −2 x ⎟⎟ )
2

⎜ x 1 x ⎟
⎜⎜ − +
⎝ ∑ x t −(x
2
) T ∑ x −x ⎟
t (
2 ⎟
⎠ )
Se remarcă faptul că Ω (aˆ ,bˆ ) conţine pe σ ε2 , adică varianţa lui εt

care este necunoscută. Se pune deci problema de a obţine o

estimaţie pentru Ω (aˆ ,bˆ ) , adică o estimaţie pentru Var (ε t ) = σ ε .


2

Notăm această estimaţie cu σˆ ε .


2

30
2.3.2. Determinarea unui estimator nedeplasat pentru
varianţa erorilor
Utilizând estimatorii â şi b̂ putem calcula estimaţia variabilei
endogene yt, notată ŷ t (se mai numesc şi valori ajustate ale

variabilei endogene): yˆ t = aˆxt + bˆ .


Atunci diferenţa dintre yt şi ŷ t este un estimator pentru

eroarea εt . Notăm εˆt = yt − yˆ t . Avem că


εˆt = y t − yˆ t = y t − aˆxt − bˆ = axt + b + ε t − aˆxt − bˆ = ε t − (aˆ − a )xt − bˆ − b . ( )
Remarcă: deoarece â şi b̂ converg în probabilitate către a şi b,

distribuţia lui εˆt converge în probabilitate către distribuţia lui ε t


(distribuţie normală, conform I2).
Ştim că bˆ − b = ε − (aˆ − a )x şi înlocuind obţinem:
(
εˆt = ε t − (aˆ − a )xt − ε + (aˆ − a )x = ε t − ε − (aˆ − a ) xt − x . ) ( )
iar prin ridicare la pătrat:
( ) ( )(
εˆt2 = ε t − ε − 2(aˆ − a ) xt − x ε t − ε + (aˆ − a )2 xt − x .
2
) ( )
2

Însumăm după t=1,2,...,T şi împărţim la T:


1
T

1
εˆt2 = ∑ ε t − ε
T
( )2
− 2(aˆ − a )
1
T
∑ ( )( )2 1
xt − x ε t − ε + (aˆ − a ) ∑ xt − x
T
( ) 2

Dar: aˆ − a =
∑ ε (x − x ) , şi
t t

∑ (x − x )
2
t

∑ (x t )( ) [ ( ) ( )] ( )
− x ε t − ε = ∑ ε t xt − x − ε xt − x = ∑ ε t xt − x − ε ∑ xt − x = (aˆ − a )∑ xt − x ( ) ( )
2

31
pentru că ε ∑ (xt − x ) = 0 .
Înlocuind, rezultă:
1
T

1
εˆt2 = ∑ ε t − ε
T
( ) 2
− (aˆ − a )
2 1
T
∑ ( 2
xt − x . )
Notăm cu σ =
2 1
T
∑ εt −ε ( ) 2
dispersia erorilor faţă de media

lor şi cum ea este o variabilă aleatoare, îi calculăm media E (σ 2 ):

( ) ⎡1
(
2⎤


⎡1
⎣T
) 2 ⎤


⎡1
⎣T
(
2⎤
E σ 2 = E ⎢ ∑ ε t − ε ⎥ = E ⎢ ∑ ε t2 − 2ε ε t + ε ⎥ = E ⎢ ∑ ε t2 − ε ⎥ =
⎣T ⎦
)
( )
⎡⎛ 1 ⎞ ⎤
2
⎡1 ⎛ ⎞⎤
1
T
2
( )
= ∑ E ε t − E ε = σ ε − E ⎢⎜ ∑ ε t ⎟ ⎥ = σ ε2 − E ⎢ 2 ⎜ ∑ ε t2 + 2∑ ε t ε t ' ⎟⎥ =
2 2

⎣⎢⎝ T ⎠ ⎦⎥ ⎣T ⎝ t <t ' ⎠⎦


σ ε2
= σ ε2 −
1
T2
( )
∑ E ε t2 −
2
T2
∑ E (ε t ε t ' ) =σ ε2 − T
⎛ 1⎞
= σ ε2 ⎜1 − ⎟
t <t ' ⎝ T⎠

Aplicând acum operatorul de medie în relaţia:


1
T

1
(
εˆt2 = ∑ ε t − ε
T
)
2
− (aˆ − a )
2 1
T
(
∑ xt − x ),
2

şi ţinînd cont de expresia varianţei estimatorului â , rezultă:

( ) ⎛ 1⎞ σ
( )
2
⎛1 ⎞ 1 ⎛ 2⎞
E ⎜ ∑ εˆt2 ⎟ = E σ 2 − Var (aˆ ) ∑ xt − x = σ ε2 ⎜1 − ⎟ − ε = σ ε2 ⎜1 − ⎟ .
2

⎝T ⎠ T ⎝ T⎠ T ⎝ T⎠

⎛ 1 ⎞
Relaţia găsită se poate scrie şi astfel: σ ε = E ⎜
2

⎝T − 2
∑ εˆt2 ⎟ , aşa

, am obţinut: E (σˆ ε ) = σ ε , adică σˆ ε este


1 2
∑ εˆ
2 2
că, notând σˆ ε2 = t
2

T −2

un estimator nedeplasat pentru σ ε (varianţa erorilor).


2

32
Este de remarcat că modelul yt = axt + b + ε t presupune

estimarea a doi parametri (a şi b), iar numitorul lui σˆ ε2 este T-2.


(T-2) constituie „numărul gradelor de libertate”. Vom reveni
ulterior asupra acestei probleme.
În concluzie, pentru modelul liniar al regresiei simple, avem
estimatorii:

aˆ =
∑ (y − y )(x − x )
t t

∑ (x − x )
2
t

bˆ = y − aˆ x
1
σˆ ε2 =
T −2
∑ εˆt2

Estimatorul σˆ ε2 permite să dăm o estimaţie a varianţelor şi


covarianţei parametrilor din model, deci o estimaţie a matricei
Ω (aˆ ,bˆ ) , notată Ω̂ (aˆ ,bˆ ) :

⎛ ∧ ˆ
ˆ ˆ = ⎜ Var (a )
Ω

( )⎞⎟ ,
cov aˆ , bˆ
unde:
(aˆ ,b ) ⎜ ∧
( )
ˆ
⎝ cov aˆ , b

Var bˆ ( ) ⎟⎠
∧ σˆ ε2
Var (aˆ ) = ,
∑ (x − x )
2
t

⎡ ⎤
()
2
2 1 x

ˆ
Var b = σˆ ε ⎢ + ⎥
2 ,
⎢ T ∑ xt − x
⎣ ( )⎥

33

( ) ∧
cov aˆ , bˆ = − x Var (aˆ ) .

2.3.3. Interpretarea geometrică a metodei celor mai mici pătrate


Am determinat estimatorii â şi b̂ ai parametrilor modelului
utilizând condiţia necesară de existenţă a minimului sumei
pătratelor erorilor ∑ ε t2 . Putem să dăm o condiţie necesară şi
suficientă pentru ca ∑ ε t2 să fie minimală, cu ajutorul unei
reprezentări grafice. Această condiţie va consta în egalitatea cu
zero a două produse scalare care redau ecuaţiile normale.
Modelul yt = axt + b + ε t se scrie sub formă matriceală astfel:
Y = aX + bU + ε ,
⎛ y1 ⎞ ⎛ x1 ⎞ ⎛ 1⎞ ⎛ ε1 ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜ y2 ⎟ ⎜ x2 ⎟ ⎜ 1⎟ ⎜ε2 ⎟
⎜ . ⎟ ⎜ . ⎟ .
⎜ ⎟ ⎜ . ⎟
unde: Y = ⎜ ⎟, X = ⎜ ⎟ , U = ⎜ ⎟, ε = ⎜ ⎟ .
.
⎜ . ⎟ ⎜ . ⎟ ⎜ ⎟ ⎜ . ⎟
⎜ . ⎟ ⎜ . ⎟ ⎜.⎟ ⎜ . ⎟
⎜y ⎟ ⎜x ⎟ ⎜ 1⎟ ⎜ε ⎟
⎝ T⎠ ⎝ T⎠ ⎝ ⎠ ⎝ T⎠

În spaţiul ortonormat ℜT considerăm vectorii Y, X, U şi ε.

34
A

ε
B
Y X


H
U C
O
(L)

Vectorul 0H=aX+bU aparţine planului (L) determinat de


vectorii X şi U. Fie 0A=Y, 0B=X, 0C=U, HA=ε. Cantitatea
∑ε este minimală dacă HA este ortogonal pe (L), adică
2 2
t
2
= ε = HA

pe X şi U. Această condiţie se traduce prin egalitatea cu zero a


⎧HA ⋅ 0 B = 0
produsului scalar al vectorilor respectivi: ⎨ , sau
⎩HA ⋅ 0C = 0

⎧< Y − aX − bU , X >= 0 ⎧⎪∑ xt yt − aˆ ∑ xt2 − bˆ∑ xt = 0


⎨ , adică ⎨ .
⎩< Y − aX − bU ,U >= 0 ⎪⎩∑ y t − aˆ ∑ xt − Tbˆ = 0

Am regăsit, deci, sistemul de ecuaţii normale.


Notăm Yˆ proiecţia pe planul (L) a vectorului Y şi cu εˆ

vectorul HA ortogonal la planul (L).


A efectua o regresie a variabilei Y asupra variabilei X în
modelul yt = axt + b + ε t revine, deci, la a proiecta vectorul Y pe
planul (L) din ℜT determinat de X şi U.

35
Observaţie:
Considerăm modelul yt = b + ε t . O reprezentare analogă celei
dinainte este:
A

0
U H

În scriere matricială, modelul este Y = bU + ε , iar conform


cu reprezentarea grafică, avem relaţia OA=OH+HA.
∑ε este minimală dacă (HA este
2
t
2
= HA HA ⊥ 0 H

perpendicular pe 0H), adică HA ⋅U = 0 sau < Y − bU ,U >= 0 sau


1
∑y t − T ⋅ b = 0 , bˆ = ∑ yt = y
T
şi 0 A = bˆ ⋅ U = y ⋅ U = Y . Măsura algebrică a

proiecţiei vectorului Y pe suportul vectorului U este y . Vom utiliza


această observaţie pentru a exprima ecuaţia varianţei.

Ecuaţia varianţei

Reluăm reprezentarea geometrică precedentă şi notăm cu K


proiecţia lui A pe suportul vectorului U:

36
A

εˆ
B
X
Y


H
U C
O
(L) Y K

Evident, KH este perpendicular în K pe 0C. În triunghiul


AKH, dreptunghic, avem:

(1) AK 2
= KH
2
+ HA .
2

1 1
Ştim că yˆ t = aˆxt + bˆ şi
T
∑ yˆ t = aˆ ∑ xt + bˆ ,
T
adică:

yˆ = aˆ x + bˆ . Dar şi y = aˆ x + bˆ , rezultând că y = yˆ .
Deoarece: AK=0A-0K ( ΔA0 K dreptunghic în K)
HK=0H-0K ( Δ0 HK dreptunghic în K),
rezultă, folosind (1):

(2)∑ (yt − y ) ∑ (yˆ − y ) ∑ εˆ


2 2
= t + t
2

Variabilitatea Variabilitatea Variabilitatea


= +
totalã datorată regresiei reziduală

Aceasta este ecuaţia varianţei. Vom reveni asupra ei când


vom aborda regresia multiplă.

37
2.3.4. Coeficientul de corelaţie liniară

Coeficientul de corelaţie liniară între variabilele X şi Y, notat


ρ, se calculează cu relaţia:

ρ=
∑ (y − y )(x − x ) .
t t

∑ (y − y ) ⋅ ∑ (x − x )
2 2
t t

cov( X , Y )
În general, ρ XY = , unde σX şi σY sunt abaterile
σ X ⋅σ Y

standard (radicalul dispersiei) ale variabilelor X şi Y.


Ştim că estimatorul parametrului a are expresia

aˆ =
∑ (y − y )(x − x ) , astfel că putem scrie:
t t

∑ (x − x )
2
t

∑ (y − y )(x − x ) ⋅ ∑ (x − x ) ∑ (x − x ) . Am obţinut o
2 2
aˆ t
ρ= t t t
=
∑ (x − x ) ∑ (y − y ) ∑ (x ) ∑ (y − y )
2 2 2 2
t t t −x t

expresie a coeficientului de corelaţie în funcţie de estimator, iar

prin ridicare la pătrat: ρ = 2


aˆ 2 ∑ xt − x ( )
2

.
∑ (y )
2
t −y

Un calcul imediat arată că:

∑ (yˆ ) ( ) = ∑ [aˆx ( )] = ∑ [aˆ(x − x )] ( )


2
− yˆ = ∑ yˆ t − y =aˆ 2 ∑ xt − x
2 2 2 2
t t + bˆ − aˆ x + bˆ t .
În acelaşi timp, ecuaţia varianţei conduce la:
∑ (yˆ ) (
− y = ∑ y t − y − ∑ εˆt2 )
2 2
t , de unde:

∑ (yˆ ) = ∑ (y − y ) − ∑ εˆ ∑ εˆ
2 2
−y 2 2

ρ 2
=
t t t
= 1−
t
.
∑ (y − y) ∑ (y − y ) ∑ (y − y )
2 2 2
t t t

38
Pe de altă parte, utilizând figura geometrică şi notând cu α
∑ (yˆ )
2 2
KH KH −y
unghiul AKˆ H , avem cos α = , cos α =
2
=
t
, adică
∑ (y − y)
2 2
AK AK t

ρ = cos α = 1 −
2 2 ∑ εˆ t
2

∑ (y )
2 .
t −y

În mod necesar, 0 ≤ ρ2 ≤1 şi −1 ≤ ρ ≤ 1.

9 Când ρ = 0, nu există o relaţie de tip liniar y t = axt + b

între yt şi xt, adică a=0.


9 Când ρ 2 = 1 , yt este legat de xt printr-o relaţie de forma
y t = axt + b . ρ = 1 implică a>0, iar ρ = −1 implică a<0.
9 Când relaţia dintre yt şi xt nu este strictă, adică
y t ≅ axt + b , atunci ρ este apropiat de 1, semnul lui ρ
fiind cel al lui a.

2.3.5. Distribuţia de probabilitate a estimatorilor

Deoarece erorile εt t=1,2,...,T au o distribuţie normală, de


medie zero şi dispersie σ ε2 , densitatea de probabilitate a lui εt este:
1 ⎧ 1 ε t2 ⎫
f (ε t ) = exp⎨− 2 ⎬
, t = 1,2,..., T .
σε 2π ⎩ 2 σε ⎭

Cum εt şi εt’ sunt independente pentru t ≠ t' , densitatea de


probabilitate a vectorului aleator (ε1, ε2, ..., εT) va fi egală cu
produsul densităţilor de probabilitate relative la fiecare εt.

39
⎧⎪ 1 ∑ ε t2 ⎫⎪
T
⎛ 1 ⎞
(1) f (ε 1 , ε 2 ,..., ε t ) = ⎜⎜ ⎟ exp⎨−
⎟ 2 ⎬
σ
⎝ ε 2π ⎠ ⎪⎩ 2 σ ε ⎪⎭

Dar, ε t = yt − axt − b şi
(
yt − axt − b = yt − axt − b − aˆ xt + aˆ xt − bˆ + bˆ = yt − aˆxt − bˆ + (aˆ − a )xt + bˆ − b = ) ( )
= εˆ + ( aˆ − a) x + (bˆ − b)
t t

(deoarece yt − aˆxt − bˆ = yt − yˆ t = εˆt ).


Evaluăm suma pătratelor erorilor:

∑ ε = ∑ ( y − ax − b) = ∑ [εˆ + (aˆ − a )x + (bˆ − b)] =


2 2
2
t t t t t

= ∑ ⎡εˆ + (aˆ − a ) x + (bˆ − b ) + 2εˆ (aˆ − a )x + 2εˆ (bˆ − bˆ) + 2(aˆ − a )(bˆ − b )x ⎤ =
2 2
2 2
⎢⎣ t t t t ⎥⎦ t t

( ( ))
= ∑ ⎡εˆt2 + (aˆ − a )xt + bˆ − b ⎤ = ∑ εˆt2 + ∑ (aˆ − a )xt + bˆ − b
⎢⎣
2

⎥⎦
[ ( )] 2

( (
2εˆt (aˆ − a )xt = 0 , 2εˆt bˆ − b = 0 ) pentru că aşa cum arată reprezentarea
grafică, vectorul εˆ este ortogonal la planul (L), prin urmare este
perpendicular pe orice vector din acel plan, deci şi pe X şi U.
Produsele scalare cu aceşti vectori vor fi nule, adică: < εˆ, X >= 0 şi
< εˆ,U >= 0 ).

Într-o scriere matricială:


⎛ aˆ − a ⎞ ⎛ ∑ xt2
[ ( )]
'
T x ⎞⎛ aˆ − a ⎞
∑ (aˆ − a )xt + bˆ − b
2
= ⎜⎜ ˆ ⎟⎟ ⎜⎜ ⎟⎜ ⎟
⎝b − b⎠ ⎝ T x T ⎟⎠⎜⎝ bˆ − b ⎟⎠

( lasăm studenţilor plăcerea de a verifica !).


Înlocuind în (1) fiecare εt prin expresiile calculate mai sus,
deducem densitatea de probabilitate a vectorului aleator
(y1,y2,...,yT):

40
⎧⎪ 1 ∑ ( y t − axt − b )2 ⎫⎪
T
⎛ 1 ⎞
ϕ ( y1 , y 2 ,..., yt ) = ⎜
⎜ ⎟
⎟ exp⎨⎪− 2 ⎬=
⎝ σ ε 2π ⎠ ⎩ σ ε2 ⎪⎭
⎧⎪ 1 ∑ εˆt2 ⎫⎪
T
⎧⎪ 1 ⎛ aˆ − a ⎞ ' 1 ⎛ x 2 T x ⎞⎛ aˆ − a ⎞⎫⎪
⎟⎟ 2 ⎜⎜ ∑ t
⎛ 1 ⎞

=⎜ ⎟ exp⎨− 2 ⎬
exp⎨− ⎜⎜ ˆ ⎟⎜ ⎟⎬
σ
⎝ ε 2π ⎟
⎠ ⎪
⎩ 2 σ ε ⎭ ⎪ 2
⎪⎩ ⎝ b − b ⎠ σε ⎝ T x T ⎟⎠⎜⎝ bˆ − b ⎟⎠⎪⎭

Ţinând cont de matricea de varianţă şi covarianţă a


1 ⎛⎜ ∑ xt2 T x⎞
estimatorilor, Ω (aˆ ,bˆ ) , se arată uşor că: ⎟ = Ω −(aˆ1,bˆ ) şi
σ ε2 ⎜⎝ T x T ⎟⎠
T
⎛ 1 ⎞
ϕ ( y1 , y 2 ,..., yt ) = ⎜⎜ ⎟ g (εˆt ) ⋅ h aˆ , bˆ
⎟ ( ) unde g (εˆt ) este densitatea de
⎝ σ ε 2π ⎠

probabilitate a lui εˆt , iar ( ) cea a lui (aˆ, bˆ).


h aˆ, bˆ

Cu aceste rezultate şi făcînd apel la unele teoreme importante


ale statisticii matematice, putem deduce următoarele distribuţii de
probabilitate:
1
1. Deoarece σˆ ε2 = ∑ εˆt2 , adică ∑ εˆ t
2
= (T − 2 )σˆ ε2 ,
T −2

variabila aleatoare definită de raportul


ˆ2 ⎛ ⎞
(T − 2 )σ ε2 ⎜⎜ = 1
∑ εˆ 2
⎟⎟ urmează o repartiţie χ2 (hi-pătrat)
σε ⎝ σε 2 t

cu (T-2) grade de libertate. (Vectorul εˆ admite T-2


componente independente nenule distribuite după T-2
legi normale independente, cu media zero şi abatere
standard σ ε )

41
2. Folosind relaţile de calcul stabilite anterior, rezultă că
σˆ ε2 σˆ a2ˆ
=
σ ε2 σ a2ˆ

(am utilizat aici notaţiile σ aˆ = Var (aˆ ) şi σˆ aˆ = Vaˆr ( aˆ ) pentru


2 2

varianţa estimatorului â , respectiv pentru estimaţia acesteia).


σˆ a2ˆ
Atunci variabila aleatoare definită de raportul (T − 2 ) 2
σ aˆ

urmează tot o repartiţie χ2 cu (T-2) grade de libertate.

3. Cuplul (aˆ, bˆ) urmează o repartiţie normală


bidimensională, astfel că variabilele aleatoare definite
mai jos au repartiţiile următoare:
aˆ − a
™ ∈ N (0,1) ;
σ aˆ
aˆ − a
™ ∈ S (T −2 ) (repartiţia Student cu (T-2) grade de
σˆ aˆ

libertate);
bˆ − b
™ σ ∈ N (0,1) ;

bˆ − b
™ σˆ ∈ S (T −2 ) .

42
1 ⎧⎪⎛ aˆ − a ⎞ −1 ⎛ aˆ − a ⎞ ⎫⎪
'

4. Expresia F = ⎨⎜⎜ ˆ ⎟Ω ˆ⎜ ⎟⎬ este variabilă


2 ⎪⎝ b − b ⎟⎠ (aˆ ,b ) ⎜⎝ bˆ − b ⎟⎠ ⎪
⎩ ⎭

aleatoare repartizată Fisher-Snedecor, cu 2 şi (T-2)


grade de libertate.

2.4. Teste şi intervale de încredere

Pentru că există tabele cu valorile legilor de probabilitate


anterioare, putem determina intervale de încredere pentru
parametrii a şi b la un nivel de semnificaţie α fixat.
⎧ aˆ − a ⎫
Prob ⎨ ≤ tα ⎬ = 1 − α
⎩ σˆ aˆ ⎭

tα este luat din tabela distribuţiei Student cu (T-2) grade de


libertate. Un calcul simplu conduce la intervalul de încredere
pentru parametrul a, de forma:

aˆ − tα σˆ aˆ ≤ a ≤ aˆ + tα σˆ aˆ
ceea ce permite afirmaţia că adevărata valoare a parametrului real
a , se găseşte în intervalul de valori [aˆ − tα σˆ aˆ ; aˆ + tα σˆ aˆ ] cu
probabilitatea 1-α.
Când se doreşte testarea unei valori a0 a parametrului a, este
suficient, pentru a accepta această valoare cu riscul α, să ne
asigurăm că:

43
aˆ − a0
≤ tα .
σˆ aˆ
Altfel spus, este suficient ca a0 să aparţină intervalului de
încredere stabilit: a0 ∈ [aˆ − tα σˆ aˆ , aˆ + tα σˆ aˆ ] .
De asemenea, Prob{F ≤ F (α ,2, T − 2)} = 1 − α .
F = F (α ,2, T − 2) este ecuaţia unei elipse cu centrul în w(aˆ , bˆ ) care

defineşte astfel o „regiune” de încredere pentru cuplul (a, b) la


nivelul de semnificaţie α:

b
B

w

A â A’

Proiecţiile acestei elipse pe axe determină, de asemenea,


două intervale de încredere pentru a şi b, centrate în â şi b̂ . Dar,
este important de remarcat că, nivelul de semnificaţie referitor la
aceste intervale nu mai este nivelul α asociat elipsei.

44
Dacă se doreşte testarea simultană a două valori a0, b0 alese
apriori, este suficient să înlocuim a şi b în expresia F prin a0 şi b0.
Dacă F (a0 , b0 ) ≤ F (α ,2, T − 2) se acceptă valorile, altfel ele
vor fi respinse. Altfel spus, pentru a accepta cuplul (a0, b0) la
nivelul de semnificaţie α este suficient ca punctul M0(a0,b0) să
aparţină elipsei de încredere asociată cuplului (a, b).

Observaţii:
1. Expresia ϕ ( y1 , y2 ,..., yT ) se descompune în doi factori (g şi h). g
se exprimă doar în funcţie de εˆt , adică în funcţie de yt, â , b̂ ; h
nu conţine decât pe â , b̂ , a şi b. Aceasta arată că, odată
cunoscută o realizare a cuplului (aˆ, bˆ), legea de probabilitate
condiţionată a lui yt (dată de factorul g) nu depinde decât de
valorile adevărate (dar necunoscute) ale parametrilor a şi b.
Se zice că (aˆ, bˆ) sunt estimatori „exhaustivi” pentru a şi b,
adică ei rezumă toată informaţia pe care eşantionul o poate
aduce despre a şi b.
2. Când ipoteza de normalitate asupra erorilor εt este realizată,
funcţia de verosimilitate relativă la eşantionul ( y1 , y2 ,..., yT ) este
chiar funcţia ϕ ( y1 , y2 ,..., yT ) . Pentru obţinerea de estimatori ai lui
a şi b prin metoda verosimilităţii maxime, este suficient să
maximizăm expresia ϕ ( y1 , y 2 ,..., yT ) , adică să minimizăm

45
∑ (y t − axt − b )
2
. Estimatorii (aˆ, bˆ) obţinuţi cu metoda celor mai
mici pătrate coincid, deci, cu cei obţinuţi prin metoda
verosimilităţii maxime.
3. Atunci când ipoteza de normalitate a erorilor nu se
realizează, se va arăta că estimatorii â şi b̂ obţinuţi prin
metoda celor mai mici pătrate au varianţa minimă printre toţi
estimatorii liniari centraţi în a şi b (se va da o demonstraţie
pe cazul general).

2.5. Previziunea cu modelul liniar

Fie xθ realizarea variabilei exogene la momentul θ. Valoarea


previzionată pentru endogena Y va fi:

yθP = aˆxθ + bˆ ,
iar realizarea efectivă a lui Y este:

yθ = axθ + b + ε θ .
Eroarea de previziune se poate exprima prin variabila

aleatoare e P = yθP − yθ .
( )
yθP − yθ = (aˆ − a )xθ + bˆ − b − ε θ .
Se remarcă imediat că E (eP ) = 0 , iar varianţa erorii de
previziune este:

46
( )
Var (eP ) = E yθP − yθ = xθ2 E (aˆ − a ) + E bˆ − b + E ε θ2 +
2 2 2
( ) ( )
[ ( )]
+ 2 xθ E (aˆ − a ) bˆ − b − 2 xθ E ε θ (aˆ − a ) − 2 E ε θ bˆ − b [ ] [ ( )]
Ultimii doi termeni sunt nuli (s-a demonstrat anterior!) (ε şi
â , ca şi ε şi b̂ sunt necorelaţi).
Deci:
()
Var (eP ) = xθ2Var (aˆ ) + Var bˆ + Var (ε θ ) + 2 xθ cov aˆ , bˆ . ( )
Notăm varianţa erorii de previziune cu μθ2 = Var (eP ) şi folosind
relaţiile de calcul anterioare, rezultă:

σ ε2 ⎡ ⎤ 2
σ ε2 Tx 2 xθ xσ ε2
μθ = xθ
2 2
+ ⎢1 + ⎥ + σ 2
− =
∑ (x ) ( ) ( )
ε
∑ ∑ xt − x
2 2 2
−x T ⎢ x − x ⎥
t ⎣ t ⎦
⎡ 1
= σ ε ⎢1 + +
2 xθ − x ⎤
2


( )
⎢ T ∑ xt − x ⎥

2
⎦ ( )
σ ε2 este necunoscut, dar estimat prin σˆ ε2 şi varianţa estimată a
erorii de previziune este:
⎡ 1 x
μˆ θ2 = σˆ ε2 ⎢1 + + θ
− x
2 ⎤


( )
⎢ T ∑ xt − x ⎥

2
⎦ ( )
Această varianţă poate fi redusă, pe de o parte prin creşterea
numărului de observaţii (T), iar pe de altă parte, prin alegerea lui xθ

astfel încât (x θ −x )2
să nu fie prea mare (adică făcând o previziune
pe termen scurt).

47
Deoarece erorile sunt normal distribuite, ε t ∈ N (0,σ ε2 ) atunci şi
(aˆ − a ) ∈ N şi (bˆ − b)∈ N (urmează legi normale). Rezultă următoarele
distribuţii de probabilitate pentru variabilele:
yθP − yθ
9 ∈ N (0,1) .
μθ

yθP − yθ
9 μ̂ urmează o lege Student cu T-2 grade de
θ

libertate pentru că (T − 2) μθ2 = (T − 2)σ ε2 .


ˆ2 ˆ2
μθ σε

În planul (x,y) trasăm dreapta de ajustare y = aˆx + bˆ . Fie


(
P xθ , yθP ) punctul situat pe dreapta de ajustare. Putem construi,
având P ca centru şi paralel cu axa 0y un interval de încredere
M1M2 la nivelul de semnificaţie α.

⎧⎪ yθP − yθ ⎫⎪
P⎨ < tα ⎬ = 1 − α .
⎪⎩ μˆ θ 2 ⎪⎭
tα fiind luat din tabela distribuţiei Student. Pentru T dat, μ̂θ
2

ca funcţie de (xθ −x )
2
este minim pentru xθ = x . Punctele M1 şi M2
sunt deci situate, când θ variază, pe două arce de curbă (vezi
figura), care determină astfel regiunea căreia îi aparţine yθ pentru
xθ dat, cu o probabilitate egală cu (1-α).

48
y
M2 yˆ = aˆx + bˆ

P
yθP
M1
y

x xθ

Observaţii
1. „O variabilă aleatoare t este distribuită după o lege Student
t2
cu T-2 grade de libertate dacă expresia este raportul dintre o
T −2

variabilă aleatoare distribuită χ2 cu 1 grad de libertate şi o alta


aˆ − a
distribuită χ2 cu (T-2) grade de libertate”. Fie t= . Atunci:
σˆ aˆ

(aˆ − a )2
t2
=
(aˆ − a ) = 2
σ a2ˆ
=
χ 2 cu un grad de libertate
T − 2 (T − 2)σˆ a2ˆ σˆ a2ˆ χ 2 cu (T - 2) grade de libertate .
(T − 2) 2
σ aˆ

2. „O variabilă aleatoare F este distribuită după o lege Fisher-


n1 F
Snedecor cu n1 şi n2 grade de libertate dacă expresia este
n2

raportul dintre o variabilă aleatoare distribuită χ2 cu n1 grade de


libertate şi o alta distribuită χ2 cu n2 grade de libertate”.
1 ⎧⎛ aˆ − a ⎞ ˆ −1 ⎛ aˆ − a ⎞⎫
Fie F= ⎨⎜ ⎟' Ω ˆ ⎜ ⎟⎬ .
2 ⎩⎜⎝ bˆ − b ⎟⎠ (aˆ ,b ) ⎜⎝ bˆ − b ⎟⎠⎭

49
Atunci:
⎛ aˆ − a ⎞ ⎛ ∑ xt2 T x ⎞⎛ aˆ − a ⎞
,

⎟⎟ ⎜⎜ ⎟⎜⎜
⎜⎜ ˆ
b − b T x T ⎟ bˆ − b ⎟⎟
2F
=
⎝ ⎠⎝ ⎠⎝ ⎠
=
T −2 (T − 2)σˆ ε
2

⎛ aˆ − a ⎞ ⎛ ∑ xt2
,
T x ⎞⎛ aˆ − a ⎞
⎜⎜ ˆ ⎟⎟ ⎜⎜ ⎟⎜ ⎟
⎝b − b⎠ ⎝ T x T ⎟⎠⎜⎝ bˆ − b ⎟⎠
σ ε2 χ 2 cu doua grade de libertate
= =
σˆ ε2 χ 2 cu (T - 2) grade de libertate
(T − 2) 2
σε

pentru că (aˆ, bˆ) urmează o lege normală bidimensională.


3. Jacobianul transformării permite exprimarea densităţii de
probailitate a vectorului aleator ( y1 , y2 ,..., yT ) pornind de la cea a lui
(ε 1 , ε 2 ,..., ε T ) . Când f (ε 1 , ε 2 ,..., ε T ) este cunoscută, pentru a obţine
ϕ ( y1 , y 2 ,..., yT ) , procedăm astfel:
9 Înlocuim εt prin expresia ei în funcţie de yt ;

9 Înmulţim expresia obţinută cu valoarea absolută a


determinantului:
∂ε 1 ∂ε 1 ∂ε 1
...
∂y1 ∂y 2 ∂yT 1 0 ... 0
∂ε 2 ∂ε 2 ∂ε 2
D(ε ) ... 0 1 ... 0
J= = ∂y ∂y 2 ∂yT = =1
D( y ) 1 ... ... ... ...
... ... ... ...
∂ε T ∂ε T ∂ε T 0 0 ... 1
...
∂y1 ∂y 2 ∂yT

ϕ ( y1 , y2 ,..., yT ) = f (ε1 ( y1 ), ε 2 ( y 2 ),..., ε T ( yT )). J

4. Am văzut că (aˆ − a ) = ∑ wt ε t , εt şi (aˆ − a ) fiind distribuite


normal. (aˆ − a ) este o combinaţie liniară de ε t . Deci:

50
(aˆ − a ) ∈ N (0,1)
σ aˆ

(aˆ − a )2 este distribuită χ2 cu 1 grad de libertate pentru că este


σ aˆ
2

pătratul unei variabile aleatoare N(0,1).


(bˆ − b) ∈ N (0,1)
σ bˆ

(bˆ − b ) 2

∈ χ 2 (1)
σ 2

Deoarece ∑ ε t2 = ∑ (εˆt − ε ) − (aˆ − a )2 ∑ (xt − x ) , prin împărţirea la


2 2

σ ε2 , obţinem:

∑ε ∑ (εˆ ) 2
−ε (aˆ − a )2
∑ (x )
2
t t 2
= − −x
σ σ σ
2 2 2 t
ε ε ε

∑ (εˆ ) = ∑ εˆ
2 2
−ε
2

t t
− = χ (2T ) − χ (21) = χ (2T −1)
σ 2
ε σ 2
ε σ 2
ε

(aˆ − a )2 (aˆ − a )2 ∈ χ 2
∑ (x − x )
2
=
Var (aˆ )
(1)
σ ε2
t

Rezultă că:
∑ εˆ
2

= χ (2T −1) − χ (21) = χ (2T − 2) .


t

σ ε2

51
2.6. Experienţă de calcul

Pentru a studia cum variază cheltuielile de întreţinere şi


reparaţii ale unui utilaj agricol în funcţie de „vârsta” utilajului, s-au
cules următoarele date:
Vârsta utilajului (xt) 15 8 36 41 16 8 21 21
–în luni-
Cheltuieli anuale de 48 43 77 89 50 40 56 62
întreţinere şi reparaţii (yt)
–în RON-
Vârsta utilajului (xt) 53 10 32 17 58 6 20
–în luni-
Cheltuieli anuale de 100 47 71 58 102 35 60
întreţinere şi reparaţii (yt)
–în RON-

Rezolvare:

Căutăm să estimăm parametrii unei regresii liniare înte


variabilele X şi Y, de forma yt = axt + b + ε t , presupunînd că sunt
îndeplinite ipotezele fundamentale I1,I2,I3.
1. Pentru a calcula estimatorii, se folosesc relaţiile de calcul
stabilite anterior (în cadrul seminarului se vor prezenta facilităţile
de calcul oferite de diferite pachete de programe dedicate).
Elementele necesare calculului sunt date în tabelul ce urmează:

52
t xt yt xtyt xt − x ( xt − x ) 2 y t − y ( y t − y ) 2 x t2 y t2 yˆ t = 1 , 28 x t + 31 , 67
yˆ − y ( yˆ − y ) 2 ε ˆ t = y t − yˆ t εˆ t2
1 15 48 720 -9,1333 83,4177 -14,5333 211,218 225 2304 50,8544 -11,6789 136,396 -2,8544 8,1479
2 8 43 344 -16,1333 260,284 -19,5333 381,551 64 1849 41,9034 -20,6298 425,59 1,0965 1,2023
3 36 77 2772 11,8666 140,818 14,4666 209,284 1296 5929 77,7073 15,174 230,251 -0,7073 0,5003
4 41 89 3649 16,8666 284,484 26,4666 700,484 1681 7921 84,1008 21,5675 465,16 4,8991 24,0012
5 16 50 800 -8,1333 66,1511 -12,5333 157,084 256 2500 52,1331 -10,4002 108,164 -2,1331 4,5503
6 8 40 320 -16,1333 260,284 -22,5333 507,751 64 1600 41,9034 -20,6298 425,59 -1,9034 3,6232
7 21 56 1176 -3,1333 9,8177 -6,5333 42,6844 441 3136 58,5267 -4,0066 16,053 -2,5267 6,3842
8 21 62 1302 -3,1333 9,8177 -0,5333 0,2844 441 3844 58,5267 -4,0066 16,053 3,4732 12,0637
9 53 100 5300 28,8666 833,284 37,4666 1403,75 2809 10000 99,4454 36,912 1362,5 0,5545 0,3075
10 10 47 470 -14,1333 199,751 -15,5333 241,284 100 2209 44,4609 -18,0724 326,613 2,539 6,4469
11 32 71 2272 7,8666 61,8844 8,4666 71,6844 1024 5041 72,5925 10,0591 101,187 -1,5925 2,536
12 17 58 986 -7,1333 50,8844 -4,5333 20,5511 289 3364 53,4118 -9,1214 83,201 4,5881 21,0509
13 56 102 5916 33,8666 1146,95 39,4666 1557,62 3364 10404 105,8389 43,3056 1875,38 -3,8389 14,7375
14 6 35 210 -18,1333 328,818 -27,5333 758,084 36 1225 39,346 -23,1873 537,649 -4,346 18,8883
15 20 60 1200 -4,1333 17,0844 -2,5333 6,4177 400 3600 57,248 -5,2853 27,9347 2,7519 7,5734
∑ 362 938 27437 - 3753,73 - 6269,73 12490 64926 - - 6137,72 - 132,0144

53
Pe baza elementelor din tabelul de calcul, se determină:
1 T 1 1 T 1
- x= ∑
T t =1
xt =
15
362 = 24,133 y = ∑
T t =1
yt = 938 = 62,533
15

- aˆ =
∑ (y − y )(x − x ) = ∑ x y − Tx. y = 27437 − 15(24,133)(62,533) = 1,28
t t t t

∑ (x − x ) ∑ x − Tx 12490 − 15(24,133)
2 2 2 2
t t

- bˆ = y − aˆ x = 62,533 − 1,28(24,133) = 31,67


- coeficientul de corelaţie liniară:

ρ=
∑ (y t − y xt − x )( ) =
27437 − 15(24,133)(62,533)
= 0,9894
∑ (y )
− y ⋅ ∑ xt − x ( ) 6269.733 3753,733
2 2
t

Valoarea apropiată de 1 a coeficientului de corelaţie arată că între


cele două variabile studiate există o corelaţie liniară.
Observaţie: Am văzut că:

ρ =
2
(
aˆ 2 ∑ x t − x ) = ∑ (aˆx
2
t − aˆx ) 2
=
∑ ( yˆ t − yˆ ) 2

∑ (y ) ∑(y − y)2 ∑(y − y) 2


2
t −y t t

Pătratul coeficientului de corelaţie liniară este raportul dintre


variabilitatea explicată prin model şi variabilitatea totală.
- ecuaţia de analiză a varianţei:
variabilitatea totală = variabilitatea explicată + variabilitatea
reziduală

∑ (y ) ∑ (yˆ ) ∑ εˆ
2 2
t −y = t −y + t
2

6269,733 = 6137,719 + 132,014


În spaţiul observaţiilor, Y este cu atât mai bine explicat prin
modelul liniar, cu cât este mai aproape se planul (L) generat de

54
vectorii X şi U (vectorul unitar), deci cu cât variabilitatea reziduală
este mai mică faţă de variabilitatea empirică totală. Aceasta face ca
raportul dintre variabilitatea explicată prin model şi variabilitatea
totală, adică ρ2, să fie apropiat de 1.
- estimaţiile varianţelor reziduurilor şi ale estimatorilor:
1 132,0144
σˆ ε2 =
T −2
∑ t 15 − 2 = 10,15
ε
ˆ 2
=

∧ σˆ ε2 10,15
Var (aˆ ) = = = 0,0027; σˆ aˆ = 0,0027 = 0,052
∑ (x )
2
−x 3753,733
t

⎡ ⎤
()
2

ˆ 2 1 x ⎡ 1 (24,133) 2 ⎤
Var b = σˆ ε ⎢ + ⎥ = 10,15⎢ + ⎥ = 2,25
⎢ T ∑ xt − x
⎣ ( )2

⎦ ⎣15 3753,733 ⎦

σˆ bˆ = 2,25 = 1,5
- calculul intervalelor de încredere pentru estimatori:
(aˆ − a ) (bˆ − b)
Variabilele aleatoare σˆ aˆ şi σˆ bˆ urmează fiecare o repartiţie

Student cu (T-2) grade de libertate. Alegând un nivel de


semnificaţie α=0,05, putem extrage din tabelele repartiţiei (astfel
de tabele se găsesc în majoritatea cărţilor de econometrie, sau de
statistică matematică) valoarea ttab corespunzătoare numărului de
grade de libertate şi nivelului de semnificaţie ales. În cazul nostru,
pentru T-2=13 grade de libertate şi α=5%, găsim ttab=2,16.
Intervalele de încredere vor fi:

55
a ∈ [aˆ − tα σˆ aˆ ; aˆ + tα σˆ aˆ ] = [1,28-(2,16)(0,052) ; 1,28+(2,16)(0,052)]=

= [1,17 ; 1,39]
[ ]
b ∈ bˆ − tα σˆ bˆ ; bˆ + tα σˆ bˆ = [31,67 –(2,16)(1,5) ; 31,67+(2,16)(1,5)]=

=[28,43 ; 34,91]
Prin urmare, putem afirma că valorile parametrilor reali a şi b se
găsesc în aceste intervale cu o probabilitate de 95%.
Stabilim acum un interval de încredere pentru estimatorul varianţei
σˆ ε2 ⎛ 1 2⎞
erorilor. Am văzut că variabila aleatoare (T − 2 ) ⎜
2 ⎜
= ∑ ε
ˆ ⎟
t ⎟
σε ⎝ σε 2

urmează o lege de repartiţie hi-pătrat cu (T-2) grade de libertate. În
tabelele legii hi-pătrat vom găsi, pentru un nivel de semnificaţie α
dat, două valori: v1 având probabilitatea (1-α/2) de a fi depăşită,
respectiv v2 având probabilitatea (α/2) de a fi depăşită, astfel că
⎡ σˆ ε2 ⎤
Pr ob ⎢v1 ≤ (T − 2) 2 ≤ v 2 ⎥ = 1 − α
⎣ σε ⎦
Se obţine astfel intervalul de încredere:
⎡ (T − 2)σˆ ε2 (T − 2)σˆ ε2 ⎤
σε ∈⎢
2
; ⎥
⎣ v 2 v1 ⎦
pentru α=0,05 şi 13 grade de libertate extragem din tabelă v1=5,01
şi v2=24,7 rezultând intervalul:
⎡ (15 − 2)10,15 (15 − 2)10,15 ⎤
σ ε2 ∈ ⎢ ; ⎥ = [5,34 ; 26,34]
⎣ 24,7 5,01 ⎦

56
- testăm dacă parametrii a şi b ai modelului sunt semnificativ
diferiţi de zero la pragul de semnificaţie α=0,05.

aˆ bˆ
Variabilele aleatoare σˆ şi σˆ urmează legi de probabilitate
aˆ bˆ

Student cu (T-2) grade de libertate. Aceste rapoarte se numesc şi


„raportul t” Student empiric (tcalculat). Se acceptă ipoteza H0: (a=0)
dacă tcalculat (luat în modul) este mai mic decât ttabelat , altfel se
acceptă ipoteza contrară H1:(a ≠ 0). Acest lucru se poate scrie:

aˆ − 0
< t tab . Este exact acelaşi lucru cu a spune că 0 să aparţină
σ aˆ
ˆ

intervalului de încredere determinat pentru a. Cum 0 ∉ [1,17 ; 1,39],


acceptăm ipoteza H1:(a ≠ 0). La fel stau lucrurile şi pentru b. Prin
urmare, a şi b sunt semnificativ diferiţi de zero la pragul de
semnificaţie de 5%. Se spune că variabila explicativă (exogenă) X
(vârsta utilajului) este “contributivă”.
- ne propunem acum să determinăm o previziune a cheltuielilor de
întreţinere şi reparaţii pentru un utilaj de 4 ani (48 de luni). Notăm
p
cu yθ cheltuielile de întreţinere şi reparaţii pentru un utilaj cu

“vârsta” xθ . Avem că yθP = aˆxθ + bˆ = 1,28.48 + 31,67 = 93,11


Ce eroare corespunde unei astfel de previziuni? Ştim că:

57
e p = yθP − yθ , este o variabilă aleatoare distribuită normal, cu
media zero şi varianţa estimată a erorii de previziune:
⎡ 1
μˆθ = σˆ ε ⎢1 + +
2
(
xθ − x ⎤ ) ⎡ 1 (48 − 24,133) 2 ⎤
⎥ = 10,15⎢1 + + ⎥ = 12,366
2 2

⎢ T ∑ xt − x ⎥

2
⎦( ⎣ ) 15 3753 , 733 ⎦

μˆ θ = μˆ θ2 = 12,366 = 3,5164

yθP − yθ
Deoarece variabila aleatoare μ̂θ
este distribuită Student cu

(T-2) grade de libertate, putem determina un interval de încredere


pentru valoarea previzionată:
⎡ ⎤
yθ ∈ ⎢ yθp − t α μˆ θ ; yθp + t α μˆ θ ⎥ = [93,11 − (2,16)(3,5164);93,11 + (2,16)(3,51840] = [85,56;100,66]
⎣ 2 2 ⎦
Cu o probabilitate de 95%, valoarea adevărată a cheltuielilor de
întreţinere şi reparaţii pentru un utilaj de 48 de luni se va afla în
intervalul determinat.

58
CAPITOLUL III
REGRESIA MULTIPLĂ

De multe ori, studiul unui fenomen economic necesită


introducerea mai multor variabile explicative. O variabilă
endogenă se exprimă, deci, în funcţie de mai multe variabile
exogene. Metodele de regresie utilizate sunt în acest caz
generalizări ale celor din capitolul anterior.

3.1. Modelul liniar al regresiei multiple

Considerăm acum modelul:

(1) yt = a1 x1t + a 2 x 2t + ... + a p x pt + ε t , t=1, 2, ...,T


în care: Y reprezintă o variabilă endogenă;
X1, X2 ,..., Xp sunt variabile exogene;
a1, a2 ,..., ap sunt parametri necunoscuţi care trebuie
estimaţi.
Modelul nu conţine o constantă deoarece variabila Xp poate fi
considerată astfel ca xpt=1, ∀t = 1,2,..., T (se numeşte variabilă
auxiliară).
Folosind notaţiile:

59
⎛ y1 ⎞ ⎛ ε1 ⎞
⎜ ⎟ ⎛ x11 x 21 ... x p1 ⎞ ⎛ a1 ⎞ ⎜ ⎟
⎜ y2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ε2 ⎟
⎜ . ⎟ ⎜ x12 x 22 ... x p 2 ⎟ a ⎜ . ⎟
Y = ⎜ ⎟, X = ⎜ ⎟ , a = ⎜⎜ 2 ⎟⎟ , ε = ⎜ ⎟
⎜ . ⎟ ... ... ... ... ... ⎜ . ⎟
⎜ ⎟ ⎜ ⎟
⎜ . ⎟ ⎜x x 2T ... x pT ⎟⎠ ⎜a ⎟ ⎜ . ⎟
⎜y ⎟ ⎝ 1T ⎝ p⎠ ⎜ε ⎟
⎝ T⎠ ⎝ T⎠

ecuaţia (1) se scrie sub formă matriceală:

(2) Y = Xa + ε .

Ipoteze fundamentale
Ipotezele I1, I2 din capitolul II rămân valabile: ceea ce era
adevărat pentru xt este acum valabil pentru xit, i=1,2,...,p.
Ipoteza I3 referitoare la variabilele exogene se modifică
astfel:
a. absenţa coliniarităţii variabilelor exogene:
Nu există nici o mulţime de p numere reale λi ,
p

i=1,2,...,p astfel încât ∑λ x


i =1
i it = 0 , t=1, 2, ...,T.

Matricea X de format (Txp) are în acest caz rangul p


(T>p) şi matricea (X’X), unde X’ este transpusa lui
X, este nesingulară, deci există inversa ei (X’X)-1.
1
b. Atunci când T →∞, matricea (X ' X ) tinde către o
T

matrice finită, nesingulară.

60
3.2. Determinarea estimatorilor parametrilor

Pentru a scrie ecuaţiile normale utilizăm interpretarea


geometrică dată în capitolul II. Ne propunem să minimizăm
T
expresia U = ∑ ε t .
2

t =1

Fie vectorii Y, X1, X2,...,Xp în spaţiul ortonormat ℜT .

εˆ
Xp
Y

X2

H
O X1
(L)

⎛ a1 ⎞
⎜ ⎟
⎜ a2 ⎟
Vectorul Xa = (X 1 , X 2 ,..., X p )⎜ ⎟ aparţine subspaţiului (L)
...
⎜ ⎟
⎜a ⎟
⎝ p⎠

generat de vectorii X1, X2,...,Xp. Cantitatea U = ∑ ε t2 = ε va fi


2

minimă atunci când vectorul ε = Y − Xa este ortogonal la


subspaţiul (L). Această condiţie se traduce prin egalitatea cu zero a
produselor scalare dintre vectorul Y − Xa şi orice vector din
subspaţíul (L),deci şi X1,X2,...,Xp:

61
⎧< Y − a1 X 1 − a 2 X 2 − ... − a p X p , X 1 >= 0

⎪< Y − a1 X 1 − a 2 X 2 − ... − a p X p , X 2 >= 0

⎪...............
⎪< Y − a1 X 1 − a 2 X 2 − ... − a p X p , X p >= 0

Efectuînd produsele scalare, rezultă sistemul de ecuaţii:

⎛ ∑ x1t yt ⎞ ⎛ ∑ x12t ∑x x ... ∑x x pt ⎞ ⎛ a1 ⎞


⎜ ⎟ ⎜ 1t 2t 1t
⎟⎜ ⎟
⎜ ∑ x2 t yt ⎟ ⎜ ∑ x2 t x1t ∑x ∑x
2
2 t x pt ⎟ ⎜ 2 ⎟
... a
⎜ ... ⎟ = ⎜ ...
2t
⎟.
⎜ ⎟ ⎜ ... ... ... ⎟ ⎜ ... ⎟
⎜ ⎟
⎜∑ x y ⎟ ⎜ x x
⎝ pt t ⎠ ⎝ ∑ pt 1t ∑ x pt x2t ... ∑ x pt ⎠ ⎜⎝ a p ⎟⎠
2 ⎟

Sau, cu notaţiile matriciale introduse:


X’Y=(X’X)a , de unde rezultă:

(3) aˆ = ( X ' X ) X 'Y


−1

3.3. Proprietăţile estimatorului â


Arătăm că â este un estimator nedeplasat al lui a şi deducem
expresia matricei de varianţă şi covarianţă Ω â .
a. transformăm expresia (3) înlocuind Y prin expresia lui în
funcţie de X:
aˆ = ( X ' X ) X 'Y = ( X ' X ) X ' ( Xa + ε ) =
−1 −1

(4)
= (X ' X ) ( X ' X )a + ( X ' X )−1 X 'ε = a + ( X ' X )−1 X 'ε
−1

Aplicând operatorul de medie expresiei (4), rezultă:


E (aˆ ) = a + ( X ' X ) X ' E (ε ) .
−1

62
Dar, E (ε ) = 0 conform I2, deci E (aˆ ) = a , adică â este estimator
nedeplasat pentru a.
b. Prin definiţie:
Ω aˆ = E ((aˆ − a )(aˆ − a )') .
Din (4) rezultă: aˆ − a = ( X ' X ) X ' ε şi ( aˆ − a) ′ = ε ' X ( X ' X ) pentru că
−1 −1

( X ' X )−1 este o matrice simetrică. Atunci:


(aˆ − a )(aˆ − a )' = ( X ' X )−1 X 'εε ' X ( X ' X )−1 şi
Ω aˆ = ( X ' X ) X ' E (εε ')X ( X ' X ) .
−1 −1

Însă E (εε ') = Ω ε este matricea de varianţă şi covarianţă a lui ε.

Ştim că E (εε ') = σ ε I (I este matricea unitate de ordinul T). Atunci


2

rezultă:
Ω aˆ = ( X ' X ) X 'σ ε2 X ( X ' X ) = σ ε2 ( X ' X ) ( X ' X )( X ' X )−1 = σ ε2 ( X ' X )−1
−1 −1 −1

Se poate arăta că dacă ipoteza a) din I3 rămâne valabilă când


T →∞, atunci â este estimator convergent către a.
Propoziţie. Estimatorul aˆ = ( X ' X ) X 'Y este cel mai bun
−1

estimator liniar nedeplasat al lui a.


Pentru a arăta această proprietate vom construi un estimator
liniar pentru a care să aibă varianţa minimă şi el va fi identic cu cel
obţinut prin MCMMP. Fie a* un estimator liniar al lui a, adică
a*=MY, unde M este o matrice cu coeficienţi constanţi de format
(pxT). Estimatorul a* este nedeplasat dacă:

63
E (a *) = ME (Y ) = ME( Xa + ε ) = a

adică E (a *) = (MX )E (a ) + ME(ε ) = (MX )a pentru că E (ε ) = 0 .


Pentru ca a* să fie nedeplasat, trebuie ca (MX)=I (matricea unitate
de ordinul p).
Construim acum matricea de varianţă şi covarianţă a lui a*:
Ω a* = E [(a * − a )(a * −a )']

Dar, a* = MY = M ( Xa + ε ) = (MX )a + Mε = a + Mε , deci a * − a = Mε ,

(a * −a )' = ε ' M ' şi Ω a* = E (Mεε ' M ') = ME (εε ')M ' = σ ε2 MM ' . Pentru ca a* să fie
de varianţă minimă, trebuie ca „urma” matricei (MM’) să fie
minimă, sub restricţia (MX)=I. Urma unei matrici este, prin
definiţie, suma elementelor de pe diagonala principală. Notăm
Ur(X) urma matricei X. Ur este un operator liniar (demonstraţi!).
Rezolvând problema de extremum condiţionat:
⎧MinUr (MM ')

⎩s.r.MX = I
se obţine soluţia M = (X ' X ) X ' , adică a* = MY = ( X ' X ) X 'Y . Am găsit
−1 −1

că a* = aˆ .

Un astfel de estimator se numeşte „estimator BLUE” (best


liniar unbiaised estimator).

64
3.4. Determinarea unui estimator nedeplasat al varianţei σ ε2

Varianţa reziduurilor σ ε fiind necunoscută, avem nevoie de


2

un estimator al ei. Dacă p este numărul de coeficienţi de estimat în


model, se va arăta că:
1
σˆ ε2 =
T−p
∑ εˆt2

Avem că: Y = Xa + ε ;

Yˆ = Xaˆ ;

εˆ = Y − Yˆ = Xa + ε − Xaˆ ;

εˆ = ε − X (aˆ − a ) .
Dar: aˆ − a = ( X ' X ) X ' ε şi εˆ = ε − X ( X ' X )−1 X ' ε
−1

[
εˆ = I − X ( X ' X )−1 X ' ε . ]
Notăm: Γ = I − X (X ' X ) X ' .
−1

Γ este o matrice de format (TxT) cu proprietăţile Γ’=Γ


(simetrică) şi Γ2=Γ (idempotentă de grad 2). Am obţinut εˆ = Γε .

Evaluăm acum ∑ εˆ , care sub formă matriceală este:


t
2

∑ εˆ t
2
= εˆ '⋅εˆ = ε ' Γ' Γε = ε ' Γε = ∑ γ ii ε i2 + ∑ γ ij ε i ε j , unde γij este elementul
i i≠ j

matricii Γ situat la intersecţia liniei i cu coloana j.


Atunci, rezultă că:
E (∑ εˆ ) = ∑ γ E(ε ) + ∑ γ E (ε ε ).
t
2
ii
2
i ij i j
i i≠ j

65
Însă, E (ε i ε j ) = 0 conform I2 şi
E (∑ εˆ ) = ∑ γ E (ε ) = ∑ γ σ
t
2
ii i
2
ii ε
2
= σ ε2Ur (Γ ) .
i i

Arătăm că Ur (Γ ) = T − p .
( )
Ur (Γ ) = Ur I − X ( X ' X ) X ' = Ur (I ) − Ur X ( X ' X ) X '
−1
( −1
)
Ur (I ) = T

( )
Ur X ( X ' X ) X ' = Ur X ' X ( X ' X )
−1
( −1
)= p
(permutarea între X (X ' X ) şi este posibilă datorită
−1
X'

formatului acestor matrici şi proprietăţilor operatorului Ur.)


În final rezultă:

E (∑εˆ ) = (T − p )σ
t
2
ε , σε =
2 2 1
T−p
E (∑ εˆ ) = E ⎡⎢T −1 p ∑ εˆ
t
2
t
2 ⎤
⎥ , astfel că
⎣ ⎦
1
σˆ ε2 =
T−p
∑ εˆt2 este estimator nedeplasat al lui σ ε2 .

T este numărul de observaţii, p este numărul de parametri de


estimat şi relaţia găsită o generalizează pe cea din capitolul II.

3.5. Teste şi regiuni de încredere

Ipoteza de normalitate a erorilor εt fiind îndeplinită, se pot


generaliza rezultatele obţinute la regresia simplă. Deoarece
aˆ = a + ( X ' X ) X ' ε , rezultă că este distribuită după o lege normală
−1

în p dimensiuni, cu media E (aˆ ) = 0 şi dispersia Ω aˆ = σ ε2 ( X ' X )


−1
. Pentru
un estimator âi dat, avem că:

66
aˆ i − ai
(*) urmează o lege normală redusă N(0,1);
σ aˆ i

(**) (T − p2 )σ ε = ∑ 2 t este distribuită χ2 (hi-pătrat) cu (T-p)


ˆ2 εˆ 2
σε σε

grade de libertate.
(***) ai − ai urmează o lege Student cu (T-p) grade de
ˆ
σˆ aˆ i

libertate.
Legea Student este utilizată în mod curent pentru a aprecia
validitatea estimatorului unui coeficient ai. De exemplu, dacă se
testează ipoteza (H0:ai=0) contra ipotezei (H1:ai ≠ 0), pentru a
aˆ i
accepta H1 trebuie ca ≥ tα , unde tα este valoarea tabelată a
σˆ aˆi 2 2

variabilei t repartizată Student, cu T-p grade de libertate, iar α este


pragul de semnificaţie.

Observaţie:
aˆ i
Pentru T>30 şi α=0,05, tα ≅ 2 . Deci, dacă ≥ 2 se acceptă H1, adică ipoteza
2 σˆ aˆi

că variabila Xi are un coeficient ai semnificativ diferit de zero.


Mai general, când se pune problema de a şti dacă un coeficient ai este diferit de o

aˆ i − ai0
valoare particulară ai0 , se calculează raportul t = şi se compară cu tα .
σˆ aˆi 2

Dacă tcalculat>ttabelat concludem că ai ≠ ai0 .

67
Considerăm acum toţi estimatorii aˆ1 ,..., aˆ p :

(*) variabila aleatoare (aˆ − a )' Ω −aˆ 1 (aˆ − a ) este distribuită χ2 cu p


grade de libertate;
1
(**) variabila aleatoare F= (aˆ − a )Ωˆ −aˆ1 (aˆ − a ) urmează o lege
p

Fisher-Snedecor cu p şi (T-p) grade de libertate.


La fel ca la regresia liniară simplă, rezultatele anterioare
permit construirea de intervale de încredere relative la coeficienţii
ai, ca şi a unui elipsoid de încredere relativ la ansamblul
coeficienţilor în spaţiul ℜp . Pentru ai, intervalul de încredere, la
pragul de seminificaţie α este:

aˆi − ai
≥ tα
σˆ aˆi 2

aˆ i − ai
− tα ≤ ≤ tα
2 σˆ aˆi 2

− σˆ aˆi tα ≤ aˆ i − ai ≤ σˆ aˆi tα
2 2

aˆ i − σˆ aˆi tα ≤ ai ≤ aˆ i + σˆ aˆi tα
2 2
iar pentru ansamblul coeficienţilor, ecuaţia elipsoidului de
încredere este: F=F(α,p,T-p).
Aceleaşi principii conduc la determinarea de regiuni de
încredere relative la un număr oarecare de coeficienţi din model.

68
Dacă q este numărul coeficienţilor reţinuţi, în spaţiul ℜq , avem
ecuaţia F1=F(α,q,T-p), unde:

F1 =
1
(aˆ q − aq )' Ωˆ −aˆ1q (aˆq − aq ) .
q

cu âq extras din vectorul â şi Ω̂ âq extrasă din Ω̂ â :

Dacă dorim să testăm, la pragul de semnificaţie α, ipoteza


(H0:aq= aq( 0) ) contra ipotezei (H1:aq ≠ a q(0) ), atunci dacă:
1
q
( ) ( )
ˆ −ˆ1 aˆ − a ( 0) ≤ F (α , q, T − p )
aˆ q − a q( 0) ' Ω aq q q

se acceptă ipoteza H0 ( F (α , q, T − p ) se extrage din tabelele


distribuţiei Fisher-Snedecor).

Observaţie:
Se observă că valoarea tabelată F depinde de (α , q, T − p ) şi nu
qF χ (q )
2

de (α , q, T − q ) . Rezultă că expresia = 2 face să apară la


T − p χ (T − p )

σˆ ε2
numitor (T − p ) 2 distribuită χ2 cu (T-p) grade de libertate.
σε

3.6. Previziunea variabilei endogene

Dacă presupunem cunoscute la un moment θ valorile (x1θ,


x2θ,..., xpθ) atunci previziunea variabilei endogene va fi:

yθp = aˆ1 x1θ + aˆ 2 x 2θ + ... + aˆ p x pθ .

69
Eroarea de previziune va fi variabila aleatoare:
Yθp − Yθ = (aˆ1 − a1 )x1θ + ... + (aˆ p − a p )x pθ − ε θ .
Se constată că media erorii de previziune este zero:
(
E Yθ p − Yθ = 0 , )
iar varianţa erorii de previziune este:

( )
Var Yθp − Yθ = E Yθ p − Yθ [( ) ] = E ⎡⎢∑ (aˆ
2
p

i

− ai ) xi2θ + 2∑ (aˆ i − ai )(aˆ j − a j )xiθ x jθ + ε θ2 ⎥
2

⎣ i =1 i< j ⎦

deoarece âi şi εθ sunt necorelate ( âi nu depind decât de ε t ),

t=1,2,...,T şi T<θ.
Deducem că:

[(
E Yθ − Yθ p
) ]= ∑ x
2
p

i =1
2
iθ Var (aˆi ) + 2∑ xiθ x jθ cov(aˆ i , aˆ j ) +σ ε2 ,
i< j

iar sub formă matricială:

[( ) ] = X Ω X + σ , adică:
E Yθ p − Yθ
2 '
θ aˆ θ
2
ε

Var (Y − Y ) = σ [X ( X ' X ) X + 1],


p 2 ' −1
θ θ ε θ θ

unde: X θ = x1θ , x 2θ ,..., x pθ


'
( )
Observaţie:
Se arată că dacă T este finit şi εt sunt normal distribuite,
atunci â este distribuită normal în p dimensiuni. Dacă ipotezele nu
sunt îndeplinite, atunci cînd T →∞, vectorul T (aˆ − a ) urmează o
distribuţie normală cu media egală cu zero.

70
3.7. Coeficientul de corelaţie multiplă R. Analiza varianţei

Şi în acest caz, ecuaţia varianţei se scrie:


Variabilit atea Variabilit atea Variabilit atea
= +
totalã valorilor ajustate reziduală

∑ (y − y ) ∑ (yˆ − y ) ∑ εˆ
2 2
t = t + t
2

Coeficientul de corelaţie multiplă R are definiţia:

∑ (yˆ − y ) ∑ εˆ
2 2
t t
R 2
= = 1−
∑ (y − y ) ∑ (y )
2 2 .
t t −y

Din reprezentarea geometrică făcută, rezultă că Y = Yˆ + εˆ ,

dar ştim că Y = Xaˆ + εˆ şi Y = X aˆ , rezultând că:


( )
Y − Y = X − X aˆ + εˆ , ceea ce arată că vectorul rezidual εˆ este

acelaşi şi pentru valorile (Y,X) şi pentru valorile centrate faţă de


medie (Y − Y , X − X ) . Cu alte cuvinte, dacă efectuăm regresia pe
ecuaţia generală, cu variabilele necentrate sau o efectuăm cu
variabilele centrate pe media lor, estimatorul â şi vectorul rezidual
εˆ sunt aceeaşi.
Observaţie:
Când se centrează valorile X şi Y, vectorul â nu conţine
ultimul estimator â p . Constanta ap dispare când se centrează
variabilele. Considerarea modelului fără constante, cu variabilele

71
necentrate pe media lor, poate conduce la valori ale lui R2 care ies
din intervalul (0,1).

Expresia matricială a coeficientului de corelaţie multiplă este:

R2 =
(Yˆ − Y )(' Yˆ − Y ) , dar (Yˆ − Y ) = (X − X )aˆ .
(Y − Y )(' Y − Y )
aˆ = [(X − X )( ' X − X )] (X − X )( ' Y − Y ) şi coeficientul devine:
−1

aˆ ' (X − X )( ' Y −Y )
R =
(Y − Y )(' Y − Y ) .
2

Coeficientul R2 arată rolul jucat de toate variabilele exogene


asupra evoluţiei variabilei endogene. El este cu atât mai bun cu cât
e mai apropiat de 1.
Dar, judecarea calităţii unui model doar prin valoarea lui R2

poate duce la erori grosiere. El maschează uneori influenţa


variabilelor exogene luate separat asupra variabilei endogene şi nu
poate să se substituie studiului estimatorilor coeficienţilor
modelului. Pătratul coeficientului de corelaţie multiplă nu ţine cont
nici de numărul de observaţii (T) şi nici de numărul variabilelor
explicative (p). Ori, se poate foarte bine ca, având aceleaşi
observaţii asupra variabilei endogene să considerăm două modele
distincte, în al doilea făcând să apară un număr de variabile
explicative noi. În această a doua regresie coeficientul de corelaţie
multiplă nu poate decât să crească (pentru că variabilitatea
explicată prin regresie creşte).

72
O definire mai precisă a lui R2 , care ţine cont de T şi p este:
T −1
2
R =1−
T−p
(
1− R2 ).
2
R se numeşte coeficient de corelaţie multiplă corectat.
2
1. dacă p=1, atunci R = R2 ;
2
2. dacă p>1, atunci R < R2 ;
2
3. R poate scădea prin introducerea în model a unei noi
variabile exogene;
2 p −1
4. R poate lua şi valori negative, dacă R2 < .
T −1

Analiza varianţei

Atunci când studiem rolul jucat de exogene asupra evoluţiei


endogenei, ne putem întreba care este partea de variabilitate
explicată de una sau mai multe variabile exogene.
Reluăm modelul iniţial:
(1) yt = a1 x1t + a 2 x2 t + ... + a p x pt + ε t , t=1, 2, ...,T
şi considerăm q variabile printre cele p, pe care le indexăm de la 1
la q:
(2) y t = a1 x1t + a 2 x2t + ... + a q x qt + ξ t .
Variabilitatea ne-explicată de cele q exogene în modelul (1)
este variabilitatea reziduală asociată modelului (2).

73
Fie:

∑ (y − aˆ1 x1t − aˆ 2 x2t − ... − aˆ q xqt ) = ξˆ


2
2
t
t

Variabilitatea ne-explicată de cele p exogene din modelul (1)


este:

∑ (y − aˆ1 x1t − aˆ 2 x2t − ... − aˆ p x pt ) = εˆ


2 2
t
t

Variabilitatea explicată de cele (p-q) exogene din modelul (1)


atunci când a1,...,aq sunt estimaţi cu modelul (2) este atunci:
2
ηˆ = ξˆ − εˆ
2 2

εˆ
Xp

ξˆ Xq
Hp
ηˆ
O Hq
(L)
X1

Ştim că 2
0 A = 0H
2
+ HA
2
, adică Y 'Y = Yˆ 'Yˆ + εˆ'εˆ .
Rezultatele se grupează, adesea, într-un tabel de analiză a
varianţei:

74
CAPITOLUL V
MODELE CU ECUAŢII MULTIPLE

Modelele econometrice studiate până acum conţineau o


singură ecuaţie. Pentru studierea unor fenomene economice mai
complexe este necesară introducerea în model a unor ecuaţii
suplimentare. Procedurile de estimare vor fi în acest caz mai
complicate, dar se bazează pe aceleaşi principii generale.
Câteva exemple:
a. Estimarea unei legi a cererii de bunuri.
În acest caz, modelul va conţine trei ecuaţii: una pentru
cerere, une pentru oferta de bunuri şi o ecuaţie de echilibru
cerere-ofertă:
⎧Ct = f ( pt )

⎨Ot = g ( pt )
⎪C = O
⎩ t t

A estima o lege a cererii înseamnă ca, pornind de la


observaţiile (C t , pt ) , t=1,2,..., să determinăm parametrii
necunoscuţi din prima ecuaţie. În funcţie de dispunerea
norului de puncte observate privind cererea de bunuri şi
preţurile acestora, întâlnim următoarele situaţii:

111
9 Stabilitatea curbei cererii şi ofertei când t variază.

C Ot
Ct
t
O

xxxx
xxxxx
x

pt

Norul de puncte observate este în vecinătatea


intersecţiei celor două curbe, care pot avea deplasări
mici, independent una de alta. Nu putem asocia
punctele observate uneia sau celeilalte curbe. În acest
caz estimarea nu este posibilă.
9 Stabilitatea legii cererii.
Ot
C
Ct Ot
t Ot
O

xxxxxxxxxxxxx
x
xxxxxxxxxxxxx

pt

112
Pentru numeroase produse agricole, de exemplu,
cererea scade dacă preţurile cresc. Această legătură
între preţ şi cerere depinde de comportamentul
consumatorilor. Oferta, dimpotrivă, se deplasează în sus
sau jos după cum a fost recolta. Punctele norului sunt
acum dispuse de o parte sau alta a curbei cererii, care
poate fi estimată.
9 Stabilitatea legii ofertei.
Ct
C Ot
t Ct
O Ct

xxxxxx
x
xxxxxx
x

pt

Este posibil ca datorită creşterii veniturilor, de exemplu,


curba cererii să se deplaseze, iar cea a ofertei să rămână
stabilă. Se obţine o reprezentare analogă celei dinainte
şi legea ofertei poate fi estimată în acest caz.
9 Legea cererii evoluează în funcţie de venituri, legea
ofertei evoluează în funcţie de progresul tehnic şi
există o deplasare simultană a celor două curbe.

113
Ot Ot
C Ct
Ct Ct
t Ot
O

xxxx
xxxxxxxx
x
xxxxxxx

pt

În acest caz nu putem estima nici cererea, nici oferta de


bunuri. Ajustarea va conduce la curba care trece prin
punctele de intersecţie, care nu are nicio semnificaţie.
Concluzie: Se pot obţine estimaţii eronate dacă se
încearcă estimarea parametrilor curbei cererii, fără a
ţine cont de curba ofertei de bunuri. Este necesar, deci,
să precizăm ambele legi prin introducerea în model a
unor variabile exogene noi, atât în legea cererii, cât şi în
legea ofertei.
b. Forma structurală şi forma redusă
Forma structurală reproduce legile pieţei aşa cum sunt
ele propuse de teoria economică. În această formă, variabilele
endogene şi exogene intervin fără ca endogena să se exprime
unic în funcţie de exogenă. Aceasta exclude, după cum s-a

114
văzut, orice posibilitate de estimare sub această formă
(există, totuşi, o excepţie asupra căreia vom reveni).
De exemplu, un sistem de două ecuaţii pentru cerere şi
ofertă sub formă structurală este:
⎧qt = a1 pt + b1Vt + c1 + ε 1t

⎩qt = a 2 pt + b2 xt + c2 + ε 2t
unde Vt este venitul consumatorilor, o variabilă exogenă care
influenţează cererea de bunuri, alături de preţ pt, iar xt este o
variabilă exogenă care influenţează oferta de bunuri. În
model, qt şi pt sunt variabile endogene.
Forma redusă se obţine pornind de la forma
structurală, exprimând fiecare variabilă endogenă în funcţie
de exogenele modelului. În exemplul precedent, se obţine:
⎧ b1 b2 c1 − c2 ε 1t − ε 2t
⎪ p t = Vt − x t + +
⎪ a 2 − a1 a 2 − a1 a 2 − a1 a 2 − a1

⎪q = a 2 b1 V − a1b2 x + a 2 c1 − a1c2 + a 2ε 1t − a1ε 2t
⎪⎩ t a 2 − a1 t a 2 − a1 t a 2 − a1 a 2 − a1

Sau scris sub altă formă:

⎧ pt = α1Vt − β1 xt + γ 1 + η1t
(*) ⎨q = α V − β x + γ + η
⎩ t 2 t 2 t 2 2t

b1 b2 c1 − c2 ε 1t − ε 2t a 2b1
unde: α1 = , β1 = , γ1 = , η1t = , α2 = ,
a 2 − a1 a 2 − a1 a 2 − a1 a 2 − a1 a 2 − a1

β2 =
a1b2
, γ2 =
a2 c1 − a1c2
, η 2t = a2ε 1t − a1ε 2t .
a 2 − a1 a2 − a1 a 2 − a1

115
(*) este forma redusă a modelului. În această formă nu mai
este vorba nici de ecuaţia cererii, nici de ecuaţia ofertei. O
regresie a lui pt şi qt asupra Vt şi xt este posibilă, dar
parametrii estimaţi α1, α2, β1, β2 nu mai au nicio
semnificaţie economică. Problema care se pune este, deci, de
a determina parametrii formei structurale pornind de la
estimaţiile obţinute pe forma redusă. Aceasta este problema
„identificării” modelului econometric.
c. Funcţia consumului în modelul Keynes
Sub formă structurală, un model keynesian elementar este
dat de sistemul de ecuaţii:
⎧C t = aRt + b + ε t
(I) ⎨ R = C + I
⎩ t t t

unde Ct este consumul menajului t şi reprezintă o variabilă


endogenă, Rt este venitul disponibil al menajului, considerat o
variabilă exogenă. Prima relaţie exprimă consumul menajului
ca o funcţie de venitul disponibil, iar a doua relaţie arată că
menajul partajează venitul disponibil Rt între consum Ct şi
economisire (investiţii) It. Forma redusă asociată acestui
model este:
⎧ a b εt
C = I + +
⎪⎪ t 1 − a t 1 − a 1 − a
(II) ⎨
⎪R = 1 I + b + ε t
⎪⎩ t 1 − a t 1 − a 1 − a

116
Înainte de a studia modelele cu ecuaţii multiple, vrem să
comparăm direct estimatorii obţinuţi pe cele două forme:
structurală şi redusă.

5.1. Estimarea pe forma structurală

O regresie prin MCMMP pe ecuaţia Ct = aRt + b + ε t ,


conduce la estimatorul â :

aˆ =
∑ (C − C )(R − R )
t t

∑ (R − R )
. 2
t

Utilizând forma redusă pentru a calcula (C t −C ) şi (R − R ) ,


t

putem exprima â în funcţie de a. Procedăm în felul următor:


9 În forma redusă centrăm variabilele:

Ct − C =
a
1− a
(
ε −ε
It − I + t
1− a
)

Rt − R =
a
1− a
(
ε −ε
It − I + t
1− a
)
9 Înlocuim în expresia lui â :

aˆ =
( ) (
a∑ I t − I + (a − 1)∑ I t − I ε t − ε + ∑ ε t − ε
2
)( ) ( )2

∑ (I ) ( )(
− I + 2∑ I t − I ε t − ε + ∑ ε t − ε ) ( )
2 2
t

sau, notând momentele empirice corespunzătoare cu


μ 2 ( I ) , μ 2 (ε ) şi μ11 (I , ε ) rezultă:

117
aμ 2 (I ) + (a − 1)μ11 (I , ε ) + μ 2 (ε )
aˆ =
μ 2 (I ) + 2μ11 (I , ε ) + μ 2 (ε ) .
Dar, pentru T (număr de observaţii) suficient de mare:

1
(
μ 2 (I ) = ∑ I t − I
T
)
2

T
1
(
, μ 2 (ε ) = ∑ ε t − ε )
2

tind spre limite finite, în timp ce covarianţa empirică:

μ11 (I , ε ) =
1
T
(
∑ It − I εt − ε )( )
tinde către zero pentru că I şi ε sunt independente.
Atunci, pentru T suficient de mare, şi ţinând cont că
0<a<1 (a este înclinaţia marginală spre consum,
consumatorul este prudent, nu alocă tot venitul pentru
consum) se obţine:
aμ 2 (I ) + μ 2 (ε )
aˆ ≅ >a
μ 2 (I ) + μ 2 (ε )
însemnând că â supraestimează pe a.
Concluzie
O regresie directă pe forma structurală introduce o
deplasare sistematică a estimatorului a.
La fel se poate arăta că b̂ obţinut pe forma structurală
subestimează pe b.

118
5.2. Estimarea pe forma redusă şi trecerea la forma
structurală. Regresia indirectă
Notăm cu: α=
1
, β=
b
, ηt = ε t şi forma redusă (II) se
1− a 1− a 1− a

scrie:

⎧Ct = (α − 1)I t + β + η t
⎨ .
⎩Rt = αI t + β + η t
Aplicând MCMMP celor două ecuaţii, determinăm
estimatorii α̂ şi βˆ . Ştim că aceşti estimatori sunt nedeplasaţi
şi convergenţi şi cunoaştem distribuţia lor pentru T suficient
de mare, dacă η t nu urmează o lege normală.

ˆ βˆ 1
Rezultă: aˆ = 1 − , b = ˆ cu â şi convergenţi în
α̂ α b̂

probabilitate către a şi b deoarece α̂ şi βˆ sunt ei înşişi


convergenţi. Se spune că am obţinut â şi b̂ prin „regresie
indirectă”.

5.2.1.Distribuţia limită a estimatorilor â şi b̂

obţinuţi prin regresie indirectă.

Ştim că oricare ar fi distribuţia erorilor εt , deci şi ηt ,

expresiile T (αˆ − α ) şi (
T βˆ − β ) au o distribuţie limită
normală, de medie egală cu zero. T este un factor de

119
normalizare care evită, pentru T suficient de mare, să avem o
distribuţie degenerată.
Putem scrie că:
⎡αˆ − 1 α − 1⎤ ⎡αˆ − α ⎤
T (aˆ − a ) = T ⎢ − = T
⎣ αˆ α ⎥⎦ ⎢⎣ ααˆ ⎥⎦

Pentru T suficient de mare αˆ ⎯⎯→


P
α şi
⎡αˆ − α ⎤ P ⎡ αˆ − α ⎤
T⎢ ⎯⎯→ T ⎢⎣ α 2 ⎥⎦ .
⎣ αˆα ⎥⎦

Caracteristicile distribuţiei T (aˆ − a ) se deduc, deci, din cele


ale lui T (αˆ − α ) . T (aˆ − a ) are o distribuţie limită normală de
medie zero şi ecart-tip dedus din cel al lui T (αˆ − α ) împărţit la
α2. Se arată că:

( )
T bˆ − b ⎯⎯→
P
⎡ βˆ − β β
T⎢

− 2 (αˆ − α )⎥ .
⎣ α α ⎦
Concluzie: Corespondenţa între parametrii formei structurale
şi cei ai formei reduse este foarte rar, dacă nu niciodată, aşa
de simplă ca în exemplul studiat. Se impune deci, studierea
cazului general al unui model cu ecuaţii multiple.

5.3. Modele cu ecuaţii multiple. Cazul general

Am văzut anterior necesitatea introducerii mai multor ecuaţii


în modelele econometrice. Cum tratăm astfel de modele? Ce

120
probleme apar în legătură cu formularea generală? Răspunsul la
astfel de întrebări e dat în continuare.

5.3.1. Modelul general

Considerăm n variabile endogene Y1, Y2,..., Yn şi m variabile


exogene X1, X2,..., Xm, pentru care se cunosc realizările lor în
decursul a T perioade. La momentul t, vom avea:
⎧b11 y1t + b12 y 2t + ... + b1n ynt + c11 x1t + ... + c1m xmt = ε 1t
⎪b y + b y + ... + b y + c x + ... + c x = ε
⎪ 21 1t 22 2 t 2 n nt 21 1t 2 m mt 2t

(1) ..............

⎪⎩bn1 y1t + bn 2 y2t + ... + bnn ynt + cn1 x1t + ... + cnm xmt = ε nt

sau, sub formă matricială:


BYt + CX t = ε t
Unde:

⎛ b11 ... b1n ⎞ ⎛ c11 ... c1m ⎞


⎜ ⎟ ⎜ ⎟
B(nxm) = ⎜ ... ... ... ⎟ , C(nxm ) = ⎜ ... ... ... ⎟
,
⎜b ⎟ ⎜c ⎟
⎝ n1 ... bnn ⎠ ⎝ n1 ... cnm ⎠

⎛ y1t ⎞ ⎛ x1t ⎞ ⎛ ε 1t ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜y ⎟ ⎜ x2t ⎟ ⎜ε ⎟
Yt (nx1) = ⎜ 2t ⎟ X t (mx1) = ⎜ ⎟ ε t (nx1) = ⎜ 2t ⎟
... ... ...
⎜ ⎟, ⎜ ⎟, ⎜ ⎟.
⎜y ⎟ ⎜x ⎟ ⎜ε ⎟
⎝ nt ⎠ ⎝ mt ⎠ ⎝ nt ⎠

121
Se ştie că nu putem estima matricile B şi C sub forma
structurală (1), variabilele endogene figurând împreună cu
exogenele în fiecare ecuaţie.
Dacă vom presupune că B este inversabilă, atunci obţinem:

Yt = (− B −1C )X t + B −1ε t

sau, notând A = − B −1C şi η t = B ε t , atunci:


−1

(2) Yt = AX t + η t .
(2) este forma redusă a modelului general cu ecuaţii multiple. Sub
această formă redusă vom putea estima matricea A, bineînţeles cu
unele ipoteze ce vor fi precizate. Dar, pentru a avea estimatori cu o
semnificaţie economică, trebuie să revenim la matricile B şi C.
5.3.2. Estimarea matricii A
Presupunem că dorim să aplicăm MCMMP fiecărei ecuaţii
din modelul (2). Ipotezele modelului liniar general de regresie vor
trebui să fie îndeplinite pentru fiecare ecuaţie.
Prezentăm ipotezele referitoare la erorile ηt (ele vor fi
valabile şi pentru erorile εt pentru că η t = B −1ε t . Aceste ipoteze sunt:
- erorile în ecuaţia i (i=1,...,n) sunt independente:
E (ηit ⋅η it ' ) = 0 , t ≠ t '
- erorile relative la două ecuaţii i şi j şi două momente t şi t’
sunt independente:
E (η it ⋅η jt ' ) = 0

122
Altfel spus, presupunem independenţa erorilor relative la observaţii
diferite.
- matricea de varianţă şi covarianţă a erorilor ηt , este la
momentul t:
⎛ E η12t

( ) E (η η )
1t 2t ... E (η1tη nt ) ⎞

⎜ E (η ) 2
... E (η 2tη nt )⎟
Ωηt = ⎜ 2t

⎜ ... ... ⎟

⎝ ( )
E η nt ⎟⎠
2

Ca şi în cazul modelului liniar general, presupunem că


matricea de varianţă şi covarianţă empirică a variabilelor
exogene tinde către o matrice finită când T → ∞ .
Dacă aceste condiţii sunt îndeplinite, se poate estima fiecare
ecuaţie din modelul sub formă redusă. Estimatorii obţinuţi sunt

nedeplasaţi şi au varianţa minimală. Obţinem astfel matricea Â


care are ca elemente estimatori nedeplasaţi ai parametrilor formei
reduse şi care converg în probabilitate către valorile adevărate ale
acestor parametri.

5.3.3. Întoarcerea la matricile B şi C

Cunoscând  , estimator al lui A, vrem să ne întoarcem la


matricile B şi C. Dar A are n x m elemente, deci vom avea n x m
relaţii între coeficienţi.

123
Matricea B are n2 elemente, iar C are nm elemente. Se obţine
un sistem de nxm ecuaţii cu n2+nm necunoscute. Această problemă
nu poate fi rezolvată, în general, decât dacă între parametrii formei
structurale există, apriori, n2 relaţii sau restricţii.
Să remarcăm că împărţind succesiv membrul al doilea al fiecărei
ecuaţii din forma structurală prin b11, b22, ...,bnn se obţine matricea
B cu diagonala având doar elemente egale cu 1, ceea ce reduce
numărul de restricţii apriori la n2-n=n(n-1). Aceste restricţii pot fi
de excludere (unele variabile absente în ecuaţiile formei
structurale, însemnînd că parametrii corespunzători sunt nuli) sau
de legături apriori între elementele matricilor B şi C.

5.3.4. Identificarea

Precizăm câteva definiţii relative la model în general şi la


fiecare ecuaţie în particular.
a. un model se spune că este identificat dacă se pot
estima toţi coeficienţii din matricile B şi C cu ajutorul
coeficienţilor matricii A.
b. Un model este supra-identificat atunci când există
restricţii asupra matricii A.
c. O ecuaţie a modelului este identificată atunci când se
pot estima toţi coeficienţii din acea ecuaţie.

124
d. O ecuaţie a modelului este supra-identificată când
singurele restricţii care o afectează sunt suficiente
pentru ca modelul să fie supra-identificat.
e. O ecuaţie supra-identificată este şi identificabilă în
„aproape toate” structurile modelului.
f. Un model supra-identificat poate conţine una sau mai
multe ecuaţii neidentificabile.

5.3.5. Criterii de identificare

Reluăm modelul sub forma structurală, cu ipotezele


anterioare (vom presupune, între altele, absenţa coliniarităţii
variabilelor exogene în fiecare ecuaţie). Precizăm noţiunea de
restricţie relativă la o ecuaţie din forma structurală.
a. Fiecare restricţie pe forma structurală se traduce
printr-o relaţie liniară omogenă între coeficienţii unei
ecuaţii.
b. Definim o matrice a restricţiilor Ri relativă la ecuaţia a
i-a şi o matrice de structură S obţinută prin
juxtapunerea matricilor B şi C:
S=(BC)
Matricea Ri va fi construită astfel:

125
- dacă Si este a i-a linie a matricii S şi Rih este a h-a coloană a
matricii Ri (corespunzătoare la a h-a restricţie din ecuaţia i),
atunci:
SiRih=0.
De exemplu, dacă restricţia constă în excluderea celei de a k-a
variabile din ecuaţia i (adică egalitatea cu zero a coeficientului sik),

atunci: Rih = (rih ), cu rihk = 1 ceea ce înseamnă


l
rihl = 0 dacă l≠k,

relaţia: Si Rih = sik ⋅1 + 0 = 0 .


Construcţia matricii Ri va fi exemplificată imediat.
Notăm cu:
-n1 numărul de ecuaţii veritabile din modelul cu ecuaţii
multiple;
-n2 numărul de identităţi din model;
-n = n1 + n2 numărul de variabile endogene;
şi enunţăm următoarele criterii de identificare:
1. Fie un model cu ecuaţii multiple care satisface
ipotezele precedente. A i-a ecuaţie este identificată
dacă şi numai dacă rangul matricii R = S ⋅ Ri este egal
cu n1+n2-1. Aceasta este o condiţie necesară şi
suficientă pentru identificare şi se numeşte „condiţia
de rang”.
2. Pentru ca o ecuaţie a modelului în forma structurală
să fie identificată trebuie ca numărul restricţiilor

126
apriori la care sunt supuşi coeficienţii ecuaţiei să fie
cel puţin n1+n2-1. Această condiţie este necesară, dar
nu şi suficientă, şi se numeşte „condiţia de ordin”.
3. Fie γi numărul de restricţii apriori care afectează
ecuaţia i.
a. Dacă γ i < n1 + n2 − 1 , atunci ecuaţia a i-a nu este
identificată (se spune şi că este sub-
identificată);
b. Dacă γ i > n1 + n2 − 1 atunci ecuaţia i este supra-
identificată. Ea este, totodată identificabilă în
„aproape toate” structurile modelului.
c. Dacă γ i = n1 + n2 − 1 , atunci a i-a ecuaţie nu este
supra-identificată. Ea poate fi identificabilă în
„aproape toate” structurile.
Observaţie:
Rezultă din definiţiile date că un model este supraidentificat
dacă există mai mult de n1+n2-1 restricţii asupra oricărei ecuaţii
din forma structurală.

Exemple
I. Fie un model cu 3 variabile endogene Y1, Y2, Y3 şi două
exogene X1, şi X2. La momentul t, avem forma structurală:

127
⎧ y1t + c12 x 2t = ε 1t

⎨b21 y1t + y 2 t + c 21 x1t = ε 2 t
⎪b y + y + c x = ε
⎩ 31 1t 3t 32 2t 3t

Pentru a identifica uşor matricile B şi C scriem modelul


înlocuind variabilele absente cu zero şi respectând forma
structurală generală (ordinea variabilelor este Y1, Y2, Y3, X1, şi X2):
⎧ y1t + 0 + 0 + 0 + c12 x 2t = ε 1t

⎨b21 y1t + y 2t + 0 + c 21 x1t + 0 = ε 2t ,
⎪b y + 0 + y + 0 + c x = ε
⎩ 31 1t 3t 32 2 t 3t

astfel că matricile coeficienţilor sunt:


⎛ 1 0 0⎞ ⎛ 0 c12 ⎞
⎜ ⎟ ⎜ ⎟
B = ⎜ b21 1 0 ⎟ , C = ⎜ c21 0 ⎟,
⎜b ⎟ ⎜ 0 c32 ⎟⎠
⎝ 31 0 1 ⎠ ⎝

iar matricea de structură S este:


⎛ 1 0 0 0 c12 ⎞
⎜ ⎟
S = ⎜ b21 1 0 c 21 0 ⎟.
⎜b
⎝ 31 0 1 0 c32 ⎟⎠

Scriem acum matricile R1, R2, R3 ale restricţiilor asociate


celor trei ecuaţii din model.
Matricea R1 este:
⎛0 0 0⎞
⎜ ⎟
⎜1 0 0⎟
R1 = ⎜ 0 1 0⎟ .
⎜ ⎟
⎜0 0 1⎟
⎜0 0 0 ⎟⎠

Matricile Ri, i=1,2,3 au atâtea coloane câte restricţii asupra


coeficienţilor sunt în ecuaţia respectivă ( γ i ) şi atâtea linii câte

128
variabile endogene şi exogene sunt în model (în ordinea Y1, Y2, Y3,
X1, şi X2), adică (n+m). Prima coloană din matricea R1 are
elementele egale cu 0, în afară de al doilea element, egal cu 1, care
corespunde excluderii variabilei Y2 din ecuaţia (1) (prima
restricţie). A doua coloană are toate elementele 0, în afară de al
treilea, egal cu 1, corespunzând excluderii variabilei Y3 din ecuaţia
(1) (a doua restricţie). La fel, coloana a treia este 0, în afara
elementului al patrulea, egal cu 1, corespunzând excluderii
variabilei X1 din ecuaţie (a treia restricţie).
În mod similar se obţin matricile R2 şi R3 corespunzatoare
restricţiilor asupra coeficienţilor din ecuaţiile a 2-a şi a 3-a.
⎛0 0⎞ ⎛0 0⎞
⎜ ⎟ ⎜ ⎟
⎜0 0⎟ ⎜1 0⎟
R2 = ⎜ 1 0 ⎟ , R3 = ⎜ 0 0 ⎟ .
⎜ ⎟ ⎜ ⎟
⎜0 0⎟ ⎜0 1⎟
⎜0 1 ⎟⎠ ⎜0 0⎟
⎝ ⎝ ⎠

Calculăm acum matricile R corespunzătoare:


- pentru prima ecuaţie:
⎛0 0 0⎞
⎜ ⎟
⎛1 0 0 0 c12 ⎞⎜ 1 0 0⎟ ⎛0 0 0 ⎞
⎜ ⎟ ⎜ ⎟
R = SR1 = ⎜ b21 1 0 c 21 0 ⎟⎜ 0 1 0 ⎟ = ⎜ 1 0 c21 ⎟
⎜ ⎟
⎜b c32 ⎟⎠⎜ 0 1 ⎟ ⎜⎝ 0 1 0 ⎟⎠
⎝ 31 0 1 0 0
⎜0 0 0 ⎟⎠

- pentru a doua ecuaţie:


⎛ 0 c12 ⎞
⎜ ⎟
R = SR2 = ⎜ 0 0 ⎟
⎜1 c ⎟
⎝ 32 ⎠

129
- pentru a treia ecuaţie:
⎛0 0 ⎞
⎜ ⎟
R = SR3 = ⎜ 1 c21 ⎟
⎜0 0 ⎟
⎝ ⎠

Concluzii:
¾ Prima ecuaţie: γ1 = 3, n1+n2-1=2 (n2=0, nu avem identităţi în
model). Deoarece γ 1 > n1 + n2 − 1 , ecuaţia este supra-identificată
(şi modelul, de asemenea). Matricea R are rangul egal cu 2,
deci rangR=n1+n2-1. Ecuaţia este identificabilă în toate
structurile, adică oricare ar fi valorile atribuite coeficienţilor
care figurează în matricea de structură S;
¾ A doua ecuaţie γ2 = 2, deci γ 2 = n1 + n2 − 1 . Ecuaţia a doua poate
fi identificată, rangul matricii R este 2, în afara cazului când
c12=0. Ea este identificabilă în „aproape toate” structurile (cu
excepţia structurii pentru care c12=0).
¾ A treia ecuaţie: γ3 = 2, deci γ 3 = n1 + n2 − 1 . Dar cum rangul
matricii R este egal cu 1, această ecuaţie nu este niciodată
identificabilă. Tot modelul, în ansamblu, este neidentificabil,
deci, unele elemente ale matricilor B şi C nu vor putea fi
niciodată estimate.

130
II. Fie următoarea formă structurală:

⎧ y1t − ay3t − bx1t − c = ε1t



⎨ y2t − d ( y3t − x2t ) − e = ε 2t ,
⎪y + y = y
⎩ 1t 2t 3t

adică un model cu trei ecuaţii, dintre care două veritabile şi ultima,


o identitate. Rescriem modelul pentru a pune în evidenţă matricile

B şi C, introducând o variabilă auxiliară ut = 1, ∀t ca factor pentru


fiecare constantă.

⎧ y1t + 0 − ay 2t − bx1t + 0 - cut = ε 1t



⎨0 + y2t − dy3t + 0 + dx 2t - eu t = ε 2 t
⎪y + y - y + 0 + 0 + 0 = 0 .
⎩ 1t 2t 3t

Matricea de structură este:


⎛1 0 − a −b 0 − c⎞
⎜ ⎟
S = ⎜0 1 − d 0 d − e⎟
⎜1 1 −1
⎝ 0 0 0 ⎟⎠

Matricea restricţiilor referitoare la prima ecuaţie este:


⎛0 0⎞
⎜ ⎟
⎜1 0⎟
⎜0 0⎟
R1 = ⎜ ⎟.
⎜0 0⎟
⎜0 1 ⎟⎟

⎜0 0 ⎟⎠

Singurele restricţii relative la prima ecuaţie sunt două


restricţii de excludere. Matricea restricţiilor aferente celei de a
doua ecuaţie veritabile este:

131
⎛1 0 0⎞
⎜ ⎟
⎜0 0 0⎟
⎜0 1 0⎟
R2 = ⎜ ⎟.
⎜0 0 1⎟
⎜0 1 0 ⎟⎟

⎜0 0 0 ⎟⎠

În a doua ecuaţie există trei restricţii: două de excludere a


variabilelor Y1 şi X1 şi una referitoare la faptul că variabilele Y3 şi
X2 au acelaşi coeficient (d), cu semne contrare, deci suma celor doi
coeficienţi este nulă. Din acest motiv, pe a doua coloană a matricii
R2 apare 1 în dreptul variabilelor Y3 şi X2.
Matricile produs SR1 şi SR2 sunt:
⎛0 0 ⎞ ⎛1 − a − b⎞
⎜ ⎟ ⎜ ⎟
S ⋅ R1 = ⎜ 1 d ⎟ , S ⋅ R2 = ⎜ 0 0 0 ⎟.
⎜1 0 ⎟ ⎜ 1 −1 0 ⎟
⎝ ⎠ ⎝ ⎠

- prima ecuaţie: γ1 = 2 ; n1 + n2 − 1 = 2 , rg (SR1 ) = 2 , în afara


cazului d = 0 . Ecuaţia este identificabilă în „aproape toate”
structurile;
- a doua ecuaţie: γ 2 = 3 ; γ 2 > n1 + n2 − 1 , rg (SR2 ) = 2 , în afara cazului
a=1. Această ecuaţie este supra-identificată. Ea este
identificabilă în aproape toate structurile.
Să remercăm faptul că a treia relaţie în model este o
identitate. Ea a fost tratată în matricea de structură S ca o ecuaţie.
Variabilele absente au fost înlocuite cu 0 în matrice. Putem utiliza
această identitate pentru a ajunge la un model cu două ecuaţii şi

132
numai două endogene. Concluziile ar fi fost aceleaşi pentru prima
ecuaţie (ea rămâne neschimbată dacă eliminăm pe y2t, de exemplu).
Adesea este preferabil să păstrăm modelul iniţial, inclusiv
identitatea, pentru că altfel ajungem din nou la combinaţii între
coeficienţii formei structurale. Ori, în toate cazurile trebuie să
revenim la estimarea coeficienţilor formei iniţiale pornind de la
aceste combinaţii.
***
Metodele de estimare utilizate până acum nu se mai aplică la
fel pe ecuaţiile supra-identificate ale unui model cu ecuaţii
multiple. Existenţa restricţiilor asupra matricii A a formei reduse
nu permite determinarea prin MCMMP a unei soluţii unice pentru
estimatorii coeficienţilor. Prin urmare, dacă ecuaţiile sunt simplu
identificabile întoarcerea la coeficienţii formei structurale pornind
de la estimaţiile obţinute pe forma redusă necesită adesea calcule
laborioase. Vom vedea în continuare cum estimăm astfel de
modele.

5.4. Metode de estimare în modele cu ecuaţii multiple

Criteriile de identificare aplicate fiecărei ecuaţii dintr-un


model econometric cu ecuaţii multiple permit să apreciem, înainte

133
de a trece la estimarea modelului, dacă toţi coeficienţii care apar în
fiecare ecuaţie pot fi determinaţi.
Vrem să vedem ce metode de estimare pot fi aplicate în cazul
modelelor ce ecuaţii multiple.
Se disting patru cazuri:
1. Modelul este sub-identificat. Nu există metode de
estimare în acest caz. Trebuie construit un nou model
care să fie mai bine specificat.
2. Modelul este identificabil. În acest caz se poate
aplica, printre altele, metoda regresiei indirecte
(regresia pe forma redusă a modelului), revenind apoi
la coeficienţii formei structurale.
3. Modelul este supra-identificat. În acest caz nu se mai
poate aplica regresia indirectă. Pentru această situaţie
există alte metode de estimare, ca: MCMMP în două
faze, MCMMP în trei faze, metoda verosimilităţii
maxime cu informaţie incompletă ş.a. Evident, aceste
metode pot fi aplicate şi în cazul modelelor
identificabile.
4. Pentru unele modele particulare, numite modele
recursive, regresia directă pe o ecuaţie a formei
structurale este o metodă satisfăcătoare.

134
5.4.1. Regresia indirectă

Fie modelul cu ecuaţii multiple, în scriere matricială, sub


forma structurală:
BYt + CX t = ε t .
În cazul în care matricea coeficienţilor variabilelor endogene,
B, este inversabilă, atunci forma redusă asociată modelului se

scrie: Yt = AX t + η t ,
unde: A = − B −1C şi η t = B −1ε t .
În cazul în care fiecare ecuaţie din model este identificabilă,
se pot estima coeficienţii matricei A din forma redusă (prin
MCMMP) şi în baza relaţiilor de legătură între coeficienţi se
determină estimatorii parametrilor formei structurale. Sub
ipotezele precizate anterior estimatorii obţinuţi sunt convergenţi.
Singurul incovenient este că determinarea coeficienţilor
matricilor B şi C pornind de la coeficienţii estimaţi în matricea A
poate presupune uneori calcule laborioase chiar şi pentru modele
foarte simple.
Exemplu: Fie modelul cu ecuaţii multiple (o variantă a
modelului Keynes):
⎧Ct = α + βYt + ε t

⎩Yt = Ct + Z t

135
în care Ct şi Yt sunt variabile exogene, iar Zt este o exogenă.
Modelul conţine, deci, o singură ecuaţie veritabilă (n1=1) şi o
identitate (n2=1). Analizăm dacă modelul este identificabil
aplicând criteriile de identificare din paragraful 5.3.5. Matricile B
şi C din forma structurală generală conduc la matricea de structură:
⎛1 − β 0 −α ⎞
S = ( BC ) = ⎜⎜ ⎟ .
⎝1 − 1 1 0 ⎟⎠

În singura ecuaţie veritabilă (prima ecuaţie) există o singură


restricţie referitoare la coeficienţi (restricţia de excludere a
variabilei exogene Zt). Prin urmare, γ1 = 1, iar matricea R1 este:
⎛0⎞
⎜ ⎟
⎜0⎟ ⎛0⎞
R1 = ⎜ ⎟ , rezultând că matricea R = S ⋅ R1 = ⎜⎜ ⎟⎟ are rangul egal cu 1.
1 ⎝1⎠
⎜ ⎟
⎜0⎟
⎝ ⎠

Deoarece n1 + n2 − 1 = 1 , rezultă că este îndeplinită condiţia de


rang, iar pentru că γ 1 = n1 + n2 − 1 este îndeplinită şi condiţia de ordin.
Modelul este, deci, identificabil şi putem aplica metoda regresiei
indirecte.
Scriem forma redusă a modelului:
⎧Ct = (a − 1)Z t + bt + η t
⎨ ,
⎩Yt = aZ t + b + η t
1 α εt
unde: a= , b= , ηt = .
1− β 1− β 1− β

136
Să presupunem că dispunem de T=7 observaţii anuale:
t Ct Zt Yt
1 90 20 110
2 95 23 118
3 100 25 125
4 110 26 136
5 112 30 142
6 115 32 147
7 120 33 153

Aplicarea MCMMP celei de a doua ecuaţii din forma redusă


conduce la estimatorii:

aˆ =
∑Y Z − T Y Z ˆ
t t
, b = Y − aˆ Z .

2
Z − + 2T Z
t
2

Cu datele din tabel, obţinem: ∑ Yt Z t = 25588 , ∑ Z t2 = 5243 , Z = 27 ,

Y = 133 şi aˆ = 3, 221 , bˆ = 46,033 .

Determinăm estimatorii parametrilor din forma structurală,


cu ajutorul relaţiilor dintre coeficienţi:
1 αˆ . ˆ
aˆ = , βˆ = 1 −
1
= 0,69 bˆ = , αˆ = b = 14,29 .
1 − β̂ aˆ 1 − βˆ aˆ

137
5.4.2. MCMMP în două faze

Această metodă se aplică atunci când ecuaţiile sunt supra-


identificate. Desigur, dacă ecuaţia este identificabilă, metoda
conduce la aceleaşi rezultate ca şi regresia indirectă.
Reluăm modelul sub forma structurală BYt + CX t = ε t şi
presupunem că prima ecuaţie este supra-identificată. Această primă
ecuaţie poate fi scrisă sub forma:
(1) y1t = −b12 y 2t − ... − b1n y nt − c11 x1t − ... − c1m xmt + ε 1t .
Este clar că datorită restricţiilor care afectează această
ecuaţie, unele variabile endogene şi exogene pot lipsi din ecuaţie.
Faza întâi: Se estimează prin MCMMP ecuaţiile din forma
redusă corespunzătoare variabilelor endogene care figurează în
ecuaţia (1). Aceste ecuaţii se scriu astfel:
⎧ y 2t = λ21 x1t + ... + λ2 m x mt + η 2t

⎨ y 3t = λ31 x1t + ... + λ3m xmt + η 3t .
⎪....................

După efectuarea acestor regresii, obţinem:

⎧ y 2t = yˆ 2t + ηˆ2t

⎨ y 3t = yˆ 3t + ηˆ3t
(2)
⎪....................

Faza a doua: Înlocuim variabilele endogene din ecuaţia (1)
cu expresiile lor date de (2). Obţinem:

138
(3) y1t = −b12 yˆ 2t − b13 yˆ 3t ... − c11 x1t − ... − c1m xmt + μ1t ,
unde μ1t = ε 1t − b12ηˆ2t − b13ηˆ3t − ... ..

Aplicăm din nou MCMMP ecuaţiei (3) şi obţinem estimatorii


b̂12 , b̂13 ,...nedeplasaţi şi convergenţi pentru parametri b12, b13...
Pentru exemplificare, aplicăm MCMMP în două faze pe
exemplul anterior şi arătăm că se obţin aceleaşi estimaţii ca şi prin
metoda regresiei indirecte.
Faza întâi: Prima ecuaţie a modelului, Ct = α + βYt + ε t
conţine variabila endogenă Yt. Vom aplica, în această fază,
MCMMP pe ecuaţia corespunzătoare lui Yt din forma redusă, adică
Yt = aZ t + b + η t şi obţinem:

∑ (Y − Y )− (Z − Z )
bˆ = Y − aˆ Z , ηˆt = Yt − Yˆt , sau
t t
aˆ =
∑ (Z − Z )t
, 2

Yt = Yˆt + η̂t .

Cu datele din tabel, rezultă aˆ = 3,221 şi bˆ = 46,033 şi se pot


calcula valorile ajustate Yˆt şi erorile ηˆt .
Faza a doua: Înlocuim Yt cu Yˆt + η̂ t în ecuaţia C t = α + βYt + ε t ,

rezultând: Ct = α + βYˆt + μt , unde μ t = ε t + βηˆt şi aplicăm MCMMP


acestei ecuaţii, rezultând estimatorii:

139
ˆ ∑ (C − C )(Yˆ − Yˆ )
(4) β =
t t
αˆ = C − βˆYˆ . Dar, ţinând cont că
( ˆ − Yˆ )
, 2
∑ Y t

Yˆt = aˆZt + bˆ şi Yˆ = aˆ Z + bˆ rezultă că Yˆt − Yˆ = aˆ Zt − Z , care ( )


înlocuită în (4) conduce la:

β̂ =
(
aˆ ∑ Ct − C Z t − Z )( ) = 1 ∑ (C t )(
− C Zt − Z )=
aˆ 2 ∑ Z t − Z ( )
2

∑ (Z t −Z )
2

∑ (Z )
∑ (C − C )(Z − Z ) =
2
t −Z t t
=
∑ (Y − Y )(Z − Z ) ∑ (Z − Z )
t t t
2

=
∑ (C − C )(Z − Z ) = ∑ C Z − T C Z
t t t t

∑ (Y − Y )(Z − Z ) ∑ Y Z − T Y Z
t t t t

Cu datele din tabel, avem că ∑ Yt Z t = 25588 , Z = 27 , Y = 133 ,

∑C Z
t t = 20345 , C = 106 şi:
20345 − 7 ⋅106 ⋅ 27 311
βˆ = = = 0,689 , αˆ = 106 − 0,689 ⋅133 = 14,27 ,
25588 − 7 ⋅133 ⋅ 27 451
adică am obţinut acelaşi rezultat ca şi prin regresie indirectă.
***

MCMMP în două faze evită calculele laborioase de


întoarcere la coeficienţii formei structurale, pornind de la estimarea
formei reduse. Ea conduce la estimatori cu proprietăţi asimptotice
destul de bune, dar pe eşantioane mici nu oferă garanţii prea mari
asupra acestor proprietăţi.

140
5.4.3. MCMMP în trei faze

Metoda celor mai mici pătrate în trei faze porneşte de la


modelul econometric în forma structurală BYt + CX t = ε t a cărui
formă redusă este Yt = AX t + η t (unde A = − B −1C şi η t = B −1ε t ) şi
parcurge următoarele faze:
Faza întâi: Se estimează prin MCMMP obişnuită forma
redusă, adică se regresează fiecare variabilă endogenă din model
pe toate variabilele exogene şi se obţin estimaţiile preliminare ale
endogenelor, notate ŷit .

Faza a doua: Cu estimaţiile endogenelor ŷit înlocuite în


forma structurală, fiecare ecuaţie se poate scrie astfel:
⎧ y1t = −b12 yˆ 2t − b13 yˆ 3t ... − c11 x1t − ... − c1m xmt + μ1t

(1) ⎨ y2t = −b21 yˆ1t − b23 yˆ 3t ... − c21 x1t − ... − c2m xmt + μ 2t
⎪................

Se aplică din nou MCMMP obişnuită acestor ecuaţii
rezultând estimatorii coeficienţilor matricilor B şi C. Până aici s-a
procedat exact ca în MCMMP în două faze.
Faza a treia: Folosind estimatorii parametrilor ( bˆ12 ,..., cˆ11 ,... )
determinaţi în faza anterioară, prin înlocuire în ecuaţiile (1) se
obţin noi estimaţii ale endogenelor ŷˆ it , care permit şi estimarea
erorilor μ̂ it , adică:

141
⎧μˆ1t = y1t − yˆˆ1t
⎪⎪
ˆ
⎨μˆ 2t = y 2t − yˆ 2t
⎪.................
⎪⎩
Acest lucru permite obţinerea unei estimaţii pentru matricea
de varianţă şi covarianţă a erorilor:
⎛ ∑ μˆ12t ∑ μˆ μˆ ... ∑ μˆ μˆ nt ⎞
⎜ 1t 2t 1t

ˆ = 1⎜
Ω
∑ μˆ 2
2t ... ∑ μˆ μ
2 t nt ⎟
ˆ
μt ⎜ ⎟
T⎜ ... ... ⎟

⎝ ∑ μˆ nt ⎟⎠
2

Se aplică acum MCMMP generalizată pe ecuaţiile (1). Prima


ecuaţie din (1) se scrie sub formă matricială (făcând să varieze t de

la 1 la T) astfel: Y1 = Z1 D1 + μ1 , unde:
⎛ b12 ⎞
⎜ ⎟
⎛ y11 ⎞ ⎜ b13 ⎟ ⎛ μ11 ⎞
⎜ ⎟ ⎛ yˆ 21 yˆ 31 ... x11 ... xm1 ⎞ ⎜ ⎟ ⎜ ⎟
⎜ y12 ⎟ ⎜ ⎟ ... ⎜ μ12 ⎟
Y1 = ⎜ , Z = −⎜ ... ... ⎟ , D1 = ⎜ ⎟ , μ1 = ⎜ ⎟.
... ⎟
1
⎜ c ⎟ ...

⎜y ⎟
⎟ ⎜ yˆ
⎝ 2T yˆ 3T ... x1T ... xmT ⎟⎠ 11
⎜ ... ⎟ ⎜
⎜μ ⎟

⎝ 1T ⎠ ⎜ ⎟ ⎝ 1T ⎠
⎜c ⎟
⎝ 1m ⎠

Procedând la fel cu celelalte ecuaţii din (1), se obţine


sistemul:
⎧Y1 = Z1 D1 + μ1

⎨Y2 = Z 2 D2 + μ 2
⎪....

care conduce la modelul general:

142
(2) Y = ZD + μ
⎛ Y1 ⎞ ⎛ D1 ⎞ ⎛ μ1 ⎞
⎜ ⎟ ⎛ z1 0 ... 0⎞
⎜ ⎟ ⎜ ⎟
⎜ ⎟
⎜Y ⎟ ⎜ D2 ⎟ ⎜ μ2 ⎟
Y = ⎜ 2 ⎟ Z = ⎜ 0 z2 ... 0 ⎟
D = μ =
Unde: ... , ⎜ ... ... ... ... ⎟
, ⎜ ... ⎟ , ⎜ ... ⎟ şi
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎜Y ⎟ ⎜ 0 ... ... z n ⎟⎠ ⎜D ⎟ ⎜μ ⎟
⎝ n⎠ ⎝ ⎝ n⎠ ⎝ n⎠

⎛Ω ˆ ... 0 ⎞
⎜ μ1 ⎟
ˆ
Ω μ = ⎜ ... ... ... ⎟
⎜⎜ .
0 ... ˆ ⎟⎟
Ω
⎝ μT ⎠

Aplicarea MCMMP generalizată modelului (2) conduce la


estimatorul:

(
Dˆ = Z ' Ω
ˆ −1 Z
μ ) (Z ' Ωˆ )Y .
−1 −1
μ

D̂ este estimatorul obţinut prin MCMMP în trei faze.


Proprietăţile estimatorilor obţinuţi prin MCMMP în trei
faze. Să remarcăm mai întâi că dacă erorile relative la două ecuaţii
ale formei structurale ε it şi ε jt nu sunt corelate, acest lucru
antrenează independenţa erorilor μ it şi μ jt . Matricea de varianţă şi

covarianţă a erorilor Ω̂ μ se reduce la o matrice diagonală şi


estimatorii parametrilor obţinuţi prin MCMMP în trei faze coincid
cu cei obţinuţi prin MCMMP în două faze.
Proprietăţile estimatorilor D̂ obţinuţi prin MCMMP în trei
faze depind de calitatea estimării matricei de varianţă şi covarinaţă

143
a erorilor Ω̂ μ . În general ei posedă bune proprietăţi asimptotice
(nedeplasare şi convergenţă).

144
CAPITOLUL VI
ALTE TIPURI DE MODELE ECONOMETRICE

6.1. Modele neliniare

6.1.1.Introducere
Liniaritatea în modelele studiate consta în faptul că
variabila endogenă Y se exprima în funcţie de parametri de
estimat printr-o relaţie de gradul I.
De exemplu, modelele:
(1) y t = a1 x1t + a 2 x 2 t + ... + a p x pt + ε t

(2) yt = a1 x12t + a2 x1t x2t + a3 + ε t


sunt modele liniare. Faptul că variabilele exogene în modelul
(2) figurează la pătrat sau sub formă de produs, nu modifică
caracterizarea de model liniar, aceasta referindu-se la parametrii
de estimat şi nu la variabilele exogene.
În schimb, modelele:

(3) y t = e
− at
+ εt

(4) y t = a1e 1 1t + a 2 e 2 2 t + ε t
bx b x

în care parametrii de estimat sunt a, a1, b1, a2, b2 nu mai sunt


modele liniare.

145
În aceste cazuri MCMMP conduce la calcule laborioase. De
exemplu, pe modelul (3), suma pătratelor erorilor este expresia:
ϕ (a) = ∑ ( y t − e − at ) 2
t

iar ecuaţia normală obţinută este:


∂ϕ
(5) = 2∑ ( y t − e − at )te − at = 0
∂a t

Determinarea parametrului a, soluţie a ecuaţiei (5), care este o


ecuaţie transcendentă, nu este posibilă sub această formă.

6.1.2. Liniarizarea. Estimarea parametrilor


Fie modelul yt = Axta (1 + ε t ) în care A este o constantă şi a
un parametru de estimat. Prin logaritmare , obţinem:
log y t = log A + a log xt + log(1 + ε t )

Notând: z t = log yt , a 0 = log A , a1 = a , u t = log xt ,

η t = log(1 + ε t ) , rezultă modelul: zt = a0 + a1ut + ηt .


Se spune că am liniarizat modelul. Se aplică MCMMP pe
modelul liniarizat şi se revine apoi la elementele iniţiale. Sunt
posibile şi alte metode de estimare. De exemplu, pe un model
neliniar general:
y t = f ( a1 , a 2 ,..., a p , x1t .x 2 t ,..., x pt ) + ε t

dacă funcţia f este dezvoltabilă în serie Taylor într-un punct de


coordonate (a10 , a 20 ,..., a 0p ) , atunci se poate da o aproximare liniară a

146
modelului. Proprietăţile estimatorilor obţinuţi prin această
procedură nu prezintă însă garanţii.
Studiul modelelor neliniare pune, deci, o serie de probleme
referitoare la calitatea estimatorilor, la validitatea previziunilor
făcute.

6.1.3. Experienţă de calcul


Vânzările lunare dintr-un produs alimentar înregistrate de o
societate comercială în perioada ianuarie 2004 – iulie 2005 sunt
date în tabelul următor:
Luna t Valoarea vânzărilor yt
(RON)
Ianuarie 2004 1 1500
Februarie 2 1700
Martie 3 1850
Aprilie 4 2050
Mai 5 2250
Iunie 6 2500
Iulie 7 2700
August 8 3110
Septembrie 9 3500
Octombrie 10 4000
Noiembrie 11 4500
Decembrie 12 5000
Ianuarie 2005 13 5550
Februarie 14 6150
Martie 15 7000
Aprilie 16 8000
Mai 17 8800
Iunie 18 9500
Iulie 19 10000

147
Studiem această serie cronologică a vânzărilor cu ajutorul
A
modelului y t = (curba logistică), în care A este o
1 + a.e bt
constantă (vânzările potenţiale maxime), iar a şi b sunt
parametri de estimat.
A
Liniarizarea modelului. Modelul y t = se scrie sub
1 + a.e bt
A A
forma 1 + a.e bt
= a.e bt
= − 1 . Prin logaritmare rezultă
yt , sau yt

⎛ A ⎞
modelul liniar z t = α + β .t , unde: z t = log⎜⎜ − 1⎟⎟ , α = log a ,
⎝ yt ⎠

β = b log e . Dacă presupunem că vânzările maxim posibile sunt


⎛ 22000 ⎞
A=22000, atunci putem calcula zt = log⎜⎜ − 1⎟⎟ , rezultând:
⎝ y t ⎠

148
t yt ⎛ 22000 ⎞
z t = log⎜⎜ − 1⎟⎟
⎝ yt ⎠
1 1500 1,13663
2 1700 1,077047
3 1850 1,037103
4 2050 0,988189
5 2250 0,943385
6 2500 0,892095
7 2700 0,854194
8 3110 0,783472
9 3500 0,723104
10 4000 0,653213
11 4500 0,589826
12 5000 0,531479
13 5550 0,471873
14 6150 0,411154
15 7000 0,330993
16 8000 0,243038
17 8800 0,176091
18 9500 0,119186
19 10000 0,079181

Se aplică MCMMP obţinîndu-se estimatorii:


αˆ = 1,23769 şi βˆ = −0,0604
αˆ
Din α = log a , rezultă aˆ = 10 = 10 = 17,39 , iar din
1, 23769

βˆ − 0,0604 − 0604
β = b log e , rezultă bˆ = = = = −0,139 .
log e log( 2,71) 0,4329

Aşadar modelul iniţial estimat este:

22000
yˆ t =
1 + 17,39e −0,139 t .

149
6.2. Modele autoregresive

Uneori în studiul unui fenomen economic, alături de valorile


luate de o variabilă endogenă la momentul t intervin şi valorile
luate de această variabilă la momente anterioare t-1, t-2, ..., t-h.
În acest caz este vorba despre un proces autoregresiv.
Modelul de scrie:
y t = a1 y t −1 + a 2 yt −2 + ... + a h y t −h + ε t
sau, dacă în model există şi variabile exogene:
y t = a1 y t −1 + ... + a h yt − h + b1 x1t + ... + br x rt + ε t
Aplicarea metodelor de estimare obişnuite (MCMMP)
acestor modele conduce la estimatori care nu mai au aceleaşi
proprietăţi ca în cazul modelului liniar general.

6.2.1.Procesul autoregresiv de ordinul întâi

Considerăm modelul:
(1) yt = ayt −1 + ε t , t=1,2,...,T
şi modelul regresiei simple:
(2) yt = bxt + ε t , t=1,2,...,T
Presupunem că erorile εt verifică condiţiile clasice:
E (ε t ) = 0, Var (ε t ) = σ ε2 , ∀t , E (ε t1 .ε t 2 ) = 0 , dacă t1 ≠ t 2 .

150
MCMMP aplicată modelului (1) în care yt-1 este considerată ca o
variabilă exogenă, conduce la estimatorul:

∑ y .y t t −1
aˆ = t

∑y t
2
t −1

iar prin aceeaşi metodă, aplicată modelului (2) se obţine


estimatorul:

∑ y .x t t
bˆ = t

∑x t
t
2

Chiar dacă cele două expresii par similare, estimatorii nu posedă


aceleaşi proprietăţi (mai ales pe eşantioane mici). În timp ce b̂

este o expresie liniară în yt, deci şi în εt, â se exprimă ca un


raport de forme pătratice în yt. Folosind modelul (1) şi
exprimând yt în funcţie de εt, se ajunge la relaţia:
(3) y t = ε t + aε t −1 + a 2ε t −2 + ... + a t −1ε 1 + a t y0
Expresia ne arată că distribuţia variabilei endogene yt depinde
de distribuţia erorilor εt, dar şi de distribuţia lui y0. Printre
cazurile frecvent studiate sunt cele pentru care y0=constant,
coeficientul a putând lua astfel orice valoare reală pozitivă sau
negativă.
- dacă |a|<1 se spune că procesul autoregresiv este stabil;
- dacă |a|=1 (caz puţin utilizat) procesul nu a primit un nume;

151
- dacă |a|>1, procesul se numeşte exploziv.
Cel mai adesea se studiază cazul stabil, dar nici cazul exploziv
nu trebuie neglijat, atunci când se studiază în economie
fenomene în expansiune.

6.2.2. Stabilitate şi staţionaritate

Se spune că un proces este staţionar atunci când momentele


sale sunt independente de timp. Dacă sunt independente de
timp doar momentele de ordinul doi, se spune că procesul este
staţionar de ordinul doi. Staţionaritatea de ordinul doi este
suficientă pentru a demonstra proprietăţile importante ale
estimatorilor.
Propoziţie: orice proces autoregresiv de ordinul întâi, staţionar
este un proces stabil (adică |a|<1).
Demonstraţie:
Fie modelul yt = ay t −1 + ε t , a ≠ 1.

Procesul este staţionar dacă E ( yt ) = E ( yt −1 ).


Aplicând operatorul de medie rezultă:
E ( y t ) = aE ( y t −1 ) + E (ε t )

Dar E (ε t ) = 0 , aşa că relaţia devine:


E ( y t )(1 − a ) = 0 şi cum a ≠ 1 , rezultă E ( y t ) = 0.

152
Calculăm acum E ( y t2 ) :

[ ]
E ( y t2 ) = E ( ay t −1 + ε t ) 2 = a 2 E ( y t2−1 + 2 aE ( y t −1 .ε t ) + E (ε t2 )

Deorece εt nu este corelat cu yt-1(vezi ipotezele fundamentale)


înseamnă că E ( y t −1 .ε t ) = 0 şi ţinând cont şi de faptul că E (ε t2 ) = σ ε2 ,
rezultă:
σ ε2
E ( y ) = a E ( y ) + σ ε adică E ( y )(1 − a ) = σ sau E ( y ) =
2 2 2 2 2 2 2 2
t −1 t ε t
t
1− a2

Din condiţia evidentă E ( y t2 ) >0, rezultă 1-a2>0, adică |a|<1. Am


demonstrat astfel că staţionarea implică stabilitatea.
În acelaşi mod se evaluează şi autocovarianţa:
γ θ = E ( y t . y t +θ )

Ştiind că y t +θ = ay t +θ −1 + ε t +θ rezultă:
E ( y t . y t +θ ) = E [y t ( ay t +θ −1 + ε t +θ )] = aE ( y t . y t +θ −1 ) ,pentru că yt şi ε t +θ

sunt necorelate. Asemănător, vom avea:


E ( yt . yt +θ −1 ) = aE ( yt . y t +θ −2 ) , adică E ( y t . y t +θ ) = a 2 E ( y t . y t +θ − 2 ) ş.a.m.d.
θ
În final: E ( y t . y t +θ ) = a E ( y t )
2

Deoarece E ( y t2 ) este independentă de timp, la fel este şi

autocovarianţa γ θ = a E ( y t ) .
θ 2

Propoziţie: Orice proces autoregresiv de ordinul întâi, stabil ( a <1)


tinde către un proces staţionar când T → ∞.

Demonstraţie

153
Am văzut anterior că procesul autoregresiv de ordinul întâi se
poate dezvolta în forma (3). Aplicând operatorul de medie
expresiei (3), rezultă:
E ( yt ) = a t . y0
Cum |a|<1, rezultă că a t . y 0 → 0 când T → ∞ , adică E ( y t ) → 0.

Un calcul simplu arată că:


E ( y t2 ) = σ ε2 (1 + a 2 + ... + a 2 ( t −1) ) + a 2t y 02 , rezultând că

1 − a 2t
E( y ) = σ ε
2
t
2
+ a 2t y 02
1− a 2

σ ε2
Dar y0 = constant, |a|<1 şi atunci lim E ( y )= , adică exact
2
t
t →∞ 1− a2

varianţa procesului staţionar. În mod asemănător se arată că:


E ( y t . y t +θ ) → γ θ când T → ∞ .
Prin urmare, dacă studiem un proces stabil, momentele procesului
tind către momentele procesului staţionar, dacă T → ∞ .

6.2.3. Proprietăţile estimatorilor

Estimatorii obţinuţi cu MCMMP pe un process autoregresiv


de ordinal întâi au următoarele proprietăţi:
a) Estimatorul â converge în probabilitate către a ( şi în cazul
stabil şi în cazul exploziv);
b) Expresia T (aˆ − a ) are o distribuţie normală în cazul stabil;

154
c) Expresia ∑ yt2−1 (aˆ − a) are o distribuţie limită normală ( în ambele
t

tipuri de procese).
Aceste proprietăţi sunt demonstrabile în cazul y0= constant.
Interesul pentru procesele autoregresive de ordinal întâi este
generat de faptul că atunci când se studiază modele econometrice
cu erori corelate, de regulă, erorile urmează un process
autoregresiv.

155
Regresia multipla cu Excel
In tabelul urmator se prezinta nivelul indicele bursier S&P 500,
rata somajului si rata inflatiei (%) pentru perioada ianuarie 2014-februarie 2016.
Rata Rata Rata Rata
Perioada S&P 500 somajului inflatiei Perioada S&P 500 somajului inflatiei
ian.14 1822,36 8,18 1,58 feb.15 2082,20 5,47 -0,03
feb.14 1817,03 7,83 1,13 mar.15 2079,99 5,43 -0,07
mar.14 1863,52 8,21 1,51 apr.15 2094,86 5,2 -0,2
apr.14 1864,26 8,25 1,95 mai.15 2111,94 5,46 -0,04
mai.14 1889,77 8,43 2,13 iun.15 2099,28 5,42 0,12
iun.14 1947,09 8,17 2,07 iul.15 2094,14 5,47 0,17
iul.14 1973,10 8,19 1,99 aug.15 2039,87 5,3 0,2
aug.14 1961,53 7,8 1,7 sept.15 1944,40 5,06 -0,04
sept.14 1993,23 7,56 1,66 oct.15 2024,81 5,17 0,17
oct.14 1937,27 7,46 1,66 nov.15 2080,62 5,5 0,5
nov.14 2044,57 7,12 1,32 dec.15 2054,08 5,73 0,73
dec.14 2054,27 6,36 0,76 ian.16 1918,60 6,27 1,37
ian.15 2028,18 5,61 -0,09 feb.16 1904,42 5,92 1,02
SUMMARY OUTPUT

Regression Statistics
Multiple R 0,742268585
R Square 0,550962652
Adjusted R Square 0,511915926
Standard Error 64,02005519
Observations 26
Multiple R – coeficientul multiplu de corelaţie.
R Square – coeficientul de determinare (este egal cu pătratul coeficientului de corelaţie multiplă).
Poate fi gândit, exprimat procentual, drept proporţia din variaţia variabilei dependente explicată de
variaţia variabilelor independente: 60,7% din variaţia lui Y este explicată de variabilele X.
Adjusted R Square – valoarea corectată a coeficientului de determinare.
Este introdusă pentru a contracara (parţial) efectul creşterii mecanice a
lui R patrat o dată cu numărul variabilelor independente.
Standard Error – eroarea standard a estimaţiei. Se calculează ca abaterea standard a reziduurilor
(pentru numărul gradelor de libertate utilizat se va vedea tabloul ANOVA, în continuare)
şi este estimaţia abaterii standard a erorilor ε (în ipoteza normalităţii acestora).
Observations – numărul de observaţii din eşantion.
ANOVA

MS-Media sumelor Significance F -


de pătrate: S Probabilitatea
S împărţită la critică
numărul respectiv unilaterală.
de grade de Dacă valoarea
libertate. F afişată este mai
Valoarea de pe linia Valoarea mică
SS– sumele de pătrate a doua (Residual) statisticii decât pragul de
potrivit este estimaţia F semnificaţie
descompunerii dispersiei pentru pentru fixat,
Suma globală de repartiţia erorilor şi testul atunci se
pătrate = Suma de este pătratul erorii caracteri respinge ipoteza
Df pătrate datorată standard a zat de nulă în favoarea
Nr.grd.libertate regresiei + Suma de estimaţiei. H0 si H1 ipotezei
pătrate reziduală alternative.
14,1103
Regression 2 115664,3765 57832,18824 419 0,000100288
Residual 23 94267,05173 4098,567466
Total 25 209931,4282
Coefficients Standard Error t Stat P-value

Intercept 2308,909927 154,3553675 14,95840387 2,42476E-13

X Variable 1 -47,09097982 29,10202537 -1,618134106 0,119267087

X Variable 2 -11,77308472 45,02120091 -0,261500904 0,796033761


Liniile tabelului se referă la variabilele din model, incluzând şi termenul liber.
Coloanele tabelului sunt următoarele:
(prima coloană) – sunt afişate denumirile existente în tabloul de date sau create
automat pentru variabilele independente implicate. Intercept este denumirea pentru
termenul liber (constant) al modelului.
Coefficients – conţine valorile estimate ale coeficienţilor.
Standard Error – eroarea standard a coeficientului (abaterea standard a repartiţiei
coeficientului).
t Stat – statistica t pentru verificarea ipotezei H0 : αi = 0 contra ipotezei alternative
H1 : αi ≠ 0. În condiţiile ipotezei nule se demonstrează că raportul dintre coeficient şi
eroarea standard a coeficientului urmează o repartiţie Student cu (n – 2) grade de
libertate. Acest raport este tocmai valoarea raportată drept t Stat.
P-value – probabilitatea critică bilaterală a testului t cu ipotezele precizate la t Stat.
Lower 95% Upper 95%
Intercept 1989,601523 2628,218
X Variable 1 -107,2931057 13,11115
X Variable 2 -104,9065341 81,36036

Lower 95%, Upper 95% – limitele inferioară şi superioară ale intervalului de


încredere pentru parametrul respectiv. Limitele la pragul 0,05 sunt calculate
automat, indiferent de iniţializarea procedurii Regression.
Studiul reziduurilor se poate face pe baza datelor raportate în tabelul alocat
reziduurilor, tabel având structura următoare:
RESIDUAL OUTPUT

Observation Predicted Y Residuals


1 1905,104238 -82,7442385
2 1926,88397 -109,8539696
3 1904,515625 -40,99562503
4 1897,451829 -33,19182856
5 1886,856297 2,913703053
6 1899,806337 47,28366322
7 1899,806364 73,29363604
8 1921,586041 39,94395934
9 1933,358799 59,87120079
10 1938,067897 -0,797897191
11 1958,081679 86,48832087
12 2000,463751 53,80624876
13 2045,789108 -17,60910812
14 2051,67546 30,52453979
15 2054,030023 25,95997721
16 2066,391449 28,46855084
17 2052,264101 59,67589915
18 2052,264046 47,01595351
19 2049,320843 44,81915674
20 2056,973117 -17,10311729
21 2071,100493 -126,7004928
22 2063,448137 -38,63813721
23 2044,022996 36,59700409
24 2030,484261 23,59573893
25 1997,520358 -78,92035775
26 2018,12278 -113,7027803
Pentru fiecare observaţie (linie din tabelul de date iniţial) se afişează:

Observation – numărul de ordine al observaţiei.

Predicted y – valoarea y prognozată pentru observaţia respectivă; se obţine


înlocuind valorile X ale observaţiei în modelul estimat.

Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi


valoarea prognozată).

Standard Reziduals – valoarea standardizată a erorii. Este obţinută prin


împărţirea reziduului la abaterea standard a reziduurilor (rezultatul nu este
susţinut absolut riguros de teorie).
Analiza calităţii modelului este facilitată şi de graficele construite automat de
procedura Regression.

Sunt produse două tipuri de diagrame:

– diagrame reziduuri vs. variabile independente şi

– diagrame variabila dependentă vs. variabile independente.

Graficele necesită, de obicei, prelucrări suplimentare pentru a fi interpretate


sau raportate.
X Variable 1 Residual Plot
100

50

0
Residuals

0 1 2 3 4 5 6 7 8 9

-50

-100

-150
X Variable 1
Formele de distribuire a reziduurilor duc la concluzii importante pentru adecvanţa
modelului în privinţa variabilei independente implicate:
X Variable 2 Residual Plot
100

50

0
Residuals

-0,5 0 0,5 1 1,5 2 2,5

-50

-100

-150
X Variable 2
Regresia simpla cu Excel
In tabelul urmator se prezinta nivelul PIB-ului/locuitor calculat prin metoda paritatii
puterii de cumparare, exprimat in euro/locuitor si nivelul coruptiei in anul de referinta
N, exprimat prin indicele de perceptie a coruptiei (IC) elaborat de Transparency International.

Indicele PIB in PPP/ Indicele PIB in PPP/


Tara coruptiei locuitor Tara coruptiei locuitor
Albania 2,6 2874,082 Finlanda 9,6 39332,313
Austria 8,6 388865,184 Franta 7,4 35335,959
Belgia 7,3 37163,606 Germania 8 35021,653
Grecia 4,4 21925,223
Bosnia Hertegovina 2,9 2568,35 Ungaria 5,2 10297,742
Bulgaria 4 3682,885 Irlanda 7,4 52360,405
Croatia 3,4 9582,002 Italia 4,9 31350,159
Letonia 4,7 8348,978 Polonia 3,7 8655,363
Lituania 4,8 8419,44 Portugalia 6,6 18161,497
Luxembrug 8,6 85444,259 Romania 3,1 5232,487
Macedonia 2,7 2873,777 Serbia 3 3294,371
malta 6,4 14053,251 Slovacia 4,7 9808,096
Olanda 8,7 40552,281 Slovenia 6,4 17266,98
Republica Ceha 4,8 13654,313 Spania 6,8 29266,058
Estonia 6,7 11238,068 Turcia 3,8 5201,711
SUMMARY OUTPUT

Regression Statistics

Multiple R 0,474274141

R Square 0,224935961

Adjusted R Square 0,196229885

Standard Error 1,860403565

Observations 29

Multiple R – coeficientul multiplu de corelaţie.


R Square – coeficientul de determinare (este egal cu pătratul coeficientului de corelaţie multiplă).
Poate fi gândit, exprimat procentual, drept proporţia din variaţia variabilei dependente explicată de
variaţia variabilelor independente: 60,7% din variaţia lui Y este explicată de variabilele X.
Adjusted R Square – valoarea corectată a coeficientului de determinare.
Este introdusă pentru a contracara (parţial) efectul creşterii mecanice a
lui R patrat o dată cu numărul variabilelor independente.
Standard Error – eroarea standard a estimaţiei. Se calculează ca abaterea standard a reziduurilor
(pentru numărul gradelor de libertate utilizat se va vedea tabloul ANOVA, în continuare)
şi este estimaţia abaterii standard a erorilor ε (în ipoteza normalităţii acestora).
Observations – numărul de observaţii din eşantion.
ANOVA
df SS MS F Significance F
Probabilitatea
critică
Media sumelor de unilaterală.
pătrate: S Dacă valoarea
S împărţită la afişată este
numărul respectiv de mai mică
grade de libertate. decât pragul
Valoarea de pe linia de semnificaţie
a doua (Residual) fixat,
SS – sumele de pătrate potrivit este estimaţia atunci se
descompunerii dispersiei pentru Valoarea respinge
Suma globală de pătrate = repartiţia erorilor şi statisticii F ipoteza nulă în
Suma de pătrate datorată este pătratul erorii pentru testul favoarea
regresiei + Suma de pătrate standard a caracterizat ipotezei
Nr.grd.libertate reziduală estimaţiei. de H0 si H1 alternative.
Regression 1 27,12060638 27,12060638 7,835831158 0,009341429
Residual 27 93,44973845 3,461101424
Total 28 120,5703448
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 5,103639498 0,381793713 13,36753153 2,021E-13 4,320263515 5,887015481

X Variable 1 1,38622E-05 4,9521E-06 2,799255465 0,009341429 3,70132E-06 2,40231E-05

Liniile tabelului se referă la variabilele din model, incluzând şi termenul liber.

Coloanele tabelului sunt următoarele:


(prima coloană) – sunt afişate denumirile existente în tabloul de date sau create
automat pentru variabilele independente implicate. Intercept este denumirea pentru
termenul liber (constant) al modelului.

Coefficients – conţine valorile estimate ale coeficienţilor.


Standard Error – eroarea standard a coeficientului (abaterea standard a
repartiţiei coeficientului).

t Stat – statistica t pentru verificarea ipotezei H0 : αi = 0 contra ipotezei


alternative H1 : αi ≠ 0. În condiţiile ipotezei nule se demonstrează că raportul
dintre coeficient şi eroarea standard a coeficientului urmează o repartiţie Student
cu (n – 2) grade de libertate. Acest raport este tocmai valoarea raportată drept t
Stat.

P-value – probabilitatea critică bilaterală a testului t cu ipotezele precizate la t


Stat.

Lower 95%, Upper 95% – limitele inferioară şi superioară ale intervalului de


încredere pentru parametrul respectiv. Limitele la pragul 0,05 sunt calculate
automat, indiferent de iniţializarea procedurii Regression.
Studiul reziduurilor se poate face pe baza datelor raportate în tabelul alocat
reziduurilor, tabel având structura următoare:
RESIDUAL OUTPUT

Observation Predicted Y Residuals Standard Residuals


1 5,143480567 -2,543480567 -1,392253744
2 10,49416232 -1,894162322 -1,036829068
3 5,618808443 1,681191557 0,92025285
4 5,139242452 -2,239242452 -1,225719484
5 5,154692348 -1,154692348 -0,632057019
6 5,236467025 -1,836467025 -1,005247739
7 5,219374612 -0,519374612 -0,28429596
8 5,22035137 -0,42035137 -0,230092487
9 6,288083998 2,311916002 1,265499627
10 5,143476339 -2,443476339 -1,337513298
11 5,298448325 1,101551675 0,602968807
12 5,665782897 3,034217103 1,660873755
13 5,292918171 -0,492918171 -0,269814198
14 5,259423725 1,440576275 0,788544539
15 5,64887147 3,95112853 2,162773941
16 5,593473254 1,806526746 0,98885899
17 5,589116285 2,410883715 1,319672705
18 5,407571092 -1,007571092 -0,551525592
19 5,246388748 -0,046388748 -0,025392334
20 5,829469348 1,570530652 0,859679137
21 5,538221339 -0,638221339 -0,349350438
22 5,223621779 -1,523621779 -0,834002097
23 5,355397609 1,244602391 0,681272097
24 5,176173224 -2,076173224 -1,136458435
25 5,149306693 -2,149306693 -1,176490329
26 5,239601182 -0,539601182 -0,295367606
27 5,342997645 1,057002355 0,578583342
28 5,509331137 1,290668863 0,706488023
29 5,175746601 -1,375746601 -0,753057987
Pentru fiecare observaţie (linie din tabelul de date iniţial) se afişează:

Observation – numărul de ordine al observaţiei.

Predicted y – valoarea y prognozată pentru observaţia respectivă; se obţine


înlocuind valorile X ale observaţiei în modelul estimat.

Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi


valoarea prognozată).

Standard Reziduals – valoarea standardizată a erorii. Este obţinută prin


împărţirea reziduului la abaterea standard a reziduurilor (rezultatul nu este
susţinut absolut riguros de teorie).
Analiza calităţii modelului este facilitată şi de graficele construite automat de
procedura Regression.

Sunt produse două tipuri de diagrame:

– diagrame reziduuri vs. variabile independente şi

– diagrame variabila dependentă vs. variabile independente.

Graficele necesită, de obicei, prelucrări suplimentare pentru a fi interpretate


sau raportate.
X Variable 1 Residual Plot
5

2
Residuals

0
0 10000 20000 30000 40000 50000 60000
-1

-2

-3
X Variable 1
Formele de distribuire a reziduurilor duc la concluzii importante pentru adecvanţa
modelului în privinţa variabilei independente implicate:
X Variable 1 Line Fit Plot
12

10

6
Y

Y
Predicted Y
4

0
0 10000 20000 30000 40000 50000 60000
X Variable 1

S-ar putea să vă placă și