Sunteți pe pagina 1din 7

Specificarea unui model de regresie

Un studiu econometric începe cu o serie de presupuneri teoretice despre anumite aspecte ale economiei.

Investigaţiile empirice furnizează estimatori pentru parametri necunoscuţi ai modelului.

Keynes: C=f(x)

Suma cheltuită pentru consum depinde de:


 mărimea venitului pe de o parte
 alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
 alte nevoi subiective

Legea psihologică fundamentală: „o persoană este dispusă de regulă şi în medie să îşi crească consumul pe
măsura creşterii venitului dar nu în aceeaşi măsură”
dC
0 1
dX

un nivel absolut mai mare al venitului va tinde de regulă să mărească diferenţa între venit şi consum:
d (C / X )
0
dX

Presupunerea cea mai simplă: C=+X, 0<<1 este o relaţie deterministă neadecvată.

În model trebuie inclus şi factorul aleator:


C=f(X,)
Modelul cel mai simplu:
C=+X+

Modelul general ce trebuie estimat are forma:


yi = + xi + i, i=1,n
unde: - xi este nestochastic (situaţie experimentală)
- analistul alege valorile regresiei xi şi apoi observă yi

3
Valoarea parametrului  arată modificarea proporţională a variabilei efect (Y) la modificarea cu o
unitate a variabilei cauză (X).

Valoarea parametrului  arată punctul în care linia interceptează (taie) axa OY

i reprezintă componenta reziduală (eroarea aleatoare) pentru fiecare unitate, adică partea din valoarea
variabilei Y care nu poate fi măsurată prin relaţia sistematică existentă cu variabila X.

4
Modelul liniar unifactorial y=1+0,5x

modelul probabilistic conţine:


a) componenta deterministică, adică partea din valoarea lui Yi care poate fi determinată cunoscând
valoarea Xi ( + Xi = Yi')
b) componenta reziduală care nu poate fi determinată cunoscând valoarea individuală Xi (i)
Atunci,
Yi =  + Xi + i

Yi = componenta predictibilă (detrministică) + eroarea aleatoare


Yi = Yi' + i

Dacă datele disponibile provin dintr-un eşantion avem la dispoziţie n perechi de observaţii (x1, y1),
(x2,y2), ... (xn, yn), pe care le vom folosi pentru estimarea parametrilor ecuaţiei de regresie liniară simplă, 
şi .
Modelul de regresie liniară în eşantion este
yi = a + bxi + ei
cu componenta predictibilă:
ŷi  a  bx i

a şi b sunt estimatorii punctului de intercepţie () şi pantei liniei drepte (), obţinuţi pe eşantion
ei este valoarea reziduală (pentru unitatea i) în eşantion:
ei = yi – (a + bxi)

7
Abaterea ei de la linia de regresie

Ipotezele modelului de regresie liniară

Pentru a obţine proprietăţile dorite ale estimatorilor regresiei, se fac, de obicei, cinci presupuneri (ipoteze)
standard pentru modelul din populaţia generală:

Ipotezele ce trebuie verificate:


1. Forma funcţională: yi = + xi + i, i=1,n
2. Normalitatea erorilor: i N(0,2)
3. Media zero a erorilor: μ(i)=0 i
4. Homoscedasticitatea: σ2i)=2 constantă i
5. Non autocorelarea erorilor: Cov(i,j)=0 ij
6. Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j

Ipoteza 1: Forma funcţională

a. y=a+bx
b. y=a+bz, z=ex
c. y=a+br, r=1/x
d. y=a+bq, q=ln(x)
Y
1000

1
a  b  a  be x
x
800

600

a  bx
400

200

a  b ln  x 
0
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X

-200

-400

Fig. - Modele ce pot fi linearizate

Sau y=Ax  ln(y)=+ln(x)

Forma generală: f(yi)= +g(xi)+i

1
Contra exemplu: y    nu poate fi transformat în model liniar.
x
10

Erorile

Ipoteza de linearitate a modelului include şi aditivitatea erorilor.


Forma modelului:
y =  + x + ,
De exemplu modelul y  Ax  e se transformă prin logaritmare în modelul liniar: ln(y)=ln(A)+ln(x)+ .
Însă modelul y  Ax    nu mai poate fi transformat în model liniar.

Dacă ipoteza de linearitate este verificată, variabila dependentă observată este suma a două elemente:
- un termen nestochastic: +x
- o variabilă aleatoare

11

Ipoteza 2: normalitatea erorilor

Se presupune că variabila aleatoare i este normal distribuită :


Distribuţia de probabilitate pentru i

12

Ipoteza 3: media erorilor este zero: μ(i)=0 i

este naturală atâta timp cât  este văzută ca suma efectelor individuale, cu semne diferite.
Dacă media erorilor este diferită de zero, ea poate fi considerată ca o parte sistematică a regresiei:
μ()=   + x +  = (+) + x + (-)
media erorilor este acum nulă.
Această presupunere indică faptul că media valorilor Y, condiţionat de X,  (Y/X = Xi) =  + Xi, adică nu
există variabile omise asociate cu regresia în populaţie.

13

Ipoteza 4 (de homoscedasticitate): Var(i)=2 constantă i

dispersia reziduurilor în populaţie este constantă peste toate valorile Xi

Functia de consum
1200

1000

800
consum

600

400

200

0
200 300 400 500 600 700 800 900 1000
venit
a) b)
Dispersia reziduurilor a) constantă; b) variabilă

Discuţie:
profiturile firmelor mari vor varia mult mai mult ca profiturile firmelor mici.
variaţia cheltuielilor gospodăriilor în funcţie de venit sau de mărimea lor poate fi diferită.

15

Ipoteza 5: Non autocorelarea erorilor: μ(ij)=0 ij

Această ipoteză nu implică faptul că yi şi yj sunt necorelate, ci faptul că deviaţiile observaţiilor de la valorile
lor aşteptate sunt necorelate.

Variabilele aleatoare i sunt statistic independente una de alta, adică   i j = 0, pentru i  j.


Acest lucru înseamnă că eroarea asociată cu o valoare a variabilei Y nu are nici un efect asupra erorilor
asociate cu alte valori ale lui Y;
nu există deci corelaţie între reziduuri;
OBSERVAŢIE: De asemenea este convenabil a considera că erorile sunt independente şi normal
distribuite cu medie zero şi variaţie constantă pentru obţinerea de rezultate statistice exacte.

16

Estimarea parametrilor modelului de regresie clasic

Parametrii necunoscuţi ai reacţiei stochastice sunt cei ce trebuie estimaţi:


yi = + xi + i, i=1,n

Modelul estimat va fi scris:



y i  a  bxi , i  1, n

Eroarea asociată unui punct i este:


i = yi -  - xi

Pentru orice valori estimate a şi b, erorile estimate vor fi:


ei = yi - a - bxi
Pentru estimarea parametrilor  şi  pe baza datelor observate, un criteriu natural este cel de maximizare a
potrivirii modelului cu datele observate, deci de minimizare a erorilor observate:
min  ei2  min  ( yi  a  bxi ) 2
i i

17

Condiţiile de ordin 1 de minimizare a funcţiei sunt:

  ( ei2 )
 i  yi  na  ( xi )b
 0
a i i
  
2
  ( ei2 )  xi yi  ( xi )a  ( xi )b
 i i i i
0
 b

a  y  bx

 n  yi
 i
  xi  xi yi  xi yi  n x y
 i i
b  n  xi
 i
2 2
 i
 xi  n x
 2 i
  xi  xi
 i i

Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită este un punct de minim.
Matricea derivatelor parţiale de ordin doi trebuie să fie pozitiv definită:

  2 ( ei2 )  2 ( ei2 ) 
 
 2 2
i i
  2n 2 xi 
  a ab   i 

  2 ( ei2 )  2 ( ei2 )  2 xi 2 xi2 

 i i   i i
 ba 2 2 
  b 



2 n  0
 2
2 xi  0
 i
 2 2 2
4n xi  4( xi )  4n ( xi  x)  0
 i i i

Deci matricea este pozitiv definită.