Sunteți pe pagina 1din 32

Econometrie

Facultatea de CSIE,
Specializarea Informatică Economică
Curs 2,3 – 12,19 octombrie 2009

Conf.univ.dr. Cristina BOBOC


Regresia – scurt istoric
 Sir Francis Galton (1822-1911) – spirit enciclopedic al
perioadei victoriene, este cel care a introdus termenii de
regresie şi corelaţie statistică
 Originea regresiei ca metodă statistică se află în studiile sale de
genetică aplicată în studiul plantelor- 1877
 Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că
există o legătură liniară între diametrele acestor boabe şi diametrele
boabelor recoltate de la noile plante. El a numit iniţial panta acestei
drepte “coefficient of reversion”, schimbându-i apoi numele în
“coefficient of regression”.

 Termenul de regresie provine de la descoperirile sale în domeniul


eredităţii: înalţimea copiilor proveniţi din taţi foarte înalţi se
apropie mai mult de înălţimea medie decât înălţimea taţilor.
CE ESTE REGRESIA?

 Regresia este o metodă statistică pentru studiul relaţiei între o variabilă


dependentă şi una sau mai multe variabile independente explicative în ideea
estimării valorii medii pentru variabila dependentă în functie de valori date,
fixe ale variabilelor explicative

Funcţia Efect
Cauze

Variabile f Variabila
independente dependentă
Y= f(x1,x2,...,xn)+
Exemplu – model de regresie

Etapa 1: Identificarea şi specificarea modelului
 Legea psihologică fundamentală sau înclinatia spre consum a lui Keynes:
“psihologia colectivităţii este de aşa natură, încât atunci când se măreşte
venitul real global, consumul global creşte, dar nu cu aceeaşi mărime ca
venitul”
C
 înclinaţia marginală spre consum este inclusă 0
în  1
V
intervalul (0,1):

Specificarea modelului matematic:C  1   2V 0  2  1

Specificarea modelului econometric:C  1   2V   0  2  1


Etape în procesul de modelare
econometrică tradiţional - Exemplu

 Etapa 2: Obţinerea
datelor şi estimarea 500000

modelului 400000

(milioane lei preţuri curente)


y = 0,8222x - 6915,7
Obţinerea datelor
Consum populaţie
 300000

(1990-2006)
 Simple 200000

 Agregate 100000

 Estimarea parametrilor
0
modelului econometric 0 100000 200000 300000 400000 500000 600000

Analiza de regresie
-100000

PIB (milioane lei preţuri curente)
 Testarea ipotezelor (1990-2006)
Etape în procesul de modelare
econometrică tradiţional - Exemplu
 Etapa 3: Interpretări şi previziune
 Dacă se aşteaptă ca PIB pe locuitor în anul 2007 să fie de 400000
mil lei preţuri curente consumul previzionat al populaţiei va fi de:
 y=-6915,7+0,8222*400000=321964,3

 Presupunem că guvernul susţine că un nivel al consumului


populaţiei de 330000 mil lei preţuri curente va menţine şomajul la
un nivel de aproximativ 6%. Care este nivelul venitului care
garantează nivelul ţintă al consumului populaţiei?
 y=330000  x=409773
Modelul liniar de regresie unifactorială

Yi      X i   i

Componenta predictibilă Variabila/eroarea aleatoare

 Parametrul  arată modificarea proporţională a variabilei efect (Y) la


modificarea cu o unitate a variabilei cauză (X), are semnificaţie de
coeficient de elasticitate.

 Parametrul  arată punctul în care linia interceptează (taie) axa OY

 i reprezintă componenta reziduală (eroarea aleatoare) pentru fiecare


unitate, adică partea din valoarea variabilei Y care nu poate fi măsurată
prin relaţia sistematică existentă cu variabila X.
Modelul liniar de regresie unifactorială
 Modelul de regresie liniară la nivelul populaţiei
Y Yi     X i   i Valoarea
observată

i = Eroarea

E(Y/Xi)     X i

Valoarea Xi X
observată
Modelul liniar de regresie unifactorială

 Se efectuează o selecţie de volum n : (xi,yi)i=1...n


 Pe baza acestei selecţii se estimează parametrii ecuaţiei de regresie
liniară simplă,  şi .

 Modelul de regresie liniară la nivelul eşantionului

Yi  ˆ  ˆ  X i  ˆi  Yˆi  ˆi

 cu componenta predictibilă: Yˆi  ˆ  ˆ  X i


 ̂ este estimatorul punctului de intercepţie () obţinut pe baza datelor din eşantion
 ̂ este estimatorul pantei liniei drepte () obţinut pe baza datelor din eşantion
 ˆ este valoarea reziduală (pentru unitatea i) în eşantion:
ˆi  Yi  ˆ  ˆ  X i
Ipotezele modelului de regresie liniară
 Pentru obţinerea unor estimatori de calitate ai parametrilor de
regresie se fac, de obicei, şase presupuneri (ipoteze) standard:

 Forma funcţională liniară: Yi = + xi + i, i=1,n

 Normalitatea erorilor: i N(0,  2 )


 Media zero a erorilor: μ(i)=0 i

  2
Homoscedasticitatea: σ (i)=  constantă i
2

 Non autocorelarea erorilor: Cov(i,j)=0 ij

 Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j


Modelul liniar de regresie unifactorială
 Dacă presupunem că media şi dispersia lui  sînt 0 şi 2, atunci
media lui Y pentru o valoare particulară a lui X este dată de
relaţia
E (Y / x)  E (    x   )      x

 Dispersia lui Y pentru o valoare particulară a lui X este dată de


relaţia

Var (Y / x)  Var (    x)  Var ( )  0   2   2


Estimarea parametrilor modelului de
regresie clasic

 Metoda celor mai mici pătrate:


Pentru estimarea parametrilor  şi  pe baza datelor observate, un
criteriu natural este cel de maximizare a potrivirii modelului cu datele
observate, deci de minimizare a erorilor observate:

min 
i
ˆi2  min 
i
(Yi  ˆ  ˆX i ) 2

 Condiţiile de ordin 1: determinarea soluţiei


 Condiţia de ordin 2: soluţia găsită este un punct de minim.
Matricea derivatelor parţiale de ordin doi trebuie să fie
pozitiv definită.
Estimarea parametrilor modelului de
regresie clasic

 Condiţiile de ordin 1: determinarea soluţiei


i
ˆi2  i
(Yi  ˆ  ˆX i ) 2

 (
 ˆi2 )  ˆi


i
 ˆ
0  2(

 y  nˆ  ( x )ˆ )  
i i y



i  nˆ  (  x )ˆ
i
 i i

i i
  
 (  ˆi2 )  2(
 xi yi  (  xi )ˆ  ( 
ˆ
xi2 ) ˆ )  i x y


i i (  x )ˆ  ( x
i
2 ˆ
i )
 i
0    i i i
 ˆ  i i i
  
Estimarea parametrilor modelului de
regresie clasic

Condiţiile de ordin 1:


 y x
i
i
i
i
 ˆ  y  b x

ˆ
x y x i i
2
i  y x x x i
2
i i i yi

y
i i
  
i i i i
 n
 n  xi  
2

i
 n  xi2    xi 

i

  x y  x y  nx y
i
 


x i
i x i
2
i
i  i  
ˆ
xi i i i i
i i
 
i
 


y
n i
  x  x  nx
n i
2
i
2
i


x x y x y x  y
i i
 x
n
 i i i i i i i  xi 2
ˆ  i i
 i i i
 i
 n x  
2
 i i
 
i
 n xi2  xi 
 i
 


x x
i
i
i
2
i
i  i 
Estimarea parametrilor modelului de
regresie clasic
 ˆi
 Condiţia de ordin 2   2(


i
yi  nˆ  ( i
xi ) ˆ ) 


ˆi
  2(
  xi y i  (  xi )ˆ  (  xi2 ) ˆ ) 

 i i i


  2 ( ˆi2 ) 2
 (  ei2 ) 


  ˆ
i
2 2
i
ˆˆ 

  2n

2 x  i
 
i

 
  2 ( ˆi2 )

 2 ( ˆi2 ) 
 
2 xi 2 x  2
i
 i i
  i i 
 ˆˆ  2 ˆ 2 



2 n  0

2 xi  0
2
 Deci matricea este pozitiv definită
 i

4n xi  4( xi )  4n ( xi  x)  0
2 2 2
 i i i
Verificarea validităţii modelului
unifactorial de regresie liniară

 I. Testarea validităţii modelului de regresie folosind


metoda analizei de varianţă

 II. Determinarea măsurii calităţii ajustării

 III. Testarea parametrilor modelului de regresie

 IV. Verificarea ipotezelor modelului de regresie


I. Testarea validităţii modelului de
regresie folosind metoda analizei de
varianţă
( yi  yˆi )
Y
yi
( yi  y )
ŷi
y

( yˆi  y )

Abaterea valorilor individuale yi de la medie


I. Testarea validităţii modelului de
regresie folosind metoda analizei de
varianţă

Variaţia totală:
n
S y   ( yi  y ) 2
X i 1

Variaţia explicată de X:
Y
Variaţia neexplicată de X:
n n
S y / x   ( yˆ i  y ) 2
S e   ( yi  yˆi ) 2
i 1 i 1
I. Testarea validităţii modelului de
regresie folosind metoda analizei de
varianţă
2 Sy
 Dispersia corectată totală: sy 
n 1
Sy/ x
 Dispersia corectată sistematică: s 2y / x 
k
Se
 Dispersia corectată reziduală: se2 
n  k 1

unde k este numărul variabilelor independente (k=1).


I. Testarea validităţii modelului de
regresie folosind metoda analizei de
varianţă
 Ipotezele testate:

 H0: s 2y / x / se2  1 (influenţa lui X nu este diferită de cea a factorilor


aleatori, deci modelul nu poate fi validat)

 H1: s 2y / x / se2  1 (influenţa lui X este semnificativ mai mare decât cea
a factorilor aleatori)

 Testul statistic F (Fisher): F


s 2
y/x

  yˆ i y  :  y
2
i  yˆ i 
2

s e2 k n  k 1
 Regula de decizie:
 Dacă Fcalc≤ Fα,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este semnificativ
statistic;
 Dacă Fcalc> Fα,k,n-k-1, atunci se respinge H0, se acceptă H1, deci modelul este
semnificativ statistic (valid).
I. Testarea validităţii modelului de
regresie folosind metoda analizei de
varianţă

Sursa variaţiei Varianţa Gradele de Dispersia corectată Statistica F


(suma pătratelor) libertate (media pătratelor)

Datorată n Sy
S y / x   ( yˆ i  y ) 2
regresiei 2 k
(explicată de sy 
model) i 1 n 1 s 2y / x
F
Reziduală n Se se2
(neexplicată de S e   ( yi  yˆi ) 2 n-k se2 
model) n  k 1
i 1

n Sy / x
s 2y / x –
Totală
S y   ( yi  y ) 2 
n-1 k
i 1
II. Determinarea măsurii
calităţii ajustării

 Pentru a măsura calitatea ajustării în cazul regresiei liniare


unifactoriale se calculează:
 Coeficientul de determinaţie (indicator relativ)
 Abaterea medie pătratică (eroarea standard) a
reziduurilor (măsură absolută a calităţii ajustării pe baza
regresiei în eşantion)
II. Determinarea măsurii calităţii
ajustării
n n
  yˆi  y 
2
Sy/ x S
  yi  yˆi  2
 Coeficientul de determinaţie: R2   1  e  1  i 1
n
 i 1
n
Sy Sy
 i y 
 y
2
  yi  y
2
 
i 1 i 1
 ia valori în intervalul [0,1] şi poate fi interpretat ca procentul variaţiei lui y
explicată de variaţia variabilei x

 R2 = 0 dacă b=0, y  y , deci dacă ecuaţia de regresie este o dreaptă orizontală.
În acest caz variabila X nu are putere explicativă (X nu influenteaza variatia lui Y).
 R2 = 1 dacă punctele determinate de observaţiile făcute asupra variabilelor x şi y
se află toate pe o dreaptă, caz în care erorile vor fi zero.
 În cazul în care toate valorile lui y se află pe o dreaptă verticală, R 2 nu are nici o
semnificaţie şi nu poate fi calculat.

 Raportul de corelaţie: R  R 2
 Daca R→1 legatura dintre X şi Y este puternică
 Daca R →0 legatura dintre X şi Y este slabă
 În cazul legăturilor liniare: R  rxy
II. Determinarea măsurii calităţii
ajustării
 Observaţii:
 1. R2 poate fi interpretat ca procentul variaţiei lui y explicată de variaţia
variabilei x doar pentru cazul în care metoda celor mai mici pătrate este
aplicată modelului liniar de regresie și modelul are termen liber.
 2. Pentru orice model coeficientul R2 poate fi calculat ca:
2
 ei
R2  1 i unde S yy   ( yi  y ) 2
S yy i

 Coeficientul de determinaţie ajustat: se ajustează coeficientul de


determinaţie cu gradele de libertate
S e /(n  k  1) se2
R  1
2
 1 2
S y /( n  1) sy
 este întotdeuna mai mic decât coeficientul de determinaţie:
II. Determinarea măsurii calităţii
ajustării
 Abaterea medie pătratică a erorilor în eşantion este:
n

Se Se  y i  yˆ i 
2

se  se2    i 1

n  k 1 n2 n2

unde se este un estimator nedeplasat al dispersiei reziduurilor  


2 2

se este util în compararea modelelor. Dacă avem la dispoziţie câteva modele


dintre care trebuie să alegem, cel mai potrivit a fi utilizat este cel pentru
care se este mai scăzut.
III. Testarea parametrilor modelului
de regresie
 Estimatorii “a” şi “b” ai coeficienţilor din ecuaţia de regresie în
colectivitatea generală au distribuţii de eşantionare, cu următoarele
proprietăţi:
 “a” şi “b” sunt estimatori nedeplasaţi ai parametrilor “” şi “β”, adică:
  a     b  

2 2
 Distribuţiile de eşantionare ale estimatorilor “a”sşi s
“b” sunt normal
a b
distribuite,
 cu mediile “”  şi “β” nşi dispersiile: şi
2
 2   xi
1 x
sa2  se2   n   s2 i 1
n 2
 e n
 ( xi  x )   ( xi  x ) 2  

 i 1  i 1 s2 
 y i  ˆ
y i
2

e
1 n2
s s 
2 2

x 
b e 2
i x
III. Testarea parametrilor modelului
de regresie
Parametrul “β” (panta dreptei)
 Testul bilateral:
 H0: β = 0
 H1: β ≠ 0
 Test unilateral dreapta/stânga:
 H0: β = 0
 H1: β > 0 (H1: β < 0)

 Dacă eşantionul este de volum mare:


b    b b  0
 Testul z: z calc  
sb sb
 Regiunea critică:
 Pentru testul bilateral: dacă z calc   z / 2 sau z calc  z / 2 se respinge H0.
 Pentru testul unilateral dreapta: dacă zcalc  z se respinge H0.
 Pentru testul unilateral stanga: dacă zcalc   z se respinge H0.
 Intervalul de încredere pentru “β”:
b  z / 2  sb    b  z / 2  sb
III. Testarea parametrilor modelului
de regresie
Parametrul “β” (panta dreptei)
 Dacă eşantionul este de volum mic:

b    b b  0 b
 Testul t: t calc   
sb sb sb
 Reg. critică:
 Pentru testul bilateral: dacă t calc  t / 2 ,n  2 sau t calc  t / 2,n  2 se respinge H0.
 Pentru testul unilateral dreapta: t calc  t ,n  2
 Pentru testul unilateral stânga: t calc  t ,n  2
 Intervalul de încredere pentru “β”:

b  t  / 2 , n  2  s b    b  t / 2 , n  2  s b
III. Testarea parametrilor modelului
de regresie
Parametrul “”
 Testul bilateral:
 H0:  = 0
 H1:  ≠ 0
 Test unilateral dreapta/stânga:
 H0:  = 0
 H1:  > 0 (H1:  < 0)
 Dacă eşantionul este de volum mare:
a   a a  0
 Testul z: zcalc  
sa sa
 Regiunea critică:
 Pentru testul bilateral: dacă z calc   z / 2 sau z calc  z / 2 se respinge H0.
 Pentru testul unilateral dreapta: dacă zcalc  z se respinge H0.
 Pentru testul unilateral stanga: dacă zcalc   z se respinge H0.
 Intervalul de încredere pentru “”:
a  z / 2  sa    a  z / 2  sa
III. Testarea parametrilor modelului
de regresie
Parametrul “”

 Dacă eşantionul este de volum mic:


a   a a  0 a
 Testul t: tcalc   
sa sa sa
 Reg. critică:
 Pentru testul bilateral: dacă t calc  t / 2,n  2 sau t calc  t / 2,n  2 se respinge H0.
 Pentru testul unilateral dreapta: t calc  t ,n  2
 Pentru testul unilateral stânga: t calc  t ,n  2
 Intervalul de încredere pentru “”:
a  t / 2, n  2  sa    a  t / 2, n  2  sa
EXEMPLU
 Plecând de la o anchetă realizată pe un eşantion format din proprietarii unei piscine din
Pennsylvania s-au înregistrat informaţiile următoare în ceea ce priveşte costul piscinelor şi
venitul anual al indivizilor. Venitul influenţează costul piscinelor?

t a  1,21 a nu e semnificativ
aˆ  1,57
Regression Statistics diferit de zero
Multiple R 0,816991 R2=66,7% bˆ  0,38 t b  4,48 b semnificativ diferit
R Square 0,667474 de zero
Adjusted R Square 0,634222
Standard Error 1,644507
Observations 12

ANOVA
Fcalc=20,07
df SS MS F Significance F
Regression 1 54,28514 54,28514 20,07288 0,001179
modelul este valid
Residual 10 27,04402 2,704402
Total 11 81,32917

Coefficients Standard Error t Stat P-value Lower 95% Upper 95% Lower 95,0% Upper 95,0%
Intercept 1,571738 1,303008 1,206238 0,255488 -1,33155 4,475021 -1,33155 4,475021
Venit 0,377323 0,084219 4,480277 0,001179 0,189672 0,564974 0,189672 0,564974
EXEMPLU
INTERPRETĂRI

 Variaţia costului piscinelor este influenţată în proporţie de 66,7% de variaţia venitului


anual al indivizilor:
costul piscinelor = 1,57+0,38·venitul indivizilor
 La o creştere cu o unitate monetară a venitului costul piscinelor va creşte cu 0,38 u.m.
 Coeficientul venitului este semnificativ diferit de zero cu o probabilitate de 95%, deci
parametrul este semnificativ.
 Modelul poate fi validat cu o probabilitate de 95%.

S-ar putea să vă placă și