Sunteți pe pagina 1din 22

Previziuni cu modelul regresiei

multiple
REGRESIA MULTIPLĂ
Modelul liniar general
Regresia multiplă analizează legătura dintre o variabilă explicată y şi
mai multe variabile explicative x1, x2, ..., xk, unde k > 2.
Modelul liniar general este o generalizare a regresiei simple, în care
apar mai multe variabile explicative. Pentru serii temporale, t = 1,2,
...n, modelul este: ...  ak xkt   t
yt  a0  a1 x1t  a2 x2t, unde:
yt = variabila de explicat la timpul t;
x1t = variabila explicativă 1 la timpul t;
x2t = variabila explicativă 2 la timpul t;
...
xkt = variabila explicativă k la timpul t
a0 , a1 ,..., a=k parametrii modelului;
 t = eroarea de specificare, necunoscută (diferenţa dintre modelul
adevărat şi cel specificat);
n = numărul de observări.
Modelul prezentat se poate scrie sub forma unui sistem cu n ecuaţii:
y1  a0  a1 x11  a2 x21  ...  ak xk1   1
y 2  a0  a1 x12  a2 x22  ...  ak xk 2   2
………
yt  a0  a1 x1t  a2 x2t  ...  ak xkt   t
………
y n  a0  a1 x1n  a2 x2n  ...  ak xkn   n
sau sub formă matriceală: Y  X  a  
, de dimensiunile
(n,1)=(n,k+1)(k+1,1) + (n,1)

 y1   1 x11 x 21 ... x k1   a0   1 
       
 y2   1 x12 x 22 ... x k 2   a1   2 
 ...   ... ... ... ... ...  a   ... 
Y    X   1 x  a 2   
 yt  1t x 2t ... x kt   ...  t 
 ...   ... ... ... ... ...   ...   ... 
    
  1 x ... x kn  a   
y   x2n
 k  n
 n
1n
Estimarea coeficienţilor de regresie
Modelului scris sub formă matriceală Y  X  a cu  n observări şi k variabile
explicative, se aplică metoda celor mai mici pătrate, care constă în minimizarea
sumei S:
n
min   t2  min    min(Y  Xa )(Y  Xa )  min(Y Y  Y Xa  a X Y a X Xa ) 
i 1

 min(Y Y  2a X Y  a X Xa )  min( S )

Pentru minimizarea sumei S se derivează în raport cu vectorul a şi derivata parţială


se egalează cu 0:

S
 2 X Y  2 X Xaˆ  0
a
X Xaˆ  X Y

aˆ  ( X X ) X Y 1
Estimarea coeficienţilor de regresie
Ecuaţiile X Xaˆ  X se
Y numesc ecuaţii normale. Sistemul de ecuaţii
normale scris matriceal este de forma:
  yt 
 n
 x 1t x 2t ...  x  kt
 aˆ 0 
   
  x1t x 2
x x ... x x   aˆ1    x1t y t 
1t 1t 2t 1t kt  aˆ   x y 
  2t t 
 x 
  2t x x x . =
2
... x x  2
2 t 1t 2t 2t kt
 ... 
 ... ... ... ... ...   ...   ... 
     
  x kt  xkt x1t  xkt x2t  kt  aˆ 
  kt t 
2
... x   k x y
sau altfel:
naˆ 0  aˆ1  x1t  aˆ 2  x2t  ...  aˆ k  xkt   yt
aˆ 0  x1t  aˆ1  x12t  aˆ 2  x1t x2t  ...  aˆ k  x1t xkt   x1t yt
aˆ 0  x2t  aˆ1  x2t x1t  aˆ 2  x22t  ...  aˆ k  x2t xkt   x2t yt
…………………………..
aˆ 0  xkt  aˆ1  xkt x1t  aˆ 2  xkt x2t  ...  aˆ k  xkt2   xkt yt
Estimarea coeficienţilor de regresie
Modelul estimat poate fi scris astfel: yˆ t  aˆ 0  aˆ1 x1t  aˆ 2 x2t  ...  aˆ k xkt
iar variabila observată, în funcţie de model:
yt  aˆ 0  aˆ1 x1t  aˆ 2 x2t  ...  aˆ k xkt  et
Estimatorii parametrilor a0 , a1 ,..., modelului
ak populaţiei generale, se obţin pe
baza datelor unui eşantion. Valorile et sunt reziduurile, abateri între valorile
observate ale variabilei de explicat şi valorile sale teoretice, estimate, ajustate. Se
face distinţie între eroarea de specificare şi reziduurile
t et. Dacă se consideră
valorile centrate (faţă de media lor), vectorul a al estimatorilor se poate scrie:

 aˆ1  1
   var( x1 ) cov( x1 , x 2 ) cov( x1 , x3 ) ... cov( x1 , x k )   cov( x1 , y ) 
 aˆ 2     
 aˆ   cov( x 2 , x1 ) var( x 2 ) cov( x 2 , x3 ) ... cov( x 2 , x k )   cov( x 2 , y ) 
 3    cov( x3 , x1 ) cov( x3 , x 2 ) var( x3 ) ... cov( x3 , x k )   cov( x , y ) 
 ...     3

 ...   ... ... ... ... ...   ... 
   cov( x , x ) cov( x , x ) cov( x , x ) var( x k )   cov( x , y ) 
 aˆ   k 1 k 2 k 3 ...  k 
 k
Estimatorul â 0se obţine prin relaţia: aˆ 0  y  aˆ1 x1  aˆ 2 x2  ...  aˆ k xk
Efectul variaţiei unei singure variabile explicative asupra
variaţiei variabilei explicate y, cunoscând modelul
yˆ t  aˆ 0  aˆ1 x1t  aˆ 2 x2t  ...  aˆ k xkt
şi noua stare a variabilei explicative, x2, de exemplu,
modificată în ( x2t  x2),t iar toate celelalte k-1 variabile
rămânând neschimbate, se măsoară prin aˆ 2 x2,t care
reprezintă modificarea în medie a variabilei explicate y.
Ipotezele şi proprietăţile estimatorilor
Se formulează următoarele ipoteze de natură stochastică şi structurală,
în legătură cu modelul liniar în variabilele explicative, x1 , x2 ,....,
: xk
a) ipoteze stochastice
• valorile xit, i=1,k sunt observate fără erori,

• E ( t )  0, speranţa matematică a erorilor este nulă,

• E ( t2 )   2, varianţa erorilor este constantă pentru orice t=1,n


numită şi ipoteza de homoscedascticitate,

• E ( t  t )  0 , dacă t  t erorile sunt necorelate (independenţa


erorilor),

• cov( xit ,  t )  0 , erorile sunt independente de variabilele


explicative, pentru orice i=1,k;
Ipotezele şi proprietăţile estimatorilor
b) ipoteze structurale

• absenţa multicoliniarităţii între variabilele explicative, aceasta implică faptul că


matricea ( X X ) este regulată şi există inversa ( X X ) 1 ,

• ( X X ) / n tinde către o matrice finită nesingulară,

• n > k+1, numărul de observări trebuie să fie mai mare decât numărul
variabilelor explicative (când n=k+1, atunci sistemul este cu n ecuaţii şi n
necunoscute, perfect determinat).
Proprietăţile estimatorilor
ˆ0 , a
Estimatorii a ˆ1 ,..., a
ˆ k liniari, nedeplasaţi şi eficienţi.
sunt
Modelul regresiei multiple se poate scrie în modurile:

Y  Xa  
Y  Xaˆ  e de unde reziduurile sunt: e  Y  Xaˆ  Y  Yˆ
Yˆ  Xaˆ

Estimatorii sunt nedeplasaţi când: E (aˆ )  a


aˆ  ( X X ) 1 X Y  ( X X ) 1 X ( Xa   )  ( X X ) 1 X ( Xa)  ( X X ) 1 X   a  ( X X ) 1 X 

E (aˆ )  a  ( X X ) 1 X E ( )  a

pentru că prin ipoteză E ( t )  0


Matricea de varianţă-covarianţă a estimatorilor

- notată cu  â
- conţine varianţele, pe baza cărora se calculează abaterile lor
standard, respectiv covarianţele coeficienţilor de regresie.

 aˆ  E[(aˆ  a)(aˆ  a)]


aˆ  a  ( X X ) 1 X  (aˆ  a)   X ( X X ) 1
este simetrică şi
1 
( X X ) 1  
(X X )   ( X X ) 1

(aˆ  a)(aˆ  a)  ( X X ) 1 X  X ( X X ) 1


 aˆ  E[(aˆ  a)(aˆ  a)]  ( X X ) 1 X E ( ) X ( X X ) 1
Matricea de varianţă-covarianţă a erorilor
- este E ( )
 E ( 1 1 ) E ( 1 2 ) ... E ( 1 n )    2 0 ... 0 
   
 E ( 2 1 ) E ( 2  2 ) ... E ( 2 n )   0  2 ... 0 
   E ( )        2
 I
... ... ... ... ... ... ... ... 
  
 E (  ) E (  ) ... E ( n  n )   0 ...  2 
 n 1 n 2 0
Atunci matricea de varianţă-covarianţă a estimatorilor, este:

 aˆ   2 ( X X ) 1 X X ( X X ) 1   2 ( X X ) 1
Dispersia erorilor se poate estima nedeplasat prin dispersia reziduurilor
ee
ˆ 
2

n  k 1
e

Se înlocuieşte varianţa erorilor prin estimatorul său şi se obţine o estimaţie a matricii


de varianţă-covarianţă a estimatorilor:

ˆ
 aˆ  ˆ  ( X X )
2 1

Când numărul observărilor tinde spre +, varianţa reziduurilor tinde spre 0, se spune
că estimatorul â este convergent, de varianţă minimă.
Analiza varianţei şi calitatea ajustării

SST = SSE + SSR


n n n

 t
( y
t 1
 y )   t
( ˆ
y  y )2
  t t
( y  ˆ
y
t 1
) 2 2

t 1

Calitatea ajustării se apreciază cu indicatorul coeficientul de


determinaţie, R2.
n n n

 ( yˆ t  y ) 2
 ( yt  yˆ t ) 2
t
e 2

R2  t 1
n
 1 N 2  1 t 1
n
 1 n
t 1

 ( yt  y )
t 1
2
 ( yt  y )
t 1
2
 t
( y
t 1
 y ) 2

Când numărul de observări este mic, pentru a ţine seama de acest fapt
se corectează R2 cu numărul gradelor de libertate, obţinându-se
coeficientul de determinaţie corectat:
n 1 n 1
R  1
2
(1  R )  1 
2
N2
n  k 1 n  k 1
Analiza varianţei – testul Fisher
de semnificaţie globală a regresiei
SSE / k
F
SSR /( n  k  1)
Testul de semnificaţie globală a regresiei se formulează astfel: există
cel puţin o variabilă explicativă semnificativă?
Ipotezele sunt:
H0: a1 = a2 = ... = ak = 0
(toţi coeficienţii sunt nuli, nici o variabilă explicativă nu
îşi aduce contribuţia la explicarea variabilei y;
termenul constant a0 nu prezintă interes, deoarece un
model în care numai termenul constant este
semnificativ, nu are sens economic.)
H1: exista cel putin un coeficient nenul.

În cazul în care se acceptă H0 înseamnă că nu există nici o relaţie


liniară semnificativă între variabila y şi variabilele xi cu i=1,2, ..., k.
Testarea ipotezei nule este echivalentă cu a testa dacă varianţa SSE
este semnificativ diferită de 0.
Teste statistice şi analiza varianţei
1. Compararea unui parametru ai cu o valoare fixată a
H0: ai = a
H1: ai ≠ a

 aˆ i  a
t 
ˆ aˆi
ai

  /2
t
Dacă ai  t n  k 1 se respinge ipoteza nulă H0; se acceptă ipoteza alternativă H1, ai
este semnificativ diferit de valoarea a, la un prag de semnificaţie , adică o
probabilitate de 1-.
  /2
t
Dacă ai  t n  k 1 se acceptă ipoteza nulă H0; ai nu este semnificativ diferit de
valoarea a, la un prag de semnificaţie .
Un caz particular este când valoarea a=0 şi atunci raportul critic devine raţia
Student calculată a estimatorului respectiv:  aˆ i
t ai 
ˆ aˆ i
Compararea unui parametru ai cu o valoare fixată a
• Un caz particular este când valoarea a=0 şi atunci raportul critic

devine raţia Student calculată a estimatorului respectiv, t ai  i .
ˆ aˆi
Se verifică semnificaţia faţă de zero a coeficientului, care înseamnă de fapt
verificarea semnificaţiei variabilei explicative, care apare în model, pentru
a se şti dacă aceasta contribuie în mod real la explicarea variabilei
endogene y.
Procedura – pașii
• Se cunosc valorile viitoare ale variabilelor
explicative şi în funcţie de acestea se stabilesc
previziunile punctuale.
• Cu o anumită probabilitate se estimează intervalele
de încredere ale acestor valori viitoare.
• Pentru perioada de la 1 la n, cu t=1,n, modelul este:
yˆ t  aˆ 0  aˆ1 x1,t  aˆ 2 x2,t  ...  aˆ k xk ,t
• Previziunea pentru unitatea de timp t+h, unde h
este orizontul de previziune, sau i+h, dacă datele
sunt observate în mod instantaneu este:
yˆ t h  aˆ 0  aˆ1 x1,t h  aˆ 2 x2,t h  ...  aˆ k xk ,t  h
Eroarea de previziune
• Eroarea de previziune este: et h  yt h  yˆ t h
• Se calculează varianţa erorii de previziune, care
permite determinarea unui interval de încredere
pentru previziune. Această varianţă se calculează
astfel:  e2   2 [ X th ( X X ) 1 X t h  1]
t h

• Cunoscând vectorul , care conţine  1 


 
valorile viitoare ale variabilelor explicative,  x1,t  h 
X t h   x 2 ,t  h 
se doreşte obţinerea vectorului valorilor  
 ... 
previzionate. x 
 k ,t  h 
Intervalul de încredere
• Intervalul de încredere, pentru un prag de
semnificaţie de , este:

 /2
ICyt  h  yˆ t  h  t nk 1   [ X t  h ( X X ) X t h  1]
2
  1
Ajustarea evolutiei vânzărilor lunare la Coca Cola Bv,
in perioada nov.'99-oct.'01
300,000

250,000
vânzări (pet 2l)

200,000

150,000

100,000

50,000
nov-99 Dec-99 Jan-00 Feb-00 Mar-00 Apr-00 May-00 Jun-00 Jul-00 Aug-00 Sep-00 Oct-00 nov-00 Dec-00 Jan-01 Feb-01 Mar-01 Apr-01 May-01 Jun-01 Jul-01 Aug-01 Sep-01 Oct-01

luni
y y teo
Previziunea cu modelul identificat
Ajustarea si previziunea vanzarilor Coca Cola Bv,
in perioada nov.'99-dec.'01
300,000

250,000
vânzări (pet 2l)

200,000

150,000

100,000

50,000
nov-99 Dec-99 Jan-00 Feb-00 Mar-00 Apr-00 May-00 Jun-00 Jul-00 Aug-00 Sep-00 Oct-00 nov-00 Dec-00 Jan-01 Feb-01 Mar-01 Apr-01 May-01 Jun-01 Jul-01 Aug-01 Sep-01 Oct-01 Nov-01 Dec-01

y y teo luni

S-ar putea să vă placă și