Documente Academic
Documente Profesional
Documente Cultură
multiple
REGRESIA MULTIPLĂ
Modelul liniar general
Regresia multiplă analizează legătura dintre o variabilă explicată y şi
mai multe variabile explicative x1, x2, ..., xk, unde k > 2.
Modelul liniar general este o generalizare a regresiei simple, în care
apar mai multe variabile explicative. Pentru serii temporale, t = 1,2,
...n, modelul este: ... ak xkt t
yt a0 a1 x1t a2 x2t, unde:
yt = variabila de explicat la timpul t;
x1t = variabila explicativă 1 la timpul t;
x2t = variabila explicativă 2 la timpul t;
...
xkt = variabila explicativă k la timpul t
a0 , a1 ,..., a=k parametrii modelului;
t = eroarea de specificare, necunoscută (diferenţa dintre modelul
adevărat şi cel specificat);
n = numărul de observări.
Modelul prezentat se poate scrie sub forma unui sistem cu n ecuaţii:
y1 a0 a1 x11 a2 x21 ... ak xk1 1
y 2 a0 a1 x12 a2 x22 ... ak xk 2 2
………
yt a0 a1 x1t a2 x2t ... ak xkt t
………
y n a0 a1 x1n a2 x2n ... ak xkn n
sau sub formă matriceală: Y X a
, de dimensiunile
(n,1)=(n,k+1)(k+1,1) + (n,1)
y1 1 x11 x 21 ... x k1 a0 1
y2 1 x12 x 22 ... x k 2 a1 2
... ... ... ... ... ... a ...
Y X 1 x a 2
yt 1t x 2t ... x kt ... t
... ... ... ... ... ... ... ...
1 x ... x kn a
y x2n
k n
n
1n
Estimarea coeficienţilor de regresie
Modelului scris sub formă matriceală Y X a cu n observări şi k variabile
explicative, se aplică metoda celor mai mici pătrate, care constă în minimizarea
sumei S:
n
min t2 min min(Y Xa )(Y Xa ) min(Y Y Y Xa a X Y a X Xa )
i 1
S
2 X Y 2 X Xaˆ 0
a
X Xaˆ X Y
aˆ ( X X ) X Y 1
Estimarea coeficienţilor de regresie
Ecuaţiile X Xaˆ X se
Y numesc ecuaţii normale. Sistemul de ecuaţii
normale scris matriceal este de forma:
yt
n
x 1t x 2t ... x kt
aˆ 0
x1t x 2
x x ... x x aˆ1 x1t y t
1t 1t 2t 1t kt aˆ x y
2t t
x
2t x x x . =
2
... x x 2
2 t 1t 2t 2t kt
...
... ... ... ... ... ... ...
x kt xkt x1t xkt x2t kt aˆ
kt t
2
... x k x y
sau altfel:
naˆ 0 aˆ1 x1t aˆ 2 x2t ... aˆ k xkt yt
aˆ 0 x1t aˆ1 x12t aˆ 2 x1t x2t ... aˆ k x1t xkt x1t yt
aˆ 0 x2t aˆ1 x2t x1t aˆ 2 x22t ... aˆ k x2t xkt x2t yt
…………………………..
aˆ 0 xkt aˆ1 xkt x1t aˆ 2 xkt x2t ... aˆ k xkt2 xkt yt
Estimarea coeficienţilor de regresie
Modelul estimat poate fi scris astfel: yˆ t aˆ 0 aˆ1 x1t aˆ 2 x2t ... aˆ k xkt
iar variabila observată, în funcţie de model:
yt aˆ 0 aˆ1 x1t aˆ 2 x2t ... aˆ k xkt et
Estimatorii parametrilor a0 , a1 ,..., modelului
ak populaţiei generale, se obţin pe
baza datelor unui eşantion. Valorile et sunt reziduurile, abateri între valorile
observate ale variabilei de explicat şi valorile sale teoretice, estimate, ajustate. Se
face distinţie între eroarea de specificare şi reziduurile
t et. Dacă se consideră
valorile centrate (faţă de media lor), vectorul a al estimatorilor se poate scrie:
aˆ1 1
var( x1 ) cov( x1 , x 2 ) cov( x1 , x3 ) ... cov( x1 , x k ) cov( x1 , y )
aˆ 2
aˆ cov( x 2 , x1 ) var( x 2 ) cov( x 2 , x3 ) ... cov( x 2 , x k ) cov( x 2 , y )
3 cov( x3 , x1 ) cov( x3 , x 2 ) var( x3 ) ... cov( x3 , x k ) cov( x , y )
... 3
... ... ... ... ... ... ...
cov( x , x ) cov( x , x ) cov( x , x ) var( x k ) cov( x , y )
aˆ k 1 k 2 k 3 ... k
k
Estimatorul â 0se obţine prin relaţia: aˆ 0 y aˆ1 x1 aˆ 2 x2 ... aˆ k xk
Efectul variaţiei unei singure variabile explicative asupra
variaţiei variabilei explicate y, cunoscând modelul
yˆ t aˆ 0 aˆ1 x1t aˆ 2 x2t ... aˆ k xkt
şi noua stare a variabilei explicative, x2, de exemplu,
modificată în ( x2t x2),t iar toate celelalte k-1 variabile
rămânând neschimbate, se măsoară prin aˆ 2 x2,t care
reprezintă modificarea în medie a variabilei explicate y.
Ipotezele şi proprietăţile estimatorilor
Se formulează următoarele ipoteze de natură stochastică şi structurală,
în legătură cu modelul liniar în variabilele explicative, x1 , x2 ,....,
: xk
a) ipoteze stochastice
• valorile xit, i=1,k sunt observate fără erori,
• n > k+1, numărul de observări trebuie să fie mai mare decât numărul
variabilelor explicative (când n=k+1, atunci sistemul este cu n ecuaţii şi n
necunoscute, perfect determinat).
Proprietăţile estimatorilor
ˆ0 , a
Estimatorii a ˆ1 ,..., a
ˆ k liniari, nedeplasaţi şi eficienţi.
sunt
Modelul regresiei multiple se poate scrie în modurile:
Y Xa
Y Xaˆ e de unde reziduurile sunt: e Y Xaˆ Y Yˆ
Yˆ Xaˆ
E (aˆ ) a ( X X ) 1 X E ( ) a
- notată cu â
- conţine varianţele, pe baza cărora se calculează abaterile lor
standard, respectiv covarianţele coeficienţilor de regresie.
aˆ 2 ( X X ) 1 X X ( X X ) 1 2 ( X X ) 1
Dispersia erorilor se poate estima nedeplasat prin dispersia reziduurilor
ee
ˆ
2
n k 1
e
ˆ
aˆ ˆ ( X X )
2 1
Când numărul observărilor tinde spre +, varianţa reziduurilor tinde spre 0, se spune
că estimatorul â este convergent, de varianţă minimă.
Analiza varianţei şi calitatea ajustării
t
( y
t 1
y ) t
( ˆ
y y )2
t t
( y ˆ
y
t 1
) 2 2
t 1
( yˆ t y ) 2
( yt yˆ t ) 2
t
e 2
R2 t 1
n
1 N 2 1 t 1
n
1 n
t 1
( yt y )
t 1
2
( yt y )
t 1
2
t
( y
t 1
y ) 2
Când numărul de observări este mic, pentru a ţine seama de acest fapt
se corectează R2 cu numărul gradelor de libertate, obţinându-se
coeficientul de determinaţie corectat:
n 1 n 1
R 1
2
(1 R ) 1
2
N2
n k 1 n k 1
Analiza varianţei – testul Fisher
de semnificaţie globală a regresiei
SSE / k
F
SSR /( n k 1)
Testul de semnificaţie globală a regresiei se formulează astfel: există
cel puţin o variabilă explicativă semnificativă?
Ipotezele sunt:
H0: a1 = a2 = ... = ak = 0
(toţi coeficienţii sunt nuli, nici o variabilă explicativă nu
îşi aduce contribuţia la explicarea variabilei y;
termenul constant a0 nu prezintă interes, deoarece un
model în care numai termenul constant este
semnificativ, nu are sens economic.)
H1: exista cel putin un coeficient nenul.
aˆ i a
t
ˆ aˆi
ai
/2
t
Dacă ai t n k 1 se respinge ipoteza nulă H0; se acceptă ipoteza alternativă H1, ai
este semnificativ diferit de valoarea a, la un prag de semnificaţie , adică o
probabilitate de 1-.
/2
t
Dacă ai t n k 1 se acceptă ipoteza nulă H0; ai nu este semnificativ diferit de
valoarea a, la un prag de semnificaţie .
Un caz particular este când valoarea a=0 şi atunci raportul critic devine raţia
Student calculată a estimatorului respectiv: aˆ i
t ai
ˆ aˆ i
Compararea unui parametru ai cu o valoare fixată a
• Un caz particular este când valoarea a=0 şi atunci raportul critic
aˆ
devine raţia Student calculată a estimatorului respectiv, t ai i .
ˆ aˆi
Se verifică semnificaţia faţă de zero a coeficientului, care înseamnă de fapt
verificarea semnificaţiei variabilei explicative, care apare în model, pentru
a se şti dacă aceasta contribuie în mod real la explicarea variabilei
endogene y.
Procedura – pașii
• Se cunosc valorile viitoare ale variabilelor
explicative şi în funcţie de acestea se stabilesc
previziunile punctuale.
• Cu o anumită probabilitate se estimează intervalele
de încredere ale acestor valori viitoare.
• Pentru perioada de la 1 la n, cu t=1,n, modelul este:
yˆ t aˆ 0 aˆ1 x1,t aˆ 2 x2,t ... aˆ k xk ,t
• Previziunea pentru unitatea de timp t+h, unde h
este orizontul de previziune, sau i+h, dacă datele
sunt observate în mod instantaneu este:
yˆ t h aˆ 0 aˆ1 x1,t h aˆ 2 x2,t h ... aˆ k xk ,t h
Eroarea de previziune
• Eroarea de previziune este: et h yt h yˆ t h
• Se calculează varianţa erorii de previziune, care
permite determinarea unui interval de încredere
pentru previziune. Această varianţă se calculează
astfel: e2 2 [ X th ( X X ) 1 X t h 1]
t h
/2
ICyt h yˆ t h t nk 1 [ X t h ( X X ) X t h 1]
2
1
Ajustarea evolutiei vânzărilor lunare la Coca Cola Bv,
in perioada nov.'99-oct.'01
300,000
250,000
vânzări (pet 2l)
200,000
150,000
100,000
50,000
nov-99 Dec-99 Jan-00 Feb-00 Mar-00 Apr-00 May-00 Jun-00 Jul-00 Aug-00 Sep-00 Oct-00 nov-00 Dec-00 Jan-01 Feb-01 Mar-01 Apr-01 May-01 Jun-01 Jul-01 Aug-01 Sep-01 Oct-01
luni
y y teo
Previziunea cu modelul identificat
Ajustarea si previziunea vanzarilor Coca Cola Bv,
in perioada nov.'99-dec.'01
300,000
250,000
vânzări (pet 2l)
200,000
150,000
100,000
50,000
nov-99 Dec-99 Jan-00 Feb-00 Mar-00 Apr-00 May-00 Jun-00 Jul-00 Aug-00 Sep-00 Oct-00 nov-00 Dec-00 Jan-01 Feb-01 Mar-01 Apr-01 May-01 Jun-01 Jul-01 Aug-01 Sep-01 Oct-01 Nov-01 Dec-01
y y teo luni