Sunteți pe pagina 1din 17

REGRESIA MULTIPL

Modelul liniar general


Regresia multipl analizeaz legtura dintre o variabil explicat
y i mai multe variabile explicative x1, x2, ..., xk, unde k > 2.
Modelul liniar general este o generalizare a regresiei simple, n
care apar mai multe variabile explicative. Pentru serii temporale,
t = 1,2, ...n, modelul este: yt a0 a1 x1t a2 x2t ... ak xkt t , unde:
yt = variabila de explicat la timpul t;
x1t = variabila explicativ 1 la timpul t;
x2t = variabila explicativ 2 la timpul t;
...
xkt = variabila explicativ k la timpul t
a0 , a1 ,..., ak = parametrii modelului;
t = eroarea de specificare, necunoscut (diferena dintre modelul
adevrat i cel specificat);
n = numrul de observri.

Modelul prezentat se poate scrie sub forma unui sistem cu n ecuaii:


y1 a0 a1 x11 a2 x21 ... ak xk1 1
y 2 a0 a1 x12 a2 x22 ... ak xk 2 2

yt a0 a1 x1t a2 x2t ... ak xkt t

y n a0 a1 x1n a2 x2n ... ak xkn n

sau sub form matriceal:

Y X

, de dimensiunile

(n,1)=(n,k+1)(k+1,1) + (n,1)

1
y1


1
y2
...
...
Y X 1
yt
...
...


1
y

x11
x12
...
x1t
...
x1n

x 21 ... x k1

x 22 ... x k 2
... ... ...

x 2t ... x kt
... ... ...
x 2 n ... x kn

a0

a1
a
a 2
...
...

a
k

1

2
...

t
...


n

Estimarea coeficienilor de regresie


Modelului scris sub form matriceal Y X a cu n observri i k variabile
explicative, se aplic metoda celor mai mici ptrate, care const n minimizarea
sumei S:
n

min t2 min min(Y Xa )(Y Xa ) min(Y Y Y Xa a X Y a X Xa )


i 1

min(Y Y 2a X Y a X Xa ) min( S )
Pentru minimizarea sumei S se deriveaz n raport cu vectorul a i derivata parial
se egaleaz cu 0:

S
2 X Y 2 X Xa 0
a

X Xa X Y

a ( X X ) X Y
1

Estimarea coeficienilor de regresie


Ecuaiile X Xa X Y se numesc ecuaii normale. Sistemul de ecuaii
normale scris matriceal este de forma:

x
x
x x

x1t
x
2t
...

x kt

1t
2
1t

2 t 1t

...

kt

x
x x
x

...

2t

1t

2t

2
2t

...
x1t

kt

...
...
...

x 2t

...

x
x x
x x

1t kt

2 t kt
.
...

2
x
kt
kt

a 0

a1
a
2
... =
...

a
k

y
x y
x y

1t t

2t t
...

x
y
kt t

sau altfel:
na 0

a1 x1t

a 0 x1t a1 x12t

a 2 x2t

... a k xkt

yt

a 2 x1t x2t ... a k x1t xkt x1t yt

a 0 x2t a1 x2t x1t a 2 x22t

... a k x2t xkt x2t yt

..
a 0 xkt a1 xkt x1t a 2 xkt x2t ... a k xkt2

xkt yt

Estimarea coeficienilor de regresie


t a 0 a1 x1t a 2 x2t ... a k xkt
Modelul estimat poate fi scris astfel: y
iar variabila observat, n funcie de model:

yt a 0 a1 x1t a 2 x2t ... a k xkt et


Estimatorii parametrilor a0 , a1 ,..., a k modelului populaiei generale, se obin pe
baza datelor unui eantion. Valorile et sunt reziduurile, abateri ntre valorile
observate ale variabilei de explicat i valorile sale teoretice, estimate, ajustate. Se
face distinie ntre eroarea de specificare t i reziduurile et. Dac se consider
valorile centrate (fa de media lor), vectorul a al estimatorilor se poate scrie:

a1
var( x1 )
cov( x1 , x 2 ) cov( x1 , x3 )
a 2
var( x 2 )
cov( x 2 , x3 )
a cov( x 2 , x1 )
3 cov( x3 , x1 ) cov( x3 , x 2 )
var( x3 )

...
...
...
...
...
cov( x , x ) cov( x , x ) cov( x , x )
k
1
k
2
k
3
a
k
0 se obine prin relaia:
Estimatorul a

... cov( x1 , x k )

... cov( x 2 , x k )
... cov( x3 , x k )

...
...

...
var( x k )

a 0 y a1 x1 a 2 x2 ... a k xk

cov( x1 , y )

cov( x 2 , y )
cov( x , y )
3

...

cov( x , y )
k

Efectul variaiei unei singure variabile explicative asupra


variaiei variabilei explicate y, cunoscnd modelul
y t a 0 a1 x1t a 2 x2t ... a k xkt

i noua stare a variabilei explicative, x2, de exemplu,


modificat n ( x2t x2t ), iar toate celelalte k-1 variabile
rmnnd neschimbate, se msoar prin a 2 x2t , care
reprezint modificarea n medie a variabilei explicate y.

Ipotezele i proprietile estimatorilor


Se formuleaz urmtoarele ipoteze de natur stochastic i structural,
n legtur cu modelul liniar n variabilele explicative, x1 , x2 ,...., xk :
a) ipoteze stochastice

valorile xit, i=1,k sunt observate fr erori,

E ( t ) 0

E ( t2 ) 2 , variana erorilor este constant pentru orice t=1,n

, sperana matematic a erorilor este nul,

numit i ipoteza de homoscedascticitate,

E ( t t ) 0 , dac t t erorile sunt necorelate (independena


erorilor),

cov( xit , t ) 0 , erorile sunt independente de variabilele


explicative, pentru orice i=1,k;

Ipotezele i proprietile estimatorilor


b) ipoteze structurale

absena multicoliniaritii ntre variabilele explicative, aceasta implic


1
faptul c matricea ( X X ) este regulat i exist inversa ( X X ) ,
( X X ) / n tinde ctre o matrice finit nesingular,
n > k+1, numrul de observri trebuie s fie mai mare dect numrul
variabilelor explicative (cnd n=k+1, atunci sistemul este cu n ecuaii i n
necunoscute, perfect determinat).

Proprietile estimatorilor
0 , a
1 ,..., a
k sunt liniari, nedeplasai i eficieni.
Estimatorii a
Modelul regresiei multiple se poate scrie n modurile:

Y Xa
Y Xa e

de unde reziduurile sunt:

Y Xa
Estimatorii sunt nedeplasai cnd:

e Y Xa Y Y

E (a ) a

a ( X X ) 1 X Y ( X X ) 1 X ( Xa ) ( X X ) 1 X ( Xa ) ( X X ) 1 X a ( X X ) 1 X

E (a ) a ( X X ) 1 X E( ) a
pentru c prin ipotez E ( t ) 0

Matricea de varian-covarian a
estimatorilor
- notat cu a
- conine varianele, pe baza crora se calculeaz abaterile
lor standard, respectiv covarianele coeficienilor de
regresie.

a E[(a a)(a a)]

a a ( X X ) 1 X

(a a) X ( X X ) 1

( X X ) 1 este simetric i ( X X ) 1 ( X X ) 1

(a a)(a a) ( X X ) 1 X X ( X X ) 1
a E[(a a)(a a)] ( X X ) 1 X E ( ) X ( X X ) 1

Matricea de varian-covarian a erorilor


-

este

E ( )

E ( 1 1 ) E ( 1 2 )

E ( 2 1 ) E ( 2 2 )
E ( )
...
...

E ( ) E ( )
n 1
n 2

... E ( 1 n ) 2 0

... E ( 2 n ) 0 2

...
...
... ...

... E ( n n ) 0
0

... 0

... 0
2

... ...
... 2

Atunci matricea de varian-covarian a estimatorilor, este:

a 2 ( X X ) 1 X X ( X X ) 1 2 ( X X ) 1
Dispersia erorilor se poate estima nedeplasat prin dispersia reziduurilor

ee

n k 1
2
e

Se nlocuiete variana erorilor prin estimatorul su i se obine o estimaie a matricii


de varian-covarian a estimatorilor:

2
1

a ( X X )
Cnd numrul observrilor tinde spre +, variana reziduurilor tinde spre 0, se spune
c estimatorul a este convergent, de varian minim.

Analiza varianei i calitatea ajustrii


SST

SSE

+ SSR

(
y

y
)

(
y

y
)

(
y

y
)
t
t
t t
2

t 1

t 1

t 1

Calitatea ajustrii se apreciaz cu indicatorul coeficientul de


determinaie, R2.
n

R2

( y t y )

( yt y )

1 N 2 1

t 1
n
t 1

( yt y t )

t 1
n

( yt y )
t 1

2
e
t

t 1

2
(
y

y
)
t
t 1

Cnd numrul de observri este mic, pentru a ine seama de acest fapt
se corecteaz R2 cu numrul gradelor de libertate, obinndu-se
coeficientul de determinaie corectat:

n 1
n 1
2
R 1
(1 R ) 1
N2
n k 1
n k 1
2

Analiza varianei testul Fisher


de semnificaie global a regresiei
F

SSE / k
SSR /( n k 1)

Testul de semnificaie global a regresiei se formuleaz astfel: exist


cel puin o variabil explicativ semnificativ?
Ipotezele sunt:
H0: a1 = a2 = ... = ak = 0
(toi coeficienii sunt nuli, nici o variabil explicativ nu
i aduce contribuia la explicarea variabilei y;
termenul constant a0 nu prezint interes, deoarece un
model n care numai termenul constant este
semnificativ, nu are sens economic.)
H1: exista cel putin un coeficient nenul.
n cazul n care se accept H0 nseamn c nu exist nici o relaie
liniar semnificativ ntre variabila y i variabilele xi cu i=1,2, ..., k.
Testarea ipotezei nule este echivalent cu a testa dac variana SSE
este semnificativ diferit de 0.

Teste statistice i analiza varianei


1.

Compararea unui parametru ai cu o valoare fixat a

H0: ai = a
H1: ai a

a i a
t
ai

ai

Dac

Dac

t ai t n/k21

se respinge ipoteza nul H0; se accept ipoteza


alternativ H1, ai este semnificativ diferit de valoarea a, la un prag de
semnificaie , adic o probabilitate de 1-.

t ai t n/k21 se accept ipoteza nul H0; ai nu este semnificativ diferit

de valoarea a, la un prag de semnificaie .


Un caz particular este cnd valoarea a=0 i atunci raportul critic devine raia
Student calculat a estimatorului respectiv:
a i

t ai

Compararea unui parametru ai cu o valoare fixat a


Un caz particular este cnd valoarea a=0 i atunci raportul critic
a i

devine raia Student calculat a estimatorului respectiv, t ai .


ai

Se verific semnificaia fa de zero a coeficientului, care nseamn


de fapt verificarea semnificaiei variabilei explicative, care apare n
model, pentru a se ti dac aceasta contribuie n mod real la
explicarea variabilei endogene y.

Execiiu Teste asupra coeficienilor i


varianei erorilor
Despre o firm, se cunosc datele referitoare la vnzrile de marf, y, exprimate n mii euro, pe o
perioad de 14 luni, numrul de angajai (persoane), x1, cheltuielile de ntreinere a utilajelor,
exprimate n euro, x2, i cheltuielile de publicitate, exprimate n euro, x3.
t

x1

x2

x3

17

42

115

19

40

126

15

40

148

21

44

139

19

39

123

24

38

150

26

29

126

24

30

141

26

38

122

10

21

35

157

11

24

29

155

12

26

10

28

166

13

30

13

32

168

14

26

26

174

S-ar putea să vă placă și