Sunteți pe pagina 1din 10

MODELUL REGRESIEI

MULTIPLE
Modelul liniar general
- este o generalizare a regresiei simple, cu mai multe variabile explicative.
Pentru serii temporale, t = 1,2, ...n, modelul este:
y t = a 0 + a1 x1t + a 2 x 2t + ... + a k x kt + ε t , unde:
yt = variabila de explicat la timpul t;
x1t = variabila explicativă 1 la timpul t;
x2t = variabila explicativă 2 la timpul t;
...
xkt = variabila explicativă k la timpul t;
a 0 , a1 ,..., a k = parametri modelului;
εt
= eroarea de specificare, necunoscută
n = numărul de observări.
Modelul prezentat se poate scrie sub forma unui sistem cu n ecuaţii:
y1 = a 0 + a1 x11 + a 2 x 21 + ... + a k x k 1 + ε 1
y 2 = a 0 + a1 x12 + a 2 x 22 + ... + a k x k 2 + ε 2
...
y t = a 0 + a1 x1t + a 2 x 2t + ... + a k x kt + ε t
...
y n = a 0 + a1 x1n + a 2 x 2 n + ... + a k x kn + ε n
sau sub formă matriceală: Y = X ⋅ a + ε
de dimensiunile (n,1) = (n,k+1) (k+1,1) + (n,1), unde:

 y1   1 x1 1 x2 1 ... xk1   a0   ε1 
       
 y2   1 x1 2 x2 2 ... xk 2   a1  ε 2 
 ...  ;  ... ... ... ... ...  ; a  ;  ...  .
Y =  X =  a= 2 ε = 
 yt   1 x1t x2t ... xk t   ...  εt 
 ... ...  ... 
 ... 
 ... ... ...   ... 
   
  1 x ε 
y   x2 n ... xkn  a 
 k  n
 n 1n

Prima coloană a matricii X, compusă numai din valorile 1, corespunde


parametrului a 0 , termenul constant al cărui coeficient este 1.
Dimensiunea matricii X este de n linii şi k+1 coloane.
Estimarea coeficienţilor de regresie multiplă
n
min ∑ ε t2 = min ε ′ε = min( Y − Xa )′( Y − Xa ) =
i =1

= min( Y ′Y − Y ′Xa − a ′X ′Y + a ′X ′Xa ) = min( Y ′Y − 2a ′X ′Y + a ′X ′Xa ) = min( S )


∂S
∂a
= −2 X ′Y + 2 X ′Xaˆ = 0 X ′Xaˆ = X ′Y
aˆ = ( X ′X ) X ′Y −1

Ecuaţiile X ′Xaˆ = X ′Y se numesc ecuaţii normale.


Sistemul de ecuaţii normale scris matriceal este de forma:

 n
 ∑x ∑x 1t 2t ... ∑x kt 

 aˆ 0 
  
 ∑ y  t
 ∑ x1t ∑x ∑xx ∑xx aˆ
 1
∑x y 
2
1t 1t 2 t ... 1t k t  
 x   aˆ  1t t
 2 =  
 ∑ 2t ∑x x ∑x ∑x x ∑ 
2
... 2t k t  x y
2 t 1t 2t
 ...   2t t
 ... ... ... ... ...   ...   ... 
 2     
 ∑ xk t ∑ ∑ ... ∑ xk t  ∑ kt t 
x k t x1t x k t x 2t  aˆ  x y
 k 
sau altfel:
naˆ 0 + aˆ1 ∑ x1t + aˆ 2 ∑ x 2t + ... + aˆ k ∑ x kt = ∑ yt

aˆ 0 ∑ x1t + aˆ1 ∑ x12t + aˆ 2 ∑ x1t x 2t + ... + aˆ k ∑ x1t x kt = ∑ x1t y t

aˆ 0 ∑ x 2t + aˆ1 ∑ x 2t x1t + aˆ 2 ∑ x 22t + ... + aˆ k ∑ x 2t x kt = ∑ x 2t y t

......................................................................
aˆ 0 ∑ x kt + aˆ1 ∑ x kt x1t + aˆ 2 ∑ x kt x 2t + ... + aˆ k ∑ x kt2 = ∑ x kt y t

Modelul estimat poate fi scris astfel:

yˆ t = aˆ 0 + aˆ1 x1t + aˆ 2 x 2t +... + aˆ k x kt


iar variabila observată, în funcţie de model:

y t = aˆ 0 + aˆ1 x1t + aˆ 2 x 2 t +... + aˆ k x kt + et


Estimatorii parametrilor a 0 , a1 ,..., a k modelului populaţiei generale, se obţin pe
baza datelor unui eşantion. Valorile et sunt reziduurile, abateri între valorile
observate ale variabilei de explicat şi valorile sale teoretice, estimate, ajustate. Se
face distinţie între eroarea de specificare ε tşi reziduurile et.
Ipotezele şi proprietăţile estimatorilor
Se formulează următoarele ipoteze de natură stochastică şi structurală, în
legătură cu modelul liniar în variabilele explicative x1 , x 2 ,...., x k :

a) ipoteze stochastice
• valorile xit, i=1,k sunt observate fără erori,
• E (ε t ) = 0 , speranţa matematică a erorilor este nulă,
• E (ε t
2
) = σ 2
, varianţa erorilor este constantă pentru orice t=1,n – numită şi
ipoteza de homoscedascticitate,
• E (ε t ε t ′ ) = 0 , dacă t ≠t ′, erorile sunt necorelate (independenţa erorilor),
• cov(xit , ε t ) = 0, erorile sunt independente de variabilele explicative, i=1,k;

b) ipoteze structurale
• să existe inversa ( X ′
X ) −1
,
• n > k+1, numărul de observări trebuie să fie mai mare decât numărul variabilelor
explicative
Analiza varianţei – testul Fisher de semnificaţie
globală a regresiei

Tabelul de analiză a varianţei, ANOVA este de forma celui din Tabel:

Natura variaţiei, datorată: Sumă de pătrate Grd.lib (Modified Sums)


(Sum Squares)SS df MS

Regresiei (variabilelor explicative) SSE= ∑ ( yˆ


t =1
t − y)2 k SSE/k

Reziduurilor (varianţa neexplicată) SSR= ∑( y


t =1
t −y
ˆ t ) 2 n-k-1 SSR/(n-k-1)

Totală (toţi factorii) SST= ∑( y


t =1
t − y)2 n-1 -

SSE / k
F=
Testul Fisher F SSR /( n − k − 1)
Analiza varianţei – testul Fisher
de semnificaţie globală a regresiei
SSE / k
F=
SSR /( n − k − 1)
Testul de semnificaţie globală a regresiei se formulează astfel: există
cel puţin o variabilă explicativă semnificativă?
Ipotezele sunt:
H0: a1 = a2 = ... = ak = 0
(toţi coeficienţii sunt nuli, nici o variabilă explicativă nu
îşi aduce contribuţia la explicarea variabilei y;
termenul constant a0 nu prezintă interes, deoarece un
model în care numai termenul constant este
semnificativ, nu are sens economic.)
H1: exista cel putin un coeficient nenul.

În cazul în care se acceptă H0 înseamnă că nu există nici o relaţie


liniară semnificativă între variabila y şi variabilele xi cu i=1,2, ..., k.
Testarea ipotezei nule este echivalentă cu a testa dacă varianţa SSE
este semnificativ diferită de 0.
Teste statistice şi analiza varianţei
Compararea unui parametru ai cu o valoare fixată a
H0: ai = a
H1: ai ≠ a
∗ aˆ i − a
t =
ai
σˆ aˆi

t a∗i > t nα−/k2−1


Dacă se respinge ipoteza nulă H0; se acceptă ipoteza
alternativă H1, ai este semnificativ diferit de valoarea a, la un prag de
semnificaţie α , adică o probabilitate de 1-α .
t a∗i ≤ t nα−/k2−1
Dacă se acceptă ipoteza nulă H0; ai nu este semnificativ diferit
de valoarea a, la un prag de semnificaţie α .
Un caz particular este când valoarea a=0 şi atunci
∗ araportul
ˆi critic devine raţia
Student calculată a estimatorului respectiv: t ai = σˆ
aˆ i
Execiţiu – Teste asupra coeficienţilor şi
varianţei erorilor
Despre o firmă, se cunosc datele referitoare la vânzările de marfă, y, exprimate în mii euro, pe o
perioadă de 14 luni, numărul de angajaţi (persoane), x1, cheltuielile de întreţinere a utilajelor,

exprimate în euro, x2, şi cheltuielile de publicitate, exprimate în euro, x3.


t y x1 x2 x3

1 17 3 42 115

2 19 2 40 126

3 15 4 40 148

4 21 7 44 139

5 19 8 39 123

6 24 9 38 150

7 26 9 29 126

8 24 6 30 141

9 26 6 38 122

10 21 9 35 157

11 24 5 29 155

12 26 10 28 166

13 30 13 32 168

14 26 8 26 174