Sunteți pe pagina 1din 31

MODELUL DE REGRESIE

LINIAR MULTIFACTORIAL
1. Specificarea, definirea i identificarea
modelului liniar multifactorial
Exemple:
1. n medie ne-am atepta ca la un nivel mai ridicat de educaie, nivelul
venitului s creasc:
venit = |
1
+ |
2
educaie + c
ns venitul depinde i de vrst:
venit = |
1
+ |
2
educaie +|
3
vrst + c
2. (funcia Cobb Douglas): Producia = f(capital, for de munc) + c
1. Specificarea, definirea i identificarea
modelului liniar multifactorial
3. n analiza raportului dintre cererea i oferta unui produs vom putea studia
cantitatea cerut pentru un anumit produs numai n funcie de pre, stabilind
astfel un model simplu de regresie:
q
t
= o + |p
t
+ c
t
,
unde q
t
reprezint cantitatea cerut, p
t
este preul unitar, iar c
t
este o
variabil rezidual ce cuantific influena altor variabile asupra cererii.
Cererea dintr-un anumit produs este influenat ntr-o mare msur i de ali
factori, precum calitatea produselor, veniturile disponibile etc.
Vom reprezenta, de exemplu, n acest caz modelul de regresie prin
urmtoarea relaie:
q
t
= o + |p
t
+ u
t
+ c
t
,
unde n plus fa de modelul anterior u
t
cuantific venitul disponibil al
populatiei.
1. Specificarea, definirea i identificarea
modelului liniar multifactorial
n multe situaii, variabila rezultativ supus studiului este
determinat de mai muli factori de influen
Modelul regresiei multiple se prezint sub forma ecuaiei:
y = |
0
x
0
+ |
1
x
1
+ + |
k
x
k
+ c.
n cazul acestei ecuaii de regresie se identific urmtoarele
variabilele:
grupul de variabile exogene sau independente, ce se reprezint sub forma
variabilei vectoriale X = (X
0
, X
1
, , X
k
).
o variabil endogen, notat prin Y.
1. Specificarea, definirea i identificarea
modelului liniar multifactorial
Se realizeaz o selecie de volum n
Pentru fiecare unitate i vom avea seria de valori x
i0
, x
i1
, , x
ik
Pentru fiecare variabil ansamblul datelor observate pentru cele n unitti vor fi
reprezentate prin vectorul coloan x
i
cu i=0,k
Ansamblul datelor pentru variabilele exogene vor fi prezentate sub forma matricei:
n cazul modelului liniar de regresie cu termen liber prima coloan a matricei de
mai sus este in fapt egal cu un vector cu n elemente egale cu 1. Vom scrie n
acest caz x
0
=1, unde 1=
(
(
(

1
1

| |
) 1 , (
1 0
2 12 02
1 11 01
1 0
,..., , X
+
e
(
(
(
(

= =
k n
kn n n
k
k
k
M
x x x
x x x
x x x
x x x
1. Specificarea, definirea i identificarea
modelului liniar multifactorial
Pentru cele n unitti sunt nregistrate valorile y
1
, y
2
, , y
n
, ce
reprezint elementele vectorului coloan y, deci valorile
variabilei endogene vor fi reprezentate prin:
(
(
(
(

=
n
y
y
y

2
1
y
este vectorul coloan al parametrilor
j
, j=0,,k
de dimensiune (k+1,1).
vectorul coloan al variabilei aleatoare, de
dimensiune (n,1)
Modelul liniar multifactorial se scrie:
Y = X|+ c
|
|
|
|
|
.
|

\
|
=
k
|
|
|
|
...
1
0
|
|
|
|
|
.
|

\
|
=
n
c
c
c
c
...
2
1
1. Specificarea, definirea i identificarea
modelului liniar multifactorial
Y
X
1
X
2
Variaia explicat
de X1 i X2
Variaia explicat
de X1
Variaia explicat
de X2
Variaia neexplicat
de X1 sau X2
1. Specificarea, definirea i identificarea
modelului liniar multifactorial
Y
X
1
X
2
2. Ipotezele modelului liniar multifactorial
1. Y = X| + c
2. Media zero a erorilor: (c)=0 (Y) = X|
3. Homoscedasticitatea: cov(cc)=o
2
I
4. Necorelarea ntre variabila independent i erori: cov(c,X)=0
5. Matricea X este de rang k cu coloane independente dou cte dou
6. Normalitatea erorilor: c ~N(0,o
2
I)
3. Estimarea parametrilor prin MCMMP
Minimizm suma ptratelor erorilor de ajustare:
Minimizarea lui S se realizeaz n raport cu parametrii modelului de regresie
Astfel, vom avea:
n dezvoltarea ultimei expresii s-a luat n considerare faptul c este un
scalar real.
2 2
1 1 2 2

( ) ( ... )
i i i i k ki
i i
S e y x x x | | | | = = =

)

( )'

( ) x '

(
2
i
| | | X Y X Y y
i
i
=


[min] ( ) ' ( ) '( ) ' ' ' ' . 2 ' S e e Y X Y X Y Y X Y X X
|
| | | | | | = = = +

' ' X Y |
3. Estimarea parametrilor prin MCMMP
Derivnd n raport cu avem:
Din ipoteza 5 matricea XX este nesingular, deci estimatorul vectorului parametrilor
modelului de regresie multipl este:
Dar atunci
Ultima expresie este pozitiv definit, deci soluia este punct de minim.

|

( ) [ ' 2 ' ' ' ' ] [ ' ' ]

2 ' 2 ' 2 ' 0

S Y Y X Y X X X X
X Y X Y X X
| | | | | |
|
| | |
c c + c
= = + = + =
c c c
.
1

( ' ) ' X X X Y |

=

( )

2 ' 2 '

S
X Y X X
|
|
|
c
= +
c
X X
S
' 2
'

)

(
2
=
c c
c
| |
|
Interpretarea parametrilor
Considerm modelul:
Atunci, dac x
0
, , x
i-1
, x
i
, , x
k
sunt constante se obine urmtoarea egalitate:
Interpretare
este rata marginal de substituie a variabilei endogene n raport cu variabila exogen X
1
arat cu cte uniti crete sau se micoreaz caracteristica Y, dac caracteristica X
1
se modific
cu Ax
1i
uniti, n condiiile n care celelalte caracteristici X
2
, , X
p
rmn constante.
n cazul n care variabilele endogene sunt necorelate, atunci semnul coeficientului fiecrei
variabile din modelul multiplu de regresie coincide cu semnul coeficientului din modelul
simplu de regresie de analiz al variabilei endogene funcie de fiecare variabil exogen n
parte.
i
i
x
y
A
A
= |
i
|

k k
x x x y | | |

...

1 1 0 0
+ + + =
Estimarea parametrilor modelului liniar
multifactorial
Modelul de regresie n eantion n form matricial este:
Y = XB + E
Estimatorii parametrilor se determin dup relatia:
Valorile previzionate:
Erorile:
Y X X X B ' ) ' (
1
=
XB Y =

Y Y E

=
Exemplul 1
Fie modelul liniar multifactorial de regresie:
Se fac n=13 observatii asupra celor trei variabile si se obtin
matricile:
Sa se determine estimatorii parametrilor ecuatiei de regresie si sa se
previzioneze ecuatia de regresie pentru x1=64 si x2=23
i i
x x y c | | o + + + =
2 2 1 1
|
|
|
.
|

\
|
=
4343 8452 205
8452 19828 452
205 452 13
' X X
|
|
|
.
|

\
|
=
38769
82495
2034
'Y X
Verificarea validitii modelului
multifactorial de regresie liniar
I. Testarea validitii modelului de regresie folosind
metoda analizei de varian
II. Determinarea msurii calitii ajustrii i intensitii
legturii ntre variabile
III. Testarea parametrilor modelului de regresie
IV. Verificarea ipotezelor modelului de regresie
I. Testarea validitii modelului de regresie
folosind metoda analizei de varian
Ipotezele testate:
H0: (influena variabilelor X nu este diferit de cea a factorilor
aleatori, deci modelul nu poate fi validat)
H1: (influena variabilelor exogene X este semnificativ mai mare
dect cea a factorilor aleatori)
Testul statistic F (Fisher):
Regula de decizie:
Dac F
calc
F
,k,n-k-1
, atunci se accept H0 i deci modelul nu este semnificativ
statistic;
Dac F
calc
> F
,k,n-k-1,
atunci se respinge H0, se accept H1, deci modelul este
semnificativ statistic (valid).
1 /
2 2
/
=
e x y
s s
1 /
2 2
/
>
e x y
s s
( ) ( )
1

2
2
2
2
/


= =

k n
y y
k
y y
s
s
F
i i i
e
x y
I. Testarea validitii modelului de regresie
folosind metoda analizei de varian
ANOVA
Sursa variaiei Variana
(suma ptratelor)
Gradele de
libertate
Dispersia corectat
(media ptratelor)
Statistica F
Datorat
regresiei
(explicat de
model)
Rezidual
(neexplicat de
model)
k
n-k-1
Total
n-1

=
=
n
i
i y
y y S
1
2
) (

=
=
n
i
i
x y
y y S
1
2
/
) (

=
=
n
i
i i e
y y S
1
2
) (
k
S
s
x y
x y
/
2
/
=
1
2

=
k n
S
s
e
e
1
2

=
n
S
s
y
y
2
2
/
e
x y
s
s
F =
II. Determinarea msurii calitii ajustrii
Pentru a msura calitatea ajustrii n cazul regresiei liniare
multifactoriale se calculeaz:
Coeficientul de determinaie (indicator relativ)
Abaterea medie ptratic (eroarea standard) a
reziduurilor (msur absolut a calitii ajustrii pe baza
regresiei n eantion)
Coeficientii liniari de regresie parial
II. Determinarea msurii calitii ajustrii
Coeficientul de determinaie:
ia valori n intervalul [0,1]
Este o msur a proporiei varianei explicate de model
Msoar intensitatea dependenei variabilei endogene de factorii de regresie
(variabilele exogene)
Valoarea coeficientului de determinaie sporete odat cu creterea numrului
variabilelor exogene folosite n definirea modelului de regresie
Coeficientul de determinaie ajustat: se ajusteaz coeficientul de
determinaie cu gradele de libertate
este ntotdeauna mai mic dect coeficientul de determinaie
y
e
y
x y
S
S
S
S
R = = 1
/
2
2
2
2
1
) 1 /(
) 1 /(
1
y
e
y
e
s
s
n S
k n S
R =


=
II. Determinarea msurii calitii ajustrii
Abaterea medie ptratic a erorilor n eantion este:
( )
1

1
1
2
2

=

= =

=
k n
y y
k n
S
s s
n
i
i i
e
e e
unde este un estimator nedeplasat al dispersiei reziduurilor
s
e
este util n compararea modelelor. Dac avem la dispoziie cteva modele
dintre care trebuie s alegem, cel mai potrivit a fi utilizat este cel pentru
care s
e
este mai sczut.
2
e
s
2
c
o
II. Determinarea msurii calitii ajustrii
Corelaia parial n eantion:
Studiaz intensitatea dependenei dintre variabila endogen i o parte din
variabilele exogene, n condiiile n care celelalte sunt cu aciune constant
n cazul a trei variabile y, x
1
i x
2
coeficientul corelaiei pariale dintre y i x
1
cnd
x
2
rmne constant se calculeaz dup relaia:
n cazul a patru variabile y, x
1
, x
2
i x
3
coeficientul corelaiei pariale dintre y i x
1
cnd x
2
i x
3
rmn constante se calculeaz dup relaia:
Pentru un model de regresie liniar cu p variabile independente, valoarea
coeficientului de corelaie liniar parial de ordin p-1 se calculeaz astfel:
) 1 )( 1 (
2 2
.
2 1 2
2 1 2 1
2 1
x x yx
x x yx yx
x yx
r r
r r r
r


=
) 1 )( 1 (
2
,
2
,
, , ,
.
2 3 1 2 3
2 3 1 2 3 2 1
3 2 1
x x x x yx
x x x x yx x yx
x x yx
r r
r r r
r


=
) 1 (
2
2
variabile .
+
=
p n t
t
r
i
i
alte yx
i
Exemplu: Dac se consider modelul de regresie
y
t
=|
1
x
1t
+ |
2
x
2t
+ |
3
x
3t
+ c
t
sunt reinute urmtoarele posibiliti pentru caracterizarea
gradului de dependen a caracteristicii endogene de variabilele
exogene ce definesc acest model:
Folosind coeficientul de determinare
Msurnd intensitatea dependenei dintre caracteristica endogen
i fiecare variabil exogen, prin coeficienii de corelaie liniar:
Msurnd intensitatea dependenei dintre caracteristica endogen
i fiecare variabil exogen, n condiiile n care celelalte variabile
sunt considerat cu aciune constant: , ,
II. Determinarea msurii calitii ajustrii
3 2 1
, x x yx
r
3 1 2
, x x yx
r
2 1 3
, x x yx
r
3 2 1
, ,
yx yx yx
r r r
III. Testarea parametrilor modelului
de regresie
Ipotezele:
Teorem: Dac notm [(X'X)
-1
ii
] este termenul (i, i) din matricea (XX)
-1
,
atunci dac sunt satisfcute ipotezele pe care se fundamenteaz modelul regresiei
multiple vom avea urmtoarele dou rezultate:
i
0 :
0 :
1
0
=
=
i
i
H
H
|
|
( )
1

(0,1).
X'X
i i
i
ii
z N
c
| |
o

=
(

) ) ' ( , (

1 2

ii i i
X X N
c
o | |
III. Testarea parametrilor modelului de
regresie
Proprietate: Dac sunt satisfcute ipotezele pe care se fundamenteaz
modelul regresiei multiple vom avea :
urmeaz o repartiie Student cu n-k grade de libertate.
Pentru un prag de semnificaie o, fixat
Regula de decizie: se respinge H
0
, deci
parametrul i este seminificativ
Intervalul de ncredere pentru parametrul |
i
:
1 , 2 /
<
k n calc
t t
o
1 , 2 /
>
k n calc
t t
o
( )
1
2 2

X'X .
i
e
ii |
o o

(
=

( )
1

'
i i
i
e
ii
t
X X
| |
o

=
(

( ) ( )
1 1
/ 2; / 2;

X'X X'X
i n k e i i n k e
ii ii
t t
o o
| o | | o


( (
s s +

2
e
s
e
s
e
s
e
s
Estimarea valorilor variabilei dependente
y k n
s t y
1 , 2 / 0

o
|

0
x Y =
) ) ' ( 1 (
0
1 '
0
2 2

X X X X s
Y

+ =
c
o
Valoarea punctual previzionat atunci cnd elementele vectorului x
0
sunt
fixate este:
Teorem: Dac notm [(X'X)
-1
ii
] termenul (i, i) din matricea (XX)
-1
i
dac sunt satisfcute ipotezele pe care se fundamenteaz modelul regresiei
multiple atunci variaia erorii de previziune este:
Intervalul de ncredere pentru valoarea previzionat este:
unde:
) ) ' ( 1 (
0
1 '
0
2 2

X X X X s s
e
Y

+ =
Exemplul 1
Nr.
familii
(X1)
Supr.comerciala
(X2)
Cifra de
afaceri (Y)
70 21 198
35 26 209
55 14 197
25 10 156
28 12 85
43 20 187
15 5 43
33 28 211
23 9 120
4 6 62
45 10 176
Exemplul 1 rezultate Excel:
Regression Statistics
Multiple R (R) 0,9251
R Square (R
2
) 0,8558
Adjusted R Square 0,8270
Standard Error (s
e
) 27,8500
Observations (n) 13

Interpretri:
R : legtura dintre Xi i Y este puternic.
R
2
: 85,6% din variaia lui Y este determinat de
influena lui X
1
,X
2
(este explicat de model)

Exemplul 1 rezultate Excel:
ANOVA
df SS MS F Significance F
Regression k = 2
2
/ x y
A = 46033,02
2
/ x y
s = 23016,51
F
calc
= 29,67 0,00006234
Residual n-k-1 = 10
2
e
A = 7756,21
2
e
s = 775,62

Total n-1 = 12
2
y
A = 53789,23


Interpretri:
Modelul de regresie este semnificativ statistic (valid) (adic se accept
H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%

Exemplul 1 rezultate Excel:
Coefficients
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept
a =
37,5023
s
a
=
17,6461
o
calc
t
=
2,1252 0,059496 -1,82 76,82
Nr. familii
b
1
=
1,4963
s
b1
=
0,5534
1 |
calc
t
=
2,7039 0,022165 0,26 2,73
Supr.com
b
2
=
4,2446
s
b2
=
1,0650
2 |
calc
t
=
3,9856 0,002578 1,87 6,62

Interpretri:
- Parametrul nu este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susine c este semnificativ) este de cel mult 100-5,95=94,05%<95%.
82 , 76 82 , 1 s s o

- Parametrul
1
este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susine c este semnificativ) este de cel mult 100-2,2=97,8%>95%
73 , 2 26 , 0 s s |

- Parametrul
2
este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susine c este semnificativ) este de cel mult 100-0,26=99,74%>95%
62 , 6 87 , 1 s s |

RESIDUAL
OUTPUT

Observation
Predicted Cifra
afaceri Residuals
1 231,38 -33,38
2 200,23 8,77
3 179,22 17,78
4 117,36 38,64
5 130,33 -45,33
6 186,74 0,26
7 81,17 -38,17
8 205,73 5,27
9 110,12 9,88
10 68,96 -6,96
11 147,28 28,72
12 101,39 15,61
13 274,10 -1,10

Exemplul 1 rezultate Excel:
Exemplu
Se consider modelul de regresie liniar ce descrie
legtura ntre:
variabila endogen: ritmul anual de modificare a consumului
final (y
i
)
variabilele exogene: ritmul anual de cretere a ctigului
salarial mediu (x
1i
) i rata inflaiei (x
2i
)
An
Rata
inflaiei
Ritmul anual de cretere a
salariului mediu
Ritmul anual de modificare a consumului
final
1995 32,3 48,9 10,8
1996 38,8 51,9 7
1997 155 96,8 -4,3
1998 59,1 64,9 1,1
1999 45,8 46,1 -2,5
2000 45,7 62,8 1,4
2001 34,5 41,2 6,3
2002 22,5 25,5 4,9
2003 15,3 27,7 6,9
2004 11,9 23,3 10,3