Sunteți pe pagina 1din 24

Econometrie 12 decembrie 2011

Facultatea de Comer, anul II, seria C


MODELUL
MULTIFACTORIAL
DE REGRESIE
Prof.univ.dr. Simona Ghi
Departamentul de Statistic i Econometrie
1. Specificarea i definirea modelului
multifactorial
n multe situaii, variabila rezultativ supus studiului este afectat,
determinat de mai muli factori de influen:
Specificarea unui model econometric se face pe baza teoriei
economice: fenomenul Y este precizat pe baza conceptelor,
definiiilor, a relaiilor cauz-efect, elaborate pe baza teoriei
economice; n acest fel se accept c Xi este un factor esenial, sau,
dimpotriv, el este trecut n categoria factorilor aleatori, prin
intermediul variabilei reziduale
Definirea modelului multifactorial:
Y = f(X
1
, X
2
, , X
k
) +
Realitatea = Teoria + ntmplarea
1. Specificarea i definirea modelului
multifactorial
Exemplul 1:
n medie ne-am atepta ca la un nivel mai ridicat de educaie, nivelul
venitului s creasc:
venit = f(educaie) +
Dar n acest caz nu se tine seama de faptul c venitul depinde i de
vrst:
Venit = f(educaie,vrst) +
Exemplul 2:
Consum = f(venit, pre, nr.membri) +
Exemplul 3 (funcia Cobb Douglas):
Producia = f(capital, for de munc) +
2. Identificarea modelului
multifactorial
Forma general a modelului liniar de regresie
multifactorial:
Y
i
=
0
+
1
X
i1
+
2
X
i2
+...+
k
X
ik
+
i
, cu i=1,...,n
unde:

0
= intercepia

j
(j=1,2,,k) panta ce arat legtura condiionat
ntre Y i X
j
, considernd c ceilali factori sunt
constani.
2. Identificarea modelului
multifactorial
Unde este vectorul coloan al variabilei endogene,
de dimensiune (n,1)
este matricea variabilelor exogene de
dimensiune (n,k+1)

+ + + + + =
+ + + + + =
+ + + + + =
n nk k n n n
k k
k k
x x x y
x x x y
x x x y



...
...
...
...
2 2 1 1 0
2 2 22 2 21 1 0 2
1 1 12 2 11 1 0 1
|
|
|
|
|

\
|
=
n
y
y
y
Y
...
2
1
|
|
|
|
|

\
|
=
` ` 2 ` 1
2 22 21
1 12 11
... 1
... ... ... ...
... 1
... 1
nk n n
k
k
x x x
x x x
x x x
X
2. Identificarea modelului
multifactorial
este vectorul coloan al parametrilor
j
, j=0,1,,k
de dimensiune (k+1,1).
vectorul coloan al variabilei aleatoare, de
dimensiune (n,1)
Prin urmare, modelul liniar multifactorial se scrie:
Y = X +
|
|
|
|
|

\
|
=
k

...
1
0
|
|
|
|
|

\
|
=
n

...
2
1
3. Ipotezele modelului liniar multifactorial
1. Media erorilor este zero: ()=0 (Y) = X
2. Homoscedasticitatea: dispersia reziduurilor este constant i
nenul.
3. Non-autocorelarea erorilor: cov(, )=0
4. Necorelarea ntre variabila indep. i erori: cov(,X)=0
5. Normalitatea erorilor:
i
N(0,
2
)
6. Matricea X este de rang k cu coloane independente dou cte
dou. Altfel spus, o variabil independent Xj nu poate fi
exprimat ca o combinaie liniar perfect a celorlalte variabile
independente; deci nu exist un set de numere: d
0
,d
1
,...d
k
, astfel
nct: d
0
+d
1
x
i1
+...+d
k
x
ik
=0 (multicoliniaritate perfect).
4. Estimarea parametrilor modelului
liniar multifactorial
Observaii
dac lum n consideraie o variabil dependent (Y) i
dou variabile independente (X
1
i X
2
), modelul de
regresie multipl liniar n colectivitatea general este:
n eantion:
y
i
= a + b
1
x
i1
+ b
2
x
i2
+ e
i
a reprezint intercepia;
b
1
este panta care ne arat legtura condiionat ntre Y i
X
1
, considernd c X
2
este fixat;
b
2
este panta care ne arat legtura condiionat ntre Y i
X
2
, considernd X
1
fixat.
i i i i
X X Y + + + =
2 2 1 1
Observaii
Dac modelul este liniar, atunci:
Coeficienii b
1
i b
2
sunt numii coeficieni de regresie
pariali
Pe baza datelor din eantion:
Ecuaia de regresie multipl n acest caz - cnd sunt luate
n consideraie dou variabile factoriale - genereaz un
plan de regresie:
( )
i 2 2 i 1 i 1 i 2 2 i 1 1 i
X X X X , X X | Y + + = = =
2 2 1 1

i i i
x b x b a y + + =
Observaii
o
y
x
1
x
2
{
y
i i

i
y
i
Plan de regresie cu o variabil dependent (Y) i
dou variabile independente (X
1
i X
2
)
Observaii
Aplicnd metoda celor mai mici ptrate:
( ) min y y L
n
1 i
2
i i

=
=

= + +
= + +
= + +



i
i i
i
i
i
i i
i
i
i
i i
i
i i
i
i
i
i
i
i
i
i
i
i
y x x b x x b x a
y x x x b x b x a
y x b x b na
2
2
2 2 2 1 1 2
1 2 1 2
2
1 1 1
2 2 1 1
Testarea validitii modelului de regresie
folosind metoda analizei de varian
Ipotezele testate:
H0: MSR=MSE (influena variabilelor X nu este diferit de cea a factorilor
aleatori, deci modelul nu poate fi validat)
H1: MSR > MSE (influena variabilelor exogene X este semnificativ mai mare
dect cea a factorilor aleatori)
Testul statistic F (Fisher):
Regula de decizie:
Dac F
calc
F
,k,n-k-1
, atunci se accept H0 i deci modelul nu este semnificativ
statistic;
Dac F
calc
> F
,k,n-k-1,
atunci se respinge H0, se accept H1, deci modelul este
semnificativ statistic (valid).
( ) ( )
1

1
:
2
2


=

= =

k n
y y
k
y y
k n
SSE
k
SSR
MSE
MSR
F
i i i
calc
I. Testarea validitii modelului de regresie
folosind metoda analizei de varian
Surs vari aiei Suma ptratelor
(SS-Sum of Squares)
Grade de li bertate
(df- degree of
freedom)
Media ptratel or
(MS- Mean of
Squares)
Testul Fisher
(testul F)
Datorat
regresiei
(Regression)

( )

=
=
n
i
i
y y SSR
1
2

k
k
SSR
MSR =
MSE
MSR
Fcalc =
Rezi dual
(Residual)
( )

=
=
n
i
i i
y y SSE
1
2

n k 1
1
=
k n
SSE
MSE

Total
(Total) ( )

=
=
n
i
i
y y SST
1
2

n 1
1
=
n
SST
MST

Testarea semnificatiei parametrilor
modelului de regresie
Testarea parametrilor modelului de regresie
Ipotezele:
Testul statistic: unde
Regula de decizie: se respinge H0, deci
parametrul i este seminificativ
0 :
0 :
1
0

=
i
i
H
H

i i
b
i
b
i i
s
b
s
b
t =

=

1 2
2
2
2
2
) ' (
...
2
1

=
|
|
|
|
|
|

\
|
= X X diag s
s
s
s
s
e
b
b
b
B
k
1 , 2 /
<
k n calc
t t

1 , 2 /
>
k n calc
t t

Estimarea valorilor variabilei dependente


( )
0
1
'
0 1 , 2 / 0
' 1 X X X X s t y
e k n


0
x Y =
Valoarea punctual previzionat atunci cnd elementele vectorului x
0
sunt
fixate este:
Intervalul de ncredere pentru valoarea previzionat este:
Observaii
Pentru a studia intensitatea legturii dintre o caracteristic
dependent (Y) i mai multe caracteristici independente utiliznd
metoda corelaiei:
Raportul de corelaie multipl:
Ptratul raportului de corelaie multipl este coeficientul de
determinaie multipl (R
2
). El arat proporia din variaia total a
varia-bilei Y, care este explicat de variabilele independente X
1
, X
2
, ...,
X
k
.
( )
( )
( )
( )


=
=
=
=
=
n
1 i
2
i
n
1 i
2
i i
n
1 i
2
i
n
1 i
2
i
k 2 1
y y
y y
1
y y
y y
x ..., , x , x , Ry
k , 1 j | r | x ..., , x , x , Ry
j
yx k 2 1
= >
Observaii
Testarea semnificaiei raportului de corelaie multipl se poate face utiliznd
statistica F:
unde k reprezint numrul variabilelor independente.
Dac:
F
calc.
> F
, k, n-k-1
se accept ipoteza conform creia variabilele X
1
, X
2
, ..., X
k
au o
influen semnificativ asupra variabilei rezultative, Y.
numrul de uniti statistice pentru care se culeg datele (n), trebuie s fie mai
mare cu cel puin 2 dect numrul variabilelor independente considerate (k).
2
2
R 1
R
k
1 k n
F

Observaii
coeficienii de corelaie parial - caracterizeaz intensitatea legturii
dintre dou variabile, n ipoteza c celelalte variabile rmn constante.
coeficientul de corelaie parial ntre Y i X
1
, eliminnd influena variabilei X
2
este:
coeficientul de corelaie parial ntre Y i X
2
, eliminnd influena variabilei X
1
este:
( ) ( )
2 2
2 1 2
2 1 2 1
2 1
1 1
x x yx
x x yx yx
x yx
r r
r r r
r


=

( )( )
2
x x
2
yx
x x yx yx
x yx
2 1 1
2 1 1 2
1 2
r 1 r 1
r r r
r


=

Exemplu:
Nr.
familii
(X1)
Supr.comerciala
(X2)
Cifra de
afaceri (Y)
70 21 198
35 26 209
55 14 197
25 10 156
28 12 85
43 20 187
15 5 43
33 28 211
23 9 120
4 6 62
45 10 176
Exemplu rezultate Excel:
Regression Statistics
Multiple R (R) 0,9251
R Square (R
2
) 0,8558
Adjusted R Square 0,8270
Standard Error (s
e
) 27,8500
Observations (n) 13

Interpretri:
R : legtura dintre Xi i Y este puternic.
R
2
: 85,6% din variaia lui Y este determinat de
influena lui X
1
,X
2
(este explicat de model)

Exemplu rezultate Excel:
ANOVA
df SS MS F Significance F
Regression k = 2 SSR = 46033,02 MSR = 23016,51 F
calc
= 29,67 0,00006234
Residual n-k-1 = 10 SSE = 7756,21 MSE = 775,62
Total n-1 = 12 SST = 53789,23

Interpretri:
Modelul de regresie este semnificativ statistic (valid) (adic se accept
H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%

Exemplu rezultate Excel:
Coefficients
Standard
Error t Stat P-value
Lower
95%
Upper
95%
Intercept
a =
37,5023
s
a
=
17,6461

calc
t
=
2,1252 0,059496 -1,82 76,82
Nr. familii
b
1
=
1,4963
s
b1
=
0,5534
1
calc
t
=
2,7039 0,022165 0,26 2,73
Supr.com
b
2
=
4,2446
s
b2
=
1,0650
2
calc
t
=
3,9856 0,002578 1,87 6,62

Interpretri:
Parametrul nu este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susine c este semnificativ) este de cel mult 100-5,95=94,05%<95%.
82 , 76 82 , 1

Parametrul
1
este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susine c este semnificativ) este de cel mult 100-2,2=97,8%>95%
73 , 2 26 , 0

Parametrul
2
este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susine c este semnificativ) este de cel mult 100-0,26=99,74%>95%
62 , 6 87 , 1

RESIDUAL
OUTPUT

Observation
Predicted Cifra
afaceri Residuals
1 231,38 -33,38
2 200,23 8,77
3 179,22 17,78
4 117,36 38,64
5 130,33 -45,33
6 186,74 0,26
7 81,17 -38,17
8 205,73 5,27
9 110,12 9,88
10 68,96 -6,96
11 147,28 28,72
12 101,39 15,61
13 274,10 -1,10

Exemplu rezultate Excel:

S-ar putea să vă placă și