Sunteți pe pagina 1din 21

Curs 10

MODELUL DE REGRESIE LINIAR MULTIFACTORIAL

1
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
 În multe situaţii, variabila rezultativă supusă studiului este determinată de mai mulţi
factori de influenţă

Exemple:
1. În medie ne-am aştepta ca la un nivel mai ridicat de educaţie, nivelul venitului să
crească:

venit = 0 + 1educaţie + 

Însă venitul depinde şi de vârstă:


venit = 0 + 1educaţie +2vârstă + 

2. (funcţia Cobb Douglas): Producţia = f(capital, forţă de muncă) + 

2
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

3. În analiza raportului dintre cererea şi oferta unui produs vom putea studia cantitatea
cerută pentru un anumit produs numai în funcţie de preţ, stabilind astfel un model
simplu de regresie:

qi = 0 + 1 pi + i

unde qi reprezintă cantitatea cerută, pi este preţul unitar, iar i este o variabilă reziduală
ce cuantifică influenţa altor variabile asupra cererii.

 Cererea dintr-un anumit produs este influenţată într-o mare măsură şi de alţi factori,
precum calitatea produselor, veniturile disponibile etc.

qi = 0 + 1 pi +2vi + i

unde i cuantificã venitul disponibil al populatiei.

3
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
Modelul regresiei multiple se prezintă sub forma ecuaţiei:

y = β0+1x1 + 2x2 + … + kxk + .

 În cazul acestei ecuaţii de regresie se identifică urmãtoarele variabilele:

 grupul de variabile exogene sau independente, ce se reprezintă sub


forma variabilei vectoriale X = (X1, X2, …, Xk ).

 o variabilă endogenă, notată prin Y.

4
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
Variaţia explicată
Variaţia explicată de X2
de X1 şi X2

X2
X1

Variaţia explicată Y Variaţia neexplicată


de X1
de X1 sau X2
5
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

X1 X2

6
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
 Se realizează o selecţie de volum n

 Pentru fiecare unitate i vom avea seria de valori xi1, xi2, …, xik

 Pentru fiecare variabilă ansamblul datelor observate pentru cele n unităti vor fi
reprezentate prin vectorul coloană xi cu i=1,…k

 Ansamblul datelor pentru variabilele exogene vor fi prezentate sub forma matricei:

 x11 x21 ... xk1 


x x22 ... xk 2 
X   x1 , x2 ,..., xk    12  M ( n,k ) .
 .... .... .... .... 
 
 x1n x2 n ... xkn 

 În cazul modelului liniar de regresie cu termen liber prima coloană a matricei de


mai sus este in fapt egală cu un vector cu n elemente egale cu 1

7
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
 Pentru cele n unităti sunt înregistrate valorile y1, y2, …, yn, ce reprezintă
elementele vectorului coloană y, deci valorile variabilei endogene vor fi
reprezentate prin:
 y1 
y 
y   2
 
 
 n
y

 Modelul de regresie este:


y = β0+ 1x1 + 2x2 + … + kxk + 

8
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
La nivelul eşantionului, modelul de regresie liniară multifactorială se scrie:

yi  b0  b1 xi1  b2 xi 2  ...  bk xik  ei i  1, n


cu componenta predictibilă:

yˆ i  b0  b1 xi1  b2 xi 2  ...  bk xik i  1, n


unde bj, (j=0,1,…,k) reprezintă estimatorul parametrului j

Modelul se poate scrie în formă matriceală astfel:

 y1   1 x11 x12 ...x1k   b0   e1 


       
 2 1
y x 21 x 22 ...x 2 k   1  2
b e
 ...    ... ... ... ...    ...    ... 
       
y  1  b  e 
 n  x n1 xn 2 ...x nk   k  n
n∙ 1 n ∙ (k+1) (k+1)∙1 n∙1

sau Y  X BE

9
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
B este vectorul coloană al estimatorilor bj, j=0,1,…,k de dimensiune (k+1,1).
E este vectorul coloană al variabilei aleatoare, de dimensiune (N,1)

Componenta predictibilă a modelului este: Yˆ  X  B

Reziduurile sunt definite ca: E  Y  Yˆ  Y  X  B

Estimarea parametrilor modelului se face cu MCMMP,adica se minimizeaza suma pătratelor abaterilor dintre

valorile reale, empirice (yi) şi valorile teoretice, ajustate, rezultate pe baza modelului ( ŷ i ), adică:
n
  yi ˆ i 2  minim sau
 y
i 1

n n n
S    yi  yˆi    e   yi  b0  b1xi1  b2 xi 2  ...  bk xik   minim
2 2 2
i
i 1 i 1 i 1

10
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
S
În urma derivării şi anulării derivatelor parţiale în raport cu “bj” (  0 , j  1, k ) se obţine un
bi
sistem de (k+1) ecuaţii normale cu (k+1) necunoscute, de forma:

nb0  b1  xi1  b2  xi 2  ...  bk  xik   yi


 i i i i
b x  b x 2  b x  x  ...  b x  x  x  y
 0 i1 1  i1 2  i1 i2 k  i1 ik  i1 i

 i i i i i

b0  xi 2  b1  xi1  xi 2  b2  xi 2  ...  bk  xi 2  xik   xi 2  yi


2

 i i i i i
................................................................................................

b0  xik  b1  xi1  xik  b2  xi 2  xik  ...  bk  xik   xik  yi
2

 i i i i i

11
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

Pentru fiecare din cele “n” unităţi de observare din eşantion, au loc egalităţile:
i=1 y1  b0  b1 x11  b2 x12  ...  bk x1k  e1

i=2 y 2  b0  b1 x21  b2 x22  ...  bk x2k  e2


..........................................................................................
i=n y n  b0  b1 xn1  b2 xn 2  ...  bk xnk  en

12
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial

Parametrii bj, j  1, k se numesc coeficienţi de regresie şi indică cu câte unităţi de măsură se

modifică variabila rezultativă Y, dacă variabila factorială Xj, j  1, k se modifică cu o


unitate, în condiţiile în care toţi ceilalţi factori rămân neschimbaţi (nivelurile lor sunt fixe,
constante).

Dacă un coeficient de regresie bj este pozitiv, atunci înseamnă că variabila exogenă Xj


influenţează în mod direct variabila endogenă Y, iar dacă semnul coeficientului de regresie bj
este negativ, între variabila factorială Xj şi cea rezultativă Y există o legătură inversă.

13
3. Estimarea parametrilor modelului liniar
multifactorial
 Modelul de regresie în eşantion în formă matricială este:
Y = XB + E
 Estimatorii parametrilor se determină după relatia:

B  ( X ' X ) 1 X ' Y

 Valorile previzionate: Yˆ  XB

Erorile:
E  Y  Yˆ

14
4. Validitatea modelului
 ANOVA
Sursa variaţiei Varianţa Gradele de Dispersia corectată Statistica F
(suma pătratelor) libertate (media pătratelor)

Datorată
n
SSR   ( yˆ i  y ) 2
regresiei k SSR
(explicată de MSR 
model) i 1 k MSR
Fcalc 
Reziduală n MSE
(neexplicată de SSE   ( yi  yˆ i ) 2 n-k-1
SSE
model) i 1 MSE ( Se2 ) 
n  k 1

Totală n –
SST   ( yi  y ) 2
n-1 SST
i 1
s y2 
n 1

15
4. Validitatea modelului
 Testarea parametrilor modelului de regresie

 Ipotezele: H 0 : i  0
H1 : i  0
 sb21 
 
bi   i bi  sb2 
 Testul statistic: t   unde sB2   2   se2  diag ( X ' X ) 1
sbi sbi  ... 
 2 
 sbk 

 Regula de decizie: tcalc  t / 2,nk 1  se respinge H0, deci


parametrul i este seminificativ
tcalc  t / 2,nk 1
16
Observaţii
 Coeficienţii de corelaţie parţială - caracterizează intensitatea legăturii
dintre două variabile, în ipoteza că celelalte variabile rămân constante.
 coeficientul de corelaţie parţială între Y şi X1, eliminând influenţa variabilei X2
este:
ryx1  ryx2  rx1x2
ryx1 / x2 
1  r  1  r 
2
yx2
2
x1 x2

 coeficientul de corelaţie parţială între Y şi X2, eliminând influenţa variabilei X1


este:

ryx2  ryx1  rx1x2


ryx2 / x1 
1  r 1  r 
2
yx1
2
x1 x2

17
Exemplu:
Nr.
familii Supr.comerciala Cifra de
(X1) (X2) afaceri (Y)
70 21 198
35 26 209
55 14 197
25 10 156
28 12 85
43 20 187
15 5 43
33 28 211
23 9 120
4 6 62
45 10 176
18
Exemplu – rezultate Excel:

Regression Statistics
Multiple R (R) 0,9251
R Square (R2) 0,8558
Adjusted R Square 0,8270
Standard Error (se) 27,8500
Observations (n) 13

Interpretări:
R : legătura dintre Xi şi Y este puternică.
R2 : 85,6% din variaţia lui Y este determinată de
influenţa lui X1,X2 (este explicată de model)
19
Exemplu – rezultate Excel:
ANOVA
df SS MS F Significance F
Regression k=2 46033,02 23016,51 Fcalc = 29,67 0,00006234
Residual n-k-1 = 10 7756,21 775,62
Total n-1 = 12 53789,23

Interpretări:
Modelul de regresie este semnificativ statistic (valid) (adică se acceptă
H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%

20
Exemplu – rezultate Excel:

Standard Lower Upper


Coefficients Error t Stat P-value 95% 95%
Intercept 37,5023 17,6461 2,1252 0,059496 -1,82 76,82

Nr. familii 1,4963 0,5534 2,7039 0,022165 0,26 2,73

Supr.com 4,2446 1,0650 3,9856 0,002578 1,87 6,62

Interpretări:
 Parametrul  0 nu este semnificativ, deoarece probabilitatea cu care se poate
accepta H1 (care susţine că este semnificativ) este de cel mult 100-
5,95=94,05%<95%.

 Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta


H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%

 Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta


H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%

21

S-ar putea să vă placă și