Documente Academic
Documente Profesional
Documente Cultură
Curs 9 Regresie Multifactoriala
Curs 9 Regresie Multifactoriala
1
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
◼ În multe situaţii, variabila rezultativă supusă studiului este determinată de mai mulţi
factori de influenţă
Exemple:
1. În medie ne-am aştepta ca la un nivel mai ridicat de educaţie, nivelul venitului să
crească:
venit = 0 + 1educaţie +
2
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
3. În analiza raportului dintre cererea şi oferta unui produs vom putea studia cantitatea
cerută pentru un anumit produs numai în funcţie de preţ, stabilind astfel un model
simplu de regresie:
qi = + ·pi + i
unde qi reprezintă cantitatea cerută, pi este preţul unitar, iar i este o variabilă reziduală
ce cuantifică influenţa altor variabile asupra cererii.
◼ Cererea dintr-un anumit produs este influenţată într-o mare măsură şi de alţi factori,
precum calitatea produselor, veniturile disponibile etc.
qi = 0 + 1 pi +2vi + i
3
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
Modelul regresiei multiple se prezintă sub forma ecuaţiei:
4
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
Variaţia explicată
Variaţia explicată de X2
de X1 şi X2
X2
X1
X1 X2
6
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
◼ Se realizează o selecţie de volum n
◼ Pentru fiecare unitate i vom avea seria de valori xi1, xi2, …, xik
◼ Pentru fiecare variabilă ansamblul datelor observate pentru cele n unităti vor fi
reprezentate prin vectorul coloană xi cu i=1,…k
◼ Ansamblul datelor pentru variabilele exogene vor fi prezentate sub forma matricei:
7
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
◼ Pentru cele n unităti sunt înregistrate valorile y1, y2, …, yn, ce reprezintă
elementele vectorului coloană y, deci valorile variabilei endogene vor fi
reprezentate prin:
y1
y
y = 2
n
y
8
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
La nivelul eşantionului, modelul de regresie liniară multifactorială se scrie:
sau Y = X B+ E
9
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
B este vectorul coloană al estimatorilor bj, j=0,1,…,k de dimensiune (k+1,1).
E este vectorul coloană al variabilei aleatoare, de dimensiune (N,1)
Estimarea parametrilor modelului se face cu MCMMP,adica se minimizeaza suma pătratelor abaterilor dintre
valorile reale, empirice (yi) şi valorile teoretice, ajustate, rezultate pe baza modelului ( ŷ i ), adică:
n
( yi ˆ i )2 → minim sau
− y
i =1
n n n
S = ( yi − yˆi ) = e = yi − (b0 + b1xi1 + b2 xi 2 + ... + bk xik ) → minim
2 2 2
i
i =1 i =1 i =1
10
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
S
În urma derivării şi anulării derivatelor parţiale în raport cu “bj” ( = 0 , j = 1, k ) se obţine un
bi
sistem de (k+1) ecuaţii normale cu (k+1) necunoscute, de forma:
i i i i i
i i i i i
................................................................................................
b0 xik + b1 xi1 xik + b2 xi 2 xik + ... + bk xik = xik yi
2
i i i i i
11
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
Pentru fiecare din cele “n” unităţi de observare din eşantion, au loc egalităţile:
i=1 y1 = b0 + b1 x11 + b2 x12 + ... + bk x1k + e1
i=2 y 2 = b0 + b1 x 21 + b2 x 22 + ... + bk x 2 k + e2
..........................................................................................
i=n y n = b0 + b1 x n1 + b2 x n 2 + ... + bk x nk + en
12
1. Specificarea, definirea şi identificarea
modelului liniar multifactorial
13
3. Estimarea parametrilor modelului liniar
multifactorial
◼ Modelul de regresie în eşantion în formă matricială este:
Y = XB + E
◼ Estimatorii parametrilor se determină după relatia:
B = ( X ' X ) −1 X ' Y
◼ Valorile previzionate: Yˆ = XB
Erorile:
E = Y − Yˆ
◼
14
2. Ipotezele modelului liniar multifactorial
1. Y = X +
2. Media zero a erorilor: μ()=0 μ(Y) = X
3. Homoscedasticitatea: cov(’)=2I
4. Necorelarea între variabila independentă şi erori: cov(,X)=0
5. Matricea X este de rang k cu coloane independente două câte două
6. Normalitatea erorilor: N(0,2I)
15
4. Validitatea modelului
◼ ANOVA
Sursa variaţiei Varianţa Gradele de Dispersia corectată Statistica F
(suma pătratelor) libertate (media pătratelor)
Datorată
n
SSR = ( yˆ i − y ) 2
regresiei k SSR
(explicată de MSR =
model) i =1 k MSR
Fcalc =
Reziduală n MSE
(neexplicată de SSE = ( yi − yˆ i ) 2 n-k-1
SSE
model) i =1 MSE ( Se2 ) =
n − k −1
Totală n –
SST = ( yi − y ) 2
n-1 SST
i =1
s y2 =
n −1
16
4. Validitatea modelului
◼ Testarea parametrilor modelului de regresie
◼ Ipotezele: H 0 : i = 0
H1 : i 0
sb21
bi − i bi sb2
◼ Testul statistic: t = = unde s B2 = 2 = se2 diag ( X ' X ) −1
sbi sbi ...
2
sbk
18
Exemplu:
Nr.
familii Supr.comerciala Cifra de
(X1) (X2) afaceri (Y)
70 21 198
35 26 209
55 14 197
25 10 156
28 12 85
43 20 187
15 5 43
33 28 211
23 9 120
4 6 62
45 10 176
19
Exemplu – rezultate Excel:
Regression Statistics
Multiple R (R) 0,9251
R Square (R2) 0,8558
Adjusted R Square 0,8270
Standard Error (se) 27,8500
Observations (n) 13
Interpretări:
R : legătura dintre Xi şi Y este puternică.
R2 : 85,6% din variaţia lui Y este determinată de
influenţa lui X1,X2 (este explicată de model)
20
Exemplu – rezultate Excel:
ANOVA
df SS MS F Significance F
Regression k=2 SSR= 46033,02 MSR= 23016,51 Fcalc = 29,67 0,00006234
Residual n-k-1 = 10 SSE= 7756,21 MSE= 775,62
Total n-1 = 12 SST= 53789,23
Interpretări:
Modelul de regresie este semnificativ statistic (valid) (adică se acceptă
H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%
21
Exemplu – rezultate Excel:
Interpretări:
• Parametrul α nu este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-5,95=94,05%<95%.
− 1,82 76,82
• Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%
0,26 2,73
• Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%
1,87 6,62 22