Documente Academic
Documente Profesional
Documente Cultură
Econometrie 1 PDF
Econometrie 1 PDF
50
MODELUL REGRESIEI MULTIPLE
51
y1 1 x11 x 21 ... x k1 a0 1
y2 1 x12 x 22 ... x k 2 a1 2
... ... ... ... ... ... a ...
Y ; X ; a 2 ; .
yt 1 x1t x 2t ... x kt ... t
... ... ... ... ... ... ... ...
y 1 ... x kn a
n x1n x2n k n
n
x 1t x 2t ... x aˆ 0
y t
kt
x1t x x x x x 1t kt 1 x1t y t
aˆ
2
1t 1t 2t ...
x aˆ
2t x x x x x
2 t kt . 2 = x 2 t y t
2
...
2 t 1t 2t
... ... ... ... ... ... ...
...
x kt x x xkt aˆ xkt yt
2
kt x1t kt x 2t ...
k
sau altfel:
naˆ 0 aˆ1 x1t aˆ 2 x2t ... aˆ k xkt yt
aˆ 0 x1t aˆ1 x 2
1t aˆ 2 x1t x2t ... aˆ k x1t xkt x1t yt
aˆ 0 x2t aˆ1 x2t x1t aˆ 2 x22t ... aˆ k x2t xkt x2t yt
........................................................................................................................................................
aˆ 0 xkt aˆ1 xkt x1t aˆ 2 xkt x2t ... aˆ k xkt2 xkt yt
Modelul estimat poate fi scris astfel: yˆ t aˆ 0 aˆ1 x1t aˆ 2 x2t ... aˆ k xkt ,
52
iar variabila observată, în funcţie de model: yt aˆ 0 aˆ1 x1t aˆ 2 x2t ... aˆ k xkt et .
variabilei explicative, x2, de exemplu, modificată în ( x2t x2t ), iar toate celelalte k-
a) ipoteze stochastice
53
5. cov( xit , t ) 0 , erorile sunt independente de variabilele explicative, pentru orice
i=1,k;
b) ipoteze structurale
Yˆ Xaˆ
Pentru a arăta că estimatorii sunt nedeplasaţi este suficient să se demonstreze
că E (aˆ ) a .
Folosind formula de calcul a estimatorilor (1) şi ecuaţiile unui model liniar
multiplu prezentate se obţine:
â ( X X ) 1 X Y ( X X ) 1 X ( Xa ) ( X X ) 1 X ( Xa ) ( X X ) 1 X
(3)
a ( X X ) 1 X
atunci: E (aˆ ) a ( X X ) 1 X E ( ) a ,
pentru că prin ipoteză E ( t ) 0 . Estimatorii metodei celor mai mici pătrate sunt
Din relaţiile (4) rezultă: (aˆ a)(aˆ a) ( X X ) 1 X X ( X X ) 1 , iar matricea
de varianţă-covarianţă a estimatorilor, devine:
54
aˆ E[(aˆ a)(aˆ a)] ( X X ) 1 X E ( ) X ( X X ) 1 .
E ( 1 1 ) E ( 1 2 ) ... E ( 1 n ) 2 0 ... 0
E ( 2 1 ) E ( 2 2 ) ... E ( 2 n ) 0 2 ... 0
E ( ) 2 I .
... ... ... ... ... ... ... ...
E ( ) E ( ) ... E ( n n ) 0 ... 2
n 1 n 2 0
Atunci matricea de varianţă-covarianţă a estimatorilor, este:
aˆ 2 ( X X ) 1 X X ( X X ) 1 2 ( X X ) 1 .
Dispersia erorilor se poate estima nedeplasat prin dispersia reziduurilor:
ee
ˆ e2 .
n k 1
Se înlocuieşte varianţa erorilor prin estimatorul său şi se obţine o estimaţie a
ˆ ˆ ˆ 2 ( X X ) 1 .
matricii de varianţă-covarianţă a estimatorilor: a
Când numărul observărilor tinde spre +, varianţa reziduurilor tinde spre 0,
se spune că estimatorul â este convergent, de varianţă minimă.
( yt y ) 2 ( yˆ t y ) 2 ( yt yˆ t ) 2
t 1 t 1 t 1
( yˆ t y ) 2 ( yt yˆ t ) 2 e 2
t
dependente y. R 2 t 1
n
1 N 2 1 t 1
n
1 n
t 1
.
(y
t 1
t y) 2
(y
t 1
t y) 2
(y t 1
t y) 2
55
5. Exerciţiu – Modelul regresiei liniare multiple
56
Luna total consum pierderi retur capacit. fond IPC
distrib. comb. materiale mf. încarc. salarii (%)
(nr. pet) (€) (€) (%) (nr. pet) (€)
yt x1 x2 x3 x4 x5 x6
Nov-99 131.750 1.523 124 1,510 530 1.887 153.7
Dec-99 225.245 2.525 236 1,532 550 1.965 154.8
Ian-00 76.316 1.114 124 1,480 400 1.942 156.8
Feb-00 104.875 1.369 147 1,500 400 1.958 155.7
Mar-00 159.366 1.945 165 1,580 420 1.913 149
Apr-00 160.124 1.865 167 1,600 430 1.877 148.9
Mai-00 168.745 1.647 172 1,630 480 1.876 144
Iun-00 240.814 2.444 258 1,650 500 1.925 140.9
Iul-00 213.702 2.268 240 1,640 490 1.899 144.5
Aug-00 207.965 2.097 225 1,635 470 1.881 145.4
Sep-00 181.546 1.952 182 1,580 450 1.905 144.9
Oct-00 117.786 1.464 123 1,490 430 1.911 142.9
Nov-01 133.079 1.884 178 1,510 560 2.021 141.3
Dec-01 226.416 2.927 245 1,536 580 2.120 140.7
Ian-01 78.116 1.580 110 1,485 450 1.932 139.9
Feb-01 106.994 1.884 117 1,487 450 2.025 140
Mar-01 161.203 2.355 185 1,530 470 2.030 140.3
Apr-01 164.045 2.208 206 1,550 480 2.050 137.5
Mai-01 170.614 1.999 217 1,620 520 2.057 137.4
Iun-01 243.398 2.630 260 1,640 550 2.070 135.7
Iul-01 214.011 2.325 233 1,638 550 2.012 131.8
Aug-01 208.844 2.545 206 1,636 510 2.043 132.4
Sep-01 183.939 2.355 183 1,580 490 2.050 131.2
Oct-01 118.968 1.884 165 1,550 480 2.069 130.8
Tabelul 2.1. Indicatorii observaţi în perioada nov.99-dec.01, la firma Coca Cola
57
Evoluţia livrărilor de marfă în perioada
noiembrie 1999-decembrie 2001
300000
250000
numar pet 2l
200000
150000
100000
50000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
luni
3000
2500
euro €
2000
1500
1000
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna
58
În Figura 2.3 se prezintă evoluţia cronologică a a valorii daunelor lunare –
variabila x2.
260
240
220
200
euro
180
160
140
120
100
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna
1.65
1.60
%
1.55
1.50
1.45
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna
59
În Figura 2.4, graficul evoluţiei ponderilor lunare a mărfii returnate în total
livrări lunare -variabila x3, arată o evoluţie asemănătoare cu cea a livrărilor fizice de
marfă, dar se observă o pondere mai mare a returnărilor în lunile de vară, pentru că în
sezonul cald produsele se deteriorează mai rapid decât în cel rece.
Graficul din Figura 2.5 arată evoluţia capacităţii lunare de încărcare auto -
variabila x4.
550
număr peturi 2l
500
450
400
350
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna
2100
2050
euro
2000
1950
1900
1850
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna
Figura 2.6. Evoluţia salariilor medii lunare ale personalului angajat şi colaboratori
60
Ca şi celelalte variabile şi capacitatea lunară de transport are o evoluţie
asemănătoare cu cea a volumului mărfii livrate, fiind mai mare în lunile decembrie şi
iunie. Se observă valori mai mari în lunile noiembrie decât în iunie, vârful din
sezonul cald.
155
% faţă de aceeaşi luna
150
145
140
135
130
125
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
luna
61
Volumul mărfii livrate şi che ltuie lile cu combustibilul
300000
250000
150000
100000
50000
1000 1500 2000 2500 3000 3500
x1, valoare combustibil (euro)
250000
marfa livrată (nr. pet.)
200000
150000
100000
50000
100 120 140 160 180 200 220 240 260 280
62
Corelaţie ditre marfa livrată şi ponderea mărfii returnate
300000
250000
150000
100000
50000
1.45 1.50 1.55 1.60 1.65 1.70
Figura 2.10. Corelaţia dintre volumul mărfii livrate şi ponderea livrărilor returnate
lunar
Graficul din Figure 2.11. indică o legătură de aceeaşi natură directă, ca şi în
cazul variabilelor x1, x2 şi x3, adică pe măsură ce creşte volumul vânzărilor, creşte şi
capacitatea lunară, dar nu pe măsura necesităţilor, astfel încât norul de puncte
dispersat va indica o legătură de intensitate mai slabă. Forma legăturii poate fi
considerată liniară.
250000
marfa livrată (nr. pet.)
200000
150000
100000
50000
350 400 450 500 550 600
x4, capacitate de transport (nr. pet)
63
Corelaţie ditre marfa livrată şi fondul lunar de salarii
300000
250000
150000
100000
50000
1850 1900 1950 2000 2050 2100 2150
x5, fondul de salarii (euro)
În Figura 2.12, corelaţia dintre marfa lunar livrată şi fondul lunar de salarii
pentru personalul propriu şi colaboratori, este de slabă intensitate. Norul de puncte
este aproape paralel cu axa Ox, conducând fie la concluzia lipsei legăturii dintre
fondul de salarii şi volumul mărfii livrate, fie la existenţa unei legături de intensitate
slabă, mai degrabă de sens invers.
250000
marfa livrată (nr. pet.)
200000
150000
100000
50000
130 135 140 145 150 155 160
x6, IPC lunar (%)
64
Graficul din Figura 2.13 este singurul care indică o legătură inversă între
marfa vândută şi indicii preţurilor de consum, însemnând că livrările de băuturi
răcoritoare scad atunci când cresc indicii preţurilor de consum. Totuşi intensitatea
legăturii va fi slabă pentru că norul de puncte este destul de dispersat. Forma legăturii
poate fi considerată ca fiind liniară.
65
Vectorul â al estimatorilor parametrilor are dimensiunile: 7 linii şi o coloană (7, 1):
aˆ 0
aˆ1
aˆ
2
aˆ aˆ 3
aˆ
4
aˆ 5
aˆ 6
Dimensiunile masivelor sunt: Y X â e
(26, 1) = (26, 7) x (7, 1) + (26, 1)
Se formează masivele astfel prezentate şi se parcurg pe rând următorii paşi:
1. matricea transpusă X ,
2. matricea produs X X ,
3. inversa matricii produs X X ,
1
66
apasă simultan pe cele trei taste <Ctrl/ Shift/ Enter> şi se obţine instantaneu
matricea inversă.
4. Pentru a realiza matricea produs X X X trebuie să se cunoască dimensiunea
1
sa, pentru a putea selecta înainte de apelul funcţiei MMULT, blocul de celule
libere, care va primi rezultatul. Se ştie că matricea X X
1
este de dimensiune
(7,7), iar matricea X de (7,26), iar matricea produs va fi de dimensiunea (7,26).
Se selectează un bloc de 7 linii şi 26 de coloane, se apelează funcţia de înmulţire
şi se declară la array_1, matricea X X 1 , iar la array_2, matricea X . La
apăsarea tastelor <Ctrl/ Shift/ Enter> se obţine rezultatul dorit.
5. Pentru a obţine vectorul estimatorilor se înmulţesc matricile X X 1 X de
dimensiune (7,26) cu vectorul Y de dimensiune (26,1) şi se obţine â de
dimensiunea (7,1). Se selectează 7 celule libere pe o coloană şi 7 linii, se
apelează funcţia MMULT şi se declară în ordine matricele de înmulţit, se apasă
<Ctrl/ Shift/ Enter> şi se obţine vectorul estimatorilor:
- 278825.8
65.7
305.9
â 217262.8
103.2
- 123.4
760.8
Deoarece modelul este estimat pentru prima dată este de aşteptat să nu fie
corespunzător, chiar de la început. Dispersia reziduurilor este prea mare 93960182.
Înmulţirea unei constante, dispersia reziduurilor, cu matricea ( X X ) 1 se realizează
înmulţind constanta cu toate celulele matricii. Se scrie formula pentru elementul
67
matricii de pe poziţia (1,1) şi se blochează cu simbolul $, coloana şi linia adesei unde
se află ˆ e2 , apoi se copiază formula pentru toate celulele matricii rezultate. Pe
diagonala principală se află varianţele estimatorilor, iar abaterile acestora se obţin
extrăgând radicalul de ordinul 2. Se obţin urmăroarele abateri ale estimatorilor:
aˆ i
Pentru fiecare estimator se calculează raţia Student t aˆi , care se
ˆ aˆi
H0
H1 1- H1
2 2
- t1-/2 0 + t1-/2
-2.093 +2.093
Figura 2.14. Testarea raţiilor Student ale estimatorilor
68
estimatori sunt semnificativi diferiţi de 0, ipoteza alternativă, H1, pentru că
t aˆ4 2.093 .
e 2
t
verificare a valorii obţinute prin formula ˆ e2 t 1
.
n k 1
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9855
R Square 0.9712
Adj. R Sq. 0.9622
Std Error 9693.3
Observations 26
ANOVA df SS MS F Signific.F
Regression 6 6.028E+10 1.005E+10 106.931 1.31E-13
Residual 19 1.785E+10 93960182
Total 25 6.207E+11
Coeff. Std. Error t Stat P-value Low95% Upp95%
Intercept -278826 227794.29 -1.2240 0.2359 -755605 197953
X Variable 1 65.7 9.849 6.6741 0.0000 45.12 86.35
X Variable 2 305.9 124.501 2.4568 0.0238 45.29 566.46
X Variable 3 217262.8 69723.82 3.1160 0.0057 71329 363196
X Variable 4 103.2 57.436 1.7964 0.0884 -17.04 223.39
X Variable 5 -123.4 49.043 -2.5154 0.0210 -226.01 -20.71
X Variable 6 760.8 425.110 1.7896 0.0895 -129.01 1650.52
Tabelul 2.2. Tabela de regresie a modelului econometric iniţial cu şase variabile
factoriale
Se observă că valoarea coeficientului de determinaţie 0.9712 este apropiată
de 1, arătând că modelul liniar este valid explicând într-o proporţie de 97.12%
variaţia variabilei dependente y de variabilele explicative. Coeficientul de corelaţie
multiplă 0.9855 arată o corelaţie puternică între variabilele explicative şi cea
explicată. Valoarea testului Fisher indică o regresie global semnificativă,
Significance F, fiind foarte mică.
69
În partea a treia a tabelei de regresie, se regăsesc estimatorii obţinuţi prin
calcul matriceal, abaterile lor şi raţiile Student identice cu valorile calculate mai sus.
Valorile P-value, indică pragul de semnificaţie , de la care începând estimatorii se
pot considera semnificativ diferiţi de 0. Probabilitatea ca estimatorii să fie
semnificativi este de 1-. Se poate vedea că pentru â 0 , este de 23.6%, pentru â1 ,
70
Deşi indicatorii calităţii ajustării au valori puţin mai mici decât în modelul
anterior, totuşi nu s-a pierdut mult din calitatea ajustării: coeficientul de corelaţie
multiplă este 0.9818 indică o corelaţie puternică între variabilele explicative şi y,
coeficientul de determinaţie de 0.9639 arată validitatea modelului liniar, iar regresia
este global semnificativă, după testul Fisher din tabelul ANOVA. S-au câştigat, în
schimb, valori semnificative pentru toţi ceilalţi estimatori, care sunt semnificativ
diferiţi de 0, după cum indică raţiile Student, în comparaţie cu valoarea critică
/ 20.025
t 21grd.lib. 2.080 . Gradele de libertate sunt n-k-1, adică 26-4-1=21, unde k=4.
250000
200000
nr. peturi
150000
100000
50000
11.99
12.99
01.00
02.00
03.00
04.00
05.00
06.00
07.00
08.00
09.00
10.00
11.00
12.00
01.01
02.01
03.01
04.01
05.01
06.01
07.01
08.01
09.01
10.01
11.01
12.01
y yt luni
71
Regresia este global semnificativă, dar până nu se parcurg şi etapele unei
analize mai amănunţite, nu se poate stabili care este cel mai bun model. Modelul
final, trebuie să respecte ipotezele modelului general de regresie liniară: lipsa
autocorelaţiei erorilor, variabilele explicative, cât mai puţin autocorelate între ele.
72
medie, cu 159285 de peturi, iar creşterea cu 1 euro a fondului mediu net de salarii ale
personalului distribuitor generează o scădere a livrărilor lunare, în medie, cu 147 de
peturi. Se observă legătura inversă între livrările fizice şi fondul de salarii, care pe
graficul din Figura 2.12, nu se putea sesiza.
Dacă t ai t n/k21 , se respinge ipoteza nulă H0; se acceptă ipoteza alternativă
Dacă t ai t n/k21 , se acceptă ipoteza nulă H0; ai nu este semnificativ diferit de
73
t y x1 x2 x3 yt1 yt2
1 17 3 42 115 18 18
2 19 2 40 126 17 17
3 15 4 40 148 18 19
4 21 7 44 139 19 20
5 19 8 39 123 23 22
6 24 9 38 150 23 23
7 26 9 29 126 27 26
8 24 6 30 141 24 24
9 26 6 38 122 22 21
10 21 9 35 157 24 24
11 24 5 29 155 23 23
12 26 10 28 166 27 27
13 30 13 32 168 28 28
14 26 8 26 174 26 26
Tabelul 2.4. Datele referitoare la un agent economic
Soluţie:
30
25
mil. euro
20
15
10
0 2 4 6 8 10 12 14
x1 (nr. persoane)
74
Corelaţia dintre valoarea vânzărilor şi cheltuielile de
întreţinere a utilajelor
35
30
mil. euro 25
20
15
10
25 30 35 40 45
x2 (euro)
30
25
mil. euro
20
15
10
100 110 120 130 140 150 160 170 180
x3 (euro)
75
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.8383
R Square 0.7027
Adj. R Square 0.6135
Std. Error 2.5971
Observations 14
ANOVA df SS MS F Signif. F
Regression 3 159.4095 53.136 7.87 0.005
Residual 10 67.4477 6.745
Total 13 226.857
Coeff. Std Err t Stat P-value Lower 95% Upper 95%
Intercept 35.722 10.994 3.249 0.0087 11.226 60.219
X Variable 1 0.802 0.298 2.687 0.0228 0.137 1.467
X Variable 2 -0.3814 0.156 -2.435 0.0351 -0.730 -0.032
X Variable 3 -0.037 0.052 -0.714 0.492 -0.153 0.078
Tabelul 2.5. Tabela de regresie a modelului cu trei variabile explicative
Evoluţia vânzărilor
35
30
25
mil. euro
20
15
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14
y yt1 yt2 luni
76
aˆ i
Raţia Student pentru fiecare coeficient de regresie, calculată după formula t ai ,
ˆ aˆi
variaţiei variabilei y;
• t aˆ2 2.435 2.228 , rezultă că aˆ 2 0 , variabila x2 contribuie la explicarea
variaţiei variabilei y;
• t aˆ3 0.714 2.228 , rezultă că aˆ 3 0 , variabila x3 nu contribuie la
77
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.8292
R Square 0.6875
Adj. R Sq. 0.6307
Std Error 2.538
Observations 14
ANOVA df SS MS F Signif. F
Regression 2 155.97 77.99 12.10 0.0016
Residual 11 70.88 6.44
Total 13 226.86
Coeff. Std. Error t Stat P-value Low 95% Upp 95%
Intercept 29.143 5.85 4.976 0.0004 16.25 42.03
X Variable 1 0.715 0.26 2.685 0.0212 0.13 1.30
X Variable 2 -0.32811 0.134561 -2.4384 0.03292 -0.6243 -0.0319
Tabelul 2.6. Tabela de regresie a modelului cu două variabile explicative
Tabelul de analiză a varianţei, ANOVA este de forma celui din Tabelul 2.7:
78
Testul de semnificaţie globală a regresiei se formulează astfel: există cel puţin
o variabilă explicativă semnificativă?
Ipotezele sunt:
H0: a1 = a2 = ... = ak = 0 (toţi coeficienţii sunt nuli, nici o variabilă
explicativă nu îşi aduce contribuţia la explicarea variabilei y; termenul constant a0 nu
prezintă interes, deoarece un model în care numai termenul constant este
semnificativ, nu are sens economic.)
H1: exista cel puţin un coeficient nenul.
În cazul în care se acceptă H0 înseamnă că nu există nici o relaţie liniară
semnificativă între variabila y şi variabilele xi cu i=1,2, ..., k. Testarea H0 este
echivalentă cu a testa dacă varianţa SSE este semnificativ diferită de 0.
În cazul exerciţiului prezentat, tabelul de analiza varianţei pentru modelul cu
două variabile explicative, după eliminarea variabilei nesemnificative x3, este extras
din Tabelul 2.6, în Tabelul 2.8:
Natura df SS MS F Significance F
variaţiei
Regression 2 155.9733 77.98663 12.10223 0.001665
Residual 11 70.88389 6.44399
Total 13 226.8571
Tabelul 2.8. Tabelul ANOVA pentru modelul cu două variabile explicative
ipoteza alternativă, H1, deci regresia este global semnificativă, modelul este bine
construit. Valoarea calculată F* corespunde unui prag de semnificaţie de 0.16%,
mult mai mic decât 5%.
Şi regresia prezentată în Tabelul 2.5, cu trei variabile explicative, este global
semnificativă pentru că F3,105% 3.71 , iar valoarea calculată F*=7.87>3.71, pentru
79
SSE SST R 2 , iar SSR se poate exprima în funcţie de coeficientul de
SSR
nedeterminaţie: N 2 1 R 2 , SSR SST (1 R 2 ) .
SST
Înlocuind în formula statisticii F*, valorile astfel exprimate SSE şi SSR, se
R2 / k
simplifică cu SST şi rămâne astfel: F * .
(1 R 2 ) /( n k 1)
Pe lângă testul global de semnificaţie, se efectuează testele de semnificaţie
individuală a coeficienţilor pentru fiecare variabilă explicativă din model.
Calitatea ajustării se determină în funcţie de coeficientul de determinaţie:
SSE
R2 . Dacă R 2 1 înseamnă că varianţa totală SST, este aproape în întregime
SST
explicată de SSE, şi modelul este bine ales. Coeficientul de determinaţie multiplă:
.
H 1 : SSE SSE 0
1
80
( SSE SSE 1) /( k k 1 )
Se calculează: F * şi se compară cu Fkk1 ,nk 1 , unde k este
SSR /( n k 1)
numărul de variabile explicative, inclusiv cele adăugate din modelul cel mai
cuprinzător, iar k’ este numărul iniţial de variabile explicative, k’<k.
Regula de decizie este:
- F * Fkk ,nk 1 se acceptă H0, nu este nici o diferenţă între cele două modele şi
H 1 : SSR ( SSR SSR ) 0
1 2
81
- F * Fk1,n2( k 1) se acceptă H0, nu este nici o diferenţă între varianţa reziduurilor
Soluţie:
82
SST este evident aceeaşi, indiferent de numărul variabilelor explicative, pentru că
măsoară variaţia datorată tuturor factorilor (înregistraţi şi reziduali).
Se observă că R2=0.5186 este mai mic decât în cazul modelului iniţial, cu trei
variabile explicative.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.7202
R Square 0.5186
Adjusted R 0.4785
Square
Standard 3.0166
Error
Observations 14
ANOVA df SS MS F Signifi. F
Regression 1117.6589 117.6589 12.92975 0.0036
Residual 12109.1983 9.099855
Total 13226.8571
Coeff. Standard t Stat P-value Lower Upper
Error 95% 95%
Intercept 15.559 2.147 7.247 1.02E-05 10.882 20.237
X Variable 1 1.0118 0.281 3.596 0.003674 0.399 1.625
Tabelul 2.9. Tabele de regresie a modelului cu o singură variabilă explicativă
Cum 3.09 < 4.10, rezultă că se acceptă ipoteza nulă H0, adăugarea
variabilelor x2 şi x3 nu este importantă. Introducerea acestor variabile nu contribuie
semnificativ la îmbunătăţirea calităţii ajustării. S-a discutat deja mai sus, şi se poate
vedea în tabela de regresie din Tabelul 2.5, că variabila x3, nu este semnificativă,
deoarece raţia sa Student este mai mică decât valoarea teoretică, fapt care a condus
apoi la excluderea sa din model.
Este interesant să se analizeze, dacă introducerea unei singure variabile
suplimentare, şi anume x2, îmbunătăţeşte calitatea ajustării.
Se vor parcurge aceeaşi paşi, ca cei prezentaţi mai sus:
- calculul varianţei totale, a celei explicate şi a celei reziduale pentru modelul cu
două variabile explicative, x1 şi x2:
83
SSE=155.973
SSR= 70.884
SST=226.857
- calculul varianţei totale, a celei explicate şi a celei reziduale pentru modelul cu o
singură variabilă explicativă, x1. Tabela de regresie este în Tabelul 2.9.
SSE=117.659
SSR=109.198
SST=226.857
Valoarea calculată Fisher este:
( SSE SSE 1) /( k k 1 ) (155.973 117.659) /( 2 1)
F* 5.946
SSR /( n k 1) 70.884 /(14 2 1)
Cum 5.946 > 4.84, rezultă că se respinge ipoteza nulă H0, şi se acceptă
ipoteza alternativă, H1, conform căreia adăugarea variabilei x2 aduce o modificare
semnificativă a varianţei explicate. Introducerea variabilei x2 contribuie semnificativ
la îmbunătăţirea calităţii ajustării. Acest fapt este dovedit şi de valoarea
coeficientului de determinaţie, care în cazul modelului cu două variabile explicative
este R2=0.6875 mai mare decât în modelul cu o singură variabilă explicativă, x1,
R2=0.5186.
b) Testul Chow pentru verificarea stabilităţii în timp a modelului
Se va testa stabilitatea modelului cu trei variabile explicative.
Pasul 1: se estimează coeficienţii modelului pentru prima subperioadă, de la 1 la 7.
Tabela de regresie obţinută este prezentată în Tabelul 2.10.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.8322 subperioada 1
R Square 0.6926
Adj. R Sq. 0.3851
Std. Error 3.0176
Observations 7
ANOVA df SS MS F Significance F
Regression 3 61.5396 20.5132 2.2527 0.2610
Residual 3 27.3176 9.1059
Total 6 88.8571
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 28.5471 15.8986 1.7956 0.1704 -22.0494 79.1436
X Variable 1 0.7739 0.5290 1.4629 0.2397 -0.9097 2.4575
X Variable 2 -0.2932 0.3137 -0.9346 0.4189 -1.2914 0.7051
X Variable 3 -0.0125 0.1008 -0.1240 0.9091 -0.3333 0.3083
Tabelul 2.10. Tabela de regresie pentru prima subperioadă de la 1 la 7
84
Se observă în Tabelul 2.10, că nici unul din coeficienţii de regresie nu este
semnificativ diferit de 0, valorile P-value sunt mai mari decât pragul acceptat de
0.05, toate intervalele de încredere ale estimatorilor coeficienţilor schimbă semnul de
la – la +, deci conţin valoarea 0.
Nici testul Fisher nu indică o regresie global semnificativă, Significance F
având o valoare mult prea mare, 26.1% faţă de 5%, cât se acceptă în mod obişnuit.
Varianţele din tabelul ANOVA sunt:
SSE1=61.54
SSR1=27.32
SST2=88.86
Pasul 2: se estimează coeficienţii modelului pentru a doua subperioadă, de la 8 la 14;
tabela de regresie se află în Tabelul 2.11.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.7375 subperioada 2
R Square 0.5439
Adjusted R Square 0.0877
Standard Error 2.6282
Observations 7
ANOVA df SS MS F Significance F
Regression 3 24.7067 8.2356 1.1923 0.44423
Residual 3 20.7219 6.9073
Total 6 45.4286
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 63.1390 34.3309 1.8391 0.1632 -46.1175 172.3955
X Variable 1 1.2282 0.6852 1.7924 0.1710 -0.9525 3.4089
X Variable 2 -0.6208 0.5224 -1.188 0.3201 -2.2832 1.0416
X Variable 3 -0.1843 0.1528 -1.206 0.3142 -0.6707 0.3020
Tabelul 2.11. Tabela de regresie pentru a doua subperioadă de la 8 la 14
85
[ SSR ( SSR1 SSR 2 )] /( k 1)
F* .
( SSR1 SSR 2 ) /[ n 2(k 1)]
Cum 0.606 < 4.53, rezultă că se acceptă ipoteza nulă, H0, adică nu există
diferenţe semnificative între varianţa reziduurilor pe întreaga perioadă şi suma
varianţelor reziduale pe cele două subperioade.
Se poate accepta stabilitatea coeficienţilor pe întreaga perioadă.
86
1
x1,t h
X t h x 2 ,t h
...
x
k ,t h
Eroarea de previziune et h urmează o lege normală de medie 0 şi varianţă
yt h yˆ t h
reziduurilor ˆ 2 , se deduce că raportul:
ˆ [ X t h ( X X ) 1 X t h 1]
2
urmează o lege Student cu n-k-1 grade de libertate, unde k este numărul variabilelor
explicative din model. Intervalul de încredere pentru un prag de semnificaţie de ,
Soluţie:
87
1 1
X 15 3 , X 16 6 .
24 38
Se calculează ( X X ) 1 , fără a se considera şi valorile viitoare pentru lunile 15 şi 16,
ci numai numărul de observări ale celor două variabile explicative care intră în
estimarea modelului:
14 99 490
X X 99 815 3361 ;
490 3361 17600
88
Evoluţia vânzărilor, ajustarea si previziunea lor
35
30
mil. euro
25
20
15
10
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
y yt lim.inf. lim.sup. luni
În Figura 2.20 sunt prezentate valorile teoretice care ajustează seria iniţială şi
previziunile pentru urmăroarele două perioade, precum şi intervalul de încredere care
la cuprinde.
Pentru a putea reprezenta limitele inferioară şi superioară se crează două serii
de date identice cu cea ajustată şi se completează cu limitele inferioare, respectiv
superioare, ale celor două intervale de încredere.
Se are în vedere reprezentarea cu acelaşi tip de marcator ale celor trei serii:
ajustată, a limitelor inferioare şi a limitelor superioare ale intervalelor de încredere,
acestea două din urmă suprapunându-se peste valorile ajustate, până în luna a 14-a.
89
Rezumat
Aceast capitol prezintă modelul regresiei multiple, ipotezele de lucru,
estimarea coeficienţilor modelului, intervalele lor de încredere, testarea semnificaţiei
estimatorilor modelului, testarea semnificaţiei globale a regresiei, construirea de teste
pentru verificarea validităţii modelului şi a stabilităţii sale, previziunea cu modelul
regresiei multiple.
Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului.
Termeni importanţi
Model de regresie multiplă, estimatorii modelului de regresie multiplă,
ipotezele modelului de regresie multiplă, testul F de verificare a semnificaţiei globale
a regresiei, ANOVA, testul Chow
Întrebări recapitulative
1. Enumeraţi ipotezele modelului de regresie multiplă
2. Scrieţi modelul de regresie pe baza unei tabelei de regresie multiplă.
3. În ce constă testul Chow?
4. Cum stabiliţi daca estimatorii modelului sunt semnificativ diferiţi de zero?
5. Reprezentaţi tabelul de analiză a varianţei ANOVA si testul F pentru regresia
multiplă.
6. Cum se construiesc intervalele de încredere ale estimatorilor? Dar ale
valorilor previzionate?
7. Cum apreciaţi validitatea unui model de regresie multiplă?
Teme de casă
Parcurgeţi exemplele din curs utilizând calculatorul; realizaţi graficele şi tabela
de regresie.
Sa se stabilească matriceal estimatorii modelului de regresie multiplă.
90