Documente Academic
Documente Profesional
Documente Cultură
-1-
Y X a
(2.2)
(T ,1) (T , k 1) (k 1,1) (T ,1)
unde:
y1 1 x11 ... xk1 x21 1
a0
y2 1 x12 ... xk 2 x21 2
... ... a ...
... ... ...
1
...
Y X a a2
yt 1 x1t ... xkt x2 t t
... ... ...
... ... ...
...
... a
y 1 x k
T ... xkT
1T x 2T T
Prima coloană a matricei X conţine doar valoarea 1, care corespunde coeficientului
a 0 . Astfel matricea X are T linii şi k+1 coloane (k variabile explicative plus
constanta).
-3-
aˆ ( X ' X ) 1 X ' Y
( X ' X ) 1 X ' ( Xa )
(2.6)
( X ' X ) 1 X ' ( Xa) ( X ' X ) 1 X '
a ( X ' X ) 1 X '
Dar cunoaştem că E ( ) 0 ,
E (aˆ ) a ( X ' X ) 1 X ' E ( ) a (2.7)
deci estimatorul este nedeplasat:
E (aˆ ) a (2.8)
Calculăm matricea varianţelor şi covarianţelor coeficienţilor modelului â :
aˆ E[( aˆ a)( aˆ a) 1 ] (2.9)
Din 2.6 avem :
aˆ a ( X ' X ) 1 X '
şi deci:
(aˆ a)' ' X ( X ' X ) 1
deoarece ( X ' X ) 1 este o matrice simetrică.
(aˆ a)(aˆ a)' ( X ' X ) 1 X ' ' X ( X ' X ) 1
de unde obţinem:
aˆ (aˆ a)( aˆ a)' ( X ' X ) 1 X ' E ( ' ) X ( X ' X ) 1 (2.10)
Notând cu: E ( ' ) matricea varianţelor şi covarianţelor lui şi ţinând cont
de ipotezele de homoscedasticitate (varianţa erorilor constantă) şi de independenţa
a erorilor, avem:
E ( 1 1 ) E ( 1 2 ) ... E ( 1 T ) 2 0 ... 0
E ( 2 1 ) E ( 2 2 ) ... E ( 2 T ) 0 2 ... 0
E ( ' )
... ... ... ... ... ... ... ...
E ( ) E ( ) ... E ( T T ) 0 0 0 2
T 1 T 2
de unde:
aˆ 2 ( X ' X ) 1 X ' X ( X ' X ) 1
aˆ 2 ( X ' X ) 1 (2.11)
Fără a prezenta aici calculele, se poate demonstra (vezi Dormont, 1999) că un
estimator nedeplasat al lui 2 este:
e' e
ˆ 2 (2.12)
T k 1
-4-
Înlocuind varianţa erorilor prin estimatorul său în expresia matricei de varianţe şi
covarianţe a coeficienţilor (2.11), obţinem:
ˆ ˆ ˆ 2 ( X ' X ) 1 (2.13)
a
Tot fără a demonstra aici, menţionăm că estimatorul obţinut prin aˆ ( X ' X ) 1 X ' Y
este BLUE (Best Linear Unbiased Estimator), adică este nedeplasat şi are varianţe
minime ale estimatorilor.
ˆ a2ˆ
(T k 1) 2 (2T k 1) ca fiind suma patratelor unei variabile aleatoare normale.
i
aˆ i
aˆi ai
Ca urmare, este raportul dintre o variabilă normală şi rădăcina patrată a
ˆ aˆi
unei variabile care urmează o distribuţie 2 , deci:
aˆi ai
Student(T k 1) (2.14)
ˆ aˆi
(aˆ a)' aˆ 1 (aˆ a) (2k 1)
1 ˆ ˆ1 (aˆ a) Fisher
(aˆ a)' ( k 1;T k 1)
k 1
a
t 1
t 0.
2) Media (suma) seriei variabilei endogene este egală cu media (suma) seriei
ajustate:
T T
y yˆ
t 1
t
t 1
t
yt yˆ t
Din aceste două relaţii putem deduce ecuaţia de analiză a varianţei:
T T T
( yt y ) 2 ( yˆt yˆ ) 2 et2
t 1 t 1 t 1
(2.20)
SPT SPE SPR
Suma patratelor totală (SPT) = Suma patratelor explicată (SPE) +
+ Suma patratelor reziduală (SPR)
Ecuaţia ne permite să apreciem global calitatea ajustării modelului. Aceasta
este cu atât mai bună cu cât varianţa (suma patratelor) reziduală este mai mică.
Pentru că valoarea ei depinde de unitatea de măsură a variabilei, preferăm un
parametru adimensionat:
T T
( yˆ t y ) 2 e 2
t
R2 t 1
T
1 T
t 1
(2.21)
(y
t 1
t y) 2
(y
t 1
t y) 2
care este de fapt raportul dintre varianţa explicată şi cea totală. R 2 se numeşte
coeficient de determinaţie, iar R coeficient de corelaţie liniară multiplă.
Ştim că dacă numărul de observaţii T este egal cu numărul de variabile
explicative plus constanta (k+1) funcţia trece prin toate punctele de coordonate
reprezentate de observaţii. Abaterile fiind nule, coeficientul de determinaţie va fi
egal cu 1, dar puterea explicativă a modelului este nulă. Atunci când numărul de
observaţii este relativ mic în raport cu numărul de variabile explicative calculăm un
R 2 corectat, pe care îl notăm cu R 2 :
T 1
R 2 1 (1 R 2 ) (2.22)
T k 1
Analiza varianţei permite estimarea semnificativităţii globale a modelului
de regresie. Testul se formulează astfel:
H 0 : a1 a2 ... ak 0
H1 : exista cel putin un coeficient nenul
-7-
Nulitatea termenului constant a 0 nu ne interesează, ci doar variabilele explicative.
Oricum, un model în care numai termenul constant este semnificativ nu are sens
economic. Dacă ipoteza H 0 este acceptată înseamnă că nu există nici o relaţie
liniară semnificativă între variabila endogenă şi cele explicative, adică SPE nu este
semnificativ diferită de 0. Pe baza ecuaţiei de analiză a varianţei:
T T T
(y
t 1
t y ) 2 ( yˆ t yˆ ) 2 et2
t 1 t 1
Se construieşte raportul:
T 2
( yˆ t y ) / k R2 / k
F* T t 1 (2.23)
2 (1 R 2 ) /(T k 1)
et /(T k 1)
t 1
Din ipoteza de normalitate e erorilor şi sub ipoteza H 0 rezultă că F * urmează o
distribuţie Fisher (fiind un raport între două variabile 2 ) cu k, respectiv T-k-1
grade de libertate.
F * Fisher( k ,T k 1) (2.24)
- dacă F* F(k ,T k 1) respingem ipoteza H 0 , modelul este global explicativ ;
- dacă F* F(k ,T k 1) acceptăm ipoteza H 0 , modelul nu este global explicativ.
-8-
« bărbat / femeie » sau « a mai avut / nu a mai avut accident ». Pentru a modela
astfel de fenomene apelăm la variabile indicatoare, care pot lua doar două valori: 0
sau 1. Modelul de regresie diferă după apariţia / neapariţia fenomenului doar prin
valoarea unui coeficient, iar ceilalţi coeficienţi rămân identici.
- în cazul existenţei fenomenului:
yt a0 a1 x1t a2 x2t ... ak xkt t t 1,..., T (2.25)
- în cazul inexistenţei fenomenului:
yt b0 a1 x1t a2 x2t ... ak xkt t t 1,..., T (2.26)
Putem scrie aceste două ecuaţii sub forma unei ecuaţii unice:
yt (b0 a0 ) Dt a1 x1t a2 x2t ... ak xkt t (2.27)
unde: Dt 1 atunci când fenomenul există ;
Dt 0 atunci când fenomenul nu există.
Se încorporează deci o variabilă explicativă suplimentară faţă de modelul iniţial şi
se aplică metodele clasice de estimare.
-9-
1
x1t 1
unde X t 1 x2t 1 este matricea (vectorul) valorilor variabilelor explicative
...
x
kt 1
pentru observaţia t 1 .
Expresia varianţei erorii de previziune a fost dată fără demonstraţie. Pentru
detalii privind deducerea ei vezi Dormont (1998).
Eroarea de previziune este distribuită normal de medie nulă şi varianţă e2t 1 :
et 1 N (0, e2t 1 )
Dacă înlocuim 2 cu estimatorul său:
T
1
ˆ 2
T k 1 t 1
et2
atunci:
yˆ t 1 yt 1
Student(T k 1) (2.32)
ˆ [1 X 't 1 ( X ' X ) 1 X t 1 ]
2
Ca şi la modelul liniar simplu, varianţa erorii de previziune este cu atât mai mică cu
cât varianţa reziduală este mai mică şi valorile variabilelor explicative se apropie
de mediile lor. Putem construi şi un interval de încredere pentru valoarea
previzionată a variabilei endogene:
Prob yˆt 1 tT/k21ˆ et 1 yt 1 yˆt 1 tT/k21ˆ et 1 1 (2.33)
unde:
T
1
ˆ e
t 1
T k 1 t 1
et2 1 X 't 1 ( X ' X ) 1 X t 1 (2.34)
Exerciţiul 2.1
Presupunem că o variabilă yt este influenţată de factorii x1t , x2t , x3t . Dispunem de
23 de observaţii cu privire la realizările acestor variabile.
Tabelul 2.2
Nr. yt x1t x2 t x3t Nr. yt x1t x2 t x3t
crt. crt.
1 163 669 17,4 69 13 295 869 10,3 67
2 381 872 10,5 75 14 256 824 17,5 88
- 10 -
3 455 1191 14,3 64 15 309 676 13,0 64
4 451 933 12,5 85 16 286 885 13,2 67
5 373 668 15,3 90 17 379 1179 11,8 60
6 321 733 13,8 61 18 425 1161 13,9 86
7 316 933 15,0 85 19 404 1074 11,5 64
8 410 1165 10,7 74 20 330 775 16,0 89
9 348 932 8,2 70 21 354 752 8,9 76
10 383 840 8,1 66 22 384 740 15,1 85
11 386 901 12,0 87 23 233 590 9,3 62
12 163 669 17,4 64
Se cere:
1) În ipoteza unei legături liniare multiple dintre yt şi factorii x1t , x2t , x3t să se
calculeze estimatorii parametrilor.
2) Să se testeze nulitatea fiecărui parametru.
3) Să se stabilească intervale de încredere la un prag de 95% pentru parametrii
modelului.
4) Să se testeze simultan nulitatea tuturor coeficienţilor din modelul de regresie.
5) Să se calculeze R 2 şi R 2 .
6) Să se construiască tabloul de analiză a varianţei şi testul Fisher adecvat.
7) Să se facă o previziune a lui yt 1 , dacă x1t 1 880 , x2t 1 12,5 , x3t 1 75 .
8) Să se compare precizia estimării prin regresia multiplă în raport cu regresia
simplă.
- 12 -
10 383 359.37 23.63
11 386 398.03 -12.03
12 163 205.01 -42.01
13 295 345.82 -50.82
14 256 319.95 -63.95
15 309 255.55 53.45
16 286 317.96 -31.96
17 379 389.26 -10.26
18 425 442.6 -17.6
19 404 377.34 26.66
20 330 326.72 3.28
21 354 358.54 -4.54
22 384 314.92 69.08
23 233 267.5 -34.5
23
e' e 1 1 23 2
ˆ 2 t 20
T k 1 T k 1 t 1
e 2
t 1
et
ˆ 2 2369,28
1
1 1 ... 1 1 669 17,4 69
ˆ ˆ ˆ ( X ' X ) 2494,055
669 872 ... 590 1 872 10 ,5 75
2 1
a
17,4 10,5 ... 9,3 ... ... ... ...
69 75 ... 62 1 590 9,3 62
- 13 -
Prob(aˆi tT/k21ˆ aˆi ai aˆi tT/k21ˆ aˆi ) 1
Prob(aˆ0 t190,025ˆ aˆ0 a0 aˆ0 t190,025ˆ aˆ0 ) 0,95
Prob(20,53 2,093 98,2693 a0 20,53 2,093 98,2693) 0,95
Prob( - 185,15 a0 226,21) 0,95
Pentru parametrul a1 :
aˆ1 0,2643
4,41 2,093
ˆ aˆ1 0,0035984
Acceptăm că a1 este semnificativ diferit de 0.
Intervalul de încredere (95%) pentru a1 este :
Prob( 0,1387 a1 0,3898) 0,95
Pentru parametrul a 2 :
aˆ 2 11,065
2,77 2,093
ˆ aˆ2 15,9129
Acceptăm că a 2 este semnificativ diferit de 0.
Intervalul de încredere (95%) pentru a 2 este :
Prob( - 19,414 a2 -2,715) 0,95
Pentru parametrul a3 :
aˆ3 3,1281
2,92 2,093
ˆ aˆ3 1,1486
Acceptăm că a3 este semnificativ diferit de 0.
Intervalul de încredere (95%) pentru a3 este :
Prob( 0,884 a3 5,371) 0,95
4) La latitudinea cititorului.
( yˆ t y ) 2 e 2
t
R2 t 1
T
1 T
t 1
(y
t 1
t y)2 (y
t 1
t y)2
- 14 -
T
e 2
t
47387,05
R2 1 T
t 1
1 0,6623
(y
140311,2
t 339,35) 2
t 1
23
SPR t2 47387,05
t 1
20
SPT ( yi y ) 2 140311,2
t 1
T 2
( yˆ t y ) / k R2 / k
F * Tt 1
2 (1 R 2 ) /(T k 1)
t e /(T k 1)
t 1
SPE / 3
F* 4,194
SPR / 19
Din tabelele cu distribuţia Fisher-Snedecor avem:
- 15 -
F(k ,T k 1) F(03,;05
19) 3,13
7) Previziunea punctuală a lui yt 1 , dacă x1t 1 880 , x2t 1 12,5 , x3t 1 75 este:
yˆ t 1 aˆ0 aˆ1 x1t 1 aˆ2 x2t 1 aˆ3 x3t 1
yˆ t 1 20,530 0,2643 880 11,065 12,5 3,1281 75
yˆ t 1 349,4
Sub formă generală, intervalul de încredere se scrie:
Prob yˆt 1 tT/k21ˆ et 1 yt 1 yˆt 1 tT/k21ˆ et 1 1
T
1
unde: ˆ et 1
T k 1 t 1
et2 1 X 't 1 ( X ' X ) 1 X t 1
X 't 1 ( X ' X ) 1 X t 1
1
1 1 ... 1 1 669 17,4 69 1
669 872 ... 590 1 872 10,5 75 880
1 880 12,5 75
17,4 10,5 ... 9,3 ... ... ... ... 12,5
69 75 ... 62 1 590 9,3 62 75
0,0453887
1 T 2 1
ˆ et 1
19 t 1
et (1 0,0453887)
19
47387,05 1,0453887 51,061
. regress Y X1 X2 X3
- 16 -
Source | SS df MS Number of obs = 23
---------+----------------------- F( 3, 19) = 12.42
Model | 92924.1 3 30974.7 Prob > F = 0.0001
Residual | 47387.0 19 2494.05 R-squared = 0.6623
-------------+------------------- Adj R-squared = 0.6089
Total | 140311.1 22 6377.78 Root MSE = 49.941
----------------------------------------------------------------
Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]
---------+------------------------------------------------------
X1 | .264256 .059987 4.41 0.000 .13870 .38981
X2 | -11.0651 3.98909 -2.77 0.012 -19.414 -2.715
X3 | 3.12806 1.07175 2.92 0.009 .88485 5.3712
_cons | 20.5296 98.2693 0.21 0.837 -185.15 226.20
----------------------------------------------------------------
. regress Y X1
----------------------------------------------------------------
Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]
---------+------------------------------------------------------
X1 | .294662 .071365 4.13 0.000 -49.187 .44307
_cons | 82.7220 63.4299 1.30 0.206 -185.15 214.63
----------------------------------------------------------------
. regress Y X2
- 17 -
----------------------------------------------------------------
Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]
---------+------------------------------------------------------
X2 | -10.470 5.54617 -1.89 0.073 -22.004 1.0633
_cons | 473.963 73.0252 6.49 0.000 322.098 625.82
----------------------------------------------------------------
. regress Y X3
----------------------------------------------------------------
Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]
---------+------------------------------------------------------
X3 | 1.94564 1.58919 1.22 0.234 -1.3592 5.2505
_cons | 195.708 118.474 1.65 0.113 -50.672 442.08
----------------------------------------------------------------
Fără a detalia calculele, prezentăm comparativ pentru cele trei modele simple şi
pentru modelul multiplu intervalele de încredere (95%) pentru estimarea variabilei
endogene.
Se observă o eroare limită mai mică la modelul multiplu şi deci o estimare mai
precisă a variabilei endogene. La modelele simple se observă o precizie cu atât mai
bună cu cât R 2 este mai mare. Acest fapt este perfect coerent, deoarece atât R 2 cât
şi eroare de estimare depind în bună măsură de varianţa reziduală.
- 18 -