Sunteți pe pagina 1din 24

UNITATEA DE ÎNVĂȚARE 3

Tema MULTICOLINIARITATEA ŞI SELECŢIA VARIABILELOR


EXPLICATIVE

Obiectivele 1. Corelaţia parţială, în modelele econometrice


1.1. Calculul coeficienţilor de corelaţie parţială
1.2. Exerciţiu – Calculul coeficienţilor de corelaţie parţială
2. Multicoliniaritatea
2.1. Consecinţele multicoliniarităţii
2.2. Detectarea multicoliniarităţii
2.3. Remedierea multicoliniarităţii
3. Selecţia variabilelor explicative
3.1. Exerciţiu – Metode de selecţie a variabilelor explicative
Finalitatea - 1. Estimarea coeficienţilor de corelaţie parţială
Competenţe 2. Eliminarea din modelul de regresie multiplă a variabilelor explicative
dobândite multicoliniare
3. Cunoaşterea şi aplicarea metodelor de selecţie a variabilelor explicative
Mijloace
- citire/învăţare

- întrebări, probleme ce apar, explicaţii

- definiţii, explicaţii ce trebuie reţinute

- situaţii economice concrete, supuse analizei, exemple (sub lupă)

- teme de casă, aplicaţii practice pentru studenţi


Evaluarea - parcurgerea aplicaţiilor propuse
Timp de lucru 1. Pentru cunoaşterea problemei: 3 ore
necesar 2. Pentru rezolvarea temelor: 4 ore + timpul de documentare

91
MULTICOLINIARITATEA ŞI SELECŢIA

VARIABILELOR EXPLICATIVE

În construirea unui model, se caută o combinaţie optimă de variabile


explicative, care să maximizeze coeficientul de corelaţie multiplă cu seria variabilei
explicate, şi care să fie în acelaşi timp cât mai puţin corelate între ele.

1. Corelaţia parţială, în modelele econometrice

Coeficienţii de corelaţie parţială permit determinarea aportului


fiecărei variabile exogene la explicarea variabilei endogene. De exemplu, pentru
modelul cu două variabile explicative:
yt = a0 + a1x1t + a2x2t + t , se pot calcula:
- coeficienţi de corelaţie simplă:
- ryx1, între y şi x1,
- ryx2, între y şi x2,
- rx1x2, între x1 şi x2;
- coeficienţi de corelaţie parţială:
- ryx1.x2, între y şi x1, când influenţa lui x2 este retrasă (menţinută
constantă),
- ryx2.x1, între y şi x2, când influenţa lui x1 este retrasă (menţinută
constantă).
Coeficientul de corelaţie parţială măsoară legătura dintre două variabile în
timp ce influenţa celei de a treia este menţinută constantă (retrasă).
Coeficienţii de corelaţie parţială se interpretează la fel ca şi coeficienţii de
corelaţie simplă. Coeficienţii de corelaţie parţială se situează în intervalul -1, 1.
Valorile apropiate de 1arată o corelaţie parţială mare, iar valorile apropiate de 0, o
corelaţie parţială mică. Cu cât un coeficient de corelaţie parţială este mai mare cu atât
contribuţia variabilei respective este mai importantă la explicarea globală a
modelului.

92
Coeficientul de determinaţie parţială are expresia r2yx1.x2, de exemplu, şi
semnifică proporţia din variaţia variabilei y neexplicată de variabila x2, care este
explicată prin considerarea variaţiei variabilei x1.
Explicarea grafică a coeficienţilor de corelaţie poate contribui la mai buna
înţelegere a conţinutului lor. Fie un model cu două variabile explicative:
yt  â0  â1 x 1t  â2 x 2t  et .
În Figura 3.1 se prezintă trei situaţii posibile de interacţiune între variabila
dependentă y şi cele două variabile explicative considerate în model: variabilele x1 şi
x2 sunt independente între ele şi fiecare influenţează variaţia variabilei y, cazul a); în
cazul b) variabilele x1 şi x2 sunt interdependente, ambele pot influenţa variabila y, sau
numai una din ele, care la rândul ei se afă în interdependenţă cu cealaltă variabilă
explicativă. Se spune despre variabile că sunt coliniare; se poate manifesta
fenomenul de multicoliniaritate.

y x2 y y

x2
x1 x1 x1
x2

a) Variabilele x1, x2 sunt b) Variabilele x1, x2 sunt corelate


independente între ele (coliniare)

Figura 3.1. Reprezentarea grafică a unor tipuri de relaţii între variabile

În cazul a) se pot calcula coeficienţi de corelaţie simplă: ryx1 - între y şi x1 şi


ryx2 - între y şi x2. Coeficientul de determinaţie este în acest caz: R2yx1x2 = r2yx1 + r2yx2,

iar coeficientul de corelaţie multiplă este: R yx1x 2  ryx2 1  ryx2 2 .

Pe grafic coeficientul de determinaţie este suma suprafeţelor de intersecţie


dintre y şi x1, respectiv dintre y şi x2. Coeficienţii de corelaţie parţială sunt: ryx1.x2 =
ry.x1 ; ryx2.x1 = ryx2.
În cazul b) variabilele explicative sunt interdependente şi coeficientul de
determinaţie este suma suprafeţelor de intersecţie dintre:
- y şi x1 separat, fără zona influenţei comune a lui x1 şi x2 asupra lui y,

93
- y şi x2 separat, fără zona influenţei comune a lui x1 şi x2 asupra lui y,
- y, x1 şi x2, zona de influenţă simultană a celor două variabile explicative asupra
lui y.
Pentru calculul coeficientului de determinaţie, respectiv a coeficientului de
corelaţie multiplă, trebuie să se elimine interinfluenţa dintre variabilele explicative,
din suma coeficienţilor de determinaţie a variabilelor explicative.

Generalizând noţiunea de corelaţie parţială, pentru modelul cu k


variabile explicative, se poate spune că un coeficient de corelaţie parţială măsoară
legătura dintre două variabile, în timp ce influenţa uneia sau mai multor variabile
este menţinută constantă (retrasă).
Numărul variabilelor a căror influenţă se retrage, stabileşte ordinul
coeficientului de corelaţie parţială respectiv. Coeficienţii de corelaţie simplă se mai
numesc de coeficienţi de corelaţie de ordinul 0. Într-un model cu k variabile
explicative, ordinul maxim până la care se pot calcula coeficienţi de corelaţie parţială
este k–1, deoarece nu se poate retrage influenţa tuturor variabilelor explicative.
Fie y, variabila de explicat şi x1, x2, x3, variabilele explicative (k = 3).
Coeficienţii de determinaţie pentru regresiile dintre y şi fiecare variabilă explicativă
considerată separat, sunt R2yx1, R2yx2, R2yx3. Aceştia sunt egali cu coeficienţii de
corelaţie simplă ridicaţi la pătrat, deoarece legătura este liniară. Se pot scrie r2yx1,
r2yx2, r2yx3 şi arată proporţia cu care contribuie fiecare din variabilele exogene la
explicarea varianţei lui y.
Se pot calcula 6 coeficienţi de corelaţie parţială de ordinul 1:
ryx1.x2 ; ryx1.x3 ; ryx2.x1 ; ryx2.x3 ; ryx3.x1 ; ryx3.x2 ;
şi 3 coeficienţi de corelaţie parţială de ordinul 2:
ryx1.x2x3 ; ryx2.x1x3 ; ryx3.x1x2 ;
Ultimul ordin până la care se pot calcula coeficienţii de corelaţie parţială, este 2,
când k=3.

1.1. Calculul coeficienţilor de corelaţie parţială

Coeficienţii de corelaţie parţială se poate calcula în două moduri:


A) - pornind de la reziduurile e1 şi e2 rezultate în urma a două regresii:
1. regresia dintre variabila de explicat y şi variabilele retrase,

94
2. regresia dintre variabila explicativă xi a cărei influenţă se analizează, şi variabilele
explicative retrase.
parcurgându-se următoarele etape: - exemplu pentru calculul r2yx3.x1x2:
a) regresia y = f(x1, x2) , yt = a0 + a1x1t + a2x2t + 1t, unde t=1, 2, …, n;
b) calculul reziduurilor e1t  yt  yˆ t  yt  (aˆ 0  aˆ1 x1t  aˆ 2 x2t ) ;

c) regresia x3 = f(x1, x2) , x3t = b0 + b1x1t + b2x2t + 2t, unde t=1, 2, …, n;

d) calculul reziduurilor e2t  x3t  xˆ3t  x3t  (bˆ0  bˆ1 x1t  bˆ2 x2t ) ;
e) calculul coeficientului de corelaţie simplă între e1 şi e2: r2yx3.x1x2=r2e1e2.
Coeficientul de corelaţie parţială este coeficientul de corelaţie simplă al
reziduurilor obţinute.

B) - pornind de la testul Student. Această metodă se utilizează numai pentru calculul


coeficienţilor de corelaţie parţială de ordinul k-1. Într-un model cu k variabile
explicative, există următoarea relaţie între raţiile Student calculate, ale estimatorilor
coeficienţilor de regresie ai variabilelor explicative şi coeficienţii de corelaţie parţială

2 t i2
de ordinul k-1: r yxi.(celelalte k-1 variabile) = 2 , unde ti reprezintă raţia
t i  (n  k  1)
Student empirică pentru variabila xi a cărei influenţă asupra lui y, se analizează.

1.2. Exerciţiu – Calculul coeficienţilor de corelaţie parţială

Pentru seriile de date din Tabelul 3.1. să se calculeze câte un


coeficient de corelaţie parţială pentru fiecare ordin: ryx3.x1, ryx3.x1x2, ryx3.x1x2x4.

y x1 x2 x3 x4
9.5 83.7 18 92.5 92.5
10.7 88.8 21.5 93.6 95.6
11.5 100.7 25.6 96.5 97.5
12.5 105.5 29.5 94 97.4
13.3 118.5 34.6 100.2 100.2
15.3 131.4 40.5 101.5 101.4
16.8 148.5 44.4 105.4 104.6
18.8 162 49.8 112.8 109.8
19.5 174.5 51.5 112.6 111.5
21.5 185.3 53.8 112.7 112.2
Tabelul 3.1. Variabila dependentă y şi variabilele explicative

95
Coeficientul de corelaţie parţială de ordinul 1: ryx3.x1 se obţine prin parcurgerea
următorilor paşi:

a) regresia lui y = f(x1), prezentată în Tabelul 3.2:

SUMMARY OUTPUT Regression Statistics


Multiple R 0.9969
R Square 0.9939
Adjusted RSquare 0.9931
Standard Error 0.3391
Obs. 10
ANOVA df SS MS F SignificanceF
Regression 1 149.4443 149.4443 1299.89 3.84E-10
Residual 8 0.9197 0.1150
Total 9 150.364
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 0.3463 0.4187 0.8270 0.4322 -0.6193 1.3119
XVariable1 0.1124 0.0031 36.0540 0.0000 0.1052 0.1195
Tabelul 3.2. Tabela de regresie y = f(x1)

b) valorile teoretice ŷ t şi reziduurile e1t = yt – ŷ t = yt – (0.3463 + 0.1124x1t);


c) regresia x3 = f(x1), în Tabelul 3.3;

SUMMARY OUTPUT Regression Statistics


Multiple R 0.9780
R Square 0.9565
Adj. R Sq. 0.9510
Standard Error 1.8269
Obs. 10
ANOVA df SS MS F Significance F
Regression 1 586.57 586.5766 175.7572 1E-06
Residual 8 26.7 3.3374
Total 9 613.27
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 73.267 2.2561 32.47 0.0000 68.06 78.47
XVariable1 0.223 0.0168 13.26 0.0000 0.18 0.26
Tabelul 3.3. Tabela de regresie x3=f(x1)

d) valorile teoretice x̂ 3 t şi reziduurile e2t= x3t – x̂ 3 t = x3t – (73.267 + 0.223x1t).


Aceste valori teoretice şi reziduurile sunt prezentate în Tabelul 3.4:

96
ŷ t (x1) e1t x̂ 3 t (x1) e2t
9.8 -0.25 91.9 0.60
10.3 0.38 93.0 0.57
11.7 -0.16 95.7 0.82
12.2 0.30 96.8 -2.75
13.7 -0.36 99.6 0.56
15.1 0.19 102.5 -1.02
17.0 -0.23 106.3 -0.92
18.5 0.25 109.3 3.47
20.0 -0.45 112.1 0.49
21.2 0.33 114.5 -1.81
Tabelul 3.4. Calculul reziduurilor celor două regresii

e) calculul re1e2 = ryx3.x1, prin formula prezentată anterior la paragraful 3.3,


punctul e) sau realizând regresia dintre cele două serii de date e1 şi e2, e1 = f(e2) sau
mai simplu, folosind funcţia CORREL pentru cele două serii de reziduuri, se află
coeficientul lor de corelaţie simplă, care este egal cu cel de corelaţie parţială căutat.
Extrăgând radicalul din R Squared = 0.04296, se obţine coeficientul de
corelaţie dintre cele două variabile, cu semnul coeficientului de regresie. Deoarece
coeficientul de regresie a1, din regresia e1t = a0 + a1e2t + vt, este negativ, rezultă că:
re1e2 = - 0.20728 şi ryx3.x1= - 0.20728, iar coeficientul de determinaţie parţială este
r2yx3.x1 = 0.04296, o valoare destul de mică, care indică o proporţie foarte mică din
varianţa neexplicată de x1 şi explicată de x3.
Coeficientul de corelaţie parţială al variabilei x3 asupra variabilei dependente
y, când se retrage influenţa variabilei x1 indică lipsa corelaţiei dintre y şi x3. Valoarea
acestui coeficient se obţine cel mai simplu folosind funcţia CORREL, al cărei
argument îl constituie cele două serii de reziduuri, indiferent de ordinea lor.
Pentru a efectua o analiză mai amănunţită a legăturilor dintre y, x1, şi x3, se
pot interpreta corelaţiile, deja existente, indicate de Multiple R, în Tabelele 3.2 şi 3.3:
- între y şi x1, considerată separat, este o corelaţie puternică ryx1=0.99690.997,
- între y şi x3, considerată separat, există deasemenea o legătură puternică, care se
poate obţine uşor prin efectuarea regresiei y=f(x3), în urma căreia R2yx3=0.944, iar
radicalul din acesta este coeficientul de corelaţie simplă ryx3=0.9716  0.972;
- între x1 şi x3, este o corelaţie puternică rx1x3 = 0.9779  0.978;
Coeficientul de corelaţie parţială ryx3.x1=-0.20728, arată legătura dintre y şi x3,
menţinându-se constantă influenţa lui x1; r2yx3.x1 = 0.04296 arată cât din varianţa lui y

97
este explică x3 din varianţa rămasă neexplicată de x1; valoarea foarte mică provine
din faptul că x1 şi x3 sunt puternic corelate pozitiv între ele.
Urmând procedura de mai sus se poate calcula şi coeficientul de corelaţie
parţială dintre y şi x1, când se elimină influenţa lui x3: ryx1.x3= + 0.9462. Valoarea
apropiată de 1 a acestui coeficient, indică o influenţă puternică a variabilei x1 asupra
variabilei dependente y, dar în acelaşi timp există o puternică legătură între x1 şi x3.
Pentru că ryx 3  ryx1 , ambii coeficienţi sunt de acelaşi semn pozitiv, arătând

corelaţii de intensitate mare asupra variabilei y, atnci ryx 3. x1  ryx1. x3 şi este firesc ca

ryx1. x3  0 indicând o legătură puternică, iar ryx 3. x1  0 , indică o intensitate slabă a

corelaţiei parţiale. Graficul acestor corelaţii, fără a analiza şi legăturile cu celelalte


variabile, ar putea fi, cel din Figura 3.2:

x3
x1

Figura 3.2. Corelaţii parţiale ale variabilelor x1 şi x3 asupra variabilei y

Pe graficul din Figura 3.2 se poate vedea că suprafaţa influenţei dintre y şi x1


este mai mare ca cea dintre y şi x3, chiar cu porţiunea haşurată care reprezintă
coeficientul de determinaţie parţială r2yx3.x1, variaţia rămasă între y şi x3, după ce s-a
eliminat influenţa variabilei x1 şi explicată de x3. Suprafaţa dintre y şi x1, după ce s-a
eliminat influenţa lui x3, măsurată prin r2yx1.x3 este mai mare.

Coeficientul de corelaţie parţială de ordinul 2: ryx3.x1x2 se obţine prin parcurgerea


etapelor:

a) regresia lui y = f(x1, x2), prezentată în Tabelul 3.5:


Coeficientul de corelaţie multiplă Ryx1x2=0.997, arată legătură o puternică între y, x1
şi x2.

98
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9970
R Square 0.9940
Adjusted R Square 0.9922
Std Error 0.3603
Observations 10
ANOVA df SS MS F Signif. F
Regression 2 149.4551 74.7276 575.5485 1.72E-08
Residual 7 0.9089 0.1298
Total 9 150.364
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 0.5079 0.7141 0.7113 0.4999 -1.1806 2.1964
X Variable 1 0.1060 0.0221 4.7976 0.0020 0.0538 0.1583
X Variable 2 0.0179 0.0617 0.2894 0.7806 -0.1281 0.1639
Tabelul 3.5. Tabela de regresie y = f(x1, x2)

b) valorile ŷ t şi reziduurile e1t = yt – ŷ t = yt – (0.508 + 0.106x1t + 0.018x2t);


c) regresia x3 = f(x1, x2), prezentată în Tabelul 3.6:

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9780
R Square 0.9565
Adjusted R Square 0.9440
Standard Error 1.9528
Observations 10
ANOVA df SS MS F Signif. F
Regression 2 586.583 293.2915 76.91 1.72E-05
Residual 7 26.6930 3.8133
Total 9 613.276
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 73.3916 3.8698 18.9653 0.0000 64.2410 82.5421
X Variable 1 0.2177 0.1198 1.8179 0.1119 -0.0655 0.5009
X Variable 2 0.0137 0.3346 0.0411 0.9684 -0.7776 0.8051
Tabelul 3.6. Tabela de regresie x3 = f(x1, x2)

Coeficientul de corelaţie multiplă Rx3x1x2=0.978, arată o legătură puternică între x3 şi


x1, x2.

d) valorile x̂ 3 t şi reziduurile e2t = x3t – x̂ 3 t = x3t – (73.39 + 0.218x1t +0.014x2t).


Valorile teoretice şi reziduurile sunt prezentate în Tabelul 3.7:

99
ŷ t (x1,x2) e1t x̂ 3 t (x1,x2) e2t
9.7 -0.2 91.9 0.6
10.3 0.4 93.0 0.6
11.6 -0.1 95.7 0.8
12.2 0.3 96.8 -2.8
13.7 -0.4 99.7 0.5
15.2 0.1 102.6 -1.1
17.0 -0.2 106.3 -0.9
18.6 0.2 109.3 3.5
19.9 -0.4 112.1 0.5
21.1 0.4 114.5 -1.8
Tabelul 3.7. Valorile teoretice şi reziduurile celor două regresii

e) calculul re1e2 = ryx3.x1x2, prin formula prezentată anterior, realizând regresia dintre
cele două serii de date e1 şi e2, e1 = f(e2) sau cu funcţia CORREL.
Rezultă că: re1e2 = -0.2102; ryx3.x1x2 = -0.2102, iar coeficientul de determinaţie parţială
r2yx3.x1x2 = 0.0442, are o valoare foarte mică.
Pentru a interpreta rezultatul, se pot calcula: rx1x2=0.9887, rx3x2=0.9674, ryx2=0.987.
Se ştie de la calculul coeficientului de corelaţie parţială de ordinul 1, că: rx1x3=0.978,
ryx1= 0.997, ryx3 = 0.972. Se poate trage concluzia că variabilele x1, x2 şi x3 sunt
puternic corelate între ele şi fiecare din ele separat cu y. Concluzia este că între y şi x3
nu există corelaţie, dacă se retrag variabilele x1 şi x2.

Coeficientul de corelaţie parţială de ordinul 3: ryx3.x1x2x4 .

a) regresia y = f(x1, x2, x4), prezentată în Tabelul 3.8:


SUMMARY OUTPUT Regression Statistics
Multiple R 0.9970
R Square 0.9940
Adjusted R Sq. 0.9911
Standard Error 0.3863
Observations 10
ANOVA df SS MS F SignificanceF
Regression 3 149.4688 49.8229 333.9411 4.61E-07
Residual 6 0.8952 0.1492
Total 9 150.364
Coefficients Standard t Stat P-value Lower 95% Upper
Error 95%
Intercept -2.5606 10.1626 -0.2520 0.8095 -27.43 22.31
X Variable 1 0.0980 0.0355 2.7651 0.0326 0.011 0.185
X Variable 2 0.0191 0.0663 0.2879 0.7831 -0.143 0.181
X Variable 3 0.0397 0.1311 0.3028 0.7723 -0.281 0.361
Tabelul 3.8. Tabela de regresie y = f(x1, x2, x4)

100
Coeficientul de corelaţie multiplă Ryx1x2x4 = 0.997, arată legătura puternică între y, x1,
x2, x4.
b) valorile ŷ t şi e1t = yt – ŷ t = yt – (-2.561+ 0.098x1t+0.019x2t + 0.040x4t);
c) regresia x3 = f(x1, x2, x4), prezentată în Tabelul 3.9;

SUMMARY OUTPUT Regression Statistics


Multiple R 0.9878
R Square 0.9757
Std. Error 1.5776
Obs. 10
ANOVA df SS MS F Signif. F
Regression 3 598.3432 199.4477 80.14 3.13E-05
Residual 6 14.9328 2.4888
Total 9 613.276
Coefficients Standard t Stat P- Lower Upper
Error value 95% 95%
Intercept -16.5784 41.5071 -0.3994 0.7034 -118.1427 84.9859
X Variable 1 -0.0165 0.1448 -0.1138 0.9131 -0.3708 0.3379
X Variable 2 0.0495 0.2709 0.1829 0.8609 -0.6132 0.7123
X Variable 3 1.1643 0.5356 2.1738 0.0727 -0.1463 2.4749
Tabelul 3.9. Tabela de regresie x3 = f(x1, x2, x4)

Coeficientul de corelaţie multiplă Rx3x1x2x4 = 0.987, arată legătura puternică între x3,
x1, x2, x4.
d) valorile x̂ 3 t şi e2t = x3t – x̂ 3 t = x3t - (-16.578 - 0.016x1t + 0.049x2t + 1.164x4t).
Aceste valori teoretice şi reziduurile sunt prezentate în Tabelul 3.10:

ŷ t (x1x2x4) e2t x̂ 3 t (x1x2x4) e1t


9.7 -0.2 90.6 1.9
10.4 0.3 94.3 -0.7
11.7 -0.2 96.5 0.0
12.2 0.3 96.5 -2.5
13.7 -0.4 99.8 0.4
15.1 0.2 101.3 0.2
17.0 -0.2 105.0 0.4
18.6 0.2 111.1 1.7
20.0 -0.5 112.9 -0.3
21.1 0.4 113.7 -1.0
Tabelul 3.10. Valorile teoretice şi reziduurile celor două regresii

e) calculul re1e2 = ryx3.x1x2x4, prin formula prezentată anterior, realizând regresia dintre
cele două serii de date e1 şi e2, e1 = f(e2) sau cu funcţia CORREL aplicată serrilor

101
reziduurilor. Rezultă că: re1e2 = -0.3929; ryx3.x1x2x4 = -0.3929, iar coeficientul de
determinaţie parţială este r2yx3.x1x2x4 = 0.1544, o valoare mică, apropiată de 0,
indicând o mică proporţie a variaţiei variabilei y, explicată de variabila x3, când se
retrage influenţa celorlalte variabile explicative.
Datorită corelaţiei mari dintre variabilele explicative (valorile apropiate de 1
ale coeficienţilor de corelaţie multiplă de mai sus) şi de asemenea dintre y şi x4: ryx4 =
0.9882, coeficientul de corelaţie parţială de ordinul 3 al aceleaşi variabile x3 faţă de y,
este mic şi de acelaşi semn negativ. Între y şi x3 nu există corelaţie dacă se retrag
variabilele x1, x2 şi x4.

Coeficientul de corelaţie parţială de ordinul 3, fiind ultimul ordin posibil de


calculat, se poate obţine şi prin modalitatea de calcul pornind de la raţia t Student.
Valoarea sa trebuie să fie aceeaşi cu cea deja obţinută prin procedeul anterior
prezentat.
Etapele care se parcurg sunt următoarele:
a) regresia completă y = f(x1, x2, x3, x4), prezentată în Tabelul 3.11:
b) raţia Student a variabilei a cărei influenţă asupra lui y se studiază, t3,
corespunzătoare lui x3, -0.9555 se înlocuieşte în formula:
t 32 (0.9555) 2
ryx2 3. x1x 2 x 4    0.15439
t 32  (n  k  1) (0.9555) 2  (10  4  1)

ryx 3. x1x 2 x 4  0.15439  0.3929 .

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9975
R Square 0.9950
Adjusted R Square 0.9909
Standard Error 0.3891
Observations 10
ANOVA df SS MS F Signif. F
Regression 4 149.607 37.4018 247.0493 6.27E-06
Residual 5 0.7570 0.1514
Total 9 150.364
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept -4.1555 10.3724 -0.4006 0.7052 -30.8186 22.5075
X Variable 1 0.0965 0.0358 2.6976 0.0429 0.0045 0.1884
X Variable 2 0.0239 0.0670 0.3561 0.7363 -0.1483 0.1961
X Variable 3 -0.0962 0.1007 -0.9555 0.3832 -0.3550 0.1626
X Variable 4 0.1517 0.1766 0.8590 0.4296 -0.3023 0.6057
Tabelul 3.11. Tabela de regresie y = f(x1, x2, x3, x4)

102
Semnul acestui coeficient este dat de semnul (negativ) coeficientului de
regresie corespunzător variabilei x3.
Raţiile Student calculate comparate cu valoarea teoretică t5/2= 2.571, pentru
5 grade libertate şi un prag de semnificaţie  = 5%, indică numai variabila x1, ca
fiind semnificativ diferită de 0. La celelalte se poate renunţa, fapt confirmat şi de
rezultatele obţinute pentru coeficienţii de corelaţie parţială ai lui x3.
Din cauza puternicei corelaţii dintre variabilele explicative – fenomen numit
multicoliniaritate - variabila x3 apare cu semnul negativ, chiar dacă legătura sa cu y
este directă, şi la fel şi cu celelalte variabile explicative.
Ca o consecinţă a multicoliniarităţii, în acest exemplu este evident că deşi
coeficientul de determinaţie este foarte mare, R2=0.9949, apar ca fiind
nesemnificative variabilele explicative. Se reţine în model, ca variabilă
semnificativă, numai variabila x1.

2. Multicoliniaritatea

Una din ipotezele modelului liniar clasic de regresie este aceea că nu există
multicoliniaritate printre variabilele explicative incluse în model.
Termenul de multicoliniaritate, la originea sa însemna existenţa unei relaţii
liniare perfecte sau exacte dintre unele sau între toate variabilele explicative ale
unui model de regresie. Sensul recent al acestui termen este mai larg, referindu-se şi
la o relaţie mai puţin deterministă.
Despre două serii x1 şi x2, se spune că sunt ortogonale sau independente dacă
au covarianţa nulă: cov(x1, x2) = 0. În acest caz, coeficientul lor de corelaţie simplă
este 0. Dacă coeficientul de corelaţie simplă dintre două variabile este egal cu 1,
seriile sunt perfect corelate, fie pozitiv, fie negativ. Legătura dintre ele este perfectă
sau deterministă. Când valoarea coeficientului de corelaţie simplă este apropiată
de1, deşi relaţia lor nu este deterministă, variabilele sunt puternic corelate. În
practică seriile de date sunt mai mult sau mai puţin corelate între ele.
Multicoliniaritatea se referă strict la existenţa mai multor relaţii liniare, iar termenul
de coliniaritate se referă la existenţa unei singure relaţii liniare. Această distincţie nu
se face în practică, folosindu-se în ambele situaţii termenul de multicoliniaritate.
În cazul a două variabile explicative, intercorelaţia lor se măsoară cu
coeficientul de corelaţie simplă dintre ele. Intercorelaţia în cazul mai multor variabile

103
explicative se măsoară cu ajutorul coeficienţilor de corelaţie parţială sau prin
coeficientul de corelaţie multiplă R a unei variabile xi cu toate celelalte variabile x
considerate împreună.
În esenţă, multicoliniaritatea este un fenomen de eşantionare, deoarece chiar
dacă în populaţie, variabilele xi sunt necorelate liniar, se poate ca într-un eşantion dat,
ele să fie corelate. Astfel încât, deşi teoretic se poate considera că variabilele xi au o
influenţă separată sau independentă asupra variabilei dependente y, se poate întâmpla
ca în eşantionul dat pentru a testa funcţia de regresie a populaţiei, unele variabile xi,
să fie atât de puternic corelate, încât să nu se poată izola influenţa lor individuală
asupra lui y.

2.1. Consecinţele multicoliniarităţii

Se pot întâlni următoarele consecinţe ale multicoliniarităţii:


- varianţe şi covarianţe mari ale estimatorilor coeficienţilor de regresie;
- intervale mari de încredere ale estimatorilor, din cauza abaterilor standard mari;
- raţiile t Student nesemnificative, din cauza abaterilor standard mari;
- un coeficient mare de determinaţie R2, dar raţiile t nesemnificative;
- instabilitatea estimatorilor şi a abaterilor lor standard la mici schimbări ale
datelor;
- în caz de multicoliniaritate perfectă matricea X X este singulară (determinatul
este 0), estimarea coeficienţilor este imposibilă şi varianţa lor, infinită.
În Tabelul 3.11, regresia y = f(x1, x2, x3, x4) din exerciţiul prezentat în
paragraful 3.1.3, indică un coeficient de determinaţie mare, de 0.995, iar testul Fisher
arată că regresia este global semnificativă cu o probabilitate de 100% (Significance
F). Cu excepţia coeficientului variabilei x1, care este semnificativ, restul
coeficienţilor au raţiile Student mai mici decât valoarea critică pentru un prag de
semnificaţie de 5%. Intervalele de încredere ale estimatorilor, cu excepţia
intervalului pentru â1 , schimbă semnul de la minus la plus, conţinând valoarea 0 şi
indicând faptul că sunt nesemnificativi.

104
2.2. Detectarea multicoliniarităţii

Pentru că în esenţă, multicoliniaritatea este un fenomen de eşantionare, nu


există o metodă unică de detectare şi măsurare a intensităţii sale. Există câteva reguli
pentru stabilirea existenţei sale:
1. R2 mare, dar puţine raţii t semnificative reprezintă un simptom clasic de
existenţă a multicoliniarităţii. Testul F de semnificaţie globală a regresiei va
fi în majoritatea cazurilor, mai mare decât valoarea F teoretică, astfel că se va
respinge ipoteza nulă, conform căreia coeficienţii parţiali de regresie
(estimatorii variabilelor explicative) sunt simultan egali cu zero. Dar raţiile t
infirmă această concluzie. Prin valorile lor mici arată că nici unul sau foarte
puţini coeficienţi de regresie sunt statistic semnificativ diferiţi de 0. Deşi
acest diagnostic este sensibil, dezavantajul său constă în faptul că în acelaşi
timp, este prea puternic, în sensul că se consideră multicoliniaritatea ca fiind
dăunătoare numai când influenţele tuturor variabilelor explicative asupra lui y
nu pot fi separate.

2. Corelaţiile perechi puternice (perechi de câte două variabile explicative)


reprezintă o altă regulă pentru detectarea multicoliniarităţii. Coeficienţii de
corelaţie simplă între doi regresori pot avea valori mari şi atunci
multicoliniaritatea devine o problemă serioasă. Ideea principală, ce trebuie
reţinută, este că nu este necesar ca aceşti coeficienţi să fie mari pentru a exista
coliniaritate. Coeficienţii mari de corelaţie de ordinul 0 reprezintă condiţia
suficientă, dar nu şi necesară pentru existenţa multicoliniarităţii, deoarece
aceasta poate exista chiar dacă valorile lor sunt comparativ mici. Dacă
modelul are numai două variabile explicative atunci coeficientul lor de
corelaţie simplă este suficient în aprecierea gradului de coliniaritate.

Pornind de la această regulă, testul lui Klein, constă în compararea


coeficientului de determinaţie R2, calculat pe modelul cu k variabile
explicative: y  â0  â1 x 1  â2 x 2  ...  âk x k  e

cu pătratul coeficienţilor de corelaţie simplă dintre regresori, r2xixj, unde ij.


Dacă R2 < r2xixj pentru oricare ij, i,j =1,2,…,k, atunci există o prezumpţie de
multicoliniaritate. Acest test nu este un test propriu-zis şi nici nu este
concludent în toate cazurile.

105
3. Examinarea corelaţiilor parţiale a fost propusă de Farrar şi Glauber, tocmai
datorită problemei menţionate pentru coeficienţii de corelaţie simplă dintre
regresori. Ei susţin că, în regresia dintre y şi x1, x2, x3, dacă se găseşte că
R2yx1x2x3 este mare, şi comparativ r2yx1.x2x3, r2yx2.x1x3, r2yx3.x1x2 sunt mici, aceasta
poate sugera că variabilele x1, x2 şi x3 sunt puternic intercorelate şi că cel
puţin una din variabilele explicative este în plus. Deşi studiul coeficienţilor de
corelaţie parţială ar putea fi foarte util, totuşi nu se poate garanta că va furniza
un răspuns sigur în ceea ce priveşte multicoliniaritatea. Se poate întâmpla ca
atât R2yx1x2x3 cât şi toate corelaţiile parţiale să fie suficient de mari, încât să
pună sub semnul întrebării afirmaţia lui Farrar şi Glauber.

4. Regresiile auxiliare. Aflarea variabilei explicative care este corelată cu alte


variabile x, într-o combinaţie liniară exactă sau aproximativă, se poate realiza
prin efectuarea regresiilor pentru fiecare variabilă xi şi restul variabilelor x.
Fiecare din aceste regresii se consideră ca fiind auxiliară faţă de regresia
principală, considerată a fi regresia lui y în funcţie de toate variabilele
explicative x. Un coeficient mare de determinaţie sugerează că xi este puternic
corelată cu celelalte variabile x. Pentru fiecare din aceste regresii auxiliare se
Rxi2 .x 2 x 3...xk /( k  1)
calculează statistica F, după formula: Fi  , unde
(1  Rxi2 .x 2 x 3...xk ) /( n  k  1)
k este numărul de variabile regresori din modelul auxiliar, n este volumul
eşantionului, iar R2xi.x2x3…xk este coeficientul de determinaţie corespunzător
fiecărei regresii. Se compară Fi* cu valoarea critică din tabela Fisher, pentru
un prag de semnificaţie  şi (k-1), (n-k-1) grade de libertate. Dacă Fi* > Fk-
1,n-k-1 acesta înseamnă că acea variabilă xi este coliniară cu celelalte variabile
x. Dacă Fi* < Fk-1,n-k-1 se spune că variabila xi nu este coliniară cu celelalte
variabile x, caz în care respectiva variabilă xi se reţine în model. Această
metodă are neajunsurile ei, în sensul că atunci când multicoliniaritatea
presupune implicarea a mai puţine variabile, este dificil să se identifice inter-
relaţiile separate.

2.3. Remedierea multicoliniarităţii

Există mai multe reguli de remediere a multicoliniarităţii, dar care nu


reprezintă metode sigure de înlăturare a ei. Câteva dintre aceste reguli sunt:

106
1. creşterea volumului eşantionului – este eficientă numai dacă se adaugă
observări semnificativ diferite de cele care sunt deja considerate în model, în caz
contrar, multicoliniaritatea se menţine;
2. înlăturarea variabilei puternic corelate poate conduce la o specificare
incorectă a modelului. Eroarea de specificare duce la obţinerea de estimatori eronaţi,
fiind mai dăunătoare decât acceptarea unei multicoliniarităţi mici;
3. transformarea variabilelor – în serii de diferenţe de ordinul 1. Modelul de
regresie pe diferenţele de ordinul 1, reduce severitatea multicoliniarităţii, deoarece
chiar dacă există corelaţie puternică între două variabile, nu există nici un motiv să se
considere că aceasta s-ar menţine şi între diferenţele lor de ordinul 1. Acest procedeu
are şi dezavantajele sale: termenul eroare din forma transformată a diferenţelor de
ordinul 1, s-ar putea să nu respecte una din ipotezele modelului liniar clasic, şi
anume erorile nu sunt serial corelate (corelaţie de ordinul 1). Dacă în seriile iniţiale
erorile sunt independente sau necorelate, în seria transformată, acestea vor fi serial
corelate în majoritatea cazurilor. Un alt dezavantaj este faptul că se pierde o
observare prin diferenţiere, ceea ce este important când volumul eşantionului este
mic, şi numărul gradelor de libertate se micşorează cu 1. Mai mult, în seriile de date
instantanee, procedura de diferenţiere nu este corespunzătoare, deoarece nu există o
ordine logică a datelor observate.
4. utilizarea altor metode cum sunt: analiza factorială, analiza în componente
principale, sunt deseori folosite pentru a rezolva problema multicoliniarităţii.

Se observă că nu în orice situaţie, când se obţin valori t nesemnificative


pentru estimatorii coeficienţilor de regresie, există multicoliniaritate. Lipsa de
semnificaţie se poate datora şi altor cauze, cum ar fi:
- metoda folosită pentru culegerea datelor, de exemplu eşantionarea variabilelor
regresori peste valorile lor limită, pe care acestea le iau în populaţie;
- restricţii asupra modelului sau asupra populaţiei şi a metodei de eşantionare
folosită;
- specificarea modelului;
- supradimensionarea modelului, prin introducerea unui număr de variabile
explicative, mai mare decât numărul de observări (în domeniul medical, când
numărul de pacienţi este mai mic decât informaţiile despre ei, cuprinse într-un
număr mare de variabile).

107
Aplicarea în practică a uneia din modalităţile de remediere, depinde de natura
datelor şi de severitatea multicoliniarităţii. Nu se recomandă utilizarea regresiei
afectată de multicoliniaritate, pentru previziune.

3. Selecţia variabilelor explicative

Procedurile statistice de selecţie a variabilelor explicative permit


determinarea acelor variabile, care se adaugă sau se retrag dintr-un model. Aceste
demersuri exclud raţionamentul economic, permiţând găsirea unor modele, care
deseori sunt bune din punct de vedere statistic, dar a căror interpretare economică
poate fi nulă sau aberantă. De aceea tehnicile automate de selecţie a variabilelor
explicative se utilizează cu prudenţă, completându-se rezultatele cu raţionamentul
economic.
Identificarea variabilelor explicative cele mai corelate cu variabila explicată şi cel
mai puţin corelate între ele, se face conform următoarelor cinci proceduri:
1. - toate regresiile posibile;
2. - eliminarea progresivă;
3. - selecţia progresivă;
4. - regresia pas cu pas;
5. - regresia pe faze.
Toate regresiile posibile. Această metodă constă în efectuarea tuturor regresiilor
posibile (2k – 1), unde k este numărul variabilelor explicative, candidate la intrarea în
model. Se reţine acel model care are coeficientul de determinaţie, R2 cel mai mare şi
toate variabilele explicative semnificative. Dezavantajul acestei metode, este legat de
numărul k, de variabile explicative, care cu cât este mai mare, cu atât duce la
realizarea unui număr considerabil de regresii (de exemplu: k=10, număr regresii
posibile = 1023).
1. Eliminarea progresivă (Backward Elimination). Această procedură constă în
efectuarea regresiei cu toate variabilele explicative şi apoi eliminarea pe rând, a
acelora a căror raţie Student este mai mică decât valoarea critică. Procedura se
utilizează, numai dacă se poate estima efectiv, modelul iniţial, ceea ce nu este mereu
posibil. Modelul poate avea un număr mare de variabile explicative, şi atunci, riscul
multicoliniarităţii este mare, iar matricea X X poate fi singulară.

108
2. Selecţia progresivă (Forward Regression). Prin această procedură se
parcurge un sens invers celui descris în eliminarea progresivă.
- în prima etapă, se selectează în model o variabilă xi, care are coeficientul de
corelaţie simplă cu variabila y, cel mai mare.
- în a doua etapă se calculează coeficienţii de determinaţie parţială r2yxj.xi pentru j 
i şi se reţine acea variabilă xj, care are cel mai mare coeficient de corelaţie
parţială.
Selecţia variabilelor se opreşte când raţiile t calculate devin mai mici decât valoarea
critică citită din tabela Student.
3. Regresia pas cu pas (Stepwise regression). Această procedură este identică cu
cea precedentă, a selecţiei progresive, doar că înainte de a incorpora o nouă variabilă
explicativă se examinează raţia t* a fiecăreia din variabilele explicative selecţionate
în prealabil şi se elimină din model cele care au raţiile t* mai mici decât valoarea
critică.
4. Regresia pe faze sau pe stadii (Stagewise Regression). Procedura aceasta
permite minimizarea intercorelaţiilor dintre variabilele explicative, prin studiul
reziduurilor. Etapele care se parcurg sunt următoarele:
- etapa 1: se selecţionează acea variabilă explicativă, xi, care are coeficientul de
corelaţie simplă cu y, cel mai mare;
- etapa a 2-a: se calculează reziduurile e1t  yt  ŷt  yt  (â0  â1 x it ) şi
coeficienţii de corelaţie simplă între e1t şi restul variabilelor explicative; se reţine
aceea dintre ele, xj, care are acest coeficient cel mai mare, considerând că va
explica în continuare, cel mai bine, varianţa reziduurilor;
- etapa a 3-a: se calculează un nou reziduu: e2t  yt  ŷt  yt  (â0  â1 x it  â2 x jt )

şi coeficienţii de corelaţie simplă între e2t şi restul variabilelor explicative; se


reţine aceea dintre ele, xk, care are acest coeficient cel mai mare, ceea ce duce la
obţinerea altor reziduuri; procedura se termină când de coeficienţii de corelaţie
simplă dintre reziduuri şi variabilele explicative rămase, devin nesemnificativi.

3.1. Exerciţiu – Metode de selecţie a variabilelor explicative

Pentru datele din Tabelul 3.12, se exemplifică cele cinci proceduri de


selecţie a variabilelor explicative.

109
y x1 x2 x3 x4
9.5 83.7 18 92.5 92.5
10.7 88.8 21.5 93.6 95.6
11.5 100.7 25.6 96.5 97.5
12.5 105.5 29.5 94 97.4
13.3 118.5 34.6 100.2 100.2
15.3 131.4 40.5 101.5 101.4
16.8 148.5 44.4 105.4 104.6
18.8 162 49.8 112.8 109.8
19.5 174.5 51.5 112.6 111.5
21.5 185.3 53.8 112.7 112.2
Tabelul 3.12. Eşantionul de observări

1. Toate regresiile posibile


Pentru datele din Tabelul 3.12, k=4, (2k –1)=(24–1)=16-1=15 modelele.
 regresiile cu o variabilă explicativă

(1) yt = 0.346 + 0.112x1t + et R2yx1 = 0.994


(0.83) (36.05)
(2) yt = 3.466 + 0.311x2t + et R2yx2 = 0.974
(4.96) (17.34)
(3) yt = - 34.219 + 0.481x3t + et R2yx3 = 0.944
(-8.06) (11.62)
(4) yt = - 44.318 + 0.579x4t + et R2yx4 = 0.977
(-13.64) (18.27)
 regresiile cu două variabile explicative

(5) yt = 0.508 + 0.106x1t + 0.018x2t + et R2yx1x2 = 0.99395


(0.71) (4.80) (0.29)
(6) yt = 3.165 + 0.121x1t – 0.038x3t + et R2yx1x3 = 0.99414
(0.63) (7.74) (-0.56)
(7) yt = - 2.555 + 0.105x1t + 0.037x4t + et R2yx1x4 = 0.99396
(- 0.27) (4.49) (0.307)
(8) yt = - 6.850 + 0.231x2t + 0.130x3t + et R2yx2x3 = 0.9785
(- 0.79) (3.35) (1.20)
(9) yt = - 22.187 + 0.148x2t + 0.309x4t + et R2yx2x4 = 0.9864
(- 2.18) (2.26) (2.53)
(10) yt = - 45.88 - 0.090x3t + 0.685x4t + et R2yx3x4 = 0.9774
(- 9.90) (- 0.50) (3.22)
 regresiile cu trei variabile explicative

(11) yt = 3.355 + 0.114x1t + 0.018x2t - 0.039x3t + et R2yx1x2x3 = 0.9942


(0.61) (4.04) (0.28) (-0.53)
(12) yt = - 2.56 + 0.098x1t + 0.019x2t + 0.039x4t + et R2yx1x2x4 = 0.9940
(- 0.25) (2.76) (0.28) (0.30)

110
(13) yt = -23.63 + 0.151x2t - 0.109x3t + 0.431x4t + et R2yx2x3x4 = 0.9876
(-2.21) (2.23) (-0.76) (2.11)
(14) yt = -4.105 + 0.105x1t - 0.093x3t + 0.146x4t + et R2yx1x3x4 = 0.9948
(- 0.43) (4.50) (-1.00) (0.89)
 regresia cu cele patru variabile explicative

(15) yt= -4.155+0.096x1t+0.024x2t–0.096x3t+0.152x4t+et R2yx1x2x3x4=0.998


(-0.40) (2.70) (0.36) (-0.95) (0.86)
Dintre cele 15 modele se elimină acelea care au una sau mai multe raţii t
Student calculate, mai mici decât valoarea Student critică, t/2n-k-1, pentru un prag de
semnificaţie  =5% şi corespunzătoare pe rând, fiecărui număr de grade de libertate:
când k=1, t/28=2.306; k=2, t/27=2.365; k=3, t/26=2.447; k=4, t/25=2.571. Se
verifică raţiile Student şi pentru termenul constant. În urma acestei operaţii se
înlătură modelele: 1, 5, 6, 7, 8, 10, 11, 12, 13, 14, 15.
Rămân ca fiind satisfăcătoare trei modele: 2, 3 şi 4. Dintre acestea se alege
modelul (4) deoarece are coeficientul de determinaţie, R2, cel mai mare. Variabila x4
este singura care se reţine pentru explicarea variabilei y. Modelul (1) are
semnificativă variabila x1, are şi coeficientul de determinaţie cel mai mare, dar
termenul liber are raţia Student nesemnificativă.

2. Eliminarea progresivă (Backward Elimination).

Din modelul complet (regresia cu toate variabilele explicative):

(15) yt= -4.155 + 0.096x1t + 0.024x2t – 0.096x3t + 0.152x4t + et


(-0.40) (2.70) (0.36) (-0.95) (0.86) R2yx1x2x3x4=0.998
se elimină variabilele x2, x3 şi x4 ale căror coeficienţi de regresie au raţiile t* mai mici
decât valoarea critică, t/25=2.571, fiind astfel nesemnificativ diferiţi de 0. Rămâne
de estimat modelul cu o variabilă explicativă, x1 şi anume modelul:

(1) yt = 0.346 + 0.112x1t + et R2yx1 = 0.994


(0.83) (36.05)
Procedura se opreşte aici, deoarece variabila explicativă din model este
semnificativă, în urma aplicării testului individual de semnificaţie, t. Se alege
variabila x1. Dar modelul nu este suficient de bun, pentru că termenul liber nu este
semnificativ diferit de 0.
Din cauza multicoliniarităţii variabilelor explicative, care sunt puternic
corelate între ele, nu se poate alege variabila x4, conform aceastei proceduri.

111
3. Selecţia progresivă (Forward Regression).

Pentru exerciţiul de mai sus, se pot obţine imediat coeficienţii de corelaţie


simplă între y şi variabilele x1, x2, x3 şi x4, extrăgând radicalul din R2yx1, R2yx2, R2yx3,
R2yx4 pentru modelele 1, 2, 3, 4 sau direct citind Multiple R în tabelele de regresie
corespunzătoare modelelor, sau utilizând funcţia CORREL(array_1,array_2):
ryx1=0.997; ryx2 =0.983; ryx3=0.975; ryx4=0.988.
În prima etapă, se selectează în model variabila x1, care are coeficientul de
corelaţie simplă, ryx1, cu variabila y, cel mai mare.
În etapa a doua, se estimează trei modele cu două variabile explicative: x1 şi
x2 (5), x1 şi x3 (6), x1 şi x4 (7). Se calculează coeficienţii de corelaţie parţială şi se
reţine variabila, care are acest coeficient cel mai mare. Deoarece în modelele 5, 6, şi
7 se observă că variabila introdusă este nesemnificativă, de fiecare dată, (privind
regresiile cu două variabile explicative) nu este necesar să se mai calculeze
coeficienţii de corelaţie parţială. Procedura se opreşte şi variabila aleasă rămâne x1.

4. Regresia pas cu pas (Stepwise regression).

Pentru exemplul prezentat:


- în prima etapă se calculează coeficienţii de corelaţie simplă dintre y şi toate
variabilele explicative; se alege x1 pentru că are ryx1 cel mai mare;
- în etapa a doua se estimează modelele cu două variabile explicative, prin
adăugarea la model, câte una a celor rămase;
- se examinează raţiile Student cu valoarea critică şi se ajunge la situaţia descrisă
deja.

5. Regresia pe faze sau pe stadii (Stagewise Regression).

În exerciţiul prezentat:
- în prima etapă se alege variabila x1. Modelul este:

(1) yt = 0.346 + 0.112x1t + et R2yx1 = 0.994


(0.83) (36.05)
- în etapa a 2-a se calculează reziduurile e1t = yt – (0.346 + 0.112x1t), în Tabelul
3.13.

112
yt x1 ŷ t e1t
9.5 83.7 9.8 -0.3
10.7 88.8 10.3 0.4
11.5 100.7 11.7 -0.2
12.5 105.5 12.2 0.3
13.3 118.5 13.7 -0.4
15.3 131.4 15.1 0.2
16.8 148.5 17.0 -0.2
18.8 162 18.5 0.3
19.5 174.5 20.0 -0.5
21.5 185.3 21.2 0.3
Tabelul 3.13. Calculul valorilor ajustate în funcţie de x1 şi reziduurile e1t

- în etapa a 3-a se calculează coeficienţii de corelaţie simplă între reziduurile e1t şi


celelalte variabile explicative:
re1x2 = 0.016; re1x3 = -0.043; re1x4 = 0.016.
Coeficientul de corelaţie simplă, re1x1 = 0, între x1 şi e1 este nul, prin
construcţie, deoarece în e1 nu mai există informaţie referitoare la x1. Ceilalţi
coeficienţi calculaţi, fiind foarte mici, deci nesemnificativ diferiţi de 0, procedura de
selecţie se termină. Variabila explicativă aleasă este x1.
Dintre tehnicile prezentate, cea a tuturor regresilor posibile, furnizează un
rezultat diferit de celelalte proceduri. Alegerea variabilei explicative x1 este indicată
de majoritatea procedeelor.

113
Rezumat
Cand variabilele explicative sunt corelate între ele apare fenomenul de
multicoliniaritate, ale cărui consecinţe nu pot fi ignorate în construirea unui model
econometric. În această situaţie a nerespectării ipotezei de independenţă a
variabilelor explicative, se identifică variabilele corelate, care se elimină din model,
pastrându-se numai cele puternic corelate cu variabila dependentă y, şi cât mai puţin
corelate între ele. Calculul coeficienţilor de corelaţie simplă dintre variabilele
explicative şi a celor de corelaţie parţială oferă informaţii pentru selecţia variabilelor
explicative în model. Aplicarea metodelor de selecţie a variabilelor explicative se
poate face combinat, pentru a ajunge la cea mai bună soluţie.
Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului.

Termeni importanţi
Multicoliniaritate, coeficienţi de corelaţie parţială de ordinul i, coeficienţi de
determinaţie parţială de ordinul i, metode de selecţie a variabilelor explicative

Întrebări recapitulative
1. Explicaţi semnificaţia coeficientului de corelaţie parţială.
2. Scrieţi toţi coeficienţii de corelaţie parţială posibi a se calcula pentru un
model cu trei variabile explicative.
3. Ce este fenomenul de multicoliniaritate?
4. Care sunt consecinţele multicoliniarităţii?
5. Care sunt mijloacele de remediere a multicoliniarităţii?
6. Care sunt metodele de selecţie a variabilelor explicative?
7. Ce se întâmplă cand un model de regresie multiplă prezintă indicatori foarte
buni de validitate, este global semnificativ, conform testului Fisher, dar are
majoritatea estimatorilor modelului nesemnificativ diferiţi de zero?

Teme de casă
Parcurgeţi exemplele din curs,utilizând calculatorul.
Folosiţi ambele metodele de estimare a coeficienţilor de corelaţie parţială de
odinul k-1, într-un model cu k variabile explicative, pentru un exemplu din curs.

114

S-ar putea să vă placă și