Documente Academic
Documente Profesional
Documente Cultură
c3 Ect PDF
c3 Ect PDF
91
MULTICOLINIARITATEA ŞI SELECŢIA
VARIABILELOR EXPLICATIVE
92
Coeficientul de determinaţie parţială are expresia r2yx1.x2, de exemplu, şi
semnifică proporţia din variaţia variabilei y neexplicată de variabila x2, care este
explicată prin considerarea variaţiei variabilei x1.
Explicarea grafică a coeficienţilor de corelaţie poate contribui la mai buna
înţelegere a conţinutului lor. Fie un model cu două variabile explicative:
yt â0 â1 x 1t â2 x 2t et .
În Figura 3.1 se prezintă trei situaţii posibile de interacţiune între variabila
dependentă y şi cele două variabile explicative considerate în model: variabilele x1 şi
x2 sunt independente între ele şi fiecare influenţează variaţia variabilei y, cazul a); în
cazul b) variabilele x1 şi x2 sunt interdependente, ambele pot influenţa variabila y, sau
numai una din ele, care la rândul ei se afă în interdependenţă cu cealaltă variabilă
explicativă. Se spune despre variabile că sunt coliniare; se poate manifesta
fenomenul de multicoliniaritate.
y x2 y y
x2
x1 x1 x1
x2
93
- y şi x2 separat, fără zona influenţei comune a lui x1 şi x2 asupra lui y,
- y, x1 şi x2, zona de influenţă simultană a celor două variabile explicative asupra
lui y.
Pentru calculul coeficientului de determinaţie, respectiv a coeficientului de
corelaţie multiplă, trebuie să se elimine interinfluenţa dintre variabilele explicative,
din suma coeficienţilor de determinaţie a variabilelor explicative.
94
2. regresia dintre variabila explicativă xi a cărei influenţă se analizează, şi variabilele
explicative retrase.
parcurgându-se următoarele etape: - exemplu pentru calculul r2yx3.x1x2:
a) regresia y = f(x1, x2) , yt = a0 + a1x1t + a2x2t + 1t, unde t=1, 2, …, n;
b) calculul reziduurilor e1t yt yˆ t yt (aˆ 0 aˆ1 x1t aˆ 2 x2t ) ;
d) calculul reziduurilor e2t x3t xˆ3t x3t (bˆ0 bˆ1 x1t bˆ2 x2t ) ;
e) calculul coeficientului de corelaţie simplă între e1 şi e2: r2yx3.x1x2=r2e1e2.
Coeficientul de corelaţie parţială este coeficientul de corelaţie simplă al
reziduurilor obţinute.
2 t i2
de ordinul k-1: r yxi.(celelalte k-1 variabile) = 2 , unde ti reprezintă raţia
t i (n k 1)
Student empirică pentru variabila xi a cărei influenţă asupra lui y, se analizează.
y x1 x2 x3 x4
9.5 83.7 18 92.5 92.5
10.7 88.8 21.5 93.6 95.6
11.5 100.7 25.6 96.5 97.5
12.5 105.5 29.5 94 97.4
13.3 118.5 34.6 100.2 100.2
15.3 131.4 40.5 101.5 101.4
16.8 148.5 44.4 105.4 104.6
18.8 162 49.8 112.8 109.8
19.5 174.5 51.5 112.6 111.5
21.5 185.3 53.8 112.7 112.2
Tabelul 3.1. Variabila dependentă y şi variabilele explicative
95
Coeficientul de corelaţie parţială de ordinul 1: ryx3.x1 se obţine prin parcurgerea
următorilor paşi:
96
ŷ t (x1) e1t x̂ 3 t (x1) e2t
9.8 -0.25 91.9 0.60
10.3 0.38 93.0 0.57
11.7 -0.16 95.7 0.82
12.2 0.30 96.8 -2.75
13.7 -0.36 99.6 0.56
15.1 0.19 102.5 -1.02
17.0 -0.23 106.3 -0.92
18.5 0.25 109.3 3.47
20.0 -0.45 112.1 0.49
21.2 0.33 114.5 -1.81
Tabelul 3.4. Calculul reziduurilor celor două regresii
97
este explică x3 din varianţa rămasă neexplicată de x1; valoarea foarte mică provine
din faptul că x1 şi x3 sunt puternic corelate pozitiv între ele.
Urmând procedura de mai sus se poate calcula şi coeficientul de corelaţie
parţială dintre y şi x1, când se elimină influenţa lui x3: ryx1.x3= + 0.9462. Valoarea
apropiată de 1 a acestui coeficient, indică o influenţă puternică a variabilei x1 asupra
variabilei dependente y, dar în acelaşi timp există o puternică legătură între x1 şi x3.
Pentru că ryx 3 ryx1 , ambii coeficienţi sunt de acelaşi semn pozitiv, arătând
corelaţii de intensitate mare asupra variabilei y, atnci ryx 3. x1 ryx1. x3 şi este firesc ca
x3
x1
98
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9970
R Square 0.9940
Adjusted R Square 0.9922
Std Error 0.3603
Observations 10
ANOVA df SS MS F Signif. F
Regression 2 149.4551 74.7276 575.5485 1.72E-08
Residual 7 0.9089 0.1298
Total 9 150.364
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 0.5079 0.7141 0.7113 0.4999 -1.1806 2.1964
X Variable 1 0.1060 0.0221 4.7976 0.0020 0.0538 0.1583
X Variable 2 0.0179 0.0617 0.2894 0.7806 -0.1281 0.1639
Tabelul 3.5. Tabela de regresie y = f(x1, x2)
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9780
R Square 0.9565
Adjusted R Square 0.9440
Standard Error 1.9528
Observations 10
ANOVA df SS MS F Signif. F
Regression 2 586.583 293.2915 76.91 1.72E-05
Residual 7 26.6930 3.8133
Total 9 613.276
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept 73.3916 3.8698 18.9653 0.0000 64.2410 82.5421
X Variable 1 0.2177 0.1198 1.8179 0.1119 -0.0655 0.5009
X Variable 2 0.0137 0.3346 0.0411 0.9684 -0.7776 0.8051
Tabelul 3.6. Tabela de regresie x3 = f(x1, x2)
99
ŷ t (x1,x2) e1t x̂ 3 t (x1,x2) e2t
9.7 -0.2 91.9 0.6
10.3 0.4 93.0 0.6
11.6 -0.1 95.7 0.8
12.2 0.3 96.8 -2.8
13.7 -0.4 99.7 0.5
15.2 0.1 102.6 -1.1
17.0 -0.2 106.3 -0.9
18.6 0.2 109.3 3.5
19.9 -0.4 112.1 0.5
21.1 0.4 114.5 -1.8
Tabelul 3.7. Valorile teoretice şi reziduurile celor două regresii
e) calculul re1e2 = ryx3.x1x2, prin formula prezentată anterior, realizând regresia dintre
cele două serii de date e1 şi e2, e1 = f(e2) sau cu funcţia CORREL.
Rezultă că: re1e2 = -0.2102; ryx3.x1x2 = -0.2102, iar coeficientul de determinaţie parţială
r2yx3.x1x2 = 0.0442, are o valoare foarte mică.
Pentru a interpreta rezultatul, se pot calcula: rx1x2=0.9887, rx3x2=0.9674, ryx2=0.987.
Se ştie de la calculul coeficientului de corelaţie parţială de ordinul 1, că: rx1x3=0.978,
ryx1= 0.997, ryx3 = 0.972. Se poate trage concluzia că variabilele x1, x2 şi x3 sunt
puternic corelate între ele şi fiecare din ele separat cu y. Concluzia este că între y şi x3
nu există corelaţie, dacă se retrag variabilele x1 şi x2.
100
Coeficientul de corelaţie multiplă Ryx1x2x4 = 0.997, arată legătura puternică între y, x1,
x2, x4.
b) valorile ŷ t şi e1t = yt – ŷ t = yt – (-2.561+ 0.098x1t+0.019x2t + 0.040x4t);
c) regresia x3 = f(x1, x2, x4), prezentată în Tabelul 3.9;
Coeficientul de corelaţie multiplă Rx3x1x2x4 = 0.987, arată legătura puternică între x3,
x1, x2, x4.
d) valorile x̂ 3 t şi e2t = x3t – x̂ 3 t = x3t - (-16.578 - 0.016x1t + 0.049x2t + 1.164x4t).
Aceste valori teoretice şi reziduurile sunt prezentate în Tabelul 3.10:
e) calculul re1e2 = ryx3.x1x2x4, prin formula prezentată anterior, realizând regresia dintre
cele două serii de date e1 şi e2, e1 = f(e2) sau cu funcţia CORREL aplicată serrilor
101
reziduurilor. Rezultă că: re1e2 = -0.3929; ryx3.x1x2x4 = -0.3929, iar coeficientul de
determinaţie parţială este r2yx3.x1x2x4 = 0.1544, o valoare mică, apropiată de 0,
indicând o mică proporţie a variaţiei variabilei y, explicată de variabila x3, când se
retrage influenţa celorlalte variabile explicative.
Datorită corelaţiei mari dintre variabilele explicative (valorile apropiate de 1
ale coeficienţilor de corelaţie multiplă de mai sus) şi de asemenea dintre y şi x4: ryx4 =
0.9882, coeficientul de corelaţie parţială de ordinul 3 al aceleaşi variabile x3 faţă de y,
este mic şi de acelaşi semn negativ. Între y şi x3 nu există corelaţie dacă se retrag
variabilele x1, x2 şi x4.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.9975
R Square 0.9950
Adjusted R Square 0.9909
Standard Error 0.3891
Observations 10
ANOVA df SS MS F Signif. F
Regression 4 149.607 37.4018 247.0493 6.27E-06
Residual 5 0.7570 0.1514
Total 9 150.364
Coefficients Std.Error t Stat P-value Lower 95% Upper 95%
Intercept -4.1555 10.3724 -0.4006 0.7052 -30.8186 22.5075
X Variable 1 0.0965 0.0358 2.6976 0.0429 0.0045 0.1884
X Variable 2 0.0239 0.0670 0.3561 0.7363 -0.1483 0.1961
X Variable 3 -0.0962 0.1007 -0.9555 0.3832 -0.3550 0.1626
X Variable 4 0.1517 0.1766 0.8590 0.4296 -0.3023 0.6057
Tabelul 3.11. Tabela de regresie y = f(x1, x2, x3, x4)
102
Semnul acestui coeficient este dat de semnul (negativ) coeficientului de
regresie corespunzător variabilei x3.
Raţiile Student calculate comparate cu valoarea teoretică t5/2= 2.571, pentru
5 grade libertate şi un prag de semnificaţie = 5%, indică numai variabila x1, ca
fiind semnificativ diferită de 0. La celelalte se poate renunţa, fapt confirmat şi de
rezultatele obţinute pentru coeficienţii de corelaţie parţială ai lui x3.
Din cauza puternicei corelaţii dintre variabilele explicative – fenomen numit
multicoliniaritate - variabila x3 apare cu semnul negativ, chiar dacă legătura sa cu y
este directă, şi la fel şi cu celelalte variabile explicative.
Ca o consecinţă a multicoliniarităţii, în acest exemplu este evident că deşi
coeficientul de determinaţie este foarte mare, R2=0.9949, apar ca fiind
nesemnificative variabilele explicative. Se reţine în model, ca variabilă
semnificativă, numai variabila x1.
2. Multicoliniaritatea
Una din ipotezele modelului liniar clasic de regresie este aceea că nu există
multicoliniaritate printre variabilele explicative incluse în model.
Termenul de multicoliniaritate, la originea sa însemna existenţa unei relaţii
liniare perfecte sau exacte dintre unele sau între toate variabilele explicative ale
unui model de regresie. Sensul recent al acestui termen este mai larg, referindu-se şi
la o relaţie mai puţin deterministă.
Despre două serii x1 şi x2, se spune că sunt ortogonale sau independente dacă
au covarianţa nulă: cov(x1, x2) = 0. În acest caz, coeficientul lor de corelaţie simplă
este 0. Dacă coeficientul de corelaţie simplă dintre două variabile este egal cu 1,
seriile sunt perfect corelate, fie pozitiv, fie negativ. Legătura dintre ele este perfectă
sau deterministă. Când valoarea coeficientului de corelaţie simplă este apropiată
de1, deşi relaţia lor nu este deterministă, variabilele sunt puternic corelate. În
practică seriile de date sunt mai mult sau mai puţin corelate între ele.
Multicoliniaritatea se referă strict la existenţa mai multor relaţii liniare, iar termenul
de coliniaritate se referă la existenţa unei singure relaţii liniare. Această distincţie nu
se face în practică, folosindu-se în ambele situaţii termenul de multicoliniaritate.
În cazul a două variabile explicative, intercorelaţia lor se măsoară cu
coeficientul de corelaţie simplă dintre ele. Intercorelaţia în cazul mai multor variabile
103
explicative se măsoară cu ajutorul coeficienţilor de corelaţie parţială sau prin
coeficientul de corelaţie multiplă R a unei variabile xi cu toate celelalte variabile x
considerate împreună.
În esenţă, multicoliniaritatea este un fenomen de eşantionare, deoarece chiar
dacă în populaţie, variabilele xi sunt necorelate liniar, se poate ca într-un eşantion dat,
ele să fie corelate. Astfel încât, deşi teoretic se poate considera că variabilele xi au o
influenţă separată sau independentă asupra variabilei dependente y, se poate întâmpla
ca în eşantionul dat pentru a testa funcţia de regresie a populaţiei, unele variabile xi,
să fie atât de puternic corelate, încât să nu se poată izola influenţa lor individuală
asupra lui y.
104
2.2. Detectarea multicoliniarităţii
105
3. Examinarea corelaţiilor parţiale a fost propusă de Farrar şi Glauber, tocmai
datorită problemei menţionate pentru coeficienţii de corelaţie simplă dintre
regresori. Ei susţin că, în regresia dintre y şi x1, x2, x3, dacă se găseşte că
R2yx1x2x3 este mare, şi comparativ r2yx1.x2x3, r2yx2.x1x3, r2yx3.x1x2 sunt mici, aceasta
poate sugera că variabilele x1, x2 şi x3 sunt puternic intercorelate şi că cel
puţin una din variabilele explicative este în plus. Deşi studiul coeficienţilor de
corelaţie parţială ar putea fi foarte util, totuşi nu se poate garanta că va furniza
un răspuns sigur în ceea ce priveşte multicoliniaritatea. Se poate întâmpla ca
atât R2yx1x2x3 cât şi toate corelaţiile parţiale să fie suficient de mari, încât să
pună sub semnul întrebării afirmaţia lui Farrar şi Glauber.
106
1. creşterea volumului eşantionului – este eficientă numai dacă se adaugă
observări semnificativ diferite de cele care sunt deja considerate în model, în caz
contrar, multicoliniaritatea se menţine;
2. înlăturarea variabilei puternic corelate poate conduce la o specificare
incorectă a modelului. Eroarea de specificare duce la obţinerea de estimatori eronaţi,
fiind mai dăunătoare decât acceptarea unei multicoliniarităţi mici;
3. transformarea variabilelor – în serii de diferenţe de ordinul 1. Modelul de
regresie pe diferenţele de ordinul 1, reduce severitatea multicoliniarităţii, deoarece
chiar dacă există corelaţie puternică între două variabile, nu există nici un motiv să se
considere că aceasta s-ar menţine şi între diferenţele lor de ordinul 1. Acest procedeu
are şi dezavantajele sale: termenul eroare din forma transformată a diferenţelor de
ordinul 1, s-ar putea să nu respecte una din ipotezele modelului liniar clasic, şi
anume erorile nu sunt serial corelate (corelaţie de ordinul 1). Dacă în seriile iniţiale
erorile sunt independente sau necorelate, în seria transformată, acestea vor fi serial
corelate în majoritatea cazurilor. Un alt dezavantaj este faptul că se pierde o
observare prin diferenţiere, ceea ce este important când volumul eşantionului este
mic, şi numărul gradelor de libertate se micşorează cu 1. Mai mult, în seriile de date
instantanee, procedura de diferenţiere nu este corespunzătoare, deoarece nu există o
ordine logică a datelor observate.
4. utilizarea altor metode cum sunt: analiza factorială, analiza în componente
principale, sunt deseori folosite pentru a rezolva problema multicoliniarităţii.
107
Aplicarea în practică a uneia din modalităţile de remediere, depinde de natura
datelor şi de severitatea multicoliniarităţii. Nu se recomandă utilizarea regresiei
afectată de multicoliniaritate, pentru previziune.
108
2. Selecţia progresivă (Forward Regression). Prin această procedură se
parcurge un sens invers celui descris în eliminarea progresivă.
- în prima etapă, se selectează în model o variabilă xi, care are coeficientul de
corelaţie simplă cu variabila y, cel mai mare.
- în a doua etapă se calculează coeficienţii de determinaţie parţială r2yxj.xi pentru j
i şi se reţine acea variabilă xj, care are cel mai mare coeficient de corelaţie
parţială.
Selecţia variabilelor se opreşte când raţiile t calculate devin mai mici decât valoarea
critică citită din tabela Student.
3. Regresia pas cu pas (Stepwise regression). Această procedură este identică cu
cea precedentă, a selecţiei progresive, doar că înainte de a incorpora o nouă variabilă
explicativă se examinează raţia t* a fiecăreia din variabilele explicative selecţionate
în prealabil şi se elimină din model cele care au raţiile t* mai mici decât valoarea
critică.
4. Regresia pe faze sau pe stadii (Stagewise Regression). Procedura aceasta
permite minimizarea intercorelaţiilor dintre variabilele explicative, prin studiul
reziduurilor. Etapele care se parcurg sunt următoarele:
- etapa 1: se selecţionează acea variabilă explicativă, xi, care are coeficientul de
corelaţie simplă cu y, cel mai mare;
- etapa a 2-a: se calculează reziduurile e1t yt ŷt yt (â0 â1 x it ) şi
coeficienţii de corelaţie simplă între e1t şi restul variabilelor explicative; se reţine
aceea dintre ele, xj, care are acest coeficient cel mai mare, considerând că va
explica în continuare, cel mai bine, varianţa reziduurilor;
- etapa a 3-a: se calculează un nou reziduu: e2t yt ŷt yt (â0 â1 x it â2 x jt )
109
y x1 x2 x3 x4
9.5 83.7 18 92.5 92.5
10.7 88.8 21.5 93.6 95.6
11.5 100.7 25.6 96.5 97.5
12.5 105.5 29.5 94 97.4
13.3 118.5 34.6 100.2 100.2
15.3 131.4 40.5 101.5 101.4
16.8 148.5 44.4 105.4 104.6
18.8 162 49.8 112.8 109.8
19.5 174.5 51.5 112.6 111.5
21.5 185.3 53.8 112.7 112.2
Tabelul 3.12. Eşantionul de observări
110
(13) yt = -23.63 + 0.151x2t - 0.109x3t + 0.431x4t + et R2yx2x3x4 = 0.9876
(-2.21) (2.23) (-0.76) (2.11)
(14) yt = -4.105 + 0.105x1t - 0.093x3t + 0.146x4t + et R2yx1x3x4 = 0.9948
(- 0.43) (4.50) (-1.00) (0.89)
regresia cu cele patru variabile explicative
111
3. Selecţia progresivă (Forward Regression).
În exerciţiul prezentat:
- în prima etapă se alege variabila x1. Modelul este:
112
yt x1 ŷ t e1t
9.5 83.7 9.8 -0.3
10.7 88.8 10.3 0.4
11.5 100.7 11.7 -0.2
12.5 105.5 12.2 0.3
13.3 118.5 13.7 -0.4
15.3 131.4 15.1 0.2
16.8 148.5 17.0 -0.2
18.8 162 18.5 0.3
19.5 174.5 20.0 -0.5
21.5 185.3 21.2 0.3
Tabelul 3.13. Calculul valorilor ajustate în funcţie de x1 şi reziduurile e1t
113
Rezumat
Cand variabilele explicative sunt corelate între ele apare fenomenul de
multicoliniaritate, ale cărui consecinţe nu pot fi ignorate în construirea unui model
econometric. În această situaţie a nerespectării ipotezei de independenţă a
variabilelor explicative, se identifică variabilele corelate, care se elimină din model,
pastrându-se numai cele puternic corelate cu variabila dependentă y, şi cât mai puţin
corelate între ele. Calculul coeficienţilor de corelaţie simplă dintre variabilele
explicative şi a celor de corelaţie parţială oferă informaţii pentru selecţia variabilelor
explicative în model. Aplicarea metodelor de selecţie a variabilelor explicative se
poate face combinat, pentru a ajunge la cea mai bună soluţie.
Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului.
Termeni importanţi
Multicoliniaritate, coeficienţi de corelaţie parţială de ordinul i, coeficienţi de
determinaţie parţială de ordinul i, metode de selecţie a variabilelor explicative
Întrebări recapitulative
1. Explicaţi semnificaţia coeficientului de corelaţie parţială.
2. Scrieţi toţi coeficienţii de corelaţie parţială posibi a se calcula pentru un
model cu trei variabile explicative.
3. Ce este fenomenul de multicoliniaritate?
4. Care sunt consecinţele multicoliniarităţii?
5. Care sunt mijloacele de remediere a multicoliniarităţii?
6. Care sunt metodele de selecţie a variabilelor explicative?
7. Ce se întâmplă cand un model de regresie multiplă prezintă indicatori foarte
buni de validitate, este global semnificativ, conform testului Fisher, dar are
majoritatea estimatorilor modelului nesemnificativ diferiţi de zero?
Teme de casă
Parcurgeţi exemplele din curs,utilizând calculatorul.
Folosiţi ambele metodele de estimare a coeficienţilor de corelaţie parţială de
odinul k-1, într-un model cu k variabile explicative, pentru un exemplu din curs.
114