Detecting and addressing multicollinearity in econometric models

Tema: MULTICOLINIARITATEA
1. Esenţa
Esenţa şi consecinţele multicoliniarităţii
2. Metode şi tehnici de detectare a multicoliniarităţii
3. Metode de atenuare sau remediere a multicoliniarităţii
4. Metode de selectare a variabilelor explicative.
5. Coeficienţii parţiali de corelaţie
-1-
Una din ipotezele modelului econometric clasic - I10 spune: nu există multicoliniaritate printre
variabilele explicative incluse în model. Adică variabilelor exogene x1, x2 …xk nu sunt corelate (sau
cel puţin nu sunt perfect corelate), ci sunt independente
cov (xi, xj )=0,
Astfel multicoliniaritatea poate fi definită ca o legătură liniară funcțională (sau ca o relație
liniară puternică) existentă între două sau mai multe variabile exogene într-un model econometric
de forma:
y   0   1 x1   2 x 2  ...   k x k  u
Multicoliniaritatea variabilelor exogene e un fenomen des întâlnit în cadrul modelelor

multifactoriale datorită multiplelor relaţii de dependenţă şi interdependenţă dintre variabilele
economice. În acest scop se impune o abordare econometrică în scopul depistării şi eliminării
acestuia.
Termenul de multicoliniaritate este utilizat atunci când la baza unui model econometric stau
variabile explicative ce depind una de alta. Faptul că două au mai multe variabile exogene se află
într-o corelaţie semnificativă afectează calitatea rezultatelor obţinute, deoarece variaţia variabilei
dependente nu mai este explicată prin contribuţia separată distinctă a fiecărei variabile exogene în
parte. Astfel parametrul de regresie îşi pierde sensul economic. În coeficientul de regresie al unei
variabile explicative xi este inclusă şi influenţa unei alte variabile xj cu care prima este corelată.
În termeni econometrici multicoliniaritatea are următoarele consecinţe de bază:
 dispersii mari ale estimatorilor coeficienţilor de regresie. Dispersia estimatorilor funcţiei de
2
regresie S b este cu atât mai mare cu cât gradul de multicoliniaritate este mai ridicat.
 intervale mari de încredere ale estimatorilor, din cauza abaterilor standard mari – ( S b );
 raţiile t -Student nesemnificative, din cauza abaterilor standard mari;
 un coeficient mare de determinaţie R2, dar raţiile t nesemnificative;
 instabilitatea estimatorilor funcției şi a abaterilor lor standard la mici schimbări ale datelor.
Stabilitatea unui estimator reprezintă acea caracteristică a eşantionului de observaţii statistice care
face ca adăugarea de noi observaţii (extinderea eşantionului) să nu modifice semnificativ valoarea
coeficienţilor estimaţi. Multicoliniaritatea este caracterizată prin fluctuaţii importante atât ca semn
cât şi ca mărime a valorilor iniţiale ale coeficienţilor estimaţi, iar acest fapt afectează viabilitatea
modelului, modelul nu mai poate fi utilizat în cadrul analizei şi prognozei.
 singularitatea matricei XTX. În caz de multicoliniaritate perfectă matricea X TX este singulară
si determinatul ei este egal cu 0). În acest caz inversa respectivei matrice nu există si estimarea
coeficienţilor este imposibilă.
-2-
Detectarea fenomenului de multicoliniaritate se poate efectua cu ajutorul mai multor
procedee şi teste cum ar fi:
 Reprezentarea grafică a seriilor de valori corespunzătoare variabilelor explicative. În cazul în
care se constată analogii în evoluţia acestor variabile putem aprecia existenţa unor corelaţii suficient
de intense între variabilele respective.
xj
x1
x2
 Calculul determinantului matricei XTX. Dacă valoarea acestui determinant se apropie de 0,

acest fapt ne indică o intercorelare strânsă dintre variabilele exogene. Dacă D(X TX)<0,1 se
consideră că fenomenul de multicoliniaritate este prezent.
 Calculul mărimii coeficientului de determinaţie R2. Această valoare este comparată cu
mărimea aceluiaşi coeficient obţinut în condiţiile în care una din variabilele factoriale este omisă
din model. În cazul în care valorile coeficienţilor sunt apropiate ca mărime se poate considera că
variabila omisă este coliniară ci celelalte variabile factoriale. Absenţa acestei variabile din model ar
fi de dorit întrucât ar conduce la diminuarea multicoliniarităţii fără a afecta semnificativ gradul de
determinare a factorilor asupra variabilei efect.
 Testele statistice t(Student), utilizat în vederea verificării semnificaţiei parametrilor modelului
şi testul F (Fisher) utilizat în vederea verificării semnificaţiei modelului diferă ca sens. În cazul în
care testul F semnalează semnificaţie, iar testul t, aplicat în acelaşi model, semnalează
nesemnificaţii în rândul parametrilor, acest lucru reprezintă un indiciu al prezenţei
multicoliniarităţii.
 Testul Klein care constă în compararea coeficientului de determinaţie R2 calculat pe baza unui
model de k factori şi fiecare coeficient de corelaţie simplă dintre variabilele explicative ridicate la
pătrat rxi2 ,xj . Dacă R 2  rxi2 , xj atunci există prezumţia de multicoliniaritate.

 Calcularea determinantului corespunzător matricei coeficienţilor de corelaţie simplă
dintre variabilele exogene care are forma:
1 rx1x2 rx1x3 .... rx1xk

rx1x2 1 rx 2 x3 ... rx2 xk
D=
...... ...... ...... ... ......
rx1xk rx 2 xk rx3xk 1
În cazul în care determinantul tinde către valoarea zero există riscul prezenţei
multicoliniarităţii.
 Testul lui Farrar şi Glauber
Detectarea multicoliniarităţii presupune parcurgerea a 2 etape:
a) calcularea determinantului corespunzător matricii coeficienţilor de corelaţie simplă dintre
variabilele exogene.
b) efectuarea testului  2 , postulând următoarele ipoteze:
H0: D=1 (seriile sunt independente)
H1: D<1 (seriile sunt dependente, avem multicoliniaritate)
Valoarea empirică  2 calculată de Farrar şi Glauber:
1
 2  [n  1  (2 p  5)] * ln D
6
n- mărimea eşantionului, p- numărul de parametri în model. Valoarea  2 se compară cu  2
preluată din cadrul tabelelor repartiţiei  2 „hi pătrat” corespunzător unui nivel de semnificaţie α şi
1
p ( p  1) grade de libertate.
2
Dacă  2   2 atunci vom accepta ipoteza nulă H0, ipoteza de independent[, dacă însă  2   2 vom
accepta ipoteza alternativă H1, ecuaţia de regresie fiind susceptibilă de multicoliniaritate.
-3-
Printre metodele de atenuare sau remediere a multicoliniarităţii vom enumera:
a) Extinderea eşantionului. Datorită faptului că seriile de date privind variabila efect şi factorii
săi determinanţi sunt alcătuite, de cele mai dese ori, dintr-un număr redus de termeni se recomandă
includerea de termeni suplimentar, astfel încât eventualele analogii să fie pe cât posibil eliminate.
Această metodă însă are un grad redus de eficienţă, deoarece fie nu există posibilitatea includerii de
observaţii statistice suplimentare, presupunând că toate datele disponibile sunt utilizate, fie că noile
date introduse nu vor modifica în mod esenţial caracteristicile eşantionului iniţial şi nu vor conduce
la atenuarea multicoliniarităţii.
b) Renunţarea la una sau câteva variabile exogene. În situaţia în care 2 variabile explicative sunt
intens corelate se renunţă la una din ele, considerându-se că variabila omisă este exprimată de cea
reţinută în model.
c) Trecerea la valori exprimate prin diferenţe de ordinul unu sau logaritmarea valorilor
variabilelor Y şi Xj Dacă datele sunt prezentate sub formă de serii cronologice se pot calcula
diferenţele de ordinul 1: (1)  y t  y t 1 sau trecerea la valori logaritmate, în scopul atenuării

coliniarităţii cauzate de prezenţa trendului în cadrul seriilor de date.
d) Aplicarea regresiei Ridge. Este o metodă pur numerică şi constă în transformarea matricii XTX
într-o matrice (XTX +cI) unde c este o constantă arbitrar aleasa, iar I- matricea unitară. Constanta c
multiplicată cu elementele diagonalei principale face să crească valorile acestora, reducând în acest
fel efectele numerice ale multicoliniarităţii.
naˆ 0  c  aˆ1  x1i  aˆ 2  x 2i  ...  aˆ k  x ki   y i

 i i i i
aˆ
 0 x1i  aˆ1  x12i  c  aˆ 2  x1i x 2i ...  aˆ k  x1i x ki   y i x1i
 i i i i i
.............................................................................................

aˆ 0  x ki  aˆ1  x1i x ki  c  aˆ 2  x 2i x ki ...  aˆ k  x ki  c   y i x ki
2
 i i i i i
-4-
În practică în cadrul elaborării unui model multifactorial ne confruntăm cu alegerea variabilelor
explicative x1 x2,…xk candidate la explicarea variabilei rezultative y. Includerea în cadrul ecuaţiei
de regresie multiplă al unui set de factori de maximă semnificaţie este legat în primul rând de
perceperea şi experienţa cercetătorului privind natura interdependenţei dintre indicatorul supus
modelării şi factorii de influenţă ce-l determină.
Factorii incluşi in model trebuie să satisfacă următoarele condiţii:
a) ei trebuie să fie exprimaţi cantitativ. În cazul includerii unor factori calitativi e necesar să li
se atribuie o expresie numerică.
b) factorii nu trebuie să fie corelaţi între ei şi cu atât mai mult să nu fie într-o legătură
funcţională.
Daca construim un model multifactorial de k factori atunci includerea unui factor suplimentar
trebuie să satisfacă următoarele condiţii: Rk21  Rk2 şi S u ( k 1)  S u ( k )

2 2
Selecţia variabilelor exogene are loc în baza unei analize teoretico-economice calitative.
Totuşi analiza teoretică deseori nu oferă un răspuns clar privind exprimarea cantitativă a intensităţii
legăturii dintre variabile şi oportunitatea includerii unui factor în model. Astfel in primă faza se aleg
factorii de influenţă reieşind din esenţa problemei. Apoi pe baza matricei coeficienţilor de corelaţie
simplă sunt aleşi factorii ce au o intensitate puternică cu variabila rezultativă.
La fel pe baza acestei matrice poate fi analizată corelaţia dintre factori şi a elimina variabilele
explicative ce se dublează. Două variabile sunt evident corelate dacă rxixj  0,7 . Dacă factori sunt
puternic corelaţi atunci ei se dublează şi unul din ei trebuie eliminat din model. Preferinţă i se
acordă nu factorului ce este cel mai puternic corelat cu variabila y, ci factorului care fiind puternic
corelat cu y are în acelaşi timp o corelaţie mai slabă cu ceilalţi factori. Presupunem ca avem un
model de 3 factori şi este cunoscută matricea coeficienţilor de corelaţie simplă:
y x1 x2 x3 Este evident că factorii x1 şi x2 se dublează rx1x 2  0,8

y 1 0,8 0,7 0,6 corelaţie puternică. În model este binevenită includerea
x1 0,8 1 0,8 0,5
x2 0,7 0,8 1 0,2 variabilei x2 şi nu x1 cu toate că corelaţia variabilei x1 cu
x3 0,6 0,5 0,2 1
y este mai mare decât cea a variabilei x 2 cu y
ryx1  ryx 2 0,8  0,7 . Dar corelaţia fiecărui factor x1 şi x2 cu variabila x3 ne arată că
.
rx1x 3  0,5 iar rx 2 x 3  0,2 Astfel vom alege x2 şi x3 aceste variabile fiind mai puţin corelate având
o influenţă medie asupra variabilei rezultative.

Sunt însă o serie de proceduri sau metode ce permit mai uşor de a face selectarea variabilelor
explicative şi în acelaşi timp să evităm fenomenul de multicoliniaritate.
1) Metoda regresiei multiple. Toate regresiile posibile. Vor fi estimate toate modelele posibile
prin combinarea variabilelor independente. Dacă vom avea k factori vom avea 2k-1
combinaţii. Pentru fiecare model calculându-se testându-se semnificaţia coeficienţilor de
regresie prin testul t-Student la fel calculându-se R2 reţinându-se modelul cu R2 maximal.
Evident, această metodă este aplicată numai în cazul uni număr redus de variabile
independente, deoarece ansamblul combinaţiilor posibile creşte exponenţial cu acest număr
(dacă k=6 numărul de combinaţii este 63)
2) Metoda eliminării progresive (backward elimination). Acest procedeu constă efectuarea
unei regresii complete cu toate k variabile explicative. Eliminarea are lor din aproape în
aproape, adică acea variabilă căreia îi corespunde un cel mai mic t-Student sub nivelul critic
acceptat va fi eliminată din ecuaţie, iar regresia este reestimată în noile condiţii. (
bj
t aˆj   t , n  p  b j  0 şi xj este eliminată din model). Procedeul continuă prin eliminarea
S bj
progresivă a altor variabile aflate în aceleaşi situaţie până la obţinerea unei ecuaţii
satisfăcătoare. Această procedură este reală doar când prima ecuaţie poate fi estimată ceea ce
nu se reuşeşte adeseori existând riscul ca matricea XTX să fie singulară.
3) Metoda selectării progresive (forward selection). Este un procedeu opus celui precedent.
Ecuaţia de regresie iniţială în acest caz conţine o singură variabilă explicativă, cea care
prezintă cel mai mare coeficient de corelaţie simplă cu variabila explicată y. Fie xj acea
variabilă inclusa în model. În a doua etapă se determină coeficienţii de corelaţie parţială între
y şi fiecare din celelalte variabile explicative şi se reţine acea variabilă a cărui coeficient este
mai relevant.
4) Metoda regresiei pas cu pas (forward stepwise regresion). Această procedură este identică
celei precedente, singura diferenţă constând în faptul că după introducerea unei noi variabile
exogene se analizează testul t-Student al fiecărei variabile selecţionate în prealabil
eliminându-se acelea al cărui t este inferior nivelului critic acceptat.
5) Metoda regresiei etapizate sau regresia pe faze (stagewise regresion). Acest procedeu
constă în selectarea variabilelor care se bazează pe minimizarea intercorelaţiilor existente între
variabilele explicative prin analiza termenului rezidual.
Prima etapă porneşte de la analiza coeficienţilor de corelaţie ryxj. Se alege acea variabilă explicativă
al cărui coeficient de corelaţie simplă cu variabila endogenă y este cel mai ridicat (max ryxj).
Fie acea variabilă xm. Se construieşte modelul liniar ŷ =b0+b1xm şi se determină variabile
reziduală corespunzător acestei regresii: e1  y  b0  b1 x m
În etapa a doua se calculează coeficienţii de corelaţie simplă între e1 şi fiecare dintre variabilele
explicative rămase ( re1xj j  m) reţinând variabila cu cel mai mare coeficient (max re1xj). Fie
xh variabilă nouă ce va fi introdusă în model.

Etapa 3. Se construieşte un al doilea model ce corespunde dependenţei variabilei y şi celor două
variabile exogene reţinute în etapele precedente: ŷ =b0+b1xm+b2xh calculându-se ulterior şi
valorile termenului rezidual e2 pentru modelul 2: e2  y  b0  b1 x m  b2 x h
Etapa 4. Se calculează din nou coeficienţii de corelaţie între noul termen rezidual e2 şi fiecare
variabilă explicativă rămasă (re1xj j  m, h) reţinându-se variabila pentru care coeficientul
respectiv are cea mai ridicată valoare (max re2xj). Noua variabila introdusă permite modelarea
unui nou model şi calcularea valorilor pentru cel de-al treilea termen rezidual.
Procedeul continuă până in momentul în care coeficienţii de corelaţie simplă calculaţi devin
foarte apropiaţi de zero. Toate aceste modele obţinute pe parcurs sunt testate cu ajutorul testelor
cunoscute „t” şi „F” urmărindu-se şi verificarea condiţiei: RY , Xm  RY , Xh  ...  RY , XmXh... Xk adică are
2 2 2
loc o creştere progresivă a coeficientului de determinaţie.
-5-
Coeficienţii parţiali de corelaţie caracterizează intensitatea legăturii dintre variabila
rezultativă y şi un oarecare factor de influenţă xj prin eliminarea influenţei celorlalţi factori incluşi
în ecuaţia de regresie.
Într-un model de m factori y  a  b1 x1  b2 x2 ...  bm xm   coeficientul de corelaţie
parţială exprimă influenţa variabilei xi asupra rezultatului y în condiţiile in care influenţa altor
factori din model este eliminată:
1  Ryx2 1x2 ... xi ... xm

ryxi x1x2 ... xi 1xi 1... xm  1  (1)
1  Ryx2 1x2 ... xi 1xi 1... xm
unde: Ryx2 1x2 ... xi ... xm coeficientul de determinaţie a modelului cu m factori, Ryx2 1x2 ... xi 1xi 1... xm
coeficientul de determinaţie a modelului în care variabila xi nu a fost inclusă.
Într-un model de 2 factori relaţia (1) devine:
1  Ryx2 1x2 1  Ryx2 1x2

ryx1x2  1  ryx2 x1  1  (1a)
1  ryx2 2 1  ryx2 1
unde:
ryx1x2 coeficientul parţial de corelaţie dintre y şi x1 în condiţiile în care influenţa factorului
x2 a fost eliminată,
ryx2  x1 coeficientul parţial de corelaţie dintre y şi x2 în condiţiile în care influenţa factorului
x1 a fost eliminată
Ordinul coeficienţilor de corelaţie parţiali se determină în funcţie de numărul de factori a
căror influenţă este eliminată. Astfel ryx1x2 este un coeficient de corelaţie parţială de ordinul 1.
Corespunzător coeficienţii de corelaţie simplă se numesc coeficienţi de corelaţie de ordinul 0.
În cadrul unui model de 2 factori putem utiliza și relaţiile de mai jos:
ryx1  ryx2 �
rx1x2 ryx2  ryx1 �
rx1x2
ryx1�x2  ryx2 �x1 
( 1  r ) �( 1  r )
2
yx2
2
x1x2 ( 1  r ) �( 1  r )
2
yx1
2
x1x2

Detecting and addressing multicollinearity in econometric models

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Detecting and addressing multicollinearity in econometric models

Încărcat de

Drepturi de autor:

Formate disponibile

Tema: MULTICOLINIARITATEA

Multicoliniaritatea variabilelor exogene e un fenomen des întâlnit în cadrul modelelor

 Calculul determinantului matricei XTX. Dacă valoarea acestui determinant se apropie de 0,

pătrat rxi2 ,xj . Dacă R 2  rxi2 , xj atunci există prezumţia de multicoliniaritate.

1 rx1x2 rx1x3 .... rx1xk

n- mărimea eşantionului, p- numărul de parametri în model. Valoarea  2 se compară cu  2

diferenţele de ordinul 1: (1)  y t  y t 1 sau trecerea la valori logaritmate, în scopul atenuării

naˆ 0  c  aˆ1  x1i  aˆ 2  x 2i  ...  aˆ k  x ki   y i

trebuie să satisfacă următoarele condiţii: Rk21  Rk2 şi S u ( k 1)  S u ( k )

y x1 x2 x3 Este evident că factorii x1 şi x2 se dublează rx1x 2  0,8

o influenţă medie asupra variabilei rezultative.

xh variabilă nouă ce va fi introdusă în model.

loc o creştere progresivă a coeficientului de determinaţie.

1  Ryx2 1x2 ... xi ... xm

1  Ryx2 1x2 1  Ryx2 1x2

S-ar putea să vă placă și