Sunteți pe pagina 1din 20

Multicoliniaritatea

Multicoliniaritatea perfectă înseamnă încălcarea celei de-a VI ipoteze clasice, conform


căreia nicio variabilă independentă nu este o funcție liniară a uneia sau a mai multor altor
variabile independente. Multicoliniaritatea perfectă este rară, dar multicoliniaritatea
imperfectă severă, deși nu încalcă ipoteza VI, cauzează probleme semnificative. Un coeficient
𝛽𝑘 poate fi interpretat ca reprezentând impactul asupra variabilei dependente, 𝑌, a unei
unități de creștere a variabilei independente 𝑋𝑘 , menținând constante celelalte variabile
independente din ecuație. Dacă două variabile explicative sunt în mod semnificativ legate,
modificarea uneia va determina modificarea celeilalte. OLS va fi pus în imposibilitatea de a
separa efectele modificării unei variabile de efectele modificării celeilalte.
În esență, cu cât două sau mai multe variabile independente sunt mai corelate, cu atât
devine mai dificil să se estimeze cu exactitate coeficienții adevărați ai modelului. Dacă două
variabile se mișcă identic, atunci nu există nicio speranță de a face distincția între impactul
lor, dar dacă variabilele sunt corelate doar aproximativ, atunci se pot estima cele două efecte
suficient de exact, în majoritatea cazurilor care prezintă interes.

Multicoliniaritatea perfectă

Multicollinearitatea perfectă încalcă ipoteza clasică VI, care specifică faptul că nicio
variabilă explicativă nu este o funcție liniară perfectă a oricăror altor variabile explicative.
Cuvântul perfect în acest context implică faptul că mișcările unei variabile explicative pot fi
complet explicate prin mișcări ale altor variabile explicative. O astfel de funcție liniară
perfectă între două variabile independente ar putea fi:

𝑋1𝑖 = 𝛼0 + 𝛼1 𝑋2𝑖

unde 𝛼0 și 𝛼1 sunt constante, iar 𝑋1 și 𝑋2 sunt variabile independente în ecuația de regresie:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

Se observă că nu există un termen de eroare în prima ecuație. Aceasta implică faptul că 𝑋1


poate fi calculat exact, dat fiind 𝑋2 și valorile constantelor 𝛼0 și 𝛼1 . Ecuațiile tipice pentru
astfel de relații liniare perfecte pot fi de genul:

𝑋1𝑖 = 3𝑋2𝑖
𝑋1𝑖 = 2 + 4𝑋2𝑖

Care sunt cele câteva exemple din lumea reală a multicoliniarității perfecte? Cele mai
simple exemple implică aceeași variabilă măsurată în unități diferite.
𝑋2

0 𝑋1

Figura 1. Multicoliniaritate perfectă


Multicoliniaritatea perfectă implică faptul că o variabilă independentă poate fi complet explicată prin mișcările
uneia sau a mai multor altor variabile independente. Multicoliniaritatea perfectă poate, de obicei, să fie evitată
prin screening-ul atent al variabilelor independente, înainte de a se efectua regresia.

De exemplu, distanța dintre două orașe, măsurate în mile cu 𝑋1 și în kilometri cu 𝑋2.


Datele pentru variabile arată destul de diferit, dar acestea sunt perfect corelate! Un exemplu
mai subtil este acela când cele două variabile însumate dau întotdeauna aceeași sumă, de
exemplu 𝑃1 , procentul de alegători care au votat în favoarea unei propuneri și 𝑃2 , procentul
celor care au votat împotriva ei (presupunând că nu sunt abțineri), care se obține
completând primul procent până la 100% . Prin urmare, 𝑃1 și 𝑃2 sunt perfect corelate
(negativ).
Figura 1 prezintă un grafic al variabilelor explicative care sunt perfect corelate. Se
poate observa că există o relație liniară perfectă între 𝑋1și 𝑋2. Toate punctele observate se
află pe aceeași linie dreaptă. Nu există nicio varianță care să însoțească datele, cum este într-
o regresie tipică. Ce se întâmplă cu estimarea unei ecuații econometrice în care există
multicoliniaritate perfectă? 𝑂𝐿𝑆 este incapabil să genereze estimări ale coeficienților de
regresie, iar majoritatea software-urilor specializate vor tipări, într-o astfel de situație, un
mesaj de eroare. Folosind ecuația de regresie de mai sus, de exemplu, teoretic se obțin
următoarele mesaje pentru estimatorii coeficienților și pentru erorile lor standard:

𝛽̂1 = 𝑖𝑛𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑡𝑒 𝑆𝐸(𝛽̂1 ) = ∞


𝛽̂2 = 𝑖𝑛𝑑𝑒𝑡𝑒𝑟𝑚𝑖𝑛𝑎𝑡𝑒 𝑆𝐸(𝛽̂2 ) = ∞
Multicoliniaritate perfectă face imposibilă estimarea valorilor coeficienților, deoarece
cele două variabile nu pot fi distinse. Nu se poate spune „păstrând toate celelalte variabile
independente din ecuație constante” dacă de fiecare dată când o variabilă independentă se
modifică, altă variabilă independentă se modifică într-un mod identic.
Din fericire, cazurile în care o variabilă independentă este o funcție liniară perfectă a
alteia sunt rare. Mai important, multicoliniaritatea perfectă ar trebui să fie destul de ușor de
descoperit înainte de executarea unei regresii. Se poate detecta multicoliniaritatea perfectă
văzând dacă o variabilă este egală cu un multiplu al altei sau dacă o variabilă poate fi derivată
din alta adăugând o constantă sau dacă o variabilă este egală cu suma a altor două variabile.
Dacă da, atunci una dintre variabile ar trebui eliminată, deoarece nu există nicio diferență
esențială între cele două.
Un caz special legat de multicoliniaritatea perfectă apare atunci când o variabilă care
este legată prin definiție de variabila dependentă este inclusă ca o variabilă independentă
într-o ecuație de regresie. O astfel de variabilă dominantă este, prin definiție, atât de puternic
corelată cu variabila dependentă, încât maschează complet efectele tuturor celorlalte
variabile independente din ecuație. Într-un anumit sens, acesta este un caz de perfectă
coliniaritate între variabila dependentă și o variabilă independentă. De exemplu, dacă o
variabilă care măsoară cantitatea de materii prime utilizate în industria încălțămintei se
include într-o funcție de producție pentru acea industrie, variabila materiilor prime va avea
un scor t extrem de ridicat, altfel încât alte variabile importante precum munca sau capitalul
vor avea scoruri t destul de nesemnificative. De ce? În esență, dacă se știe câtă piele este
folosită de o fabrică de încălțăminte și câtă piele întră la o pereche de încălțăminte, se poate
prezice exact numărul de perechi de perechi de încălțăminte produse, fără să se știe nimic
despre forță de muncă sau capital. Relația este definitorie, iar variabila dominantă trebuie
eliminată din ecuație pentru a obține estimări rezonabile ale coeficienților celorlalte
variabile.
Variabilele dominante nu trebuie confundate cu variabilele independente
semnificative sau importante. În schimb, ele trebuie recunoscute ca fiind practic identice cu
variabila dependentă. În timp ce potrivirea dintre cele două este superbă, cunoașterea
acestei potriviri ar fi putut fi obținută din definițiile variabilelor, fără o estimare
econometrică.

Multicoliniaritatea imperfectă

Deoarece multicoliniaritatea perfectă este destul de ușor de evitat, econometricienii


vorbesc foarte rar despre aceasta. În schimb, atunci când se folosește cuvântul
multicoliniaritate, se vorbește cu adevărat despre multicoliniaritate imperfectă severă.
Multicoliniaritatea imperfectă poate fi definită ca o relație funcțională liniară între două sau
mai multe variabile independente, care este atât de puternică încât poate afecta semnificativ
estimarea coeficienților variabilelor. Cu alte cuvinte, multicoliniaritatea imperfectă apare
atunci când două sau mai multe variabile independente sunt legate într-un mod imperfect,
ca în relația următoare:

𝑋1𝑖 = 𝛼0 + 𝛼1 𝑋2𝑖 + 𝑢𝑖

Comparând această ecuație cu cea de la multicoliniaritatea perfectă, se observă că


include termenul 𝑢𝑖 , un termen de eroare stocastică. Aceasta implică faptul că, deși relația
dintre 𝑋1 și 𝑋2 ar putea fi destul de puternică, nu este suficient de puternică pentru a permite
ca 𝑋1 să fie complet explicat de 𝑋2. Rămâne încă o variație neexplicată, inclusă în 𝑢𝑖 . Figura
2 prezintă graficul a două variabile independente care ar putea fi considerate imperfect
multicoliniare. Se observă că, deși toate observările din eșantion sunt destul de aproape de
linia dreaptă, există încă o variație în 𝑋1 care nu poate fi explicată de 𝑋2.
Multicoliniaritatea imperfectă este o relație liniară puternică între variabilele
explicative. Cu cât relația este mai puternică între două sau mai multe variabile explicative,
cu atât este mai probabil ca acestea să fie considerate semnificativ multicoliniare. Două
variabile care ar putea fi doar ușor legate într-un eșantion, ar putea fi atât de puternic legate
într-un altul, încât ar putea fi considerate imperfect multicoliniare.

𝑋2

0 𝑋1

Figura 2. Multicoliniaritate imperfectă


Cu multicoliniaritatea imperfectă, o variabilă independentă este o funcție liniară puternică, dar nu perfectă a
uneia sau mai multor altor variabile independente. Multicoliniaritatea imperfectă variază în grad de la eșantion
la eșantion.
În acest sens, este corect să se spună că multicoliniaritatea este atât un fenomen de
eșantion, cât și unul teoretic. Acest lucru contrastează cu multicoliniaritatea perfectă,
deoarece două variabile care sunt perfect legate probabil pot fi detectate în mod logic.
Detectarea multicoliniarității va fi discutată mai detaliat în continuare.

Consecințele multicoliniarității

Dacă multicoliniaritatea într-un anumit eșantion este severă, ce se va întâmpla cu


estimatorii calculați pe baza eșantionului respectiv? Scopul acestei secțiuni este de a explica
consecințele multicoliniarității și apoi de a explora câteva exemple de astfel de consecințe.
Se reamintește că estimatorii 𝑂𝐿𝑆 sunt 𝐵𝐿𝑈𝐸 dacă ipotezele clasice sunt îndeplinite. Acest
lucru înseamnă că estimatorii 𝑂𝐿𝑆 sunt nedeplasați și au varianța minimă posibilă dintre toți
estimatorii liniari nedeplasați. Consecințele majore ale multicoliniarității sunt:

1. Estimatorii rămân nedeplasați. Chiar dacă într-o ecuație multicoliniaritatea este


semnificativă, valorile estimate ale coeficienților 𝛽 vor fi în continuare centrate în jurul
adevăraților coeficienți ai populației, atunci când celelalte ipoteze clasice sunt
îndeplinite, iar ecuația este corect specificată.

2. Varianțele și erorile standard ale distribuțiilor de eșantionare vor crește. Aceasta este
consecința principală a multicoliniarității. Când două sau mai multe variabile
independente sunt în mod semnificativ legate între ele, devine dificilă identificarea cu
precizie a efectelor separate ale lor. Când devine dificilă separarea efectului unei
variabile de efectul alteia, există mult mai multe șanse să se comită erori mari în
estimarea coeficienților β. Ca urmare, coeficienții estimați, deși vor fi încă nedeplasați,
vor proveni din distribuții de eșantionare cu varianțe mult mai mari și, prin urmare, cu
erori standard mult mai mari.
Chiar dacă varianțele și erorile standard sunt mai mari în prezența multicoliniarității
decât în absența sa, estimatorii 𝑂𝐿𝑆 sunt în continuare estimatori 𝐵𝐿𝑈𝐸. Cu alte cuvinte,
prin nici o altă tehnică liniară de determinare a unor estimatori nedeplasați nu se pot
obține distribuții de eșantionare cu varianțe mai mici decât cele produse de 𝑂𝐿𝑆. Astfel,
deși efectul multicoliniarității este acela de a crește varianța distribuțiilor de eșantionare
ale coeficienților, distribuțiile de eșantionare produse de 𝑂𝐿𝑆 au varianțe minime. Aceste
„varianțe minime” sunt destul de mari în prezența multicoliniarității.
În Figura 3 sunt ilustrate două distribuții de eșantionare ale unui coeficient 𝛽: o
distribuție de eșantionare pentru un eșantion cu multicoliniaritate severă și o distribuție
de eșantionare pentru un eșantion fără multicoliniaritate severă, adică fără corelații
strânse între oricare dintre variabilele independente. Se observă că cele două distribuții
au aceeași medie, ceea ce indică faptul că multicoliniaritatea nu provoacă un
deplasament. De asemenea, se observă cât de “largă” devine distribuția de eșantionare a
coeficientului 𝛽 atunci când multicoliniaritatea este severă. Datorită acestei varianțe mai
mari, multicollinearitatea crește probabilitatea obținerii unui semn neașteptat pentru un
coeficient, chiar dacă, așa cum s-a menționat anterior, multicoliniaritatea nu provoacă
deplasamente.

Fără multicoliniaritate severă

Cu multicoliniaritate severă

β 𝛽̂

Figura 3. Multicoliniaritatea severă crește varianța distribuției coeficienților 𝛽̂


Multicoliniaritatea severă produce o distribuție a lui 𝛽̂ , care este centrată în jurul adevăratului 𝛽, dar care are
o varianță mult mai mare. Astfel, distribuția 𝛽̂ -urilor în prezența multicoliniarității este mult mai largă decât în
absența sa, crescând probabilitatea obținerii unui semn neașteptat pentru valorile estimate ale lui 𝛽̂

3. Scorurile au rațiile 𝑡 calculate vor scădea. Multicoliniaritatea tinde să scadă scorurile 𝑡


ale coeficienților estimați, calculate prin formula:

(𝛽̂𝑘 − 𝛽𝐻0 )
𝑡𝑘 =
𝑆𝐸(𝛽̂𝑘 )

Se observă că în această ecuație eroarea standard este la numitor. Multicoliniaritatea


crește eroarea standard a coeficientului estimat, iar dacă eroarea standard crește, atunci
scorurile 𝑡 scad. Este frecventă observarea unor scoruri 𝑡 scăzute în ecuații cu
multicoliniaritate severă. În mod similar, intervalele de încredere calculate se vor lărgi.
Deoarece multicoliniaritatea crește eroarea standard a coeficientului estimat, intervalul
de încredere devine mai larg (vezi ecuația de calcul a intervalului de încredere). Cu alte
cuvinte, deoarece 𝛽̂ este probabil să fie situat mai departe de adevăratul 𝛽, intervalul de
încredere, în mod necesar, crește.

4. Estimările vor deveni foarte sensibile la modificări ale modului de specificare a ecuației
de regresie. Atunci când multicoliniaritatea este semnificativă, adăugarea sau eliminarea
unei variabile independente sau a câtorva observări din eșantion, vor determina adesea
modificări majore ale valorilor estimate, 𝛽̂ . Dacă se renunță la o variabilă explicativă,
chiar la una care pare a fi nesemnificativă statistic, coeficienții variabilelor rămase în
ecuație se vor schimba uneori dramatic.
Aceste mari schimbări apar deoarece estimarea 𝑂𝐿𝑆 este uneori forțată să sublinieze
micile diferențe între variabile pentru a distinge efectul unei variabile multicoliniare de
efectul celorlalte. Dacă două variabile sunt practic identice în cea mai mare parte a
eșantionului, pentru a face distincția dintre ele procedura de estimare se bazează pe
observările în care variabilele se mișcă diferit. Ca urmare, o modificare a specificației
prin care se elimină o variabilă care are o valoare neobișnuită pentru una dintre aceste
observări cruciale poate provoca schimbarea dramatică a coeficienților estimați ai
variabilelor multicoliniare.

5. Gradul general de ajustare sau de potrivire al ecuației (overall fit) și valorile estimate ale
coeficienților variabilelor necoliniare, în mare măsură, nu vor fi afectate. Chiar dacă
scorurile 𝑡 individuale sunt adesea destul de scăzute într-o ecuație multicoliniară,
ajustarea generală a ecuației, măsurată de 𝑅 2 , nu va scădea mult sau chiar deloc, în
prezența multicoliniarității severe. Având în vedere acest lucru, unul dintre primele
indicii ale multicoliniarității severe este combinația între un 𝑅 2 ridicat și niciun coeficient
de regresie individual semnificativ statistic. În mod similar, dacă o variabilă explicativă
într-o ecuație nu este multicoliniară cu celelalte variabile, atunci estimarea coeficientului
său și a erorii sale standard nu va fi, de obicei, afectată.
Deoarece overall fit este, în mare parte, neafectat de multicoliniaritatea severă, este
posibil ca prin testul 𝐹 de semnificație generală să se respingă ipoteza nulă, chiar dacă
niciunul dintre testele 𝑡 pe coeficienții individuali nu poate face acest lucru. Un astfel de
rezultat este un indiciu clar al multicoliniarității imperfecte severe.
În cele din urmă, având în vedere că multicoliniaritatea are un efect redus asupra
gradului de ajustare generală al ecuației, aceasta va avea, de asemenea, un efect redus
asupra utilizării ecuației pentru predicție sau prognoză, atât timp cât între variabilele
independente se mențin același tip de relații de multicoliniaritate care au existat în
eșantionul utilizat și în perioada de prognoză.
Două exemple de consecințe ale multicoliniarității

Pentru a observa efectele multicoliniarității severe într-o ecuație de regresie, se va


analiza un exemplu ipotetic, denumit „funcția de consum a studenților”. După parcurgerea
pașilor preliminari corespunzători 1 , se alege ecuația de regresie următoare (ipotezele
privind semnele parametrilor sunt menționate deasupra acestora):
+ −
𝐶𝑆𝑖 = 𝛽0 + 𝛽1 ∙ 𝑌𝐷𝑖 + 𝛽2 ∙ 𝐿𝐴𝑖 + 𝜀𝑖

Rezultatele estimării sunt următoarele:

̂ 𝑖 = −367.83 + 0.5113 ∙ 𝑌𝐷𝑖 + 0.0427 ∙ 𝐿𝐴𝑖


𝐶𝑆
(1.0307) (0.0942)
𝑡 = 0.496 0.453
̅ 2
𝑅 = 0.835

unde: 𝐶𝑆𝑖 = cheltuielile anuale de consum ale studentului 𝑖, în alte scopuri decât școlarizarea
sau plata cazării la căminele studențești;
𝑌𝐷𝑖 = venitul disponibil anual, inclusiv cadourile, al studentului 𝑖;
𝐿𝐴𝑖 = activele lichide, cum ar fi sumele economisite păstrate în conturi bancare, ale
studentului 𝑖;
𝜀𝑖 = termenul de eroare stohastică.

Pentru exemplificare, s-au colectat câteva date de la studenții dintr-o grupă, cele din
Tabelul 1. S-a efectuat apoi o estimare 𝑂𝐿𝑆 pe setul de date respectiv, pentru ecuația de
regresie reprezentând funcția de consum a studentului.

Tabelul 1: Cheltuielile, veniturile și activele lichide ale studenților


Student 𝐶𝑆𝑖 𝑌𝐷𝑖 𝐿𝐴𝑖
Ilinca 2000 2500 25000
Tudor 2300 3000 31000
Bogdan 2800 3500 33000
Laura 3800 4000 39000
Radu 3500 4500 48000
Adrian 5000 5000 54000
Horia 4500 5500 55000

1Consumul este determinat, pe lângă venitul curent, de avuție și de rata dobânzii. Avuția este inclusă aici prin
acumularea, pe durata studiilor, de active de către studenți, iar rata dobânzii este ignorată, deoarece studenții
nu pot avea acces la credite în lipsa unor venituri proprii.
Rezultatele estimării sunt următoarele:

̂ 𝑖 = −367.83 + 0.5113 ∙ 𝑌𝐷𝑖 + 0.0427 ∙ 𝐿𝐴𝑖


𝐶𝑆
(1.0307) (0.0942)
𝑡 = 0.496 0.453
̅ 2
𝑅 = 0.835

Pe de altă parte, dacă în funcția de consum a studentului se include numai variabila


independentă 𝑌𝐷𝑖 (venitul disponibil), se obține:

̂ 𝑖 = −471.43 + 0.9714 ∙ 𝑌𝐷𝑖


𝐶𝑆
(0.157)
𝑡 = 6.187
𝑅̅ = 0.861
2

Se observă că scorul 𝑡 pentru venitul disponibil crește de zece ori atunci când
variabila 𝐿𝐴𝑖 este eliminată din ecuație. De ce se întâmplă asta? În primul rând, corelația
dintre 𝑌𝐷 și 𝐿𝐴 este destul de mare. Acest grad ridicat de corelație face ca erorile standard
ale coeficienților estimați să fie foarte mari atunci când sunt incluse ambele variabile. În cazul
𝛽̂𝑌𝐷 , eroarea standard se modifică de la 1,0307 la 0,157. În plus, valoarea estimată a
coeficientului în sine se schimbă oarecum. Mai mult, se observă că 𝑅̅ 2 ale celor două ecuații
sunt destul de similare, în ciuda diferențelor mari în semnificația variabilelor explicative din
cele două ecuații. Este destul de comun ca 𝑅̅ 2 să rămână practic neschimbat atunci când se
elimină una dintre variabilele multicoliniare. Toate aceste rezultate sunt tipice pentru
ecuațiile cu multicoliniaritate.
Care ecuație este mai bună? Dacă variabila 𝐿𝐴𝑖 aparține din punct de vedere teoretic
ecuației, atunci eliminarea acesteia va crește riscul de apariție a unui deplasament
determinat de omiterea unei variabile explicative importante. Includerea variabilei în
ecuația de regresie va însemna acceptarea unui anumit grad de multicoliniaritate. Practic, nu
există un răspuns automat atunci când multicoliniaritatea este prezentă.

Un al doilea exemplu privind consecințele multicoliniarității se bazează pe date reale


și nu ipotetice. Se are în vedere un model transversal al cererii de benzină dintr-un stat al
SUA:
+ − +
𝑃𝐶𝑂𝑁𝑖 = 𝛽0 + 𝛽1 𝑈𝐻𝑀𝑖 + 𝛽2 𝑇𝐴𝑋𝑖 + 𝛽3 𝑅𝐸𝐺𝑖 + 𝜀𝑖

unde:
𝑃𝐶𝑂𝑁𝑖 = consumul de petrol în statul 𝑖 (miliarde BTU);
𝑈𝐻𝑀𝑖 = lungimea autostrăzilor din statul i (mile);
𝑇𝐴𝑋𝑖 = taxa pe benzină în statul 𝑖 (cenți per gallon);
𝑅𝐸𝐺𝑖 = număr vehicule cu motor înmatriculate în statul 𝑖 (mii).

Având în vedere aceste definiții, presupunând că 𝜀𝑖 este un termen clasic de eroare,


estimând 𝑂𝐿𝑆 ecuația de mai sus, se obține:

̂ 𝑖 = 389.6 + 60.8 ∙ 𝑈𝐻𝑀𝑖 − 36.5 ∙ 𝑇𝐴𝑋𝑖 − 0.061 ∙ 𝑅𝐸𝐺𝑖


𝑃𝐶𝑂𝑁
(10.3) (13.2) (0.043)
𝑡= 5.92 − 2.77 − 1.43
𝑛 = 50 ̅ 2
𝑅 = 0.919

Ce este greșit cu această ecuație? Variabila 𝑅𝐸𝐺𝑖 , care reprezintă numărul de


autovehicule înmatriculate în statul 𝑖, are un coeficient nesemnificativ (𝑡 = −1.43), cu un
semn neașteptat (−). Este însă greu de crezut că această variabilă este nerelevantă. Este
omisă vreo altă variabilă, cauzând astfel un deplasament? Este posibil, dar este puțin
probabil ca în ecuație să fie adăugată exact această variabilă. Pe de altă parte, se cunoaște
corelația dintre 𝑅𝐸𝐺 și 𝑈𝐻𝑀, care este extrem de mare. Având în vedere acest lucru, pare
corect să se spună că una dintre cele două variabile este redundantă; ambele variabile
măsoară, în esență, mărimea statului, deci multicoliniaritatea este prezentă.
Se observă impactul multicolarității asupra ecuației. Coeficientul unei variabile, cum
ar fi numărul de autovehicule înmatriculate în statul 𝑖, care are o relație teoretică foarte
puternică cu consumul de petrol, este nesemnificativ din punct de vedere statistic și are un
semn contrar așteptărilor. Acest lucru se datorează mai ales faptului că multicoliniaritatea a
crescut varianța distribuției estimatorilor parametrilor.
Ce se întâmplă dacă se renunța la una dintre variabilele multicoliniare?

̂ 𝑖 = 551.7 − 53.6𝑇𝐴𝑋𝑖 + 0.186𝑅𝐸𝐺𝑖


𝑃𝐶𝑂𝑁
(16.9) (0.012)
𝑡 = −3.18 15.88
𝑛 = 50 𝑅̅ = 0.861
2

Renunțarea la variabila 𝑈𝐻𝑀 a făcut ca variabila 𝑅𝐸𝐺 să devină semnificativă. De ce


s-a produs acest lucru? Răspunsul este că imediat ce multicoliniaritatea a fost eliminată din
ecuație, eroarea standard a coeficientului lui 𝑅𝐸𝐺 a scăzut substanțial, de la 0.043 la 0.012.
De asemenea, semnul coeficientului estimat al lui 𝑅𝐸𝐺 a devenit pozitiv, așa cum a fost
indicat în ipoteză. Motivul este că 𝑅𝐸𝐺 și 𝑈𝐻𝑀 practic nu pot fi distinse una de cealaltă din
punct de vedere empiric și astfel algoritmul 𝑂𝐿𝑆 a atins diferențe minore între variabile
pentru a explica mișcările 𝑃𝐶𝑂𝑁 . Odată ce multicoliniaritatea a fost eliminată, relația
pozitivă directă între 𝑅𝐸𝐺 și 𝑃𝐶𝑂𝑁 a devenit evidentă.
Ar fi putut fi eliminată din model variabila 𝑅𝐸𝐺 și păstrată variabila 𝑈𝐻𝑀. Rezultatele
ar fi fost similare, deoarece cele două variabile sunt, într-un sens cantitativ, identice. De fapt,
majoritatea econometricienilor cu experiență, atunci când se confruntă cu rezultatele
estimării de mai sus și corelația ridicată dintre 𝑅𝐸𝐺 și 𝑈𝐻𝑀, ar fi renunțat la 𝑅𝐸𝐺 și ar fi
păstrat 𝑈𝐻𝑀 . De ce s-a procedat contrariu? Întrucât 𝑈𝐻𝑀 este o variabilă urbană, iar
𝑅𝐸𝐺 este o variabilă la nivel de stat, 𝑅𝐸𝐺 este de preferat din punct de vedere teoretic dacă
se dorește analiza consumului de petrol la nivel național. Deoarece cele două sunt identice
cantitativ și 𝑅𝐸𝐺 este teoretic de preferat, se păstrează 𝑅𝐸𝐺, dar se recunoaște că alții ar
putea privi aceleași rezultate și ar putea ajunge la o concluzie diferită. Chiar dacă 𝑅̅ 2 a scăzut
prin eliminarea lui 𝑈𝐻𝑀, ecuația ar trebui considerată superioară ecuației inițiale. Acesta
este și un exemplu faptului că overall fit (𝑅̅ 2 ) nu este cel mai important criteriu care trebuie
utilizat în aprecierea calității generale a modelului.

Detectarea multicoliniarității

Cum se poate stabili că o ecuație are o problemă severă de multicoliniaritate? Un prim


pas este recunoașterea faptului că există o anumită multicoliniaritate în fiecare ecuație. Este
practic imposibil, într-un exemplu din lumea reală, găsirea unui set de variabile explicative
care să nu fie corelate între ele (cu excepția experimentelor proiectate). Astfel, scopul
principal nu este dovedirea existenței sau inexistenței multicoliniarității, ci determinarea
gradului de multicoliniaritate care există într-o ecuație.
Un al doilea element cheie este sublinierea faptului că severitatea multicoliniarității
într-o ecuație dată se poate schimba de la eșantion la eșantion, în funcție de caracteristicile
eșantionului. Ca urmare, fundamentele teoretice ale ecuației nu sunt la fel de importante în
detectarea multicoliniarității, precum în detectarea unei variabile omise sau a unei forme
funcționale incorecte. În schimb, pentru a determina severitatea multicoliniarității într-un
eșantion dat există tendința de folosire a unor tehnici orientate către date. Desigur, nu se
poate ignora niciodată teoria din spatele unei ecuații. Ideea este de a găsi variabile care sunt
teoretic relevante (pentru o interpretare semnificativă) și care sunt, de asemenea, statistic
necoliniare (pentru o inferență statistică semnificativă).
Deoarece multicoliniaritatea este un fenomen de eșantion, iar consecințele impactului
său reprezintă o problemă de grad, multe dintre metodele utilizate pentru detectarea sa sunt
teste informale, fără valori critice sau niveluri de semnificație. Într-adevăr, nu există teste
statistice adevărate, general acceptate, pentru determinarea multicoliniarității. Majoritatea
cercetătorilor se bazează pe experiență și intuiție pentru analiza severității
multicoliniarității într-o ecuație estimată, analizând o serie de caracteristici ale ecuației.
Două dintre cele mai utilizate caracteristici sunt:
a. Coeficienții de corelație liniară simplă

O modalitate de a detecta multicoliniaritatea severă constă în examinarea coeficienților


de corelație simplă între oricare două variabile explicative. Coeficientul de corelație simplă,
𝑟, este o măsură a intensității și direcției relației liniare între două variabile. Intervalul de
valori al lui 𝑟 este [−1, +1], iar semnul lui 𝑟 indică direcția corelației dintre cele două
variabile. Cu cât 𝑟 în valoare absolută este mai apropiat de 1, cu atât este mai puternică
corelația dintre cele două variabile. Prin urmare:

Dacă două variabile sunt perfect corelate pozitiv, atunci 𝑟 = +1


Dacă două variabile sunt perfect corelate negativ, atunci 𝑟 = -1
Dacă două variabile sunt total necorelate, atunci 𝑟 = 0

Dacă 𝑟 între oricare două variabile explicative are o valoare absolută ridicată, atunci cele
două variabile sunt destul de corelate și multicoliniaritatea este o problemă potențială. De
exemplu, în funcția de consum a studenților, coeficientul de corelație liniară simplă între
venitul disponibil, 𝑌𝐷, și activele lichide, 𝐿𝐴, este 0,986. Un coeficient de corelație simplă cu
un nivel atât de ridicat, mai ales într-o ecuație cu doar două variabile independente,
reprezintă un indicator al multicoliniarității severe.
Cât de mare trebuie să fie 𝑟 pentru a afirma că este mare? Unii cercetători aleg un
număr arbitrar, cum ar fi 0,80 și devin preocupați de multicoliniaritate de fiecare dată când
valoarea absolută a unui coeficient de corelație liniară simplă depășește 0,80. Un răspuns
mai bun ar putea fi că 𝑟 este mare dacă provoacă variații inacceptabil de mari în estimările
coeficientului care prezintă interes.
Trebuie totuși acordată multă atenție folosirii acestei metode. Utilizarea coeficienților
de corelație liniară simplă ca indicator al severității multicoliniarității implică o limitare
majoră în cazul în care în model există mai mult de două variabile explicative. Este destul de
posibil ca grupuri de variabile independente, care acționează împreună, să provoace
multicoliniaritatea, fără ca nici măcar un singur coeficient de corelație simplă să fie suficient
de mare pentru a indica faptul că multicoliniaritatea este, se fapt, severă. Ca urmare,
coeficienții de corelație simplă trebuie considerați a fi condiții suficiente, dar nu necesare,
pentru detectarea multicoliniaritate. Cu alte cuvinte, cu toate că un 𝑟 mare indică într-
adevăr probabilitatea multicoliniarității severe, un 𝑟 scăzut nu dovedește contrariul.
b. Nivel ridicat al 𝑽𝑰𝑭 – 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐈𝐧𝐟𝐥𝐚𝐭𝐢𝐨𝐧 𝐅𝐚𝐜𝐭𝐨𝐫𝐬

Utilizarea testelor pentru a avea un indiciu despre gravitatea multicoliniarității într-un


anumit eșantion este controversată. Unii econometricieni resping chiar și coeficientul de
corelație simplă, în principal din cauza limitărilor citate. Alții tind să folosească o varietate
de teste mai formale.
O măsură a severității multicoliniarității ușor de utilizat și care câștigă în popularitate
este reprezentată de factorii de inflație a varianței. Determinarea severității
multicoliniarității prin calcularea factorilor de inflație a varianței, 𝑉𝐼𝐹, presupune analiza
măsurii în care o anumită variabilă independentă poate fi explicată de toate celelalte
variabile explicative din ecuație. Există un 𝑉𝐼𝐹 pentru fiecare variabilă explicativă dintr-o
ecuație. 𝑉𝐼𝐹 este un indice al măsurii în care multicoliniaritate a crescut varianța unui
coeficient estimat. Un nivel ridicat al 𝑉𝐼𝐹 al unui factor indică faptul că multicoliniaritatea a
crescut varianța estimată a coeficientului factorului respectiv, determinând o scădere a
scorului său 𝑡 .
Utilizarea 𝑉𝐼𝐹 pentru detectarea multicoliniarității într-o ecuație cu 𝑘 variabile
independente presupune calculul acestor indici. Trebuie calculați 𝑘 𝑉𝐼𝐹 -uri, câte unul
pentru fiecare variabilă independentă. Fie ecuația, cu 𝑘 variabile independente:

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝜀

Calculul 𝑉𝐼𝐹 pentru un anumit regresor, 𝑋𝑖 , implică parcurgerea a doi pași:

1. Se efectuează o regresie 𝑂𝐿𝑆 în care 𝑋𝑖 apare ca funcție a tuturor celorlalte variabile


explicative din ecuație. Pentru 𝑖 = 1, această ecuație este:

𝑋1 = 𝛼0 + 𝛼2 𝑋2 + ⋯ + 𝛼𝑘 𝑋𝑘 + 𝑣

unde 𝑣 este un termen clasic de eroare stocastică. Variabila 𝑋1 nu este inclusă în


partea dreaptă a ecuației, care este denumită regresie auxiliară sau secundară. Astfel,
există 𝑘 regresii auxiliare câte una pentru fiecare variabilă independentă din ecuația
inițială.

2. Se calculează factorul de inflație a varianței pentru 𝛽̂𝑖 :

1
𝑉𝐼𝐹(𝛽̂𝑖 ) =
(1 − 𝑅𝑖 2 )
unde 𝑅𝑖 2 este coeficientul de determinație (𝑅 2 neajustat) al regresiei auxiliare din
primul pas. Deoarece există o regresie auxiliară separată pentru fiecare variabilă
independentă din ecuația inițială, există, de asemenea, câte un 𝑅𝑖 2 și un 𝑉𝐼𝐹(𝛽̂𝑖 )
pentru fiecare 𝑋𝑖 . Cu cât 𝑉𝐼𝐹 este mai mare, cu atât efectele multicoliniarității sunt
mai severe.

Cât de mare trebuie să fie 𝑉𝐼𝐹 pentru a spune că este mare? Un 𝑅𝑖2 egal cu 1, care
indică multicoliniaritatea perfectă, produce un 𝑉𝐼𝐹 infinit, în timp ce un 𝑅𝑖2 egal cu 0, care
nu indică deloc multicoliniaritate, produce un 𝑉𝐼𝐹 egal cu 1. Nu există un tabel de valori
critice 𝑉𝐼𝐹 . Se poate aplica o regulă comună a degetului mare, conform căreia, dacă
𝑉𝐼𝐹(𝛽̂𝑖 ) > 5, multicoliniaritatea este severă. Pe măsură ce numărul de variabile
independente crește, are sens și creșterea ușoară a acestui număr.
De exemplu, pentru funcția de consum a studenților, 𝑉𝐼𝐹 -urile pentru ambele
variabile independente sunt egale cu 36, confirmând multicoliniaritatea destul de severă,
despre care deja se știa că există. Nu este o coincidență că 𝑉𝐼𝐹 -urile pentru cele două
variabile sunt egale. Într-o ecuație cu exact două variabile independente, cele două ecuații
auxiliare vor avea 𝑅 2 identice, ceea ce duce la 𝑉𝐼𝐹–uri egale.
Unii autori, dar și unele software-uri statistice înlocuiesc 𝑉𝐼𝐹 cu reciproca sa,
2
(1 − 𝑅 ), numit toleranță sau 𝑇𝑂𝐿. Calculul lui 𝑉𝐼𝐹 sau 𝑇𝑂𝐿 reprezintă o problemă de
preferință personală, dar în orice caz, abordarea generală este cea mai cuprinzătoare tehnică
de detectare a multicoliniarității, despre care s-a discutat în acest text. Din păcate, există
câteva probleme cu utilizarea 𝑉𝐼𝐹-urilor. În primul rând, după cum s-a menționat, nu există
o regulă de decizie hard-and-fast privitoare la 𝑉𝐼𝐹. În al doilea rând, este posibil să existe
efecte multicoliniare într-o ecuație care nu are 𝑉𝐼𝐹 –uri mari. De exemplu, dacă coeficientul
de corelație liniară simplă între 𝑋1 și 𝑋2 este 0,88, efectele multicoliniare sunt destul de
probabile, și totuși 𝑉𝐼𝐹 pentru ecuație (presupunând că nu există alte 𝑋-uri) este doar 4.4.
Ca urmare, 𝑉𝐼𝐹 este un test necesar, dar nu suficient, pentru multicoliniaritate, la fel ca
celălalt test descris în această secțiune. Într-adevăr, așa cum este probabil evident, nu există
niciun test care să permită unui cercetător să respingă posibilitatea unei multicoliniarități cu
o siguranță totală.

Remedii pentru multicoliniaritate

Ce se poate face pentru a minimiza consecințele multicoliniarității severe? Nu există


un răspuns automat la această întrebare, deoarece multicoliniaritatea este un fenomen care
s-ar putea schimba de la eșantion în eșantion chiar și pentru aceeași specificație a ecuației
de regresie. Scopul acestei secțiuni este de a descrie o serie de remedii alternative pentru
multicoliniaritate, remedii care ar putea fi adecvate în anumite circumstanțe.
1. Nu se face nimic

Primul pas de făcut odată ce multicoliniaritatea severă a fost diagnosticată este de a


decide dacă trebuie făcut ceva. După cum se va vedea, fiecare remediu pentru
multicoliniaritate are un dezavantaj. De aceea, se întâmplă adesea că a nu face nimic este
cursul corect al acțiunii.
Un motiv pentru a nu face nimic este acela că multicoliniaritatea într-o ecuație nu va
reduce întotdeauna scorurile t suficient pentru a le face nesemnificative sau pentru a
schimba 𝛽̂ suficient astfel încât să difere de așteptări. Cu alte cuvinte, simpla existență a
multicoliniarității nu înseamnă nimic. Un remediu pentru multicoliniaritate ar trebui luat în
considerare numai în cazul în care aceasta provoacă scoruri 𝑡 insignifiante sau coeficienți
estimați diferiți de așteptări. De exemplu, este posibil să se observe un coeficient de corelație
simplă de 0.97 între două variabile explicative și totuși fiecare scor 𝑡 individual este
semnificativ. Nu are sens să fie luate în considerare acțiuni de remediere într-un astfel de
caz, atât timp cât ambele variabile aparțin ecuației din motive teoretice, deoarece orice
remediu pentru multicoliniaritate ar provoca, probabil, alte probleme pentru ecuație. Într-
un anumit sens, multicoliniaritatea este similară cu o boală umană care nu pune viața în
pericol, dar care necesită un risc ridicat, de exemplu anestezie generală, pentru a însănătoși
complet pacientul. Riscul operației trebuie asumat numai dacă boala provoacă o problemă
semnificativă.
Un al doilea motiv pentru a nu face nimic este că eliminarea unei variabile multicoliniare
care aparține unei ecuații va provoca un deplasament al specificării. Dacă se renunță la o
variabilă importantă teoretic, atunci se creează intenționat un deplasament. Având în vedere
tot efortul depus în mod obișnuit pentru evitarea variabilelor omise, pare nechibzuit să se
asume riscul implicat de omiterea unei variabile importante. Ca urmare, econometricienii
experimentați vor lăsa adesea variabile multicoliniare în ecuații, în ciuda scorurilor 𝑡
scăzute.
Ultimul motiv pentru care nu trebuie făcut nimic pentru a compensa multicoliniaritatea
este că de fiecare dată când o regresie este repetată, apare riscul de a întâlni o specificație
care se potrivește pentru că funcționează accidental pentru setul de date implicat, nu pentru
că este cea corectă. Cu cât este mai mare numărul de experimente, cu atât sunt mai mari
șansele de a găsi rezultate accidentale corecte. Pentru a înrăutăți lucrurile, atunci când există
o multicoliniaritate semnificativă în eșantion, șansele ca rezultatele să fie ciudate cresc rapid
din cauza sensibilității estimatorilor coeficienților la modificări ușoare ale specificațiilor.
În concluzie, de cele mai multe ori este bine să se păstreze ecuația cu o multicoliniaritate
severă, cu unele excepții extreme. Un astfel de sfat ar putea fi dificil pentru cercetătorii
începători, dacă consideră că este jenant să raporteze că regresia lor finală este una cu
scoruri nesemnificative. Comparativ cu alternativele posibile de deplasament determinate
de variabile omise sau cu rezultate de regresie semnificative accidental, scorurile scăzute
𝑡 par a fi o problemă minoră. Pentru un exemplu de „a nu face nimic” în fața multicoliniarității
severe, vezi exemplul dat.

2. Se elimină variabila redundantă

Ocazional, soluția simplă de eliminare a uneia dintre variabilele multicoliniare este una
bună. De exemplu, unii cercetători fără experiență includ prea multe variabile în regresiile
lor, nevrând să se confrunte cu deplasamente generate de variabile omise. Ca urmare, ei au
adesea două sau mai multe variabile în ecuațiile lor care măsoară în esență același lucru.
Într-un astfel de caz, variabilele multicoliniare nu sunt irelevante, oricare dintre ele fiind
semnificative din punct de vedere teoretic și statistic.
În schimb, variabilele ar putea fi numite redundante deoarece doar una dintre ele este
necesară pentru a reprezenta efectul asupra variabilei dependente. De exemplu, într-o
funcție a cererii agregate, nu ar avea sens să se includă și venitul disponibil și 𝑃𝐼𝐵, deoarece
ambele măsoară același lucru: venitul. Un pic mai subtil este faptul că populația și venitul
disponibil nu ar trebui să fie incluse în aceeași funcție a cererii agregate, deoarece, încă o
dată, măsoară cu adevărat același lucru: dimensiunea pieței agregate. Pe măsură ce populația
crește, la fel se va întâmpla și cu veniturile. Eliminarea acestor tipuri de variabile
multicoliniare redundante nu face altceva decât să compenseze o eroare de specificație:
variabilele nu ar fi trebuit să fie incluse în model de prima dată.
Pentru a exemplifica această soluție, se revine la exemplul funcției de consum a
studenților:

̂ 𝑖 = −367.83 + 0.5113 ∙ 𝑌𝐷𝑖 + 0.0427 ∙ 𝐿𝐴𝑖


𝐶𝑆
(1.0307) (0.0942)
𝑡 = 0.496 0.453 𝑅̅ 2 = 0.835

unde: 𝐶𝑆 = cheltuielile de consum ale studentului 𝑖;


𝑌𝐷 = venitul disponibil al studentului 𝑖;
𝐿𝐴 = activele lichide deținute de studentul 𝑖.

Când s-a discutat pentru prima dată acest exemplu, s-a comparat acest rezultat cu
rezultatul obținut cu aceeași ecuație, din care s-a eliminat variabila reprezentând activele
lichide:

̂ 𝑖 = −471.43 + 0.9714 ∙ 𝑌𝐷𝑖


𝐶𝑆
(0.157)
𝑡 = 6.187 𝑅̅ 2 = 0.861
Dacă variabila eliminată este venitul disponibil, 𝑌𝐷, se obține:

̂ 𝑖 = −199.44 + 0.08876 ∙ 𝐿𝐴𝑖


𝐶𝑆
(0.01443)
𝑡 = 6.153 𝑅̅ 2 = 0.860

Se observă că eliminarea din ecuație a uneia dintre variabilele multicoliniare a dus la


dispariția multicoliniarității dintre cele două variabile explicative și la corectarea scorului
𝑡 scăzut al coeficientului variabilei rămase. Prin renunțarea la 𝑌𝐷 s-a reușit creșterea lui 𝑡 al
variabilei 𝐿𝐴 de la 0.453 la 6.153. Deoarece eliminarea unei variabile schimbă semnul
coeficientului rămas (variabila eliminată nu mai este menținută constantă), astfel de
schimbări dramatice nu sunt neobișnuite. Coeficientul variabilei rămase, de asemenea,
măsoară acum aproape tot impactul comun asupra variabilei dependente a variabilelor
explicative multicoliniare.
Presupunând că se dorește renunțarea la o variabilă, cum se decide ce variabilă
trebuie eliminată? În cazurile de multicoliniaritate severă, nu se face nici o diferență
statistică între variabilele care trebuie eliminate. Ca urmare, nu are sens să se aleagă
variabila care trebuie eliminată pe baza unui overall fit superior sau pe baza semnificației
superioare sau semnului așteptat în ecuația inițială. În schimb, bazele teoretice ale modelului
ar trebui să stea la baza unei astfel de decizii. În exemplul funcției de consum a studenților,
există mai mult sprijin teoretic pentru ipoteza conform căreia venitul disponibil determină
consumul decât există pentru ipoteza activelor lichide.

3. Se mărește volumul eșantionului

Un alt mod de a trata multicoliniaritatea este de a încerca creșterea dimensiunii


eșantionului pentru a reduce gradul de multicoliniaritate. Deși o astfel de creștere ar putea
fi uneori imposibilă, este o alternativă utilă care trebuie luată în considerare. Ideea din
spatele creșterii dimensiunii eșantionului este aceea că un set de date mai mare (care
necesită adesea colectare de date noi) va permite estimări mai precise decât unul mic,
deoarece eșantionul mai mare, în mod normal, va reduce varianța estimatorilor
coeficienților, diminuând impactul multicoliniarității. Cu toate acestea, pentru majoritatea
seturilor de date, această soluție nu este posibilă. La urma urmei, eșantioanele sunt
construite, de obicei, folosind toate datele disponibile. Ca urmare, datele noi sunt în general
imposibil de obținut sau obținerea lor este destul de costisitoare. Producerea și generarea
de date noi este mult mai ușoară într-un set de date transversale sau experimentale, decât
atunci când observările sunt generate odată cu trecerea timpului.
Un exemplu de abordare a multicoliniarității

Uneori multicoliniaritatea ar trebui lăsată neajustată. Fie, de exemplu, un model al


impactului publicității asupra vânzărilor unei firme de băuturi răcoritoare. Rezultatele
estimării, pe un anumit eșantion, sunt următoarele:

𝑆̂𝑡 = 3080 − 75000𝑃𝑡 + 4.23𝐴𝑡 − 1.04𝐵𝑡


(25000) (1.06) (0.51)
𝑡= −3 3.99 − 2.04
̅ 2
𝑅 = 0.825 𝑛 = 28

unde: 𝑆𝑡 = vânzări de băuturi răcoritoare, în anul 𝑡;


𝑃𝑡 = prețul mediu relativ al băuturi, în anul 𝑡;
𝐴𝑡 = 𝑐heltuieli de publicitate ale companiei, în anul 𝑡;
𝐵𝑡 = cheltuieli de publicitate ale principalei companii concurente, în anul 𝑡;

Se presupunem că nu există variabile omise. Toate variabilele sunt măsurate în dolari


reali, adică valorile nominale sunt împărțite sau deflatate cu un indice de preț.
Rezultatele estimării par rezonabile. Coeficienții estimați sunt semnificativi în
direcțiile implicate de teoria de bază și atât potrivirea generală, cât și dimensiunea
coeficienților par acceptabile. Publicitatea în industria băuturilor răcoritoare are o natură
simplă, iar firmele tind să-și coordoneze cheltuielile de publicitate cu cele ale concurentului
principal. Acest lucru ridică o problemă legată multicoliniaritatea severă. Coeficientului de
corelație liniară simplă dintre 𝐴𝑡 și 𝐵𝑡 , cele două variabile independente care se referă la
cheltuielile de publicitate, este 0.974, iar 𝑉𝐼𝐹 -urile acestor două variabile independente
depășesc cu mult nivelul de 5.
O valoare așa de mare a coeficientului de corelație liniară simplă este o dovadă că
există multicolinearitate severă în ecuație, dar nu există niciun motiv pentru a lua în
considerare o anumită acțiune, deoarece coeficienții sunt atât de puternici încât scorurile lor
𝑡 rămân semnificative, chiar și în fața multicoliniarității severe. Cu excepția cazului în care
multicoliniaritatea cauzează probleme în ecuație, ar trebui lăsată neajustată. Schimbarea
specificației poate oferi rezultate mai bune, dar ajustarea ar reduce șansele de a obține cele
mai bune estimări posibile ale coeficienților adevărați. Deși este cu siguranță norocos că nu
au existat probleme majore datorate multicoliniarității în acest exemplu, norocul nu este un
motiv pentru a încerca să se remedieze ceva care nu este defect.
Când o variabilă este eliminată dintr-o ecuație, efectul acesteia va fi absorbit de
celelalte variabile explicative, în măsura în care acestea sunt corelate cu variabila nou omisă.
Este probabil ca restul variabilelor multicoliniare să absoarbă practic tot deplasamentul,
deoarece variabilele sunt foarte corelate. Acest deplasament poate distruge orice utilitate pe
care o aveau estimările înainte ca variabila să fie eliminată.
De exemplu, dacă o variabilă, fie ea 𝐵, este eliminată din ecuație pentru a remedia
multicoliniaritatea, atunci ar putea apărea următoarele rezultate:

𝑆̂𝑡 = 2586 − 78000𝑃𝑡 + 0.52𝐴𝑡


(24000) (4.32)
𝑡= −3.25 0.12
𝑅̅ 2 = 0.531 𝑛 = 28

Prin eliminarea variabilei 𝐵, coeficientul cheltuielilor de publicitate al companiei devine mai


puțin semnificativ în loc să fie mai semnificativ.
În primul rând, tendința așteptată de modificare a lui 𝛽̂𝐴 este negativă, deoarece
produsul semnului așteptat al coeficientului lui 𝐵 și al coeficientului de corelație dintre 𝐴 și
𝐵 este negativ:

Deplasament = 𝛽𝐵 ∙ 𝛼̂1 = (−)(+) = −

În al doilea rând, această tendință negativă este suficient de puternică pentru a reduce
coeficientul estimat al lui 𝐴 până când acesta devine nesemnificativ. Deși această problemă
ar fi putut fi evitată prin utilizarea unei variabile relative de publicitate (𝐴 împărțit la 𝐵, de
exemplu), această formulare ar fi forțat coeficienți absoluți identici pentru 𝐴 și 1 / 𝐵. Astfel
de coeficienți identici vor fi uneori așteptați teoretic sau rezonabili din punct de vedere
empiric, dar, în majoritatea cazurilor, aceste tipuri de constrângeri vor forța apariția unui
deplasament într-o ecuație care anterior nu a avut niciunul.
Acest exemplu este simplist, dar rezultatele sale sunt tipice pentru cazurile în care
ecuațiile sunt ajustate pentru multicoliniaritate prin renunțarea la o variabilă, fără a se ține
cont de efectul pe care îl are eliminarea acesteia din ecuație. Ideea de aici este că se întâmplă
destul de des să nu fie înțelept, teoretic sau operațional, să se renunțe la o variabilă dintr-o
ecuație, iar multicoliniaritatea în astfel de cazuri este cel mai bine să fie lăsată neajustată.

Sumar

1. Multicoliniaritatea perfectă reprezintă o încălcare a ipotezei clasice conform căreia nici


o variabilă independentă nu este o funcție liniară perfectă a altor variabile independente.
Multicoliniaritatea perfectă are ca rezultat estimări nedeterminate ale coeficienților de
regresie și erori standard infinite ale acestora, ceea ce face imposibilă estimarea 𝑂𝐿𝑆.

2. Multicoliniaritatea imperfectă, care este de obicei înțeleasă atunci când se folosește


cuvântul „multicoliniaritate”, este o relație liniară între două sau mai multe variabile
independente, suficient de puternică pentru a afecta în mod semnificativ estimarea
ecuației. Multicoliniaritatea este un fenomen de eșantion, precum și unul teoretic. Pentru
eșantioane diferite, gradele de multicoliniaritate pot fi diferite.

3. Consecința majoră a multicoliniarității severe este creșterea varianțele coeficienților


estimați de regresie și deci micșorarea scorurile 𝑡 calculate pentru acești coeficienți,
precum și extinderea intervalelor de încredere. Multicoliniaritatea nu cauzează
deplasamente în estimarea coeficienților și are un efect redus asupra semnificației
generale a regresie sau asupra valorile estimate ale coeficienților oricăror altor variabile
independente necoliniare.

4. Întrucât multicoliniaritatea există, într-un grad sau altul, în aproape fiecare set de date,
întrebarea care trebuie pusă la detectarea sa este cât de severă este multicoliniaritatea
într-un anumit eșantion.

5. Există două indicii ale prezenței multicoliniarității severe:


a. Coeficienții de corelație simpli dintre variabilele explicative sunt mari?
b. Factorii de inflație a varianței, 𝑉𝐼𝐹, sunt ridicați?
Dacă răspunsul este 𝑑𝑎 la oricare dintre aceste întrebări, atunci multicoliniaritatea există
cu siguranță, dar multicoliniaritatea poate exista chiar și dacă răspunsurile sunt 𝑛𝑢.

6. Cele mai comune trei remedii pentru multicoliniaritate sunt:


a. Nu se face nimic, evitându-se astfel deplasamentul specidficiației.
b. Se elimină o variabilă redundantă.
c. Se mărește dimensiunea eșantionului.

7. Destul de des, a nu face nimic este cel mai bun remediu pentru multicoliniaritate. Dacă
multicoliniaritatea nu a scăzut scorurile 𝑡 până la nesemnificativitate, atunci niciun
remediu nu ar trebui luat în considerare atâta timp cât variabilele sunt teoretic puternice.
Chiar dacă scorurile t sunt nesemnificative, remediile ar trebui întreprinse cu prudență,
deoarece toate impun costuri estimării, care pot fi mai mari decât beneficiul potențial al
eliminării din ecuație a multicoliniarității.

S-ar putea să vă placă și