Documente Academic
Documente Profesional
Documente Cultură
Multicoliniaritatea perfectă
Multicollinearitatea perfectă încalcă ipoteza clasică VI, care specifică faptul că nicio
variabilă explicativă nu este o funcție liniară perfectă a oricăror altor variabile explicative.
Cuvântul perfect în acest context implică faptul că mișcările unei variabile explicative pot fi
complet explicate prin mișcări ale altor variabile explicative. O astfel de funcție liniară
perfectă între două variabile independente ar putea fi:
𝑋1𝑖 = 𝛼0 + 𝛼1 𝑋2𝑖
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖
𝑋1𝑖 = 3𝑋2𝑖
𝑋1𝑖 = 2 + 4𝑋2𝑖
Care sunt cele câteva exemple din lumea reală a multicoliniarității perfecte? Cele mai
simple exemple implică aceeași variabilă măsurată în unități diferite.
𝑋2
0 𝑋1
Multicoliniaritatea imperfectă
𝑋1𝑖 = 𝛼0 + 𝛼1 𝑋2𝑖 + 𝑢𝑖
𝑋2
0 𝑋1
Consecințele multicoliniarității
2. Varianțele și erorile standard ale distribuțiilor de eșantionare vor crește. Aceasta este
consecința principală a multicoliniarității. Când două sau mai multe variabile
independente sunt în mod semnificativ legate între ele, devine dificilă identificarea cu
precizie a efectelor separate ale lor. Când devine dificilă separarea efectului unei
variabile de efectul alteia, există mult mai multe șanse să se comită erori mari în
estimarea coeficienților β. Ca urmare, coeficienții estimați, deși vor fi încă nedeplasați,
vor proveni din distribuții de eșantionare cu varianțe mult mai mari și, prin urmare, cu
erori standard mult mai mari.
Chiar dacă varianțele și erorile standard sunt mai mari în prezența multicoliniarității
decât în absența sa, estimatorii 𝑂𝐿𝑆 sunt în continuare estimatori 𝐵𝐿𝑈𝐸. Cu alte cuvinte,
prin nici o altă tehnică liniară de determinare a unor estimatori nedeplasați nu se pot
obține distribuții de eșantionare cu varianțe mai mici decât cele produse de 𝑂𝐿𝑆. Astfel,
deși efectul multicoliniarității este acela de a crește varianța distribuțiilor de eșantionare
ale coeficienților, distribuțiile de eșantionare produse de 𝑂𝐿𝑆 au varianțe minime. Aceste
„varianțe minime” sunt destul de mari în prezența multicoliniarității.
În Figura 3 sunt ilustrate două distribuții de eșantionare ale unui coeficient 𝛽: o
distribuție de eșantionare pentru un eșantion cu multicoliniaritate severă și o distribuție
de eșantionare pentru un eșantion fără multicoliniaritate severă, adică fără corelații
strânse între oricare dintre variabilele independente. Se observă că cele două distribuții
au aceeași medie, ceea ce indică faptul că multicoliniaritatea nu provoacă un
deplasament. De asemenea, se observă cât de “largă” devine distribuția de eșantionare a
coeficientului 𝛽 atunci când multicoliniaritatea este severă. Datorită acestei varianțe mai
mari, multicollinearitatea crește probabilitatea obținerii unui semn neașteptat pentru un
coeficient, chiar dacă, așa cum s-a menționat anterior, multicoliniaritatea nu provoacă
deplasamente.
Cu multicoliniaritate severă
β 𝛽̂
(𝛽̂𝑘 − 𝛽𝐻0 )
𝑡𝑘 =
𝑆𝐸(𝛽̂𝑘 )
4. Estimările vor deveni foarte sensibile la modificări ale modului de specificare a ecuației
de regresie. Atunci când multicoliniaritatea este semnificativă, adăugarea sau eliminarea
unei variabile independente sau a câtorva observări din eșantion, vor determina adesea
modificări majore ale valorilor estimate, 𝛽̂ . Dacă se renunță la o variabilă explicativă,
chiar la una care pare a fi nesemnificativă statistic, coeficienții variabilelor rămase în
ecuație se vor schimba uneori dramatic.
Aceste mari schimbări apar deoarece estimarea 𝑂𝐿𝑆 este uneori forțată să sublinieze
micile diferențe între variabile pentru a distinge efectul unei variabile multicoliniare de
efectul celorlalte. Dacă două variabile sunt practic identice în cea mai mare parte a
eșantionului, pentru a face distincția dintre ele procedura de estimare se bazează pe
observările în care variabilele se mișcă diferit. Ca urmare, o modificare a specificației
prin care se elimină o variabilă care are o valoare neobișnuită pentru una dintre aceste
observări cruciale poate provoca schimbarea dramatică a coeficienților estimați ai
variabilelor multicoliniare.
5. Gradul general de ajustare sau de potrivire al ecuației (overall fit) și valorile estimate ale
coeficienților variabilelor necoliniare, în mare măsură, nu vor fi afectate. Chiar dacă
scorurile 𝑡 individuale sunt adesea destul de scăzute într-o ecuație multicoliniară,
ajustarea generală a ecuației, măsurată de 𝑅 2 , nu va scădea mult sau chiar deloc, în
prezența multicoliniarității severe. Având în vedere acest lucru, unul dintre primele
indicii ale multicoliniarității severe este combinația între un 𝑅 2 ridicat și niciun coeficient
de regresie individual semnificativ statistic. În mod similar, dacă o variabilă explicativă
într-o ecuație nu este multicoliniară cu celelalte variabile, atunci estimarea coeficientului
său și a erorii sale standard nu va fi, de obicei, afectată.
Deoarece overall fit este, în mare parte, neafectat de multicoliniaritatea severă, este
posibil ca prin testul 𝐹 de semnificație generală să se respingă ipoteza nulă, chiar dacă
niciunul dintre testele 𝑡 pe coeficienții individuali nu poate face acest lucru. Un astfel de
rezultat este un indiciu clar al multicoliniarității imperfecte severe.
În cele din urmă, având în vedere că multicoliniaritatea are un efect redus asupra
gradului de ajustare generală al ecuației, aceasta va avea, de asemenea, un efect redus
asupra utilizării ecuației pentru predicție sau prognoză, atât timp cât între variabilele
independente se mențin același tip de relații de multicoliniaritate care au existat în
eșantionul utilizat și în perioada de prognoză.
Două exemple de consecințe ale multicoliniarității
unde: 𝐶𝑆𝑖 = cheltuielile anuale de consum ale studentului 𝑖, în alte scopuri decât școlarizarea
sau plata cazării la căminele studențești;
𝑌𝐷𝑖 = venitul disponibil anual, inclusiv cadourile, al studentului 𝑖;
𝐿𝐴𝑖 = activele lichide, cum ar fi sumele economisite păstrate în conturi bancare, ale
studentului 𝑖;
𝜀𝑖 = termenul de eroare stohastică.
Pentru exemplificare, s-au colectat câteva date de la studenții dintr-o grupă, cele din
Tabelul 1. S-a efectuat apoi o estimare 𝑂𝐿𝑆 pe setul de date respectiv, pentru ecuația de
regresie reprezentând funcția de consum a studentului.
1Consumul este determinat, pe lângă venitul curent, de avuție și de rata dobânzii. Avuția este inclusă aici prin
acumularea, pe durata studiilor, de active de către studenți, iar rata dobânzii este ignorată, deoarece studenții
nu pot avea acces la credite în lipsa unor venituri proprii.
Rezultatele estimării sunt următoarele:
Se observă că scorul 𝑡 pentru venitul disponibil crește de zece ori atunci când
variabila 𝐿𝐴𝑖 este eliminată din ecuație. De ce se întâmplă asta? În primul rând, corelația
dintre 𝑌𝐷 și 𝐿𝐴 este destul de mare. Acest grad ridicat de corelație face ca erorile standard
ale coeficienților estimați să fie foarte mari atunci când sunt incluse ambele variabile. În cazul
𝛽̂𝑌𝐷 , eroarea standard se modifică de la 1,0307 la 0,157. În plus, valoarea estimată a
coeficientului în sine se schimbă oarecum. Mai mult, se observă că 𝑅̅ 2 ale celor două ecuații
sunt destul de similare, în ciuda diferențelor mari în semnificația variabilelor explicative din
cele două ecuații. Este destul de comun ca 𝑅̅ 2 să rămână practic neschimbat atunci când se
elimină una dintre variabilele multicoliniare. Toate aceste rezultate sunt tipice pentru
ecuațiile cu multicoliniaritate.
Care ecuație este mai bună? Dacă variabila 𝐿𝐴𝑖 aparține din punct de vedere teoretic
ecuației, atunci eliminarea acesteia va crește riscul de apariție a unui deplasament
determinat de omiterea unei variabile explicative importante. Includerea variabilei în
ecuația de regresie va însemna acceptarea unui anumit grad de multicoliniaritate. Practic, nu
există un răspuns automat atunci când multicoliniaritatea este prezentă.
unde:
𝑃𝐶𝑂𝑁𝑖 = consumul de petrol în statul 𝑖 (miliarde BTU);
𝑈𝐻𝑀𝑖 = lungimea autostrăzilor din statul i (mile);
𝑇𝐴𝑋𝑖 = taxa pe benzină în statul 𝑖 (cenți per gallon);
𝑅𝐸𝐺𝑖 = număr vehicule cu motor înmatriculate în statul 𝑖 (mii).
Detectarea multicoliniarității
Dacă 𝑟 între oricare două variabile explicative are o valoare absolută ridicată, atunci cele
două variabile sunt destul de corelate și multicoliniaritatea este o problemă potențială. De
exemplu, în funcția de consum a studenților, coeficientul de corelație liniară simplă între
venitul disponibil, 𝑌𝐷, și activele lichide, 𝐿𝐴, este 0,986. Un coeficient de corelație simplă cu
un nivel atât de ridicat, mai ales într-o ecuație cu doar două variabile independente,
reprezintă un indicator al multicoliniarității severe.
Cât de mare trebuie să fie 𝑟 pentru a afirma că este mare? Unii cercetători aleg un
număr arbitrar, cum ar fi 0,80 și devin preocupați de multicoliniaritate de fiecare dată când
valoarea absolută a unui coeficient de corelație liniară simplă depășește 0,80. Un răspuns
mai bun ar putea fi că 𝑟 este mare dacă provoacă variații inacceptabil de mari în estimările
coeficientului care prezintă interes.
Trebuie totuși acordată multă atenție folosirii acestei metode. Utilizarea coeficienților
de corelație liniară simplă ca indicator al severității multicoliniarității implică o limitare
majoră în cazul în care în model există mai mult de două variabile explicative. Este destul de
posibil ca grupuri de variabile independente, care acționează împreună, să provoace
multicoliniaritatea, fără ca nici măcar un singur coeficient de corelație simplă să fie suficient
de mare pentru a indica faptul că multicoliniaritatea este, se fapt, severă. Ca urmare,
coeficienții de corelație simplă trebuie considerați a fi condiții suficiente, dar nu necesare,
pentru detectarea multicoliniaritate. Cu alte cuvinte, cu toate că un 𝑟 mare indică într-
adevăr probabilitatea multicoliniarității severe, un 𝑟 scăzut nu dovedește contrariul.
b. Nivel ridicat al 𝑽𝑰𝑭 – 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐈𝐧𝐟𝐥𝐚𝐭𝐢𝐨𝐧 𝐅𝐚𝐜𝐭𝐨𝐫𝐬
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 + 𝜀
𝑋1 = 𝛼0 + 𝛼2 𝑋2 + ⋯ + 𝛼𝑘 𝑋𝑘 + 𝑣
1
𝑉𝐼𝐹(𝛽̂𝑖 ) =
(1 − 𝑅𝑖 2 )
unde 𝑅𝑖 2 este coeficientul de determinație (𝑅 2 neajustat) al regresiei auxiliare din
primul pas. Deoarece există o regresie auxiliară separată pentru fiecare variabilă
independentă din ecuația inițială, există, de asemenea, câte un 𝑅𝑖 2 și un 𝑉𝐼𝐹(𝛽̂𝑖 )
pentru fiecare 𝑋𝑖 . Cu cât 𝑉𝐼𝐹 este mai mare, cu atât efectele multicoliniarității sunt
mai severe.
Cât de mare trebuie să fie 𝑉𝐼𝐹 pentru a spune că este mare? Un 𝑅𝑖2 egal cu 1, care
indică multicoliniaritatea perfectă, produce un 𝑉𝐼𝐹 infinit, în timp ce un 𝑅𝑖2 egal cu 0, care
nu indică deloc multicoliniaritate, produce un 𝑉𝐼𝐹 egal cu 1. Nu există un tabel de valori
critice 𝑉𝐼𝐹 . Se poate aplica o regulă comună a degetului mare, conform căreia, dacă
𝑉𝐼𝐹(𝛽̂𝑖 ) > 5, multicoliniaritatea este severă. Pe măsură ce numărul de variabile
independente crește, are sens și creșterea ușoară a acestui număr.
De exemplu, pentru funcția de consum a studenților, 𝑉𝐼𝐹 -urile pentru ambele
variabile independente sunt egale cu 36, confirmând multicoliniaritatea destul de severă,
despre care deja se știa că există. Nu este o coincidență că 𝑉𝐼𝐹 -urile pentru cele două
variabile sunt egale. Într-o ecuație cu exact două variabile independente, cele două ecuații
auxiliare vor avea 𝑅 2 identice, ceea ce duce la 𝑉𝐼𝐹–uri egale.
Unii autori, dar și unele software-uri statistice înlocuiesc 𝑉𝐼𝐹 cu reciproca sa,
2
(1 − 𝑅 ), numit toleranță sau 𝑇𝑂𝐿. Calculul lui 𝑉𝐼𝐹 sau 𝑇𝑂𝐿 reprezintă o problemă de
preferință personală, dar în orice caz, abordarea generală este cea mai cuprinzătoare tehnică
de detectare a multicoliniarității, despre care s-a discutat în acest text. Din păcate, există
câteva probleme cu utilizarea 𝑉𝐼𝐹-urilor. În primul rând, după cum s-a menționat, nu există
o regulă de decizie hard-and-fast privitoare la 𝑉𝐼𝐹. În al doilea rând, este posibil să existe
efecte multicoliniare într-o ecuație care nu are 𝑉𝐼𝐹 –uri mari. De exemplu, dacă coeficientul
de corelație liniară simplă între 𝑋1 și 𝑋2 este 0,88, efectele multicoliniare sunt destul de
probabile, și totuși 𝑉𝐼𝐹 pentru ecuație (presupunând că nu există alte 𝑋-uri) este doar 4.4.
Ca urmare, 𝑉𝐼𝐹 este un test necesar, dar nu suficient, pentru multicoliniaritate, la fel ca
celălalt test descris în această secțiune. Într-adevăr, așa cum este probabil evident, nu există
niciun test care să permită unui cercetător să respingă posibilitatea unei multicoliniarități cu
o siguranță totală.
Ocazional, soluția simplă de eliminare a uneia dintre variabilele multicoliniare este una
bună. De exemplu, unii cercetători fără experiență includ prea multe variabile în regresiile
lor, nevrând să se confrunte cu deplasamente generate de variabile omise. Ca urmare, ei au
adesea două sau mai multe variabile în ecuațiile lor care măsoară în esență același lucru.
Într-un astfel de caz, variabilele multicoliniare nu sunt irelevante, oricare dintre ele fiind
semnificative din punct de vedere teoretic și statistic.
În schimb, variabilele ar putea fi numite redundante deoarece doar una dintre ele este
necesară pentru a reprezenta efectul asupra variabilei dependente. De exemplu, într-o
funcție a cererii agregate, nu ar avea sens să se includă și venitul disponibil și 𝑃𝐼𝐵, deoarece
ambele măsoară același lucru: venitul. Un pic mai subtil este faptul că populația și venitul
disponibil nu ar trebui să fie incluse în aceeași funcție a cererii agregate, deoarece, încă o
dată, măsoară cu adevărat același lucru: dimensiunea pieței agregate. Pe măsură ce populația
crește, la fel se va întâmpla și cu veniturile. Eliminarea acestor tipuri de variabile
multicoliniare redundante nu face altceva decât să compenseze o eroare de specificație:
variabilele nu ar fi trebuit să fie incluse în model de prima dată.
Pentru a exemplifica această soluție, se revine la exemplul funcției de consum a
studenților:
Când s-a discutat pentru prima dată acest exemplu, s-a comparat acest rezultat cu
rezultatul obținut cu aceeași ecuație, din care s-a eliminat variabila reprezentând activele
lichide:
În al doilea rând, această tendință negativă este suficient de puternică pentru a reduce
coeficientul estimat al lui 𝐴 până când acesta devine nesemnificativ. Deși această problemă
ar fi putut fi evitată prin utilizarea unei variabile relative de publicitate (𝐴 împărțit la 𝐵, de
exemplu), această formulare ar fi forțat coeficienți absoluți identici pentru 𝐴 și 1 / 𝐵. Astfel
de coeficienți identici vor fi uneori așteptați teoretic sau rezonabili din punct de vedere
empiric, dar, în majoritatea cazurilor, aceste tipuri de constrângeri vor forța apariția unui
deplasament într-o ecuație care anterior nu a avut niciunul.
Acest exemplu este simplist, dar rezultatele sale sunt tipice pentru cazurile în care
ecuațiile sunt ajustate pentru multicoliniaritate prin renunțarea la o variabilă, fără a se ține
cont de efectul pe care îl are eliminarea acesteia din ecuație. Ideea de aici este că se întâmplă
destul de des să nu fie înțelept, teoretic sau operațional, să se renunțe la o variabilă dintr-o
ecuație, iar multicoliniaritatea în astfel de cazuri este cel mai bine să fie lăsată neajustată.
Sumar
4. Întrucât multicoliniaritatea există, într-un grad sau altul, în aproape fiecare set de date,
întrebarea care trebuie pusă la detectarea sa este cât de severă este multicoliniaritatea
într-un anumit eșantion.
7. Destul de des, a nu face nimic este cel mai bun remediu pentru multicoliniaritate. Dacă
multicoliniaritatea nu a scăzut scorurile 𝑡 până la nesemnificativitate, atunci niciun
remediu nu ar trebui luat în considerare atâta timp cât variabilele sunt teoretic puternice.
Chiar dacă scorurile t sunt nesemnificative, remediile ar trebui întreprinse cu prudență,
deoarece toate impun costuri estimării, care pot fi mai mari decât beneficiul potențial al
eliminării din ecuație a multicoliniarității.