Sunteți pe pagina 1din 10

TEMA: MULTICOLINIARITATEA ŞI SELECŢIA VARIABILELOR EXPLICATIVE

1. Multicoliniaritatea

2. Consecinţele multicoliniarităţii

3. Detectarea multicoliniarităţii

4. Remedierea multicoliniarităţii

5. Selecţia variabilelor explicative

1. Multicoliniaritatea

1. O ipoteză a modelului liniar clasic de regresie: nu există multicoliniaritate printre variabilele


explicative incluse în model.

2. Seriile x1 şi x2 sunt ortogonale sau independente când cov(x1,x2)=0. Multicoliniaritatea se


referă strict la existenţa mai multor relaţii liniare, iar termenul de coliniaritate se referă la
existenţa unei singure relaţii liniare. Această distincţie nu se face în practică, folosindu-se în
ambele situaţii termenul de multicoliniaritate.

3. În cazul a două variabile explicative, intercorelaţia lor se măsoară cu coeficientul de corelaţie


simplă dintre ele. Intercorelaţia în cazul mai multor variabile explicative se măsoară cu ajutorul
coeficienţilor de corelaţie parţială sau prin coeficientul de corelaţie multiplă R între variabila y
şi variabilele xi.

4. Multicoliniaritatea este un fenomen de eşantionare: chiar dacă în populaţie, variabilele xi sunt


necorelate liniar, se poate ca într-un eşantion dat, ele să fie corelate. Astfel încât, deşi teoretic
se poate considera că variabilele xi au o influenţă separată sau independentă asupra variabilei
dependente y, se poate întâmpla ca în eşantionul dat pentru a testa funcţia de regresie a
populaţiei, unele variabile xi, să fie atât de puternic corelate, încât să nu se poată izola influenţa
lor individuală asupra lui y.

2. Consecinţele multicoliniarităţii

 varianţe şi covarianţe mari ale estimatorilor coeficienţilor de regresie;

 intervale mari de încredere ale estimatorilor, din cauza abaterilor standard mari;

 raţiile t Student nesemnificative, din cauza abaterilor standard mari;

 un coeficient mare de determinaţie R2, dar raţiile t nesemnificative;


1
 instabilitatea estimatorilor şi a abaterilor lor standard la mici schimbări ale datelor;

 în caz de multicoliniaritate perfectă matricea este singulară (determinatul este 0), estimarea
coeficienţilor este imposibilă şi varianţa lor, infinită.

Regresia y = f(x1, x2, x3, x4) din exerciţiul prezentat mai jos indică un coeficient de determinaţie mare, de
0.995, iar testul Fisher arată că regresia este global semnificativă cu o probabilitate de 100% (Significance
F).

Cu excepţia coeficientului variabilei x1, care este semnificativ, restul coeficienţilor au raţiile Student mai
mici decât valoarea critică pentru un prag de semnificaţie de 5%.

Intervalele de încredere ale estimatorilor, cu excepţia intervalului pentru â1 , schimbă semnul de la minus
la plus, conţinând valoarea 0 şi indicând faptul că sunt nesemnificativi.

Exerciţiu – multicoliniaritatea

y x1 x2 x3 x4
9.5 83.7 18 92.5 92.5
10.7 88.8 21.5 93.6 95.6
11.5 100.7 25.6 96.5 97.5
12.5 105.5 29.5 94 97.4
13.3 118.5 34.6 100.2 100.2
15.3 131.4 40.5 101.5 101.4
16.8 148.5 44.4 105.4 104.6
18.8 162 49.8 112.8 109.8
19.5 174.5 51.5 112.6 111.5
21.5 185.3 53.8 112.7 112.2

2
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.99748
R Square 0.994966
Adjusted R
Square 0.990938
Standard
Error 0.389094
Observations 10

ANOVA
Significance
df SS MS F F
Regression 4 149.607 37.40176 247.0493 6.27E-06
Residual 5 0.75697 0.151394
Total 9 150.364

Standard Upper
Coefficients Error t Stat P-value Lower 95% 95%
Intercept -4.15552 10.3724 -0.40063 0.705236 -30.8186 22.50753
X Variable 1 0.096456 0.035756 2.697625 0.042906 0.004543 0.18837
X Variable 2 0.023858 0.066989 0.356143 0.736268 -0.14834 0.196057
X Variable 3 -0.09621 0.100689 -0.95547 0.38322 -0.35504 0.162624
X Variable 4 0.151719 0.176617 0.859026 0.429576 -0.30229 0.605726

3. Detectarea multicoliniarităţii

Nu există o metodă unică de detectare şi măsurare a intensităţii sale. Există

câteva reguli pentru stabilirea existenţei sale:

• R2 mare, dar puţine raţii t semnificative. Testul F de semnificaţie globală a regresiei va fi în


majoritatea cazurilor, mai mare decât F teoretic, astfel că se va respinge ipoteza nulă, conform
căreia coeficienţii parţiali de regresie (estimatorii variabilelor explicative) sunt simultan egali cu
zero. Dar raţiile t au valori mici şi arată că nici unul sau foarte puţini coeficienţi de regresie sunt

3
statistic semnificativ diferiţi de 0. Multicoliniaritatea este dăunătoare numai când influenţele
tuturor variabilelor explicative asupra lui y nu pot fi separate.

• Corelaţiile perechi puternice (perechi de câte două variabile explicative). Coeficienţii mari de
corelaţie de ordinul 0 reprezintă condiţia suficientă, dar nu şi necesară pentru existenţa
multicoliniarităţii, deoarece aceasta poate exista chiar dacă valorile lor sunt comparativ mici.

• Pornind de la această regulă, testul lui Klein, constă în compararea R2, calculat pe modelul cu k
variabile explicative: y  aˆ0  aˆ1x1  aˆ2 x2  ...  aˆk xk  e
cu r2xixj, unde ij. Dacă R2 < r2xixj pentru oricare ij, i,j =1,2,…,k, atunci există o prezumpţie de
multicoliniaritate. Acest test nu este un test propriu-zis şi nici nu este concludent în toate cazurile.

• Examinarea corelaţiilor parţiale a fost propusă de Farrar şi Glauber, tocmai datorită problemei
menţionate pentru coeficienţii de corelaţie simplă dintre regresori.

Ei susţin că, în regresia dintre y şi x1, x2, x3, dacă se găseşte că R2yx1x2x3 este mare, şi comparativ
r yx1.x2x3, r2yx2.x1x3, r2yx3.x1x2 sunt mici, aceasta poate sugera că variabilele x1, x2 şi x3 sunt puternic
2

intercorelate şi că cel puţin una din variabilele explicative este în plus. Deşi studiul coeficienţilor de
corelaţie parţială ar putea fi foarte util, totuşi nu se poate garanta că va furniza un răspuns sigur în ceea ce
priveşte multicoliniaritatea.

Se poate întâmpla ca atât R2yx1x2x3 cât şi toate corelaţiile parţiale să fie suficient de mari, încât să
pună sub semnul întrebării afirmaţia lui Farrar şi Glauber.

• Regresiile auxiliare. Aflarea variabilei explicative care este corelată cu alte variabile x, prin
efectuarea regresiilor pentru fiecare variabilă xi şi restul variabilelor x. Fiecare din aceste regresii
se consideră ca fiind auxiliară faţă de regresia principală, considerată a fi regresia lui y în funcţie
de toate variabilele explicative x.

Un coeficient mare de determinaţie sugerează că xi este puternic corelată cu celelalte variabile x.


Pentru fiecare din aceste regresii auxiliare se calculează statistica F, după formula:
2
Fi 
Rxi.x 2 x3... xk /(k  1) , unde
2
(1  Rxi.x 2 x3... xk ) /(n  k  1)
k este numărul de variabile regresori din modelul auxiliar, n este volumul eşantionului, iar R2xi.x2x3…xk este
coeficientul de determinaţie corespunzător fiecărei regresii.

Se compară Fi* cu valoarea critică din tabela Fisher, pentru un prag de semnificaţie  şi (k-1), (n-
k-1) grade de libertate. Dacă Fi* > F αk-1,n-k-1 acesta înseamnă că acea variabilă xi este coliniară cu celelalte
variabile x. Dacă Fi* < Fk-1,n-k-1 se spune că variabila xi nu este coliniară cu celelalte variabile x, caz în
care respectiva variabilă xi se reţine în model. Această metodă are neajunsurile ei, în sensul că atunci când

4
multicoliniaritatea presupune implicarea a mai multor variabile, este dificil să se identifice interrelaţiile
separate.

4. Remedierea multicoliniarităţii

Există mai multe reguli de remediere a multicoliniarităţii, dar care nu reprezintă

metode sigure de înlăturare a ei.

• creşterea volumului eşantionului – este eficientă numai dacă se adaugă observări semnificativ
diferite de cele care sunt deja considerate în model, în caz contrar, multicoliniaritatea se menţine;

• înlăturarea variabilei puternic corelate poate conduce la o specificare incorectă a modelului.


Eroarea de specificare duce la obţinerea de estimatori eronaţi, fiind mai dăunătoare decât
acceptarea unei multicoliniarităţi mici;

• transformarea variabilelor în serii ale diferenţelor de ordinul 1. Modelul de regresie pe diferenţele


de ordinul 1, reduce severitatea multicoliniarităţii. Dezavantajele sunt:

– termenul eroare din forma transformată a diferenţelor de ordinul 1, s-ar putea să nu respecte
una din ipotezele modelului liniar clasic, şi anume erorile nu sunt serial corelate (corelaţie
de ordinul 1). Dacă în seriile iniţiale erorile sunt independente sau necorelate, în seria
transformată, acestea vor fi serial corelate în majoritatea cazurilor.

– se pierde o observare prin diferenţiere, ceea ce este important când volumul eşantionului
este mic, şi numărul gradelor de libertate se micşorează cu 1. Mai mult, în seriile de date
instantanee, procedura de diferenţiere nu este corespunzătoare, deoarece nu există o ordine
logică a datelor observate.

• utilizarea altor metode: analiza factorială, analiza în componente principale, sunt deseori folosite
pentru a rezolva problema multicoliniarităţii.

• Se observă că nu în orice situaţie, când se obţin valori t nesemnificative pentru estimatorii


coeficienţilor de regresie, există multicoliniaritate. Lipsa de semnificaţie se poate datora şi altor
cauze, cum ar fi:

– metoda folosită pentru culegerea datelor, de exemplu eşantionarea variabilelor regresori


peste valorile lor limită, pe care acestea le iau în populaţie;

– restricţii asupra modelului sau asupra populaţiei şi a metodei de eşantionare folosită;

– specificarea modelului;

– supradimensionarea modelului, prin introducerea unui număr de variabile explicative, mai


mare decât numărul de observări (în domeniul medical, când numărul de pacienţi este mai
mic decât informaţiile despre ei, cuprinse într-un număr mare de variabile).
5
Aplicarea în practică a uneia din modalităţile de remediere, depinde de natura datelor şi de severitatea
multicoliniarităţii. Nu se recomandă utilizarea regresiei afectată de multicoliniaritate, pentru previziune.

5. Selecţia variabilelor explicative


Procedurile statistice de selecţie a variabilelor explicative permit determinarea acelor variabile, care se
adaugă sau se retrag dintr-un model. Aceste demersuri exclud raţionamentul economic, permiţând găsirea
unor modele, care deseori sunt bune din punct de vedere statistic, dar a căror interpretare economică poate
fi nulă sau aberantă. De aceea tehnicile automate de selecţie a variabilelor explicative se utilizează cu
prudenţă, completându-se rezultatele cu raţionamentul economic.

Există cinci proceduri pentru selecţia variabilelor explicative

- cele mai corelate cu variabile explicată şi

- cel mai puţin corelate între ele.

Aceste proceduri sunt:

 toate regresiile posibile;

 eliminarea progresivă;

 selecţia (selectarea) progresivă;

 regresia pas cu pas;

 regresia pe faze.

• Toate regresiile posibile - constă în efectuarea tuturor regresiilor posibile (2k – 1), unde k
este numărul variabilelor explicative, candidate la intrarea în model. Se reţine acel model care
are R2 cel mai mare şi toate variabilele explicative semnificative. Dezavantajul este legat de
numărul k, de variabile explicative, care cu cât este mai mare, cu atât duce la realizarea unui
număr considerabil de regresii (de exemplu: k=10, număr regresii posibile = 1023).

În plus la aceasta, se reține modelul care minimizează funcția Akaike (AIC – Akaike Information Criterion) sau funcția
Schwarz (Schwarz Criterion):
 SCR  2k
AIC  Ln 
 n  n
 SCR  kLnn 
SC  Ln 
 n  n

• Eliminarea progresivă (Backward Elimination) - constă în efectuarea regresiei cu toate


variabilele explicative şi apoi eliminarea pe rând, a acelora a căror raţie Student (tcalc) este mai

6
mică decât valoarea critică. Procedura se utilizează, numai dacă se poate estima efectiv, modelul
iniţial, ceea ce nu este mereu posibil. Modelul poate avea un număr mare de variabile explicative,
şi atunci, riscul multicoliniarităţii este mare, iar matricea poate fi singulară (matricea pătratică A
se numește singulară dacă determinantul ei este nul (det A = 0)).

(matricea pătratică A se numește nesingulară dacă determinantul ei este nenul (det A ≠ 0))

sau

______________________________________________________________________________

(Metoda eliminării progresive (backward elimination) constă în efectuarea unei regresii complete cu
toate k variabile explicative. Eliminarea are loc din aproape în aproape, adică acea variabilă căreia îi
corespunde un cel mai mic t-Student și este sub nivelul critic acceptat va fi eliminată din ecuaţie, iar
aˆ j
regresia este reestimată în noile condiţii. ( t aˆj   t ,n  p  a j  0 şi xj este eliminată din model).
S aˆ j
Procedeul continuă prin eliminarea progresivă a altor variabile aflate în aceleaşi situaţie până la
obţinerea unei ecuaţii satisfăcătoare.
(Această procedură este reală doar când prima ecuaţie poate fi estimată ceea ce nu se reuşeşte adeseori
existând riscul ca matricea XTX să fie singulară (det=0)))

• Selecţia progresivă (Forward Regression) - se parcurge în sens invers celui descris în


eliminarea progresivă.

• în prima etapă, se selectează în model o variabilă xi, care are coeficientul de corelaţie simplă
cu variabila y, cel mai mare.

• în a doua etapă se calculează coeficienţii de determinaţie parţială r2yxj.xi pentru j  i şi se


reţine acea variabilă xj, care are cel mai mare coeficient.

Selecţia variabilelor se opreşte când raţiile t calculate devin mai mici decât valoarea critică citită
din tabela Student.

____________________________________________________________________________________

sau

Metoda selectării progresive (forward selection sau regression). Este un procedeu opus celui de eliminare
progresivă. Ecuaţia de regresie iniţială în acest caz conţine o singură variabilă explicativă, cea care prezintă cel mai
mare coeficient de corelaţie simplă cu variabila explicată y. Fie xi acea variabilă inclusa în model. În a doua etapă
se determină coeficienţii de corelaţie parţială între y şi fiecare din celelalte variabile explicative

7
ryx2 j  xi pentru j≠i

și se reţine acea variabilă a cărui coeficient este mai relevant (mai mare).
Selecţia variabilelor se opreşte când raţiile t calculate devin mai mici decât valoarea critică citită din tabela
Student.

De exemplu ryx2 1  x2 se citește: coeficient de corelație parțială dintre y și x1 în condițiile în care influența
factorului x2 a fost eliminată (sau retrasă), formula de calcul fiind:
ryx1  ryx2  rx1x2
ryx1x2 
1  r   1  r 
2
yx2
2
x1x2

De exemplu ryx2 2  x1 se citește: coeficient de corelație parțială dintre y și x2 în condițiile în care influența
factorului x1 a fost eliminată (sau retrasă), formula de calcul fiind:
ryx2  ryx1  rx1x2
ryx2 x1 
1  r   1  r 
2
yx1
2
x1x2

• Regresia pas cu pas (Stepwise regression) - este identică cu cea precedentă, a selecţiei
progresive, doar că înainte de a incorpora o nouă variabilă explicativă se examinează raţia - tcalc (t
-Student) a fiecăreia din variabilele explicative selecţionate în prealabil şi se elimină din model
cele care au tcalc mai mici decât valoarea critică (tcrit).

De exemplu:

pas1: se calculează coeficienții de corelație între y și x1, x2, x3 și x4.


variabilă selectată va fi aceea a cărui coeficient de corelație va fi cel mai relevant (mai mare)

pas2: se estimează 3 modele cu două variabile explicative: x1 și x2; x1 și x3; x1 și x4.


dacă în fiecare dintre aceste modele cel puțin una din variabilele nu este semnificativă, procedura este
deci terminată
…..etc.

8
• Regresia pe faze sau pe stadii (Stagewise Regression) - permite minimizarea
intercorelaţiilor dintre variabilele explicative, prin studiul reziduurilor. Etapele care se parcurg
sunt următoarele:

– etapa 1: se selecţionează acea variabilă explicativă, xi, care are coeficientul de corelaţie
simplă cu y, cel mai mare;

– etapa a 2-a: se calculează reziduurile e1t  yt  yˆt  yt  (aˆ0  aˆ1xit )

şi coeficienţii de corelaţie simplă între e1t şi restul variabilelor explicative; se reţine aceea dintre
ele, xj, care are acest coeficient cel mai mare, considerând că va explica în continuare, cel mai bine,
varianţa reziduurilor;

– etapa a 3-a: se calculează reziduurile: e2t  yt  yˆt  yt  (aˆ0  aˆ1xit  aˆ2 x jt )


şi coeficienţii de corelaţie simplă între e2t şi restul variabilelor explicative; se reţine aceea dintre
ele, xk, care are acest coeficient cel mai mare, ceea ce duce la obţinerea altor reziduuri; procedura se
termină când de coeficienţii de corelaţie simplă dintre reziduuri şi variabilele explicative rămase, devin
nesemnificativ diferiţi de 0.

____________________________________________________________________________________

sau

Metoda regresiei etapizate sau regresia pe faze (stagewise regresion).

Acest procedeu constă în selectarea variabilelor care se bazează pe minimizarea intercorelaţiilor existente
între variabilele explicative prin analiza termenului rezidual.

Prima etapă porneşte de la analiza coeficienţilor de corelaţie ryxj. Se alege acea variabilă explicativă al cărui
coeficient de corelaţie simplă cu variabila endogenă y este cel mai ridicat (max ryxj). Fie acea variabilă xm. Se
construieşte modelul liniar ŷ =b0+b1xm şi se determină variabila reziduală corespunzător acestei regresii:
e1  y  b0  b1 xm

În etapa a doua se calculează coeficienţii de corelaţie simplă între e1 şi fiecare dintre variabilele explicative rămase
(re1xj j  m) reţinând variabila cu cel mai mare coeficient (max re1xj). Fie xh variabilă nouă ce va fi
introdusă în model.

Etapa 3. Se construieşte un al doilea model ce corespunde dependenţei variabilei y şi celor două variabile exogene
reţinute în etapele precedente: ŷ =b0+b1xm+b2xh calculându-se ulterior şi valorile termenului rezidual e2
pentru modelul 2: e2  y  b0  b1 xm  b2 xh

Etapa 4. Se calculează din nou coeficienţii de corelaţie între noul termen rezidual e2 şi fiecare variabilă explicativă
rămasă (re2 xj j  m, h) reţinându-se variabila pentru care coeficientul respectiv are cea mai ridicată

9
valoare (max re2xj). Noua variabila introdusă permite modelarea unui nou model şi calcularea valorilor pentru
cel de-al treilea termen rezidual.

Procedeul continuă până in momentul în care coeficienţii de corelaţie simplă calculaţi devin foarte apropiaţi
de zero. Toate aceste modele obţinute pe parcurs sunt testate cu ajutorul testelor cunoscute „t” şi „F” urmărindu-
2 2 2
se şi verificarea condiţiei: RY , Xm  RY , XmXh  ...  RY , XmXh... Xk adică are loc o creştere progresivă a
coeficientului de determinaţie.

10

S-ar putea să vă placă și