Sunteți pe pagina 1din 16

MULTICOLINIARITATEA I SELECIA

VARIABILELOR EXPLICATIVE

Multicoliniaritatea
Consecinele multicoliniaritii
Detectarea multicoliniaritii
Remedierea multicoliniaritii
Selecia variabilelor explicative
Multicoliniaritatea
O ipotez a modelului liniar clasic de regresie: nu exist multicoliniaritate printre
variabilele explicative incluse n model.
Seriile x1 i x2 sunt ortogonale sau independente cnd cov(x1,x2)=0.
Multicoliniaritatea se refer strict la existena mai multor relaii liniare, iar
termenul de coliniaritate se refer la existena unei singure relaii liniare.
Aceast distincie nu se face n practic, folosindu-se n ambele situaii termenul
de multicoliniaritate.
n cazul a dou variabile explicative, intercorelaia lor se msoar cu coeficientul
de corelaie simpl dintre ele. Intercorelaia n cazul mai multor variabile
explicative se msoar cu ajutorul coeficienilor de corelaie parial sau prin
coeficientul de corelaie multipl R ntre variabila y i variabilele xi.
Multicoliniaritatea este un fenomen de eantionare: chiar dac n populaie,
variabilele xi sunt necorelate liniar, se poate ca ntr-un eantion dat, ele s fie
corelate. Astfel nct, dei teoretic se poate considera c variabilele xi au o
influen separat sau independent asupra variabilei dependente y, se poate
ntmpla ca n eantionul dat pentru a testa funcia de regresie a populaiei,
unele variabile xi, s fie att de puternic corelate, nct s nu se poat izola
influena lor individual asupra lui y.
Consecinele multicoliniaritii
variane i covariane mari ale estimatorilor coeficienilor de regresie;
intervale mari de ncredere ale estimatorilor, din cauza abaterilor standard
mari;
raiile t Student nesemnificative, din cauza abaterilor standard mari;
un coeficient mare de determinaie R2, dar raiile t nesemnificative;
instabilitatea estimatorilor i a abaterilor lor standard la mici schimbri ale
datelor;
n caz de multicoliniaritate perfect matricea este singular (determinatul
este 0), estimarea coeficienilor este imposibil i variana lor, infinit.

Regresia y = f(x1, x2, x3, x4) din exerciiul prezentat indic un coeficient de
determinaie mare, de 0.995, iar testul Fisher arat c regresia este global
semnificativ cu o probabilitate de 100% (Significance F).
Cu excepia coeficientului variabilei x1, care este semnificativ, restul
coeficienilor au raiile Student mai mici dect valoarea critic pentru un prag de
semnificaie de 5%.
Intervalele de ncredere ale estimatorilor, cu excepia intervalului pentru 1 ,
a
schimb semnul de la minus la plus, coninnd valoarea 0 i indicnd faptul c
sunt nesemnificativi.
Exerciiu multicoliniaritatea
y x1 x2 x3 x4
9.5 83.7 18 92.5 92.5
10.7 88.8 21.5 93.6 95.6

11.5 100.7 25.6 96.5 97.5

12.5 105.5 29.5 94 97.4

13.3 118.5 34.6 100.2 100.2

15.3 131.4 40.5 101.5 101.4

16.8 148.5 44.4 105.4 104.6

18.8 162 49.8 112.8 109.8

19.5 174.5 51.5 112.6 111.5

21.5 185.3 53.8 112.7 112.2


SUMMARY OUTPUT
Regression Statistics
Multiple R 0.99748
R Square 0.994966
Adjusted R
Square 0.990938
Standard Error 0.389094
Observations 10

ANOVA
Significance
df SS MS F F
247.049
Regression 4 149.607 37.40176 3 6.27E-06
Residual 5 0.75697 0.151394
Total 9 150.364

Coefficient Standard Upper


s Error t Stat P-value Lower 95% 95%
0.70523
Intercept -4.15552 10.3724 -0.40063 6 -30.8186 22.50753
0.04290
X Variable 1 0.096456 0.035756 2.697625 6 0.004543 0.18837
0.73626
X Variable 2 0.023858 0.066989 0.356143 8 -0.14834 0.196057
Detectarea multicoliniaritii (1)
Nu exist o metod unic de detectare i msurare a intensitii sale. Exist
cteva reguli pentru stabilirea existenei sale:
R2 mare, dar puine raii t semnificative. Testul F de semnificaie global
a regresiei va fi n majoritatea cazurilor, mai mare dect F teoretic, astfel
c se va respinge ipoteza nul, conform creia coeficienii pariali de
regresie (estimatorii variabilelor explicative) sunt simultan egali cu zero.
Dar raiile t au valori mici i arat c nici unul sau foarte puini coeficieni
de regresie sunt statistic semnificativ diferii de 0. Multicoliniaritatea este
duntoare numai cnd influenele tuturor variabilelor explicative asupra lui
y nu pot fi separate.
Corelaiile perechi puternice (perechi de cte dou variabile explicative).
Coeficienii mari de corelaie de ordinul 0 reprezint condiia suficient, dar
nu i necesar pentru existena multicoliniaritii, deoarece aceasta poate
exista chiar dac valorile lor sunt comparativ mici.
Pornind de la aceast regul, testul lui Klein, const n compararea
R2, calculat pe modelul cu k variabile explicative:y a0 a1x1 a2x2 ... ak xk e
cu r2xixj, unde ij. Dac R2 < r2xixj pentru oricare ij, i,j =1,2,,k, atunci exist
o prezumpie de multicoliniaritate. Acest test nu este un test propriu-zis i
nici nu este concludent n toate cazurile.
Detectarea multicoliniaritii (2)
Testul Farrar i Glauber. Detectarea multicoliniaritii se efectuiaz
prin dou etape:
Prima etap const n calcularea determinantului corespunztor
matricei coeficienilor de corelaie simpl ntre variavilele
independente, care au urmtoarea form:

1 rx1x 2 ... rx1xk



rx1x 2 1 ... rx 2 xk
D
... ... ... ...

rxkx1 rxkx 2 ... 1
Detectarea multicoliniaritii (2)
n cazul n care determinantul tinde ctre valoarea zero, exist riscul foarte
mare de prezen a fenomenului de multicoliniaritate n ecuaia de regresie.
De exemplu, pentru un model de dou variabile explicative de dou serii perfect
corelate, determinantul D se scrie:

1 rx1x 2 1 1
D 0
rx 2 x1 1 1 1
n caz contrar, valoare determinantului se apropie de valoare unitar (este egal cu
unitatea n cazul ortogaonalitii perfecte).

1 rx1x 2 1 0
D 1
rx 2 x1 1 0 1
A doua etap const n efectuarea unui test 2 , postulnd
urmtoarele ipoteze:

H0: D=1 (seriile sunt ortogonale)

H1: D<1 (seriile sunt dependente, deci avem multicoliniaritae)

Valoarea empiric calculat de Farrar i Glauber este:

1
n 1 (2 K 5) LnD
2

6
undeK k 1
tab
2
( ; v)
1
v K ( K 1)
2
Daca 2
2
> tab, atunci se concluzioneaza ca
exista multicoliniaritate la nivelul modelului
(regresiei) analizate
Detectarea multicoliniaritii (3)
Regresiile auxiliare. Aflarea variabilei explicative care este corelat cu alte variabile
x, prin efectuarea regresiilor pentru fiecare variabil xi i restul variabilelor x. Fiecare
din aceste regresii se consider ca fiind auxiliar fa de regresia principal,
considerat a fi regresia lui y n funcie de toate variabilele explicative x.
Un coeficient mare de determinaie sugereaz c xi este puternic corelat cu celelalte
variabile x. Pentru fiecare din aceste regresii auxiliare se calculeaz statistica F, dup
formula: Rxi2 .x2x3...xk /(k 1)
Fi
(1 Rxi2 .x2x3...xk ) /(n k 1) , unde
k este numrul de variabile regresori din modelul auxiliar, n este volumul eantionului,
iar R2xi.x2x3xk este coeficientul de determinaie corespunztor fiecrei regresii.
Se compar Fi* cu valoarea critic din tabela Fisher, pentru un prag de semnificaie
i (k-1), (n-k-1) grade de libertate. Dac Fi* > F
k-1,n-k-1 acesta nseamn c acea
variabil xi este coliniar cu celelalte variabile x. Dac Fi* < Fk-1,n-k-1 se spune c
variabila xi nu este coliniar cu celelalte variabile x, caz n care respectiva variabil xi
se reine n model. Aceast metod are neajunsurile ei, n sensul c atunci cnd
multicoliniaritatea presupune implicarea a mai multor variabile, este dificil s se
identifice interrelaiile separate.
Remedierea multicoliniaritii (1)
Exist mai multe reguli de remediere a multicoliniaritii, dar care nu reprezint
metode sigure de nlturare a ei.
creterea volumului eantionului este eficient numai dac se adaug
observri semnificativ diferite de cele care sunt deja considerate n model, n
caz contrar, multicoliniaritatea se menine;
nlturarea variabilei puternic corelate poate conduce la o specificare
incorect a modelului. Eroarea de specificare duce la obinerea de estimatori
eronai, fiind mai duntoare dect acceptarea unei multicoliniariti mici;
transformarea variabilelor n serii ale diferenelor de ordinul 1. Modelul de
regresie pe diferenele de ordinul 1, reduce severitatea multicoliniaritii.
Dezavantajele sunt:
termenul eroare din forma transformat a diferenelor de ordinul 1, s-ar
putea s nu respecte una din ipotezele modelului liniar clasic, i anume
erorile nu sunt serial corelate (corelaie de ordinul 1). Dac n seriile
iniiale erorile sunt independente sau necorelate, n seria transformat,
acestea vor fi serial corelate n majoritatea cazurilor.
se pierde o observare prin difereniere, ceea ce este important cnd
volumul eantionului este mic, i numrul gradelor de libertate se
micoreaz cu 1. Mai mult, n seriile de date instantanee, procedura de
difereniere nu este corespunztoare, deoarece nu exist o ordine logic a
datelor observate.
utilizarea altor metode: analiza factorial, analiza n componente principale,
sunt deseori folosite pentru a rezolva problema multicoliniaritii.
Remedierea multicoliniaritii (2)
Se observ c nu n orice situaie, cnd se obin valori t
nesemnificative pentru estimatorii coeficienilor de regresie, exist
multicoliniaritate. Lipsa de semnificaie se poate datora i altor
cauze, cum ar fi:
metoda folosit pentru culegerea datelor, de exemplu eantionarea
variabilelor regresori peste valorile lor limit, pe care acestea le iau n
populaie;
restricii asupra modelului sau asupra populaiei i a metodei de
eantionare folosit;
specificarea modelului;
supradimensionarea modelului, prin introducerea unui numr de
variabile explicative, mai mare dect numrul de observri (n domeniul
medical, cnd numrul de pacieni este mai mic dect informaiile
despre ei, cuprinse ntr-un numr mare de variabile).
Aplicarea n practic a uneia din modalitile de remediere, depinde de
natura datelor i de severitatea multicoliniaritii. Nu se recomand
utilizarea regresiei afectat de multicoliniaritate, pentru previziune.
Selecia variabilelor explicative (1)
Procedurile statistice de selecie a variabilelor explicative permit
determinarea acelor variabile, care se adaug sau se retrag dintr-un
model. Aceste demersuri exclud raionamentul economic, permind
gsirea unor modele, care deseori sunt bune din punct de vedere statistic,
dar a cror interpretare economic poate fi nul sau aberant. De aceea
tehnicile automate de selecie a variabilelor explicative se utilizeaz cu
pruden, completndu-se rezultatele cu raionamentul economic.
Exist cinci proceduri pentru selecia variabilelor explicative
- cele mai corelate cu variabile explicat i
- cel mai puin corelate ntre ele.
Aceste proceduri sunt:
toate regresiile posibile;
eliminarea progresiv;
selecia progresiv;
regresia pas cu pas;
regresia pe faze.
Selecia variabilelor explicative (2)
Toate regresiile posibile - const n efectuarea tuturor regresiilor
posibile (2k 1), unde k este numrul variabilelor explicative, candidate
la intrarea n model. Se reine acel model care are R2 cel mai mare i
toate variabilele explicative semnificative. Dezavantajul este legat de
numrul k, de variabile explicative, care cu ct este mai mare, cu att
duce la realizarea unui numr considerabil de regresii (de exemplu:
k=10, numr regresii posibile = 1023).
Eliminarea progresiv (Backward Elimination) - const n
efectuarea regresiei cu toate variabilele explicative i apoi eliminarea
pe rnd, a acelora a cror raie Student este mai mic dect valoarea
critic. Procedura se utilizeaz, numai dac se poate estima efectiv,
modelul iniial, ceea ce nu este mereu posibil. Modelul poate avea un
numr mare de variabile explicative, i atunci, riscul multicoliniaritii
este mare, iar matricea poate fi singular.
Selecia progresiv (Forward Regression) - se parcurge un sens
invers celui descris n eliminarea progresiv.
n prima etap, se selecteaz n model o variabil xi, care are
coeficientul de corelaie simpl cu variabila y, cel mai mare.
n a doua etap se calculeaz coeficienii de determinaie parial
r2yxj.xi pentru j i i se reine acea variabil xj, care are cel mai mare
coeficient de corelaie parial.
Selecia variabilelor se oprete cnd raiile t calculate devin mai mici
dect valoarea critic citit din tabela Student.
Selecia variabilelor explicative (3)
Regresia pas cu pas (Stepwise regression) - este identic cu cea
precedent, a seleciei progresive, doar c nainte de a incorpora o
nou variabil explicativ se examineaz raia t* a fiecreia din
variabilele explicative selecionate n prealabil i se elimin din
model cele care au raiile t* mai mici dect valoarea critic.
Regresia pe faze sau pe stadii (Stagewise Regression) - permite
minimizarea intercorelaiilor dintre variabilele explicative, prin studiul
reziduurilor. Etapele care se parcurg sunt urmtoarele:
etapa 1: se selecioneaz acea variabil explicativ, xi, care are
coeficientul de corelaie simpl cu y, cel mai mare;
e yt y t yt (a
0 a
1xit )
etapa a 2-a: se calculeaz reziduurile 1t
i coeficienii de corelaie simpl ntre e1t i restul variabilelor
explicative; se reine aceea dintre ele, xj, care are acest
coeficient cel mai mare, considernd c va explica n continuare,
cel mai bine, variana reziduurilor;
e y y y (a0 a
1xit a
2 xjt )
etapa a 3-a: se calculeaz reziduurile: 2t t t t
i coeficienii de corelaie simpl ntre e2t i restul variabilelor
explicative; se reine aceea dintre ele, xk, care are acest
coeficient cel mai mare, ceea ce duce la obinerea altor reziduuri;
procedura se termin cnd de coeficienii de corelaie simpl
dintre reziduuri i variabilele explicative rmase, devin
nesemnificativ diferii de 0.

S-ar putea să vă placă și