Documente Academic
Documente Profesional
Documente Cultură
1. Esenţa
Esenţa şi consecinţele multicoliniarităţii
2. Metode şi tehnici de detectare a multicoliniarităţii
3. Metode de atenuare sau remediere a multicoliniarităţii
4. Metode de selectare a variabilelor explicative.
5. Coeficienţii parţiali de corelaţie
-1-
Una din ipotezele modelului econometric clasic - I10 spune: nu există multicoliniaritate printre
variabilele explicative incluse în model. Adică variabilelor exogene x1, x2 …xk nu sunt corelate (sau
cel puţin nu sunt perfect corelate), ci sunt independente
cov (xi, xj )=0,
Astfel multicoliniaritatea poate fi definită ca o legătură liniară funcțională (sau ca o relație
liniară puternică) existentă între două sau mai multe variabile exogene într-un model econometric
de forma:
y 0 1 x1 2 x 2 ... k x k u
-2-
Detectarea fenomenului de multicoliniaritate se poate efectua cu ajutorul mai multor
procedee şi teste cum ar fi:
Reprezentarea grafică a seriilor de valori corespunzătoare variabilelor explicative. În cazul în
care se constată analogii în evoluţia acestor variabile putem aprecia existenţa unor corelaţii suficient
de intense între variabilele respective.
xj
x1
x2
preluată din cadrul tabelelor repartiţiei 2 „hi pătrat” corespunzător unui nivel de semnificaţie α şi
1
p ( p 1) grade de libertate.
2
Dacă 2 2 atunci vom accepta ipoteza nulă H0, ipoteza de independent[, dacă însă 2 2 vom
accepta ipoteza alternativă H1, ecuaţia de regresie fiind susceptibilă de multicoliniaritate.
-3-
Printre metodele de atenuare sau remediere a multicoliniarităţii vom enumera:
a) Extinderea eşantionului. Datorită faptului că seriile de date privind variabila efect şi factorii
săi determinanţi sunt alcătuite, de cele mai dese ori, dintr-un număr redus de termeni se recomandă
includerea de termeni suplimentar, astfel încât eventualele analogii să fie pe cât posibil eliminate.
Această metodă însă are un grad redus de eficienţă, deoarece fie nu există posibilitatea includerii de
observaţii statistice suplimentare, presupunând că toate datele disponibile sunt utilizate, fie că noile
date introduse nu vor modifica în mod esenţial caracteristicile eşantionului iniţial şi nu vor conduce
la atenuarea multicoliniarităţii.
b) Renunţarea la una sau câteva variabile exogene. În situaţia în care 2 variabile explicative sunt
intens corelate se renunţă la una din ele, considerându-se că variabila omisă este exprimată de cea
reţinută în model.
c) Trecerea la valori exprimate prin diferenţe de ordinul unu sau logaritmarea valorilor
variabilelor Y şi Xj Dacă datele sunt prezentate sub formă de serii cronologice se pot calcula
.............................................................................................
aˆ 0 x ki aˆ1 x1i x ki c aˆ 2 x 2i x ki ... aˆ k x ki c y i x ki
2
i i i i i
-4-
În practică în cadrul elaborării unui model multifactorial ne confruntăm cu alegerea variabilelor
explicative x1 x2,…xk candidate la explicarea variabilei rezultative y. Includerea în cadrul ecuaţiei
de regresie multiplă al unui set de factori de maximă semnificaţie este legat în primul rând de
perceperea şi experienţa cercetătorului privind natura interdependenţei dintre indicatorul supus
modelării şi factorii de influenţă ce-l determină.
Factorii incluşi in model trebuie să satisfacă următoarele condiţii:
a) ei trebuie să fie exprimaţi cantitativ. În cazul includerii unor factori calitativi e necesar să li
se atribuie o expresie numerică.
b) factorii nu trebuie să fie corelaţi între ei şi cu atât mai mult să nu fie într-o legătură
funcţională.
Daca construim un model multifactorial de k factori atunci includerea unui factor suplimentar
Selecţia variabilelor exogene are loc în baza unei analize teoretico-economice calitative.
Totuşi analiza teoretică deseori nu oferă un răspuns clar privind exprimarea cantitativă a intensităţii
legăturii dintre variabile şi oportunitatea includerii unui factor în model. Astfel in primă faza se aleg
factorii de influenţă reieşind din esenţa problemei. Apoi pe baza matricei coeficienţilor de corelaţie
simplă sunt aleşi factorii ce au o intensitate puternică cu variabila rezultativă.
La fel pe baza acestei matrice poate fi analizată corelaţia dintre factori şi a elimina variabilele
explicative ce se dublează. Două variabile sunt evident corelate dacă rxixj 0,7 . Dacă factori sunt
puternic corelaţi atunci ei se dublează şi unul din ei trebuie eliminat din model. Preferinţă i se
acordă nu factorului ce este cel mai puternic corelat cu variabila y, ci factorului care fiind puternic
corelat cu y are în acelaşi timp o corelaţie mai slabă cu ceilalţi factori. Presupunem ca avem un
model de 3 factori şi este cunoscută matricea coeficienţilor de corelaţie simplă:
ryx1 ryx 2 0,8 0,7 . Dar corelaţia fiecărui factor x1 şi x2 cu variabila x3 ne arată că
.
rx1x 3 0,5 iar rx 2 x 3 0,2 Astfel vom alege x2 şi x3 aceste variabile fiind mai puţin corelate având
bj
t aˆj t , n p b j 0 şi xj este eliminată din model). Procedeul continuă prin eliminarea
S bj
progresivă a altor variabile aflate în aceleaşi situaţie până la obţinerea unei ecuaţii
satisfăcătoare. Această procedură este reală doar când prima ecuaţie poate fi estimată ceea ce
nu se reuşeşte adeseori existând riscul ca matricea XTX să fie singulară.
3) Metoda selectării progresive (forward selection). Este un procedeu opus celui precedent.
Ecuaţia de regresie iniţială în acest caz conţine o singură variabilă explicativă, cea care
prezintă cel mai mare coeficient de corelaţie simplă cu variabila explicată y. Fie xj acea
variabilă inclusa în model. În a doua etapă se determină coeficienţii de corelaţie parţială între
y şi fiecare din celelalte variabile explicative şi se reţine acea variabilă a cărui coeficient este
mai relevant.
4) Metoda regresiei pas cu pas (forward stepwise regresion). Această procedură este identică
celei precedente, singura diferenţă constând în faptul că după introducerea unei noi variabile
exogene se analizează testul t-Student al fiecărei variabile selecţionate în prealabil
eliminându-se acelea al cărui t este inferior nivelului critic acceptat.
5) Metoda regresiei etapizate sau regresia pe faze (stagewise regresion). Acest procedeu
constă în selectarea variabilelor care se bazează pe minimizarea intercorelaţiilor existente între
variabilele explicative prin analiza termenului rezidual.
Prima etapă porneşte de la analiza coeficienţilor de corelaţie ryxj. Se alege acea variabilă explicativă
al cărui coeficient de corelaţie simplă cu variabila endogenă y este cel mai ridicat (max ryxj).
Fie acea variabilă xm. Se construieşte modelul liniar ŷ =b0+b1xm şi se determină variabile
reziduală corespunzător acestei regresii: e1 y b0 b1 x m
În etapa a doua se calculează coeficienţii de corelaţie simplă între e1 şi fiecare dintre variabilele
explicative rămase ( re1xj j m) reţinând variabila cu cel mai mare coeficient (max re1xj). Fie
respectiv are cea mai ridicată valoare (max re2xj). Noua variabila introdusă permite modelarea
unui nou model şi calcularea valorilor pentru cel de-al treilea termen rezidual.
Procedeul continuă până in momentul în care coeficienţii de corelaţie simplă calculaţi devin
foarte apropiaţi de zero. Toate aceste modele obţinute pe parcurs sunt testate cu ajutorul testelor
cunoscute „t” şi „F” urmărindu-se şi verificarea condiţiei: RY , Xm RY , Xh ... RY , XmXh... Xk adică are
2 2 2
-5-
Coeficienţii parţiali de corelaţie caracterizează intensitatea legăturii dintre variabila
rezultativă y şi un oarecare factor de influenţă xj prin eliminarea influenţei celorlalţi factori incluşi
în ecuaţia de regresie.
Într-un model de m factori y a b1 x1 b2 x2 ... bm xm coeficientul de corelaţie
parţială exprimă influenţa variabilei xi asupra rezultatului y în condiţiile in care influenţa altor
factori din model este eliminată:
unde: Ryx2 1x2 ... xi ... xm coeficientul de determinaţie a modelului cu m factori, Ryx2 1x2 ... xi 1xi 1... xm
coeficientul de determinaţie a modelului în care variabila xi nu a fost inclusă.
Într-un model de 2 factori relaţia (1) devine:
x2 a fost eliminată,
ryx2 x1 coeficientul parţial de corelaţie dintre y şi x2 în condiţiile în care influenţa factorului
x1 a fost eliminată
Ordinul coeficienţilor de corelaţie parţiali se determină în funcţie de numărul de factori a
căror influenţă este eliminată. Astfel ryx1x2 este un coeficient de corelaţie parţială de ordinul 1.
Corespunzător coeficienţii de corelaţie simplă se numesc coeficienţi de corelaţie de ordinul 0.
În cadrul unui model de 2 factori putem utiliza și relaţiile de mai jos:
ryx1 ryx2 �
rx1x2 ryx2 ryx1 �
rx1x2
ryx1�x2 ryx2 �x1
( 1 r ) �( 1 r )
2
yx2
2
x1x2 ( 1 r ) �( 1 r )
2
yx1
2
x1x2