Sunteți pe pagina 1din 2

30.

Metode de selecţie a variabilelor exogene într-un model econometric multifactorial

În practică în cadrul elaborării unui model multifactorial ne confruntăm cu alegerea variabilelor explicative x 1
x2,…xk candidate la explicarea variabilei rezultative y. Includerea în cadrul ecuaţiei de regresie multiplă al unui
set de factori de maximă semnificaţie este legat în primul rând de perceperea şi experienţa cercetătorului privind
natura interdependenţei dintre indicatorul supus modelării şi factorii de influenţă ce-l determină.
Factorii incluşi in model trebuie să satisfacă următoarele condiţii:
a) ei trebuie să fie exprimaţi cantitativ. În cazul includerii unor factori calitativi e necesar să li se atribuie o
expresie numerică.
b) factorii nu trebuie să fie corelaţi între ei şi cu atât mai mult să nu fie într-o legătură funcţională.
Daca construim un model multifactorial de k factori atunci includerea unui factor suplimentar trebuie să
satisfacă următoarele condiţii: Rk21  Rk2 şi S u2( k 1)  S u2( k )

Selecţia variabilelor exogene are loc în baza unei analize teoretico-economice calitative. Totuşi analiza
teoretică deseori nu oferă un răspuns clar privind exprimarea cantitativă a intensităţii legăturii dintre variabile şi
oportunitatea includerii unui factor în model. Astfel in primă faza se aleg factorii de influenţă reieşind din esenţa
problemei. Apoi pe baza matricei coeficienţilor de corelaţie simplă sunt aleşi factorii ce au o intensitate puternică
cu variabila rezultativă.
La fel pe baza acestei matrice poate fi analizată corelaţia dintre factori şi eliminarea variabilele explicative

ce se dublează. Două variabile sunt evident corelate dacă rxixj  0,7 . Dacă factori sunt puternic corelaţi atunci ei

se dublează şi unul din ei trebuie eliminat din model. Preferinţă i se acordă nu factorului ce este cel mai puternic
corelat cu variabila y, ci factorului care fiind puternic corelat cu y are în acelaşi timp o corelaţie mai slabă cu
ceilalţi factori. Presupunem ca avem un model de 3 factori şi este cunoscută matricea coeficienţilor de corelaţie
simplă:
y x1 x2 x3 Este evident că factorii x1 şi x2 se dublează rx1x 2  0,8 corelaţie
y 1 0,8 0,7 0,6
x1 0,8 1 0,8 0,5 puternică. În model este binevenită includerea variabilei x2 şi nu x1
x2 0,7 0,8 1 0,2
x3 0,6 0,5 0,2 1 cu toate că corelaţia variabilei x1 cu y este mai mare decât cea a

variabilei x2 cu y ryx1  ryx2 0,8  0,7 . Dar corelaţia fiecărui factor x1 şi x2 cu variabila x3 ne arată că

rx1x3  0,5 iar rx 2 x3  0,2 .Astfel vom alege x2 şi x3 aceste variabile fiind mai puţin corelate având o influenţă

medie asupra variabilei rezultative.


Sunt însă o serie de proceduri sau metode ce permit mai uşor de a face selectarea variabilelor explicative şi
în acelaşi timp să evităm fenomenul de multicoliniaritate.
1) Metoda regresiei multiple. Toate regresiile posibile. Vor fi estimate toate modelele posibile prin
combinarea variabilelor independente. Dacă vom avea k factori vom avea 2k-1 combinaţii. Pentru fiecare
model calculându-se testându-se semnificaţia coeficienţilor de regresie prin testul t-Student la fel
calculându-se R2 reţinându-se modelul cu R2 maximal. Evident, această metodă este aplicată numai în cazul
uni număr redus de variabile independente, deoarece ansamblul combinaţiilor posibile creşte exponenţial
cu acest număr (dacă k=6 numărul de combinaţii este 63)
2) Metoda eliminării progresive (backward elimination). Acest procedeu constă efectuarea unei regresii
complete cu toate k variabile explicative. Eliminarea are lor din aproape în aproape, adică acea variabilă
căreia îi corespunde cel mai mic t-Student sub nivelul critic acceptat va fi eliminată din ecuaţie, iar regresia
bj
este reestimată în noile condiţii. ( t aˆj   t ,n  p  b j  0 şi xj este eliminată din model). Procedeul
S bj

continuă prin eliminarea progresivă a altor variabile aflate în aceleaşi situaţie până la obţinerea unei ecuaţii
satisfăcătoare. Această procedură este reală doar când prima ecuaţie poate fi estimată ceea ce nu se reuşeşte
adeseori existând riscul ca matricea XTX să fie singulară.
3) Metoda selectării progresive (forward selection). Este un procedeu opus celui precedent. Ecuaţia de
regresie iniţială în acest caz conţine o singură variabilă explicativă, cea care prezintă cel mai mare coeficient
de corelaţie simplă cu variabila explicată y. Fie xj acea variabilă inclusa în model. În a doua etapă se
determină coeficienţii de corelaţie parţială între y şi fiecare din celelalte variabile explicative şi se reţine
acea variabilă a cărui coeficient este mai relevant.
4) Metoda regresiei pas cu pas (forward stepwise regresion). Această procedură este identică celei
precedente, singura diferenţă constând în faptul că după introducerea unei noi variabile exogene se
analizează testul t-Student al fiecărei variabile selecţionate în prealabil eliminându-se acelea al cărui t este
inferior nivelului critic acceptat.
5) Metoda regresiei etapizate sau regresia pe faze (stagewise regresion). Acest procedeu constă în
selectarea variabilelor care se bazează pe minimizarea intercorelaţiilor existente între variabilele explicative
prin analiza termenului rezidual.
Prima etapă porneşte de la analiza coeficienţilor de corelaţie ryxj. Se alege acea variabilă explicativă al cărui
coeficient de corelaţie simplă cu variabila endogenă y este cel mai ridicat (max ryxj). Fie acea variabilă xm.
Se construieşte modelul liniar ŷ =b0+b1xm şi se determină variabile reziduală corespunzător acestei regresii:
e1  y  b0  b1 xm
În etapa a doua se calculează coeficienţii de corelaţie simplă între e1 şi fiecare dintre variabilele explicative
rămase (re1xj j  m) reţinând variabila cu cel mai mare coeficient (max re1xj). Fie xh variabilă nouă ce va
fi introdusă în model.
Etapa 3. Se construieşte un al doilea model ce corespunde dependenţei variabilei y şi celor două variabile exogene
reţinute în etapele precedente: ŷ =b0+b1xm+b2xh calculându-se ulterior şi valorile termenului rezidual e2
pentru modelul 2: e2  y  b0  b1 xm  b2 xh
Etapa 4. Se calculează din nou coeficienţii de corelaţie între noul termen rezidual e2 şi fiecare variabilă explicativă
rămasă (re1xj j  m, h) reţinându-se variabila pentru care coeficientul respectiv are cea mai ridicată
valoare (max re2xj). Noua variabila introdusă permite modelarea unui nou model şi calcularea valorilor
pentru cel de-al treilea termen rezidual.
Procedeul continuă până in momentul în care coeficienţii de corelaţie simplă calculaţi devin foarte apropiaţi
de zero. Toate aceste modele obţinute pe parcurs sunt testate cu ajutorul testelor cunoscute „t” şi „F” urmărindu-
se şi verificarea condiţiei: RY2, Xm  RY2, Xh  ...  RY2, XmXh... Xk adică are loc o creştere progresivă a coeficientului de
determinaţie.

S-ar putea să vă placă și