Sunteți pe pagina 1din 30

6.

Specificarea: alegerea variabilelor independente

Înainte de a putea estima orice ecuație econometrică, ea trebuie specificată.


Specificarea unei ecuații econometrice, așa cum este ilustrat în Figura 1, implică luarea a trei
decizii importante: alegerea variabilelor explicative sau independente, alegerea formei
funcționale și determinarea formei termenului de eroare stohastică. Ori de câte ori, una sau
mai multe dintre aceste alegeri este făcută incorect, va apărea o eroare de specificare. Acest
curs are în vedere doar primul tip de decizie, respectiv alegerea variabilelor independente.
Celelalte două tipuri de decizii vor fi analizate în capitolele următoare.

Alegerea variabilelor independente

Faptul că economiștii pot alege variabilele independente reprezinte un punct forte. În


același timp, în procesul alegerii variabilelor independente pot apărea unele erori, ceea ce
reprezintă un punct slab. Punctul forte este acela că ecuațiile pot fi formulate pentru a se
potrivi nevoilor fiecăruia. Punctul slab constă în faptul că o alegere incorectă poate duce la
apariția unor erori sau alegerea poate fi folosită pentru a induce în eroare cititorii. De
exemplu, faptul că se pot încerca multe specificații diferite până când se găsește cea care
„dovedește” un anumit punct de vedere, anterior formulat, este un exemplu de folosire
incorectă a posibilității de alegere a variabilelor independente.

Alegerea formei funcționale

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + … + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖

Alegerea variabilelor independente Alegerea formei termenului de eroare stohastică

Figura 1. Specificarea modelului

Specificarea implică trei decizii importante: alegerea variabilelor independente, alegerea formei funcționale și
alegerea formei termenului de eroare stohastică.
Un obiectiv principal al acestui curs este acela de a ajuta la înțelegerea felului în care
trebuie alese variabilele din ecuațiile de regresie, fără a cădea pradă diferitelor erori care pot
rezulta din utilizarea greșită a acestei abilități.
Considerația principală în a decide dacă o variabilă independentă aparține sau nu
unei ecuații de regresie este importanța sa din punct de vedere teoretic. Dacă răspunsul este
“da” fără ambiguitate, atunci variabila ar trebui să fie inclusă în ecuație, chiar dacă pare să
nu aibă o semnificație statistică. Dacă teoria este ambiguă sau mai puțin empatică, apare o
dilemă. Omiterea unei variabile relevante dintr-o ecuație este probabil să prejudicieze
valorile estimate ale coeficienților variabilelor rămase în ecuație, iar includerea unei
variabile irelevante duce la varianțe mai mari ale distribuțiilor de eșantionare ale
coeficienților. Deși în continuare se vor analiza unele proceduri statistice care să ajute la
luarea unei decizii corecte, în practică este dificil să se afirme că o variabilă este, în mod sigur,
relevantă. Uneori problema rămâne nerezolvată.
Această secțiune a cursului este dedicată căutării specificațiilor, evidențiindu-se
avantajele și dezavantajele diferitelor abordări. Când căutarea specificațiilor este făcută
superficial, apar diferite probleme, precum deplasamente ale distribuțiilor de eșantionare
ale coeficienților estimați sau lipsa de semnificație a testelor statistice uzuale. Se recomandă
ca, în procesul de alegere a variabilelor, numărul de regresii estimate să fie redus la minim,
iar la baza alegerii variabilelor independente trebuie pusă teoria, mai degrabă decât
ajustarea sau potrivirea statistică. Cu toate acestea, nu există răspunsuri apriori, astfel încât
deciziile finale trebuie să fie lăsate la latitudinea fiecărui cercetător în parte.

Variabile omise

Atunci când specifică pentru prima dată o ecuație, un economist poate uita să includă
în ecuație una dintre variabilele independente relevante (până la urmă, nimeni nu este
perfect!). Sau, de exemplu, nu poate obține datele pentru una dintre variabilele despre care
se gândește că ar fi important să o includă în model. Rezultatul, în ambele situații, este o
variabilă omisă, definită ca o variabilă explicativă importantă care a fost lăsată înafara
ecuației de regresie. Ori de câte ori o variabilă este omisă (sau lăsată înafara ecuației),
interpretarea rezultatelor și utilizarea ecuației estimate devin suspecte. Lăsând înafara
ecuației o variabilă relevantă, cum ar fi prețul într-o ecuație a cererii, nu numai că nu se
obține o valoare estimată a coeficientului prețului, dar, de asemenea, apare un deplasament
al coeficienților estimați ai celorlalte variabile care sunt incluse în ecuație.
Deplasamentul cauzat de faptul că o variabilă independentă importantă este lăsată
înafara ecuației de regresie se numește deplasament de omitere. Într-o ecuație cu mai mult
de o variabilă independentă, un coeficient 𝛽𝑘 arată cu cât se modifică variabila dependentă
Y atunci când variabila independentă 𝑋𝑘 se modifică cu o unitate, menținând constante
celelalte variabile independente din ecuație. Dacă o variabilă este omisă, atunci nu este
inclusă în ecuație ca o variabilă independentă și nu este menținută constantă pentru calculul
și interpretarea lui 𝛽𝑘 . Această omisiune poate provoca un deplasament, adică poate face ca
media valorilor estimate ale unui coeficient să fie departe de valoarea reală a acestuia. Din
acest motiv, omiterea unei variabile relevante este de obicei o dovadă că întreaga ecuație
estimată este suspectă, din cauza deplasamentului coeficienților estimați ai variabilelor care
rămân în ecuație. În continuare se va analiza mai detaliat această problemă.

Consecințele omiterii unei variabile relevante

Ce se întâmplă dacă se omite o variabilă importantă din ecuația de regresie (poate


pentru că nu se pot obține datele pentru acea variabilă sau pentru că nimeni nu s-a gândit la
ea)? Consecința majoră a omiterii unei variabile independente relevante dintr-o ecuație este
apariția unor deplasamente ale coeficienților estimați ai variabilelor independente rămase
în ecuație. De exemplu, se presupune că adevăratul model de regresie este:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

unde 𝜀𝑖 este un termen de eroare clasic. Dacă se omite 𝑋2 din ecuație, atunci ecuația devine:

𝑌𝑖 = 𝛽0∗ + 𝛽1∗ 𝑋1𝑖 + 𝜀𝑖∗

unde 𝜀𝑖∗ este egal cu:


𝜀𝑖∗ = 𝜀𝑖 + 𝛽2 𝑋2𝑖

deoarece termenul de eroare stocastică include efectele oricăror variabile omise, după cum
s-a menționat anterior. De ce în ecuația transformată s-au notat 𝛽0∗ și 𝛽1∗ în loc de 𝛽0 și 𝛽1?
Răspunsul este ascuns în spatele semnificației coeficienților de regresie. Astfel, de exemplu,
𝛽1 măsoară impactul asupra lui 𝑌 a creșterii cu o unitate a 𝑋1, menținând constant 𝑋2. Dar 𝑋2
nu este în ecuație, astfel încât OLS nu îl poate menține constant. Ca urmare, 𝛽1∗ arată impactul
unei creșteri cu o unitate a 𝑋1 asupra 𝑌, neținând constantă 𝑋2.
S-ar putea considera că se pot obține estimări bune, chiar dacă 𝑋2 este lăsat înafara
ecuației. Din păcate, nu este cazul, deoarece coeficienții incluși aproape sigur primesc o parte
din efectul variabilei omise și, prin urmare, vor devia de la valoarea lor adevărată, adică vor
fi deplasați. Pentru a vedea de ce, se pot analiza cele două ecuații. Majoritatea perechilor de
variabile sunt corelate într-un anumit grad, deci 𝑋1 și 𝑋2 sunt aproape sigur corelate. Când
𝑋2 este omis din ecuație, impactul lui 𝑋2 trece în 𝜀 ∗ , deci 𝜀 ∗ și 𝑋2 sunt corelate. Astfel, dacă 𝑋2
este omisă din ecuație și 𝑋1 și 𝑋2 sunt corelate, atât 𝑋1 cât și 𝜀 ∗ se vor schimba atunci când
𝑋2 se schimbă, iar termenul de eroare nu va mai fi independent de variabila independentă
𝑋1. Acest lucru încalcă ipoteza clasică III!
Cu alte cuvinte, dacă o variabilă importantă se omite din ecuație, se încalcă ipoteza
clasică III (conform căreia variabilele explicative sunt independente față de termenul de
eroare), cu excepția cazului în care variabila omisă nu este corelată cu niciuna dintre
variabilele independente incluse, ceea ce este extrem de puțin probabil. În general, atunci
când există o încălcare a uneia dintre ipotezele clasice, teorema Gauss-Markov nu mai este
valabilă, iar estimările OLS nu sunt BLUE. Cu referire la estimatorii liniari, acest lucru
înseamnă că estimatorii coeficienților nu mai sunt nedeplasați sau nu mai au varianța
minimă, dintre toți estimatorii liniari nedeplasați, sau ambele. Într-o astfel de situație,
econometricienii determină mai întâi caracteristica exactă, lipsa deplasării sau varianța
minimă, care nu mai este îndeplinită și apoi sugerează o tehnică de estimare alternativă care
ar putea fi mai bună decât OLS.
O variabilă omisă determină încălcarea ipotezei clasice III într-un mod care provoacă
un deplasament al estimatorilor. Estimarea OLS a unei ecuații din care s-a omisă o variabilă
dependentă importantă va produce valori deplasate ale coeficienților estimați. Aceasta
înseamnă că:

𝐸(𝛽̂1∗ ) ≠ 𝛽1

În loc ca 𝛽̂1∗ să aibă o valoare așteptată egală cu adevărata valoare 𝛽1 , procedura de


estimarea va compensa faptul că 𝑋2 lipsește din ecuație. Dacă 𝑋1 și 𝑋2 sunt corelate și 𝑋2 este
omis din ecuație, atunci prin procedura de estimare OLS o parte din variația lui 𝑌 care este
efectiv cauzată de 𝑋2, i se va atribui lui 𝑋1, rezultând o estimare deplasată a 𝛽1.
Pentru a vedea cum o variabilă omisă poate provoca un deplasament, se va analiza o
aplicație extrem de timpurie a analizei de regresie. În timpul celui de-al doilea război
mondial, aliații au fost interesați să îmbunătățească acuratețea bombardamentelor aviatice,
așa că au estimat o ecuație în care variabila dependentă era precizia bombardamentului.
Variabilele independente au inclus lucruri precum viteza avionului și altitudinea de la care
se efectua bombardamentul, precum și opoziția inamicului. Așa cum era de așteptat,
coeficienții estimați au susținut ipoteza că viteze mai mari și altitudini mai mari au dus la
erori mai mari de vizare a țintelor, dar cercetătorii au fost șocați să descopere că o opoziție
mai aprigă a inamicului părea să îmbunătățească acuratețea bombardamentelor! Ce s-a
întâmplat?
Răspunsul este deplasamentul introdus de o variabilă omisă. S-a dovedit că ecuația
nu a inclus o variabilă pentru acoperirea cu nori a țintei, iar acoperirea cu nori i-a împiedicat,
de obicei, pe luptătorii inamici să reacționeze. Când a fost înnorat, cei care bombardau nu
puteau vedea țintele și au făcut erori mari. OLS a atribuit aceste erori lipsei opoziției
luptătorilor inamici, deoarece în ecuație nu exista nicio variabilă pentru acoperirea cu nori
și pentru că puțini luptători inamici se puteau ridica de la sol când cerul era înnorat. Altfel
spus, coeficientul opoziției inamice a recepționat impactul variabilei omise a acoperirii cu
nori, deoarece cele două variabile au fost puternic corelate. Generalizând pentru un model
cu două variabile independente, valoarea așteptată a coeficientului unei variabile incluse
(𝑋1 ) atunci când o variabilă relevantă (𝑋2 ) este omisă din ecuație este egală cu:

𝐸(𝛽̂1∗ ) = 𝛽1 + 𝛽2 𝛼̂1

unde 𝛼̂1 este un estimator al coeficientului pantă din ecuația secundară care leagă pe 𝑋2 de
𝑋1:
𝑋̂2𝑖 = 𝛼̂0 + 𝛼̂1 𝑋1𝑖

Dacă 𝑋1 și 𝑋2 sunt corelate pozitiv, 𝛼̂1 va fi pozitiv. Dacă 𝑋1 și 𝑋2 sunt corelate negativ, 𝛼̂1 va
fi negativ. Dacă 𝑋1 și 𝑋2 nu sunt corelate, 𝛼̂1 va fi zero.
Ecuația de mai sus arată că valoarea așteptată a coeficientului variabilei incluse este
egală cu valoarea reală a acesteia, plus coeficientul adevărat al variabilei omise înmulțit cu
mărimea corelației dintre variabila inclusă și cea omisă. Deoarece valoarea estimată
nedeplasată este egală cu valoarea adevărată, termenul cel mai din dreapta reprezintă
mărimea deplasamentului:

deplasament = 𝛽2 𝛼̂1

În termeni generali, deplasamentul este egal cu coeficientul adevărat al variabilei


omise înmulțit cu mărimea coeficientului de corelație dintre variabila inclusă și cea omisă.
Acest deplasament există doar dacă coeficientul adevărat este diferit de zero sau variabilele
incluse și omise sunt corelate la nivelul eșantionului.
Termenul 𝛽2 𝛼̂1este mărimea deplasamentului introdus în estimatorul coeficientului
variabilei incluse prin eliminarea variabilei omise. Deși este adevărat că nu există un
deplasament dacă variabilele incluse și excluse nu sunt corelate, există aproape întotdeauna
o corelație între oricare două variabile din lumea reală, astfel încât deplasamentul este
aproape întotdeauna cauzat de omiterea unei variabile relevante.

Un exemplu de deplasament determinat de o variabilă omisă

Pentru exemplificarea deplasamentului introdus de o variabilă omisă, se reia modelul


restaurantelor Woody:
𝑌̂𝑖 = 102.192 − 9075 ∙ 𝑁𝑖 + 0.3547 ∙ 𝑃𝑖 + 1.288 ∙ 𝐼𝑖
(2053) (0.0727) (0.5432)
t= –4.42 4.88 2.37
̅ 2
n = 33 R = 0.579

unde 𝑌 = număr de clienți sau volumul încasărilor, 𝑁 = numărul de restaurante din


vecinătate, P = numărul populației din zona restaurantului și 𝐼 = venitul mediu al
gospodăriilor din apropierea restaurantului.
Ce se întâmplă dacă din ecuație se elimină variabila reprezentând populația, 𝑃?
Rezultatele estimării ecuației fără variabila 𝑃 sunt:

𝑌𝑖 = 84.439 − 1487𝑁𝑖 + 2.322𝐼𝑖


(1778) (0.664)
𝑡= −0.84 + 3.50
𝑛 = 33 𝑅̅ = 0.258
2

Comparând ecuațiile, diferența cea mai vizibilă este faptul că 𝑅̅ 2 a scăzut, de la 0 .579
la 0.258. Estimatorul coeficientului lui N s-a schimbat, de la -9075 la -1487, iar rația sa 𝑡 s-a
schimbat, de la -4,42 la -0,84. Ce dezastru! Coeficientul lui N acum este nesemnificativ diferit
de zero! Cum de s-a putut întâmpla acest lucru?
Răspunsul este deplasamentul introdus de variabila omisă. Populația și concurența
sunt destul de corelate. Cu cât sunt mai multe persoane într-o zonă, cu atât este posibil să fie
mai multe restaurante. Ca urmare, când populația este eliminată din ecuație, OLS atribuie
impactul variabilei omise variabilelor incluse, în măsura în care acestea sunt corelate cu
variabilă omisă. Deplasamentul introdus a fost pozitiv sau negativ? Ei bine, 𝛽̂𝑁 a crescut de
la un număr negativ mare la un număr negativ mai mic, deci deplasamentul este pozitiv.
Impactul pozitiv al populației a compensat aproape complet impactul negativ al concurenței,
rezultând un coeficient nu departe de zero.
Semnul pozitiv al deplasamentului ar fi putut fi prezis folosind ecuația
deplasamentului:

Deplasamentul așteptat al lui 𝛽̂𝑁 = 𝛽𝑃 𝛼̂1 = (+) ∙ (+) = +

ținând cont că semnul așteptat al lui 𝛽𝑃 este pozitiv, iar corelația dintre populație și
concurență este, de asemenea, pozitivă. În concluzie, dacă o variabilă relevantă este omisă
din ecuația de regresie, nu se mai estimează coeficientul acelei variabile și este probabil ca
estimatorii coeficienților variabilelor rămase să fie deplasați. Deși mărimea deplasamentului
poate să nu fie foarte mare în unele cazuri (când, de exemplu, corelația dintre variabila
inclusă și variabila exclusă este redusă), este foarte probabil ca cel puțin o parte din
deplasamentul determinat de variabila omisă să fie prezent în toate aceste situații.

Corectarea ecuației în cazul în care este omisă o variabilă

Teoretic, soluția la o problema deplasamentului determinat de omiterea unei


variabile pare simplă: adăugare variabilei omise! Din păcate, acest lucru este ușor de spus,
dar greu de făcut, din câteva motive.
În primul rând, deplasamentul determinat de o variabilă omisă este greu de detectat.
Mărimea deplasamentului poate fi mică și nu poate fi detectată imediat. Acest lucru este
valabil mai ales când nu există niciun motiv să se suspecteze specificarea greșită a modelului.
Unele indicii ale deplasamentului de specificare sunt evidente (cum ar fi un coeficient
estimat semnificativ, cu semnul opus celui așteptat), dar altele nu sunt atât de clare. Cei mai
buni indicatori ai unei variabile relevante omise sunt bazele teoretice ale modelului în sine.
Ce variabile trebuie să fie incluse în model? Ce semne așteptate au? În ce intervale ar trebui
să se situeze valorile estimate ale coeficienților? Astfel, cel mai bun mod de a evita omiterea
unei variabile importante este alocarea unui timp suficient de lung pentru a gândi cu atenție
la forma ecuației, înainte ca datele să fie introduse în calculator.
O a doua sursă de complexitate este problema alegerii variabilei ce trebuie adăugată
într-o ecuație, după ce s-a stabilit că suferă de un deplasament determinat de o variabilă
omisă. Atunci când se confruntă cu această dilemă, unii cercetători începători vor adăuga în
ecuație, deodată, toate variabilele relevante posibile. Această modalitate de acțiune duce la
estimări mai puțin precise, așa cum se va discuta în secțiunea următoare. Alți cercetători
încep să testeze o serie de variabile diferite și le mențin în ecuație pe cele care fac cea mai
bună treabă statistică, părând că reduc deplasamentul (prin obținerea unor semne plauzibile
și a unor valori 𝑡 satisfăcătoare). Această tehnică, constând în a adăuga o variabilă la „stânga”
pentru „a remedia” o regresie cu aspect ciudat, duce la rezultate invalide, deoarece variabila
care corectează cel mai bine deplasamentul de specificare ar putea face acest lucru doar din
întâmplare, mai degrabă decât să reprezinte adevărata soluție a problemei. Într-o astfel de
situație, ecuația „fixă” poate oferi rezultate statistice superbe pentru eșantionul la îndemână,
dar produce rezultate absurde atunci când se aplică la alte eșantioane, deoarece nu descrie
caracteristicile adevărate ale populației.
Eliminarea unei variabile din ecuație nu va ajuta la vindecarea deplasamentului
determinat de variabilele omise. Dacă semnul unui coeficient estimat este diferit de cel
așteptat, nu poate fi modificat în direcția așteptată prin eliminarea unei variabile care are un
scor 𝑡, în valoare absolută, mai mic decât scorul 𝑡 al valorii estimate a coeficientului care are
semnul neașteptat. În plus, în general, semnul nu se va schimba, chiar dacă variabila
eliminată are un scor 𝑡 mare.
Dacă un rezultat neașteptat conduce la concluzia că din ecuație a fost omisă o
variabilă, o modalitate de a decide ce variabilă trebuie adăugată în ecuație este de a utiliza
analiza deplasamentului preconizat. Dacă semnul preconizat al deplasamentului (folosind
ecuația deplasamentului) este același cu semnul neașteptat al rezultatului, atunci variabila
omisă ar putea fi sursa deplasamentului. Dacă semnul preconizat al deplasamentului nu este
același cu semnul rezultatului neașteptat, atunci este puțin probabil ca variabila respectivă
să fi provocat rezultatul neașteptat. Analiza deplasamentului preconizat ar trebui să fie
utilizată numai atunci când se face o alegere între variabile potențiale teoretic solide.
Deși nu se poate observa niciodată deplasamentul, din moment ce nu se cunoaște
adevăratul β, utilizarea acestei tehnici pentru a analiza cauzele potențiale ale
deplasamentului de specificare ar trebui să reducă numărul de regresii rulate și să crească
validitatea rezultatelor.
Un avertisment scurt: poate fi tentant să se procedeze la ceea ce s-ar putea numi
„analiză reziduală” examinând graficul reziduurilor, în încercarea de a găsi tipare care
sugerează variabile omise din greșeală. O problemă majoră a acestei abordări este aceea că
coeficienții ecuației estimate vor avea, probabil, unele dintre efectele variabilei lăsate afară
care deja a alterat valorile estimate. Astfel, reziduurile pot arăta un model care seamănă doar
vag cu modelul variabilei omise. Șansele sunt mari ca modelul prezentat în reziduuri să
conducă la selectarea unei variabile incorecte. În plus, trebuie să se acorde atenție utilizării
analizei reziduale numai pentru a alege între variabile candidat teoretic solide, mai degrabă
decât pentru a genera acele variabile candidat.

Variabile irelevante

Ce se întâmplă dacă se include în ecuația de regresie o variabilă care nu aparține


acesteia? Acest caz, al variabilelor irelevante, este reversul variabilelor omise și poate fi
analizat folosind modelul utilizat în cazul variabilelor omise. Adăugarea într-o ecuație de
regresie a unei variabile care nu aparține acesteia nu cauzează deplasamente, dar crește
varianțele estimatorilor coeficienților variabilelor incluse.
Se presupune că specificația adevărată a unei ecuații de regresie este:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝜀𝑖

Dacă un economist include în ecuație, din diferite motive, o nouă variabilă explicativă, 𝑋2,
ecuația devine:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖∗∗

Termenul de eroare, 𝜀𝑖∗ , este egal cu:

𝜀𝑖∗∗ = 𝜀𝑖 − 𝛽2 𝑋2𝑖
Se poate observa că, o astfel de greșeală nu va cauza deplasamente dacă adevăratul coeficient
al variabilei irelevante este zero. Cu alte cuvinte, un estimator al lui 𝛽1 este nedeplasat când
𝛽2 = 0. Cu toate acestea, includerea unei variabile irelevante va crește varianța estimatorilor
coeficienților, iar această varianță crescută va tinde să scadă mărimea absolută a scorurilor
𝑡 . De asemenea, o variabilă irelevantă va scădea, de obicei, 𝑅̅ 2 (dar nu și pe 𝑅 2 ). Astfel, deși
variabila irelevantă nu provoacă deplasamente, provoacă probleme în analiza de regresie,
deoarece reduce scorurile 𝑡, precum și coeficientul de determinație ajustat 𝑅̅ 2 .

Un exemplu de variabilă irelevantă

Pentru exemplificarea efectelor variabilelor irelevante, se reia ecuația Woody, se


adaugă o variabilă irelevantă și apoi se observă efectele. Ecuația inițială este:

𝑌̂𝑖 = 102.192 − 9075 ∙ 𝑁𝑖 + 0.3547 ∙ 𝑃𝑖 + 1.288 ∙ 𝐼𝑖


(2053) (0.0727) (0.5432)
t= –4.42 4.88 2.37
n = 33 R ̅ = 0.579
2

unde Y = numărul de clienți (volumul încasărilor), N = numărul de restaurante din


vecinătate, P = numărul populației din zona restaurantului și I = venitul mediu al
gospodăriilor din apropiere.
Se adaugă o variabilă irelevantă, de exemplu 𝐴𝑖 = ultimele trei cifre ale adresei
stradale a restaurantului 𝑖. Se obține:

𝑌̂𝑖 = 98.125 − 8975 ∙ 𝑁𝑖 + 0.360 ∙ 𝑃𝑖 + 1.301 ∙ 𝐼𝑖 + 58.07 ∙ 𝐴𝑖


(2082) (0.074) (0.550) (95.21)
t= –4.31 +4.86 +2.37 +0.61
n = 33 R ̅ = 0.569
2

Comparând rezultatele acestor două specificări, se observă, în primul rând, o scădere ușoară
a lui 𝑅̅ 2 , indicând reducerea overall fit, ajustat cu gradele de libertate. În al doilea rând,
niciunul dintre coeficienții de regresie din ecuația inițială nu s-a schimbat foarte mult. Mai
mult, erorile standard ale estimatorilor coeficienților au crescut. În sfârșit, scorul 𝑡 pentru
potențiala variabila 𝐴 este mic, ceea ce indică faptul că această variabilă are un coeficient
care nu este semnificativ diferit de zero. Având în vedere lipsa de semnificație teoretică a
noii variabile, aceste rezultate indică faptul că este o variabilă irelevantă și nu ar trebui să fie
inclusă niciodată în ecuația de regresie.
Patru importante criterii de specificare

Se pot identifica patru criterii de validare, pentru a putea stabili dacă o anumită
variabilă aparține sau nu ecuației. Aceste criterii sunt atât de importante încât îndemnăm
cercetătorii începători să lucreze prin intermediul acestora de fiecare dată când o variabilă
se adaugă sau se elimină din ecuația de regresie.

1. teoria: locul variabilei în ecuație este neambiguu și cu semnificație teoretică?


2. testul 𝑡: coeficientul estimat al variabilei este semnificativ, în direcția așteptată?
3. 𝑅̅ 2 : overall fit al ecuației (ajustat cu numărul gradelor de libertate) se mărește atunci
când variabila este adăugată în ecuație?
4. deplasamentul: Se modifică semnificativ coeficienții estimați ai altor variabile din model
atunci când variabila este adăugată în ecuație?

Dacă toate aceste condiții sunt îndeplinite, variabila aparține ecuației. Dacă nicio
condiție nu este îndeplinită, variabila este irelevantă și poate fi exclusă din ecuație. Atunci
când o variabilă relevantă omisă este inclusă în ecuație, va crește 𝑅̅ 2 și cel puțin un coeficient
estimat se modifică semnificativ.
Dacă, pe de altă parte, în ecuație este inclusă o variabilă irelevantă, aceasta va reduce
𝑅̅ , va avea un scor 𝑡 nesemnificativ și va avea un impact redus asupra coeficienților
2

celorlalte variabile.
În multe cazuri, cele patru criterii nu sunt îndeplinite toate deodată. Este posibil, de
exemplu, ca o variabilă să aibă un scor 𝑡 nesemnificativ, dar care este mai mare decât al altei
variabile. Într-un astfel de caz, se poate arăta că 𝑅̅ 2 va crește atunci când variabila este
adăugată în ecuație și totuși scorul 𝑡 va fi nesemnificativ. Ori de câte ori cele patru criterii de
specificație nu sunt îndeplinite, econometricianul trebuie să urmeze o judecată atentă și nu
trebuie să se bazeze pe un singur criteriu precum 𝑅̅ 2 pentru a determina specificația.
Economiștii nu ar trebui să folosească în mod greșit această libertate de alegere, testând
diverse combinații de variabile până când găsesc rezultatele care par să susțină statistic
punctul lor de vedere.
Toate aceste decizii sunt puțin mai ușoare atunci când se conștientizează faptul că cel
mai important determinant al relevanței unei variabile este justificarea sa teoretică. Nicio
cantitate de dovezi statistice nu ar trebui să transforme o variabilă necesară din punct de
vedere teoretic într-o variabilă „irelevantă”. Uneori cercetători sunt obligat să lase înafara
ecuației variabile teoretic importante din lipsa de date. În astfel de cazuri, utilitatea ecuației
este limitată.
O ilustrare a utilizării greșite a criteriilor de specificare

Uneori, cele patru criterii de specificare prezentate în secțiunea precedentă vor


conduce cercetătorul la o concluzie incorectă dacă aceste criterii sunt aplicate unei
probleme, fără ca acesta să se preocupe corespunzător de principiile economice care
definesc contextul problemei respective sau când bunul simț economic este ignorat. În
special, un scor 𝑡 poate fi adesea nesemnificativ din alte motive decât prezența unei variabile
irelevante. Întrucât teoria economică este cel mai important test pentru includerea unei
variabile, în continuare se parcurge un exemplu care arată de ce o variabilă nu trebuie
eliminată dintr-o ecuație pur și simplu pentru că are un scor 𝑡 nesemnificativ.
Se presupune că cererea de cafea braziliană din Statele Unite este o funcție negativă a
prețului cafelei braziliene (𝑃𝑏𝑐 ) și o funcție pozitivă atât a prețului ceaiului (𝑃𝑡 ), cât și a
venitului real disponibil din Statele Unite (𝑌𝑑 ). Se presupune în plus că, după obținerea
datelor și rularea regresiei, se obțin următoarele rezultate:

̂ = 9.1 + 7.8𝑃𝑏𝑐 + 2.4𝑃𝑡 + 0.0035𝑌𝑑


𝐶𝑂𝐹𝐹𝐸𝐸
(15.6) (1.2) (0.0010)
𝑡 = 0.5 2.0 3.5
𝑅̅ = 0.60
2
𝑛 = 25

Coeficienții celei de-a doua și a treia variabile, 𝑃𝑡 și 𝑌𝑑 , par a fi destul de semnificativi


în direcția așteptată, dar prima variabilă, 𝑃𝑏𝑐 , pare să aibă un coeficient nesemnificativ, cu un
semn neașteptat. Dacă se presupune că cererea de cafea braziliană ar fi inelastică în raport
de preț (adică coeficientul acesteia ar fi zero), se poate rula aceeași ecuație, dar fără variabila
de preț. Se obține:

̂ = 9.3 + 2.6𝑃𝑡 + 0.0036𝑌𝑑


𝐶𝑂𝐹𝐹𝐸𝐸
(1.0) (0.0009)
𝑡 = 2.6 4.0
𝑅̅ = 0.61 𝑛 = 25
2

Comparând aceste două rezultate prin prisma celor patru criterii de specificare, se
pot trage următoarele concluzii:
1. teoria: dacă este posibil ca cererea de cafea să fie inelastică în raport de preț, teoria care
stă la baza eliminării variabilei din ecuație pare plauzibilă.
2. testul t: scorul 𝑡 al variabilei posibil irelevante este 0.5, nesemnificativ la orice nivel de
semnificație.
3. 𝑅̅ 2 : crește prin eliminarea variabilei, ceea ce indică faptul că variabilă este irelevantă.
4. deplasamentul: coeficienții rămași se schimbă doar într-o mică măsură atunci când 𝑃𝑏𝑐
este eliminată din ecuație, ceea ce sugerează că deplasamentul determinat de excluderea
acestei variabile, dacă există, este redus.
Pe baza acestei analize s-ar putea trage concluzia că cererea de cafea braziliană este
într-adevăr inelastică în raport de preț și că variabila este, prin urmare, irelevantă și ar trebui
eliminată din model. Dar, după cum se va dovedi, această concluzie este nejustificată. Deși
elasticitatea cererii de cafea în general este destul de scăzută (de fapt, dovezile sugerează că
aceasta este inelastică doar pentru o plajă specială de prețuri), este greu de crezut că cererea
de cafea braziliană este imună la concurența prin preț față de alte tipuri de cafea. Astfel,
sensibilitate cererii de cafea braziliană în raport cu prețul cafelei columbiene, de exemplu,
nu poate fi ignorată. Pentru a testa această ipoteză, prețul cafelei columbiene, 𝑃𝑐𝑐 , ar trebui
adăugat în ecuația originală:

̂ = 10.0 + 8.0𝑃𝑐𝑐 − 5.6𝑃𝑏𝑐 + 2.6𝑃𝑡 + 0.0030𝑌𝑑


𝐶𝑂𝐹𝐹𝐸𝐸
(4.0) (2.0) (1.3) (0.0010)
𝑡= 2.0 − 2.8 2.0 3.0
𝑅̅ = 0.65
2
𝑛 = 25

Comparând acum acest rezultat cu rezultatul inițial, prin prisma celor patru criterii
de specificare, se pot trage următoarele concluzii:
1. teoria: ambele prețuri ar trebui să fie incluse în model, justificarea logică a prezenței lor în
ecuație este destul de puternică.
2. testul t: scorul 𝑡 al noii variabile, prețul cafelei columbiene, este egal cu 2.0, semnificativ la
majoritatea nivelurilor de semnificație.
3. 𝑅̅ 2 : 𝑅̅ 2 crește odată cu adăugarea variabilei, ceea ce indică faptul că variabila a fost o
variabilă omisă.
4. deplasamentul: deși doi dintre coeficienți rămân practic nemodificați, indicând o corelație
scăzută între aceste variabile și prețul cafelei columbiene, estimatorul coeficientul prețului
cafelei braziliene se schimbă semnificativ, indicând existența deplasamentului în rezultatul
original.
Concluzia care trebuie trasă este aceea că aspectele teoretice nu trebuie niciodată
ignorate, nici măcar în fața nesemnificațiilor statistice. Dacă o variabilă cunoscută a fi extrem
de importantă din punct de vedere teoretic se dovedește a fi nesemnificativă statistic într-un
anumit eșantion, acea variabilă ar trebui să fie lăsată în ecuație, în ciuda faptului prezența sa
face ca rezultatele să arate prost.
Nu trebuie trasă concluzia că această cale particulară, prezentată în acest exemplu,
este modalitatea corectă de a specifica orice ecuație. Căutarea unui lung șir de variabile
pentru a o determina pe cea specială, prin adăugarea căreia coeficientul lui 𝑃𝑏𝑐 să devină
negativ și semnificativ, nu este calea de a obține un rezultat care să se potrivească bine la alte
eșantioane sau ipoteze alternative. Ecuația inițială nu ar fi trebuit să fie rulată fără variabila
de preț a cafelei columbiene. În schimb, problema ar fi trebuit să fie analizată suficient încât
astfel de erori de omisiune să fie puțin probabile, înainte de a se încerca vreo regresie. Cu cât
se alocă mai mult timp de gândire înainte de executarea primei regresii și cu cât sunt
estimate mai puține specificații alternative, cu atât vor fi probabil mai bune rezultatele
regresiei.

Căutarea specificării

Unul dintre punctele slabe ale econometriei este acela că un cercetător poate
manipula un set de date pentru a produce aproape orice rezultat, specificând regresii diferite
până când obține estimări cu proprietățile dorite. Deoarece integritatea tuturor lucrărilor
empirice este astfel pusă sub semnul întrebării, subiectul privind modalitatea de a căuta cea
mai bună specificație este destul de controversat în rândul econometricienilor. Scopul nostru
din această secțiune nu este să rezumăm sau să rezolvăm această controversă. În schimb,
sperăm să oferim câteva orientări și informații pentru cercetătorii începători.

Cele mai bune practici în căutarea specificării

Problema alegerii specificației ecuației de regresie dintre posibilitățile alternative


este una dificilă, dar experiența noastră ne determină să facem următoarele recomandări:

1. deciziile privind specificarea trebuie să se bazeze pe teorie, mai degrabă decât pe


statistică.
2. exceptând analiza senzitivității, care va fi discutată în această secțiune, numărul de
ecuații estimate trebuie să fie minim.
3. toate specificările alternative încercate trebuie evidențiate într-o notă de subsol sau într-
o anexă.

Deoarece fundamentul teoretic, nu 𝑅̅ 2 sau scorurile 𝑡 reprezintă cel mai important


criteriu pentru includerea unei variabile într-o ecuație de regresie, rezultă că cea mai mare
parte a muncii de specificare a unui model trebuie făcută înainte de a efectua estimarea
ecuației. Este însă nerezonabil să se aștepte ca cercetătorii să fie perfecți. Va fi nevoie,
probabil, de estimări ale unor specificații suplimentare. In orice caz, aceste noi estimări ar
trebui să fie puține la număr și ar trebui să fie detaliate, având în vedere tot fundamentul
teoretic. În plus, acestea ar trebui luate în considerare, în mod explicit, la testarea
semnificației și/sau a formulării concluziilor. În acest fel, pericolul de a induce în eroare
cititorul cu privire la proprietățile statistice ale ecuației finale va fi redus.
Căutarea secvențială a specificării

Majoritatea econometricienilor tind să specifice ecuațiile estimând o ecuație inițială


și apoi, secvențial, eliminând sau adăugând variabile (sau schimbând formele funcționale)
până la găsirea unei ecuații plauzibile cu „statistici bune”. Cunoscând faptul că unele variabile
sunt relevante (pe baza teoriei) dar neștiind dacă alte variabile suplimentare sunt relevante,
practica general acceptată pare să fie inspectarea lui 𝑅̅ 2 și efectuarea testelor 𝑡 pentru toate
variabilele, pentru fiecare specificație în parte. Cineva care nu a citit secțiunea anterioară ar
putea considera că o asemenea căutare secvențială a specificațiilor este cea mai bună cale de
urmat spre găsirea „adevărului”. Altfel, după cum vom vedea, există o mare diferență între o
căutare secvențială de specificații și abordarea recomandată în acest curs.
Tehnica de căutare secvențială a specificațiilor permite unui cercetător să estimeze
un număr nedezvăluit de regresii și apoi să prezinte alegerea finală (care se bazează pe un
set de așteptări cu privire la semnele și semnificația coeficienților) ca și cum ar fi singura
specificație estimată. O astfel de metodă răstălmăcește valabilitatea statistică a rezultatelor
regresiei din două motive:
1. semnificația statistică a rezultatelor este supraestimată, deoarece estimările regresiilor
anterioare sunt ignorate.
2. așteptările utilizate de cercetător pentru a alege între diverse rezultate ale regresiei sunt
rareori, dacă se întâmplă vreodată, dezvăluite. Astfel, cititorul nu are posibilitatea de a ști
dacă toate celelalte rezultate ale regresiilor au avut semne opuse sau coeficienți
nesemnificativi pentru variabilele importante.
Din păcate, nu există o modalitate universal acceptată de a efectua căutări secvențiale, în
principal pentru că testul adecvat la o etapă a procedurii depinde de testele efectuate
anterior și, de asemenea, pentru că testele sunt foarte greu de inventat. În schimb, se
recomandă ca numărul de regresii estimate să fie cât mai mic, alegerea variabilelor sau a
formelor funcționale să aibă la bază considerente teoretice, iar toate specificațiile să fie
documentate. Cu alte cuvinte, se recomandă combinarea parsimoniei (limitarea numărului
de specificații estimate, punând la bază teoria) cu onestitatea (raportarea tuturor ecuațiilor
estimate).

̅𝟐
Deplasament cauzat de alegerea variabilelor pe baza testului 𝒕 sau pe baza 𝑹

În secțiunea anterioară s-a afirmat că specificația prin căutări secvențiale este de


natură să inducă în eroare cercetătorii cu privire la proprietățile statistice ale rezultatelor
lor. În special, practica de a renunța la o variabilă potențială independentă pur și simplu
pentru că coeficientul său are un scor 𝑡 mic sau pentru că 𝑅̅ 2 scade, determină deplasamente
sistematice ale coeficienților estimați (și ale scorurile lor 𝑡 ) ai variabilelor rămase. Să
presupunem, de exemplu, că modelul cu ipotezele stabilite este:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

Presupunem în plus că, pe baza teoriei, există siguranța că 𝑋1 aparține ecuației, dar
nu există siguranța că 𝑋2 aparține acesteia. Mulți cercetători neexperimentați folosesc doar
testul 𝑡 pentru 𝛽̂2 pentru a stabili dacă 𝑋2 ar trebui sau nu să fie inclus în ecuație. Dacă acest
test preliminar indică faptul că 𝛽̂2 este semnificativ diferit de la zero, acești cercetători lasă
𝑋2 în ecuație. Dacă, totuși, testul 𝑡 nu indică faptul că 𝛽̂2 este semnificativ diferit de zero,
astfel de cercetători îl elimină pe 𝑋2 din ecuație și îl consideră pe 𝑌 doar ca o funcție de 𝑋1.
Două tipuri de greșeli pot fi comise procedând în acest mod. În primul rând, 𝑋2 poate fi
uneori lăsat în ecuație atunci când nu aparține acesteia, dar o astfel de greșeală nu modifică
valoarea așteptată a lui 𝛽̂1 . În al doilea rând, uneori 𝑋2 poate fi eliminat din ecuație, când de
fapt aparține acesteia. În acest al doilea caz, coeficientul estimat al lui 𝑋1 va fi deplasat. Cu
alte cuvinte, 𝛽̂1 va fi deplasat de fiecare dată când 𝑋2 aparține ecuației și este lăsat afara sa,
iar 𝑋2 va fi lăsat în afară de fiecare dată când coeficientul său estimat nu este semnificativ
diferit de zero. Va exista un deplasament sistematic în ecuația de regresie!
Pentru a rezuma, testul 𝑡 este deplasat prin căutări secvențiale ale specificației.
Deoarece majoritatea cercetătorilor iau în considerare un număr de variabile înainte de a
formula modelul final, bazându-se pe testul 𝑡 sau pe 𝑅̅ 2 , este probabil să întâmpine această
problemă în mod sistematic.

Data Mining

Data mining implică estimarea unei largi varietăți de specificații alternative, înainte
de a o alege pe „cea mai bună”. Cititorii acestui text nu vor fi surprinși să afle că este nevoie
de maximă prudență atunci când se utilizează data mining. Data mining efectuată incorect
este mai rea decât lipsa oricărei acțiuni.
Realizată corect, data mining implică explorarea unui set de date nu în scopul testării
ipotezelor sau găsirii unei specificații, ci în scopul descoperirii unor regularități empirice
care pot completa teoria economică. La urma urmei, nimeni nu se poate aștepta ca
economiștii teoreticieni să se gândească la toate!
Totuși, este nevoie de multă atenție! Dacă se emite o ipoteză folosind tehnici de data
mining, trebuie să se testeze această ipoteză pe un set de date diferit (sau într-un context
diferit) decât cel care a fost folosit pentru a o emite. Trebuie utilizat un nou set de date,
deoarece testele statistice tipice au o semnificație redusă dacă noua ipoteză este testată pe
setul de date care a fost utilizat pentru a o emite. Până la urmă, cercetătorul știe deja din timp
care vor fi rezultatele! Utilizarea seturilor de date duale este mai ușoară atunci când există o
multitudine de date. Acest lucru se întâmplă uneori în proiectele de cercetare în serii
transversale, dar rareori este cazul cercetărilor în serii temporale.
Fără utilizarea unor seturi de date duale, data mining este aproape sigur cea mai
proastă metodă de alegere a unei specificații. Într-o astfel de situație, un cercetător ar putea
estima practic orice combinație posibilă a diferitelor variabile independente, ar putea alege
rezultatele care „arată” cel mai bine și apoi ar putea raporta cea mai bună „ecuație” ca și cum
n-ar fi fost efectuată o data mining. Această utilizare incorectă a data mining ignoră faptul că
au fost examinate o serie de specificații înainte de raportarea finală.
În plus, data mining va determina alegerea unei specificații care reflectă
particularitățile setului de date utilizat. Cum se întâmplă asta? Să presupunem că avem 100
de ipoteze nule adevărate și se rulează 100 de teste ale acestor ipoteze. La nivelul de
semnificație de 5%, este de așteptat să se respingă aproximativ cinci ipoteze nule adevărate
și astfel, se pot face aproximativ cinci erori de tip I. Căutând valori 𝑡 ridicate, o procedură
data mining va găsi aceste erori de tip I și le va încorpora în specificația finală. Ca urmare,
scorurile 𝑡 raportate vor exagera semnificația statistică a estimatorilor coeficienților.
În esență, utilizarea improprie a data mining pentru a obține statistici dorite pentru
ecuația de regresie finală este o metodă de cercetare empirică potențial neetică. Dacă data
mining se realizează prin estimarea unei ecuații la un moment dat, prin estimarea loturilor
de ecuații sau prin tehnici precum procedurile de regresie în trepte, concluzia este aceeași.
Ipotezele dezvoltate prin data mining ar trebui să fie întotdeauna testate pe un set de date
diferit de cel care a fost utilizat pentru a dezvolta ipoteza. În caz contrar, cercetătorul nu a
găsit dovezi științifice care să susțină ipoteza, ci a ales specificația într-un mod înșelător.
După cum a spus un econometrician, „dacă torturezi datele suficient de mult, acestea vor
mărturisi”.
O regresie în trepte implică utilizarea unui program computerizat automat pentru a
alege variabilele independente într-o ecuație. Cercetătorul specifică o „listă de cumpărături”
de posibile variabile independente, iar apoi calculatorul calculează un număr de ecuații până
când le va găsi pe cele care maximizează 𝑅 2 . Astfel de tehnici de cătare în trepte sunt
deficitare în fața multicoliniarității și prezintă riscul ca specificația aleasă să aibă o justificare
teoretică slabă și/sau să aibă coeficienți cu semne neașteptate. Din cauza acestor capcane,
econometricienii evită procedurile de determinare în trepte a ecuație de regresie.

Analiza senzitivității

Pe parcursul acestui text, studenții au fost încurajați să estimeze cât mai puține
specificații și să evite să depindă numai de potrivirea statistică pentru a alege specificația. În
literatura economică, totuși, se întâlnesc cercetători cunoscuți, care au estimat cinci sau mai
multe specificații și apoi au enumerat toate rezultatele într-un articol publicat într-un
jurnalul academic. Ce se întâmplă?
În aproape fiecare caz, acești autori au folosit o tehnică numită analiza senzitivității.
Analiza senzitivității constă în rularea cu intenție a unui număr de specificații alternative
pentru a determina dacă rezultatele obținute sunt solide (nu doar potriviri statistice). În
esență, se încearcă să se determine cât de sensibilă este „cea mai bună” ecuație la o schimbare
a specificației, deoarece adevărata specificație nu este cunoscută. Cercetătorii care folosesc
analiza senzitivității rulează (și raportează) o serie de specificații rezonabile și tind să
elimine un rezultat care apare semnificativ în unele specificații și nesemnificativ în altele.
Într-adevăr, întregul scop al analizei senzitivității este acela de a câștiga încrederea că un
anumit rezultat este semnificativ într-o varietate de specificații alternative, forme
funcționale, definiții variabile și/sau subseturi de date.

Un exemplu de alegere a variabilelor independente

Abilitatea de a lua cele mai bune decizii privind alegerea variabilelor independente se
câștigă prin experiență. Fiecare ecuație de până acum a avut specificația deja stabilită. Cu
toate acestea, după parcurgerea acestui curs, studenții trebuie să ia singuri toate deciziile
legate de specificarea unei ecuații de regresie. În capitolele viitoare, se va folosi o tehnică
numită „exerciții interactive de învățare a regresiei” pentru a permite studenților să facă
propriile alegeri privind specificația ecuațiilor și să primească feedback cu privire la alegerile
lor. În continuare se va parcurge procesul de specificație a ecuației de regresie pe un exemplu
simplu.
Exemplul privește un subiect specific activității didactice, respectiv GPA-ul unui
student (GPA – Grade Point Average = o măsură a performanței academice). Se presupune
că un student, care frecventează un mic colegiu, chestionează cei 25 de membri ai clasei sale
de econometrie și obține date despre următoarele variabile:
𝐺𝑃𝐴𝑖 = media cumulativă a punctajelor obținute de studentul 𝑖 la colegiu, pe o scară de la 1
la 4);
𝐻𝐺𝑃𝐴𝑖 = media cumulativă a punctajelor obținute de elevul 𝑖 la liceu, pe o scară de la 1 la 4;
𝑀𝑆𝐴𝑇𝑖 = cel mai mare scor obținut de elevul 𝑖 la proba de matematică a testului SAT
(maximum 800);
𝑉𝑆𝐴𝑇𝑖 = cel mai mare punctaj obținut de elevul 𝑖 la probele orale ale testului SAT (maxim
800);
𝑆𝐴𝑇𝑖 = 𝑀𝑆𝐴𝑇𝑖 + 𝑉𝑆𝐴𝑇𝑖
𝐺𝑅𝐸𝐾𝑖 = o variabilă dummy egală cu 1 dacă studentul 𝑖 este membru al unei organizații
studențești, 0 altfel;
𝐻𝑅𝑆𝑖 = numărul mediu de ore pe săptămână pe care studentul 𝑖 le alocă studiului;
𝑃𝑅𝐼𝑉𝑖 = o variabilă dummy egală cu 1 dacă studentul 𝑖 a absolvit un liceu privat, 0 altfel;
𝐽𝑂𝐶𝐾𝑖 = o variabilă dummy egală cu 1 dacă studentul 𝑖 este sau a fost membru al unei echipe
sportive, pentru cel puțin un sezon, 0 în caz contrar;
𝑙𝑛𝐸𝑋𝑖 = logaritmul natural al numărului de cursuri pe care studentul 𝑖 le-a finalizat.
Presupunând că 𝐺𝑃𝐴𝑖 este variabila dependentă, ce variabile independente trebuie
alese? Înainte de a răspunde, trebuie analizate toate posibilitățile. Ce spune literatura de
specialitate despre acest subiect? Care sunt semnele preconizate ale fiecărui coeficient? Cât
de puternică este teoria din spatele fiecărei variabile? Ce variabile par, în mod evident,
importante? Ce variabile par potențial irelevante sau redundante? Există alte variabile care
at trebui incluse în ecuația de regresie?
Toate aceste întrebări trebuie luate în considerare atunci când se construiește
specificația modelului:

𝐺𝑃𝐴𝑖 = 𝑓(? , ? , ? , ? , ? ) + 𝜀𝑖

Pentru începători, este greu să evite tentația de a include toate aceste variabile într-o
ecuație GPA și apoi să renunțe la variabilele care au scoruri t nesemnificative. Chiar dacă
anterior s-a menționat că o astfel de procedură de căutare a specificației va avea ca rezultat
estimatori deplasați ai coeficienților, majoritatea începătorilor nu au încredere în propria lor
judecată și tind să includă prea multe variabile în ecuația de regresie. Având în vedere acest
avertisment, care sunt, totuși, variabilele care trebuie incluse?
În științele educației, ca și în teoria economică, se menționează faptul că rezultatele
depind de muncă, de experiență și de abilități. Astfel, notele obținute de studenți sunt o
funcție a abilității acestora, a intensității muncii lor și a experienței de a lua cursuri. În
consecință, specificația propusă este următoarea:

+ + +
𝐺𝑃𝐴𝑖 = 𝛽0 + 𝛽1 𝐻𝐺𝑃𝐴𝑖 + 𝛽2 𝐻𝑅𝑆𝑖 + 𝛽3 𝑙𝑛𝐸𝑋𝑖 + 𝜀𝑖

Ce se poate spune despre SAT (Scholastic Assessment Test)? Toată lumea știe că sunt
importante. Ce se poate spune despre studenții sportivi sau despre membrii ai organizațiilor
studențești? Nu au GPA-uri mai mici? Nu sunt mai bine pregătiți elevii din liceele private
decât cei din liceele publice?
Înainte de a răspunde la aceste întrebări, este important de notat că alegerea
specificației înseamnă alegerea variabilelor care să fie incluse în ecuație, nu stabilirea
variabilelor care trebuie excluse. Cu alte cuvinte, nu se poate presupune că o anumită
variabilă ar trebui să fie inclusă într-o ecuație pur și simplu pentru că nu se găsește nici un
motiv pentru a o exclude.
Date fiind aceste elemente, rămâne întrebarea: de ce au fost alese variabilele care au
fost alese? În primul rând, se poate aprecia că cel mai bun predictor al GPA al unui student
la colegiu este GPA-ul său de liceu. Odată ce se cunoaște HGPA, SAT-urile sunt redundante.
În plus, faptul că este posibilul un deplasament rasial și de gen în testul SAT, îl face o măsură
discutabilă a potențialului academic, dar se poate greși în această privință.
În ceea ce privește celelalte variabile, se pot face afirmații ce pot fi privite cu
încredere. De exemplu, odată ce se cunosc câte ore pe săptămână petrece un student
studiind, este mai puțin interesant ce face acel student în restul timpului, așa că
𝐽𝑂𝐶𝐾 ș𝑖 𝐺𝑅𝐸𝐾 sunt de prisos odată ce HRS este inclus. În plus, cu cât este mai mare 𝑙𝑛𝐸𝑋, cu
atât sunt mai bune obiceiurile de studiu ale elevilor și cu atât este mai probabil ca studenții
să urmeze cursuri în domeniul lor prioritar. În cele din urmă, deși unele școli private sunt
superbe iar unele școli publice nu sunt așa, se presupune că PRIV este irelevant; probabil are
doar un efect minor. Dacă se estimează această specificație pentru cei 25 de studenți, se
obține:

̂ 𝑖 = −0.26 + 0.49𝐻𝐺𝑃𝐴𝑖 + 0.06𝐻𝑅𝑆𝑖 + 0.42𝑙𝑛𝐸𝑋𝑖


𝐺𝑃𝐴
(0.21) (0.02) (0.14)
𝑡 = 2.33 3.00 3.00
𝑛 = 25 𝑅̅ = 0.585
2

Întrucât această specificație se bazează pe motive teoretice, în condițiile în care gradul


de ajustare (potrivire) pare rezonabil, iar din moment ce fiecare coeficient îndeplinește
așteptările în ceea ce privește semnul, mărimea și semnificația, se poate considera că aceasta
este o ecuație acceptabilă. Singura circumstanță în care se poate lua în considerare estimarea
unei noi ecuații ar fi existența unor motive teoretice care să arate că a fost omisă o variabilă
relevantă. Singura variabilă care poate îndeplini această caracteristică este 𝑆𝐴𝑇𝑖 (care se
preferă lui MSAT și VSAT ):

̂ 𝑖 = −0.92 + 0.47𝐻𝐺𝑃𝐴𝑖 + 0.05𝐻𝑅𝑆𝑖 + 0.44𝑙𝑛𝐸𝑋𝑖 + 0.00060𝑆𝐴𝑇𝑖


𝐺𝑃𝐴
(0.22) (0.02) (0.14) (0.00064)
𝑡 = 2.12 2.50 3.12 0.93
𝑛 = 25 ̅ 2
𝑅 = 0.583

Utilizând cele patru criterii de specificare pentru a compara cele două ecuații, se
obține:
1. teorie: după cum s-a discutat anterior, validitatea teoretică a testelor SAT reprezintă un
subiect al unor controverse academice, dar SAT este încă una dintre cele mai citate
măsuri ale potențialului academic al unui student.
2. testul t: coeficientul SAT este pozitiv, așa cum era de așteptat, dar nu este semnificativ
diferit de zero.
3. 𝑅̅ 2 : conform așteptărilor (din moment ce scorul 𝑡 al lui SAT este sub 1), 𝑅̅ 2 scade ușor
prin adăugarea lui SAT în ecuație.
4. deplasament: niciunul dintre coeficienții pantă estimați nu se modifică substanțial prin
la adăugarea lui SAT, deși unele dintre scorurile 𝑡 se modifică din cauza creșterii 𝑆𝐸(𝛽̂ ) −
𝑟𝑖𝑙𝑜𝑟, cauzate de adăugarea lui SAT.

Astfel, criteriile statistice nu contrazic în mod convingător afirmația teoretică conform


căreia SAT este irelevant.
În cele din urmă, este important să se recunoască că pe acest subiect, diferiți cercetători
ar putea veni cu ecuații finale diferite. Un cercetător a cărui așteptare anterioară era aceea
că SAT aparține fără echivoc ecuației, ar fi estimat ecuația cu această variabilă inclusă și ar fi
acceptat ecuația fără să se deranjeze să estimeze ecuația anterioară. Alți cercetători, în
spiritul analizei de sensibilitate, ar raporta ambele ecuații.

Sumar

1. Omiterea unei variabile dintr-o ecuație va determina un deplasament al estimatorilor


coeficienților rămași, în măsura în care variabila omisă este corelată cu variabilele
incluse.

2. Deplasamentul așteptat al unui estimator al unei variabile incluse, din neincluderea în


ecuație a unei variabile, este egal cu coeficientul variabilei neincluse înmulțit cu
coeficientul de corelație simplă între variabila neinclusă și variabila inclusă.

3. Includerea unei variabile irelevante într-o ecuație nu provoacă deplasamente, dar, de


obicei, va crește varianțele coeficienților estimați ai variabilelor incluse, micșorând astfel
valorile 𝑡, lărgind intervalele de încredere și reducând 𝑅̅ 2 .

4. Cele patru criterii utilizate pentru includerea unei variabile într-o ecuație sunt:
a. teoria
b. testul t
c. 𝑅̅ 2
d. Deplasamentul

5. Teoria, nu potrivirea statistică, ar trebui să fie cel mai important criteriu pentru
includerea unei variabile într-o ecuație de regresie. Procedând altfel, există riscul de a
obține rezultate incorecte și/sau necredibile utilizând cele patru criterii.
Test 6.1

SV1. Atunci când specifică pentru prima dată o ecuație, un economist poate uita să includă în
ecuație una dintre variabilele independente relevante. Este posibil, de asemenea, să nu poată
obține datele pentru una dintre variabilele despre care se gândește că ar fi important să o
includă în model. Rezultatul, în ambele situații, este o variabilă omisă, definită ca o variabilă
explicativă importantă care a fost lăsată înafara ecuației de regresie. Ori de câte ori o variabilă
independentă importantă este omisă:

Alegerea formei funcționale

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + … + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖

Alegerea variabilelor independente Alegerea formei termenului de eroare

Selectați una dintre variantele următoare:

a. ecuația estimată, în întregime, este suspectă;

b. mărimea eșantionului trebuie crescută;

c. o variabilă dummy trebuie adăugată în ecuație;

d. ipotezele formulate incorect trebuie reformulate;

e. variabilele nesemnificative trebuie eliminate;


SV2. Într-o ecuație cu mai mult de o variabilă independentă, un coeficient 𝛽𝑘 arată cu cât se
modifică variabila dependentă Y atunci când variabila independentă 𝑋𝑘 se modifică cu o
unitate, menținând constante celelalte variabile independente din ecuație. Dacă o variabilă
este omisă, atunci nu este inclusă în ecuație ca o variabilă independentă și nu este menținută
constantă pentru calculul și interpretarea lui 𝛽𝑘 . Această omisiune poate provoca un
deplasament, adică poate face ca media valorilor estimate ale unui coeficient să fie departe
de valoarea reală a acestuia. Acest deplasament se numește:

𝐸 𝛽̂ = 𝛽 𝐸 𝛽̂ ≠ 𝛽 𝛽̂

Selectați una dintre variantele următoare:


a. deplasament de corectare;

b. deplasament rezidual;

c. deplasament independent;

d. deplasament liniar;

e. deplasament de omisiune;
SV3. În figura alăturată este ilustrată distribuția de eșantionare a valorilor estimate ale lui 𝛽.
Folosind un eșantion de date, se obține o valoare estimată a lui 𝛽 egală cu -0.5, deși valoarea
reală a lui 𝛽 este egală cu 1, cum se poate observa în figura alăturată. Aceasta înseamnă că:

Distribuția de eșantionare ale lui 𝛽̂

O estimare a lui 𝛽
𝛽̂ = −0.5

−2 −1 −0.5 0 𝛽=1 2 3 4

Selectați una dintre variantele următoare:


a. termenul de eroare stohastică a fost omis;

b. o variabilă independentă importantă lipsește din ecuație;

c. estimatorul lui 𝛽 este nedeplasat;

d. deplasamentul este datorat omiterii unei variabile;

e. semnul așteptat a lui β este minus (−);


SV4. În figura alăturată este ilustrată distribuția de eșantionare a valorilor estimate ale unui
coeficient 𝛽. Folosind un eșantion de date, s-a obținut o valoare estimată particulară a
lui 𝛽 foarte apropiată de valoarea adevărată a acestuia. O cauză a situației descrise de figura
alăturată poate fi:

Distribuția de eșantionare a lui 𝛽̂

O estimare particulară
a lui 𝛽

𝛽 adevărat 𝐸 𝛽̂

Selectați una dintre variantele următoare:


a. folosirea unei tehnici de estimare neadecvate;

b. lipsa din ecuație a termenului de eroare stohastică;

c. existența în ecuație a unor variabile independente nerelevante;

d. utilizarea pentru estimare a unui eșantion de date foarte larg;

e. omisiunea unor variabile independente importante din ecuația de regresie;


SV5. Se presupune că adevărata ecuație de regresie include două variabile explicative, 𝑋1 și 𝑋2 :

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

Distribuția de eșantionare a lui 𝛽̂1 este distribuția (𝑎) din figura alăturată. Când din ecuație
se omite 𝑋2 și dacă 𝑋1 și 𝑋2 sunt corelate, cum se va schimba distribuția de eșantionare a lui
𝛽̂1 ?

Selectați una dintre variantele următoare:


a. va trece de la (𝑎) la (𝑏);
b. va trece de la (𝑎) la (𝑐);
c. va trece de la (𝑏) la (𝑐);
d. va trece de la (𝑐) la (𝑎);
e. nu se va schimba;
SV6. Pentru un model cu două variabile independente, valoarea așteptată a coeficientului
variabilei incluse 𝑋1 , atunci când variabila relevantă 𝑋2 este omisă din ecuație, este egală cu
valoarea reală a coeficientului, 𝛽1 , la care se adaugă deplasamentul de omisiune, așa cum
este ilustrat în figura alăturată. Cum se poate observa, 𝛼̂1 este o estimare a coeficientului
pantă din ecuația secundară care îl leagă pe 𝑋2 de 𝑋1 , care de fapt reprezintă mărimea
coeficientului de corelație dintre 𝑋1 și 𝑋2 . Acest deplasament există întotdeauna, mai puțin
în cazul în care:

𝛽2 𝛼̂1

𝛽1 𝛽1 + 𝛽2 𝛼̂1 𝛽̂

Selectați una dintre variantele următoare:


a. în ecuație sunt mai mult de două variabile independente;

b. coeficienții 𝛽1 și 𝛽2 sunt semnificativ diferiți de zero;

c. variabila inclusă și variabila omisă sunt corelate;

d. variabila inclusă și variabila omisă sunt necorelate;

e. variabilele independente 𝑋1 și 𝑋2 sunt corelate negativ;


SV7. Adăugarea într-o ecuație de regresie a unei variabile irelevante, care nu aparține ecuației, nu
cauzează deplasamente, dar crește varianțele estimatorilor coeficienților variabilelor
relevante, așa cum se poate observa în figura alăturată. Această varianță crescută va tinde
să scadă mărimea absolută a scorurilor 𝑡 ale variabilelor care aparțin ecuației. Un efect al
scăderii scorurilor 𝑡 este faptul că:

Distribuții de eșantionare ale lui 𝛽̂


𝑎

−3 −2 −1 0 𝛽=1 2 3 4 5

Selectați una dintre variantele următoare:


a. gradul de ajustare sau potrivire este din ce în ce mai bun;

b. abaterile standard ale estimatorilor scad;

c. numărul gradelor de libertate crește;

d. unele variabile relevante pot apărea ca fiind nesemnificative;

e. testul t pune în evidență variabilele irelevante incluse în ecuație;


SV8. Pentru a putea stabili dacă o anumită variabilă aparține sau nu ecuației de regresie, se
folosesc patru criterii. Aceste criterii sunt atât de importante încât ar trebui folosite de fiecare
dată când se adaugă sau se elimină o variabilă din ecuația de regresie. Pe baza acestor
criterii, o variabilă este declarată irelevantă și poate fi eliminată din model, dacă:

Patru criterii de specificare

1. teoria: locul variabilei în ecuație este neambiguu și cu semnificație


teoretică;

2. testul t : coeficientul estimat al variabilei este semnificativ, în


direcția așteptată;

3. R2 ajustat: gradul de potrivire ajustat cu numărul gradelor de


libertate se mărește atunci când variabila este adăugată în ecuație;

4. deplasamentul: când este adăugată sau eliminată, se modifică


semnificativ valorile estimate ale coeficienților altor variabile din ecuație;

Selectați una dintre variantele următoare:

a. cel mult un criteriu este îndeplinit;

b. cel puțin un criteriu este îndeplinit;

c. niciun criteriu nu este îndeplinit;

d. numai criteriul 2 este îndeplinit;

e. toate criteriile sunt îndeplinite;


SV9. Ramsey Regression Specification Error Test (RESET) este un test general care
determină probabilitatea ca o ecuație să aibă o variabilă omisă sau alte erori de
specificare. Pentru a testa acest lucru, se măsoară dacă gradul general de potrivire
(𝑜𝑣𝑒𝑟𝑎𝑙𝑙 𝑓𝑖𝑡) se poate îmbunătății semnificativ prin adăugare termenilor 𝑌̂ 2 , 𝑌̂ 3 ș𝑖 𝑌̂ 4 .
Dacă prin adăugarea acestor termeni se poate arăta cu ajutorul testului 𝐹 că gradul
general de potrivire al ecuației originale s-a îmbunătățit semnificativ, atunci se trage
concluzia că ecuația conține anumite erori de specificare. În figura alăturată sunt
ilustrate rezultatele testului RESET afișate de STATA, pentru ecuația cererii de carne
de pui. Conform acestor rezultate, se poate afirma că din ecuația cererii de carne de
pui:

𝑆𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐𝑠 → 𝐿𝑖𝑛𝑒𝑎𝑟 𝑚𝑜𝑑𝑒𝑙𝑠 𝑎𝑛𝑑 𝑟𝑒𝑙𝑎𝑡𝑒𝑑 → 𝑅𝑒𝑔𝑟𝑒𝑠𝑖𝑜𝑛 𝐷𝑖𝑎𝑔𝑛𝑜𝑠𝑡𝑖𝑐𝑠


𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑜𝑛 𝑡𝑒𝑠𝑡𝑒𝑠, 𝑒𝑡𝑐.
𝑅𝑎𝑚𝑠𝑒𝑦 𝑟𝑒𝑔𝑟𝑒𝑠𝑠𝑖𝑜𝑛 𝑒𝑟𝑟𝑜𝑟 𝑡𝑒𝑠𝑡 𝑓𝑜𝑟 𝑜𝑚𝑚𝑖𝑡𝑒𝑑 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 (𝑜𝑣𝑡𝑒𝑠𝑡)

. estat ovtest

Ramsey RESET test using powers of the fitted values of y


Ho: model has no omitted variables
F(3, 33) = 15.89
Prob > F = 0.0000

Selectați una dintre variantele următoare:


a. sunt omise variabile independente importante;

b. nu sunt omise variabile independente importante;

c. sunt incluse variabile independente nerelevante;

d. nu sunt incluse variabile independente nerelevante;

e. sunt incluse exact acele variabile independente care trebuiau incluse;


SV10. Cu toate că cel mai popular criteriu de evaluare a gradului general de ajustare este
𝑅̅ 2 , există și criterii alternative care prin care se poate face această evaluare. Cele
mai cunoscute sunt criteriile Akaike Information Criterion (AIC) și Schwarz Criterion
(SC). Spre deosebire de testul RESET, aceste criterii sunt folosite pentru a compara
diferite specificări alternative, obținute prin adăugarea unor variabile independente
care se presupune că au fost omise. AIC și SC sunt afișate de către Stata sau Eviews.
Se alege specificarea care prezintă cele mai mici valori pentru aceste criterii. În
figura alăturată sunt prezentate două specificări alternative ale cererii de carne de
pui. Pe baza criteriilor AIC și SC, care dintre cele două specificări este preferabilă?

I. 𝑌𝑡 = 27.59 − 0.607𝑃𝐶𝑡 + 0.092𝑃𝐵𝑡 + 0.245𝑌𝐷𝑡


0.157 0.039 0.011
𝑡= −4.38 + 2.31 + 22.07
𝑅̅ 2 = 0.9896 𝑛 = 40 𝐴𝐼𝐶 = 4.31 𝑆𝐶 = 4.48

II . 𝑌𝑡 = 27.54 − 0.416 𝑃𝐶𝑡 + 0.268 𝑌𝐷𝑡


0.141 0.0048
𝑡= −2.946 + 54.50
𝑅̅ 2 = 0.9883 𝑛 = 40 𝐴𝐼𝐶 = 4.40 𝑆𝐶 = 4.52

Selectați una dintre variantele următoare:


a. ecuația I este preferabilă, deoarece AIC și SC sunt mai mici față de ecuația II;
b. ecuația II este preferabilă, deoarece AIC și SC sunt mai mici față de ecuația I;
c. criteriile AIC și SC arată că ecuațiile sunt la fel de bune;
d. criteriile AIC și SC arată că nici una dintre cele două ecuații nu este bună;
e. criteriile AIC și SC arată că din ecuația I lipsește o variabilă explicativă importantă;

S-ar putea să vă placă și