Documente Academic
Documente Profesional
Documente Cultură
Specificarea implică trei decizii importante: alegerea variabilelor independente, alegerea formei funcționale și
alegerea formei termenului de eroare stohastică.
Un obiectiv principal al acestui curs este acela de a ajuta la înțelegerea felului în care
trebuie alese variabilele din ecuațiile de regresie, fără a cădea pradă diferitelor erori care pot
rezulta din utilizarea greșită a acestei abilități.
Considerația principală în a decide dacă o variabilă independentă aparține sau nu
unei ecuații de regresie este importanța sa din punct de vedere teoretic. Dacă răspunsul este
“da” fără ambiguitate, atunci variabila ar trebui să fie inclusă în ecuație, chiar dacă pare să
nu aibă o semnificație statistică. Dacă teoria este ambiguă sau mai puțin empatică, apare o
dilemă. Omiterea unei variabile relevante dintr-o ecuație este probabil să prejudicieze
valorile estimate ale coeficienților variabilelor rămase în ecuație, iar includerea unei
variabile irelevante duce la varianțe mai mari ale distribuțiilor de eșantionare ale
coeficienților. Deși în continuare se vor analiza unele proceduri statistice care să ajute la
luarea unei decizii corecte, în practică este dificil să se afirme că o variabilă este, în mod sigur,
relevantă. Uneori problema rămâne nerezolvată.
Această secțiune a cursului este dedicată căutării specificațiilor, evidențiindu-se
avantajele și dezavantajele diferitelor abordări. Când căutarea specificațiilor este făcută
superficial, apar diferite probleme, precum deplasamente ale distribuțiilor de eșantionare
ale coeficienților estimați sau lipsa de semnificație a testelor statistice uzuale. Se recomandă
ca, în procesul de alegere a variabilelor, numărul de regresii estimate să fie redus la minim,
iar la baza alegerii variabilelor independente trebuie pusă teoria, mai degrabă decât
ajustarea sau potrivirea statistică. Cu toate acestea, nu există răspunsuri apriori, astfel încât
deciziile finale trebuie să fie lăsate la latitudinea fiecărui cercetător în parte.
Variabile omise
Atunci când specifică pentru prima dată o ecuație, un economist poate uita să includă
în ecuație una dintre variabilele independente relevante (până la urmă, nimeni nu este
perfect!). Sau, de exemplu, nu poate obține datele pentru una dintre variabilele despre care
se gândește că ar fi important să o includă în model. Rezultatul, în ambele situații, este o
variabilă omisă, definită ca o variabilă explicativă importantă care a fost lăsată înafara
ecuației de regresie. Ori de câte ori o variabilă este omisă (sau lăsată înafara ecuației),
interpretarea rezultatelor și utilizarea ecuației estimate devin suspecte. Lăsând înafara
ecuației o variabilă relevantă, cum ar fi prețul într-o ecuație a cererii, nu numai că nu se
obține o valoare estimată a coeficientului prețului, dar, de asemenea, apare un deplasament
al coeficienților estimați ai celorlalte variabile care sunt incluse în ecuație.
Deplasamentul cauzat de faptul că o variabilă independentă importantă este lăsată
înafara ecuației de regresie se numește deplasament de omitere. Într-o ecuație cu mai mult
de o variabilă independentă, un coeficient 𝛽𝑘 arată cu cât se modifică variabila dependentă
Y atunci când variabila independentă 𝑋𝑘 se modifică cu o unitate, menținând constante
celelalte variabile independente din ecuație. Dacă o variabilă este omisă, atunci nu este
inclusă în ecuație ca o variabilă independentă și nu este menținută constantă pentru calculul
și interpretarea lui 𝛽𝑘 . Această omisiune poate provoca un deplasament, adică poate face ca
media valorilor estimate ale unui coeficient să fie departe de valoarea reală a acestuia. Din
acest motiv, omiterea unei variabile relevante este de obicei o dovadă că întreaga ecuație
estimată este suspectă, din cauza deplasamentului coeficienților estimați ai variabilelor care
rămân în ecuație. În continuare se va analiza mai detaliat această problemă.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖
unde 𝜀𝑖 este un termen de eroare clasic. Dacă se omite 𝑋2 din ecuație, atunci ecuația devine:
deoarece termenul de eroare stocastică include efectele oricăror variabile omise, după cum
s-a menționat anterior. De ce în ecuația transformată s-au notat 𝛽0∗ și 𝛽1∗ în loc de 𝛽0 și 𝛽1?
Răspunsul este ascuns în spatele semnificației coeficienților de regresie. Astfel, de exemplu,
𝛽1 măsoară impactul asupra lui 𝑌 a creșterii cu o unitate a 𝑋1, menținând constant 𝑋2. Dar 𝑋2
nu este în ecuație, astfel încât OLS nu îl poate menține constant. Ca urmare, 𝛽1∗ arată impactul
unei creșteri cu o unitate a 𝑋1 asupra 𝑌, neținând constantă 𝑋2.
S-ar putea considera că se pot obține estimări bune, chiar dacă 𝑋2 este lăsat înafara
ecuației. Din păcate, nu este cazul, deoarece coeficienții incluși aproape sigur primesc o parte
din efectul variabilei omise și, prin urmare, vor devia de la valoarea lor adevărată, adică vor
fi deplasați. Pentru a vedea de ce, se pot analiza cele două ecuații. Majoritatea perechilor de
variabile sunt corelate într-un anumit grad, deci 𝑋1 și 𝑋2 sunt aproape sigur corelate. Când
𝑋2 este omis din ecuație, impactul lui 𝑋2 trece în 𝜀 ∗ , deci 𝜀 ∗ și 𝑋2 sunt corelate. Astfel, dacă 𝑋2
este omisă din ecuație și 𝑋1 și 𝑋2 sunt corelate, atât 𝑋1 cât și 𝜀 ∗ se vor schimba atunci când
𝑋2 se schimbă, iar termenul de eroare nu va mai fi independent de variabila independentă
𝑋1. Acest lucru încalcă ipoteza clasică III!
Cu alte cuvinte, dacă o variabilă importantă se omite din ecuație, se încalcă ipoteza
clasică III (conform căreia variabilele explicative sunt independente față de termenul de
eroare), cu excepția cazului în care variabila omisă nu este corelată cu niciuna dintre
variabilele independente incluse, ceea ce este extrem de puțin probabil. În general, atunci
când există o încălcare a uneia dintre ipotezele clasice, teorema Gauss-Markov nu mai este
valabilă, iar estimările OLS nu sunt BLUE. Cu referire la estimatorii liniari, acest lucru
înseamnă că estimatorii coeficienților nu mai sunt nedeplasați sau nu mai au varianța
minimă, dintre toți estimatorii liniari nedeplasați, sau ambele. Într-o astfel de situație,
econometricienii determină mai întâi caracteristica exactă, lipsa deplasării sau varianța
minimă, care nu mai este îndeplinită și apoi sugerează o tehnică de estimare alternativă care
ar putea fi mai bună decât OLS.
O variabilă omisă determină încălcarea ipotezei clasice III într-un mod care provoacă
un deplasament al estimatorilor. Estimarea OLS a unei ecuații din care s-a omisă o variabilă
dependentă importantă va produce valori deplasate ale coeficienților estimați. Aceasta
înseamnă că:
𝐸(𝛽̂1∗ ) ≠ 𝛽1
𝐸(𝛽̂1∗ ) = 𝛽1 + 𝛽2 𝛼̂1
unde 𝛼̂1 este un estimator al coeficientului pantă din ecuația secundară care leagă pe 𝑋2 de
𝑋1:
𝑋̂2𝑖 = 𝛼̂0 + 𝛼̂1 𝑋1𝑖
Dacă 𝑋1 și 𝑋2 sunt corelate pozitiv, 𝛼̂1 va fi pozitiv. Dacă 𝑋1 și 𝑋2 sunt corelate negativ, 𝛼̂1 va
fi negativ. Dacă 𝑋1 și 𝑋2 nu sunt corelate, 𝛼̂1 va fi zero.
Ecuația de mai sus arată că valoarea așteptată a coeficientului variabilei incluse este
egală cu valoarea reală a acesteia, plus coeficientul adevărat al variabilei omise înmulțit cu
mărimea corelației dintre variabila inclusă și cea omisă. Deoarece valoarea estimată
nedeplasată este egală cu valoarea adevărată, termenul cel mai din dreapta reprezintă
mărimea deplasamentului:
deplasament = 𝛽2 𝛼̂1
Comparând ecuațiile, diferența cea mai vizibilă este faptul că 𝑅̅ 2 a scăzut, de la 0 .579
la 0.258. Estimatorul coeficientului lui N s-a schimbat, de la -9075 la -1487, iar rația sa 𝑡 s-a
schimbat, de la -4,42 la -0,84. Ce dezastru! Coeficientul lui N acum este nesemnificativ diferit
de zero! Cum de s-a putut întâmpla acest lucru?
Răspunsul este deplasamentul introdus de variabila omisă. Populația și concurența
sunt destul de corelate. Cu cât sunt mai multe persoane într-o zonă, cu atât este posibil să fie
mai multe restaurante. Ca urmare, când populația este eliminată din ecuație, OLS atribuie
impactul variabilei omise variabilelor incluse, în măsura în care acestea sunt corelate cu
variabilă omisă. Deplasamentul introdus a fost pozitiv sau negativ? Ei bine, 𝛽̂𝑁 a crescut de
la un număr negativ mare la un număr negativ mai mic, deci deplasamentul este pozitiv.
Impactul pozitiv al populației a compensat aproape complet impactul negativ al concurenței,
rezultând un coeficient nu departe de zero.
Semnul pozitiv al deplasamentului ar fi putut fi prezis folosind ecuația
deplasamentului:
ținând cont că semnul așteptat al lui 𝛽𝑃 este pozitiv, iar corelația dintre populație și
concurență este, de asemenea, pozitivă. În concluzie, dacă o variabilă relevantă este omisă
din ecuația de regresie, nu se mai estimează coeficientul acelei variabile și este probabil ca
estimatorii coeficienților variabilelor rămase să fie deplasați. Deși mărimea deplasamentului
poate să nu fie foarte mare în unele cazuri (când, de exemplu, corelația dintre variabila
inclusă și variabila exclusă este redusă), este foarte probabil ca cel puțin o parte din
deplasamentul determinat de variabila omisă să fie prezent în toate aceste situații.
Variabile irelevante
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝜀𝑖
Dacă un economist include în ecuație, din diferite motive, o nouă variabilă explicativă, 𝑋2,
ecuația devine:
𝜀𝑖∗∗ = 𝜀𝑖 − 𝛽2 𝑋2𝑖
Se poate observa că, o astfel de greșeală nu va cauza deplasamente dacă adevăratul coeficient
al variabilei irelevante este zero. Cu alte cuvinte, un estimator al lui 𝛽1 este nedeplasat când
𝛽2 = 0. Cu toate acestea, includerea unei variabile irelevante va crește varianța estimatorilor
coeficienților, iar această varianță crescută va tinde să scadă mărimea absolută a scorurilor
𝑡 . De asemenea, o variabilă irelevantă va scădea, de obicei, 𝑅̅ 2 (dar nu și pe 𝑅 2 ). Astfel, deși
variabila irelevantă nu provoacă deplasamente, provoacă probleme în analiza de regresie,
deoarece reduce scorurile 𝑡, precum și coeficientul de determinație ajustat 𝑅̅ 2 .
Comparând rezultatele acestor două specificări, se observă, în primul rând, o scădere ușoară
a lui 𝑅̅ 2 , indicând reducerea overall fit, ajustat cu gradele de libertate. În al doilea rând,
niciunul dintre coeficienții de regresie din ecuația inițială nu s-a schimbat foarte mult. Mai
mult, erorile standard ale estimatorilor coeficienților au crescut. În sfârșit, scorul 𝑡 pentru
potențiala variabila 𝐴 este mic, ceea ce indică faptul că această variabilă are un coeficient
care nu este semnificativ diferit de zero. Având în vedere lipsa de semnificație teoretică a
noii variabile, aceste rezultate indică faptul că este o variabilă irelevantă și nu ar trebui să fie
inclusă niciodată în ecuația de regresie.
Patru importante criterii de specificare
Se pot identifica patru criterii de validare, pentru a putea stabili dacă o anumită
variabilă aparține sau nu ecuației. Aceste criterii sunt atât de importante încât îndemnăm
cercetătorii începători să lucreze prin intermediul acestora de fiecare dată când o variabilă
se adaugă sau se elimină din ecuația de regresie.
Dacă toate aceste condiții sunt îndeplinite, variabila aparține ecuației. Dacă nicio
condiție nu este îndeplinită, variabila este irelevantă și poate fi exclusă din ecuație. Atunci
când o variabilă relevantă omisă este inclusă în ecuație, va crește 𝑅̅ 2 și cel puțin un coeficient
estimat se modifică semnificativ.
Dacă, pe de altă parte, în ecuație este inclusă o variabilă irelevantă, aceasta va reduce
𝑅̅ , va avea un scor 𝑡 nesemnificativ și va avea un impact redus asupra coeficienților
2
celorlalte variabile.
În multe cazuri, cele patru criterii nu sunt îndeplinite toate deodată. Este posibil, de
exemplu, ca o variabilă să aibă un scor 𝑡 nesemnificativ, dar care este mai mare decât al altei
variabile. Într-un astfel de caz, se poate arăta că 𝑅̅ 2 va crește atunci când variabila este
adăugată în ecuație și totuși scorul 𝑡 va fi nesemnificativ. Ori de câte ori cele patru criterii de
specificație nu sunt îndeplinite, econometricianul trebuie să urmeze o judecată atentă și nu
trebuie să se bazeze pe un singur criteriu precum 𝑅̅ 2 pentru a determina specificația.
Economiștii nu ar trebui să folosească în mod greșit această libertate de alegere, testând
diverse combinații de variabile până când găsesc rezultatele care par să susțină statistic
punctul lor de vedere.
Toate aceste decizii sunt puțin mai ușoare atunci când se conștientizează faptul că cel
mai important determinant al relevanței unei variabile este justificarea sa teoretică. Nicio
cantitate de dovezi statistice nu ar trebui să transforme o variabilă necesară din punct de
vedere teoretic într-o variabilă „irelevantă”. Uneori cercetători sunt obligat să lase înafara
ecuației variabile teoretic importante din lipsa de date. În astfel de cazuri, utilitatea ecuației
este limitată.
O ilustrare a utilizării greșite a criteriilor de specificare
Comparând aceste două rezultate prin prisma celor patru criterii de specificare, se
pot trage următoarele concluzii:
1. teoria: dacă este posibil ca cererea de cafea să fie inelastică în raport de preț, teoria care
stă la baza eliminării variabilei din ecuație pare plauzibilă.
2. testul t: scorul 𝑡 al variabilei posibil irelevante este 0.5, nesemnificativ la orice nivel de
semnificație.
3. 𝑅̅ 2 : crește prin eliminarea variabilei, ceea ce indică faptul că variabilă este irelevantă.
4. deplasamentul: coeficienții rămași se schimbă doar într-o mică măsură atunci când 𝑃𝑏𝑐
este eliminată din ecuație, ceea ce sugerează că deplasamentul determinat de excluderea
acestei variabile, dacă există, este redus.
Pe baza acestei analize s-ar putea trage concluzia că cererea de cafea braziliană este
într-adevăr inelastică în raport de preț și că variabila este, prin urmare, irelevantă și ar trebui
eliminată din model. Dar, după cum se va dovedi, această concluzie este nejustificată. Deși
elasticitatea cererii de cafea în general este destul de scăzută (de fapt, dovezile sugerează că
aceasta este inelastică doar pentru o plajă specială de prețuri), este greu de crezut că cererea
de cafea braziliană este imună la concurența prin preț față de alte tipuri de cafea. Astfel,
sensibilitate cererii de cafea braziliană în raport cu prețul cafelei columbiene, de exemplu,
nu poate fi ignorată. Pentru a testa această ipoteză, prețul cafelei columbiene, 𝑃𝑐𝑐 , ar trebui
adăugat în ecuația originală:
Comparând acum acest rezultat cu rezultatul inițial, prin prisma celor patru criterii
de specificare, se pot trage următoarele concluzii:
1. teoria: ambele prețuri ar trebui să fie incluse în model, justificarea logică a prezenței lor în
ecuație este destul de puternică.
2. testul t: scorul 𝑡 al noii variabile, prețul cafelei columbiene, este egal cu 2.0, semnificativ la
majoritatea nivelurilor de semnificație.
3. 𝑅̅ 2 : 𝑅̅ 2 crește odată cu adăugarea variabilei, ceea ce indică faptul că variabila a fost o
variabilă omisă.
4. deplasamentul: deși doi dintre coeficienți rămân practic nemodificați, indicând o corelație
scăzută între aceste variabile și prețul cafelei columbiene, estimatorul coeficientul prețului
cafelei braziliene se schimbă semnificativ, indicând existența deplasamentului în rezultatul
original.
Concluzia care trebuie trasă este aceea că aspectele teoretice nu trebuie niciodată
ignorate, nici măcar în fața nesemnificațiilor statistice. Dacă o variabilă cunoscută a fi extrem
de importantă din punct de vedere teoretic se dovedește a fi nesemnificativă statistic într-un
anumit eșantion, acea variabilă ar trebui să fie lăsată în ecuație, în ciuda faptului prezența sa
face ca rezultatele să arate prost.
Nu trebuie trasă concluzia că această cale particulară, prezentată în acest exemplu,
este modalitatea corectă de a specifica orice ecuație. Căutarea unui lung șir de variabile
pentru a o determina pe cea specială, prin adăugarea căreia coeficientul lui 𝑃𝑏𝑐 să devină
negativ și semnificativ, nu este calea de a obține un rezultat care să se potrivească bine la alte
eșantioane sau ipoteze alternative. Ecuația inițială nu ar fi trebuit să fie rulată fără variabila
de preț a cafelei columbiene. În schimb, problema ar fi trebuit să fie analizată suficient încât
astfel de erori de omisiune să fie puțin probabile, înainte de a se încerca vreo regresie. Cu cât
se alocă mai mult timp de gândire înainte de executarea primei regresii și cu cât sunt
estimate mai puține specificații alternative, cu atât vor fi probabil mai bune rezultatele
regresiei.
Căutarea specificării
Unul dintre punctele slabe ale econometriei este acela că un cercetător poate
manipula un set de date pentru a produce aproape orice rezultat, specificând regresii diferite
până când obține estimări cu proprietățile dorite. Deoarece integritatea tuturor lucrărilor
empirice este astfel pusă sub semnul întrebării, subiectul privind modalitatea de a căuta cea
mai bună specificație este destul de controversat în rândul econometricienilor. Scopul nostru
din această secțiune nu este să rezumăm sau să rezolvăm această controversă. În schimb,
sperăm să oferim câteva orientări și informații pentru cercetătorii începători.
̅𝟐
Deplasament cauzat de alegerea variabilelor pe baza testului 𝒕 sau pe baza 𝑹
Presupunem în plus că, pe baza teoriei, există siguranța că 𝑋1 aparține ecuației, dar
nu există siguranța că 𝑋2 aparține acesteia. Mulți cercetători neexperimentați folosesc doar
testul 𝑡 pentru 𝛽̂2 pentru a stabili dacă 𝑋2 ar trebui sau nu să fie inclus în ecuație. Dacă acest
test preliminar indică faptul că 𝛽̂2 este semnificativ diferit de la zero, acești cercetători lasă
𝑋2 în ecuație. Dacă, totuși, testul 𝑡 nu indică faptul că 𝛽̂2 este semnificativ diferit de zero,
astfel de cercetători îl elimină pe 𝑋2 din ecuație și îl consideră pe 𝑌 doar ca o funcție de 𝑋1.
Două tipuri de greșeli pot fi comise procedând în acest mod. În primul rând, 𝑋2 poate fi
uneori lăsat în ecuație atunci când nu aparține acesteia, dar o astfel de greșeală nu modifică
valoarea așteptată a lui 𝛽̂1 . În al doilea rând, uneori 𝑋2 poate fi eliminat din ecuație, când de
fapt aparține acesteia. În acest al doilea caz, coeficientul estimat al lui 𝑋1 va fi deplasat. Cu
alte cuvinte, 𝛽̂1 va fi deplasat de fiecare dată când 𝑋2 aparține ecuației și este lăsat afara sa,
iar 𝑋2 va fi lăsat în afară de fiecare dată când coeficientul său estimat nu este semnificativ
diferit de zero. Va exista un deplasament sistematic în ecuația de regresie!
Pentru a rezuma, testul 𝑡 este deplasat prin căutări secvențiale ale specificației.
Deoarece majoritatea cercetătorilor iau în considerare un număr de variabile înainte de a
formula modelul final, bazându-se pe testul 𝑡 sau pe 𝑅̅ 2 , este probabil să întâmpine această
problemă în mod sistematic.
Data Mining
Data mining implică estimarea unei largi varietăți de specificații alternative, înainte
de a o alege pe „cea mai bună”. Cititorii acestui text nu vor fi surprinși să afle că este nevoie
de maximă prudență atunci când se utilizează data mining. Data mining efectuată incorect
este mai rea decât lipsa oricărei acțiuni.
Realizată corect, data mining implică explorarea unui set de date nu în scopul testării
ipotezelor sau găsirii unei specificații, ci în scopul descoperirii unor regularități empirice
care pot completa teoria economică. La urma urmei, nimeni nu se poate aștepta ca
economiștii teoreticieni să se gândească la toate!
Totuși, este nevoie de multă atenție! Dacă se emite o ipoteză folosind tehnici de data
mining, trebuie să se testeze această ipoteză pe un set de date diferit (sau într-un context
diferit) decât cel care a fost folosit pentru a o emite. Trebuie utilizat un nou set de date,
deoarece testele statistice tipice au o semnificație redusă dacă noua ipoteză este testată pe
setul de date care a fost utilizat pentru a o emite. Până la urmă, cercetătorul știe deja din timp
care vor fi rezultatele! Utilizarea seturilor de date duale este mai ușoară atunci când există o
multitudine de date. Acest lucru se întâmplă uneori în proiectele de cercetare în serii
transversale, dar rareori este cazul cercetărilor în serii temporale.
Fără utilizarea unor seturi de date duale, data mining este aproape sigur cea mai
proastă metodă de alegere a unei specificații. Într-o astfel de situație, un cercetător ar putea
estima practic orice combinație posibilă a diferitelor variabile independente, ar putea alege
rezultatele care „arată” cel mai bine și apoi ar putea raporta cea mai bună „ecuație” ca și cum
n-ar fi fost efectuată o data mining. Această utilizare incorectă a data mining ignoră faptul că
au fost examinate o serie de specificații înainte de raportarea finală.
În plus, data mining va determina alegerea unei specificații care reflectă
particularitățile setului de date utilizat. Cum se întâmplă asta? Să presupunem că avem 100
de ipoteze nule adevărate și se rulează 100 de teste ale acestor ipoteze. La nivelul de
semnificație de 5%, este de așteptat să se respingă aproximativ cinci ipoteze nule adevărate
și astfel, se pot face aproximativ cinci erori de tip I. Căutând valori 𝑡 ridicate, o procedură
data mining va găsi aceste erori de tip I și le va încorpora în specificația finală. Ca urmare,
scorurile 𝑡 raportate vor exagera semnificația statistică a estimatorilor coeficienților.
În esență, utilizarea improprie a data mining pentru a obține statistici dorite pentru
ecuația de regresie finală este o metodă de cercetare empirică potențial neetică. Dacă data
mining se realizează prin estimarea unei ecuații la un moment dat, prin estimarea loturilor
de ecuații sau prin tehnici precum procedurile de regresie în trepte, concluzia este aceeași.
Ipotezele dezvoltate prin data mining ar trebui să fie întotdeauna testate pe un set de date
diferit de cel care a fost utilizat pentru a dezvolta ipoteza. În caz contrar, cercetătorul nu a
găsit dovezi științifice care să susțină ipoteza, ci a ales specificația într-un mod înșelător.
După cum a spus un econometrician, „dacă torturezi datele suficient de mult, acestea vor
mărturisi”.
O regresie în trepte implică utilizarea unui program computerizat automat pentru a
alege variabilele independente într-o ecuație. Cercetătorul specifică o „listă de cumpărături”
de posibile variabile independente, iar apoi calculatorul calculează un număr de ecuații până
când le va găsi pe cele care maximizează 𝑅 2 . Astfel de tehnici de cătare în trepte sunt
deficitare în fața multicoliniarității și prezintă riscul ca specificația aleasă să aibă o justificare
teoretică slabă și/sau să aibă coeficienți cu semne neașteptate. Din cauza acestor capcane,
econometricienii evită procedurile de determinare în trepte a ecuație de regresie.
Analiza senzitivității
Pe parcursul acestui text, studenții au fost încurajați să estimeze cât mai puține
specificații și să evite să depindă numai de potrivirea statistică pentru a alege specificația. În
literatura economică, totuși, se întâlnesc cercetători cunoscuți, care au estimat cinci sau mai
multe specificații și apoi au enumerat toate rezultatele într-un articol publicat într-un
jurnalul academic. Ce se întâmplă?
În aproape fiecare caz, acești autori au folosit o tehnică numită analiza senzitivității.
Analiza senzitivității constă în rularea cu intenție a unui număr de specificații alternative
pentru a determina dacă rezultatele obținute sunt solide (nu doar potriviri statistice). În
esență, se încearcă să se determine cât de sensibilă este „cea mai bună” ecuație la o schimbare
a specificației, deoarece adevărata specificație nu este cunoscută. Cercetătorii care folosesc
analiza senzitivității rulează (și raportează) o serie de specificații rezonabile și tind să
elimine un rezultat care apare semnificativ în unele specificații și nesemnificativ în altele.
Într-adevăr, întregul scop al analizei senzitivității este acela de a câștiga încrederea că un
anumit rezultat este semnificativ într-o varietate de specificații alternative, forme
funcționale, definiții variabile și/sau subseturi de date.
Abilitatea de a lua cele mai bune decizii privind alegerea variabilelor independente se
câștigă prin experiență. Fiecare ecuație de până acum a avut specificația deja stabilită. Cu
toate acestea, după parcurgerea acestui curs, studenții trebuie să ia singuri toate deciziile
legate de specificarea unei ecuații de regresie. În capitolele viitoare, se va folosi o tehnică
numită „exerciții interactive de învățare a regresiei” pentru a permite studenților să facă
propriile alegeri privind specificația ecuațiilor și să primească feedback cu privire la alegerile
lor. În continuare se va parcurge procesul de specificație a ecuației de regresie pe un exemplu
simplu.
Exemplul privește un subiect specific activității didactice, respectiv GPA-ul unui
student (GPA – Grade Point Average = o măsură a performanței academice). Se presupune
că un student, care frecventează un mic colegiu, chestionează cei 25 de membri ai clasei sale
de econometrie și obține date despre următoarele variabile:
𝐺𝑃𝐴𝑖 = media cumulativă a punctajelor obținute de studentul 𝑖 la colegiu, pe o scară de la 1
la 4);
𝐻𝐺𝑃𝐴𝑖 = media cumulativă a punctajelor obținute de elevul 𝑖 la liceu, pe o scară de la 1 la 4;
𝑀𝑆𝐴𝑇𝑖 = cel mai mare scor obținut de elevul 𝑖 la proba de matematică a testului SAT
(maximum 800);
𝑉𝑆𝐴𝑇𝑖 = cel mai mare punctaj obținut de elevul 𝑖 la probele orale ale testului SAT (maxim
800);
𝑆𝐴𝑇𝑖 = 𝑀𝑆𝐴𝑇𝑖 + 𝑉𝑆𝐴𝑇𝑖
𝐺𝑅𝐸𝐾𝑖 = o variabilă dummy egală cu 1 dacă studentul 𝑖 este membru al unei organizații
studențești, 0 altfel;
𝐻𝑅𝑆𝑖 = numărul mediu de ore pe săptămână pe care studentul 𝑖 le alocă studiului;
𝑃𝑅𝐼𝑉𝑖 = o variabilă dummy egală cu 1 dacă studentul 𝑖 a absolvit un liceu privat, 0 altfel;
𝐽𝑂𝐶𝐾𝑖 = o variabilă dummy egală cu 1 dacă studentul 𝑖 este sau a fost membru al unei echipe
sportive, pentru cel puțin un sezon, 0 în caz contrar;
𝑙𝑛𝐸𝑋𝑖 = logaritmul natural al numărului de cursuri pe care studentul 𝑖 le-a finalizat.
Presupunând că 𝐺𝑃𝐴𝑖 este variabila dependentă, ce variabile independente trebuie
alese? Înainte de a răspunde, trebuie analizate toate posibilitățile. Ce spune literatura de
specialitate despre acest subiect? Care sunt semnele preconizate ale fiecărui coeficient? Cât
de puternică este teoria din spatele fiecărei variabile? Ce variabile par, în mod evident,
importante? Ce variabile par potențial irelevante sau redundante? Există alte variabile care
at trebui incluse în ecuația de regresie?
Toate aceste întrebări trebuie luate în considerare atunci când se construiește
specificația modelului:
𝐺𝑃𝐴𝑖 = 𝑓(? , ? , ? , ? , ? ) + 𝜀𝑖
Pentru începători, este greu să evite tentația de a include toate aceste variabile într-o
ecuație GPA și apoi să renunțe la variabilele care au scoruri t nesemnificative. Chiar dacă
anterior s-a menționat că o astfel de procedură de căutare a specificației va avea ca rezultat
estimatori deplasați ai coeficienților, majoritatea începătorilor nu au încredere în propria lor
judecată și tind să includă prea multe variabile în ecuația de regresie. Având în vedere acest
avertisment, care sunt, totuși, variabilele care trebuie incluse?
În științele educației, ca și în teoria economică, se menționează faptul că rezultatele
depind de muncă, de experiență și de abilități. Astfel, notele obținute de studenți sunt o
funcție a abilității acestora, a intensității muncii lor și a experienței de a lua cursuri. În
consecință, specificația propusă este următoarea:
+ + +
𝐺𝑃𝐴𝑖 = 𝛽0 + 𝛽1 𝐻𝐺𝑃𝐴𝑖 + 𝛽2 𝐻𝑅𝑆𝑖 + 𝛽3 𝑙𝑛𝐸𝑋𝑖 + 𝜀𝑖
Ce se poate spune despre SAT (Scholastic Assessment Test)? Toată lumea știe că sunt
importante. Ce se poate spune despre studenții sportivi sau despre membrii ai organizațiilor
studențești? Nu au GPA-uri mai mici? Nu sunt mai bine pregătiți elevii din liceele private
decât cei din liceele publice?
Înainte de a răspunde la aceste întrebări, este important de notat că alegerea
specificației înseamnă alegerea variabilelor care să fie incluse în ecuație, nu stabilirea
variabilelor care trebuie excluse. Cu alte cuvinte, nu se poate presupune că o anumită
variabilă ar trebui să fie inclusă într-o ecuație pur și simplu pentru că nu se găsește nici un
motiv pentru a o exclude.
Date fiind aceste elemente, rămâne întrebarea: de ce au fost alese variabilele care au
fost alese? În primul rând, se poate aprecia că cel mai bun predictor al GPA al unui student
la colegiu este GPA-ul său de liceu. Odată ce se cunoaște HGPA, SAT-urile sunt redundante.
În plus, faptul că este posibilul un deplasament rasial și de gen în testul SAT, îl face o măsură
discutabilă a potențialului academic, dar se poate greși în această privință.
În ceea ce privește celelalte variabile, se pot face afirmații ce pot fi privite cu
încredere. De exemplu, odată ce se cunosc câte ore pe săptămână petrece un student
studiind, este mai puțin interesant ce face acel student în restul timpului, așa că
𝐽𝑂𝐶𝐾 ș𝑖 𝐺𝑅𝐸𝐾 sunt de prisos odată ce HRS este inclus. În plus, cu cât este mai mare 𝑙𝑛𝐸𝑋, cu
atât sunt mai bune obiceiurile de studiu ale elevilor și cu atât este mai probabil ca studenții
să urmeze cursuri în domeniul lor prioritar. În cele din urmă, deși unele școli private sunt
superbe iar unele școli publice nu sunt așa, se presupune că PRIV este irelevant; probabil are
doar un efect minor. Dacă se estimează această specificație pentru cei 25 de studenți, se
obține:
Utilizând cele patru criterii de specificare pentru a compara cele două ecuații, se
obține:
1. teorie: după cum s-a discutat anterior, validitatea teoretică a testelor SAT reprezintă un
subiect al unor controverse academice, dar SAT este încă una dintre cele mai citate
măsuri ale potențialului academic al unui student.
2. testul t: coeficientul SAT este pozitiv, așa cum era de așteptat, dar nu este semnificativ
diferit de zero.
3. 𝑅̅ 2 : conform așteptărilor (din moment ce scorul 𝑡 al lui SAT este sub 1), 𝑅̅ 2 scade ușor
prin adăugarea lui SAT în ecuație.
4. deplasament: niciunul dintre coeficienții pantă estimați nu se modifică substanțial prin
la adăugarea lui SAT, deși unele dintre scorurile 𝑡 se modifică din cauza creșterii 𝑆𝐸(𝛽̂ ) −
𝑟𝑖𝑙𝑜𝑟, cauzate de adăugarea lui SAT.
Sumar
4. Cele patru criterii utilizate pentru includerea unei variabile într-o ecuație sunt:
a. teoria
b. testul t
c. 𝑅̅ 2
d. Deplasamentul
5. Teoria, nu potrivirea statistică, ar trebui să fie cel mai important criteriu pentru
includerea unei variabile într-o ecuație de regresie. Procedând altfel, există riscul de a
obține rezultate incorecte și/sau necredibile utilizând cele patru criterii.
Test 6.1
SV1. Atunci când specifică pentru prima dată o ecuație, un economist poate uita să includă în
ecuație una dintre variabilele independente relevante. Este posibil, de asemenea, să nu poată
obține datele pentru una dintre variabilele despre care se gândește că ar fi important să o
includă în model. Rezultatul, în ambele situații, este o variabilă omisă, definită ca o variabilă
explicativă importantă care a fost lăsată înafara ecuației de regresie. Ori de câte ori o variabilă
independentă importantă este omisă:
𝐸 𝛽̂ = 𝛽 𝐸 𝛽̂ ≠ 𝛽 𝛽̂
b. deplasament rezidual;
c. deplasament independent;
d. deplasament liniar;
e. deplasament de omisiune;
SV3. În figura alăturată este ilustrată distribuția de eșantionare a valorilor estimate ale lui 𝛽.
Folosind un eșantion de date, se obține o valoare estimată a lui 𝛽 egală cu -0.5, deși valoarea
reală a lui 𝛽 este egală cu 1, cum se poate observa în figura alăturată. Aceasta înseamnă că:
O estimare a lui 𝛽
𝛽̂ = −0.5
−2 −1 −0.5 0 𝛽=1 2 3 4
O estimare particulară
a lui 𝛽
𝛽 adevărat 𝐸 𝛽̂
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖
Distribuția de eșantionare a lui 𝛽̂1 este distribuția (𝑎) din figura alăturată. Când din ecuație
se omite 𝑋2 și dacă 𝑋1 și 𝑋2 sunt corelate, cum se va schimba distribuția de eșantionare a lui
𝛽̂1 ?
𝛽2 𝛼̂1
𝛽1 𝛽1 + 𝛽2 𝛼̂1 𝛽̂
−3 −2 −1 0 𝛽=1 2 3 4 5
. estat ovtest