Sunteți pe pagina 1din 16

Specificarea

I. Alegerea variabilelor independente


Avantaje și dezavantaje ale alegerii variabilelor

puncte tari:
• economiștii pot alege variabilele independente;
• ecuațiile pot fi formulate pentru a se potrivi nevoilor fiecăruia;

puncte slabe:
• o alegere incorectă duce la apariția unor erori;
• alegerea poate fi folosită pentru a induce în eroare cititorii.
Principiul fundamental

• Considerația principală în a decide dacă o variabilă independentă


aparține sau nu unei ecuații de regresie este importanța teoretică.
• Dacă răspunsul este un DA fără ambiguitate, atunci variabila ar trebui
să fie inclusă în ecuație, chiar dacă pare să nu aibă o semnificație
statistică.
• Dacă teoria este ambiguă sau mai puțin empatică, apare o dilemă.
omiterea unei variabile relevante dintr-o ecuație este probabil să
prejudicieze valorile estimate ale coeficienților variabilelor din
ecuație;
includerea unei variabile irelevante duce la creșterea varianțelor
distribuțiilor de eșantionare ale coeficienților.
Variabile omise

• variabilă omisă = variabilă independentă importantă lăsată înafara ecuației


de regresie

• Cauze:
este uitată;
datele nu sunt disponibile;

• Omiterea unei variabile independente importante:


 nu permite determinarea valorii estimate a coeficientului său
determină un deplasament al coeficienților estimați ai celorlalte
variabile incluse în ecuație.
Consecințele omiterii unei variabile relevante

• De exemplu, se presupune că adevăratul model de regresie este:


𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖
unde 𝜀𝑖 este un termen de eroare clasic.
Dacă se omite 𝑋2 din ecuație, atunci ecuația devine:
𝑌𝑖 = 𝛽0∗ + 𝛽1∗ 𝑋1𝑖 + 𝜀𝑖∗

unde 𝜀𝑖∗ este egal cu:


𝜀𝑖∗ = 𝜀𝑖 + 𝛽2 𝑋2𝑖
Mărimea și semnul deplasamentului
• Pentru un model cu două variabile independente, valoarea așteptată a
coeficientului unei variabile incluse 𝑋1 , atunci când o variabilă relevantă
𝑋2 este omisă din ecuație este egală cu:
𝐸 𝛽1∗ ≠ 𝛽1
𝐸 𝛽1∗ = 𝛽1 + 𝛽2 𝛼1

unde 𝛼1 este un estimator al coeficientului pantă din ecuația secundară care


leagă pe 𝑋2 de 𝑋1 :
𝑋2𝑖 = 𝛼0 + 𝛼1 𝑋1𝑖
Deplasamentul = 𝛽2 𝛼1

• Dacă 𝑋1 și 𝑋2 sunt corelate pozitiv, 𝛼1 va fi pozitiv. Dacă 𝑋1 și 𝑋2 sunt corelate


negativ, 𝛼1 va fi negativ. Dacă 𝑋1 și 𝑋2 nu sunt corelate, 𝛼1 va fi zero.
Exemplu

Pentru exemplificarea deplasamentului introdus de o variabilă omisă, se reia


modelul restaurantelor Woody:

𝑌𝑖 = 102.192 − 9075 ∙ 𝑁𝑖 + 0.3547 ∙ 𝑃𝑖 + 1.288 ∙ 𝐼𝑖


(2053) (0.0727) (0.5432)
t= –4.42 4.88 2.37
n = 33 R2 = 0.579

unde Y = număr de clienți (volumul încasărilor), N = numărul de restaurante


din vecinătate, 𝑃 = numărul populației din zona restaurantului și I = venitul
mediu al gospodăriilor din apropierea restaurantului.
Exemplu - continuare
• Ce se întâmplă dacă din ecuație se elimină variabila reprezentând
populația, P? Rezultatele estimării ecuației fără variabila P sunt următoarele:

𝑌𝑖 = 84.439 − 1487𝑁𝑖 + 2.322𝐼𝑖


1778 0.664
𝑡= −0.84 + 3.50
𝑛 = 33 𝑅2 = 0.258

• Comparând ecuațiile, diferența cea mai vizibilă este faptul că 𝑅2 a


scăzut, de la 0 .579 la 0.258. Estimatorul coeficientului lui N s-a
schimbat, de la -9075 la -1487, iar rația sa t s-a schimbat, de la -4,42 la -
0,84. Coeficientul lui N acum este nesemnificativ diferit de zero!
Populația și concurența sunt destul de corelate. Cu cât sunt mai
multe persoane într-o zonă, cu atât este posibil să fie mai multe
restaurante.
Corectarea ecuației în cazul în care este omisă o variabilă
Corectarea este dificilă deoarece:
• Deplasamentul de omisiune este greu de detectat;
- unele indicii ale deplasamentului de specificare sunt evidente
(cum ar fi un coeficient estimat semnificativ, cu semnul opus celui
așteptat), dar altele nu sunt atât de clare.
- cei mai buni indicatori ai unei variabile relevante omise sunt
bazele teoretice ale modelului în sine. Întrebările care se pun sunt:
ce variabile trebuie să fie incluse în model?
 ce semne așteptate au?
 în ce intervale ar trebui să se situeze valorile estimate ale
coeficienților?
Cel mai bun mod de a evita omiterea unei variabile importante este
alocarea unui timp suficient de lung pentru a gândi cu atenție la
forma ecuației, înainte ca datele să fie introduse în calculator.
Corectarea ecuației în cazul în care este omisă o variabilă

• Alegerea variabilei ce trebuie adăugată într-o ecuație


- unii cercetători începători încep să adauge în ecuație, deodată, toate
variabilele relevante posibile. Această modalitate de acțiune duce la estimări
mai puțin precise. Alții încep să testeze o serie de variabile diferite și să le
mențină în ecuație pe cele care fac cea mai bună treabă statistică, părând că
reduc deplasamentul.
• eliminarea unei variabile din ecuație nu va ajuta la vindecarea
deplasamentului determinat de variabilele omise. Dacă semnul unui coeficient
estimat este diferit de cel așteptat, nu poate fi modificat în direcția așteptată
prin eliminarea unei variabile care are un scor t sub pragul critic;
Corectarea ecuației în cazul în care este omisă o variabilă

• Dacă un rezultat neașteptat conduce la concluzia că din ecuație a


fost omisă o variabilă, o modalitate de a decide ce variabilă trebuie
adăugată în ecuație este de a utiliza analiza deplasamentului.
dacă semnul preconizat al deplasamentului (folosind ecuația
deplasamentului) este același cu semnul neașteptat al rezultatului,
atunci variabila omisă ar putea fi sursa deplasamentului.
 dacă semnul preconizat al deplasamentului nu este același cu
semnul rezultatului neașteptat, atunci este puțin probabil ca
variabila respectivă să fi provocat rezultatul neașteptat.
Analiza deplasamentului preconizat ar trebui să fie utilizată
numai atunci când se face o alegere între variabile potențiale
teoretic solide.
Variabile nerelevante

• Cazul variabilelor irelevante, este opusul variabilelor omise și


poate fi analizat folosind modelul utilizat în cazul variabilelor omise.

• Adăugarea într-o ecuație de regresie a unei variabile care nu


aparține acesteia nu cauzează deplasamente, dar crește varianțele
estimatorilor coeficienților variabilelor incluse.
Variabile nerelevante

• Se presupune că specificația adevărată a unei ecuații de regresie


este:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝜀𝑖

Dacă un economist include în ecuație, din diferite motive, o nouă


variabilă explicativă, 𝑋2 , ecuația devine:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖∗∗

Termenul de eroare, 𝜀𝑖∗ , este egal cu:

𝜀𝑖∗∗ = 𝜀𝑖 − 𝛽2 𝑋2𝑖
Patru criterii de specificare
1. teoria: locul variabilei în ecuație este neambiguu și cu semnificație
teoretică?

2. testul t: coeficientul estimat al variabilei este semnificativ, în


direcția așteptată?

3. 𝑅2 : overall fit (gradul de potrivire) al ecuației, ajustat cu numărul


gradelor de libertate, se mărește atunci când variabila este adăugată
în ecuație?

4. deplasamentul: Se modifică semnificativ coeficienții estimați ai altor


variabile din model atunci când variabila este adăugată în ecuație?
Patru criterii de specificare
• Dacă toate aceste condiții sunt îndeplinite, variabila aparține ecuației.

• Dacă nicio condiție nu este îndeplinită, variabila este irelevantă și poate fi


exclusă din ecuație.

• Atunci când o variabilă relevantă omisă este inclusă în ecuație, va crește


𝑅 2 și cel puțin un coeficient estimat se va modifica semnificativ.

• Dacă, pe de altă parte, în ecuație este inclusă o variabilă irelevantă, aceasta


va reduce 𝑅 2 , va avea un scor t nesemnificativ și va avea un impact redus
asupra coeficienților celorlalte variabile.
Patru criterii de specificare
• În multe cazuri, cele patru criterii nu sunt îndeplinite toate deodată. Este
posibil, de exemplu, ca o variabilă să aibă un scor t nesemnificativ, dar care este
mai mare decât al altei variabile. Într-un astfel de caz, se poate arăta că 𝑅 2 va
crește atunci când variabila este adăugată în ecuație și totuși scorul t va fi
nesemnificativ.
• Ori de câte ori cele patru criterii de specificație nu sunt îndeplinite,
econometricianul trebuie să urmeze o judecată atentă și nu trebuie să se bazeze
pe un singur criteriu precum 𝑅 2 pentru a determina specificația.
• Toate aceste decizii sunt puțin mai ușoare atunci când se conștientizează
faptul că cel mai important determinant al relevanței unei variabile este
justificarea sa teoretică.
• Nicio cantitate de dovezi statistice nu ar trebui să transforme o variabilă
necesară din punct de vedere teoretic într-o variabilă „irelevantă”. Uneori
cercetători sunt obligat să lase înafara ecuației variabile teoretic importante din
lipsa de date. În astfel de cazuri, utilitatea ecuației este limitată.

S-ar putea să vă placă și