Sunteți pe pagina 1din 30

Econometria I

Tema 4: Problemas de Especicacin y los Datos

Universidad Carlos III

Getafe, Madrid

Octubre-November 2008

Julio Cceres Delpiano (UC3M) Econometria I 10/08 1 / 30


Outline

Mala especicacin de la forma funcional


Utilizacin de variables proxy para variables explicativas no observadas
Propiedades de MCO con errores de medida
Problemas con los datos

Julio Cceres Delpiano (UC3M) Econometria I 10/08 2 / 30


Problemas de Especicacin y los Datos

Discutiremos tres problemas que originan que alguna variable


explicativa xj sea endgena:
Error en la especicacin de la forma funcional
Utilizacin de variables proxy
Errores de medida.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 3 / 30


Mala especicacin de la forma funcional

Ocurre cuando un modelo de regresin no consigue representar


adecuadamente la relacin funcional entre la variable dependiente y
las explicativas:
Omisin de trminos cuadrticos.
Transformacin log mal empleada.
Omisin de interacciones con variables binarias
Hay contrastes para comprobar estos problemas, ya que en principio
tenemos datos sobre todas las variables relevantes. Un problema
diferente es el uso de aproximaciones de ciertas variables porque no
disponemos de datos sobre las variables de inters.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 4 / 30


RESET (Regression Specication Error Test)

Es un contraste general de mala especicacin de la forma funcional


Suponemos que

y = 0 + 1 x1 + . . . + k xk + u

satisface RLM.3, por lo que cualquier funcin no lineal de las variables


independientes tiene que ser signicativa si la aadimos a la ecuacin
(por ej. x12 x1 x2 ).
Sin embargo si k es grande, comprobar un nmero alto de casos
consumir muchos grados de libertad, y no todas las clases de errores
de especicacin pueden ser descubiertas con funciones simples
(como las cuadrticas).

Julio Cceres Delpiano (UC3M) Econometria I 10/08 5 / 30


RESET

El contraste RESET se basa en esta regresin:

y = 0 + 1 x1 + . . . + k xk + 1 y 2 + 2 y 3 + e

aunque en principio podramos aadir ms potencias de los valores


ajustados y de la especicacin original: y 4 , etc.
De esta ecuacin no interesan los valores ajustados, si no contrastar:

H0 : 1 = 2 = 0
Si se rechaza H0 mediante un contraste de la F (con distribucin
aproximada F2,n k 3 ) es evidencia de mala especicacin del modelo.
EX:HPRICE:log vs level

Julio Cceres Delpiano (UC3M) Econometria I 10/08 6 / 30


Problemas RESET

No proporciona informacin sobre cmo proceder si un modelo se


rechaza.
No sirve para contrastar si hay variables omitidas ni
heteroscedasticidad.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 7 / 30


Contrastes contra Alternativas no Anidadas

Si queremos contrastar si una variable explicativa debe aparecer en


niveles o en logaritmos,

y = 0 + 1 x1 + 2 x2 + u

en contra

y = 0 + 1 log (x1 ) + 2 log (x2 ) + u

no podemos usar un contraste de la F habitual, porque son modelos


no anidados.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 8 / 30


Especicacin: Contraste de Mizon and Richard

Construir un modelo ms general que anide a los dos:


y = 0 + 1 x1 + 2 x2 + 3 log (x1 ) + 4 log (x2 ) + e

y entonces contrastar

H0 : 3 = 4 = 0 para comprobar el primer modelo o tambin


H0 : 1 = 2 = 0 para comprobar el segundo modelo.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 9 / 30


Especicacin: Contraste de Davidson & MacKinnon
Si un modelo es verdadero, los valores ajustados del otro modelo no
deberan ser signicativos:

y = 0 + 1 x1 + 2 x2

yb = 0 + 1 log (x1 ) + 2 log (x2 ) + e

De esta forma se comprobara el primer modelo,

y = 0 + 1 x1 + 2 x2 + 1 yb + error

H0 : 1 = 0, mediante un contraste de la t (bilateral).


Equivalentemente se podra contrastar la misma hiptesis en

y = 0 + 1 log (x1 ) + 2 log (x2 ) + 1 y + error

Julio Cceres Delpiano (UC3M) Econometria I 10/08 10 / 30


Problemas de los contrastes no anidados

No tiene porque aparecer un modelo claramente superior: Se pueden


rechazar los dos modelos o ninguno (aunque se podran comparar con
el R 2 ajustado).
Rechazar un modelo no implica necesariamente que el otro modelo
sea el correcto.
La situacin se complica si las variables dependientes son diferentes, y
y log (y ) .

Julio Cceres Delpiano (UC3M) Econometria I 10/08 11 / 30


Utilizacin de variables proxy para variables explicativas no
observadas

Este modelo

ln(wage ) = 0 + 1 educ + 2 exper + 3 abil + u


reconoce que no podemos mantener habilidad constante cuando
medimos el retorno de educ and exper . Si educ est correlado con
abil, entonces dejar habilidad en el trmino de error har que el
estimador de 1 (y de 2 ) est sesgado.
El objetivo es obtener estimadores insesgados de 1 y 2 : en general
no podemos esperar poder obtenerlos de 0 ni tampoco de 3 porque
no observamos abil (adems no sabramos interpretarlo porque
habilidad es un concepto muy vago).
Una posible solucin para arreglar el problema de variables omitidas
es usar una variable proxy en su lugar.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 12 / 30


Variables proxy

Una variable proxy es algo que est relacionado con la variable que
nos gustara controlar pero que no observamos.

Ejemplo: cociente intelectual (IQ) como un proxy por habilidad. Esto


no requiere que IQ sea lo mismo que habilidad, lo que necesitamos es
que IQ est correlado con habilidad.
Modelo bsico:

y = 0 + 1 x1 + 2 x2 + 3 x3 + u
donde tenemos datos de y , x1 y x2 , pero

x3 no se observa,
aunque se dispone un proxy x3

Julio Cceres Delpiano (UC3M) Econometria I 10/08 13 / 30


Condiciones sobre la variable proxy x3

Lo mnimo es que tenga una relacin con la variable x3 :


x3 = 0 + 3 x3 + v3
v3 es un error debido al hecho de que x3 y x3 no estn exactamente
relacionados.
3 mide la relacin entre x3 y x3 , tpicamente 3 > 0. Si 3 = 0,
entonces x3 no puede ser un proxy para x3 .
0 permite que x3 y x3 estn medidas en diferentes escalas.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 14 / 30


Cmo usar variables proxy para obtener estimadores
insesgados de 1 y 2 ?

Solucin plug-in: la idea es pensar que x3 y x3 son iguales, y hacer la


regresin MCO.

y sobre x1, x2, x3,

reemplazando x3 por x3 en su lugar.


Esto parece sensato, pero hay que estudiar si consigue producir
estimadores consistentes de 1 y 2 .

Julio Cceres Delpiano (UC3M) Econometria I 10/08 15 / 30


Supuestos para obtener estimadores MCO consistentes con
variables proxy

Supuestos sobre el trmino de error u

El trmino de error u est incorrelado con x1, x2 y x3 , lo que es el


supuesto habitual en el modelo original:

y = 0 + 1 x1 + 2 x2 + 3 x3 + u

El trmino de error u est incorrelado con x3 .


Es decir, x3 no es necesario en el modelo poblacional una vez que ya
incorporamos x1, x2 y x3 , puesto que slo x3 afecta directamente a y .

Julio Cceres Delpiano (UC3M) Econometria I 10/08 16 / 30


Assumptions in order to get consistent OLS estimators
with proxy variables

Assumptions about the error term v3

Hablamos de esto en Clases.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 17 / 30


Propiedades de MCO con errores de medida

No siempre es posible recoger datos sobre la variable que afecta


realmente el comportamiento econmico.
Cuando se usa una medida imprecisa de una variable econmica en un
modelo de regresin, entonces el modelo contiene errores de medida.
En este caso los EMCO pueden dejar de ser consistentes y es posible
calcular su sesgo.
Las consecuencias son semejantes a los de la utilizacin de proxies,
pero son problemas conceptualmente diferentes.
En el caso de las variables proxies buscamos una variable que est
asociada con la variable inobservada. Normalmente no nos interesa su
efecto parcial, sino el de otras variables.
En el caso de errores de medida, la variable que no observamos tiene
un signicado cuantitativo bien denido, pero nuestras medidas
pueden contener errores. Adems generalmente estamos interesados
en el efecto marginal de esta variable.
Julio Cceres Delpiano (UC3M) Econometria I 10/08 18 / 30
Errores de Medida en la Variable Dependiente

Tenemos problemas para medir la variable dependiente y en la


poblacin

y = 0 + 1 x1 + . . . + k xk + u

que satisface todas las condiciones de G-M.

y es la medida observable de y por lo que es esperable que y e y


dieran, al menos para una parte de la poblacin.
El error de medida en la poblacin se dene como

e0 = y y .

Julio Cceres Delpiano (UC3M) Econometria I 10/08 19 / 30


Errores de Medida en la Variable Dependiente

La clave es como e0 se relaciona con otros factores:

y = 0 + 1 x1 + . . . + k xk + u + e0

donde u + e0 es el nuevo trmino de error y se pueden calcular los


EMCO.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 20 / 30


Cuando los EMCO con y en lugar de y son consistentes?

y = 0 + 1 x1 + . . . + k xk + u + e0

u tiene media cero y est incorrelado con cada xj .


Si e0 no tuviese media cero, eso slo afectara a la estimacin de 0 ,
lo que no suele ser un problema.
La clave es la relacin de e0 con las xj .

Si e0 est incorrelada con todas las xj los EMCO son insesgados,


consistentes y todos los procedimientos habituales son vlidos.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 21 / 30


Cuando los EMCO con y en lugar de y son consistentes?

Si e0 y u estn incorrelados, entonces

Var (u + e0 ) = Var (u ) + Var (e0 )

error de medida ) menor eciencia de los EMCO.


Por tanto, si el error de medicin es simplemente error aleatorio
independiente de las variables aleatorias, los EMCO son
perfectamente apropiados.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 22 / 30


Errores de Medida en las Variables Independientes

Este problema es generalmente ms relevante:

y = 0 + 1 x1 + u

que satisface al menos las primeras 4 condiciones de G-M.


Sin embargo x1 no se observa, pero s una medida x1 .
Error de medida en la poblacin:

e1 = x1 x1
Suponemos que E [e1 ] = 0, aunque no afecta los resultados.
Tambin suponemos que u est incorrelado con x1 y con x2 :
E [y jx1 , x1 ] = E [y jx1 ].

Julio Cceres Delpiano (UC3M) Econometria I 10/08 23 / 30


Propiedades del EMCO con Errores de Medida en las
Variables Independientes

Depende de qu supuestos hagamos sobre

e1 = x1 x1 .

e1 est incorrelado con la medida observada x1 :

Cov [x1 , e1 ] = 0.

En este caso x1 tiene que estar correlado con e1 .

y = 0 + 1 x1 + (u 1 e1 )

Julio Cceres Delpiano (UC3M) Econometria I 10/08 24 / 30


Propiedades del EMCO con Errores de Medida en las
Variables Independientes

Depende de qu supuestos hagamos sobre

donde el error est incorrelado con x1 : EMCO es consistente, aunque

Var [u 1 e1 ] = 2u + 21 2e1

implica que es menos eciente.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 25 / 30


Propiedades del EMCO con Errores de Medida en las
Variables Independientes

El supuesto habitual es el Clsico Error en Variables, CEV,

Cov [x1 , e1 ] = 0,

donde el error de medida est incorrelado con la variable explicativa


inobservada.
El supuesto viene de escribir

x1 = x1 + e1

y suponer que los dos componentes de x1 estn incorrelados.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 26 / 30


Propiedades del EMCO con Errores de Medida en las
Variables Independientes

Entonces x1 y e1 deben estar correlados:

Cov [x1 , e1 ] = E [x1 e1 ] = E [x1 e1 ] + E [e12 ] = 0 + 2e1


Esto va a causar problemas porque
Cov [x1 , u 1 e1 ] = 1 Cov [x1 , e1 ] = 1 2e1 ,

por lo que los EMCO estn sesgados y son inconsistentes

Julio Cceres Delpiano (UC3M) Econometria I 10/08 27 / 30


Propiedades del EMCO con Errores de Medida en las
Variables Independientes (2)

Cov [x1 ,u 1 e1 ]
plim ( 1 ) = 1 + Var [x1 ]

1 2e1 2e1
plim ( 1 ) = 1 + 2x +2e1
= 1 (1 2x +2e1
)
1 1

2
x1
plim ( 1 ) = 1 ( 2 +2e1
)
x1

Julio Cceres Delpiano (UC3M) Econometria I 10/08 28 / 30


Problemas con los datos: Datos Faltantes

A veces se colecciona una muestra aleatoria de personas, colegios,


ciudades, y se descubre ms tarde que hay informacin perdida sobre
algunas variables clave para algunas unidades de la muestra.
Si falta un dato para una observacin de la variable dependiente o
una de las independientes, entonces ese dato no se puede emplear
para hacer una regresin mltiple y n # .
Hay otras consecuencias sobre el anlisis estadstico de los datos?
Depende slo de porqu faltan los datos. Si los datos se perdieron
aleatoriamente, entonces solamente n se reduce: baja la precisin de
la estimacin, pero no hay sesgos, por que RLM. 2 sigue siendo vlida.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 29 / 30


Muestras no Aleatorias

Los datos faltantes son ms problemticos cuando producen una


muestra no aleatoria de la poblacin.
Ejemplo: puede ocurrir que la probabilidad de que el dato de
educacin falte para aquellas personas que tienen menor nivel de
educacin.
Ejemplo: puede que sea ms fcil conseguir el dato de IQ para
aquellos que tienen niveles ms altos de IQ.
En estos casos la muestra no es representativa de la poblacin: el
supuesto RLM.2 no es vlido.

Julio Cceres Delpiano (UC3M) Econometria I 10/08 30 / 30

S-ar putea să vă placă și