Documente Academic
Documente Profesional
Documente Cultură
Autores:1 Jose Miguel Benavente Andrs Otero Javiera Vsquez Agosto 2007
1 Cualquier
ndice general
1. Introduccin 2. Modelo de Regresin Lineal
2.1. Anlisis de Regresin . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1. Qu es una regresin? . . . . . . . . . . . . . . . . . . . . 2.1.2. Relaciones estadsticas versus relaciones determinsticas . . 2.1.3. Regresin versus Causalidad . . . . . . . . . . . . . . . . . 2.1.4. Regresin versus Correlacin . . . . . . . . . . . . . . . . . 2.2. Anlisis de regresin con dos variables . . . . . . . . . . . . . . . 2.2.1. Funcin de regresin poblacional (FRP) . . . . . . . . . . 2.2.2. Especicacin estocstica de la funcin de regresin poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3. Funcin de regresin muestral . . . . . . . . . . . . . . . . 2.2.4. Propiedades de un Estimador . . . . . . . . . . . . . . . . 2.3. Modelo de regresin con dos variables . . . . . . . . . . . . . . . . 2.3.1. Mtodo de Mnimos Cuadrados Ordinarios . . . . . . . . . 2.3.2. Supuestos detrs del mtodo MCO . . . . . . . . . . . . . 2.3.3. Errores estndar de los Estimadores Mnimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
5 8
8 8 9 10 10 14 16 16 18 21 24 24 31 35
2.3.4. Estimador Mnimo Cuadrado Ordinario de 2 . . . . . . . 2.4. Modelo de Regresin con k variables . . . . . . . . . . . . . . . . 2.4.1. Representacin Matricial del Modelo de Regresin Lineal . 2.4.2. Estimador Mnimo Cuadrados Ordinarios . . . . . . . . . . 2.5. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . . 2.5.1. Propiedad de mejor estimador lineal insesgado . . . . . . . 2.5.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . 2.6. Geometra del Estimador MCO . . . . . . . . . . . . . . . . . . . 2.7. Bondad de Ajuste y Anlisis de Varianza . . . . . . . . . . . . . . 2.7.1. Modelo de Regresin Lineal en Desvos . . . . . . . . . . . 2.7.2. Anlisis de Varianza . . . . . . . . . . . . . . . . . . . . .
36 38 38 39 41 42 42 44 45 45 47 48 50 53 61 61 63 65 67 74 75 76 80 80
2.11.2. Test de Wald (W) . . . . . . . . . . . . . . . . . . . . . . . 2.11.3. Test del Multiplicador de Lagrange (LM) . . . . . . . . . . 2.12. Algunas acotaciones respecto a la estimacin y la inferencia MV .
81 81 85
87
87 89 90 92 97
3.4. Variable Dependiente Rezagada . . . . . . . . . . . . . . . . . . . 101 3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente rezagada como regresor . . . . . . . . . . . . . . . . . . . . 103 3.5. Seleccin de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.5.1. Ejemplo: Retornos a la educacin, diferencias entre hombres y mujeres . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.6. Regresin Particionada . . . . . . . . . . . . . . . . . . . . . . . . 109 3.7. Omisin de Variables Relevantes . . . . . . . . . . . . . . . . . . . 110 3.7.1. Impacto sobre el Insesgamiento . . . . . . . . . . . . . . . 110 3.7.2. Impacto sobre la Varianza . . . . . . . . . . . . . . . . . . 111 3.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 3.8. Inclusin de Variable Irrelevantes . . . . . . . . . . . . . . . . . . 114 3.8.1. Impacto sobre Insesgamiento . . . . . . . . . . . . . . . . . 114 3.8.2. Impacto sobre Varianza . . . . . . . . . . . . . . . . . . . 114
3.9. Perturbaciones no Esfricas . . . . . . . . . . . . . . . . . . . . . 117 3.9.1. Consecuencias de estimacin por MCO . . . . . . . . . . . 118 3.9.2. Estimacin Eciente: Mnimos Cuadrados Generalizados . 118 3.9.3. Test de Hiptesis . . . . . . . . . . . . . . . . . . . . . . . 119 3.9.4. Estimacin cuando es desconocida: Mnimos Cuadrados Factibles . . . . . . . . . . . . . . . . 120 3.9.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . 121 3.9.6. Autocorrelacin . . . . . . . . . . . . . . . . . . . . . . . . 130
149
4.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 4.1.1. Multicolinealidad Exacta y Multicolinealidad Aproximada 4.1.2. Deteccin de Multicolinealidad 151
. . . . . . . . . . . . . . . 151
4.1.3. Otros mtodos de deteccin de multicolinealidad . . . . . . 153 4.1.4. Remedios contra la Multicolinealidad . . . . . . . . . . . . 155 4.2. Error de Medicin . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.2.1. Estimacin por Variables Instrumentales . . . . . . . . . . 159 4.2.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . 160
Captulo 1 Introduccin
Econometra es la ciencia que aplica mtodos matemticos y estadsticos al anlisis de datos econmicos, con el objetivo de dotar de una base emprica a una teora econmica, para as refutarla o vericarla. Aunque la econometra parece ser tan antigua como la misma ciencia econmica, slo en 1930 se crea la Sociedad Economtrica, la cual sistematiz su estudio y prctica. En 1933 se lanza el primer nmero de Econometrica en el que Ragnan Frish (uno de los fundadores de la Sociedad Economtrica, a quin de hecho, se le acredita el haber acuado el trmino .Econometra") destaca: "La experiencia ha mostrado que cada uno de estos tres puntos de vista, el de la estadstica, la teora econmica y las matemticas, es necesario, pero por si mismo no suciente para una comprensin real de las relaciones cuantitativas de la vida econmica modera. Es la unin de los tres aspectos lo que constituye una herramienta de anlisis potente. Es la unin lo que constituye la econometra". Sin embargo, las metodologas aplicadas en econometra (los tres puntos de vista de Frish), no han sido utilizados exclusivamente por la ciencia econmica. Otras ciencias naturales tambin han aprovechado sus ventajas. Sin embargo, en el campo del comportamiento econmico adquieren especial particularidad y relevancia, en tanto el ambiente y el comportamiento econmicos, son esencialmente no-experimentales, colocndonos en situaciones donde todas las variables relevantes parecen moverse constantemente y donde existen factores impredecibles que pueden alterar los resultados. Es por esto que la econometra es esencialmente una ciencia no determinstica, donde se reconoce la existencia de factores esencialmente impredecibles que determinan nuestras conclusiones.
Capitulo 1: Introduccin
La metodologa economtrica se puede detallar (a grandes rasgos) segn lo enuncia la Figura 1. En primer lugar contamos con una teora econmica que busca validez. Para ella, es necesario encontrar su equivalente modelo economtrico (relaciones matemticas que describan el comportamiento de los agentes involucrados). Para estimar entonces dicho modelo, se necesita de la ecuacin resultante del modelo, los datos que ella implica y los supuestos bajo los cuales se construye. Slo una vez que contamos con dichos ingredientes se procede a estimar cuantitativamente las predicciones o implicancias expuestas por la teora econmica inicial. Luego, se debe realizar inferencia o pruebas de hiptesis, las cuales nos indicarn si nuestros resultados son estadsticamente signicativos. Si la respuesta es si, entonces slo queda realizar las predicciones pertinentes y las recomendaciones de poltica asociadas. Si la respuestas es no, entonces, debemos revisar los posibles errores que existan a nivel de teora o metodologa.
TEORIA ECONOMICA
MODELO ECONOMETRICO
ECUACION
DATOS
SUPUESTOS
ESTIMACION
SI
NO
TEORIA VERIFICADA
Capitulo 1: Introduccin
Esta breve descripcin no es ms que una somera vista a lo que realmente implica hacer econometra. El camino no est exento de dicultades (en trminos de la calidad de los datos, de la dicultad de medir las variables que la teora indica, de los supuestos que realizamos, etc), sin embargo, esto, ms que una dicultad, implica un desafo.
Notas de los controles Figura 1: Distribucin de las Notas del Examen vs. Promedio Notas de Controles
Podemos observar dos cosas: primero, para cada nota posible en los controles (3.0, 4.0,..) tenemos un rango o distribucin de notas en el examen y segundo, el promedio de notas en el examen es mayor mientras mayores son notas de los controles. Esto ltimo se puede apreciar al trazar una recta que una los valores promedios de notas en examen para cada nota en los controles (linea negra del la Figura 1), la que corresponde a la recta de regresin. Esta nos permite, para cada nivel de edad, predecir la estatura promedio correspondiente.
yx =
xy 2 2 x y
yx =
con X =
1 n n i=1
n i=1 n i=1 1 n
xi X
2
yi Y
n i=1
xi X yi .
yi Y
xi e Y =
n i=1
De ahora en adelante denotaremos con un a los estimadores de un estadstico obtenidos a partir de informacin muestral. 10
11
12
Algunas precauciones con el coeciente de correlacin: Cuidado cuando el grado de correlacin muestral depende de solo unas pocas observaciones. El coeciente de correlacin mide una relacin lineal. Por lo tanto, una variable puede depender de otra an cuando la correlacin sea cero si la relacin es no lineal. Correlacin no implica causalidad econmica, es slo una relacin estadstica. Correlacin puede indicar relacin espuria. No olvidar que la correlacin muestral es una variable aleatoria y que por lo tanto, el coeciente por si slo no garantiza la existencia de una relacin estadstica entre las series.
13
E(Y|X)
18260 36520 54780 82170 109560 170000 273900 365200 730400 204532
15000 40000 58000 90000 120000 182600 280000 380000 913000 230956
10
15000 40000 60000 90000 120000 188973 328680 434120 821700 233164
11
20000 50000 73040 100000 140000 219120 365200 500000 1064558 281324
12
20000 54780 80000 100500 160000 257880 400000 550000 1460800 342662
13
21912 60000 89000 120000 200000 300000 500000 650000 1500000 382324
14
35000 73040 100000 140000 230000 400000 600000 883085 1826000 476347
15
40000 90000 105000 180000 280000 434686 730400 1000000 2487041 594125
16
60000 120000 165784 250000 365200 600000 1095600 1643400 4000000 922220
17
La poblacin tiene 10 niveles distintos de educacin, que van desde 8 a 17. Para cada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de la variabilidad en los salarios para cada nivel educacional considerado, en promedio el salario se incrementa a medida que los aos de educacin aumentan. Esto ltimo se puede vericar al calcular el promedio para cada nivel de educacin, lo que se presenta en la ltima linea de la Tabla 1, estos corresponden a los valores esperados condicionales, ya que dependen de los valores dados de la variable X. En la Figura 2, los valores medios condicionales estn marcados con una cruz. La unin de estos valores representa la Recta de regresin poblacional, donde el trmino poblacional se reere a que estamos trabajando con el total de la poblacin.
4000000 salario 2000000 3000000
1000000
x
8
x
10
12
Escolaridad
14
16
18
poblacin de 60 individuos puede parecer un poco pequea, pero por el momento consideremos que estas familias son el total existente
2 Una
14
Denicin: La curva de regresin poblacional es simplemente el lugar geomtrico de las medias condicionales de la variable dependiente para los valores jos de la(s) variable(s) explicativa(s).
En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de forma simtrica en torno al valor promedio para cada valor X, desde ahora asumiremos que esto si se cumple, tal como lo podemos apreciar en la Figura 3.
En este ejemplo, se ve la relacin entre ingreso semanal y gasto en consumo semanal, para cada nivel de ingreso se tiene un rango de gasto que se distribuye en forma simtrica entorno al valor promedio condicional de gasto.
15
(2.1)
donde f() es una funcin cualquiera, en el ejemplo anterior era una funcin lineal. La ecuacin (2.1) se denomina Regresin Poblacional. Que forma tiene f() es una pregunta emprica, aunque muchas veces la teora nos puede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salario esta relacionado linealmente con la educacin, as podemos suponer que la funcin de regresin poblacional E(Y|Xi ) es una funcin lineal de Xi , es decir:
E(Y |Xi ) = 1 + 2 Xi
(2.2)
ui = Yi E(Y |Xi )
o
Yi = E(Y |Xi ) + ui
(2.3)
donde ui es una variable aleatoria no observable que toma valores positivos o negativos. Este trmino surge pues no se puede esperar que todas las observaciones 16
ui Componente Aleatorio
Si E(Y|Xi ) es lineal en Xi , podemos escribir la ecuacin (2.3) de la siguiente forma:
Yi = E(Y |Xi ) + ui = 1 + 2 Xi + ui
Tomando el valor esperado condicional en Xi a la ecuacin (2.4):
(2.4)
E(Yi |Xi ) = E[E(Y |Xi )|Xi ] + E(ui |Xi ) = E(Y |Xi ) + E(ui |Xi )
Debido a que E(Yi |Xi ) = E(Y |Xi ), implica que:
(2.5)
E(ui |Xi ) = 0
(2.6)
As, el supuesto de que la recta de regresin pasa a travs de las medias condicionales de Y, implica que la media condicional de ui es cero.
17
Supongamos que nosotros no conocemos estos datos, es decir, no tenemos acceso a las observaciones correspondientes a la poblacin total. Tenemos a nuestra disposicin slo una muestra (Tabla 3), la que ha sido obtenida de forma aleatoria de la poblacin. Es importante notar que a partir de una poblacin podemos sacar una gran cantidad de muestras en forma aleatoria y en la realidad nosotros observamos solo una de ellas. Debido a esta variabilidad en las muestras podremos estimar la FRP pero no de manera precisa. Para ejemplicar esto supongamos que adems de la muestra en la Tabla 3 se saco otra muestra (Tabla 4) a partir de la informacin poblacional.
Tabla 3. Muestra aleatoria de la poblacin en tabla 2. Y X 70 80 65 100 90 120 95 140 110 160 115 180 120 200 140 220 155 240 150 260 Tabla 4. Muestra aleatoria de la poblacin en tabla 2. Y X 55 80 88 100 90 120 80 140 118 160 120 180 145 200 135 220 145 240 175 260
18
Al gracar los datos de las Tablas 3 y 4 obtenemos los diagramas de dispersion en la Figura 4. En este diagrama se han trazado dos rectas de regresin muestral: FRM1 corresponde a la primera muestra y FRM2 corresponde a la segunda. Como vemos, no es posible asegurar cual de las dos rectas muestrales representa mejor la recta de regresin poblacional. Entonces es importante tener en mente que las rectas de regresin muestral representan la recta de regresin poblacional, pero debido a uctuaciones muestrales pueden ser consideradas slo como una aproximacin. Como contraparte muestral la funcin de regresin muestral puede escribirse como:
Yi = 1 + 2 Xi
(2.7)
Denicin: Un estimador es una regla, frmula o mtodo que dice cmo determinar el parmetro poblacional a partir de la informacin suministrada por la muestra disponible.
De igual manera que para el caso poblacional la funcin de regresin muestral 19
Yi = 1 + 2 Xi + ui
(2.8)
Yi = 1 + 2 Xi + ui
con base en la Funcin de regresin muestral:
(2.9)
Yi = 1 + 2 Xi + ui
Esta aproximacin se puede ver en la Figura 5:
(2.10)
Y i = Y i + ui
(2.11)
Yi = E(Y |Xi ) + ui
20
(2.12)
En la gura 5 podemos notar que para todo Xi a la derecha del punto A, Yi sobreestima E(Y |Xi ). De igual manera, para cualquier punto a la izquierda de A, Yi subestima E(Y |Xi ). Esta sobreestimacin y subestimacin del modelo poblacional es inevitable debido a las uctuaciones muestrales. Cmo se puede construir la funcin de regresin muestral para 1 2 que este lo ms cerca de los valores verdaderos (poblacionales) de y 1 y 2 ?
ECM () = E[( )2 ]
Lo que se puede expresar equivalentemente de la siguiente manera:
ECM () = V ar() + [Sesgo()]2 4. La ltima propiedad de un estimador es la consistencia. El estimador es consistente si converge (en el limite) al verdadero valor del parmetro. Se dice que la sucesin de variables aleatorias X1 , X2 ,...,Xn converge en probabilidad a la variable aleatoria (o constante) X si: > 0,
n
l P r[|Xn X| < ] = 1 m
plim
X Y
= plimX plimY
Ejemplo: Tenemos una variable yi que esta compuesta por la suma de un componente jo o determinstico (c) y un componente aleatorio(ui ):
yi =
2 Si ui N (0, u ), entonces:
c
componente f ijo
ui
componente aleatorio
1 1 = Y = (y1 + y2 + ... + yn ) = n n
Veamos que propiedades tiene este estimador:
yi
i=1
Insesgamiento: E() =
E() = E Y 1 = E (y1 + y2 + ... + yn ) n 1 = (E(y1 ) + E(y2 ) + ... + E(yn )) n
dado que E(yi ) = E(c) + E(ui ) = c,
0
E() = c =
Comparemos el estimador promedio muestral con un estimador que es simplemente cualquier valor de yi:
=Y 1 = y i
E(Y ) = c E(yi ) = c
V ar(Y )= u n 2 V ar(yi ) = u
Entonces para n>1 siempre se cumple que es ms eciente (menor vari anza) que 1 . igual que 1 , el error cuadrtico medio de ambos estimadores es igual a la varianza del estimador, de esta forma tiene menor error cuadrtico medio que 1 .
23
ui = Y i Y i = Yi 1 2 Xi
(2.13)
es decir, los residuos son simplemente la diferencia entre los valores verdaderos y estimados de Y. Si queremos que la funcin de regresin muestral sea lo ms cercana posible a la poblacional, debemos tratar de escoger los coecientes de regresin (los 's) de forma tal que los errores sean lo ms pequeos posible. De acuerdo a esto un criterio para escoger la funcin de regresin muestral podra ser minimizar la suma de los los errores: ui = (Yi Yi ), sin embargo este criterio no es muy bueno. Observemos la Figura 6, existe una gran diferencia en la magnitud de los errores, sin embargo en la suma de los errores todos reciben el mismo peso. Debido a esto es posible que la suma de los errores sea muy pequea cercana a cero, incluso cuando la dispersion de los errores en torno a la funcin de regresin muestral es alta.
24
Este problema puede ser solucionado al considerar la suma de los errores al cuadrado como criterio a minimizar, en este caso los errores ms lejos reciben un mayor peso:
u2 = i =
(Yi Yi )2 (Yi 1 2 Xi )2
(2.14)
El Mtodo de Mnimos Cuadrados Ordinarios (MCO) escoge 1 y 2 de forma tal que para una muestra dada, u2 sea lo ms pequeo posible. i
Entonces el problema que este mtodo propone resolver es el siguiente:
1 ,2
m n
(Yi 1 2 Xi )2
(2.15)
= 2 1 u2 i = 2 2
u2 i
ui = 0 ui Xi = 0
(2.16) (2.17)
Yi = n 1 + 2 Yi Xi = 1
Xi Xi2
(2.18) (2.19)
Xi + 2
Debemos resolver un sistema con dos ecuaciones y dos incgnitas. De la ecuacin (2.18) podemos despejar 1 :
1 =
reemplazando (2.20) en (2.19):
Yi 2 n
Xi
(2.20)
Yi X i =
Yi 2 n
Xi
Xi + 2
Xi2
(2.21)
n Yi Xi Xi Yi 2 = n Xi2 ( Xi )2
25
(2.22)
2 =
xi y i x2 i
1 n n i=1
(2.23)
Xi e Y =
1 n
n i=1
Yi
1 =
Xi2 Yi Xi Xi Yi n Xi2 ( Xi )2 = Y 2 X
(2.24) (2.25)
Los resultados (2.23) y (2.25) podran haber sido obtenidos de igual forma, expresando inicialmente el modelo de regresin en desviaciones con respecto a la media. El modelo de regresin original es:
Yi = 1 + 2 Xi + ui
si le restamos el promedio de esta:
Y = 1 + 2 X + ui
(2.26)
y recordando que el valor esperado del trmino de error es 0, tenemos el siguiente modelo de regresin lineal expresado en desviaciones con respecto a la media:
(Yi Y ) = 2 (Xi X) + ui y i = 2 x i + ui
As el problema de Mnimos Cuadrados Ordinarios es:
m n
2
(yi 2 xi )2
u2 i 2
= 2
(yi 2 xi )xi = 0
As obtenemos el mismo estimador de 2 , encontrado en (2.23), y 1 se obtiene simplemente despejando la ecuacin (2.26):
1 = Y 2 X
26
que corresponde a lo mismo en la ecuacin (2.25). Una vez estimados los coecientes de regresin mediante MCO y utilizando la informacin muestral, la recta de regresin muestral (Yi = 1 + 2 Xi ) puede ser obtenida fcilmente.
Ejemplo 1: Disponemos datos de una empresa qumica sobre el gasto que ella realiza en Investigacin y Desarrollo (I+D) y las ganancias anuales de esta compaa: Ao 1990 1991 1992 1993 1994 1995 Gasto en I+D (Millones de dlares) 2 3 5 4 11 5 Ganancia Anual (Millones de dlares) 20 25 34 30 40 31
Ahora debemos debemos determinar de que forma como cambia el promedio condicional de la variable dependiente (Ganancias) cuando cambia el valor jo de la variable explicativa (Gasto en I+D).
La forma muestral de la recta de regresin: E(Yi |Xi ) = 1 + 2 Xi requiere determinar el valor estimado de estos parmetros, para lo cual utilizaremos el mtodo
27
n Yi Xi Xi Yi 2 = n Xi2 ( Xi )2
2 =
Utilicemos los datos para obtener los clculos necesarios para computar el estimador de 2 : Ao (n=6) 1990 1991 1992 1993 1994 1995 Suma Gasto en I+D (X ) (Millones de dlares) 2 3 5 4 11 5 X =30 Ganancia Anual (Y ) (Millones de dlares) 20 25 34 30 40 31 Y =180
X2 4 9 25 16 121 25 X 2 =200
X = nX X = 30 6 X=5 Y = nY Y = 180 6 Y = 30
De esta forma,
Y = 20 + 2 X
28
Con esta ecuacin en mano, el gerente de I+D de esta compaa puede predecir el promedio en ganancias futuras anuales a partir de la cantidad presupuestada de gasto en Investigacin y Desarrollo. Por ejemplo, si la compaa presupuesta gastar 8 millones de dlares en I+D el prximo ao, entonces debe ganar aproximadamente 36 millones de dlares durante este ao.
Ejemplo 2: Tenemos los siguientes datos de portales de internet, con los cuales queremos ver el impacto promedio del nmero de visitas en el valor de la empresa:
AOL Yahoo Lycos Cnet Juno Web NBC Internet Earthlink El sitio Promedio Suma 1 2 vempresa 134844 55526 5533 4067 611 4450 2195 1225 26056.4 2381.1 -20076.8 visitas 50 38 28 8 8 16 5 2 19.4 y-ybar 108787.6 29469.6 -20523.4 -21989.4 -25445.4 -21606.4 -23861.4 -24831.4 x-xbar 30.6 18.6 8.6 -11.4 -11.4 -3.4 -14.4 -17.4 (y-ybar)*(x-xbar) 3331621.0 548871.8 -177014.1 250129.1 289441.1 72921.5 343007.3 431445.1 5090422.9 (x-xbar)^2 937.9 346.9 74.4 129.4 129.4 11.4 206.6 301.9 2137.9 ygorro 98976.5 70403.7 46593.1 -1028.3 -1028.3 18020.3 -8171.5 -15314.7 26056.4 ugorro 35867.5 -14877.7 -41060.1 5095.3 1639.3 -13570.3 10366.5 16539.7 0
29
30
Yi = 1 + 2 Xi + ui
Supuesto 2: Los valores de X son jos, X se supone no estocstica. Esto implica que el anlisis de regresin es un anlisis de regresin condicional,
condicionado a los valores dados del regresor X.
E(ui |Xi ) = 0
Lo que nos dice este supuesto es que los factores que no estn considerados en el modelo y que estn representados a travs de ui , no afectan sistemticamente el valor de la media de Y. Es decir, los valores positivos de ui se cancelan con los valores negativos de ui . De esta forma, el efecto promedio de ui sobre Y es cero. Ver Figura 7.
31
Figura 8: Homocedasticidad
32
Por el contrario, el la Figura 9 observamos el caso cuando la varianza del trmino de error varia para cada Xi , en este caso particular la varianza del error aumenta en la medida que Xi crece.
Figura 9: Heterocedasticidad
Esto se conoce como Heterocedasticidad o varianza desigual, lo que se expresa de la siguiente manera:
2 var(ui |Xi ) = i
(2.27)
cov(ui , uj |Xi , Xj ) = E{[ui E(ui )]|Xi }{[uj E(uj )]|Xj } = E(ui |Xi )(uj |Xj ) = 0
Si en la Funcin de regresin poblacional Yi = 1 + 2 Xi + ui , ui esta correlacionado con uj , entonces Yi no depende solamente de Xi sino tambin de uj . Al imponer le supuesto 5 estamos diciendo que solo se considerar el efecto sistemtico de Xi sobre Yi sin preocuparse de otros factores que pueden estar afectando a Y, como la correlacin entre los u's.
Como mencionamos en la seccin 2.2.2 se supone que X y u tienen una inuencia separada sobre Y (determinstica y estocstica, respectivamente), ahora si X y u estn correlacionadas, no es posible determinar los efectos individuales sobre Y. Este supuesto se cumple automticamente si X es no estocstica y el supuesto 3 se cumple.
Supuesto 7: El nmero de observaciones n debe ser mayor que el nmero de parmetros por estimar. El nmero de observaciones tiene que ser
mayor que el nmero de variables explicativas, de otra forma no se puede resolver el sistema de ecuaciones. Supongamos que tenemos una sola observacin para nuestra variable dependiente y nuestra variable explicativa (Y1 y X1 ), el modelo de regresin es tal que tiene intercepto, es decir:
Y1 = 1 + 2 X1 + u1
el estimador MCO de 2 es :
2 =
xi yi x2 i
donde xi = Xi X e yi = Yi Y , sin embargo con una observacin X1 = X e Y1 = Y , as 2 no esta determinado y as tampoco podemos determinar 1 .
una muestra deben ser iguales, var(X) debe ser un nmero nito positivo. Si las X son las mismas Xi = X , de esta forma ni 2 ni 1 pueden ser estimados.
34
2 =
xi y i x2 i
donde yi = 2 xi +ui (modelo poblacional en desviaciones con respecto a la media). De esta forma reemplazando yi en el estimador de 2 :
2 =
xi (2 xi + ui ) x2 i x2 ui x i i = 2 + 2 xi x2 i ui x i = 2 + x2 i
E(2 ) = 2 + E
supuesto 2
(2.28)
La ecuacin (2.28) nos dice que en valor esperado el estimador MCO de 2 es igual a su verdadero valor. Esta propiedad del estimador MCO se conoce como insesgamiento.
35
Ahora procedamos a calcular la varianza de el estimador MCO de 2 : var(2 ) = E[2 E(2 )]2 = E(2 2 )2
= E
xi ui ]2 [ x2 ]2 i 2 x2 i
var(2 ) =
(2.29)
n pareciera ser un estimador razonable. Pero los errores de MCO, estn estimados imperfectamente si los comparamos con los errores poblacionales, ya que dependen de una estimacin de 1 y 2 . Veamos esto con ms detalle:
Partiendo del Regresin poblacional expresado en desviaciones con respecto a la media:
n i=1
u2 i
yi = 2 xi + (ui u)
y recordando tambin que:
(2.30) (2.31)
ui = yi 2 xi
Al sustituir (2.30) en (2.31), se obtiene:
ui = 2 xi + (ui u) 2 xi
Elevando al cuadrado la expresin anterior, aplicando sumatoria y tomando valor esperado:
u2 i
= E(2 2 )2
x2 + E i
(ui u)2 2 E (2 2 )
(i) (ii)
xi (ui u)
= var(2 )
x2 + (n 1)var(ui ) 2E i
x i ui x2 i
xi (ui u)
= 2 + (n 1) 2 2 2 = (n 2) 2
36
(i) E
(ui u)2
= E = E = E = E = E = E = n 2
n 2 n = (n 1) 2
(ii) E (2 2 )
xi (ui u)
= E (2 2 ) = E
xi (ui u)
x i ui xi (ui u) x2 i ( xi ui )2 x i ui x i = E u 2 xi x2 i = 2
Por lo tanto se dene el estimador de la varianza 2 como:
2 =
u2 i n2
(2.32)
2 =
1 E n2
u2 = 2 i
37
i = 1, ..., n
yn
x2n
x3n
xkn
un
Donde las variables explicativas se pueden agrupar en una sola matriz de dimensin nk, que denotaremos simplemente como X, de esta manera el modelo se expresa de la siguiente forma: u1 1 1 x21 x31 xk1 y1 y2 1 x22 x32 xk2 2 u2 . = . . . .. . . + . Y = X + u(2.33) . . . . . . . . . . . . . . .
yn
1 x2n x3n
xkn
un
donde Y es un vector de dimensin n1, X es la matriz de variables explicativas de dimensin nk y u es un vector correspondiente al trmino de error con dimensin n1. 38
Ahora debemos expresar la distribucin del trmino de error en trminos matriciales: E(u1 ) E(u2 ) E(u) = = 0 . . n1 .
E(uu ) =
E(un ) E(u2 ) E(u1 u2 ) 1 E(u2 u1 ) E(u2 ) 2 . . . . . . E(un u1 ) E(un u2 ) E(u1 un ) E(u2 un ) . .. . . . E(u2 ) n
2 0 0 0 2 0 . . .. . . . . . . . . 2 0 0
= 2 I nn
De los supuestos 3, 4 y 5, tenemos entonces que el trmino de error tiene la siguiente distribucin:
n1
0 , 2 I
nn
(2.34)
SE () =
i=1
u2 = u u i
donde u = Y X . Entonces el problema de minimizar la suma de los errores al cuadrado se expresa de la siguiente forma: n m SE () = m (Y X ) (Y X ) n
= m Y Y 2 X Y + X X n
SE () = 2X Y + 2X X = 0 = (X X)1 X Y
39
(2.35)
De (2.35) tenemos:
X (Y X ) = 0 X u = 0
(2.36) es la condicin de ortogonalidad.
(2.36)
De esta forma, el vector de parmetros estimados se obtiene de resolver el siguiente sistema de ecuaciones normales: X X = X Y 1 1 1 x2,1 x2,2 x2,3 x3,1 x3,2 x3,3 . . . . . . . . . xk,1 xk,2 xk,3 1 x2,n x3,n . .. . . . xk,n 1 x2,1 1 x2,2 1 x2,3 . . . . . . 1 x2,n x3,1 xk,1 x3,2 xk,2 x3,3 xk,3 . . .. . . . . . x3,n xk,n 1 2 3 . . . k 1 y1 x2,n y2 x3,n y3 . . .. . . . . . xk,n yn
n i=1
n i=1
n i=1 n i=1
n i=1
x2 k,i
1 2 3 . . . k
n i=1
n i=1
Es importante recordar que el estimador MCO esta denido solo cuando la matriz (X'X) es invertible, lo que ocurre siempre y cuando: 1. Las k columnas de la matriz X sean linealmente independientes. 2. Se disponga al menos de tantas observaciones como variables explicativas, es decir: n k .(Supuesto 7) Pongamos atencin en el segundo supuesto, cuando n=k la matriz X tiene dimensin kk, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y de esta forma (X X)1 = X 1 (X )1 y por lo tanto:
= (X X)1 X Y = X 1 (X )1 X Y = X 1 Y
40
(2.37)
el vector de residuos u = Y X = Y X(X 1 Y ) = Y Y = 0n , de esta forma el ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igual forma toma el mnimo valor posible, cero. Sin embargo, esta no es una caracterstica deseable, el ajuste perfecto ocurre porque tenemos una muestra muy reducida. Esto trae como consecuencia poco robustez e imprecisin en las estimaciones. Si escogemos una nueva muestra, del mismo tamao que la anterior, obtendremos otro estimador con suma residual 0, que puede diferir en forma arbitraria del anterior.
Para lograr estimaciones precisas de los parmetros, es necesario tener un nmero de observaciones notablemente superior al de las variables explicativas. La diferencia n-k se conoce como el nmero de grados de libertad de la estimacin.
E() =
(2.39)
Es decir, el estimador MCO es insesgado, tal como lo habamos mostrado en la ecuacin (2.28). De (2.38) podemos denir el error de estimacin o sesgo como:
= (X X)1 X u
41
Ahora calculemos la varianza de : var() = = = = = = E[( E()) ( E()) ] E[( ) ( ) ] E[(X X)1 X uu X(X X)1 ] (X X)1 X E(uu )X(X X)1 (X X)1 X ( 2 In )X(X X)1 2 (X X)1
(2.40)
Para poder estimar la varianza de necesitamos reemplazar 2 en (2.40) por su estimador insesgado: 2 = uu nk
42
= + [A + (X X)1 X ]u
y su matriz de covarianza ser:
Como la matriz AA es semidenida positiva, se concluye la diferencia entre la covarianza de y es una matriz semidenida positiva, con lo que la covarianza de es mayor o igual a la covarianza de
43
Y = X + u
la que puede ser reescrita de la siguiente forma:
Y = P Y + MY
(2.41)
P = X(X X)1 X
Adems se tiene que M=I-P. De acuerdo a la ecuacin (2.36) el estimador MCO es tal que los errores son ortogonales a las X, es decir se deben escoger los parmetros de forma tal que el vector de errores sea ortogonal al espacio formados por las variables explicativas. As, el estimador MCO nos permite descomponer Y en dos trminos ortogonales entre si: el primer componente puede ser escrito como una combinacin lineal de las columnas x y el segundo es un componente ortogonal a X (el trmino de error), tal como lo muestra (2.41). Esto se representa grcamente en la Figura 10.
Y
MY
x1
PY 0
x2
Col X
El trmino P Y alternativamente se puede ver como la proyeccin de Y en el espacio barrido por las X's y M Y como la proyeccin de Y es el espacio ortogonal a las X's. 44
(2.42)
(2.43)
Luego, si sumamos para todas las observaciones y dividimos a ambos lados por el tamao muestral n, tenemos:
Y = 1 + 2 x2 + 3 x3 + + k xk
por lo cual:
(2.44)
1 = Y 2 x2 + 3 x3 + + k xk
45
(2.45)
La ecuacin (2.45) muestra que el trmino independiente de una regresin queda determinado por el resto de los k-1 coecientes involucrados. Finalmente, note que restando las ecuaciones (2.43) y (2.44) obtenemos:
(2.46)
la cual es una expresin similar a (2.43), excepto por dos importantes diferencias. Primero, el modelo no posee constante y segundo, las variables se encuentran expresadas en desvos con respecto a la media. A pesar de ello, note que los coecientes y los residuos son los mismos en ambos modelos. De lo anterior surge un importante corolario respecto del trmino constante de nuestro modelo. En general, el inters del investigador se centra en el impacto de los regresores sobre la variable dependiente, por lo cual, el trmino constante no es ms que una correccin que garantiza que los promedios muestrales de ambos miembros del modelo economtrico coincidan. Para transformar en desvos con respecto a la media un modelo en trminos matriciales, introduciremos una matriz fundamental para el anlisis de esta seccin. Denotaremos por M 0 una matriz de n n, denida como: 1 1 1 0 0 1 1 1 1 n n 0 1 0 1 1 1 1 1 1 1 ii n M 0 = I = . . . . . . . . . . = . n . .. . . . n . . . . . nn n . . . . . . . . . . .
0 0
1 1
1 n
1 n
1 n 1 n . . .
1 n
donde I es la identidad (nn) e i corresponde al vector unitario de dimensin n. Dicha matriz es singular, simtrica (M 0 '=M 0 ) e idempotente (M 0 M 0 =M 0 ). En general, M 0 es conocida como matriz de desvos, ya que resta a cada columna de la matriz involucrada, su media aritmtica. Por ejemplo, es fcil comprobar que: n y1 Y yi y1 i=1 y2 1 n yi y2 Y 1 i=1 0 M Y = Y ii Y = . = . . . . . n n . . . n yn Y yn i=1 yi Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en trminos de desvo con respecto a la media como:
M 0 Y = M 0 X + M 0 u
(2.47)
46
Y = X + u
donde Y corresponde a una vector n 1, X corresponde a nuestra matriz de regresores que incluye un trmino constante, tal que X es de n k y u corresponde a nuestro vector de errores de n 1. Buscamos entonces denir la variacin de la variable dependiente (Suma de los cuadrados totales = TSS) como3 :
n
T SS =
i=1
(Yi Y )2
(2.48)
Para encontrar entonces una expresin para (2.48), de la ecuacin (2.47) tenemos que nuestro modelo estimado en desvos con respecto a la media es:
M 0Y = M 0X + M 0u
con lo cual, al particionar nuestra matriz X en X = [i X2 ], nuestro vector de parmetros en = [1 2 ] y considerando que M 0 i = 0 y que M 0 u = u, tenemos que:
M 0Y
= M 0 i1 + M 0 X2 2 + M 0 u 0 2 + u = M X2
(2.49)
Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadrados de las desviaciones de Y con respecto a su media), de la ecuacin (2.48), multiplicamos por Y' la ecuacin (2.49):
Y M 0Y
= = = 0 Y M Y = T SS =
Y (M 0 X2 2 + u) 0 (X + u) (M X2 2 + u) 0 X M X2 2 + X u + u M 0 X2 2 + u u 2 X M 0 X2 2 + u u 2 ESS + RSS
(2.50) (2.51)
donde el segundo y el tercer trmino desaparecen gracias a que los residuos estimados son, por construccin, ortogonales a las variables explicativas 4 . La igualdad
que para dicha denicin utilizamos los cuadrados de la desviaciones, ya que la suma de las desviaciones es siempre cero. 4 Ya que X u = X (Y X ) = X Y X Y = 0.
3 Note
47
anterior es conocida como la descomposicin de varianza. El trmino de la izquierda corresponde a TSS o la suma de los cuadrados de las desviaciones de la variable dependiente. En otras palabras, la variabilidad de Y. En la derecha se encuentra la variabilidad de las variables independientes o regresores y la variabilidad de los errores. Cul es entonces el objetivo?: descomponer la varianza de la variable dependiente aquella parte que es explicada por la regresin (ESS) de aquella parte explicada por los residuos (RSS). Por qu?: porque intuitivamente, la regresin se ajusta mejor si las desviaciones de Y se explican en su mayor parte por desviaciones de X y no por desviaciones de los residuos.
R2 =
ESS T SS
(2.52)
es decir, como la proporcin de la varianza de Y que es explicada por la varianza de la regresin. Alternativamente:
R2 = 1
RSS T SS
(2.53)
Note que:
1. El coeciente de determinacin es siempre menor a 1. Ello porque RSS T SS y por lo tanto RSS 1. T SS 2. El anlisis de varianza anterior fue derivado bajo el supuesto que el modelo inclua una constante (por ello utilizbamos la matriz M 0 ). En dicho caso, necesariamente R2 0. En caso de que el modelo no incluya una constante, se debe utilizar la frmula (2.5.2) utilizando TSS=Y'Y (sin desvos). 3. Al agregar regresores al modelo, el R2 nunca decrecer (se mantendr constante o aumentar) 4. No es claro cuan bueno sea como predictor de ajuste. Para ver este ltimo punto, suponga que usted posee el siguiente modelo poblacional: Y = 1 + 2 X + u 48
donde X es un vector (n 1). Suponga ahora que restamos X a ambos lados de nuestro modelo. Obtenemos entonces:
Y X = 1 + X + u
Si 2 1, entonces es fcil vericar que el R2 del primer modelo ser cercano a 1, mientras que el del segundo sera cercano a cero, a pesar de que los modelos son matemticamente equivalentes. A pesar de lo anterior, en trabajos aplicados, el R2 es ampliamente utilizado, por lo cual se recomienda su publicacin. Retrocedamos ahora al punto tres. El nos dice que el coeciente de determinacin probablemente crecer al incluir regresores. Ello plantea incentivos a incluir regresores no relevantes para nuestro modelo, con el n de obtener un mejor ajuste. Porqu sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece (o en el mejor de los casos se mantiene), mientras que la TSS permanece constante. Por esta razn se cre el coeciente de determinacin ajustado, el cual corrige el R2 original por los grados de libertad del numerador y el denominador. Entonces, denimos el R2 ajustado (R2 ) como:
u u/(n k) R2 = 1 Y M Y /(n 1)
o equivalentemente:
(2.54)
(n 1) R2 = 1 (1 R2 ) (n k)
(2.55)
49
2.8. Inferencia
Una vez que hemos estimado nuestra regresin muestral, es necesario preguntarse cuan buena aproximacin es dicha regresin de la poblacional. Para que la aproximacin sea cercana, es condicin necesaria que los parmetros incluidos en la regresin muestral sea estadsticamente distintos de cero (en caso contrario, no pertenecen a la regresin poblacional). As, uno de nuestros objetivos puede ser el testear la signicancia individual de los parmetros. Pero lo anterior es slo una de las preguntas que como investigadores podemos estar interesados en responder. Por ejemplo, en la estimacin de la funcin de produccin de una rma, que asumimos Cobb Douglas (Y = AK L eu o en logaritmo ln Y = ln A + ln K + ln L + u), podemos estar interesados en descubrir si la rma presenta rendimientos constantes, crecientes o decrecientes a la escala, lo cual se reejar en que + > o 1. Por lo tanto, ello podra ser otra hiptesis interesante de plantearse. Tambin podra ser interesante descubrir si todos los parmetros a la vez son distintos de cero, o de algn valor determinado. La gama de preguntas posibles respecto del valor de los parmetros es slo acotada por la pregunta que el investigador desee responder. Nuestro objetivo es, por lo tanto, desarrollar los mtodos de inferencia y contraste de hiptesis que nos permitan responder, en el contexto de una regresin muestral particular, las preguntas anteriores. Dos notas precautorias. En esta seccin nos ocuparemos de restricciones o hiptesis lineales sobre los coecientes. Restricciones no lineales son ms escasas en econometra aplicada y se desarrollan en contexto de un modelo particular. Segundo, en todo lo que se reere a este apartado, asumiremos que los errores de nuestra regresin muestral siguen una distribucin normal (ya veremos porqu). Entonces, sea nuestro modelo poblacional
Y = X + u
donde X es una matriz de (n k ),u e Y son vectores (n 1) y es vector de (k 1). Sean entonces las siguientes hiptesis: 1. H0 : i = 0 Plantea que el regresor Xi no posee inuencia alguna sobre Y. Este es el test ms comn y nos referiremos a l como test de signicancia. 50
2. H0 : i = i0 Plantea que el regresor Xi posee un impacto determinado por i0 sobre Y. 3. H0 : i + j =1 Plantea que la suma de los regresores Xi y Xj poseen un impacto conjunto de magnitud 1. 4. H0 : i = j Plantea que los regresores Xi y Xj poseen el mismo impacto sobre Y. 5. H0 : i =0 i=2. . . k Plantea que todos los regresores conjuntamente, excepto la constante, son cero. 6. H0 : l =0 donde el vector ha sido particionado en dos (l y p ) con dimensiones (kl 1) y (kp 1) respectivamente, tal que kl + kp = k . Plantea entonces que un subconjunto de parmetros son estadsticamente no signicativos. Todas las hiptesis anteriores pueden ser resumidas en la siguiente expresin:
R = r
donde R es una matriz de (q k ) constantes conocidas (ceros o unos), cuyo objetivo ser seleccionar los parmetros a testear, cuyo nmero de las, q, representa el nmero de restricciones. A su vez, r es un vector de dimensin q y contiene el real al cual es restringido cada parmetro. Veamos como sern las matrices R y r en cada una de nuestras hiptesis: 1. R =[0. . . 010 . . . 0]; r=0; q=1 donde 1 se encuentra en la i-sima posicin 2. R =[0. . . 010 . . . 0]; r=i0 ; q=1 donde 1 se encuentra en la i-sima posicin 3. R =[0. . . 010 . . . 010 . . . 0]; r=1; q=1 donde 1 se encuentra en la i-sima posicin y en la j-sima posicin. 4. R =[0. . . 010 . . . 0-10 . . . 0]; r=0; q=1 donde 1 se encuentra en la i-sima posicin y en la j-sima posicin. 5. R =[0q1 Ik1 ]; r=0; q=k 1 6. R =[0ki kj Iki ]; r=0; q=ki 51
H0 : R = r
(2.56)
con lo cual, slo nos resta derivar el test que nos permita rechazar o no rechazar nuestra nula. La construccin del estadgrafo es como sigue. Dado que MCO (bajo los supuestos relevantes) es insesgado, tenemos que E() = , por lo tanto, E(R) = R , mientras que la varianza de R corresponde a
N [, 2 (X X)1 ]
y
(2.57)
(2.58)
(2.59)
(R r) 2 R(X X)1 R
N [0, 1]
(2.60)
uu 2 (nk) 2
Luego, se puede demostrar que (hacerlo)6 :
(2.61)
(R r) [ 2 R(X X)1 R ]1 (R r) 2 q
5 Basta
(2.62)
con recordar que si x corresponde a un vector de realizaciones normales (0,1), por lo cual x N (0, 2 I) y A corresponde a una matriz simtrica e idempotente de rango n, entonces 1 2 2 x Ax n . Finalmente, recuerde que u = M Y = M u y que el rango de una matriz simtrica e idempotente es su traza. 6 Basta con recorder que si el vector x, de dimensin n, es tal que x N (0, ), entonces, x 1 x 2 . n
52
luego, combinando los dos resultados anteriores, se puede demostrar que (hacerlo)7 :
(2.63)
El test expuesto en (2.63) corresponde a la forma general del test F. Dicho test es de utilidad para testear cualquier hiptesis de la forma expuesta en (2.56). A continuacin veremos subcasos de dicho test general.
F =
( i0 )2 V ar(i )
F (1, n k)
(2.64)
Recordando que t2 es una caso particular de una F con un grado de libertad en el numerador, tenemos que:
t=
i0 V ar(i )
tnk
(2.65)
Lo anterior es conocido como el test t (test de signicancia) y en su versin ms utilizada corresponde a t = , donde se busca testear la hiptesis nula de que el parmetro es cero. El test t tambin cubre los casos 3. y 4.. En el caso 3. por ejemplo (H0 : i +j =1), el estadgrafo corresponder a:
V ar(i )
t=
tnk
(2.66)
53
grandes, sin embargo, la t posee colas ms gruesas que la normal (lo cual es ms pronunciado en muestras pequeas: n30). La siguiente gura expone la relacin entre la distribucin t y la normal:
Probabilidad
Distribucin Normal
Distribucin t
Nota precautoria:
Toda la derivacin anterior se basa en el estricto supuesto de normalidad de los errores. En caso de que los mismos no distribuyan normal, la distribucin del test F (y por lo tanto el del t) es desconocida en muestras nitas. Sin ema bargo, es posible demostrar que t N (0, 1), es decir, que el test t distribuye asintticamente normal. Luego, los valores crticos de t y (normal estndar) se encuentran sumamente cerca si n-k30, por lo cual, en trminos prcticos no importa mucho cual de ellas escojamos para los valores crticos (a menos que la muestra sea especialmente pequea). Finalmente, nos queda examinar los criterios de rechazo del test y los niveles de conanza. Como usted recordar de sus clases de estadstica, lo anterior depende de como especiquemos la hiptesis alternativa. A continuacin, pasamos a revisar este punto. 54
H0 : i = io H1 : i > io
donde i0 R. En dicho caso, el estadgrafo es calculado segn lo propuesto en la seccin anterior. El punto est en como acumulamos la probabilidad de rechazo. En este caso, el total de la probabilidad de rechazo se acumula en la cola derecha de la distribucin, como lo muestra la siguiente gura8 :
qu en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de signicancia, nos indica hasta donde puedo tolerar un valor mayor a io , por lo cual, carecera de sentido que la zona de rechazo se encuentre en la cola izquierda de la distribucin. Por ejemplo, si io =0, la distribucin de nuestro estadgrafo se centra en cero (vea la frmula), por lo cual la hiptesis alternativa correspondera a que el parmetro es positivo. el punto es cun positivo puedo aceptar que sea?.
8 Por
55
Probabilidad
por lo tanto, rechazaremos nuestra hiptesis nula de que el coeciente es cero contra la hiptesis alternativa que el parmetro es mayor que io , si el valor calculado del test es mayor al valor crtico de la tabla t. En el caso que H1 sea que el parmetro es menor a io , entonces la probabilidad de rechazo se concentra en la cola izquierda y se rechaza la nula en el caso que el valor calculado sea menor que el valor crtico de la tabla t.
H0 : i = io H1 : i = io
En este caso estamos repartiendo uniformemente la probabilidad de rechazo en ambas colas de la distribucin como lo muestra la siguiente gura (al 95 % de conanza):
56
Probabilidad
Se Rechaza (2,5%)
Por lo tanto, rechazaremos la nula si el valor calculado es en mdulo mayor que el valor crtico de tabla. Note que en este caso, la probabilidad de rechazo se reparte un partes iguales en ambas colas. Ello se justica en que la distribucin t corresponde a una distribucin simtrica.
tamao del test y por lo tanto, el ETI, es una variable endgena al investigador, en tanto que l decide con que nivel de conanza trabajar. Luego, el objetivo se transforma en, dado un nivel de conanza, minimizar la ocurrencia de ETII. Intuitivamente, si usted escoge un nivel de signicancia pequeo (1 %, por ejemplo), sus zonas de rechazo sern pequeas, con lo cual, inevitablemente, la zona de no rechazo crece, lo cual implica que por minimizar el ETI, ha aumentado el ETII.
P-value
Otra forma alternativa al valor crtico de tabla para rechazar o no rechazar nuestra nula, corresponde al uso de los llamados p-values, los cuales son reportados en cualquier paquete estadstico. El p-value (p) se dene como:
(2.67)
es decir, el p-value representa la probabilidad de que el valor crtico (t de tabla, en nuestro caso), sea mayor al valor t calculado, es decir, describe el nivel de significancia exacto asociado a un resultado economtrico en particular. Por ejemplo, un p-value de 0.07 indica que un coeciente es estadisticamente signicativo en un nivel de 0.07 (o con un 93 % de conanza).
Ejemplo:
Suponga el siguiente Modelo de Regresin Lineal Simple:
Yi = 1 + 2 Xi + ui
para i = 1, ..., N
1 2
4 48 48 824
20 298
2,1935 0,2338
=
58
Primero veamos el ajuste de este modelo, es decir, en que grado la variable x 2 explica a la variable y , para lo cual calculemos el R2 y R :
R2 = 1 R
2
RSS =1 T SS
4 i=1
RSS/2 = 1 =1 T SS/3
Como podemos ver, el grado de ajuste del modelo es bastante bueno, como el modelo incluye constante, el R2 se puede interpretar como la proporcin de la variabilidad de la variable independiente que es explicada por la variabilidad de la variable dependiente, la que en este caso alcanza un 97 %. Ahora veamos si estos parmetros estimados son signicativos a un 95 % de conanza, para lo cual realizaremos un test t de signicancia a cada uno de ellos:
1. Test de signicancia de 1 :
H0 : 1 = 0 H1 : 1 = 0 t= 1 V ar(1 ) t2
De esta forma, el valor calculado para el estadstico t es: 2,193548387 tc = = 5,157850523 0,180866 El valor de tabla del estadstico t a un 95 % de conanza y con dos grados de libertad es 4,303.
Probabilidad
Se Rechaza (2,5%))
No se Rechaza
Se Rechaza (2,5%)
t(2)=4,303
t(2)=4,303
tc=5,158
59
De esta forma, se rechaza la hiptesis nula de que 1 =0, y por lo tanto el parmetro estimado resulta ser estadsticamente signicativo. 2. Test de signicancia de 2 : H0 : 2 = 0 H1 : 2 = 0 t= 2 V ar(2 ) t2
Se Rechaza (2,5%))
No se Rechaza
Se Rechaza (2,5%)
t(2)=4,303
t(2)=4,303
tc=7,893
De esta forma, se rechaza la hiptesis nula de que 2 =0, y por lo tanto el parmetro estimado resulta ser estadsticamente signicativo.
60
Todas las pendientes del modelo son cero: En este caso, se puede
demostrar que el test F puede expresarse como:
F =
(2.68)
F =
(2.69)
F =
(2.70)
donde u denotan los residuos MCO restringidos (donde k2 representa el nmero de regresores que han sido restringidos a cero), mientras que u representan los residuos del modelo MCO original.
Una manera natural de obtener el IC asociado a i es a travs del test t asociado. Vimos entonces que l corresponde a: i i0 V ar(i ) tnk
entonces, si deseamos un IC del (1-) % de conanza (es decir, de % de signi cancia) para el parmetro i , basta obtener de las tablas de distribucin el valor correspondiente, es decir: i i0 1 = P r Z/2 Z1/2 V ar(i ) i i0 = P r Z1/2 Z1/2 i ) V ar(
= P r i Z1/2
V ar(i ) i0 i + Z1/2
V ar(i )
donde la tercera expresin se obtiene de despejar i0 de la segunda. Note que el intervalo ha sido construido en base a una distribucin simtrica (como la t o la normal), por lo cual el valor de tabla a escoger debe corresponder a /2. Note adems que dicho intervalo est construido slo en base a constantes conocidas. Una vez construido, se puede contrastar la nula (H0 : i = i0 ) al nivel de signicancia sencillamente observando si i0 pertenece al intervalo (en cuyo caso no rechazamos la nula) o se encuentra fuera de l (en cuyo caso rechazamos la nula)10 . Nuevamente, la validez de dicho intervalo de conanza depende crticamente del supuesto de distribucin de los errores. En el caso que el valor Z se obtenga de la tabla t, como ya sabemos, estamos suponiendo que los errores siguen una distribucin normal. Un caso ms general es utilizar los valores crticos de la distribucin normal estndar. Tambin es posible derivar regiones de conanza, es decir, IC de conanza simultneos para una conjunto de parmetros, sin embargo, su utilizacin es escasa
ms exacta es mi estimacin del rango posible, con menos conanza puedo armar estar en lo correcto. 10 Una forma fcil de verlo es pensando en =0, es decir, que la variable x no ayuda a i0 i explicar y .
9 Intuitivamente, ya que a
62
en econometra aplicada (a menos que su pregunta puntual lo requiera!). Finalmente derivaremos el intervalo de conanza para la varianza de los errores. Sabemos de la ecuacin (2.61) que:
uu 2 nk 2 (n k) 2 2 nk 2
(2.71)
Utilizando la misma lgica que utilizamos para el IC de un parmetro , tenemos 2 que el IC para corresponde a: (n k) 2 (n k) 2 2 2 2 nk, nk,1 = (1 )
(2.72)
2 Note que los valores crticos utilizados corresponden a 2 nk,1 y nk, , ya que 2 la distribucin es una distribucin asimtrica.
E(u4 ) K= ( 2 )2
63
En base a los anteriores, Bera y Jarke (1981), propusieron el siguiente estadgrafo, construido bajo la nula de normalidad:
JB = n
S (K 3)2 + 6 24
2 (2)
Donde los estimadores muestrales del coeciente de asimetra y kurtosis se obtienen al considerar que un estimador natural de:
r = E[r ] u
corresponde a:
1 mr = n
ur i
i=1
Note que el estadgrafo est denido en trminos del exceso de kurtosis, por lo cual, a menor sea el valor, menor es la probabilidad de rechazar la nula de normalidad. Note adems que el estadstico es esencialmente no constructivo, en trminos de que no nos indica que camino seguir en caso de rechazar la nula, adems de que no rechazar normalidad no implica conrmar su existencia. Sin embargo, en la prctica corresponde al test ms utilizado.
64
2.9. Prediccin
La prediccin es una de las herramientas ms atractivas y utilizadas en Econometra. Si el modelo que hemos escogido conrma la teora en consideracin, es decir, a sobrevivido a las pruebas de hiptesis, podemos utilizar el modelo estimado Y = X para predecir. La prediccin se puede efectuar para un valor puntual de la variable dependiente, y 0 , correspondiente a un valor dado de los regresores, x0 , o predecir el valor esperado E[y 0 /x0 ] condicional a las variables explicativas. Supongamos primero que queremos predecir un valor individual de Y, y 0 , asociado a un vector de regresores x0 con j = 1, 2..., k de dimensin 1 k . j De acuerdo con el modelo economtrico se tiene que y 0 = 1 +x0 2 +.....+x0 k +u0 . 2 k Para predecir el valor de y 0 podemos utilizar la estimacin MCO del modelo, y 0 = x0 . De esta forma, el error de prediccin estar dado por :
e0 = y 0 y 0 = x0 ( ) + u0
En donde se distinguen dos fuentes del error de prediccin El error en la estimacin del vector El error estocstico inherente al modelo u0 Sin embargo, si consideramos que el estimador MCO es insesgado y mantenemos los supuestos de nuestro modelo de regresin lineal, es trivial mostrar que el valor esperado del error de prediccin ser cero. Adems, podemos calcular la varianza del error de prediccin:
La varianza del error de prediccin depender de la matriz de regresores X de dimensin n k que se utiliz para obtener las estimaciones de . Sabemos que a mayor dispersion de las variables explicativas menor varianza tendrn nuestras estimaciones MCO11 . Adems depender del vector x0 que hemos asumido
posible y se recomienda derivar una expresin para la varianza del error de prediccin utilizando un modelo con 2 regresores. En est expresin se aprecia claramente la dependencia de la varianza del error de prediccin con la dispersion en torno a la media de las variables explicativas.
11 Es
65
2 conocido y del parmetro , el cual no conocemos y deber ser reemplazado por 2 su estimador si es que queremos construir un intervalo de conanza para la prediccin y 0 .
Bajo supuestos de normalidad del trmino de error, el error de prediccin es una combinacin lineal de dos variables normales por lo tanto tiene una distribu2 cin Normal(0, e ). Por lo tanto, por una razonamiento anlogo al de las secciones anteriores se tiene que:
y0 y0
2 (1 + x0 (X X)1 x 0 )
N (0, 1)
y0 y0
2 (1 + x0 (X X)1 x 0 )
tnk
Por lo tanto, dada una prediccin puntual y 0 y una estimacin de la desviacin estndar del error de prediccin podemos construir un intervalo de conanza para el valor de y 0 :
P r[y 0 t1/2,nk
V ar(e0 ) y 0 y 0 + t1/2,T k
V ar(e0 )] = 1
Consideremos ahora que el investigador no est interesado en predecir el valor de la variable endgena y 0 , si no tan solo su valor esperado E(y 0 ) = x0 . La prediccin, al igual que en el caso anterior, ser x0 . La diferencia es que el error de prediccin en este caso estar denido por e = E[y 0 ] x0 = x0 x0 = x0 ( ). Calculando entonces la varianza (Hacerlo!) de este nuevo error de prediccin podemos construir ahora un intervalo de conanza para E(y 0 ) de la misma forma que antes.
E[y 0 ] y 0
2 (x0 (X X)1 x 0 )
N (0, 1)
E[y 0 ] y 0
2 (x0 (X X)1 x 0 )
tnk
P r[y 0 t1/2,nk
V ar(e0 )] = 1
La siguiente gura ejemplica las predicciones de y 0 y E[y 0 /x0 ] en un modelo de 2 variables independientes.
66
RM SE =
i (yi
yi )2 n0
67
M AE =
| yi yi | n0
Donde n0 es el nmero de perodos que hay que predecir. Estos mtodos presentan un problema obvio de escala. Algunas medidas que no presentan este problema se basan en el estadstico U de Theil.
U=
Ejemplo:
Supongamos que un analista comercial est pensando en construir un edicio comercial para luego vender. Sin embargo, no sabe cuales son las caractersticas que debiera tener el edicio para maximizar su rentabilidad. Para descubrir esto el se propone realizar un anlisis de regresin. El analista elige al azar una muestra de 11 edicios de ocinas de 1500 edicios posibles. Estos datos los puede utilizar para emplear el anlisis de regresin lineal multiple para estimar el valor de un edicio de ocinas en un rea determinada basndose en las siguientes variables.
x1 Supercie m2
2310 2333 2356 2379 2402 2425 2448 2471 2494 2517 2540
Datos
x2 Ocinas
2 2 3 3 2 4 2 2 3 4 2
x3 Entradas
2 2 1,5 2 3 2 1,5 2 3 4 3
x4 Antiguedad aos
20 12 33 43 53 23 99 34 23 55 22
Teniendo los datos podemos entonces utilizar cualquier software estadstico que nos permita desarrollar la estimacin por mnimos cuadrados ordinarios del modelo de regresin. Supongamos que el modelo que mejor describe el comportamiento de nuestra variable dependiente es un modelo lineal del tipo:
68
A mayor nmero de metros cuadrados, entradas y cantidad de ocinas del edicio mayor es el valor comercial de este. Adems, mientras ms aos de construccin menor es el valor del edicio. Todas las variables incluidas en el modelo son estadsticamente signicativas( lo cual se puede ver comparando los test calculados con los de t de tabla, o viendo directamente el p-value) individualmente (Test t) y conjuntamente(Test F). Un porcentaje importante de la varianza del precio es explicada por la varianza de las variables explicativas, conclusin obtenida a 2 partir del alto R2 y R observado. Las conclusiones obtenidas a partir de la inferencia realizada son vlidas s i el supuesto de normalidad de los errores se cumple. Para estudiar esto observemos el comportamiento de los errores estimados y realicemos un Test de Normalidad(JarqueBera).
69
Podemos ver que la distribucin de los errores no es del todo simtrica (Skewness = 1,2) y que tampoco presenta un comportamiento mesocurtico (Kurtosis = 3). Ambos elementos se ven reejados en el estadsitico Jarque - Bera, el cual cae en la zona de rechazo (Ver adems p -value). Las estimaciones realizadas anteriormente pueden hacerse en cualquier programa estadstico, incluso en el sub utilizado programa excel, el cual posee un comando que permite obtener estimaciones de regresiones lineal de manera mu rpida.
70
Con los parmetros estimados es posible realizar predicciones del valor de un edicio particular condicional a sus caractersticas.
71
72
Si analizamos los errores de prediccin podemos ver que en promedio son cero, tal como se demostr en clases. Para ver la relacin existente entre la varianza de la prediccin y una de las variables explicativas podemos realizar un ajuste con una variable.
Podemos ver que la varianza de la prediccin es mayor a medida que las variables explicativas estn ms lejos de su media.
73
L(; y) = f (y; )
Note que hemos invertido la notacin entre L y la densidad. Ello porque la densidad describe los valores probables de Y dado un vector determinado, sin embargo, en nuestro caso el sentido es inverso: estamos interesados en el vector dado un vector Y determinado. Al maximizar L(; Y ) respecto de se obtienen los estimadores mximo verosmiles (M V ), los cuales maximizan la probabilidad de ocurrencia de la muestra observa-
da, es decir:
M V = mx L(; Y ) a
(2.73)
o equivalentemente12
M V = mx ln(L(; Y )) = mx l(; Y ) a a
(2.74)
13
l(; Y ) = ln(
i=1
12 En
Li (; yi )) =
i=1
li (; yi )
(2.75)
general se utiliza el logaritmo de la funcin de verosimilitud, denotado como l = ln(L) como funcin objetivo. Note que dicha transformacin es inocua, en trminos de que el vector l 1 de parmetros que maximize l ser el que a su vez maximize L, ya que: = L L 13 Bajo independencia, la funcin de distribucin conjunta de una muestra corresponde a la multiplicacin de las funciones de densidad individuales.
74
La primera derivada de L es generalmente conocida como Score, s = (; Y ), por lo cual M V se obtienen al igualar el score a cero.
plim(M V ) =
(2.76)
es decir, asintticamente, el parmetro estimado corresponde al parmetro poblacional. 2. Eciencia Asinttica: La varianza del estimador ML alcanza la llamada Cota Inferior de Cramer Rao, es decir I()1 . Esta propiedad asinttica es la principal virtud de los estimadores ML. La cota inferior de Cramer Rao corresponde al inverso de la matriz de informacin (que deniremos a continuacin), la cual corresponde a la mnima varianza que puede poseer un estimador insesgado. 3. Normalidad Asinttica:
M V a N (, I()1 )
(2.77)
es decir, el estimador ML distribuye asintticamente normal, con media y varianza igual al inverso de la llamada matriz de informacin (I()). Esta ltima se dene como:
I() = E
l l
= E
2l
donde note que la matriz hessiana de segundas derivadas de L es una matriz cuadrada y simtrica de orden k k .
4. Invarianza: Si es el estimador ML de y g() es una funcin continua de , entonces g() es el estimador ML de g().
75
2.10.2. Estimacin MV
Como ya es usual, sea el siguiente modelo poblacional:
Y = X + u
donde las matrices poseen los tamaos usuales y u N (0, 2 I). Entonces:
n iid
f (ui )
y asumiendo una distribucin normal para los errores, tenemos que la funcin de verosimilitud corresponde a:
n
f (u1 , u2 , . . . , un ; I) =
i=1
1 2 2
exp 22
u2 i
(2.78) (2.79)
1 u u 2 n exp 2 2) 2 (2
L = f (y1 , y2 , . . . , yn ; X, 2 , ) =
(Y X) (Y X) 1 2 2 n exp (2 2 ) 2
(2.80)
M V ] se obtienen siguiendo la 2
1 lnL = 2 X (Y X ) = 0 = M V = (X X)1 X Y
(2.82)
n 1 lnL = 2 + 4 (Y X ) (Y X ) = 0 2 2 (Y X M V ) (Y X M V ) = 2 M V = n
76 (2.83)
Entonces, bajo normalidad de los errores, el estimador M V es equivalente al estimador MCO. Sin embargo, note que el estimador de la varianza de los errores (M V ) da lugar al estimador sesgado.
Nos queda entonces derivar la varianza de los estimadores MV. Vimos que la matriz de varianzas corresponda al inverso de la matriz de informacin (I()). Por facilidad de clculo, generalmente se utiliza la segunda denicin de I(), es decir, la de las segundas derivadas de la funcin de verosimilitud. Entonces:
2l XX = 2 E 2l = XX 2
(2.84)
2l Xu = 4 2 E 2l =0 2
(2.85)
2l n uu = 4 6 2 )2 ( 2 E 2l n = 4 2 )2 ( 2
(2.86)
donde esta ltima esperanza se deriva del hecho que E(u u) = n 2 . Entonces, la matriz de informacin corresponde a:
I(, ) =
mientras que su inversa:
X X 2
0
n 2 4
(2.87)
I(, )1 =
(X X)1 2 0
0
2 4 n
(2.88)
Note que el hecho que la matriz de informacin (y por lo tanto su inversa) sea una matriz diagonal, reeja que X y u se distribuyen independientemente (de otra 77
Obtenga el estimador de mxima verosimilitud de . Primero debemos recordar que cada observacin i de la variable dependiente y tiene la siguiente densidad condicional a la variable explicativa x:
f (yi |xi , ) =
L(|y, x) = n ln
i=1
yi + ln
i=1
xi +
i=1
xi ln yi
i=1
ln(xi !)
L n =
yi +
i=1 n
n i=1
xi
= 0
n
i=1
yi +
i=1
xi = 0 n+ =
n i=1 n i=1
xi
yi
1+x = y
1+x = y 1 + 13 = = 2,8 5
79
(2.89)
donde q corresponde al nmero de restricciones impuestas (es decir, el nmero de las de R). Intuitivamente, el valor del estadgrafo crecer a mayor sea la discrepancia entre los valores de la verosimilitud restringida y la no restringida, lo cual nos aleja de la posibilidad que las restricciones impuestas sea vlidas (no rechazo de la nula). En el caso que los errores distribuyan normal, es posible derivar una versin alternativa del estadgrafo utilizando los residuos. Reemplazando M V y 2 M V en l es posible demostrar:
n n L(, 2 ) = (2e) 2 ( 2 ) 2 =
2e n
n 2
( u) 2 u
(2.90)
Luego, si denimos como uN R los residuos del modelo irrestricto y como uR , reemplazando en la denicin del test, obtenemos:
LR = n(ln uR uR ln uN R uN R )
80
(2.91)
a (, I()1 )
entonces, bajo la hiptesis nula:
(R r) (0, RI()1 R )
entonces, se puede demostrar que:
a (R r) [RI()1 R ]1 (R r) 2 q
donde q es el nmero de las de R y por lo tanto, el nmero de restricciones (segn la denimos en la seccin 2.8). Luego, como los estimadores MV distribuyen asintticamente normales, entonces la matriz de informacin expuesta en la ecuacin (2.88) es vlida en muestras grandes, tenemos que el estadstico de Wald se dene como14 : (R r) [R(X X)1 R ]1 (R r) a 2 W = (2.95) q 2 Una nota: Dijimos que el test era vlido asintticamente, donde hemos utilizado el resultado de normalidad asinttica de MV. En caso de que los errores efectivamente distribuyan normal en muestra nita, el test (lgicamente) mantiene su distribucin.
81
de la funcin de Verosimilitud:
s() =
ln L l =
Como vimos en la introduccin, s() = 0, por lo cual, al evaluar el score en el estimador restringido bajo la nula R r = 0 ( ), generalmente obtendremos un vector diferente de cero, sin embargo, si la nula no se puede rechazar, esperaramos obtener un vector cercano a cero.
Se puede demostrar que el score posee media cero y varianza igual a la matriz de informacin (I()). Por lo tanto, tenemos que la forma cuadrtica:
s ()I()1 s() 2
con lo cual, al evaluar en el vector de parmetros restringido tenemos que bajo la nula, el test LM se dene y distribuye como:
LM = s ()I()1 s() a 2 q
(2.96)
Note que contraposicin al test de Wald, slo necesitamos calcular el estimador restringido. De hecho, su popularidad reside en que muchas veces es ms fcil calcular el estimador restringido que el irrestricto. Dada la normalidad asinttica de los estimadores MV, podemos reducir el estadgrafo a una forma mucho ms simple. Para ver lo anterior, considere una notacin matricial del score:
s() =
l l 2
1 Xu 2 n u 22 + 2u 4
entonces, para evaluar el score en la estimacin restringida, utilizamos los residuos restringidos, los cuales denotaremos por:
u = Y X
y por lo tanto:
2 =
con lo cual:
u u n u
s() =
1 X 2
(2.97)
82
Entonces, tomado en cuenta la denicin de I()1 dada en (2.87) y evalundola en el estimador restringido, tenemos que nuestro test en (2.96) queda como:
LM =
0
2 4 n
1 uX 2
(2.98) (2.99)
donde el R2 corresponde a la bondad de ajuste de la regresin auxiliar entre u y X. Resumiendo, el test se implementa en tres simples pasos: 1. Estimar el modelo restringido y obtener sus residuos 2. Con ellos correr una regresin de ellos contra X. Obtener el R2 3. Construir el estadstico
Ejemplo: Siguiendo con el ejemplo anterior, testee la hiptesis nula de que = 5. (i) Test de Razn de Verosimilitud: recordemos que el estadstico de este test es:
LR = 2[ln L() ln L()] a 2 (q)
Primero debemos evaluar el logaritmo de la verosimilitud en el parmetro no restringido (estimado):
n n n n
L(|y, x) = n ln
i=1
yi + ln
i=1
xi +
i=1
xi ln yi
i=1
ln(xi !)
L(|y, x) = n ln
i=1
yi + ln
i=1
xi +
i=1
xi ln yi
i=1
ln(xi !)
Luego debemos computar el estadstico restando ambas verosimilitudes en logaritmos y multiplicar esta diferencia por 2:
(ii) Test de Wald: para poder realizar este test primero necesitamos computar la
matriz de varianzas y covarianzas del estimador, el inverso de la matriz de informacin. Recordemos la forma de esta matriz:
I() = E
l l
= E
2l
lnL n =
yi +
i=1
n i=1
xi
Como la variable x es ja el valor esperado del hessiano corresponde a la misma expresin, luego el negativo de esto constituye la matriz de informacin:
I() = I() =
(n +
n i=1 2
xi )
(4 + 52) 2 56 I() = 2
W = ( 5) I()( 5) 2 1
84
56 (2,8)2
(2,8 5)
mos evaluar el score y la matriz de informacin en el estimador restringuido (), que en este caso es igual a 5:
s() =
yi +
n i=1
4 52 20 + = 8,8 5 5
LM = s() I()1 s() LM = (8,8)(2,24)1 (8,8) = 34,6 Con lo cual se rechaza la hiptesis nula de que = 5.
para nuestros estimadores, lo cual implica necesariamente utilizar mtodos numricos para optimizar la funcin objetivo). 3. Otra ventaja reside en la inferencia. Toda la inferencia vista en MCO posea distribucin exacta bajo el supuesto de normalidad. Los test asintticos visto en la inferencia MV son vlidos bajo cualquier distribucin supuesta (aunque asintticamente). 4. Adicionalmente, los tres test vistos son capaces de lidiar con restricciones no lineales. Por qu? Porque MV es capaz de lidiar con modelos no lineales15 5. Es posible demostrar que W LR LM al ser aplicados a un modelo lineal. Los tres son asintticamente equivalentes, sin embargo, en muestras nitas arrojarn resultados diferentes. 6. Cundo es recomendable utilizar un test t o un test F por sobre un test asinttico? 7. Todos los paquetes estadsticos reportan el valor de la funcin de verosimilitud (es decir, la funcin evaluada en los parmetros estimados). Ello, muchas veces es utilizado como un criterio de seleccin entre modelos (recuerde que nuestro objetivo es maximizar la funcin de verosimilitud).
2 ejemplo de restriccin no lineal corresponde a H0 : ln(3 ) = 0,1+ln(2 ). Para estimar el modelo restringido basta con aislar 2 e introducirlo en la funcin de verosimilitud que ser maximizada por mtodos numricos.
15 Un
86
87
2 podemos al igual que antes estudiar si MCO es insesgado. = + (X X)1 X u E[|X] = + (X X)1 X E[u|X] =
Ya que por supuesto 3 E[u|X] = 0. Podemos ahora calcular el valor esperado incondicional aplicando esperanza sobre todo el espacio posible de los regresores.
V [|X] = 2 (X X)1
Sin embargo, la varianza incondicional de esta dada por2
2 Aplicando
descomposicin de la varianza(Ver).
88
Conclusiones: Si los errores son independientes de las X entonces se cumplir el Teorema de Gauss Markov. Bajo normalidad del error los test estadsticos tienen la misma distribucin que en el caso de las X no estocsticas.
Claramente la relacin es no lineal. No es lo mismo en trminos de ventas aumentar desde 40 visitas a 50 que de 10 visitas a 20. Pero, Cmo podemos incorporar no linealidad entre Y y X en nuestro modelo de regresin?. Bsicamente lo que haremos es utilizar algunos tipos de transformacin de variables. Esto nos permitir tener un modelo no lineal y a partir de la aplicacin de las transformaciones tener un modelo de regresin lineal para el que se cumplen todas las cosas que hemos visto.
89
Transformacin Logartmica Suponga un modelo original no lineal de la siguiente forma Yi = 1 Xi2 ui . Si aplicamos logaritmo nos quedar un modelo transformado de la siguiente forma
Transformacin Semilogartmica Suponga un modelo original no lineal de la siguiente forma Yi = 1 e2 Xi ui . Si aplicamos logaritmo nos quedar un modelo transformado de la siguiente forma
Transformacin Recproca Suponga un modelo original no lineal de la siguiente forma Yi = 1 + 1 2 Xi + ui . El cual podemos expresar como un modelo transformado de la siguiente forma
Yi = 1 + 2 Zi + u i
En donde 2 =
Y X
Si no se conoce a priori la forma funcional, existen algunos mtodos que podran identicar la existencia de alguna no linealidad. A continuacin veremos uno de ellos.
90
Y = X + u luego, denotamos, como ya es usual, Y = X . Ramsey propuso estimar el siguiente modelo auxiliar a travs de MCO. Y = X 1 + Z 2 + u
donde:
Z =
luego la nula:
Y 2 Y 3 ...
Ym
que al derivar la funcin objetivo con respecto a los parmetros de inters, podemos no obtener una forma funcional cerrada para nuestro estimador. Ello nos llevar generalmente a utilizar mtodos numricos para maximizar o minimizar nuestra funcin objetivo, la cual, incluso puede dejar de ser estrictamente cncava.
91
d1i =
1 mujer 0 hombre
(3.1)
A modo de ejemplo, pensemos en una ecuacin simple de salarios E(Salario(W)/Gnero), la cual implica el siguiente modelo:
Wi = 0 + 1 d1i + ui
entonces, dada la especicacin escogida para la dummy, tenemos que:
(3.2)
0 = E(W/hombre) 0 + 1 = E(W/mujer)
Alternativamente, podramos haber denido la dummy de la siguiente forma:
d2i =
0 mujer 1 hombre
92
(3.3)
y el modelo como
Wi = 0 + 1 d2i + ui
entonces, en esta segunda especicacin escogida para la dummy, tenemos que:
0 + 1 = E(W/hombre) 0 = E(W/mujer)
Una tercera forma de denir el modelo sera incluyendo ambas dummies:
Wi = 1 d1i + 2 d2i + ui
con el cual tendramos que los retornos a ambos gneros seran:
2 = E(W/hombre) 1 = E(W/mujer)
Los tres modelos anteriores son equivalentes. Note que en el tercer modelo no incluimos trmino constante ya que ello hara que la matriz X fuese singular y por lo tanto, no invertible. Dicho error de especicacin es llamado en la literatura Trampa de las Dummies y corresponde a un error netamente del investigador, no de los datos.
Un modelo de regresin puede contener variables explicativas que son exclusivamente dicotmicas o cualitativas, tales modelos se denominas Modelos de anlisis de varianza (ANOVA), estos modelos son utilizados para determinar la signicancia estadstica de la diferencias de medias entre grupos, por ejemplo, servira para determinar si existe diferencia signicativa entre los ingresos medios de los hombres y mujeres.
Ejemplo I:
Contamos con datos de ingreso proveniente de la ocupacin principal para el ao 2000, de acuerdo a zona geogrca de Chile: Norte (de la primera a la cuarta regin), Centro (quinta regin, sexta regin y regin metropolitana) y Sur (de la sptima a la duodcima regin). Suponga que deseamos averiguar si el salario promedio diere entre las distintas zonas geogrcas, si tomamos el promedio de los salarios de los individuos en cada una de las zonas obtenemos lo siguiente:
Zona Geogrfica Salario Promedio
Estos nmeros son claramente diferentes entre s, pero lo que nos interesa saber es si esta diferencia es estadsticamente signicativa, para esto utilizaremos un modelo ANOVA. Consideremos el siguiente modelo de regresin:
Yi = 0 + 1 D1i + 2 D2i + ui
donde:
Yi =Salario del individuo i. D1i =es una variable dummy que toma valor 1 si la persona i vive en el norte y cero sino. D2i = es una variable dummy que toma valor 1 si la persona i vive en el sur y cero sino.
Este modelo es como cualquier otro modelo de regresin lineal, la nica diferencia que ahora todo nuestras variables explicativas son binarias. De esta forma, el salario promedio de los individuos que viven en el norte es:
94
Como los tres coecientes estimados resultan ser estadsticamente signicativos, la diferencia en los salarios promedios entre regiones es estadsticamente signicativa. De esta forma, se puede concluir que los salarios en la zona centro son estadsticamente mayores a los de la zona norte y sur, y que los de la zona norte son estadsticamente superior a los de la zona sur. Es importante tener claro que las variables dicotmicas simplemente sealaran las diferencias, si es que estas existen, pero no sugieren razones por las cuales estas se presentan. Desde ahora llamaremos a la categora que no se le asigna dummy (en nuestro ejemplo la zona centro) como categora base, todas las comparaciones se harn respecto a esta categora. Los coecientes correspondientes a las variables dicotmicas los llamaremos coecientes de interaccin diferencial. Los modelos ANOVA que acabamos de analizar no son muy frecuentes en economa, slo se utilizan para testear diferencias de medias. Los modelos economtricos generalmente son ms amplios e introducen tanto variables explicativas continuas como dicotmicas. Por ejemplo, es razonable suponer que, adems del gnero, existen otros factores que explican el salario (educacin y experiencia (entre otros) siguiendo a Mincer (1974)). Especiquemos nuevamente el modelo en (3.2) como E(Salario (W)/Educacin (E), Gnero): Wi = 0 + 1 d2i + 2 Ei + ui Dicho modelo presenta un efecto intercepto para el gnero, es decir, hombres y mujeres poseen diferente intercepto, pero igual pendiente (2 ) en educacin (retorno a la educacin):
W
0+ 1
Hombres Mujeres
2
E
Salario y Educacin, diferencia de intercepto entre hombres y mujeres
95
Ahora, si quisiramos especicar un modelo en que adems las pendientes varen con el gnero (retornos a la educacin diferenciados), tendramos el siguiente modelo: Wi = 0 + 1 d2i + 2 Ei + 3 d2i Ei + ui donde: E(Salario (W)/Educacin (E), Hombre)=0 + 1 +2 E +3 E . E(Salario (W)/Educacin (E), Mujer)=0 +2 E .
E(Salario(W )/Educacin(E),Hombre) E E(Salario(W )/Educacin(E),M ujer) E
= 2 + 3 .
= 2 .
En el caso que existan otros regresores continuos (experiencia, por ejemplo), podra ser deseable poseer efectos diferenciados en la pendiente slo para algunos de ellos.
W 2+
3
Hombres Mujeres
0+ 1
E
Salario y Educacin, diferencia de intercepto y pendiente entre hombres y mujeres
96
Wi = 1 d1i + 2 d2i + ui
o en nuestra notacin matricial usual:
Y = X + u
97
D1 Y D2 Y
1 n i=1 n i=1
d1i yi d2i yi
donde n1 y n2 son el nmero de observaciones con d1i =1 y d2i =1, respectivamente, y y1 y y2 corresponden a las medias muestrales entre las respectivas observaciones. Y con respecto a la varianza de los estimadores:
V () = (X X)1 2 =
donde:
2 n1
0
2 n2
0
n
1 = n
2
u2 i
i=1
98
Ejemplo II:
A continuacin veremos la aplicacin de la llamada .Ecuacin de Mincer"para estimar el retorno a la educacin. Los datos corresponden a un grupo de jvenes chilenos egresados de la educacin media tcnica, los que fueron entrevistados en 1997. La primera gura muestra la estimacin de la ecuacin de Mincer en su versin original (1974):
ln(Salario)i = + 1 Educacioni + ui
Consideremos ahora una versin ms completa del modelo en que incluimos la experiencia y una dummy que toma el valor 1 si el individuo es una mujer:
Note que el retorno a la educacin sigue siendo positivo, mientras que la dummy para mujer es negativa (Qu signica que el parmetro sea negativo?). Veamos a continuacin, la misma especicacin, slo que esta vez la dummy se dene como 1 si el individuo es hombre:
99
Cmo es el parmetro de la dummy para el hombre comparado con el de la mujer? Qu pasa con la estimacin del resto de los parmetros?.
100
t = 0 + 1 t1 + 2 mt + ut
Supongamos el modelo ms simple posible:
yt = 1 yt1 + ut
con |1 | < 1
(3.4)
Adelantndonos a la teora de series de tiempo, el modelo anterior recibe el nombre de Proceso Autorregresivo de Primer Orden (AR(1)), donde el nombre de autorregresivo se debe a que la variable se explica por rezagos de ella misma y de primer orden porque depende slo del primer rezago (el orden indica el nmero mximo de rezagos incluidos).
La estimacin MCO del modelo anterior es = (X X)1 X Y , donde X=[i,Yt1 ], con la diferencia que esta vez poseemos n-1 datos, a menos que supongamos un valor inicial para Y0 . En este caso dejan de cumplirse uno de los supuestos bajo los cuales vimos las propiedades del estimador MCO y la inferencia asociada, aunque continuemos haciendo los supuestos pertinentes para el trmino de error, el modelo viola el supuesto de regresores jos (no estocsticos).
Analicemos esto con ms detalle, el estimador MCO de 1 en (3.4) es:
1 = = =
T t=2 yt yt1 T t=2 yt12 T t=2 (1 yt1 + ut )yt1 T 2 t=2 yt1 T ut yt1 1 + t=2 T t=2 yt12
=0
(3.5)
101
lo cual se cumplir en la medida que ys y ut sean independientes para todo (t,s). Para examinar este punto con ms detalle, substituyamos el modelo en repetidas ocasiones hasta llegar a una forma general:
y1 = 1 y0 + u1 2 y2 = 1 y1 + u2 y2 = 1 (1 y0 + u1 ) + u2 = 1 y0 + (u2 + 1 u1 ) 2 3 2 y3 = 1 y2 + u3 y3 = 1 (1 y0 + u2 + 1 u1 ) + u3 = 1 y0 + 1 u1 + 1 u2 + u3
. . .
t 2 t1 yt = 1 y0 + (ut + 1 ut1 + 1 ut2 + + 1 u1 )
Luego, multiplicando yt por ut , ut1 , ut2 , etc. y tomando esperanza, tenemos que:
102
3.4.1. Ejemplo y advertencias sobre el uso de variable dependiente rezagada como regresor
Tenemos la siguiente informacin sobre ndice de Precios al Consumidor (IPC) desde 1982 al 20034 . A partir de esta informacin podemos construir la inacin (cambio porcentual en el ndice de precios):
t =
IP Ct IP Ct1 IP Ct1
IP Ct = 0 + 1 IP Ct1 + ut
4 Informacin
103
Cuando el coeciente de la variable dependiente rezagada es muy cercano a 1, se dice que la serie tiene raiz unitaria5 . Sin embargo, este no es el caso. Si teoricamente siempre se espera que la inacin sea pequea pero positiva, deberiamos esperar que el ndice de precios siempre fuera creciendo, y por lo tanto esta serie ms que tener una raiz unitaria tiene una tendencia.
La persistencia en el ndice de precios al consumidor es casi obvia. Lo que nos interesa es determinar si existe persistencia en la inacin, la que deberamos esperar fuera estable en el tiempo y con valores relativamente bajos y positivos. Vemos que sucede al estimar el siguiente modelo:
t = 0 + 1 t1 + ut
104
donde se dice que el modelo (1) encompasa al (2) y al (3), ya que los dos segundos son el versiones restringidas del primero. Luego, se dice (2) y (3) son anidados en (1) La pregunta relevante es Cul de las tres especicaciones anteriores es mejor?. Los criterios de informacin nos ayudan a responder dicha pregunta. El primer criterio de informacin es el Criterio de Akaike (ACI) y se dene como:
ACI =
2 ln L k + n n
BIC =
ln(n) 2 ln L +k n n
Luego, el criterio de seleccin entre modelos anidados corresponde a elegir el modelo con menor criterio de informacin. Note que para que los criterios sean comprables, deben poseer el mismo tamao de muestra.
105
donde Wi era el logaritmo natural del salario del individuo i, d2i era una variable dummy que tomaba el valor 1 si la persona i era hombre y 0 sino, Ei eran los aos de educacin del individuo i y Ei d2i era una variable interactiva. Adems tenemos que el Modelo II anida al modelo III, y el modelo I anida a los modelos II y III. De esta forma, podemos utilizar los criterios de informacin de Akaike y Schwarz para determinar con que especicacin nos quedamos.
106
107
En resumen: Modelo I II II Akaike 2.278 2.279 2.338 Schwarz -680692.847 -680676.053 -676154.845
Como debemos elegir el modelo que minimize el criterio de informacin, de acuerdo a ambos criterios debemos elegir el Modelo I.
108
Y = X + u
La matrix X de dimensin n k puede ser particionada en dos submatrices de dimensiones n k1 y n k2 que llamaremos respectivamente X1 y X2 . De igual forma el vector de parmetros debe ser particionado en dos subvectores 1 y 2 asociado a cada una de las submatrices de variables explicativas. De esta forma, el modelo anterior puede ser reescrito como:
Y = X1 1 + X2 2 + u
En trminos matriciales estamos haciendo lo siguiente: 1 X1 X2 X = nk nk = k1 1 tal que 1 2 2 nk k1
k2 1
k = k1 + k2
Recordando que la estimacin mnimos cuadrados ordinaria implica despejar el vector de parmetros del sistema de ecuaciones normales X X = X Y , podemos escribir esto en funcin de las matrices particionadas:
X1 X2
X1 X2
X1 X1 X1 X2 X2 X1 X2 X2
1 2 1 2
= =
X1 Y X2 Y X1 Y X2 Y
(i) (ii)
X2 X2 2 = X2 Y X2 X1 1 X2 X2 2 = X2 (Y X1 1 ) 1 2 = (X2 X2 ) X2 (Y X1 1 ) (iii)
109
X1 Y = X1 X1 1 + X1 X2 (X2 X2 )1 X2 (Y X1 1 )
P2
X1 Y = X1 X1 1 + X1 P2 Y X1 P2 X1 1 X1 Y X1 P2 Y = X1 X1 1 X1 P2 X1 1 X1 (I P2 ) Y = X1 (I P2 ) X1 1
M2 M2
1 = (X1 M2 X1 )1 X1 M2 Y 2 = (X2 M1 X2 )1 X2 M1 Y
Tambin se puede demostrar que las matrices de varianzas y covarianzas de ambos estimadores son:
V (1 ) = 2 (X1 M2 X1 )1 V (2 ) = 2 (X2 M1 X2 )1
Donde 2 se obtiene utilizando la muestra completa.
Y = X1 1 + u
Estimando el modelo incorrecto obtenemos:
por lo cual:
E(1 ) = 1 + (X1 X1 )1 X1 X2 2 = 1 + Z2
Ello implica que por lo general, la omisin de variables relevantes (que pertenecen al modelo poblacional), causar que los parmetros estimados sea sesgados. Ello no suceder, slo en el caso que Z=0 (es decir que X1 y X2 sea ortogonales) o si 2 =0 (aunque dicho caso es contradictorio, dado que implicara que la variable no pertenece al modelo poblacional). La direccin del sesgo es difcil de obtener, sin embargo, el anlisis se simplica si pensamos en 1 y 2 como escalares. En dicho caso:
E(1 ) = 1 +
Cov(X1 , X2 ) 2 V (X1 )
De lo anterior, se desprende que la direccin del sesgo depende de como covarien las variables incluidas con respecto a las excluidas y del signo del parmetro omitido.
V (1 /X1 ) = 2 (X1 X1 )1
mientras que si hubiramos estimado el modelo correcto, se puede demostrar que la varianza del estimador insesgado de 1 (1 ) correspondera a:
V (1 /X1 , X2 ) = 2 (X1 M2 X1 )1
donde M2 = I X2 (X2 X2 )1 X2 . Luego, comparamos las inversas de ambas matrices:
3.7.3. Ejemplo
Suponga que un investigador quiere estimar el retorno a la educacin y que el modelo verdadero(obviamente es un caso ilustrativo) est dado por:
Wi = 1 Ei + 2 EXPi + ui
(1)
Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde a los aos de educacin del individuo i, EXPi corresponde a los aos de experiencia laboral del individuo i6 y ui corresponde a un trmino de error bien comportado. Sin embargo este investigador utiliza el siguiente modelo para su estimacin.
Wi = 1 Ei + ui
Los resultados del modelo verdadero son
(1)
6 La
112
Podemos ver el parmetro que acompaa a la variable aos de educacin es menor en el modelo estimado que en el modelo verdadero. Esta direccin del sesgo se puede explicar por el signo del parmetro que acompaa a la variable experiencia en el modelo verdadero y a la relacin existente entre educacin y experiencia en el mercado laboral.
113
Y = X1 1 + u
Suponga ahora que el investigador se equivoca y estima el siguiente modelo:
Y = X1 1 + X2 2 + u
Estimando el modelo incorrecto obtenemos:
1 = (X1 M2 X1 )1 X1 M2 Y = 1 + (X1 M2 X1 )1 X1 M2 u
donde M2 se dene igual que el la seccin anterior. Entonces:
E(1 ) = 1
y con el mismo razonamiento, se puede demostrar que:
E( 2 ) = E = 2
uu T k1 k2
es decir, la inclusin de variable irrelevantes no causa sesgo en los parmetros estimados, ni en la varianza de los errores estimados. Bajo dichos resultados, pareciera que es mejor poner muchos regresores en nuestro modelo. Sin embargo, nos falta estudiar que sucede con la varianza de los parmetros estimados.
1 = 1 + (X1 M2 X1 )1 X1 M2 u
con lo cual, la varianza estimada:
V (1 /X1 , X2 ) = 2 (X1 M2 X1 )1
114
V (1 /X1 ) = 2 (X1 X1 )1
entonces, como probamos con anterioridad, la varianza verdadera es menor que la varianza estimada. Ello implica que el incluir regresores adicionales, aumenta la varianza de nuestros parmetros estimados, lo cual se traduce en parmetros menos ecientes.
3.8.3. Ejemplo
Suponga que un investigador quiere estimar el retorno a la educacin y que el modelo verdadero(obviamente es un caso ilustrativo) est dado por:
Wi = 1 + 2 Ei + ui
(1)
Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde a los aos de educacin del individuo i y ui corresponde a u trmino de error bien comportado. Sin embargo este investigador utiliza el siguiente modelo para su estimacin.
Wi = 1 + 2 Ei + 3 Di + ui
(1)
Donde Di corresponde a una variable dicotmica que toma el valor 1 si el individuo fuma y 0 si no fuma. Los resultados del modelo verdadero son
Podemos ver no existe una variacin importante en los parmetros del modelo estimado y el modelo verdadero. Sin embargo, tal como habamos demostrado, la varianza de los parmetros aumenta disminuyendo entonces la eciencia.
116
Figura 8: Homocedasticidad
Figura 9: Heterocedasticidad
Adems se supona que los trminos de error no estaban correlacionados entre si (Supuesto 5):
Cov(ui uj ) = 0 para i = j
117
Es decir, tenamos que E[uu ]= 2 In , ahora si el trmino de error no cumple con los supuestos del modelo de regresin lineal tenemos que E[uu ]= 2 . Donde es una matriz denida positiva.
= (X X)1 X Y = + (X X)1 X u Como el supuesto de que E[u|X] = 0 se mantiene, tenemos que la E[|X] = y ]=0. De esta forma, el estimador MCO con perturbaciones por lo tanto, E[ no esfricas sigue siendo insesgado y consistente. Pero no ser eciente, dado E[uu ]= 2 entonces la varianza de es: V ar() = E
= E (X X)1 X uu X(X X)1 = 2 (X X)1 (X X)(X X)1 De esta forma, solo si = In la matriz de covarianzas de ser igual a 2 (X X)1 , por lo tanto el estimador MCO en presencia de perturbaciones no esfricas no tendr varianza mnima, es decir, no ser eciente. Entonces cualquier inferencia basada en 2 (X X)1 llevar a conclusiones errneas.
118
ta de la siguiente manera:7
= CC
donde las columnas de C son los vectores propios de y los valores propios (j ) de se encuentran en la diagonal de . Entonces sea 1/2 , la matriz diagonal con el j-simo elemento igual a j y sea T = C1/2 . De esta forma, = T T . Adems sea P = C1/2 y por lo tanto, 1 = P P . 8 Si pre multiplicamos Y = X + u por P obtenemos:
P Y = P X + P u o Y = X + u
Notemos que (3.6) es un modelo transformado de forma tal que:
(3.6)
V ar(u ) = E[u u ] = 2 P P = 2 In
(3.7)
Por lo tanto, el modelo transformado cumple con los supuestos del modelo clsico de regresin, y se puede utilizar MCO para estimar el parmetro :
M CG = (X X )1 X Y = (X P P X)1 X P P Y = (X 1 X)1 X 1 Y
Como el estimador MCG de es idntico al estimador MCO aplicado al modelo transformado (3.6) y que cumple con los supuestos, M CG es MELI.
119
siguiente estadstico F:
1 2 Q M CG c [Q M CG (X X )1 Q] Q M CG c
Fq,nk
2 M CG
Y X M CG 1 Y X M CG u u = = nk nk
Entonces lo que debemos hacer es sustituir por un estimador de ella . Esto se denomina estimador Mnimos Cuadrados Factibles (MCF), donde el estimador de se dene de la siguiente forma: M CF = X 1 X
1
X 1 y
El problema es que tenemos ms incgnitas (n(n+1)/2) en que observaciones, para n>1. En la prctica para lograr la estimacin de debemos asumir que es funcin de un nmero jo y reducido de parmetros . El problema se reduce a encontrar y usarlo para computar = ().
120
3.9.5. Heterocedasticidad
La Heterocedasticidad surge cuando a pesar de que Cov(ui uj )=0 para i= j, las 2 varianzas de cada observacin son diferentes, es decir, V ar(uj ) = j para j=1,...,n. La matriz de covarianzas en este caso es: 2 1 0 1 0 . . . . E[uu ] = 2 = . . . . . = 2 . . . . . . . . .
0
4000000
2 n
salario 2000000
3000000
1000000
x
8
x
10
12
Escolaridad
14
16
18
La heterocedasticidad es un problema bastante recurrente, especialmente al trabajar con datos de corte transversal. Algunas razones por las que ui puede variar son las siguientes: En los modelos de aprendizaje sobre errores, a medida que la gente aprende, sus errores de comportamiento son menores, as en este caso a medida que aumentan las horas de prctica de una cierta actividad, la varianza de los errores se reduce. A medida que aumentan los ingresos, la gente tiene ms posibilidades de disponer de parte de ese ingreso de la forma que desee. As en una regresin 2 de ahorro contra ingreso, es posible que i aumente en la medida que el ingreso aumenta. La Heterocedasticidad tambin puede surgir por la presencia de factores atpicos, que es muy diferente a las restantes observaciones. 121
Al omitir variables relevantes, a parte del sesgo que se produce en las estimaciones por esto, se produce Heterocedasticidad ya que este variable estar en el trmino de error y por lo tanto la varianza depender de ella. Otra fuente de Heterocedasticidad es la asimetra en la distribucin de una o ms variables explicativas incluidas en el modelo, por ejemplo: ingreso, riqueza y educacin.
122
Como mencionamos anteriormente en presencia de Heterocedasticidad el estimador MCO seguir siendo insesgado, pero no tendr varianza mnima. El estimador que si cumple con la propiedad de MELI es el de MCG. Este ltimo estimador requiere conocimiento de la matriz . Sin embargo, White (1980) ha propuesto una aproximacin a la matriz de covarianzas del estimador MCO:
La sugerencia de White es que la varianza del estimador M CO se exprese de la siguiente forma: V ar(|X) = n(X X)1
se dene:
1 2 X X (X X)1 n
= n1 2 X X
n
= n
1 i=1
2 i xi xi
= n1
i=1
ui 2 x i x i
= n1
i=1
ui 2 x i x i
(3.8)
su comparacin con 2 (X X)1 puede dar nocin del grado de heterocedasticidad. La estimacin de White de una matriz consistente con Heterocedasticidad es un resultado muy til, ya que no se necesita saber la naturaleza de la Heterocedasticidad. Ante la duda de presencia de este problema es mejor ocupar este estimador ya que no produce alteraciones, y nos permite hacer inferencia correcta con o sin la presencia de Heterocedasticidad. 123
Contrastes de Heterocedasticidad:
1. El contraste de White: La hiptesis nula es de Homocedasticidad (al 2 igual que en todos los contrastes que estudiaremos). Esto es, H0 : i = 2 i, bajo la hiptesis nula el estimador de la matriz de covarianzas de es 2 1 V ar(|X) = (X X) , pero bajo la hiptesis alternativa es (3.8). Basado en la observacin de esto, White propone un test que puede obtenerse al calcular nR2 de una regresin de u2 contra todos los productos posibles i entre las variables explicativas. Demuestra que nR2 2 , donde J es el J1 nmero de regresores de esta ecuacin. Consideremos el siguiente modelo:
yi = 0 + 1 xi + 2 zi + ui
Los pasos para realizar el test de White son:
a ) Obtener y los residuos de la estimacin del modelo anterior por MCO {i }n u i=1
b ) Correr una regresin de u2 sobre una constante, xi , zi , x2 , zi2 y xi zi . i i c ) Computar nR2 de la regresin anterior d ) Para el nivel de signicancia escogido, comparar nR2 con el valor crtico de una distribucin chi cuadrado con 5 grados de libertad. Si nR2 excede el valor crtico se rechaza la hiptesis nula de Homocedasticidad.
2. El contraste de Goldfeld y Quandt: este contraste parte del supuesto de 2 que la magnitud de i depende de cierta variable zi , la que generalmente es una variable explicativa pero no es necesario. Supongamos que dicha 2 relacin es positiva, es decir, para valores ms altos de zi mayor es i . Las observaciones se dividen en dos grupos, bajo la hiptesis nula ambos grupos tienen la misma varianza, pero bajo la alternativa las varianzas dieren signicativamente. Entonces el contraste consiste en:
a ) Ordenar las observaciones por los valores de la variable zi , de menor a mayor. b ) Omitir p observaciones en la mitad de la muestra, se sugiere no eliminar ms de la tercera parte de las observaciones. c ) Estimar dos veces el modelo original, una con las np primeras ob2 servaciones muestrales y otra con las np ltimas observaciones en la 2 muestra. Notar que p debe ser lo sucientemente pequeo de manera que T p sea mayor al nmero de parmetros. 2
124
d ) Se calcula es estadstico:
u 2 u2 Fm,m u 1 u1
con m =
np k 2
Si se sospecha que la varianza del error depende inversamente de zi , entonces las observaciones se deben ordenar de mayor a menor. Si se llega a la conclusin de que el trmino de error del modelo no presenta heterocedasticidad, podra deberse a que hemos comenzado con una mala 2 especicacin del parmetro i , que quizs depende de un variable diferente a la que hemos supuesto. Por esta razn el contraste debera realizarse varias veces con distintas variables de las que tengamos sospechas pueda depender la varianza del trmino de error. 3. El contraste de Breusch y Pagan: supongamos que la varianza del trmino de error de cada observacin depende de un vector de variables zi de dimensin p, es decir:
2 i = h(zi ) = h(0 + 1 z1i + 2 z2i + ... + p zpi )
Notemos que si todos los coecientes 's excepto el correspondiente a 0 fuesen cero, tendramos una situacin de Homocedasticidad. Por lo tanto, si puedieramos estimar los coecientes 0 , 1 ,...,p un contraste para la hiptesis nula de Homocedasticidad es:
H0 :
1 = 2 = ... = p = 0
a ) Se estima por MCO el modelo original y se obtienen los residuos correspondientes. b ) Se obtiene la serie de residuos normalizados al cuadrado:
e2 = i
u2 i u 2
i = 1, ..., n donde u = 2
n i=1
u2 i
c ) Se estima una regresin de e2 sobre una constante y las variables z1i , i z2i ,...,zpi y se obtiene la suma explicada (SE) de dicha regresin.9 d ) Bajo la hiptesis nula de Homocedasticidad y dado el supuesto de normalidad del trmino de error, la razn SE se distribuye 2 . p 2
que la suma explicada de una regresin es igual a la variable dependiente.
9 Recordemos
n y i=1 (i
y)2 , cuando yi es
125
4. El contraste de Glesjer: este contraste es ms ambicioso que el anterior, ya que trata de estimar la verdadera estructura de Heterocedasticidad, no limitndose a una estructura lineal. Sin embargo, una limitacin del contraste de Glesjer es que slo resulta til cuando se cree que dicha estructura puede explicarse solo con una variable. Este contraste se hace en tres etapas:
a ) Estimar el modelo por MCO y obtener los residuos correspondientes. b ) Estimar una regresin del valor absoluto de ui , o su cuadrado u2 , sobre una potencia de la variable zi , es decir:
|i | = 0 + 1 zih + i u
1 1 para distintos valores del exponente h: h = 1, 1, 2 , 2 . Escoger el valor de h que proporcione una mejor regresin (coeciente 1 signicativo y una suma residual pequea).
c ) Una vez seleccionado h, se divide el vector de dimensin (k+1) formado h por las observaciones (yi ,xi ) de cada periodo por 0 +1 zi si se estimo la h i regresin de |ui | y por 0 + 1 zi si se estimo u2 , y se estima el modelo de nuevo por MCO, pero ahora con las variables transformadas.
126
= = =
u=
127
El estimador del parmetro asociado al empleo resulta ser signicativo, por cada 1,000 empleador el PIB aumenta en 3,760 millones de pesetas. Sin embargo, la estimacin de la constante es bastante imprecisa, y por ello resulta ser no signicativa. Existe la posibilidad de que la varianza del componente del PIB no explicado por el empleo aumente con este, es decir, tengamos un problema de 2 heterocedasticidad, donde i depende de empleoi , y de esta forma, i depende de empleo2 . Con esta sospecha, es necesario testear Heterocedasticidad. i
SE
Una vez realizada la estimacin se construye el estadstico SE = 7,64, que resulta 2 ser mayor al valor de tabla de una 2 al 95 % de conanza (3.84), de esta forma 1 se rechaza la hiptesis nula de homocedasticidad.
2. Test Goldfeld y Quandt: es de esperar que la varianza dependa positivamente del nivel de empleo, de esta forma, ordenamos las observaciones de menor a mayor nivel de empleo y omitimos las 6 observaciones que ocupan los lugares centrales. Luego estimamos dos modelos cada uno con 6 observaciones, y se computa el estadstico igual a la divisin de la suma residual: 128
= 93.2
Este estadstico debe ser comparado con el valor de tabla de una distribucin Fm,m al 95 % de conanza, que es igual a 6.39. De esta forma, nuevamente se rechaza la hiptesis nula de Homocedasticidad.
129
3.9.6. Autocorrelacin
Al comienzo de esta seccin examinamos el caso general cuando la matriz de varianzas y covarianzas del error dejaba de cumplir los supuestos 4 y 5, en este caso la matriz ya no era 2 In , sino que era igual a 2 . La forma que tome esta matriz depender de cual de los dos supuestos se estaba rompiendo. En la seccin 3.8.5, vimos que forma toma la matriz si se rompe el supuesto 4 de Homocedasticidad en el trmino de error, en este caso la matriz de varianzas y covarianzas del error es no escalar (o no esfrica) porque los elementos de la diagonal eran distintos para cada observacin i. Por otra parte, la autocorrelacin es un problema que surge cuando rompemos el supuesto 5 de no autocorrelacin en los errores. Ello implica que:
Cov(ui uj ) = 0 para i = j
La autocorrelacin en el trmino de error se da en los datos se serie de tiempo, donde es un problema bastante comn. Luego, nuestra matriz de varianzas y covarianzas del error ya no ser una matriz diagonal (como en el caso de varianzas esfricas y no esfrica pero slo con heterocedasticidad) ya que el trmino de error se encuentra correlacionado consigo mismo a travs del tiempo. La forma que toma la matriz cuando slo tenemos autocorrelacin pero los errores son homocedsticos: 2 1,2 1,3 1,T 2,1 2 2,3 2,T 3,1 3,2 2 3,T 2 E[uu ] = = . . . . .. . . . . . . . . . T,1 T,2 T,3 2 donde t,q = cov(ut uq ). Nuestro modelo ahora ser:
yt = Xt + ut t = 1, 2, ..., T. ut = ut1 + t
donde, como vimos en la seccin 3.4, el error sigue un proceso AR(1).
(3.9)
130
ut = ut1 + t
2 1. V (ut ) = V (ut1 + t )=2 V (ut1 ) + , de esta forma V (ut ) =
2 12
2. Como E(ut ) = 0, Cov(ut ut1 ) = E(ut ut1 ). Calculemos esta ltima esperanza:
E(ut ut1 ) =
ut ut2 = ut2 (ut1 + t ) = ut1 ut2 + ut2 t /E() E(ut ut2 ) = E(ut1 ut2 ) + E(ut2 t )
2 0
E(ut ut2 ) = 2 2
4. As se puede derivar la siguiente expresin genrica:
E(ut ut(T 1) ) = T 1 2
131
Entonces:
E[uu ] = 2 = =
T 1 2 T 2 2 T 3 2 . .. . . . 2
T 1 2 T 2 2 1 2 1 2 1 = 2 . . . . . . . . . T 1 T 2 T 3
2 2 2 . . .
T 3 2 T 1 T 2 T 3 . .. . . . 1
2 2 2 2 . . .
Existencia de ciclos y tendencias : Si la autocorrelacin es positiva (es decir, en (3.9) el coeciente es positivo), un valor alto de ut que genera un valor de yt por sobre su media condicional, tendr una probabilidad elevada de ir seguido por un valor alto de ut+1 , y por ello, de un valor de yt+1 por encima del promedio; lo mismo ocurra para yt debajo del promedio. Sin embargo, si existe autocorrelacin negativa, valores de yt por sobre su valor promedio condicional irn seguidos, con alta probabilidad, de valores de yt+1 por debajo de su promedio. Por lo tanto, la autocorrelacin positiva esta asociada a la existencia de rachas de valores altos y bajos de yt .
132
Autocorrelacin Positiva
Autocorrelacin Negativa
Entonces, si debido a la inercia presente en la mayora de las variables macroeconmicas la variable endgena presenta ciclos, y estos no son bien explicados por la variables exgenas del modelo, el trmino de error tendr autocorrelacin. Por otra parte, tambin es cierto que la mayora de las variables econmicas (y especialmente las variables medidas en trminos nominales) tienen una tendencia, generalmente creciente. Si el conjunto de variables explicativas del modelo no explican adecuadamente dicho comportamiento, entonces el trmino de error incorporar dicha tendencia, lo que conduce a existencia de autocorrelacin positiva:una primera racha de residuos negativos seguidos por otra racha de residuos positivos.
Variables omitidas : Omisin tanto de variables relevantes, de no linealidades y de relaciones dinmicas (rezagos de la variable dependiente) sern
133
incorporadas al trmino de error, causando posible autocorrelacin (adems de las diculatdes que usted ya comoce de las secciones 3.4 y 3.6).
Todo lo dicho en las secciones 3.8.1 hasta 3.8.4 aplican en este contexto (recuerde que la matriz se plante en trminos generales). De esta forma, MCO sigue siendo insesgado, pero pierde eciencia, por lo cual ya no es MELI. El estimador de mnima varianza en este contexto es MCG, y en caso de desconocerse la forma de la autocorrelacin se debe utilizar MCF. Sin embargo y siguiendo el espritu de la correccin de White, Newey y West (1987) propusieron una correccin para la matriz de varianzas y covarianzas de MCO. Recordemos que en este contexto se cumple que:
(3.10)
1 S = n t=1
w(t s)t us xt xs u
(3.11)
s=1 |ts|<L
donde L corresponde al orden mximo de autocorrelacin del trmino de error (que no siempre es fcil de determinar).
134
Contrastes de Autocorrelacin
1. Test de Durbin-Watson (d): Lejos el test ms utilizado para detectar autocorrelacin de los residuos es el test propuesto en 1951 por Durbin y G.S Watson. El test est diseado para detectar autocorrelacin en los residuos de la forma ut = ut1 +t (AR(1)), donde es ruido blanco (media cero y varianza constante). La nula corresponde a no autocorrelacin de los residuos (H0 : = 0 H1 : = 0)y el test se dene como:
d=
(3.12)
Si > 0, los valores de u probablemente sern muy cercanos, por lo cual el numerador ser muy pequeo en comparacin al residuo mismo. Ello implica que d ser pequeo. Si < 0, entonces el numerador probablemente ser grande, ms grande que el residuos n si mismo. Ello implica que d ser grande10 . Se puede demostrar que para muestra grandes d converge a:
d
con:
2(1 )
(3.13)
ut = t1 + ut u
(3.14)
Respecto a los valores crticos del test, la distribucin en muestras nitas depende del supuesto de normalidad de los errores y de la matriz X, por lo cual Durbin y Watson derivaron las tablas de valores de crticos para facilitar la aplicacin del test. Sin embargo, dichos valores poseen rangos indeterminados, en los cuales no podemos tomar una decisin respecto a la nula. El test distribuye con dos colas y se presenta en la siguiente gura:
lo tanto, autocorrelacin positiva tender a arrojar un pequeo d, mientras que autocorrelacin negativa tender a arrojar un d grande
10 Por
135
Por ejemplo, el test rechaza la nula de no autocorrelacin en favor de la alternativa de correlacin positiva si DW < dl y lo rechaza ante la alternativa de correlacin negativa de los errores si DW > 4 dl. El test posee dos zonas grises que se presentan en los intervalos (dl,du) y (4-du, 4-dl), en las cuales no podemos decir nada respecto de la nula. Finalmente, si DW cae dentro del intervalo (du, 4-du) no se rechaza la nula de no autocorrelacin. Sin embargo, las tablas de valores crticos son raramente utilizadas. Lo anterior debido a que si no existe autocorrelacin, por la ecuacin (3.13) sabemos que el valor de d ser cercano a dos, mientras que si hay evidencia de autocorrelacin positiva d ser muy pequeo y si existe evidencia de autocorrelacin negativa,d ser grande. El test posee dos grandes omisiones. Primero, slo sirve para detectar autocorrelacin de orden 1 en los errores y segundo, no puede ser aplicado si se incluyen regresores de la variable dependiente en el modelo (porque se construye bajo el supuesto de regresores determinsticos). Adems, se debe tener presente que el test est construido bajo normalidad de los errores y que existen las zonas grises o indeterminadas de las que hablbamos con anterioridad. 2. Test de h-Durbin (h) Una variacin del test DW puede ser aplicada cuando existen variables rezagadas de la variable dependiente en nuestro
136
h =
DW 2
n a N (0, 1) 1 n 2
(3.15)
donde a la varianza del parmetro asociado al primer rezago de la variable 2 dependiente incluido en el modelo. Algunas notas respecto al test. Primero, no importa cuantos rezagos de Y se hallan incluido en el modelo: slo nos interesa la varianza del primero de ellos. Segundo, el test no es aplicable cuando n > 1 y tercero, las propiedades del test slo son conocidas as2 intticamente, por lo cual debe ser implementado con cuidado en muestras pequeas. 3. Test de Breusch y Godfrey Este test es una alternativa para testear autocorrelaciones de ordenes superiores a 1 y se basa en el test LM introducido en la seccin 2.12.3. La nula, al igual que en todos los test de autocorrelacin es que los residuos no se encuentran correlacionados. Consideremos para distintos valores de k, el siguiente conjunto de estadsticos:
rk =
(3.16)
note que si k=1, entonces estamos en una caso parecido al estadstico DW. Los pasos para realizar el test son:
a ) Estimar el modelo por MCO y obtener los residuos u. El modelo puede incluir rezagos de la variable dependiente. b ) Estimar una regresin auxiliar de ut sobre p rezagos: ut1 , . . . , utp , incluyendo las variables exgenas (X) del modelo original. Note que deber excluir p observaciones. c ) Calcular el R2 de la regresin auxiliar d ) Construir el estadgrafo nR2 2 p
La lgica del test se basa en que si no existe autocorrelacin, entonces los residuos MCO no deberan ser explicados por sus retardos, por lo cual el R2 de la regresin auxiliar debera ser cercano a cero, lo cual nos llevara a un bajo valor del estadgrafo y a un no rechazo de la nula. 4. Test de Box-Pierce-Ljung (Q-Stat) Este test se basa en el cuadrado de las primeras p autocorrelaciones de los residuos MCO. El estadgrafo se dene como:
p
Q=n
j=1
2 rj
(3.17)
137
donde:
rj =
n t=j+1
ut utj 2 t=1 ut
La distribucin del estadgrafo bajo la nula de no autocorrelacin es 2 con grados de libertad igual a p menos el nmero de rezagos del error incluidos en la especicacin autorregresiva del error. De ello se deduce que el test permite detectar autocorrelacin de ordenes superiores a 1.
0 0 0 . .. . . . 1
Entonces utilizando esta matriz P podemos transformar el modelo y aplicar Mnimos Cuadrados Generalizados. Al premultiplicar X e Y por la matriz P tendremos que la primera observacin se transforma de la siguiente forma:
1 2 y1 = (
1 2 )x1 + (
1 2 )u1
(3.18)
(3.19)
El que la primera observacin de la muestra tenga un trato especial, es porque para ella no existe una observacin anterior, y por lo tanto, es imposible aplicar la transformacin en (3.19).
138
1. Estimacin MCF: El Mtodo de Cochrane Orcutt La matriz P que transforma nuestro modelo en un libre de autocorrelacin en el error, es tal que cada observacin de las variables dependientes, explicativas y trmino de error, se debe transformar de acuerdo a (3.19). Si es que nuestro modelo es el siguiente:
y t = x t + ut ut = ut1 + t
El modelo transformado es de la siguiente forma:
x t yt
x t
+ t
a ) Estimar por Mnimos Cuadrados Ordinarios la regresin de inters, ignorando la presencia (conocida) de autocorrelacin de primer orden en el trmino de error. b ) Utilizar los residuos MCO para estimar el parmetro . Esto puede hacerse mediante una regresin de ut contra ut1 , o a partir del es tadstico DW de la estimacin anterior.
c ) Utilizar este parmetro para transformar las variables, y obtener yt y xt .
d ) Estimar por MCO un modelo con las variables transformadas, para obtener un nuevo vector de coecientes . e ) Utilizar esta nueva estimacin para computar otro vector de residuos, y utilizar estos residuos para obtener una nueva estimacin de f ) Repetir este procedimiento hasta que los convergan11 .
Este Mtodo puede ser fcilmente generalizado con autocorrelacin de orden superior. 2. Estimacin por Mxima Verosimilitud
sucede cuando la diferencia entre el vector de parmetros diere innitesimalmente del obtenido en la vuelta anterior.
11 Esto
139
Supongamos que se pretende estimar el modelo de regresin con autocorrelacin de primer orden. Adems debemos asumir alguna distribucin para t (recuerde que este es un requisito para poder estimar por mxima 2 verosimilitud). Supongamos que t se distribuye N (0, ). As, la funcin de verosimilitud es:
L=
exp
T 2 t=1 t 2 2
(3.20)
Recordemos que P es la matriz que transforma ut en t , es decir, t = P ut . La funcin de verosimilitud en (3.20) se puede expresar en funcin del trmino de error ut (AR(1)) como12 :
L=
exp
(1 2 )u2 1
T t=2 (ut 2 2
ut1 )2
1 2 .
Finalmente, la funcin de verosimilitud en funcin del trmino de error original autocorrelacionado es:
L=
1 2 exp
u 1 u 2 2
(3.21)
f () =
o equivalentemente:
exp
T 2 t=2 t 2 2
f () =
exp
2 2
f (u) =
|P | exp
u P Pu 2 2
140
lnL =
T 1 2
ln(2)
T 1 2
2 ln( )
1 2 2
lnL 1 = 2 lnL 1 = 2
t x = 0 (k t
t=2 T
ecuaciones)
lnL (T 1) 1 2+ = 2 2
= 0 (1 ecuacion)
De (3.22) podemos encontrar el estimador MV de , que como podemos observar coincide con el estimador MCF. De (3.23) se determina el estimador MV de :
T t=2
ut ut1
ut1
Ct = 0 + 1 Yt + ut
(3.25)
donde Ct es el consumo e Yt es el Ingreso. Para esto contamos con informacin del consumo agregado del sector pblico y privado y del PIB de Espaa para los aos 1954-1988. Estas series se muestran en el siguiente grco:
estimacin condicional toma la primera observacin como dada y es eliminada de la estimacin, es decir, se estima con (T-1) observaciones
13 La
141
20000
16000
12000
8000
4000
142
Dependent Variable: CONSUMO Method: Least Squares Date: 11/09/04 Time: 15:51 Sample: 1954 1988 Included observations: 35 CONSUMO=C(1)+C(2)*PIB Coefficient C(1) C(2) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood 76.53412 0.768971 0.997394 0.997315 180.8607 1079450. -230.5536 Std. Error 81.89808 0.006842 t-Statistic 0.934504 112.3909 Prob. 0.3568 0.0000 8615.809 3490.620 13.28878 13.37765 0.338818
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Durbin-Watson stat
Si comparamos el valor del DW (0.34) con el valor de tabla (k'=1 y n=35 al 95 % de conanza, di=1.4 y ds=1.52), tenemos que se rechaza la hiptesis nula de no autocorrelacin a favor de autocorrelacin positiva. Adems podemos apreciar grcamente la forma autorregresiva de los residuos:
16000 12000 8000 400 4000 200 0 0 -200 -400 1955 1960 1965 1970 1975 Residual Actual 1980 1985 Fitted
Veamos que sucede con nuestros parmetros estimados si aplicamos la correccin de Newey-West a nuestra estimacin MCO: 143
Dependent Variable: CONSUMO Method: Least Squares Date: 11/09/04 Time: 15:59 Sample: 1954 1988 Included observations: 35 Newey-West HAC Standard Errors & Covariance (lag truncation=3) CONSUMO=C(1)+C(2)*PIB Coefficient C(1) C(2) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood 76.53412 0.768971 0.997394 0.997315 180.8607 1079450. -230.5536 Std. Error 105.8340 0.008968 t-Statistic 0.723152 85.75039 Prob. 0.4747 0.0000 8615.809 3490.620 13.28878 13.37765 0.338818
Mean dependent var S.D. dependent var Akaike info criterio Schwarz criterion Durbin-Watson sat
144
Para realizar la estimacin MCF de la propensin marginal a consumir (que es equivalente a la estimacin Mximo Verosmil) debemos primero estimar la funcin autorregresiva del error. Para esto determinemos primero el vector de residuos de la estimacin MCO de nuestro modelo de inters:
145
Una vez estimado podemos transformar el modelo original de acuerdo a la ecuacin (3.19), de forma que el error transformado (t ) cumple con los requisitos para que MCO sea MELI:
146
147
Primero, podemos notar que el DW es 1.81, mayor al lmite superior de tabla (1.52) y menor a (4 ds) = 2,48, por lo tanto no se puede rechazar la nula de no autocorrelacin. El parmetro de la propensin marginal a consumir es exactamente el mismo que el obtenido de la estimacin MCO del modelo original.
148
El mtodo de recoleccin de informacin empleado, obtencin de muestras en un intervalo limitado de valores de los regresores en la poblacin. Restriccin en el modelo o en la poblacin objeto de muestreo. Especicacin del modelo.
Consideremos el siguiente modelo:
Si existe la inversa de X'X, el estimador MCO de este modelo, viene dado por 2 M CO = (X X)1 X y y su matriz de covarianzas es Var( )=u (X X)1 . Supongamos que la xji tiene un alto grado de correlacin con las dems variables explicativas de modelo, es decir que la regresin lineal:
(4.1)
En estas condiciones la variable xji puede escribirse aproximadamente como una combinacin lineal del resto de las variables explicativas del modelo, lo que se puede apreciar en la ecuacin (4.1). Como consecuencia una de las columnas de la matriz X, la correspondiente a xji , puede escribirse como una combinacin lienal aproximada de las dems columnas de X, y de esta forma (X'X) ser aproximadamente singular. En la medida que el determinante de (X'X) sea distinto de cero, existir (X'X)1 , y por lo tanto tambin existir es el estimador MCO, y sigue cumpliendo con la propiedad de MELI, pero se tienen las siguientes consecuencias: 1. La solucin del sistema de ecuaciones normales est mal denido: mientras la dependencia de xji sea aleatoria como lo muestra la ecuacin (4.1) y no exacta, X'X no ser exactamente singular y existir un nico estimador MCO, ya que existe una nica solucin al sistema de ecuaciones normales, pero tambin habr un nmero de vectores 1 , 2 , ..., que al sustituirlos en el sistema de ecuaciones normales, seran aproximadamente una solucin al mismo. 2. Pequeas variaciones muestrales por incorporar o sustraer un nmero reducido de observaciones muestrales, introducir ligeros cambios en (X'X) y X'y, pero podran generar importantes cambios en la solucin del sistema de ecuaciones normales. 3. Al ser la matriz X'X casi singular, es muy pequea. Como consecuencia la matriz de covarianzas ser muy grande, por lo tanto el estimador MCO es poco preciso en este caso.
150
Multicolinealidad Exacta: una de las variables explicativas es una combinacin lineal determinstica de todas las dems (o algunas de ellas).
Las variables x3 y x4 tienen las mismas observaciones numricas solo que en distinto orden, de forma tal que la correlacin entre x2 y estas dos variables 151
son: 23 = 0,32 y 24 = 0,93, altamente diferentes entre s. Una regresin de yi sobre x2i , x3i y una constante gener las siguientes estimaciones MCO:
(4.2)
R2 = 0,92 u = 2,09 2
(4.3)
R2 = 0,83 u = 3,16 2
Ambas regresiones no incluyen las mismas variables explicativas y por lo tanto, no son comparables. Sin embargo, en el segundo modelo donde el grado de correlacin entre las variables explicativas es alto, podemos apreciar que a pesar de que el R2 es alto, los parmetros resultan ser insignicativos individualmente (t4 =2.78). 152
2. Pequeos cambios en los datos, produce importantes variaciones en las estimaciones mnimo cuadrticas. 3. Los coecientes pueden tener signos opuestos a los esperados o una magnitud poco creble.
X = [xj ; Xj ]
donde xj es un vector columna correspondiente a la j-sima variable explicativa y Xj una matriz de n(k-1) con las observaciones de las restantes variables. Entonces, X'X puede escribirse como:
XX=
xj xj xj X j Xj xj Xj Xj
1
V ar(j ) =
Lo que tiene la siguiente expresin:
2 u xj Mj xj
(4.4)
V ar(j ) =
1 Recordar
2 u 2 STj (1 Rj )
(4.5)
A11 A21
A12 A22
A1 A12 F2 11 F2
153
donde STj es la suma total de la regresin entre xj y Xj (STj = n (xji i=1 xj )2 ) y R2 es el coeciente de determinacin de esta misma regresin. j
Por lo que la relacin entre las varianzas de la estimacin de j en un caso de correlacin entre variables explicativas y el caso de independencia lineal es:
V ar(j ) 1 = 2 0 1 Rj V ar(j )
154
De acuerdo con este anlisis, los coecientes de determinacin obtenidos en las regresiones de cada variable explicativa con el resto son un buen indicador de una posible situacin de multicolinealidad.
(b) Mtodos basados en el tamao de la matriz X'X: cuando tenemos multicolinealidad la matriz X'X es casi singular, de esta manera una medida de tamao de esta matriz nos permite detectar la presencia de multicolinealidad. El determinante no es una medida buena, ya que tiene problemas de sensibilidad a los cambios de unidades. Pero sabemos que el determinante de una matriz simtrica es igual al producto de sus valores propios, y por lo tanto el examen de estos valores nos da una idea del tamao de la matriz. De esta forma, Belsley propone la siguiente medida para ver el grado de multicolinealidad:
max min
Esta medida se denomina nmero de condicin de la matriz X, y nmeros de este indicador mayores 25 suelen considerarse problemticos. Los 's corresponden a los valores propios de la matriz B = S(X X)S , donde S es la siguiente matriz diagonal: 1 0 0 x2 x2 . . 1 0 . 0 x3 x3 S= . .. . . . 0 0 0 0 1
xk xk
Esta matriz nos permite librarnos del problema de unidad en el tamao de los valores propios, ya que normaliza cada una de las variables al dividir todas las observaciones por su desviacin estndar. El nmero de condicin de la matriz X ( ), implica que mientras mayor es este valor, el valor de min es realmente pequeo al compararlo con max , indicando el potencial problema de multicolinealidad.
estimador MCO sigue siendo el mejor estimador lineal insesgado de los parmetros. El problema es que, cuando hay multicolinealidad, el mejor no resulta ser muy bueno. Las soluciones propuestas en la literatura (estimador de ridge o estimador cresta y estimador de componentes principales) tienen como caracterstica buscar un estimador ligeramente sesgado pero cuya varianza sea mucho menor, es decir, un estimador con menor error cuadrtico medio. No existe una metodologa que permita eliminar el problema de alta multicolinealidad sin alterar las propiedades y la interpretacin de los parmetros. Estas metodologas tienen poco respaldo intuitivo, por lo tanto la interpretacin de los parmetros es desconocida.
156
yi = xi + ui
i = 1, ..., n
(4.6)
en el que la variable dependiente yi est medida con error, es decir, solo observamos:
yi = yi + i
i = 1, ..., n
(4.7)
(4.8)
Bajo los supuestos mencionados es fcil darse cuenta que el estimador de ser el mismo que si observramos el verdadero valor de yi . En consecuencia, los errores de medida en la variable endgena no producen ningn problema importante al estimar por MCO. Ahora supongamos que la variable xi esta medida con error, es decir:
x = xi + i i
i = 1, ..., n
157
(4.9)
yi = x + (ui i ) = x + i i i
(4.10)
contrario a lo que ocurra en (4.8) en este caso tenemos dicultad al estimar por MCO, ya que el trmino de error i esta relacionado con x , lo que va en contra i del supuesto 6, veamos:
N 1/N i=1 xi yi N 2 1/N i=1 xi N 1 i=1 xi yi N plim N 1 x2 i i=1 N 1 plim N N x yi i=1 i 1 plim N N x2 i=1 i N 1 plim N i=1 (xi + i )(xi + ui ) 1 plim N N (xi + i )2 i=1 N 1 plim N i=1 (xi + i )(xi + ui + i 1 plim N N (xi + i )2 i=1 N 1 plim N i=1 (xi + i )(ui i ) + 1 plim N N (xi + i )2 i=1 2 + 2 2 Sx +
i )
1+
2 2 Sx
El resultado en trminos generales es que el estimador MCO en presencia de error de medicin estar sesgado hacia en origen. 158
y = X + u X = X +
donde todas las variables pueden estar medidas con error. Extendiendo lo desarrollado anteriormente:
plim M CO = [xx + ]1
donde xx = plim
X X n
(4.11)
y = plim
. n
Lo que implica que un slo error basta para generar inconsistencias en todos los coecientes del modelo.
E(zi i ) = 0 E(zi x ) = 0 i
Entonces el estimador de variables instrumentales de (4.10) es:
n i=1 zi yi n i=1 zi xi
V I =
En un modelo de regresin mltiple, tenemos que encontrar una matriz Z que contenga los instrumentos de las variables medidas con error. El estimador de Variables Instrumentales se obtiene de una regresin MCO en dos etapas: 159
y = X + y = X +
y obtengo el estimador de mediante MCO:
(4.12)
Si todas las variables explicativas estn medidas con error cada una de ellas se necesita un instrumento, entonces Z tiene dimensin nk al igual que X , en este caso se puede demostrar (Hacerlo ) que:
V I = (Z X )1 Z y
con matriz de varianzas y covarianzas (tambin demostrar ):
2 V ar(V I ) = (Z X )1 (Z Z)(X Z)1
H0 :
M CO V I = 0
(4.13)
Hausman demuestra que la matriz de varianzas y covarianzas de (M CO V I ) es igual a V (V I ) V (M CO ). De esta forma, se puede construir el siguiente estadstico de Wald para la hiptesis nula en (4.13): W = (M CO V I ) (V (V I ) V (M CO ))1 (M CO V I ) 2 k
161