Documente Academic
Documente Profesional
Documente Cultură
Resumen
El objetivo de este documento es introducir al lector en los problemas economtricos
del modelo de regresin lineal, y realizando su aplicacin en el programa economtrico
Stata.
Stata es una marca registrada de StataCorporation. Copyright 19962010 StataCorp LP, 4905 Lakeway
Drive, College Station, TX 77845 USA.Las opiniones contenidas en este documento, los errores u
omisiones son de exclusiva responsabilidad del autor.
1 Introduccin
En econometra, a la hora de realizar la estimacin de un determinado modelo terico,
pueden surgir diferentes tipos de problemas, muchos de los cuales no se pueden
evadir. A la hora de la especificacin del modelo, es posible que el econometrista se
encuentre con dos variables que le proporcionan la misma informacin, o con
variables incluidas adicionales que sobran dentro del modelo o simplemente con
variables olvidadas pero que son necesarias dentro del modelo. A la hora de la
estimacin del modelo, se pueden presentar otro tipo de problemas, como son que las
observaciones no tengan varianzas constantes o que los errores estn correlacionados
entre s. Como estos, existen otros errores o problemas a los que se enfrenta el
econometrista y debe tener presente para realizar un buen desempeo.
Muchas veces existe la posibilidad de que estos sean corregidos, sin embargo, hay
ocasiones en las que simplemente se debe convivir con el problema, y es ah donde se
debe tener en cuenta para la interpretacin de los resultados.
Stata proporciona herramientas tiles y rpidas para la realizacin de grficos cuando
se sospecha la presencia de un problema, y pruebas especficas que determinan con
una mayor certeza si el problema existe dentro del modelo o en los datos, facilitando
las decisiones del econometrista a la hora de la identificacin del mismo.
2 Multicolinealidad
El problema de multicolinealidad surge en la estimacin economtrica en el momento
en que se viola el supuesto segn el cual las variables X 1 , X 2 ,..., X k son linealmente
independientes entre s. Existen cuatro grados de multicolinealidad: moderada, alta,
muy alta y perfecta.
2.1 Multicolinealidad perfecta
La multicolinealidad perfecta se da cuando una variable explicativa es linealmente
dependiente de otra, cosa que provoca que las columnas de la matriz X no sean
independientes entre s y por tanto: no hay rango columna completo, X T X no tiene
rango completo, det( X T X ) = 0 , X T X es una matriz singular, los estimadores son
incalculables.
En el caso de que sea multicolinealidad perfecta, es necesario revisar el modelo y
chequear su definicin y las variables involucradas en el mismo, pues de otra forma no
es posible que sea corregido. El modelo no podr ser estimado pues ni Stata ni ningn
otro programa de regresin lo estimar en presencia de este problema. La solucin
entonces es sencilla, pero implica la realizacin de una nueva especificacin del
modelo.
2.2 Multicolinealidad no perfecta
Los sntomas para la deteccin de multicolinealidad no perfecta en el modelo son:
Una vez identificados estos sntomas en la estimacin del modelo, es importante tener
en cuenta que puede haber multicolinealidad de algn grado, y que, por tanto se debe
corregir pues de lo contrario se estara haciendo inferencia sobre estimadores
sesgados e inconsistentes.
3 Heteroscedasticidad
Los datos de corte transversal suponen un muestreo aleatorio de la poblacin
subyacente. La varianza no constante en los trminos de error es un problema comn
en la econometra. Se conoce como heterocedasticidad y se presenta precisamente
cuando se viola el supuesto segn el cual la matriz de varianzas y covarianzas del
residuo es constante. En efecto, el supuesto implicara que para todo i,
tiene
-2
-2
-1
-1
Residuals
0
Residuals
0
10
20
30
years potential experience
40
50
10
years of education
15
Estos dos grficos muestran la relacin entre los residuos y cada una de las variables
independientes. Es importante hacerlo con cada una para, de manera visual, intentar
tener una idea de la variable que estara generando la presencia de
heteroscedasticidad. Es importante mencionar que las pruebas grficas no evidencian
completamente el problema, simplemente proporcionan una mayor sospecha.
Una vez realizados esto, no se debe olvidar observar tambin el grfico de los errores
en funcin de la variable dependiente. Este se obtiene as:
.twoway (scatter ehat lwage)
20
-2
-1
Residuals
0
-1
1
log(wage)
1
2
Donde SCE1 representa la suma de cuadrados del error de la primera regresin que se
realiz con las observaciones de valores bajos, y SSE2 la suma de cuadrados del error
de la segunda regresin realizada con los valores altos. Este estadstico tiene (n-c-2k)/2
grados de libertad.
En Stata, los comandos para la realizacin de este proceso son hacer la regresin para
las primeras 351 observaciones y guardando la varianza y los grados de libertad:
.regress lwage educ exper expersq in 1/175
.scalar s_small = e(rmse)^2
.scalar df_small = e(dr_r)
Ahora, se realiza la segunda regresin para los ltimos 175 valores guardando
igualmente la varianza y los grados de libertad:
.regress lwage educ exper expersq in 375/526
.scalar s_large = e(rmse)^2
.scalar df_large= e(dr_r)
Una vez hecho esto, se halla el estadstico Goldfeld Quandt y su valor p asociado:
.scalar GQ = s_large/s_small
.scalar crit = invFtail(df_large,df_small,.05)
.scalar pvalue =Ftail(df_large,df_small,G
.scalar list GQ pvalue crit
Los resultados obtenidos en la ventana de Stata son los siguientes:
. scalar list GQ pvalue crit
GQ =
.8194388
pvalue =
.
crit =
.
! !
Una vez obtenido el resultado, mediante el valor p o el test chi cuadrado se puede
rechazar (o no) a hiptesis nula y as concluir sobre la presencia del problema
economtrico.
c) La Prueba White
La prueba White es la prueba ms general comparada con las anteriores. Esta prueba
es parecida a la de Breush Pagan. En efecto, sus hiptesis son:
:
:
Si no se tiene idea alguna sobre la naturaleza de la heteroscedasticidad en lo datos, la
prueba White podra ser un buen comienzo. Los comandos que se deben usar en Stata
son:
.gen educ2 = educ^2
.regress ehat2 educ educ2
.scalar LM = e(N)*e(r2)
.scalar pvalue = chi2tail(2,LM)
.scalar list LM pvalue
Obteniendo como resultado lo siguiente:
. scalar list LM pvalue
LM = .85364976
pvalue = .65257782
Por otro lado, como ya lo sabemos, cuando se estima en Stata el modelo con el
comando .regress y se obtienen los resultados en presencia de heteroscedasticidad,
los coeficientes obtenidos sern insesgados pero las desviaciones estndar estarn mal
calculadas.
Para la correccin de este problema se utiliza el comando que da la opcin de hallar un
estimador robusto de varianzas y covarianzas denominado vce(robust) por sus siglas
en ingls: heteroscedasticity robust variance-covariance estimator.
. regress vardep indepvar1 indepvar2, vce(robust)
Una vez se introduce el comando, Stata arroja de nuevo una estimacin del modelo, en
la cual se obtienen los mismos valores para los coeficientes s que anteriormente
fueron estimados, pero con unos valores diferentes para las desviaciones estndar y
los valores de la prueba t student.
Para el ejemplo de la ecuacin de salarios minceriana, las dos tablas que se obtienen al
hacer las dos estimaciones con el fin de comparar los resultados se muestran a
continuacin:
.regress lwage educ exper expersq, vce(robust)
SS
df
MS
Model
Residual
44.5393713
103.79038
3
522
14.8464571
.198832146
Total
148.329751
525
.28253286
lwage
Coef.
educ
exper
expersq
_cons
.0903658
.0410089
-.0007136
.1279975
Std. Err.
.007468
.0051965
.0001158
.1059323
t
12.10
7.89
-6.16
1.21
Number of obs
F( 3,
522)
Prob > F
R-squared
Adj R-squared
Root MSE
P>|t|
0.000
0.000
0.000
0.227
=
=
=
=
=
=
526
74.67
0.0000
0.3003
0.2963
.44591
.1050368
.0512175
-.0004861
.3361035
Number of obs
F( 3,
522)
Prob > F
R-squared
Root MSE
lwage
Coef.
educ
exper
expersq
_cons
.0903658
.0410089
-.0007136
.1279975
Robust
Std. Err.
.0077827
.0050237
.0001098
.1071261
t
11.61
8.16
-6.50
1.19
P>|t|
0.000
0.000
0.000
0.233
=
=
=
=
=
526
71.03
0.0000
0.3003
.44591
.105655
.050878
-.0004979
.3384487
Se evidencia entonces que los valores estimados para los estadsticos son los mismos,
sin embargo la desviacin estndar cambia significativamente.
4 Autocorrelacin
El problema de autocorrelacin de los residuos se da al violarse el supuesto segn el
cual los errores son independientes entre s, es decir la hiptesis que establece que
cov( i ; j ) = 0 . Este problema se presenta cuando se est trabajando con unos datos
de series temporales. En efecto, el problema consiste en que el error del modelo
depende del error del error del periodo previo:
+, -+,. /,
Donde - es un parmetro que describe la dependencia de +, con +,. y /, es un
nuevo error aleatorio.
La autocorrelacin de los errores se puede dar en dos tipos:
-
Prueba de Rachas
Esta prueba asume de entrada que como existe autocorrelacin, entonces no debera
haber errores con los mismos signos seguidos en la autocorrelacin positiva, ni muchos
cambios de signo seguidos en la autocorrelacin negativa. Esto lo revelan los grficos
como se muestra a continuacin:
Grfico 4. Autocorrelacin positiva de
los errores
Los pasos para la realizacin de la prueba Rachas son: como primera medida, se debe
contar el nmero de errores con signo positivo y llamar este valor N+ al igual que se
debe contar el nmero de errores con signo negativo y llamar este valor N- . Una vez
hecho esto, se debe contar el nmero de rachas, es decir el nmero veces en que
cambia el signo de los errores y llamarlo k, para a continuacin calcular:
1
var( k ) =
20 2 0 .
1
02 0.
2 N + N (2 N + N N + N )
( N + N ) 2 ( N + + N 1)
RA =
k E (k )
var(k )
k E (k ) z var(k )
Se debe adems tener en cuenta que si N+ o N- son menores a 20, se emplearn los
valores de la tabla D.6. para los lmites del intervalo.
-
En esta prueba se debe calcular el estadstico Durbin Watson con la siguiente frmula:
n
( )
t
DW =
t 1
t =2
( )(
t k
k = t =k +1
t t k
= t = kn+1
( )
( )
t =1
t =1
Q = n rk 2 ~ a s 2
k =1
rk 2
k =1 n + k
s
Q ' = n( n + 2)
yt = 1 + 2 X 2t + 3 X 3t + ... + k X kt + t
yt 1 = 1 + 2 X 2t 1 + 3 X 3t 1 + ... + k X kt 1 + t 1
Una vez el modelo est rezagado en un periodo, este se multiplica por a ambos lados
obteniendo:
yt 1 = 1 + 2 X 2t 1 + 3 X 3t 1 + ... + k X kt 1 + t 1
Ahora, si se restan ambos modelos se obtiene que:
yt yt 1 = 1 1 + 2 X 2t 2 X 2t 1 + 3 X 3t 3 X 3t 1 + ... + k X kt k X kt 1 + t t 1
(1 ) 1 + 2 ( X 2t X 2t 1 ) + 3 ( X 3t X 3t 1 ) + ... + k ( X kt X kt 1 ) + t t 1
Este nuevo modelo donde el trmino de error ya no tiene autocorrelacin, se expresa
de la siguiente manera:
yt = 1 + 2 X 2t + 3 X 3t + ... + k X kt + k +1 X 2t 1 + k + 2 X 3t 1 + ... + k + ( k 1) X kt 1 + yt 1 + t
A partir de este se haya entonces un -9 y con esto se deben realizar las siguientes
transformaciones:
yt * = yt yt 1
X *2t = X 2t X 2t 1
X *3t = X 3t X 3t 1
Las variables que se determinan por fuera del modelo son llamadas variables
exgenas, y aquellas que se determinan dentro del modelo son variables endgenas.
En este sistema de ecuaciones, se est estimando el consumo y las importaciones a
partir de la identidad de la demanda agregada. Sin embargo, se debe tener en cuenta
que para poder ser estimadas, el sistema de ecuaciones debe estar bien se
perfectamente identificada o bien sobreidentificada. Para poder concluir acerca de
esta caracterstica de las ecuaciones, se debe tener en cuenta las siguientes reglas de
decisin:
Sea B el nmero de variables endgenas incluidas dentro de la ecuacin, y sea 1 el
nmero de variables exgenas excluidas de la ecuacin. Tanto B como 1 sern
comparados con el nmero total de variables exgenas o endgenas dentro del
sistema de ecuaciones. La regla de decisin es:
Si 1 C B D 1 entonces la ecuacin est sobreidentificada
Si 1 B D 1 entonces la ecuacin est perfectamente identificada
Si 1 E B D 1 entonces la ecuacin est subidentificada
Una ecuacin subidentificada no permite ser estimada por el mtodo de MCO. Es
importante entonces revisar esta regla a la hora de enfrentarse a un sistema de
ecuaciones simultneas.
5.2 Error de medicin
En general, una muestra se tiene tras la medicin de las variables explicativas. Sin
embargo, esta puede tener errores los cuales convierten los regresores en variables
estocsticas, produciendo un problema economtrico en el modelo que se va a
estimar.
http://www.ats.ucla.edu/stat/stata/
http://econpapers.hhs.se/paper/bocbocoec/531.htm
http://fmwww.bc.edu/ec/res.info.php
http://ideas.repec.org/s/boc/bocins.html
http://ideas.repec.org/s/boc/bocode.html