Documente Academic
Documente Profesional
Documente Cultură
(ECOCUA 1)
1
trabajadores de una empresa dada preguntando cuales
han sido sus niveles salariales y cuánto tiempo han
estado desempeñándose en diferentes puestos de tal
firma. Es probable que encontremos una fuerte
correlación entre niveles de remuneración y experiencia
laboral pero, para la perspectiva econométrica, la
respuesta pudiera no ser del todo de mucha utilidad.
Un problema que suscita insatisfacción es del sesgo por
variables omitidas. Suponga con cierta certeza que años
de escolaridad, género o raza fueran también
determinantes importantes de los salarios. Al no incluir
tales variables no solo estaremos omitiendo información
vital, sino llegando a una respuesta insuficiente. Peor
aún, conforme la teoría econométrica lo postula y
demuestra, la información faltante contamina la
correlación estimada entre las dos variables
examinadas.
Alternativamente, considere la causalidad inversa, es
decir, la idea de que los salarios también afectan a la
experiencia, así como viceversa. Quizás empleados que
perciben altas remuneraciones es más probable que
permanezcan más tiempo en la empresa y, de esta
manera, acumulan mayor experiencia. De ser así, las
conclusiones extraídas de la correlación estimada
pudieran ser engañosas. Uno de los remedios puede ser
trabajar con una variable “proxy” en sustitución del
predictor experiencia, eligiendo una variable que no sea
afectada por salarios: la edad, por ejemplo.
Luego viene la necesidad de tener precisión y
robustocidad, es decir, ¿Qué tan confiables son los
resultados obtenidos?¿Fue encuestada la cantidad
2
necesaria de trabajadores para poder inferir
conclusiones de los trabajadores de esa firma e incluso
de algunas otras?¿los trabajadores que contestaron la
encuesta comparten un código de conducta que pudiera
influenciar sus salarios?¿varían de manera distinta los
salarios de hombres y mujeres con la experiencia?¿la
respuesta de los trabajadores es confiable y precisa?
Para satisfacer a un macro o micro-economista, todas
esas preguntas tienen que ser resueltas mediante
herramientas econométricas.
La teoría econométrica también señala que se necesitan
diferentes métodos para evaluar diferentes tipos de
elección. Las herramientas que usted usaría para
analizar una relación estática entre dos variables
continuas tales como salarios y experiencia, pudieran
no ser correctamente aplicadas a la elección entre dos
opciones tales como la decisión de comprar o no
comprar un automóvil; o en casos de elección múltiple,
tales como planear que tantos hijos tener; o elegir
trabajar horas extras, tales como presupuestar para el
retiro; o para elegir en más de un nivel, tal como decidir
si aplicar para una universidad y entonces seleccionar
que institución atender.
Los ganadores del premio nobel de Economía 2000
resolvieron diversos enigmas metodológicos en
Econometría. Heckman confrontó el problema de
selección de muestras: por ejemplo, en términos de los
ejemplos dados, el efecto en los resultados si los
trabajadores que contestaron el cuestionario difiriera de
maneras importantes con aquellos que no lo tomaron. Si
uno pudiera conocer quienes respondieron enfatizando
determinados factores -quizás solo trabajadores con
3
altos salarios tuvieron tiempo de llenar el formato de la
encuesta-, los estimados pueden volverse más precisos.
McFadden desarrolló maneras de modelar varios tipos de
elecciones tales como cuantos hijos tener. Situaciones
como ésta que admiten diversas opciones involucran un
análisis estadístico complejo debido a que los factores
que inciden sobre la pareja para tener el primer hijo no
son los mismos que aquellos que llevan a la pareja a
tener tres o cuatro hijos(as).
Además de sus contribuciones genuinas en el campo de
la Econometría Heckman y McFadden aportaron varias
herramientas para analizar en una gama amplia de áreas
microeconómicas aplicadas. Heckman, por ejemplo,
estudio como las personas deciden cuanto tiempo
trabajar, así como el papel de la educación y de la
capacitación en tal decisión. Los intereses de trabajo
académico de McFadden incluyeron la economía del
transporte, energía, ambiente, salud, desarrollo y
producción industrial. Ciencias biológicas, médicas y
otras ciencias sociales también estuvieron en el focus de
ambos.
Lo cierto es que con el premio Nobel asignado a estos
pioneros tanto en teoría como en aplicación
econométrica, les llegó su tiempo. Al margen de
cualquier sesgo político o filosófico, la investigación
económica tiene que ganar legitimidad estadística. Y
legitimidad estadística es una condición necesaria
(aunque quizás no suficiente) para la credibilidad que la
ciencia económica aún carece fuera de su propio
dominio. El laborioso trabajo estadístico del pasado -y
quizás aún la antigua creencia de que estaba bien que
4
los economistas minaran datos hasta que encontraran
soporte virtualmente a cualquier conclusión-, ha
desparecido en gran medida de la Microeconomía, al
menos en buenas universidades.
De hecho, en estos días, los micro-economistas
aplicados frecuentemente ven con desconfianza el
trabajo de Micro-economistas, antes considerados la
quintaesencia intelectual de la investigación económica
y aun los apóstoles originales de la econometría; quienes
están desaprovechando la ventajas de los métodos
econométricos avanzados disponibles para el trabajo
académico.
En suma, la Econometría que una vez fue un dominio de
pronosticadores y de financieros, ahora da sustento a
múltiples áreas en nuestra disciplina. Incorporarla a
nuestra “cajita de herramientas” para el análisis
económico ya no es una opción sino una necesidad. Si
esta es ya tu convicción, la presente invitación a
estudiarla resultaría ociosa, pero de no serlo sirva para
como incentivo oportuno para tomar consciencia de la
necesidad.
Facultad de Economía UNAM, Agosto 2019.
5
Introducción
6
1. Fundamentos de Análisis de datos
7
De hecho, hay una tensión potencial entre los roles que
pueden jugar los datos en el análisis econométrico:
8
informarse a partir de los datos, más que validar ideas
contra los datos.
9
En el trabajo empírico, se utilizan tres tipos de promedio:
la media, la mediana y la moda . Si la distribución es
unimodal y simétrica, las tres medidas coinciden. Si,
además, la distribución tiene forma de campana con
colas delgadas, la masa de la distribución estará
concentrada alrededor de este valor típico.
Consecuente+, si el supuesto de normalidad es
razonable+ valido en la práctica, el promedio (media,
mediana y moda) nos proporciona un centro inequívoco
de la distribución. La clásica manera de modelización de
una media poblacional se basa en el supuesto que la
variable esta normalmente distribuida.
10
Dados los supuestos de una media constante con
homocedasticidad y errores estadística+ independientes,
la media muestral es el mejor estimador lineal insesgado
(BLUE). Insesgacidad implica que, bajo condiciones de
muestreo repetido, la media de distribución muestral de
la media muestral iguala a la media poblacional. El mejor
estimador es aquel que tiene el error estándard más
pequeño (más preciso) dentro de su clase de
estimadores (en este caso, estimadores lineales). Si,
además, prevalece el supuesto de normalidad, la media
muestral es el estimador de máxima verosimilitud (ML)
que es el estimador de varianza mínima entre todos los
estimadores. En general, si la distribución de la
población es normal, la media muestral es imbatible
como un estimador de la media poblacional.
11
confianza y una prueba de hipótesis es que, en el
primero, pretendemos obtener una idea sobre el rango de
valores probables de una media poblacional
desconocida, mientras que en el segundo caso,
intentamos ver que tan probable es la muestra para un
valor dado (hipotetizado) de la media poblacional.
12
media muestral a la presencia de outliers y de sesgos en
la muestra.
13
Si los datos fueran razonablemente simétricos pero
tienen colas más gruesas que las normales, la media
muestral no puede ser el mejor estimador debido a su
falta de resistencia y robustez. Robustez de un estimador
es la propiedad del estimador para desempeñarse mejor
que sus competidores, sobre un rango de condiciones
subyacentes. Mientras que la media muestral es superior
cuando los datos provienen de una distribución normal,
la mediana muestral es el estimador más robusto y, por
consiguiente preferible, cuando las condiciones
subyacentes son desconocidas.
14
poblacional. Más aún, si el estimado se obtiene mediante
la aplicación del modelo clásico basado en la
superioridad de la media muestra como estimador
cuando el supuesto de normalidad se satisface, a los
datos transformados.
15
II. Regresión y Análisis de datos
16
supuestos de la regresión lineal normal clásica se
satisfacen en la práctica. Si no, la regresión lineal por
MCO pierde rápida+ superioridad. Por esta razón es
importante evaluar si los supuestos del modelo son válidos
en la práctica. La graficación de las regresiones –
regresión banda exploratoria, gráfico de dispersión con
línea de regresión y graficación de residuales-,
constituyen poderosos instrumentos para checar la validez
aproximada de los supuestos.
17
observar si la transformación de los datos afecta o no, la
forma de la distribución de las variables trasformadas.
18
4. Un gráfico de regresión parcial (o gráfico de la variable
añadida) es el diagrama de dispersión entre dos conjuntos
de residuales obtenidos mediante la remoción de la
influencia lineal de otros regresores tanto de la variable
dependiente como del regresor añadido. Un gráfico de
regresión parcial nos sirve para observar al coeficiente de
regresión múltiple por medio de un gráfico de dispersión
de dos dimensiones. Es un poderoso instrumento para
detectar desviaciones de los supuestos del modelo.
19
regresores (incluyendo el termino
intercepto), en el que la regresión
lineal se desglosa. La
ortogagonalidad de los regresores
implica que no están
correlacionados entre sí, una
situación ideal para el ejercicio
de regresión, pero que rara vez se
cumple.
6. Debido a la presencia de
colinealidad, el coeficiente de un
determinado regresor en relación
a la variable dependiente depende
de los otros regresores incluidos
en el modelo. Consecuentemente,
el coeficiente pendiente varía con
la especificación del modelo
debido a la inclusión o a la
20
exclusión de otros regresores.
Sólo si todos los regresores son
ortogonales entre sí, la regresión
simple dará los mismos
coeficientes pendientes que la
regresión múltiple.
7. Una variable superflua en una regresión es aquella
añade nada a la variación explicada una vez que el efecto
de los otros regresores hayan sido tomados en cuenta.
Estricta+ hablando, su coeficiente pendiente en el análisis
de regresión múltiple será cero, pero pudiera ser no cero
en las regresiones segmentadas de los datos extraídos de
un modelo más amplio. Lastrar una variable superflua de
una regresión no altera el coeficiente pendiente de otros
regresores.
21
también a hipótesis que involucran combinaciones
lineales de coeficientes, a condición de que podamos re-
parametrizar al modelo.
22
La omisión de variables relevantes de un modelo sesgará
los estimados de todos los coeficientes en la ecuación. Su
impacto en los errores estándar de los coeficientes de
regresión es más ambiguo: los errores estándar teóricos
serán menores en el modelo más simple si las variables
omitidas son colineales con los regresores incluidos en el
modelo, pero los errores estándar estimados general+
serán menores en el modelo más grande si las variables
omitidas tuvieran un impacto considerable sobre la
variable dependiente y si el tamaño de la muestra no fuera
muy pequeña. Por consiguiente, a veces hay un
intercambio entre sesgo y precisión cuando se enfrenta
uno a variable omitidas.
23
Antes de que las pruebas descendentes, siempre checa si
el modelo general satisface los supuestos del MCRL. De
ser negativo, las inferencias extraídas de las pruebas
descendentes pudieran no ser válidas. Siempre recuerda
las inferencias estadísticas son tan sanas como los
fundamentos en los que se fincan.
24
Pruebas subsiguientes nos permiten checar si la
inestabilidad de los parámetros a lo largo de las
submuestras aplica también a los coeficientes.
25
III. Análisis de Datos Transversales
26
5. La heterocedasticidad puede ser detectada como un
síntoma de la mala especificación del modelo (ya sea de
forma funcional incorrecta o de variables omitidas) más que
tratarse de un problema genuino de los residuales en el
modelo verdadero. Por consiguiente, la re-especificación del
modelo es el primer curso de acción a tomar en una
situación de residuales heterocedasticos.
27
Las variables categóricas permiten clasificar nuestros
datos con respecto a algunos criterios cualitativos en un
conjunto de categorías mutuamente exclusivas. Una
variable cualitativa es dicotómica si contiene solamente
dos categorías exclusivas. No podemos medir una variable
cualitativa, pero si podemos contar cuantas observaciones
caen dentro de una categoría en particular. Esto nos
permite hacer cálculos cuantitativos con respecto a
frecuencias de variables cualitativas.
28
Cuando se observan la relación entre una variable
dependiente cuantitativa Y y dos (o más) variables
categóricas, W y Z, tomamos en cuenta los efectos de la
asociaciones parciales y las interacciones. La asociación
parcial entre Y y W es la asociación entre ellas,
manteniendo a Z fija dentro de cierta categoría. Si tal
asociaciones parciales entre Y y W varia para diferentes
categorías de Z, decimos que hay una interacción entre W
y Z en los efectos de esta sobre Y.
29