Documente Academic
Documente Profesional
Documente Cultură
7-2
Problemas relacionados con la Validez externa
¿Hasta dónde podemos generalizar los resultados de
tamaño de clase a partir de las escuelas en los distritos de
California?
• Diferencias en poblaciones
o California en 2005?
o Massachusetts en 2005?
o México en 2005?
• Diferencias en los escenarios
o Diferentes requerimientos legales vinculados a la
educación especial
o Diferente tratamiento de la educación bilingüe
o Diferencias en las características de profesores
7-3
Problemas relacionados con la Validez interna
Análisis de regresión múltiple (SW Sección 7.2)
Validez interna: la inferencia estadística acerca de los
efectos causales se validan a partir de la población que está
siendo estudiada.
Cinco problemas para la validez interna en los estudios de
regresión:
1. Sesgo por variable omitida
2. Error en la forma funcional
3. Sesgo por errores en las variables
4. Sesgo por selección de muestra
5. Sesgo por causalidad simultánea
Todos implican que E(ui|X1i,…,Xki) ≠0.
7-4
1. Sesgo por variable omitida
Surge cuando una variable omitida simultáneamente (i)
es un determinante de Y y (ii) está correlacionada con al
menos uno de los regresores incluidos.
7-7
En general, el error de medida en un regresor conduce a
un “Sesgo por error en las variables”.
7-8
Luego
Yi = β0 + β1Xi + ui
= β0 + β1 X% i + [β1(Xi – X% i ) + ui]
o
Yi = β0 + β1 X% i + u%i , donde u%i = β1(Xi – X% i ) + ui
Si X% i está correlacionado con u%i entonces βˆ1 estará
sesgado:
cov( X% i , u%i ) = cov( X% i ,β1(Xi – X% i ) + ui)
= β1cov( X% i ,Xi – X% i ) + cov( X% i ,ui)
= β1[cov( X% i ,Xi) – var( X% i )] + 0 ≠ 0
7-11
4. Sesgo por selección de muestra
Hasta ahora hemos supuesto una muestra aleatoria simple
de la población. En algunos casos, la muestra aleatoria
simple es una contrariedad porque la muestra, en efecto,
“se selecciona a sí misma”
7-12
Ejemplo #1: Fondos de inversión
• Tiene el fondo de inversión administrado un
comportamiento activo “permanece el mercado de
fondos”?
• Estrategia empírica:
o Esquema de muestra: muestra aleatoria simple de
fondos de inversión disponible para el público en
un tiempo dado.
o Datos: rendimiento de últimos 10 años.
o Estimador: promedio de 10 años del rendimiento
de la muestra de fondos de inversión, menos el
rendimiento de 10 años del S&P500
o ¿Existe sesgo de selección de muestra?
7-13
El sesgo por selección de muestra genera correlación
entre un regresor y el término de error.
rendimientoi = β0 + β1fondoi + ui
7-14
Ejemplo #2: rentabilidad de la educación
• ¿Cuál es la rentabilidad de un año adicional de
educación?
• Estrategia empírica:
o Esquema de muestra: muestra aleatoria simple de
trabajadores
o Datos: ingresos y años de educación
o Estimador: ln(ingresos) sobre los años de
educación
o Ignorar consecuencias de sesgo por variable
omitida y error de medida – ¿existe sesgo por
selección de la muestra?
7-15
Posibles soluciones al sesgo por selección de
muestra
• Recoger la muestra de manera que se evite la selección
de muestra.
o Ejemplo de Fondos de inversión: cambiar la
muestra, en lugar de los datos disponibles al final del
período 10, a los disponibles al comienzo del período
(incluyendo los fondos fallidos)
o Ejemplo de rentabilidad de la educación: recoger la
muestra de graduados, no de trabajadores
(incluyendo los desempleados)
• Generar un experimento aleatorio controlado.
• Construir un modelo del problema de la selección de
muestra y estimar ese modelo.
7-16
5. Sesgo por causalidad simultánea
• Validez externa
o Comparar los resultados para California y
Massachusetts
o Razonar…
• Validez interna
o Ir a la lista de los cinco posibles problemas de
validez interna y razonar…
7-20
A) Verificar la validez externa
comparar el estudio de California utilizando los datos
de Massachusetts
Datos de Massachusetts
• 220 distritos de educación primaria
• Test: 1998 MCAS test – total de cuarto grado (Math
+ English + Science)
• Variables: STR, TestScore, PctEL, LunchPct, Income
7-21
Los datos de Massachusetts: resumen de estadísticos
7-22
7-23
7-24
7-25
• ¿Logarítmica v. function cúbica para Income?
• Evidencia de no linealidad en la relación TestScore-STR?
• Existe interacción significativa HiEL×STR?
7-26
Predicción de efectos para una reducción de 2 en el
tamaño de clase
Especificación lineal para Massachusetts:
"
TestScore = 744.0 – 0.64STR – 0.437PctEL – 0.582LunchPct
(21.3) (0.27) (0.303) (0.097)
"
TestScore = 655.5 + 12.4STR – 0.680STR2 + 0.0115STR3
– 0.434PctEL – 0.587LunchPct
– 3.48Income + 0.174Income2 – 0.0023Income3
Reducción estimada de 20 a 18 estudiantes:
"
∆TestScore = [12.4×20 – 0.680×202 + 0.0115×203]
– [12.4×18 – 0.680×182 + 0.0115×183] = 1.98
• Comparar con la estimación del modelo lineal de 1.28
• SE de este efecto estimado: usar el método “reordenar
la regresión” (“transformar los regresores”)
7-28
Resumen de resultados para Massachussets
7-29
Comparación de efectos de tamaño de clase estimados: CA vs.
MA
7-30
Resumen: Comparación de los análisis de regresión
de California y Massachusetts
• El efecto de tamaño de clase cae tanto en los datos de
CA como en los de MA cuando se añaden las variables
de control para las características estudiante y distrito.
• El efecto del tamaño de clase es estadísticamente
significativo en ambos conjuntos de datos (CA y MA)
• El efecto estimado de una reducción de 2 estudiantes
en STR es cuantitativamente similar para CA, MA.
• Ningún conjunto de datos muestra evidencia de
interacción STR – PctEL.
• Existe alguna evidencia de no linealidad STR en los
datos de CA, pero no en los de MA.
7-31
B) Amenazas a la validez interna
¿Qué muestra y qué no muestra la comparación CA vs.
MA?
1. Sesgo por variable omitida
Estos análisis controlan o tienen en cuenta:
• distritos demográficos (ingresos)
• algunas características de los estudiantes (% que aprende
inglés)
¿Qué falta?
• características adicionales de los estudiantes, ej. aptitudes
naturales (pero ¿está esto correlacionado con STR?)
• Acceso a oportunidades de estudiar en el extranjero
• Calidad del profesor (posiblemente los mejores profesores
son atraídos por las escuelas con menores STR)
7-32
Sesgo por variable omitida
7-33
2. Error en la forma funcional
• Hemos tratado bastantes formas funcionales
diferentes, en los datos de California y Mass.
• Los efectos no lineales son modestos
• Esto no es un gran problema.
3. Sesgo por errores en las variables
• STR es una medida algo grosera del tamaño de clase
• Presumiblemente existe algún error de medida –
estudiantes que hacen el examen y se desplazan a
otros distritos
• En el mejor de los casos, nos gustaría tener datos
individualizados de los estudiantes, por nivel de
grado.
7-34
4. Sesgo por selección de muestra
• La muestra se refiere a todos los distritos con
enseñanza pública elemental (en California; en Mass.)
• no hay razón para que la selección sea un problema.
5. Causalidad simultánea
• Si los resultados de los tests afectan al tamaño de
clase -> causalidad simultánea. Ej.: si los distritos con
peores resultados reciben dinero para contratar más
profesores.
• Esto no tuvo lugar en California ni Mass. durante
estas muestras, por ello el sesgo de causalidad
simultánea no es un argumento importante.
7-35
Resumen
• Esquema para evaluar los estudios de regresión:
o Validez interna
o Validez externa
• Cinco problemas para la validez interna:
1. Sesgo por variable omitida
2. Error en la forma funcional
3. Sesgo por errores en las variables
4. Sesgo por selección de muestra
5. Sesgo por causalidad simultánea
7-36