Documente Academic
Documente Profesional
Documente Cultură
1: Inferencia Causal
Contenido
1. Introduccin.........................................................................................................................2
2. Inferencia Causal y Evaluacin de Impacto...........................................................................2
2.1. Anlisis contrafactual....................................................................................................3
2.2. No todas las relaciones son causales............................................................................3
2.3. Enfoques para la Inferencia Causal en la evaluacin de impacto..................................5
2.4. El sesgo de seleccin....................................................................................................5
3. Bibliografa / Lecturas adicionales........................................................................................7
1. Introduccin
La correlacin es una medida de la similitud entre dos variables, tal vez en la forma en que
varan juntos en las mismas direcciones o en direcciones opuestas a lo largo del tiempo. En los
dos mdulos anteriores, se revis el anlisis de regresin multivariante. Los coeficientes de un
modelo de regresin multivariante describen cmo vara la variable dependiente para un
cambio de unidad en una variable predictora dada, mientras que todas las dems variables se
mantienen constantes a su valor medio (el efecto ceteris paribus). Los modelos de regresin
proporcionan la "mejor aproximacin lineal" de un sistema complejo para ayudarnos a inferir
asociaciones bajo ciertas suposiciones.
Sin embargo, no se garantiza que una asociacin identificada en un anlisis estadstico sea
causal, independientemente de su fuerza (en magnitud o significacin estadstica). Considere el
siguiente ejemplo hipottico. La mayora de las personas que fumaban pesadamente en los
aos cincuenta tenan un encendedor o caja de fsforos con ellos en todo momento; De hecho,
un estadstico observ que el coeficiente de correlacin - que es una medida de correlacin
entre 0 y 1 - era casi 0.98, lo que sugiere una correlacin muy fuerte. Muchos mdicos eran
muy curiosos sobre el cncer de pulmn significativamente mayor entre un grupo particular de
personas - los que siempre llevaban una caja de fsforos o ms ligero en su persona. Siendo
fumadores ellos mismos, los doctores eran vacilantes creer que estos cnceres fueron
causados por fumar s mismo, as que comisionaron un estudio y encontraron que el 70% de
pacientes del cncer de pulmn llev siempre una caja de fsforo o un encendedor. El anlisis
de regresin y los test de t confirmaron esta asociacin muy fuerte. Est claro, por supuesto,
que estos mdicos hipotticos eran incorrectos; - fumar fuerte, no cajas de fsforos, aumenta
la posibilidad de contraer cncer de pulmn. Por qu los mdicos obtendran esta
"causalidad" equivocada?
Considere el siguiente diagrama:
Fumar pesado
Caja de Cncer de
fsforos y pulmn
encendedores
La asociacin observada entre las cajas de fsforos y el cncer de pulmn fue confundida por el
tabaquismo intenso. Un factor de confusin es un factor que se correlaciona tanto con la
intervencin como con el resultado. En el ejemplo hipottico anterior, si los doctores hubieran
realizado un estudio en el cual dieron cajas de fsforos o encendedores a la gente que no
fuma, habran encontrado que no haba asociacin persistente entre la caja de fsforos y el
cncer de pulmn. Hay muchos ejemplos de estos factores de confusin. Por ejemplo, el
aumento de la venta de jabn antibacteriano de lavado de manos que ocurre simultneamente
con una campaa de publicidad puede ser confundido por la cobertura de los medios de una
pandemia y la correlacin entre los altos niveles de MBA de alta calidad salarios se confunde
por el alto intelecto y la experiencia de los estudiantes que fueron aceptados A los programas
en primer lugar. Es importante sealar que los factores de confusin no eliminan
necesariamente el efecto causal (si lo hay) entre la intervencin en estudio y el resultado, pero
hacen que la estimacin de esos efectos causales sea difcil de aislar y cuantificar.
Los estudios tambin pueden complicarse por la presencia de modificadores de efecto. Estos
son factores que cambian la fuerza de los efectos causales. Por ejemplo, la probabilidad de
cncer de pulmn ser mayor para los fumadores pesados que tambin estn expuestos al
asbesto que para otros fumadores pesados.
A menudo podemos medir los factores de confusin y de efecto y estudiar su efecto sobre los
efectos causales de los tratamientos de inters. Este anlisis puede ayudarnos a comprender
mejor la relacin causal entre la intervencin y los resultados. Sin embargo, los factores no
observables o no medidos / no medibles pueden confundir o moderar la relacin causal. En el
contexto del anlisis de regresin, se denominan variables omitidas. Por ejemplo, las
dotaciones innatas de salud no pueden medirse fcilmente (o incluso cuantificarse), pero
pueden determinar si (y con qu frecuencia) una persona se enferma. La siguiente seccin
presenta enfoques tericos que nos permiten inferir la causalidad a pesar de la presencia
frecuente de variables omitidas.
En la evaluacin del impacto, hay dos enfoques generales para proporcionar causalidad para
las afirmaciones causales:
el enfoque tradicional de las ecuaciones estructurales (Haavelmo 1943, Heckman
2005); y
el marco de resultados potenciales modernos o el enfoque experimental, tambin
conocido como el modelo de resultado potencial de Neyman-Rubin-Holland (Rubin
1974, Holland 1986 y Neyman 1923).
Utilizamos el enfoque del marco de resultados potenciales en esta clase, aunque volveremos a
una discusin de los mritos del enfoque de ecuaciones estructurales en mdulos posteriores.
Este marco se entiende ms fcilmente en el contexto de los experimentos aleatorios, pero
tambin puede aplicarse en datos observacionales no cuasi experimentales. Volvamos al
experimento terico presentado en la Seccin 2.1. Para probar la causalidad, debemos
observar el "mismo" (o similar) individuo en el grupo de tratamiento y en el grupo de control
en algn momento despus del tratamiento, y la diferencia en los resultados entre el
tratamiento y el control se entiende como el impacto Del tratamiento. Este ejemplo
proporciona un arquetipo del marco de resultados potencial: la diferencia en dos resultados
"potenciales" condicionada a algn evento se toma como el impacto causal del tratamiento.
Dado que no podemos observar el resultado de inters para el grupo de tratamiento como si
no hubieran tenido un tratamiento (es decir, en el escenario contrafctico), nos encontramos
ante un "problema de datos faltantes".
Existen muchas estrategias para encontrar el mejor reemplazo posible para los datos
contrafactuales que faltan. Ya hemos discutido por qu la asignacin al azar es la mejor manera
de encontrar este reemplazo: los factores de confusin, covariables y modificadores de efecto
medidos y no medidos permanecen equilibrados entre los dos grupos que se comparan (en
expectativa), hacindolos intercambiables. Sin embargo, el marco no descarta datos de
observacin no aleatorios, siempre y cuando podamos construir un grupo contrafactual o
"reemplazo de datos faltantes" que sea plausiblemente "intercambiable" con el grupo de
tratamiento. En la prctica, esto se hace generalmente mediante algn tipo de concordancia
entre los grupos de tratamiento y control sobre los datos observados y evaluando / discutiendo
el efecto de los factores de confusin no observados.
Tenga en cuenta que ninguna cantidad de anlisis bueno puede ayudarnos a resolver
problemas de datos deficientes. En los experimentos aleatorios, podemos tener un grupo muy
desequilibrado (poco intercambiable), la medicin sesgada de los resultados en el tratamiento
y los grupos de control, y graves errores de medicin. Ningn diseo estadstico es un sustituto
de la buena calidad de los datos y del trabajo de campo para generar tales datos.
Hemos establecido que las estimaciones del efecto causal se obtienen comparando el
resultado en un grupo de tratamiento con los resultados en el mismo grupo sin ese
tratamiento. Adems, establecimos que el problema de los datos que faltan nos obliga a
encontrar el mejor reemplazo para estos datos imposibles de recopilar.
El sesgo de seleccin es el error que podemos hacer al seleccionar estos datos de reemplazo o
la diferencia entre el grupo de tratamiento y el grupo contrafactual o de comparacin
especificado. El sesgo de seleccin puede existir tanto en diseos aleatorios como no
aleatorios.
Tericamente nos gustara estimar el impacto como,
E [ Y |T =1 ]trt E [ Y |T =1 ] ctr ,
E [ Y |T =1 ]trt E [ Y |T =1 ] ctr
Por lo tanto, los grupos de tratamiento y control son "intercambiables". Esperaramos ver el
mismo resultado condicional en el grupo ctr si se recibiera el tratamiento en lugar del grupo
trt. Por lo tanto, en el caso de un experimento aleatorio, "esperamos" que el sesgo de seleccin
sea cero.
Sin embargo, la suposicin de aleatorizacin es que cuando se asigna al azar a un gran nmero
de individuos o grupos en mltiples grupos de comparacin (por ejemplo, el tratamiento y el
no tratamiento / grupos de control), los factores de confusin se equilibrar entre los grupos y
el resultado ser independiente de la Asignacin de "intervencin". Podemos ver fcilmente
que la necesidad de "gran muestra para la asignacin al azar" no tiene por qu cumplirse en la
prctica y podemos obtener dos grupos aleatorios donde los factores de confusin no estn
equilibrados (por casualidad), la introduccin de sesgo de seleccin. Por ejemplo, supongamos
que el gnero es un factor de confusin para la transferencia de dinero condicional y los niveles
de ingresos y aleatorizamos a 20 personas (16 hombres y 4 mujeres) en dos grupos de 10 cada
uno. El nmero de mujeres estara igualmente dividido en los dos grupos? En otras palabras,
si se repite la aleatorizacin 1000 veces, cada una de estas muestras asignar 2 hembras en
tratamiento y 2 en grupos control? La respuesta es no; De hecho, slo alrededor del 37% del
tiempo habr dos hembras en cada grupo (se puede calcular esto usando combinaciones y
teora de probabilidad). La probabilidad de lograr el equilibrio aumentar a medida que el
tamao de la muestra aumenta y, a medida que el tamao de la muestra se aproxima al
infinito, el equilibrio se acerca a la perfeccin. Adems, la asignacin al azar puede ser sesgada
a causa de errores informticos u otros errores. Por lo tanto, con diseos al azar o
experimentales debe preocuparse por el tamao de la muestra y si ha asignado al azar
correctamente mientras implementa el estudio.
Cmo podemos lidiar con el sesgo de seleccin en diseos no aleatorios? Si podemos
cuantificar el sesgo de seleccin, entonces podemos sustraer este sesgo del efecto medido
para obtener el verdadero efecto causal. La estimacin estructural ofrece un conjunto de
mtodos para cuantificar el sesgo de seleccin, pero nos centraremos en enfoques de "forma
reducida" en esta clase. Debemos identificar posibles factores de confusin y modificadores de
efectos. Entonces, debemos comprobar cules de estos se miden realmente en los datos que
tenemos (datos secundarios) o tendrn (datos primarios). Podemos entonces evaluar cmo
estas mediciones se equilibran entre los grupos de tratamiento y control "antes" de la
intervencin y cuantificar el sesgo de seleccin. Tenga en cuenta, sin embargo, que no
podremos probar el balance en factores no medibles o no medidos.
Heckman, James J., and Edward Vytlacil. "Structural equations, treatment effects, and
econometric policy evaluation." Econometrica 73.3 (2005): 669-738.
Holland, Paul W. "Statistics and causal inference." Journal of the American Statistical
Association 81.396 (1986): 945-960.
Neyman, J. (1934). On the two different aspects of the representative method: The method of
stratified sampling and the method of purposive selection. J. Roy. Statist. Soc. Ser. A 97 558-606