Módulo 2.1

Mdulo 2.
1: Inferencia Causal
Contenido
1. Introduccin.........................................................................................................................2
2. Inferencia Causal y Evaluacin de Impacto...........................................................................2
2.1. Anlisis contrafactual....................................................................................................3
2.2. No todas las relaciones son causales............................................................................3
2.3. Enfoques para la Inferencia Causal en la evaluacin de impacto..................................5
2.4. El sesgo de seleccin....................................................................................................5
3. Bibliografa / Lecturas adicionales........................................................................................7
1. Introduccin
En la seccin anterior, revisamos algunos conceptos relevantes para la investigacin emprica.

En la seccin 2, aprenderemos acerca de la aplicacin de mtodos especficos para evaluar los
impactos de una poltica, programa, proyecto o cualquier otra forma de intervencin. Pero
antes de entrar en los mtodos especficos y estrategias economtricas que se utilizan
comnmente para llevar a cabo evaluaciones de impacto, tenemos que pasar por el fondo de
por qu estas tcnicas se utilizan.
En los prximos mdulos, te capacitaremos en la implementacin y anlisis de diferentes
tcnicas experimentales y cuasi-experimentales para llevar a cabo rigurosas evaluaciones de
impacto. Estos diferentes mtodos variarn en cuanto a lo que somos capaces de controlar
para el sesgo de seleccin, con un Ensayo de Control Aleatorizado (ECA) que se conoce como el
"Estndar de Oro", seguido de diseos cuasi-experimentales tales como Discontinuidad de
Regresin, Variables Instrumentales y Diferencia en diferencias.
Antes de entrar en las diferentes metodologas de evaluacin de impacto, debemos discutir dos
conceptos que son parte integral del proceso de llevar a cabo evaluaciones precisas y
confiables: inferencia causal y anlisis contrafactual. As, en este mdulo desentraaremos la
correlacin con la causalidad, discutiremos el sesgo de seleccin que se produce cuando las
personas pueden "auto-seleccionar" en recibir / participar en un programa, y proporcionar un
marco terico simple para entender cmo el anlisis contrafactual Eliminar estos sesgos que
nos lleva a una evaluacin precisa y confiable de una intervencin.
Al final de este mdulo, debera ser capaz de:
Entender lo que es un anlisis contrafactual
Entender qu sesgo de seleccin y medio de confusin
Entender lo que la asignacin al azar nos compra al realizar una evaluacin de impacto
2. Inferencia Causal y Evaluacin de Impacto
La inferencia causal y la evaluacin del impacto se trata de atribuir un cambio en un resultado

de inters a la participacin en la intervencin que queremos estudiar. A lo largo de este
mdulo, usamos los trminos "intervencin" y "tratamiento" para designar el programa, la
poltica, el proyecto, el producto, la estrategia de marketing, la campaa publicitaria y otras
intervenciones de este tipo que se estn estudiando. Por lo tanto, estamos interesados en
probar los efectos causales de las intervenciones de los resultados de inters.
Cul es la causa de un evento? En pocas palabras, es un evento o una intervencin sin la cual
el resultado no habra ocurrido. Los resultados se derivan de las causas, y las causas siempre
preceden a los resultados. Sin embargo, muchos resultados o impactos pueden ser causados
por mltiples factores. Por ejemplo, la diarrea puede ser causada por la ingestin de patgenos
a travs de alimentos o agua. Evitara la diarrea enteramente si a todos en la poblacin se les
da 100% de agua libre de patgenos? No, porque algunas personas todava pueden tener
diarrea por ingestin de alimentos contaminados! Sin embargo, tratar a los individuos con agua
libre de patgenos podra "causar" el nivel de diarrea de la poblacin (es decir, el porcentaje de
personas que reportan diarrea, o la gravedad de su diarrea, o ambos). Cmo podemos medir
tal efecto causal o impacto? Evaluamos los impactos o probamos los efectos causales
respondiendo al contrafactual: Contrariamente al estado real del mundo, qu habra sucedido
en ausencia de la intervencin?
2.1. An lisis contrfctul
Para entender el anlisis contrafactual, imagine el siguiente experimento terico. Imagnese

que fuimos capaces de crear dos universos paralelos e idnticos que son rplicas exactas del
uno al otro en todos los trminos concebibles. Ahora, imagnense que el Universo 1
experimenta la siguiente intervencin: cada miembro de la poblacin recibe y bebe solo agua
libre de patgenos.
Por otro lado, la poblacin del Universo 2 no experimenta ninguna intervencin, por lo que
siguen bebiendo el mismo agua que antes (a veces contaminada ya veces no). Despus de tres
aos examinamos en los dos universos y encontramos que el Universo 1 tiene 500 personas
enfermas mientras que el Universo 2 tiene 1200 personas enfermas. Qu puede explicar esta
diferencia? Hay algo diferente entre estos dos universos excepto el tratamiento de agua sin
patgenos? Si no, entonces podemos decir con confianza que debe ser el tratamiento de agua
potable que redujo el nmero de personas enfermas en el Universo 1. En nuestro experimento
imaginario, entonces, el agua limpia ahorr al menos (1200-500 = 700) enfermos!
En el mundo real, es imposible para nosotros crear dos universos o poblaciones paralelas, por
lo que nuestro objetivo es crear dos grupos que son muy similares entre s. Una caracterstica
central de este entorno experimental ideal es que los participantes no pueden seleccionar a
cul de los dos grupos son parte. Si tenemos xito en la creacin de dos de estos grupos,
entonces podemos asignar un grupo para recibir un tratamiento. Despus de esperar una
cantidad suficiente de tiempo, podemos comparar estos dos grupos para ver si son diferentes
en trminos de un resultado de inters. Si lo son, entonces la diferencia es el "impacto" o el
"efecto causal" causado por el tratamiento.
2.2. No tods ls relciones son cusles
La correlacin es una medida de la similitud entre dos variables, tal vez en la forma en que
varan juntos en las mismas direcciones o en direcciones opuestas a lo largo del tiempo. En los
dos mdulos anteriores, se revis el anlisis de regresin multivariante. Los coeficientes de un
modelo de regresin multivariante describen cmo vara la variable dependiente para un
cambio de unidad en una variable predictora dada, mientras que todas las dems variables se
mantienen constantes a su valor medio (el efecto ceteris paribus). Los modelos de regresin
proporcionan la "mejor aproximacin lineal" de un sistema complejo para ayudarnos a inferir
asociaciones bajo ciertas suposiciones.
Sin embargo, no se garantiza que una asociacin identificada en un anlisis estadstico sea
causal, independientemente de su fuerza (en magnitud o significacin estadstica). Considere el
siguiente ejemplo hipottico. La mayora de las personas que fumaban pesadamente en los
aos cincuenta tenan un encendedor o caja de fsforos con ellos en todo momento; De hecho,
un estadstico observ que el coeficiente de correlacin - que es una medida de correlacin
entre 0 y 1 - era casi 0.98, lo que sugiere una correlacin muy fuerte. Muchos mdicos eran
muy curiosos sobre el cncer de pulmn significativamente mayor entre un grupo particular de
personas - los que siempre llevaban una caja de fsforos o ms ligero en su persona. Siendo
fumadores ellos mismos, los doctores eran vacilantes creer que estos cnceres fueron
causados por fumar s mismo, as que comisionaron un estudio y encontraron que el 70% de
pacientes del cncer de pulmn llev siempre una caja de fsforo o un encendedor. El anlisis
de regresin y los test de t confirmaron esta asociacin muy fuerte. Est claro, por supuesto,
que estos mdicos hipotticos eran incorrectos; - fumar fuerte, no cajas de fsforos, aumenta
la posibilidad de contraer cncer de pulmn. Por qu los mdicos obtendran esta
"causalidad" equivocada?
Considere el siguiente diagrama:
Fumar pesado
Caja de Cncer de
fsforos y pulmn
encendedores
La asociacin observada entre las cajas de fsforos y el cncer de pulmn fue confundida por el
tabaquismo intenso. Un factor de confusin es un factor que se correlaciona tanto con la
intervencin como con el resultado. En el ejemplo hipottico anterior, si los doctores hubieran
realizado un estudio en el cual dieron cajas de fsforos o encendedores a la gente que no
fuma, habran encontrado que no haba asociacin persistente entre la caja de fsforos y el
cncer de pulmn. Hay muchos ejemplos de estos factores de confusin. Por ejemplo, el
aumento de la venta de jabn antibacteriano de lavado de manos que ocurre simultneamente
con una campaa de publicidad puede ser confundido por la cobertura de los medios de una
pandemia y la correlacin entre los altos niveles de MBA de alta calidad salarios se confunde
por el alto intelecto y la experiencia de los estudiantes que fueron aceptados A los programas
en primer lugar. Es importante sealar que los factores de confusin no eliminan
necesariamente el efecto causal (si lo hay) entre la intervencin en estudio y el resultado, pero
hacen que la estimacin de esos efectos causales sea difcil de aislar y cuantificar.
Los estudios tambin pueden complicarse por la presencia de modificadores de efecto. Estos
son factores que cambian la fuerza de los efectos causales. Por ejemplo, la probabilidad de
cncer de pulmn ser mayor para los fumadores pesados que tambin estn expuestos al
asbesto que para otros fumadores pesados.
A menudo podemos medir los factores de confusin y de efecto y estudiar su efecto sobre los
efectos causales de los tratamientos de inters. Este anlisis puede ayudarnos a comprender
mejor la relacin causal entre la intervencin y los resultados. Sin embargo, los factores no
observables o no medidos / no medibles pueden confundir o moderar la relacin causal. En el
contexto del anlisis de regresin, se denominan variables omitidas. Por ejemplo, las
dotaciones innatas de salud no pueden medirse fcilmente (o incluso cuantificarse), pero
pueden determinar si (y con qu frecuencia) una persona se enferma. La siguiente seccin
presenta enfoques tericos que nos permiten inferir la causalidad a pesar de la presencia
frecuente de variables omitidas.
2.3. Enfoques pr l Inferenci Cusl en l evlucio n de impcto
En la evaluacin del impacto, hay dos enfoques generales para proporcionar causalidad para
las afirmaciones causales:
el enfoque tradicional de las ecuaciones estructurales (Haavelmo 1943, Heckman
2005); y
el marco de resultados potenciales modernos o el enfoque experimental, tambin
conocido como el modelo de resultado potencial de Neyman-Rubin-Holland (Rubin
1974, Holland 1986 y Neyman 1923).
Utilizamos el enfoque del marco de resultados potenciales en esta clase, aunque volveremos a
una discusin de los mritos del enfoque de ecuaciones estructurales en mdulos posteriores.
Este marco se entiende ms fcilmente en el contexto de los experimentos aleatorios, pero
tambin puede aplicarse en datos observacionales no cuasi experimentales. Volvamos al
experimento terico presentado en la Seccin 2.1. Para probar la causalidad, debemos
observar el "mismo" (o similar) individuo en el grupo de tratamiento y en el grupo de control
en algn momento despus del tratamiento, y la diferencia en los resultados entre el
tratamiento y el control se entiende como el impacto Del tratamiento. Este ejemplo
proporciona un arquetipo del marco de resultados potencial: la diferencia en dos resultados
"potenciales" condicionada a algn evento se toma como el impacto causal del tratamiento.
Dado que no podemos observar el resultado de inters para el grupo de tratamiento como si
no hubieran tenido un tratamiento (es decir, en el escenario contrafctico), nos encontramos
ante un "problema de datos faltantes".
Existen muchas estrategias para encontrar el mejor reemplazo posible para los datos
contrafactuales que faltan. Ya hemos discutido por qu la asignacin al azar es la mejor manera
de encontrar este reemplazo: los factores de confusin, covariables y modificadores de efecto
medidos y no medidos permanecen equilibrados entre los dos grupos que se comparan (en
expectativa), hacindolos intercambiables. Sin embargo, el marco no descarta datos de
observacin no aleatorios, siempre y cuando podamos construir un grupo contrafactual o
"reemplazo de datos faltantes" que sea plausiblemente "intercambiable" con el grupo de
tratamiento. En la prctica, esto se hace generalmente mediante algn tipo de concordancia
entre los grupos de tratamiento y control sobre los datos observados y evaluando / discutiendo
el efecto de los factores de confusin no observados.
Tenga en cuenta que ninguna cantidad de anlisis bueno puede ayudarnos a resolver
problemas de datos deficientes. En los experimentos aleatorios, podemos tener un grupo muy
desequilibrado (poco intercambiable), la medicin sesgada de los resultados en el tratamiento
y los grupos de control, y graves errores de medicin. Ningn diseo estadstico es un sustituto
de la buena calidad de los datos y del trabajo de campo para generar tales datos.
2.4. El sesgo de seleccio n
Hemos establecido que las estimaciones del efecto causal se obtienen comparando el
resultado en un grupo de tratamiento con los resultados en el mismo grupo sin ese
tratamiento. Adems, establecimos que el problema de los datos que faltan nos obliga a
encontrar el mejor reemplazo para estos datos imposibles de recopilar.
El sesgo de seleccin es el error que podemos hacer al seleccionar estos datos de reemplazo o
la diferencia entre el grupo de tratamiento y el grupo contrafactual o de comparacin
especificado. El sesgo de seleccin puede existir tanto en diseos aleatorios como no
aleatorios.
Tericamente nos gustara estimar el impacto como,
Impact=E [ Y |T =1 ] trt E [ Y |T =0 ] trt

En esta ecuacin, el valor esperado del resultado (Y) se compara cuando un grupo indicado por
trt recibi el tratamiento (T = 1) y cuando el mismo grupo no recibe el tratamiento (T = 0). Sin
embargo, en realidad estimamos,
Impact=E [ Y |T =1 ] trt E [ Y |T =0 ] ctr

Donde el grupo de comparacin es otro grupo indicado por ctr. Vamos a reescribir la expresin
anterior de la siguiente manera, donde se aaden los trminos en rojo que se cancelan unos a
otros,
Impact=E [ Y |T =1 ] trt E [ Y |T =0 ] trt + { E [ Y |T =0 ] trt E [ Y |T =0 ] ctr }
Por lo tanto, lo que estamos midiendo en realidad es,
Impact=Causal Impact + { E [ Y |T =1 ] trt E [ Y |T =0 ] ctr }
Cuando el trmino entre parntesis es el sesgo de seleccin: la diferencia entre el resultado

contrafactual en el grupo de tratamiento (trt) si no se recibi el tratamiento y el resultado
potencial en el grupo de control (ctr) no se recibi el tratamiento.
El objetivo de un riguroso diseo de evaluacin de impacto es minimizar el sesgo de seleccin.
La asignacin aleatoria es una forma superior de hacerlo. En un diseo experimental, la
seleccin en el grupo de tratamiento es independiente de los resultados potenciales (Y) en los
grupos ctr o trt. Esto implica que la distribucin de los resultados potenciales condicionados a
la asignacin del tratamiento es igual entre los dos grupos; Ambos grupos responderan de
manera idntica al tratamiento o al no tratamiento. Es decir,
E [ Y |T =1 ]trt E [ Y |T =1 ] ctr ,
E [ Y |T =1 ]trt E [ Y |T =1 ] ctr
Por lo tanto, los grupos de tratamiento y control son "intercambiables". Esperaramos ver el
mismo resultado condicional en el grupo ctr si se recibiera el tratamiento en lugar del grupo
trt. Por lo tanto, en el caso de un experimento aleatorio, "esperamos" que el sesgo de seleccin
sea cero.
Sin embargo, la suposicin de aleatorizacin es que cuando se asigna al azar a un gran nmero
de individuos o grupos en mltiples grupos de comparacin (por ejemplo, el tratamiento y el
no tratamiento / grupos de control), los factores de confusin se equilibrar entre los grupos y
el resultado ser independiente de la Asignacin de "intervencin". Podemos ver fcilmente
que la necesidad de "gran muestra para la asignacin al azar" no tiene por qu cumplirse en la
prctica y podemos obtener dos grupos aleatorios donde los factores de confusin no estn
equilibrados (por casualidad), la introduccin de sesgo de seleccin. Por ejemplo, supongamos
que el gnero es un factor de confusin para la transferencia de dinero condicional y los niveles
de ingresos y aleatorizamos a 20 personas (16 hombres y 4 mujeres) en dos grupos de 10 cada
uno. El nmero de mujeres estara igualmente dividido en los dos grupos? En otras palabras,
si se repite la aleatorizacin 1000 veces, cada una de estas muestras asignar 2 hembras en
tratamiento y 2 en grupos control? La respuesta es no; De hecho, slo alrededor del 37% del
tiempo habr dos hembras en cada grupo (se puede calcular esto usando combinaciones y
teora de probabilidad). La probabilidad de lograr el equilibrio aumentar a medida que el
tamao de la muestra aumenta y, a medida que el tamao de la muestra se aproxima al
infinito, el equilibrio se acerca a la perfeccin. Adems, la asignacin al azar puede ser sesgada
a causa de errores informticos u otros errores. Por lo tanto, con diseos al azar o
experimentales debe preocuparse por el tamao de la muestra y si ha asignado al azar
correctamente mientras implementa el estudio.
Cmo podemos lidiar con el sesgo de seleccin en diseos no aleatorios? Si podemos
cuantificar el sesgo de seleccin, entonces podemos sustraer este sesgo del efecto medido
para obtener el verdadero efecto causal. La estimacin estructural ofrece un conjunto de
mtodos para cuantificar el sesgo de seleccin, pero nos centraremos en enfoques de "forma
reducida" en esta clase. Debemos identificar posibles factores de confusin y modificadores de
efectos. Entonces, debemos comprobar cules de estos se miden realmente en los datos que
tenemos (datos secundarios) o tendrn (datos primarios). Podemos entonces evaluar cmo
estas mediciones se equilibran entre los grupos de tratamiento y control "antes" de la
intervencin y cuantificar el sesgo de seleccin. Tenga en cuenta, sin embargo, que no
podremos probar el balance en factores no medibles o no medidos.
3. Bibliografa / Lecturas adicionales

Gertler, Paul J., Sebastian Martinez, Patrick Premand, Laura B. Rawlings, and Christel MJ
Vermeersch. Impact evaluation in practice. World Bank Publications, 2011.
Haavelmo, Trygve. "The statistical implications of a system of simultaneous equations."

Econometrica, Journal of the Econometric Society (1943): 1-12.
Heckman, James J., and Edward Vytlacil. "Structural equations, treatment effects, and
econometric policy evaluation." Econometrica 73.3 (2005): 669-738.
Holland, Paul W. "Statistics and causal inference." Journal of the American Statistical
Association 81.396 (1986): 945-960.
Neyman, J. (1934). On the two different aspects of the representative method: The method of
stratified sampling and the method of purposive selection. J. Roy. Statist. Soc. Ser. A 97 558-606
Rubin, Donald B. "Estimating causal effects of treatments in randomized and nonrandomized

studies." Journal of Educational Psychology 66.5 (1974): 688.

Módulo 2.1

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Módulo 2.1

Încărcat de

Drepturi de autor:

Formate disponibile

Mdulo 2.

En la seccin anterior, revisamos algunos conceptos relevantes para la investigacin emprica.

2. Inferencia Causal y Evaluacin de Impacto

La inferencia causal y la evaluacin del impacto se trata de atribuir un cambio en un resultado

2.1. An lisis contrfctul

Para entender el anlisis contrafactual, imagine el siguiente experimento terico. Imagnese

2.2. No tods ls relciones son cusles

2.3. Enfoques pr l Inferenci Cusl en l evlucio n de impcto

2.4. El sesgo de seleccio n

Impact=E [ Y |T =1 ] trt E [ Y |T =0 ] trt

Impact=E [ Y |T =1 ] trt E [ Y |T =0 ] ctr

Impact=E [ Y |T =1 ] trt E [ Y |T =0 ] trt + { E [ Y |T =0 ] trt E [ Y |T =0 ] ctr }

Por lo tanto, lo que estamos midiendo en realidad es,

Impact=Causal Impact + { E [ Y |T =1 ] trt E [ Y |T =0 ] ctr }

Cuando el trmino entre parntesis es el sesgo de seleccin: la diferencia entre el resultado

3. Bibliografa / Lecturas adicionales

Haavelmo, Trygve. "The statistical implications of a system of simultaneous equations."

Rubin, Donald B. "Estimating causal effects of treatments in randomized and nonrandomized

S-ar putea să vă placă și