Sunteți pe pagina 1din 404

La evaluacin de impacto en la prctica es simplemente una joya.

Propone un enfoque
de la evaluacin de impacto que busca ser creble cientficamente y, al mismo tiempo,

La evaluacin
reconoce las realidades prcticas de realizar este tipo de trabajo en el campo. A lo largo
de todo el libro hay insumos valiosos en estas dos dimensiones. Yo asigno todo el tiempo
este libro como material de lectura a la hora de capacitar profesionales interesados en la
realizacin, la puesta en marcha, o el consumo de evaluaciones de impacto.

de impacto en
Dan Levy, Catedrtico Senior de Polticas Pblicas y Director de la Iniciativa para
el Fortalecimiento del Aprendizaje y la Excelencia de la Enseanza

La evaluacin de impacto en la prctica es una gran contribucin a la agenda de desarrollo

SEGUNDA EDICIN
la prctica
contempornea. Es un recurso de gran valor para los evaluadores de los gobiernos y
organismos de desarrollo, as como en las universidades y centros de investigacin.
Leonard Wantchekon, Profesor de Poltica y Relaciones Internacionales, Universidad
de Princeton; Fundador y Presidente de la Escuela Africana de Economa

El propsito de este libro es ofrecer una gua accesible, comprehensiva y clara sobre las
evaluaciones de impacto. El material, que va desde la motivacin de la evaluacin de SEGUNDA EDICIN
impacto hasta las ventajas de las diferentes metodologas, clculos de potencia y costos,

La evaluacin de impacto en la prctica


se explica muy claramente, y la cobertura es impresionante. Este libro se convertir en
una gua muy consultada y utilizada que afectar la formulacin de polticas durante los
prximos aos.
Orazio Attanasio, Profesor de Economa, University College of London; Director del Centro
de Evaluacin y Polticas de Desarrollo, Instituto de Estudios Fiscales, Reino Unido

La versin actualizada de este libro extraordinario llega en un momento crtico: la cultura y


el inters por la evaluacin estn creciendo y necesitan el apoyo de un trabajo tcnico de
calidad. La evaluacin de impacto en la prctica es un recurso esencial para evaluadores,
programas sociales, ministerios, y todos aquellos comprometidos con la toma de
decisiones con base en buena evidencia. Esta obra es cada vez ms importante a medida
que la comunidad de desarrollo global trabaja para reducir la pobreza y alcanzar la Agenda
de Desarrollo Sostenible 2030.
Gonzalo Hernndez, Secretario Ejecutivo, Consejo Nacional de Evaluacin para la Poltica
de Desarrollo Social, Mxico

El material adicional de La evaluacin de impacto en la prctica se encuentra


disponible en el sitio web: http://www.worldbank.org/ieinpractice.

Paul J. Gertler, Sebastin Martnez,


Patrick Premand, Laura B. Rawlings
y Christel M. J. Vermeersch
ISBN 978-1-4648-0888-3
90000

9 781464 808883

SKU 210888
La evaluacin de
impacto en la
prctica
Segunda edicin

IEP.indb i 1/6/17 1:48 PM


Se recomienda visitar el sitio web del libro
La evaluacin de impacto en la prctica en
http://www.worldbank.org/ieinpractice. El
sitio web contiene materiales de apoyo, e
incluye soluciones para las preguntas del
estudio de caso HISP del libro, as como la
correspondiente base de datos y el cdigo
de anlisis del software Stata; un manual
tcnico que proporciona un tratamiento ms
formal del anlisis de datos; presentaciones de
PowerPoint relacionadas con los captulos; una
versin en lnea del libro con hipervnculos a los
sitios web, y enlaces con otros materiales.

Este libro ha sido posible gracias al generoso


apoyo del Fondo Estratgico de Evaluacin
de Impacto (SIEF, por sus siglas en ingls:
Strategic Impact Evaluation Fund ). Lanzado
en 2012 con apoyo del Departamento para el
Desarrollo Internacional del Reino Unido, el
SIEF es un programa de alianzas que promueve
la elaboracin de polticas pblicas basadas en
la evidencia. Actualmente se centra en cuatro
mbitos cruciales para un desarrollo humano
saludable: educacin bsica, sistemas de salud
y prestacin de servicios, desarrollo infantil
temprano y nutricin, y agua y saneamiento.
El SIEF funciona en todo el mundo, sobre
todo en pases de bajos ingresos, aportando
conocimientos expertos sobre la evaluacin de
impacto, y evidencia para diversos programas y
equipos de elaboracin de polticas pblicas.

IEP.indb ii 1/6/17 1:48 PM


La evaluacin
de impacto en
la prctica
Segunda edicin

Paul J. Gertler, Sebastin Martnez,


Patrick Premand, Laura B. Rawlings
y Christel M. J. Vermeersch

IEP.indb iii 1/6/17 1:48 PM


2017 Banco Internacional para la Reconstruccin y el Desarrollo/Banco Mundial
1818 H Street NW, Washington, DC 20433
Telfono: 202-473-1000; Internet: www.worldbank.org
Algunos derechos reservados
1 2 3 4 20 19 18 17
Los hallazgos, interpretaciones y conclusiones recogidas en esta obra no reejan necesariamente el punto de vista
del Banco Mundial ni de su Directorio Ejecutivo, del Banco Interamericano de Desarrollo, de su Directorio Ejecutivo
ni de los gobiernos que representan. El Banco Mundial y el Banco Interamericano de Desarrollo no garantizan la
precisin de los datos incluidos en esta obra. Las fronteras, colores, denominaciones y otra informacin de cualquier
mapa en esta obra no implican ningn juicio por parte del Banco Mundial ni el Banco Interamericano de Desarrollo
en relacin con el estatus legal de cualquier territorio ni la aprobacin ni aceptacin de dichas fronteras.
Ningn contenido de esta obra constituir o ser considerado como una limitacin ni renuncia de los privilegios e
inmunidades del Banco Mundial ni del Banco Interamericano de Desarrollo, privilegios e inmunidades especca-
mente reservados.

Derechos y permisos

Esta obra est disponible bajo la licencia de atribucin de Creative Commons 3.0 IGO (CC BY 3.0 IGO) http://
creativecommons.org/licenses/by/3.0/igo. En el marco de la licencia de atribucin Creative Commons, se permite
copiar, distribuir, transmitir y adaptar esta obra, incluso para objetivos comerciales, bajo las siguientes condiciones:
Atribucin: se ruega citar la obra de la siguiente manera: Gertler, Paul J., Sebastin Martnez, Patrick Premand, Laura
B. Rawlings y Christel M. J. Vermeersch. 2017. La evaluacin de impacto en la prctica, Segunda edicin. Washington,
DC: Banco Interamericano de Desarrollo y Banco Mundial. doi:10.1596/978-1-4648-0888-3. Licencia de atribucin:
Creative Commons CC BY 3.0 IGO
Traducciones: Si se procede a una traduccin de esta obra, se ruega aadir la siguiente exencin de responsabilidad
con la atribucin: Esta traduccin no es una creacin del Banco Mundial y no se debera considerar una traduccin ocial
del Banco Mundial. El Banco Mundial no ser responsable de ningn contenido o error en esta traduccin.
Adaptaciones: Si se crea una adaptacin de esta obra, se ruega aadir la siguiente exencin de responsabilidad o con la
siguiente atribucin: sta es una adaptacin de una obra original del Banco Mundial. Las ideas y opiniones expresadas en
la adaptacin son responsabilidad exclusiva del autor o de los autores de la adaptacin y no han sido refrendadas por el
Banco Mundial.
Contenidos de terceros: El Banco Mundial no es dueo necesariamente de cada componente del contenido de este
trabajo. Por lo tanto, el Banco Mundial no garantiza que el uso de cualquier componente individual o parte propiedad
de terceros contenido en la obra no vulnerar los derechos de esos terceros. El riesgo de reclamaciones que resulten de
dicha vulneracin incumbe solo a usted. Si quiere reutilizar un componente de la obra, es responsabilidad suya
determinar si se requiere una autorizacin para esa reutilizacin y para obtener permiso del dueo de los derechos de
autor. Los ejemplos de los componentes pueden incluir cuadros, grcos o imgenes, si bien no estn limitados a ellos.
Todas las consultas sobre derechos y licencias debern dirigirse a la Divisin de Publicacin y Conocimiento, Banco
Mundial, 1818 H Street NW, Washington, DC 20433, EE.UU.; fax: 202-522-2625; e-mail: pubrights@worldbank.org.
ISBN (papel): 978-1-4648-0888-3
ISBN (electrnica): 978-1-4648-0989-7
DOI: 10.1596/978-1-4648-0888-3
Ilustracin: C. Andrs Gmez-Pea y Michaela Wieser
Diseo de la tapa: Critical Stages

IEP.indb iv 1/6/17 1:48 PM


CONTENIDOS

Prlogo xv

Agradecimientos xxi

Acerca de los autores xxiii

Abreviaturas xxvii

PRIMERA PARTE. INTRODUCCIN A


LA EVALUACIN DE IMPACTO 1

Captulo 1. Por qu evaluar? 3


La formulacin de polticas basada en evidencia 3
Qu es la evaluacin de impacto? 7
Evaluacin de impacto prospectiva versus evaluacin retrospectiva 10
Estudios de eficacia y estudios de efectividad 12
Enfoques complementarios 14
Consideraciones ticas con respecto a la evaluacin de impacto 22
La evaluacin de impacto en las decisiones de polticas 24
La decisin de llevar a cabo una evaluacin de impacto 29

Captulo 2. La preparacin de una evaluacin 35


Pasos iniciales 35
Construccin de una teora del cambio 36
Desarrollo de una cadena de resultados 38
La especificacin de las preguntas de la evaluacin 40
La seleccin de indicadores de resultados y desempeo 46
Lista de verificacin: datos para los indicadores 47

SEGUNDA PARTE. CMO EVALUAR 51

Captulo 3. Inferencia causal y contrafactuales 53


Inferencia causal 53

IEP.indb v 1/6/17 1:48 PM


El contrafactual 55
Dos estimaciones falsas del contrafactual 60

Captulo 4. La asignacin aleatoria 71


La evaluacin de programas basados en reglas de asignacin 71
La asignacin aleatoria del tratamiento 72
Lista de verificacin: la asignacin aleatoria 91

Captulo 5. Las variables instrumentales 99


La evaluacin de programas cuando no todos cumplen
su asignacin 99
Tipos de estimaciones de impacto 100
El cumplimiento imperfecto 102
Promocin aleatoria como variable instrumental 112
Lista de verificacin: promocin aleatoria como
variable instrumental 122

Captulo 6. Diseo de regresin discontinua 125


Evaluacin de programas que utilizan un ndice
de elegibilidad 125
El diseo de regresin discontinua difuso 131
Verificacin de la validez del diseo de regresin discontinua 132
Limitaciones e interpretaciones del mtodo de
diseo de regresin discontinua 137
Lista de verificacin: diseo de regresin discontinua 139

Captulo 7. Diferencias en diferencias 143


Evaluacin de un programa cuando la regla de asignacin
es menos clara 143
El mtodo de diferencias en diferencias 144
Qu utilidad tiene el mtodo de diferencias en diferencias? 148
El supuesto de tendencias iguales en el mtodo de
diferencias en diferencias 150
Limitaciones del mtodo de diferencias en diferencias 156
Verificacin: diferencias en diferencias 156

Captulo 8. Pareamiento 159


Construccin de un grupo de comparacin artificial 159
Pareamiento por puntajes de propensin 161
La combinacin del pareamiento con otros mtodos 164
Limitaciones del mtodo de pareamiento 173
Verificacin: el pareamiento 174

vi La evaluacin de impacto en la prctica

IEP.indb vi 1/6/17 1:48 PM


Captulo 9. Cmo abordar las dificultades metodolgicas 177
Efectos heterogneos del tratamiento 177
Efectos no intencionados en la conducta 178
Imperfeccin del cumplimiento 179
El efecto de derrame 181
El desgaste 188
Programacin en el tiempo y persistencia de los efectos 191

Captulo 10. Evaluacin de programas multifacticos 195


Evaluacin de programas que combinan diversas opciones
de tratamiento 195
Evaluacin de programas con diferentes niveles de tratamiento 196
Evaluacin de mltiples intervenciones 199

TERCERA PARTE. CMO IMPLEMENTAR UNA


EVALUACIN DE IMPACTO 205

Captulo 11. Eleccin de un mtodo de evaluacin de impacto 207


Qu mtodo usar en un determinado programa? 207
Cmo las reglas operativas de un programa pueden contribuir
a elegir un mtodo de evaluacin de impacto 208
Una comparacin de mtodos de evaluacin de impacto 214
Cmo encontrar la unidad de intervencin ms pequea factible 218

Captulo 12. Gestin de una evaluacin de impacto 223


Gestin del equipo, del tiempo y del presupuesto de una evaluacin 223
Roles y responsabilidades de los equipos de investigacin
y de polticas pblicas 224
Establecer una colaboracin 231
Cmo programar una evaluacin en el tiempo 237
Cmo elaborar un presupuesto para una evaluacin 240

Captulo 13. La tica y la ciencia en la evaluacin


de impacto 257
La gestin de evaluaciones ticas y crebles 257
La tica de llevar a cabo evaluaciones de impacto 258
Garantizar evaluaciones fiables y crebles mediante la ciencia abierta 264
Lista de verificacin: una evaluacin de impacto tica y creble 271

Captulo 14. Divulgacin de resultados y generacin


de impacto en las polticas pblicas 275
Una base de evidencia slida para las polticas pblicas 275

Contenidos vii

IEP.indb vii 1/6/17 1:48 PM


Elaboracin a la medida de una estrategia de comunicacin
para diferentes pblicos 279
Divulgacin de los resultados 283

CUARTA PARTE. CMO OBTENER DATOS


PARA UNA EVALUACIN DE IMPACTO 289

Captulo 15. La eleccin de una muestra 291


El muestreo y los clculos de potencia 291
Elaboracin de una muestra 291
La decisin sobre el tamao de la muestra de una evaluacin
de impacto: clculos de potencia 297

Captulo 16. Encontrando fuentes adecuadas de datos 323


Tipos de datos necesarios 323
La utilizacin de datos cuantitativos existentes 326
La recopilacin de datos de nuevas encuestas 332

Captulo 17. Conclusiones 355


Las evaluaciones de impacto: ejercicios complejos pero valiosos 355
Lista de verificacin: elementos centrales de una evaluacin
de impacto bien diseada 356
Lista de verificacin: recomendaciones para mitigar riesgos
habituales al llevar adelante una evaluacin de impacto 357

Glosario 361

Recuadros
1.1 Cmo una evaluacin exitosa puede promover la sostenibilidad
poltica de un programa de desarrollo 5
1.2 El impacto de las polticas de un modelo preescolar innovador 7
1.3 Pruebas de la capacidad generalizable de los resultados 13
1.4 Simulacin de posibles efectos del proyecto a travs
del modelado estructural 16
1.5 Un mtodo mixto de evaluacin en accin 17
1.6 Fundamentos para una ampliacin a escala nacional
mediante una evaluacin de procesos en Tanzania 19
1.7 La evaluacin de costo-efectividad 21
1.8 Evaluacin de programas innovadores 25
1.9 La evaluacin de alternativas de diseo de programas 26
1.10 El enfoque de evaluaciones de impacto de clusters 28
viii La evaluacin de impacto en la prctica

IEP.indb viii 1/6/17 1:48 PM


2.1 La articulacin de una teora del cambio: de los pisos
de cemento a la felicidad en Mxico 37
2.2 Experimentos de mecanismo 41
2.3 Una reforma de las matemticas en la enseanza secundaria:
elaboracin de una cadena de resultados y una pregunta de la
evaluacin 43
3.1 El problema del contrafactual: la seorita nica y el
programa de transferencias condicionadas 56
4.1 La asignacin aleatoria como un valioso instrumento operativo 73
4.2 La asignacin aleatoria como regla de seleccin de
un programa: las transferencias condicionadas y la
educacin en Mxico 78
4.3 Asignacin aleatoria de donaciones para mejorar las
perspectivas de empleo juvenil en el norte de Uganda 79
4.4 Asignacin aleatoria de intervenciones en abastecimiento
de agua y saneamiento en zonas rurales de Bolivia 79
4.5 Asignacin aleatoria de proteccin del agua de pozos
para mejorar la salud en Kenia 80
4.6 Asignacin aleatoria e informacin a propsito de los riesgos
del VIH para reducir el embarazo adolescente en Kenia 81
5.1 El uso de variables instrumentales para evaluar el impacto
de Plaza Ssamo en la preparacin escolar 101
5.2 Variables instrumentales para lidiar con la falta de cumplimiento
en un programa de vales escolares en Colombia 110
5.3 Promocin de inversiones en infraestructura educativa
en Bolivia 118
6.1 Uso del diseo de regresin discontinua para evaluar el
impacto de la reduccin de las tarifas escolares en los
ndices de matriculacin en Colombia 126
6.2 Redes de proteccin social basadas en un ndice de
pobreza en Jamaica 130
6.3 El efecto en el desempeo escolar de la agrupacin de
alumnos segn sus puntuaciones en las pruebas
educativas en Kenia 133
7.1 Utilizacin del mtodo DD para entender el impacto de
los incentivos electorales en las tasas de abandono
escolar en Brasil 145
7.2 Aplicacin del mtodo de diferencias en diferencias para
estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina 149
7.3 Comprobando el supuesto de tendencias iguales:
privatizacin del agua y mortalidad infantil en Argentina 153
Contenidos ix

IEP.indb ix 1/6/17 1:48 PM


7.4 Poniendo a prueba el supuesto de tendencias iguales:
la construccin de escuelas en Indonesia 154
8.1 Diferencias en diferencias pareadas: caminos rurales
y desarrollo del mercado local en Vietnam 165
8.2 Pareamiento de diferencias en diferencias: suelos de
cemento, salud infantil y felicidad de las madres en Mxico 166
8.3 El mtodo de control sinttico: los efectos econmicos
de un conflicto terrorista en Espaa 168
9.1 Cuentos tradicionales de la evaluacin de impacto:
el efecto Hawthorne y el efecto John Henry 178
9.2 Externalidades negativas debidas a efectos de equilibrio
general: asistencia para la colocacin laboral y resultados
del mercado de trabajo en Francia 183
9.3 Trabajando con los efectos de derrame: remedios
antiparasitarios, externalidades y educacin en Kenia 184
9.4 Evaluacin de los efectos de derrame: transferencias
condicionadas y derrames en Mxico 187
9.5 El desgaste en estudios con seguimiento a largo plazo:
desarrollo infantil temprano y migracin en Jamaica 189
9.6 Evaluacin de los efectos a largo plazo: subsidios y adopcin
de redes antimosquitos tratadas con insecticidas en Kenia 191
10.1 Prueba de la intensidad de un programa para mejorar la
adhesin a un tratamiento antirretroviral 198
10.2 Pruebas de alternativas de los programas para monitorear
la corrupcin en Indonesia 199
11.1 Programas de transferencias monetarias condicionadas y
el nivel mnimo de intervencin 221
12.1 Principios rectores de la participacin de los equipos de
polticas pblicas y de evaluacin 228
12.2 Descripcin general de un plan de evaluacin de impacto 229
12.3 Ejemplos de modelos de equipos de investigacin
y de polticas pblicas 234
13.1 Registro de pruebas en las ciencias sociales 267
14.1 El impacto en las polticas pblicas de un modelo
innovador de educacin preescolar en Mozambique 277
14.2 Instrumentos de extensin y divulgacin 284
14.3 La divulgacin efectiva de las evaluaciones de impacto 285
14.4 Divulgacin de las evaluaciones de impacto en lnea 286
14.5 Blogs de evaluacin de impacto 287
15.1 El muestreo aleatorio no es suficiente para la evaluacin
de impacto 295

x La evaluacin de impacto en la prctica

IEP.indb x 1/6/17 1:48 PM


16.1 Elaboracin de una base de datos en la evaluacin
del Plan Nacer de Argentina 330
16.2 Utilizacin de datos censales para reevaluar el PRAF
en Honduras 331
16.3 Diseo y formato de los cuestionarios 338
16.4 Algunas ventajas y desventajas de la recopilacin
electrnica de datos 342
16.5 Recopilacin de datos para la evaluacin de las pruebas
piloto de atencin a crisis en Nicaragua 348
16.6 Directrices para la documentacin y el almacenamiento
de datos 349

Grficos
2.1 Los elementos de una cadena de resultados 39
B2.2.1 Identificacin de un experimento de mecanismo en una
cadena de resultados ms larga 42
B2.3.1 Cadena de resultados para la reforma de la currcula
de matemtica en la escuela secundaria 43
2.2 La cadena de resultados del HISP 45
3.1 El clon perfecto 57
3.2 Un grupo de comparacin vlido 59
3.3 Estimaciones antes-despus de un programa de microfinanzas 61
4.1 Caractersticas de los grupos bajo tratamiento con
asignacin aleatoria 76
4.2 Muestra aleatoria y asignacin aleatoria de tratamiento 81
4.3 Pasos para la asignacin aleatoria del tratamiento 85
4.4 Asignacin aleatoria del tratamiento mediante hoja de clculo 87
4.5 Estimacin del impacto con la asignacin aleatoria 90
5.1 Asignacin aleatoria con cumplimiento imperfecto 106
5.2 Estimacin del efecto local promedio del tratamiento bajo
asignacin aleatoria con cumplimiento imperfecto 107
5.3 Proceso de promocin aleatoria 116
5.4 Estimacin del efecto local promedio del tratamiento bajo la
promocin aleatoria 117
6.1 Produccin de arroz, fincas pequeas vs. fincas grandes
(lnea de base) 128
6.2 Produccin de arroz, fincas pequeas vs. fincas grandes
(seguimiento) 129
6.3 Cumplimiento de la asignacin 132
6.4 Manipulacin del ndice de elegibilidad 133

Contenidos xi

IEP.indb xi 1/6/17 1:48 PM


6.5 HISP: densidad de los hogares, segn el ndice de
pobreza de lnea de base 135
6.6 Participacin en el HISP, segn el ndice de pobreza
de lnea de base 135
6.7 ndice de pobreza y gastos en salud: el HISP dos aos despus 136
7.1 El mtodo de diferencias en diferencias 146
7.2 Diferencias en diferencias cuando las tendencias de
los resultados son diferentes 151
8.1 Pareamiento exacto en cuatro caractersticas 160
8.2 Pareamiento por puntajes de propensin y rango comn 162
8.3 Pareamiento para el HISP: rango comn 170
9.1 Un ejemplo clsico de efecto de derrame: externalidades
positivas de la administracin de remedios antiparasitarios
a los nios de las escuelas 186
10.1 Pasos para la asignacin aleatoria de dos niveles de tratamiento 197
10.2 Pasos para la asignacin aleatoria de dos intervenciones 200
10.3 Diseo hbrido para un programa con dos intervenciones 201
15.1 Uso de una muestra para inferir las caractersticas promedio
de una poblacin de inters 292
15.2 Un marco muestral vlido cubre el conjunto de la poblacin
de inters 293
B15.1.1 Muestreo aleatorio entre grupos no comparables de
participantes y no participantes 296
B15.1.2 Asignacin aleatoria de los beneficios de un programa
entre un grupo de tratamiento y un grupo de comparacin 297
15.3 Una muestra ms grande tiene ms probabilidades de
parecerse a la poblacin de inters 300

Cuadros
3.1 Evaluacin del HISP segn comparacin antes-despus 64
3.2 Impacto del HISP segn comparacin antes-despus
(anlisis de regresin) 64
3.3 Evaluacin del HISP segn comparacin inscritos-no inscritos
(comparacin de medias) 67
3.4 Evaluacin del HISP segn comparacin inscritos-no inscritos
(anlisis de regresin) 68
4.1 Evaluacin del HISP: balance entre los pueblos de
tratamiento y de comparacin en la lnea de base 93
4.2 Evaluacin del HISP segn la asignacin aleatoria
(comparacin de medias) 94

xii La evaluacin de impacto en la prctica

IEP.indb xii 1/6/17 1:48 PM


4.3 Evaluacin del HISP segn la asignacin aleatoria
(anlisis de regresin) 95
5.1 Evaluacin del HISP segn la promocin aleatoria
(comparacin de medias) 120
5.2 Evaluacin del HISP segn la promocin aleatoria
(anlisis de regresin) 121
6.1 Evaluacin del HISP: diseo de regresin discontinua
con anlisis de regresin 137
7.1 Clculo del mtodo de diferencias en diferencias 147
7.2 Evaluacin del HISP: diferencias en diferencias
(comparacin de medias) 155
7.3 Evaluacin del HISP: diferencias en diferencias (anlisis
de regresin) 155
8.1 Estimacin del puntaje de propensin a partir de
caractersticas observables de la lnea de base 169
8.2 Evaluacin del HISP: pareamiento de las caractersticas
de lnea de base y comparacin de medias 171
8.3 Evaluacin del HISP: pareamiento de las caractersticas
de lnea de base y anlisis de regresin 171
8.4 Evaluacin del HISP: mtodo de diferencias en diferencias
combinado con pareamiento en las caractersticas de lnea
de base 172
B10.1.1 Resumen del diseo del programa 198
11.1 Relacin entre las reglas operativas de un programa y
los mtodos de evaluacin de impacto 211
11.2 Comparacin de mtodos de evaluacin de impacto 215
12.1 Costo de las evaluaciones de impacto de una seleccin de
proyectos con apoyo del Banco Mundial 241
12.2 Costos desagregados de una seleccin de proyectos
con apoyo del Banco Mundial 242
12.3 Ejemplo de presupuesto para una evaluacin
de impacto 250
13.1 Asegurar informacin fiable y creble para las polticas
mediante la ciencia abierta 265
14.1 Participacin de grupos clave en el impacto en las polticas:
por qu, cundo y cmo 280
15.1 Ejemplos de clusters 304
15.2 Evaluacin del HISP+: tamao requerido de la muestra
para identificar diversos efectos mnimos detectables,
potencia = 0,9 309

Contenidos xiii

IEP.indb xiii 1/6/17 1:48 PM


15.3 Evaluacin del HISP+: tamao requerido de la muestra
para identificar diversos efectos mnimos detectables,
potencia = 0,8 310
15.4 Evaluacin del HISP+: tamao requerido de la muestra
para detectar diversos efectos mnimos deseados
(aumento de la tasa de hospitalizacin) 311
15.5 Evaluacin del HISP+: tamao requerido de la muestra
para identificar diversos efectos mnimos detectables
(disminucin de los gastos del hogar en salud) 314
15.6 Evaluacin del HISP+: tamao requerido de la muestra
para detectar un impacto mnimo de US$2 en diversas
cantidades de clusters 315

xiv La evaluacin de impacto en la prctica

IEP.indb xiv 1/6/17 1:48 PM


PRLOGO

Este libro ofrece una introduccin accesible al tema de la evaluacin de


impacto y su prctica en el desarrollo. Proporciona orientaciones provecho-
sas para disear e implementar evaluaciones de impacto, junto con una
visin general no tcnica de los mtodos de evaluacin de impacto.
Esta es la segunda edicin del manual de La evaluacin de impacto en la
prctica. Publicado por primera vez en 2011, el manual ha sido usado exten-
samente por comunidades de desarrollo y acadmicas en todo el mundo. La
primera edicin est disponible en ingls, francs, portugus y espaol.
La versin actualizada abarca las tcnicas ms recientes para evaluar
programas e incluye consejos de implementacin de ltima generacin, as
como un conjunto ampliado de ejemplos y estudios de casos que se basan en
recientes intervenciones de desarrollo. Tambin incluye nuevos materiales
sobre la tica de la investigacin y alianzas para llevar a cabo evaluaciones
de impacto. A lo largo del libro, los estudios de casos ilustran aplicaciones de
las evaluaciones de impacto. La publicacin incluye enlaces de material
didctico complementario disponible en lnea.
El enfoque de la evaluacin de impacto que se vuelca en este libro es
sobre todo intuitivo. Hemos intentado minimizar las anotaciones tcnicas.
Los mtodos se basan directamente en la investigacin aplicada en ciencias
sociales y comparten numerosos elementos comunes a los mtodos de
investigacin que se emplean en las ciencias naturales. En este sentido, la
evaluacin de impacto rene herramientas de investigacin emprica
ampliamente utilizadas en economa y en otras ciencias sociales, junto con
las realidades operativas y de economa poltica de la implementacin de
polticas pblicas y prctica de desarrollo.
Nuestro enfoque de la evaluacin de impacto tambin es pragmtico:
pensamos que deberan denirse los mtodos ms apropiados para ade-
cuarse al contexto operativo, y no a la inversa. La mejor manera de lograr

xv

IEP.indb xv 1/6/17 1:48 PM


esto es al comienzo de un programa, mediante el diseo de evaluaciones de
impacto prospectivas que se incluyan en la implementacin de un proyecto.
Sostenemos que alcanzar un consenso entre las principales partes interesa-
das y la denicin de un diseo de evaluacin adecuado al contexto poltico
y operativo es tan importante como el propio mtodo. Tambin creemos que
las evaluaciones de impacto deberan ser claras a propsito de sus limitacio-
nes y sus advertencias. Por ltimo, alentamos encarecidamente a los respon-
sables de las polticas pblicas y a los administradores de los programas a
considerar las evaluaciones de impacto como parte de una teora bien desa-
rrollada del cambio que establece con claridad las vas causales mediante las
cuales un programa funciona para elaborar productos e inuir en los resul-
tados nales, y los alentamos a combinar las evaluaciones de impacto con
enfoques de monitoreo y de evaluacin complementarios con el n de obte-
ner un cuadro completo de los resultados.
Nuestras experiencias y lecciones sobre cmo llevar a cabo evaluaciones
de impacto en la prctica se basan en la enseanza y en el trabajo con cientos
de socios idneos de los mbitos gubernamentales, acadmicos y del desa-
rrollo. El libro se fundamenta colectivamente en dcadas de experiencia en
el trabajo con evaluaciones de impacto en casi todos los rincones del pla-
neta, y est dedicado a las futuras generaciones de profesionales y responsa-
bles de las polticas pblicas.
Esperamos que estas pginas constituyan un valioso recurso para la
comunidad internacional de desarrollo, las universidades y los responsables
de las polticas pblicas que intentan construir evidencia vlida en torno a lo
que funciona en el desarrollo. Ms y mejores evaluaciones de impacto con-
tribuirn a fortalecer la base de evidencia para las polticas y los programas
de desarrollo en todo el mundo. Tenemos la esperanza de que si los gobier-
nos y los profesionales del desarrollo pueden tomar decisiones de polticas
pblicas sobre la base de la evidencia, incluida la evidencia generada a tra-
vs de la evaluacin de impacto, los recursos para el desarrollo se destinarn
de manera ms efectiva para reducir la pobreza y mejorar las vidas de las
personas.

Hoja de ruta de los contenidos del libro

En la primera parte, Introduccin a la evaluacin de impacto (captulos 1


y 2), se explica por qu una evaluacin de impacto puede llevarse a cabo y
cundo merece la pena hacerlo. All se revisan los diversos objetivos que una
evaluacin de impacto puede lograr y se subrayan las principales preguntas
relativas a las polticas pblicas que una evaluacin puede abordar. Se insiste

xvi La evaluacin de impacto en la prctica

IEP.indb xvi 1/6/17 1:48 PM


en la necesidad de denir rigurosamente una teora del cambio que explique
los canales a travs de los cuales los programas pueden inuir en los resulta-
dos nales. Se insta a una consideracin cuidadosa de los indicadores de
resultados y del tamao de los efectos anticipados.
En la segunda parte, Cmo evaluar (captulos 3 al 10), se analizan las
diversas metodologas que producen grupos de comparacin que se pueden
utilizar para estimar los impactos de un programa. Se empieza por introdu-
cir el contrafactual como la piedra angular de cualquier evaluacin de
impacto, explicando las propiedades que debe tener la estimacin del
mismo, y proporcionando ejemplos de estimaciones invlidas del contrafac-
tual. Posteriormente, se presenta un men de las opciones de evaluacin de
impacto que pueden producir estimaciones vlidas del contrafactual. En
particular, se aborda la intuicin bsica que subyace a las metodologas de
evaluacin de impacto, a saber: la asignacin aleatoria, las variables instru-
mentales, el diseo de regresin discontinua, las diferencias en diferencias y el
pareamiento. Se establece por qu y cmo cada mtodo puede producir una
estimacin vlida del contrafactual, en qu contexto de las polticas pblicas
se puede implementar cada uno, as como tambin sus principales
limitaciones.
A lo largo de esta parte del libro, se utiliza un estudio de caso el Programa
de Subsidios de Seguros de Salud (HISP, por sus siglas en ingls: Health
Insurance Subsidy Program) para ilustrar cmo se pueden aplicar los mto-
dos. Adems, se ofrecen ejemplos especcos de las evaluaciones de impacto
que han utilizado cada mtodo. La segunda parte concluye con un debate
sobre cmo combinar los mtodos y abordar problemas que pueden surgir
durante la implementacin, reconociendo que los diseos de evaluacin de
impacto a menudo no se implementan exactamente como se haba planeado
originalmente. En este contexto, se analizan ciertos problemas comunes que
suelen experimentarse durante la implementacin, lo que incluye el cum-
plimiento imperfecto o los efectos de derrame, y se debate cmo abordar
estas dicultades. El captulo 10 concluye con orientaciones sobre evalua-
ciones de programas multifacticos, sobre todo aquellos con diferentes
niveles de tratamiento y diseos cruzados.
La tercera parte, Cmo implementar una evaluacin de impacto
(captulos 11 a 14), se centra precisamente en cmo llevar adelante la eva-
luacin. En el captulo 11, se detalla cmo utilizar las reglas del funciona-
miento de un programa es decir, los recursos disponibles del programa,
los criterios para seleccionar a los beneciarios y la programacin en el
tiempo para la implementacin como la base para seleccionar un mtodo
de evaluacin de impacto. Se dene un marco sencillo para determinar
cul de las metodologas de evaluacin de impacto presentadas en la

Prlogo xvii

IEP.indb xvii 1/6/17 1:48 PM


segunda parte es la ms adecuada para un determinado programa, de
acuerdo con sus reglas operativas. En el captulo 12 se aborda la relacin
entre el equipo de investigacin y el equipo de polticas pblicas, y sus
respectivos roles para conformar conjuntamente un equipo de evalua-
cin. Se examina la diferencia entre independencia y ausencia de sesgo, y
se ponen de relieve mbitos que pueden ser delicados para llevar a cabo
una evaluacin de impacto. Se ofrece orientacin sobre cmo gestionar
las expectativas, se destacan algunos de los riesgos habitualmente pre-
sentes en la realizacin de evaluaciones de impacto, y se brindan suge-
rencias sobre cmo manejarlos. El captulo concluye con una visin
general de cmo gestionar las actividades de la evaluacin de impacto, lo
que incluye la creacin de un equipo de evaluacin, la programacin en el
tiempo de la misma, el presupuesto, la captacin de fondos y la recopila-
cin de datos. En el captulo 13 se proporciona una visin general de la
tica y la ciencia de la evaluacin de impacto, lo cual incluye la importan-
cia de no negar benecios a los beneciarios elegibles en aras de la eva-
luacin; en el captulo tambin se resalta el rol de las juntas de revisin
institucional, que aprueban y monitorean la investigacin con sujetos
humanos, y se aborda la importancia de registrar las evaluaciones
siguiendo la prctica de la ciencia abierta, de acuerdo con la cual los datos
se ponen a disposicin del pblico para posteriores investigaciones y
para replicar resultados. El captulo 14 proporciona una visin novedosa
sobre cmo utilizar las evaluaciones de impacto para fundamentar las
polticas pblicas, incluyendo consejos sobre cmo conseguir que los
resultados sean relevantes; un debate sobre el tipo de productos que las
evaluaciones de impacto pueden y deben producir, y orientacin sobre
cmo extraer y divulgar las conclusiones para maximizar el impacto de
las polticas pblicas.
La cuarta parte, Cmo obtener datos para una evaluacin de impacto
(captulos 15 a 17), se ocupa de la forma de recopilar datos, lo que incluye
elegir la muestra y determinar el tamao apropiado de la muestra de la eva-
luacin (captulo 15), as como tambin encontrar fuentes de datos adecua-
dos (captulo 16). El captulo 17 concluye y proporciona algunas listas de
vericacin.

Material complementario en lnea

En el sitio web de la evaluacin de impacto en la prctica se ofrecen mate-


riales de apoyo (http://www.worldbank.org/ieinpractice), incluyendo solu-
ciones a las preguntas de los estudios de casos del HISP, la correspondiente

xviii La evaluacin de impacto en la prctica

IEP.indb xviii 1/6/17 1:48 PM


base de datos y el cdigo de anlisis del software Stata, as como un manual
tcnico que proporciona un tratamiento ms formal del anlisis de datos.
Los materiales tambin abarcan presentaciones de PowerPoint relaciona-
das con los captulos, y versiones en lnea del libro con hipervnculos a sitios
web y enlaces con otros materiales.
El sitio web de evaluacin de impacto en la prctica tambin brinda vn-
culos con materiales relacionados con el Fondo Estratgico de Evaluacin
de Impacto (SIEF, por sus siglas en ingls) del Banco Mundial, la iniciativa
Desarrollo de la Evaluacin de Impacto (DIME, por sus siglas en ingls), de
la misma institucin, y sitios web de manuales de evaluacin de impacto, as
como el portal de evaluacin de impacto del Banco Interamericano de
Desarrollo (BID) y el curso de mtodos de evaluacin de impacto aplicados
en la Universidad de California, Berkeley.

Desarrollo de La evaluacin de impacto en la


prctica

La primera edicin del libro La evaluacin de impacto en la prctica se basaba


en un conjunto central de materiales didcticos desarrollados para los semi-
narios sobre Cmo convertir las promesas en evidencia, organizados por la
Ocina del Economista Jefe para Desarrollo Humano, en asociacin con uni-
dades regionales y con el Grupo de Investigacin en Economa del Desarrollo
del Banco Mundial. En el momento de redactar la primera edicin, el semi-
nario se haba celebrado ms de 20 veces en todas las regiones del mundo.
Los seminarios, y tanto la primera como la segunda edicin de este
manual, han sido posibles gracias a las generosas ayudas del gobierno de
Espaa, del Departamento para el Desarrollo Internacional del Reino Unido
(DFID) y de la Fundacin del Fondo de Inversin para la Infancia (CIFF,
Reino Unido) a travs de contribuciones al SIEF. La segunda edicin tam-
bin se ha beneciado del apoyo de la Ocina de Planicacin Estratgica y
Efectividad en el Desarrollo del BID.
Esta segunda edicin ha sido puesta al da para abarcar las tcnicas ms
actualizadas, as como consejos de implementacin de ltima generacin,
siguiendo los progresos alcanzados en este campo en los ltimos aos.
Tambin hemos ampliado el conjunto de ejemplos y estudios de casos para
reejar aplicaciones de amplio espectro de la evaluacin de impacto en las
operaciones de desarrollo y destacar sus vnculos con las polticas pblicas.
Por ltimo, hemos incluido aplicaciones de tcnicas de evaluacin de
impacto con Stata, utilizando la base de datos del estudio de caso del HISP
como parte del material complementario en lnea.

Prlogo xix

IEP.indb xix 1/6/17 1:48 PM


IEP.indb xx 1/6/17 1:48 PM
AGRADECIMIENTOS

Los materiales didcticos sobre los que se basa este libro han experimen-
tado numerosas versiones, y han sido enseados por diversos y talentosos
profesores, todos los cuales han dejado su impronta en los mtodos y en el
enfoque de la evaluacin de impacto enunciados en el libro. Queremos agra-
decer y reconocer las contribuciones y los aportes sustanciales de diversos
profesores que han participado en los seminarios en los que se basaba la
primera edicin, y que incluyen a Paloma Acevedo Alameda, Felipe Barrera,
Sergio Bautista-Arredondo, Stefano Bertozzi, Barbara Bruns, Pedro
Carneiro, Jishnu Das, Damien de Walque, David Evans, Claudio Ferraz,
Deon Filmer, Jed Friedman, Emanuela Galasso, Sebastin Galiani, Arianna
Legovini, Phillippe Leite, Gonzalo Hernndez Licona, Mattias Lundberg,
Karen Macours, Juan Muoz, Plamen Nikolov, Berk zler, Nancy Qian,
Gloria M. Rubio, Norbert Schady, Julieta Trias, y Sigrid Vivo Guzmn.
Agradecemos los comentarios realizados por nuestros revisores pares en la
primera edicin del libro (Barbara Bruns, Arianna Legovini, Dan Levy y
Emmanuel Skouas) y la segunda edicin (David Evans, Francisco Gallego,
Dan Levy y Damien de Walque), as como tambin las observaciones de
Gillette Hall. Deseamos asimismo expresar nuestro agradecimiento por los
esfuerzos de un talentoso equipo organizador, que incluye a Holly Balgrave,
Theresa Adobea Bampoe, Febe Mackey, Silvia Paruzzolo, Tatyana Ringland,
Adam Ross y Jennifer Sturdy.
Extendemos igualmente nuestro reconocimiento a todos los que partici-
paron en las transcripciones del borrador del seminario de julio de 2009
realizado en Beijing, China, en el que se basan partes de este libro, especial-
mente a Paloma Acevedo Alameda, Carlos Asenjo Ruiz, Sebastian Bauhoff,
Bradley Chen, Changcheng Song, Jane Zhang y Shufang Zhang.
Reconocemos a Garret Christensen y a la Berkeley Initiative for
Transparency in the Social Sciences, as como a Jennifer Sturdy y Elisa
Rothenbhler por sus aportes al captulo 13. Tambin agradecemos a Marina

xxi

IEP.indb xxi 1/6/17 1:48 PM


Tolchinsky y Kristine Cronin por su excelente apoyo en la investigacin; a
Cameron Breslin y Restituto Crdenas por el respaldo en la programacin; a
Marco Guzmn y Martin Ruegenberg por el diseo de las ilustraciones, y a
Nancy Morrison, Cindy A. Fisher, Fiona Mackintosh y Stuart K. Tucker por
el apoyo editorial durante la produccin de la primera y la segunda edicin
del libro.
Reconocemos y agradecemos el apoyo permanente y el entusiasmo por
este proyecto de nuestros directivos en el Banco Mundial y el Banco
Interamericano de Desarrollo, y especialmente al equipo del SIEF, entre
ellos Daphna Berman, Holly Blagrave, Restituto Crdenas, Joost de Laat,
Ariel Fiszbein, Alaka Holla, Aliza Marcus, Diana-Iuliana Pirjol, Rachel
Rosenfeld y Julieta Trias. Estamos sumamente agradecidos por el apoyo
recibido de la administracin del SIEF, incluyendo a Luis Benveniste, Joost
de Laat y Julieta Trias. Agradecemos igualmente a Andrs Gmez-Pea y
Michaela Wieser del Banco Interamericano de Desarrollo, y a Mary Fisk,
Patricia Katayama, y Mayya Revzina, del Banco Mundial, por su ayuda con
las comunicaciones y el proceso de publicacin.
La produccin de la segunda edicin de este libro en su versin en espa-
ol fue realizada por la Ocina de Planicacin Estratgica y Efectividad en
el Desarrollo del Banco Interamericano de Desarrollo. Reconocemos parti-
cularmente a Carola lvarez y Arturo Galindo por su apoyo en esta inicia-
tiva. Quedamos endeudados con Andrs Gmez-Pea y Michaela Wieser
por su esfuerzo y dedicacin en la coordinacin del proceso de produccin
editorial de este volumen. De igual manera, agradecemos especialmente a
Alberto Magnet por la traduccin del libro al espaol, as como a Claudia M.
Pasquetti, a cargo de la edicin y lectura de pruebas en dicho idioma. Cabe
tambin nuestro reconocimiento del aporte de los revisores tcnicos de
cada uno de los captulos en espaol: Paloma Acevedo, Jorge Marcelo
Franco Quincot, Gastn Gertner y Bibiana Taboada.
Por ltimo, quisiramos brindar nuestro reconocimiento a los partici-
pantes de los numerosos talleres, sobre todo los celebrados en Abiyn,
Accra, Ads Abeba, Amn, Ankara, Beijing, Berkeley, Buenos Aires, Cairo,
Ciudad de Panam, Ciudad del Cabo, Cuernavaca, Dakar, Daca, Fortaleza,
Katmand, Kigali, Lima, Madrid, Managua, Manila, Ciudad de Mxico,
Nueva Delhi, Paipa, Pretoria, Rio de Janeiro, San Salvador, Santiago,
Sarajevo, Sel, Sofa, Tnez y Washington, D.C.
Gracias a su inters, a sus inteligentes preguntas y a su entusiasmo,
hemos sido capaces de aprender paso a paso qu buscan los responsables de
las polticas pblicas en las evaluaciones de impacto. Esperamos que este
libro reeje sus ideas.

xxii La evaluacin de impacto en la prctica

IEP.indb xxii 1/6/17 1:48 PM


ACERCA DE LOS AUTORES

Paul J. Gertler es profesor de economa en la ctedra Li Ka Shing de la


Universidad de California, Berkeley, donde imparte clases en la Escuela de
Negocios Haas y en la Escuela de Salud Pblica. Tambin es director cien-
tco del Centro para una Accin Global Efectiva en la Universidad de
California. Se desempe como economista jefe en la Red de Desarrollo
Humano del Banco Mundial entre 2004 y 2007 y en la Ctedra Fundadora
de la Junta de Directores de la Iniciativa Internacional para la Evaluacin
de Impacto (3ie) entre 2009 y 2012. En el Banco Mundial, dirigi los traba-
jos para institucionalizar y desarrollar la escala de la evaluacin de impacto
para aprender acerca de aquello que funciona en el desarrollo humano. Ha
sido investigador principal en diversas evaluaciones de impacto multisitio,
entre ellas el programa de TCE, de Mxico, Progresa-Oportunidades, y en
el sistema de salud Remuneracin por Desempeo, de Ruanda. Posee un
doctorado en economa de la Universidad de Wisconsin, y se ha desempe-
ado como docente en Harvard, en RAND y en la State University of New
York en Stony Brook.

Sebastin Martnez es economista principal en la Ocina de Planicacin


Estratgica y Efectividad en el Desarrollo del Banco Interamericano de
Desarrollo (BID). Su trabajo se centra en el fortalecimiento de la base de
evidencia y en la efectividad en el desarrollo de los sectores social y de
infraestructura, incluyendo salud, proteccin social, mercados laborales,
agua y saneamiento, y vivienda y desarrollo urbano. Dirige un equipo
deeconomistas que lleva a cabo investigacin sobre los impactos de los
programas y polticas pblicas del desarrollo, apoya la implementacin
deevaluaciones de impacto de las operaciones y trabaja en la mejora de
capacidades para los clientes y el personal. Antes de integrarse al BID,
trabaj seis aos en el Banco Mundial, dirigiendo evaluaciones de progra-
mas sociales en Amrica Latina y en frica Subsahariana. Posee un

xxiii

IEP.indb xxiii 1/6/17 1:48 PM


doctorado en economa de la Universidad de California, Berkeley, con
una especializacin en desarrollo y microeconoma aplicada.

Patrick Premand es economista senior en proteccin social y prctica glo-


bal laboral en el Banco Mundial. Dirige el trabajo analtico y operativo sobre
proteccin social y redes de proteccin; mercados laborales, empleo juvenil
y capacidad emprendedora, as como tambin desarrollo infantil temprano.
Su investigacin se centra en construir evidencia sobre la efectividad de las
polticas de desarrollo a travs de evaluaciones de impacto de programas
sociales y de desarrollo humano a gran escala. Ha ocupado diversos cargos
en el Banco Mundial, lo cual incluye la Unidad de Economa del Desarrollo
Humano de la regin de frica, la Ocina del Economista Jefe para
Desarrollo Humano y la Unidad de Pobreza de la regin de Amrica Latina
y el Caribe. Posee un doctorado en economa de la Universidad de Oxford.

Laura B. Rawlings es especialista lder en proteccin social en el Banco


Mundial, y ostenta ms de 20 aos de experiencia en el diseo, la implemen-
tacin y la evaluacin de programas de desarrollo humano. Administra tanto
las operaciones como la investigacin, centrndose en el desarrollo de enfo-
ques innovadores para sistemas de proteccin social efectivos y escalables
en entornos de bajos recursos. Ha sido lder de equipo responsable de desa-
rrollar la Estrategia de Proteccin Social y Laboral 2012-2022 del Banco
Mundial y, anteriormente, administradora del Fondo Estratgico de
Evaluacin de Impacto (SIEF). Tambin se desempe como lder del sector
para desarrollo humano en Centroamrica, donde fue la responsable de ges-
tionar las carteras de salud, educacin y proteccin social del Banco Mundial.
Comenz su carrera en esta ltima institucin, en el Grupo de Investigacin
sobre el Desarrollo, donde trabaj en los programas de evaluacin de impacto
de programas sociales. Ha trabajado en Amrica Latina y el Caribe as como
en frica Subsahariana, dirigiendo numerosas iniciativas de proyectos de
investigacin en los mbitos de transferencias condicionadas, empleo
pblico, fondos sociales, desarrollo infantil temprano y sistemas de protec-
cin social. Antes de integrarse al Banco Mundial, trabaj en el Consejo para
el Desarrollo de Ultramar, donde dirigi un programa educativo sobre temas
de desarrollo para el personal en el Congreso de Estados Unidos. Ha publi-
cado numerosos libros y artculos en el campo de la evaluacin del desarrollo
humano y es profesora adjunta en el Programa de Desarrollo Humano Global
de la Universidad de Georgetown, Washington D.C.

Christel M. J. Vermeersch es economista senior en Prctica Global en


Salud, Nutricin y Poblacin en el Banco Mundial. Se ocupa de temas

xxiv La evaluacin de impacto en la prctica

IEP.indb xxiv 1/6/17 1:48 PM


relacionados con el nanciamiento del sector salud, el nanciamiento
basado en resultados, monitoreo y evaluacin, y evaluacin de impacto.
Anteriormente se desempe en los mbitos de educacin, desarrollo infan-
til temprano y capacidades. Ha sido coautora de estudios de evaluacin de
impacto para programas de nanciamiento basados en resultados en
Argentina y Ruanda, un seguimiento de largo plazo de un estudio de estimu-
lacin de la temprana infancia en Jamaica, as como del manual de evalua-
cin de impacto en salud del Banco Mundial. Antes de sumarse a esta ltima
institucin, fue becaria de investigacin posdoctoral en la Universidad de
Oxford. Posee un doctorado en economa de la Universidad de Harvard.

Acerca de los autores xxv

IEP.indb xxv 1/6/17 1:48 PM


IEP.indb xxvi 1/6/17 1:48 PM
ABREVIATURAS

3IE Iniciativa Internacional para la Evaluacin de Impacto


ATE Efecto promedio del tratamiento
BID Banco Interamericano de Desarrollo
CITI Iniciativa de capacitacin institucional colaborativa
DD Diferencias en diferencias
DIME Evaluacin de impacto para el desarrollo (Banco Mundial)
DRD Diseo de regresin discontinua
EMARF Especco, medible, atribuible, realista y focalizado
EMD Efecto mnimo detectable
HISP Programa de Subsidios de Seguros de Salud
ID Nmero de identicacin
IDU Instituto para el Desarrollo de Ultramar
IHSN International Household Survey Network
ITT Intencin de tratar
IV Variables instrumentales
J-PAL Abdul Latif Jameel Poverty Action Lab
JRI Junta de revisin institucional
LATE Efecto promedio local del tratamiento
NIH National Institutes of Health (Estados Unidos)
OMS Organizacin Mundial de la Salud
ONG Organizacin no gubernamental
OSF Open Science Framework
RCT Ensayo controlado aleatorio

xxvii

IEP.indb xxvii 1/6/17 1:48 PM


RIDIE Registry for International Development Impact Evaluations
SIEF Fondo Estratgico de Evaluacin de Impacto (Banco Mundial)
SUTVA Supuesto de estabilidad del valor de la unidad de tratamiento
TOT Tratamiento en los tratados
USAID Agencia de Estados Unidos para el Desarrollo Internacional

xxviii La evaluacin de impacto en la prctica

IEP.indb xxviii 1/6/17 1:48 PM


Primera parte

INTRODUCCIN A
LA EVALUACIN DE
IMPACTO

La primera parte de este libro presenta una visin general de la evaluacin de


impacto. En el captulo 1 se analiza por qu la evaluacin de impacto es importante
y cmo se inscribe en el contexto de una formulacin tica de las polticas basada
en evidencia. Se compara la evaluacin de impacto con el monitoreo, se describen
las caractersticas que definen la evaluacin de impacto y se abordan enfoques
complementarios, entre ellos el anlisis de costo-beneficio y de costo-efectividad.
Asimismo, aqu se introduce un elemento clave del libro, a saber: cmo los recur-
sos disponibles de un programa, los criterios de elegibilidad para seleccionar a los
beneficiarios y los plazos para la implementacin contribuyen a definir las opciones
en la seleccin de los mtodos de evaluacin de impacto. Por ltimo, se detallan
diferentes modalidades de evaluacin de impacto, como la evaluacin prospectiva
y retrospectiva y las pruebas de eficacia frente a las pruebas de efectividad, y se
concluye con un debate sobre cundo utilizar las evaluaciones de impacto.

IEP.indb 1 1/6/17 1:48 PM


El captulo 2 versa sobre cmo formular preguntas e hiptesis de evaluacin
que son tiles para las polticas. Estas preguntas e hiptesis forman la base
de la evaluacin porque definen su foco. Tambin se expone el concepto fun-
damental de una teora del cambio y los usos correspondientes de las cadenas
de resultados y de los indicadores de desempeo. Este captulo presenta la
primera introduccin al estudio de casos ficcionales, el Programa de Subsidios
de Seguros de Salud (HISP, por sus siglas en ingls, Health Insurance Subsidy
Program) utilizado a lo largo del libro y en el material de apoyo que se halla en
el sitio web de evaluacin de impacto en la prctica (http://www.worldbank.org
/ieinpractice).

IEP.indb 2 1/6/17 1:48 PM


CAPTULO 1

Por qu evaluar?

La formulacin de polticas basada en evidencia

Los programas y polticas de desarrollo suelen estar diseados para cambiar


resultados, como aumentar los ingresos, mejorar el aprendizaje o reducir las
enfermedades. Saber si estos cambios se logran o no es una pregunta crucial
para las polticas pblicas, aunque a menudo no suele abordarse. Es ms Concepto clave
habitual que los administradores de los programas y los responsables de las Las evaluaciones son
polticas se centren en medir e informar sobre los insumos y los productos valoraciones
inmediatos de un programa (cunto dinero se gasta, cuntos libros de texto peridicas y objetivas
de un proyecto,
se distribuyen, cuntas personas participan en un programa de empleo) en
programa o poltica
lugar de evaluar si los programas han logrado sus objetivos de mejorar los planificada, en curso o
resultados. terminada. Las
Las evaluaciones de impacto forman parte de una agenda mas amplia de evaluaciones se
formulacin de polticas pblicas basadas en evidencia. Esta tendencia mun- utilizan para responder
a preguntas
dial creciente se caracteriza por un cambio de enfoque, ya que en lugar de
especficas, a menudo
centrarse en los insumos lo hace en los productos y resultados, y est recon- relacionadas con el
gurando las polticas pblicas. Centrarse en los resultados no solo sirve diseo, la implementa-
para denir y hacer un seguimiento de los objetivos nacionales e internacio- cin y/o los resultados.
nales, sino que adems los administradores de programas utilizan y nece-
sitan cada vez ms los resultados para mejorar la rendicin de cuentas,
denir las asignaciones presupuestarias y orientar el diseo del programa y
las decisiones de polticas.

IEP.indb 3 1/6/17 1:48 PM


El monitoreo y la evaluacin son fundamentales en la formulacin de
polticas basadas en evidencia. Ofrecen un conjunto central de instru-
mentos que las partes interesadas pueden utilizar para vericar y mejorar
la calidad, eciencia y efectividad de las polticas y de los programas en
diferentes etapas de implementacin o, en otras palabras, para centrarse
en los resultados. A nivel de la gestin del programa, es necesario saber
cules son las opciones de diseo costo-efectivas, o demostrar ante los
responsables de la toma de decisiones que los programas estn logrando
sus resultados previstos con el n de obtener asignaciones presupuesta-
rias para continuarlos o ampliarlos. A nivel nacional, los ministerios
compiten unos con otros para obtener nanciamiento del ministerio de
Finanzas. Y, por ltimo, los gobiernos deben rendir cuentas ante los ciu-
dadanos para informales del resultado de los programas pblicos. La evi-
dencia puede constituir una base slida para la transparencia y la rendicin
de cuentas.
La evidencia robusta generada por las evaluaciones de impacto est sir-
viendo cada vez ms como fundamento para una mayor rendicin de cuen-
tas, innovacin y aprendizaje. En un contexto en que los responsables de las
polticas y la sociedad civil exigen resultados y la rendicin de cuentas de los
programas pblicos, la evaluacin de impacto puede proporcionar eviden-
cia robusta y creble sobre el desempeo y ante todo sobre si un programa
concreto ha alcanzado o est alcanzando sus resultados deseados. Las eva-
luaciones de impacto tambin son cada vez ms utilizadas para probar inno-
vaciones en el diseo de programas o en la prestacin de servicios. A nivel
mundial, estas evaluaciones son fundamentales para construir conocimien-
tos acerca de la efectividad de los programas de desarrollo, iluminando
sobre lo que funciona y no funciona para reducir la pobreza y mejorar el
bienestar.
En pocas palabras, una evaluacin de impacto mide los cambios en el
bienestar de los individuos que se pueden atribuir a un proyecto, un pro-
grama o una poltica especcos. Este enfoque en la atribucin es el sello
distintivo de las evaluaciones de impacto. Por lo tanto, el reto fundamental
en una evaluacin de esta naturaleza consiste en identicar la relacin
causal entre el programa o la poltica y los resultados de inters.
Las evaluaciones de impacto suelen medir el impacto promedio de un
programa, las modalidades del programa o una innovacin en el diseo. Por
ejemplo, el programa de agua y saneamiento aument el acceso a agua
potable y mejor los resultados de salud? Un programa de estudios alterna-
tivo mejor las puntuaciones de las pruebas de los alumnos? La innovacin
de incluir destrezas cognitivas como parte de un programa de formacin de
jvenes ha tenido xito promoviendo la iniciativa empresarial e incremen-
tando los ingresos? En cada uno de estos casos, la evaluacin de impacto
4 La evaluacin de impacto en la prctica

IEP.indb 4 1/6/17 1:48 PM


proporciona informacin sobre si el programa provoc los cambios deseados
en los resultados, al compararse con estudios de casos o ancdotas espec-
cas, que solo pueden brindar informacin parcial y que quiz no sean repre-
sentativos de los impactos generales del programa. En este sentido, las
evaluaciones de impacto bien diseadas y bien implementadas son capaces
de proporcionar evidencia convincente y exhaustiva que puede ser utilizada
para fundamentar las decisiones de las polticas, inuir en la opinin pblica
y mejorar el funcionamiento de los programas.
Las evaluaciones de impacto clsicas abordan la efectividad de un pro-
grama en comparacin con la ausencia del mismo. El recuadro 1.1 se reere a
la evaluacin de impacto bien conocida del programa de transferencias con-
dicionadas en Mxico, e ilustra cmo la evaluacin contribuy a los debates
de las polticas pblicas en relacin con la ampliacin del programa.1

Recuadro 1.1: Cmo una evaluacin exitosa puede promover la


sostenibilidad poltica de un programa de desarrollo

El programa de transferencias condicio- impacto y la incorporaran en la ampliacin


nadas de Mxico del programa al mismo tiempo que este se
En los aos noventa, el gobierno de Mxico pona en marcha de manera progresiva en
lanz un programa innovador de transferen- las comunidades participantes.
cias condicionadas, llamado inicialmente Las elecciones presidenciales de 2000
Progresa (que luego pas a llamarse se saldaron con un cambio en el partido
Oportunidades y ms tarde Prospera, al gobernante. En 2001 los evaluadores exter-
tiempo que cambiaron unos cuantos elemen- nos de Progresa presentaron su conclusio-
tos del mismo). Sus objetivos consistan en nes al gobierno recin elegido. Los
proporcionar a los hogares pobres un apoyo resultados del programa eran impresionan-
de corto plazo a los ingresos y en incentivar la tes: demostraban que el programa estaba
inversin en el capital humano de los nios, bien focalizado en los pobres y que haba
mediante transferencias de efectivo a las generado cambios prometedores en el capi-
madres de hogares pobres con la condicin tal humano de los hogares. Schultz (2004)
de que sus hijos asistieran a la escuela y visi- encontr que el programa mejoraba de
taran regularmente un centro de salud. forma significativa la matriculacin escolar,
Desde el comienzo, el gobierno consi- en un promedio de 0,7 aos adicionales de
der esencial monitorear y evaluar el pro- escolarizacin. Gertler (2004) observ que la
grama. Los funcionarios responsables incidencia de las enfermedades de los nios
contrataron a un grupo de investigadores disminua en un 23%, mientras que el
para que disearan una evaluacin de nmero de das perdidos por enfermedad o

Contina en la pgina siguiente.

Por qu evaluar? 5

IEP.indb 5 1/6/17 1:48 PM


Recuadro 1.1: Cmo una evaluacin exitosa puede promover la sostenibilidad poltica de un programa
de desarrollo (contina)
discapacidad decreca en un 19% entre los media-superior y mejor los programas de
adultos. Entre los resultados nutricionales, salud para los adolescentes. Al mismo
Behrman y Hoddinott (2001) hallaron que el tiempo, los resultados fueron utilizados para
programa reduca la probabilidad de retraso modificar otros programas de ayuda social,
en el crecimiento en alrededor de 1 cent- como el subsidio de la tortilla, muy generoso
metro al ao en los nios durante la edad pero no tan bien focalizado, cuya escala se
crtica de 12-36 meses. redujo.
Estos resultados de la evaluacin fueron La exitosa evaluacin de Progresa tam-
el punto de partida de un dilogo sobre las bin contribuy a la rpida adopcin de sis-
polticas basadas en evidencia y contribuye- temas de transferencias condicionadas en
ron a la decisin del nuevo gobierno de seguir todo el mundo, y a la adopcin en Mxico de
con el programa. El gobierno ampli su una legislacin que establece la evaluacin
alcance e introdujo las becas en la enseanza de todos los proyectos sociales.

Fuentes: Behrman y Hoddinott (2001); Fiszbein y Schady (2009); Gertler (2004); Levy y Rodrguez (2005); Schultz
(2004); Skoufias y McClafferty (2001).

El recuadro 1.2 ilustra cmo la evaluacin de impacto inuy en la pol-


tica educativa de Mozambique, al demostrar que el preescolar comunitario
puede ser una frmula asequible y efectiva de abordar la educacin tem-
prana y promover la matriculacin de los nios en la escuela primaria a la
edad adecuada.
Adems de abordar la pregunta bsica de si un programa es efectivo
o no, las evaluaciones de impacto tambin se pueden utilizar para pro-
bar explcitamente modalidades de programas alternativos o innovacio-
nes de diseo. A medida que los responsables de las polticas se centran
cada vez ms en entender mejor cmo perfeccionar la implementacin
y obtener ms a cambio del dinero, los enfoques que prueban alternati-
vas de diseo estn ganando terreno rpidamente. Por ejemplo, una
evaluacin puede comparar el desempeo de un programa de forma-
cin con el de una campaa promocional para ver cul es ms efectivo
para aumentar la alfabetizacin nanciera. Una evaluacin de impacto
puede probar cul es el enfoque de la combinacin de nutricin y de
estimulacin del nio que tiene el mayor impacto en su desarrollo. O la
evaluacin puede probar una innovacin de diseo para mejorar el
diseo de un programa existente, como utilizar mensajes de texto para
mejorar el cumplimiento cuando se trata de tomar la medicacin
prescrita.
6 La evaluacin de impacto en la prctica

IEP.indb 6 1/6/17 1:48 PM


Recuadro 1.2: El impacto de las polticas de un modelo preescolar
innovador

Desarrollo preescolar y de la primera La evaluacin lleg a la conclusin de que


infancia en Mozambique los nios que asistan a preescolar tenan un
Si bien el preescolar se reconoce como una 24% ms de probabilidades de matricularse en
buena inversin y un enfoque efectivo para la escuela primaria que los nios del grupo de
preparar a los nios para la escuela y las eta- comparacin, y un 10% ms de probabilidades
pas posteriores de la vida, los pases en desa- de comenzar a la edad adecuada. En la escuela
rrollo se han enfrentado a la pregunta de cmo primaria, los nios que haban asistido a prees-
introducir un modelo de preescolar escalable y colar dedicaron casi un 50% ms de tiempo a
costo-efectivo. En Mozambique solo alrede- las tareas escolares y a otras actividades relacio-
dor del 4% de los nios asiste a preescolar. Al nadas con la escuela que los que no haban asis-
llegar a la escuela primaria, algunos nios de tido. La evaluacin tambin mostraba aumentos
comunidades rurales muestran seales de positivos en la preparacin para la escuela; los
retrasos en el desarrollo y a menudo no estn nios que haban cursado preescolar obtenan
preparados para las demandas de la escuela mejores resultados en las pruebas cognitivas y
primaria. Adems, a pesar de que en la socioemocionales, y alcanzaban un buen desa-
escuela primaria hay una tasa de matriculacin rrollo motor versus el grupo de comparacin.
de casi el 95%, a una tercera parte de los Otros miembros del hogar tambin se
nios no se los inscribe a la edad adecuada. beneficiaron de la matriculacin de los nios en
En 2006 Save the Children lanz un pro- preescolar al disponer de ms tiempo para
grama piloto de preescolar comunitario en dedicar a actividades productivas. Cuando en
zonas rurales de Mozambique con la inten- un hogar haba un nio que concurra a prees-
cin de mejorar el desarrollo cognitivo, colar, los hermanos mayores tenan un 6% ms
social, emocional y fsico de los nios. En lo de probabilidades de asistir a la escuela y los
que se considera la primera evaluacin alea- cuidadores tenan un 26% ms de probabilida-
torizada de un programa preescolar en frica des de haber trabajado en los ltimos 30 das.
rural, en 2008 un equipo de investigacin Esta evaluacin demostr que incluso en
llev a cabo una evaluacin de impacto del un entorno de bajos ingresos, el preescolar
programa. Sobre la base de los resultados puede ser una manera efectiva de promover
positivos de la evaluacin, el gobierno de el desarrollo cognitivo, preparar a los nios
Mozambique adopt el modelo preescolar para la escuela primaria y aumentar la proba-
comunitario de Save the Children y decidi bilidad de que comiencen la escuela prima-
ampliarlo a 600 comunidades. ria a la edad adecuada.

Fuente: Martnez, Nadeau y Pereira (2012).

Qu es la evaluacin de impacto?

La evaluacin de impacto es uno de los numerosos mtodos que existen


para apoyar las polticas pblicas basadas en evidencia, incluidos el monito-
reo y otros tipos de evaluacin.
Por qu evaluar? 7

IEP.indb 7 1/6/17 1:48 PM


El monitoreo es un proceso continuo mediante el cual se lleva a cabo un
seguimiento de lo que ocurre con un programa y se utilizan los datos recopi-
lados para fundamentar la implementacin de los programas y la adminis-
tracin y las decisiones diarias. A partir sobre todo de datos administrativos,
el monitoreo realiza un seguimiento de los desembolsos nancieros y del
desempeo del programa en relacin con los resultados esperados, y analiza
las tendencias a lo largo del tiempo.2 El monitoreo es necesario en todos los
programas y constituye una fuente crtica de informacin sobre el desem-
peo de los mismos, lo cual abarca tambin la implementacin y los costos.
Normalmente, el monitoreo se aplica a los insumos, actividades y productos,
aunque ocasionalmente tambin puede abarcar los resultados, como, por
ejemplo, el progreso alcanzado en los objetivos de desarrollo nacional.
Las evaluaciones son valoraciones peridicas y objetivas de un proyecto,
programa o poltica planicado, en curso o terminado. Se utilizan para res-
ponder a preguntas especcas relacionadas con el diseo, la implementa-
cin y los resultados. En contraste con el monitoreo, que es permanente, las
evaluaciones se llevan a cabo en momentos concretos en el tiempo y a
menudo requieren una perspectiva externa de los tcnicos expertos. Su
diseo, mtodo y costo varan considerablemente en funcin del tipo de pre-
gunta que la evaluacin intente responder. En trminos generales, las eva-
luaciones pueden abordar tres tipos de preguntas (Imas y Rist, 2009):3
Preguntas descriptivas, que apuntan a lo que est ocurriendo. Se centran
en los procesos, las condiciones, las relaciones organizacionales y las opi-
niones de las partes interesadas.
Preguntas normativas, que comparan lo que ocurre con lo que debera
ocurrir. Evalan las actividades e investigan si los objetivos se cumplen o
no. Estas preguntas pueden aplicarse a los insumos, las actividades y los
productos.
Preguntas de causa y efecto, que se centran en la atribucin. Investigan
qu diferencia produce la intervencin en los resultados.
Hay numerosos tipos de evaluacin y de mtodos de evaluacin, basados en
datos cuantitativos y cualitativos. Los datos cualitativos no se expresan en
nmeros sino ms bien mediante un lenguaje o, a veces, imgenes. Los datos
cuantitativos son mediciones numricas y habitualmente se asocian con
escalas o mtricas. Tanto los unos como los otros se pueden utilizar para
responder al tipo de preguntas planteado ms arriba. En la prctica, nume-
rosas evaluaciones trabajan con ambos tipos de datos. Hay mltiples fuen-
tes de datos que se pueden emplear en las evaluaciones, tanto datos
primarios recopilados para el objetivo de la evaluacin como los datos
secundarios disponibles (vase el captulo 16 sobre las fuentes de datos).
8 La evaluacin de impacto en la prctica

IEP.indb 8 1/6/17 1:48 PM


Este libro se centra en las evaluaciones de impacto que se sirven de datos
cuantitativos pero subrayan el valor del monitoreo, de los mtodos de eva-
luacin complementarios y del uso tanto de datos cuantitativos como
cualitativos.
Las evaluaciones de impacto constituyen un tipo particular de evaluacin
que pretende responder a una pregunta especca de causa y efecto: Cul
es el impacto (o efecto causal) de un programa en un resultado de inters?
Esta pregunta bsica incorpora una dimensin causal importante. Se centra
nicamente en el impacto, es decir, en los cambios directamente atribuibles a
un programa, una modalidad de programa o una innovacin de diseo.
La pregunta bsica de la evaluacin cul es el impacto o efecto causal Concepto clave
de un programa en un resultado de inters? se puede aplicar en numerosos Las evaluaciones de
contextos. Por ejemplo, cul es el efecto causal de las becas en la asistencia impacto pretenden
escolar y los logros acadmicos? Cul es el impacto en el acceso a la aten- responder un tipo
particular de pregunta:
cin sanitaria de contratar la atencin primaria con proveedores privados?
Cul es el impacto
Si los suelos de tierra son reemplazados por suelos de cemento, cul ser el (o efecto causal) de un
impacto en la salud de los nios? La mejora de los caminos aumenta el programa en un
acceso a los mercados laborales e incrementa el ingreso de los hogares y, en resultado de inters?
caso armativo, en qu medida? Inuye el tamao de la clase en los logros
de los alumnos y, en caso armativo, en qu medida? Como muestran estos
ejemplos, la pregunta de la evaluacin bsica se puede ampliar para analizar
el impacto de una modalidad de programa o innovacin de diseo, no solo de
un programa.
El sello distintivo de las evaluaciones de impacto es centrarse en la cau-
salidad y la atribucin. Todos los mtodos de evaluacin de impacto plan-
tean alguna forma de pregunta de causa y efecto. El enfoque para abordar la
causalidad determina las metodologas que se pueden utilizar. Para estimar
el efecto causal o el impacto de un programa en los resultados, cualquier
mtodo de evaluacin de impacto elegido debe estimar el llamado contra- Concepto clave
factual, es decir: cul habra sido el resultado de los participantes del pro- La eleccin de un
grama si no hubieran participado en el mismo. En la prctica, la evaluacin mtodo de evaluacin
de impacto depende
de impacto requiere que el equipo de evaluacin encuentre un grupo de
de las caractersticas
comparacin para estimar qu les habra ocurrido a los participantes del operativas del
programa sin el programa, y luego efectuar comparaciones con el grupo de programa que se
tratamiento que ha sido objeto del programa. En la segunda parte de este evala, sobre todo de
libro se describen los principales mtodos que se pueden aplicar para sus recursos
disponibles, sus
encontrar grupos de comparacin adecuados.
criterios de elegibili-
Uno de los principales mensajes de este libro es que la eleccin de un dad para seleccionar a
mtodo de evaluacin de impacto depende de las caractersticas operativas los beneficiarios y los
del programa que se evala. Cuando las reglas de operacin del programa son plazos para la
equitativas y transparentes y contemplan la rendicin de cuentas, siempre implementacin del
se podr encontrar un buen diseo de evaluacin de impacto, ya sea que programa.

Por qu evaluar? 9

IEP.indb 9 1/6/17 1:48 PM


laevaluacin de impacto se planique al comienzo, o durante el proceso de
diseo o de implementacin de un programa. El contar con reglas de opera-
cin claras y bien denidas para un programa no solo tiene un valor intrnseco
en las polticas pblicas y en una gestin solvente de los programas: tambin
es esencial para construir buenos grupos de comparacin, lo cual constituye
la base de las evaluaciones de impacto rigurosas. Concretamente, la eleccin
de un mtodo de evaluacin de impacto est determinada por las caractersti-
cas operativas del programa, en particular sus recursos disponibles, los crite-
rios de elegibilidad para seleccionar a los beneciarios y los plazos para la
implementacin del programa. Como se ver en las partes 2 y 3 de este libro,
se pueden formular tres preguntas acerca del contexto operativo de un deter-
minado programa: El programa tiene recursos para servir a todos los bene-
ciarios elegibles? El programa est focalizado o es universal? El programa se
ofrecer a todos los beneciarios de una sola vez o demanera secuencial? La
respuesta a estas tres preguntas determinar cul de los mtodos presentados
en la parte 2 asignacin aleatoria, variables instrumentales, regresin dis-
continua, diferencias en diferencias o pareamiento es el ms adecuado para
un determinado contexto operativo.

Evaluacin de impacto prospectiva versus


evaluacin retrospectiva

Las evaluaciones de impacto se pueden dividir en dos categoras: prospecti-


vas y retrospectivas. Las evaluaciones prospectivas se desarrollan simult-
neamente con el diseo del programa y se incorporan en la implementacin
del mismo. Los datos de lnea de base se recopilan antes de implementar el
programa, tanto en el grupo que recibe la intervencin (denominado grupo
de tratamiento) como en el grupo utilizado como comparacin y que no es
objeto de la intervencin (denominado grupo de comparacin). Las evalua-
ciones retrospectivas evalan el impacto del programa despus de que se lo
haya implementado, y los grupos de tratamiento y de comparacin se gene-
ran ex post.
Las evaluaciones de impacto prospectivas tienen ms probabilidades de
producir resultados solventes y crebles, por tres motivos. En primer lugar,
se pueden recopilar datos de lnea de base para establecer las medidas de los
resultados de inters antes de que el programa haya comenzado. Estos datos
son importantes para medir los resultados antes de la intervencin. Los
datos de lnea de base en los grupos de tratamiento y comparacin se deben
analizar para asegurar que los grupos sean similares. Las lneas de base tam-
bin se pueden utilizar para evaluar la efectividad de la focalizacin, es
decir, si un programa llega o no a sus beneciarios previstos.
10 La evaluacin de impacto en la prctica

IEP.indb 10 1/6/17 1:48 PM


En segundo lugar, denir la medida de xito del programa en la etapa de
planicacin del mismo centra tanto el programa como la evaluacin en los
resultados previstos. Como se ver, las evaluaciones de impacto se basan en
la teora del cambio de un programa o una cadena de resultados. El diseo
de una evaluacin de este tipo contribuye a claricar los objetivos del pro-
grama, sobre todo porque requiere establecer medidas bien denidas de su
xito. Los responsables de las polticas deberan denir objetivos claros para
el programa y formular preguntas claras que la evaluacin debe contestar,
para garantizar que los resultados sean relevantes para las polticas. En rea-
lidad, el pleno apoyo de los responsables de las polticas es un requisito
necesario para el xito de una evaluacin; no se deberan emprender evalua-
ciones de impacto a menos que los responsables de las polticas estn con-
vencidos de la legitimidad de las mismas y de su valor para fundamentar
decisiones clave de las polticas pblicas.
En tercer lugar, y lo que es an ms importante, en una evaluacin pros-
pectiva los grupos de tratamiento y comparacin se denen antes de imple-
mentar la intervencin que ser evaluada. Como se explicar con mayor
detalle en los prximos captulos, existen muchas otras opciones para llevar
a cabo evaluaciones vlidas cuando las evaluaciones se planican desde el
comienzo, antes de que la implementacin tenga lugar. En las partes 2 y 3 se
argumenta que casi siempre es posible encontrar una estimacin vlida del
contrafactual para cualquier programa cuyas reglas de asignacin sean cla-
ras y transparentes, siempre que la evaluacin se disee de manera prospec-
tiva. En resumen, las evaluaciones prospectivas son las que tienen ms
probabilidades de generar contrafactuales vlidos. En la etapa de diseo, se
pueden contemplar maneras alternativas de estimar un contrafactual vlido.
Concepto clave
El diseo de la evaluacin de impacto tambin se puede alinear plenamente
Las evaluaciones
con las reglas operativas del programa, as como con el despliegue o el pro- prospectivas se
ceso de expansin de este ltimo. disean y elaboran
Por el contrario, en las evaluaciones retrospectivas, el equipo que lleva a antes de implementar
cabo la evaluacin a menudo tiene informacin tan limitada que resulta dif- un programa.
cil analizar si el programa fue implementado con xito y si sus participantes
realmente se beneciaron de l. Numerosos programas no recopilan datos
de lnea de base a menos que se haya incorporado la evaluacin desde el
principio, y una vez que el programa est funcionando ya es demasiado
tarde para hacerlo.
Las evaluaciones retrospectivas que utilizan los datos existentes son
necesarias para evaluar los programas creados en el pasado. En estas situa-
ciones, las opciones para obtener una estimacin vlida del contrafactual
son mucho ms limitadas. La evaluacin depende de reglas claras de opera-
cin del programa en lo que respecta a la asignacin de benecios. Tambin
depende de la disponibilidad de datos con suciente cobertura sobre los
Por qu evaluar? 11

IEP.indb 11 1/6/17 1:48 PM


grupos de tratamiento y comparacin, tanto antes como despus de la
implementacin del programa. El resultado es que la viabilidad de una eva-
luacin retrospectiva depende del contexto y nunca est garantizada.
Incluso cuando son viables, las evaluaciones retrospectivas a menudo utili-
zan mtodos cuasi experimentales y dependen de supuestos ms fuertes y,
por ende, pueden producir evidencia ms discutible.4

Estudios de eficacia y estudios de efectividad

La funcin principal de la evaluacin de impacto consiste en producir evi-


dencia sobre el desempeo de un programa a n de que sea utilizada por los
funcionarios pblicos, los administradores del programa, la sociedad civil y
otros actores relevantes. Los resultados de las evaluaciones de impacto son
particularmente tiles cuando las conclusiones se pueden aplicar a una
poblacin de inters ms amplia. La cuestin de la generalizacin es clave
para los responsables de las polticas, puesto que determina si los resultados
identicados en la evaluacin pueden replicarse en grupos ajenos a los que
han sido estudiados en la evaluacin si aumenta la escala del programa.
En los primeros tiempos de las evaluaciones de impacto de los programas
de desarrollo, una gran parte de la evidencia se basaba en estudios de eca-
cia, es decir, pruebas llevadas a cabo en un entorno especco en condicio-
nes rigurosamente controladas para asegurar la consistencia entre el diseo
de la evaluacin y la implementacin del programa. Dado que los estudios
de ecacia suelen realizarse como experiencias piloto con una amplia parti-
cipacin tcnica de los investigadores mientras el programa se est imple-
mentando, puede que sus resultados, a menudo de pequea escala, no
ofrezcan necesariamente mucha informacin acerca del impacto de un pro-
yecto similar implementado a mayor escala en circunstancias normales. Los
estudios de ecacia analizan la prueba de concepto, a menudo para sondear
la viabilidad de un nuevo programa o una teora especca del cambio. Si el
programa no genera impactos anticipados bajo estas condiciones cuidado-
samente manejadas, es poco probable que funcione si se despliega en cir-
cunstancias normales. Por ejemplo, una intervencin piloto que introduce
nuevos protocolos de tratamiento mdico puede funcionar en un hospital
con excelentes administradores y equipo mdico, pero puede que la misma
intervencin no funcione en un hospital promedio con administradores
menos esmerados y limitaciones de personal. Adems, los clculos de costo-
benecio variarn, dado que los pequeos estudios de ecacia quiz no cap-
turen los costos jos ni las economas de escala. Como consecuencia, si bien
la evidencia de los estudios de ecacia puede ser til para probar un enfoque
innovador, los resultados a menudo tienen una capacidad de generalizacin
12 La evaluacin de impacto en la prctica

IEP.indb 12 1/6/17 1:48 PM


limitada y no siempre representan adecuadamente entornos ms generales, Concepto clave
que suelen ser la principal preocupacin de los responsables de las Los estudios de
polticas. eficacia evalan si un
programa puede
Al contrario, los estudios de efectividad proporcionan evidencia a partir
funcionar en
de las intervenciones que tienen lugar en circunstancias normales, utili- condiciones ideales,
zando vas de implementacin regulares y con el objeto de producir conclu- mientras que los estu-
siones que se pueden generalizar para una poblacin grande. Cuando las dios de efectividad
evaluaciones de efectividad estn adecuadamente diseadas e implementa- evalan si un
das, los resultados pueden ser generalizables para beneciarios previstos programa realmente
funciona en
fuera de la muestra de la evaluacin, siempre y cuando la ampliacin utilice
condiciones normales.
las mismas estructuras de implementacin y llegue a poblaciones similares
a la de la muestra de la evaluacin. Esta validez externa tiene una importan-
cia crtica para los responsables de las polticas porque les permite utilizar
los resultados de la evaluacin para fundamentar decisiones que afectan a
todo el programa y que se aplican a los beneciarios previstos ms all de la
muestra de la evaluacin (vase el recuadro 1.3).

Recuadro 1.3: Pruebas de la capacidad generalizable de los


resultados

Una evaluacin multisitio del enfoque de haber arrojado resultados impresionantes en


graduacin para aliviar la extrema Bangladesh. Puesto en marcha por el
pobreza Bangladesh Rural Advancement Committee
Al evaluar un programa en mltiples contex- (BRAC), una gran organizacin de desarrollo
tos, los investigadores pueden analizar si los global, el modelo se propona ayudar a los
resultados de una evaluacin de impacto se muy pobres a graduarse de la extrema
pueden generalizar. Estas denominadas eva- pobreza mediante transferencias de efectivo,
luaciones multisitio contribuyen al creciente activos productivos y formacin intensiva.
corpus de evidencia sobre qu funciona y Banerjee y sus colegas pretendan anali-
qu no lo hace en el desarrollo, y pueden zar si el enfoque de graduacin poda funcio-
proporcionar perspectivas clave a los respon- nar en diferentes pases a travs de seis
sables de las polticas en diferentes pases. evaluaciones de impacto aleatorias simult-
Por ejemplo, en 2007 Banerjee et al. ini- neas en Etiopa, Ghana, Honduras, India,
ciaron una evaluacin multisitio del enfoque Pakistn y Per. En cada pas, los investiga-
de graduacin para aliviar la extrema dores trabajaron con organizaciones no
pobreza. El modelo haba sido objeto de gran gubernamentales (ONG) locales para imple-
atencin en todo el mundo despus de mentar un programa de graduacin similar.

Contina en la pgina siguiente.

Por qu evaluar? 13

IEP.indb 13 1/6/17 1:48 PM


Recuadro 1.3: Pruebas de la capacidad generalizable de los resultados (contina)
Si bien el programa se modific para ade- valor de los activos, inclusin financiera, tiempo
cuarse a los diferentes contextos en cada dedicado a trabajar, ingresos y rentas, salud
pas, los principios clave seguan siendo los mental y participacin poltica. La magnitud de
mismos. El programa se centr en los hoga- los impactos variaba segn los pases, y hubo
res ms pobres en pueblos de las regiones impactos considerables en el valor de los acti-
ms pobres de cada pas. Durante 24 meses, vos en todos los pases excepto uno. No se
los hogares beneficiarios recibieron activos registraron impactos estadsticamente signifi-
productivos, formacin y apoyo, coaching en cativos en el ndice de salud fsica.
habilidades para la vida, dinero, informacin Los resultados tambin variaban de un
sanitaria y ayuda en la inclusin financiera. La pas a otro. Las mejoras en el consumo per
evaluacin de impacto meda la efectividad cpita no fueron significativas en Honduras ni
de proporcionar este paquete de beneficios. en Per, y la mejora en el valor de los activos
El estudio evalu los impactos del programa no lo fue en Honduras. Sin embargo, en trmi-
en 10 conjuntos de resultados. Un ao des- nos agregados, la evaluacin apuntaba hacia
pus de que el programa terminara en los seis la promesa de este tipo de intervencin multi-
pases, se produjeron mejoras considerables factica para mejorar las vidas de las familias
en ocho de los 10 conjuntos de resultados: muy pobres en una gama de entornos.
consumo per cpita, seguridad alimentaria,

Fuentes: Banerjee et al. (2015); BRAC (2013).

Enfoques complementarios

Como se ha sealado, las evaluaciones de impacto responden a preguntas


especcas de causa y efecto. Otros enfoques entre ellos un estrecho moni-
toreo del programa, y tambin el uso complementario de otros mtodos de
evaluacin, como simulaciones ex ante, anlisis con mtodos mixtos que se
basan en datos cualitativos y cuantitativos, y evaluaciones de procesos pue-
den servir como valiosos complementos de las evaluaciones de impacto.
Estos otros enfoques tienen numerosas aplicaciones tiles, como estimar el
efecto de las reformas antes de que sean implementadas, contribuir a focali-
zar las preguntas centrales de la evaluacin de impacto, realizar seguimien-
tos de la implementacin del programa e interpretar los resultados de las
evaluaciones de impacto.
Las evaluaciones de impacto que se realizan en aislamiento con respecto
a otras fuentes de informacin son vulnerables en trminos tanto de su cali-
dad tcnica como de su relevancia para las polticas pblicas. Si bien los
resultados de dichas evaluaciones pueden proporcionar evidencia robusta
para saber si ha tenido lugar un efecto, a menudo existen limitaciones para
proporcionar una perspectiva clara de los canales a travs de los cuales la
poltica o programa inuy en los resultados observados. Sin informacin de
14 La evaluacin de impacto en la prctica

IEP.indb 14 1/6/17 1:48 PM


las evaluaciones de procesos sobre la naturaleza y el contenido del programa
para contextualizar los resultados de la evaluacin, puede que los responsa-
bles de las polticas queden confundidos acerca de por qu se alcanzaron o
no ciertos resultados. Adems, sin datos de monitoreo sobre cmo, cundo y
dnde se est implementando el programa, la evaluacin ser ciega en cuanto
a si los benecios llegaron a los beneciarios previstos y cundo lo hicieron,
o bien si alcanzaron de forma inintencionada al grupo de comparacin.

El monitoreo

El monitoreo de la implementacin del programa, las ms de las veces


mediante el uso de datos administrativos, es crtico en una evaluacin de
impacto. Permite al equipo de evaluacin vericar si las actividades se estn
realizando segn lo planicado, es decir, a qu participantes se les adjudic
el programa, con qu rapidez se ampli este ltimo, y cmo se estn gas-
tando los recursos. Esta informacin es fundamental para implementar la
evaluacin, por ejemplo, para asegurar que los datos de lnea de base se
recopilen antes de que se introduzca el programa en la muestra de la evalua-
cin y para vericar la integridad de los grupos de tratamiento y compara-
cin. El monitoreo es esencial para vericar si un beneciario realmente
participa en el programa y para que no intervengan los no beneciarios.
Adems, los datos administrativos pueden proporcionar informacin sobre
el costo de implementacin del programa, lo cual tambin es necesario para
los anlisis de costo-benecio y costo-efectividad.

Simulaciones ex ante

Las simulaciones ex ante son evaluaciones que utilizan datos disponibles para
simular los efectos esperados de una reforma de programas o polticas en los
resultados de inters. Pueden ser muy tiles para medir la efectividad espe-
rada relativa de una gama de opciones de diseo de programas alternativos
en los resultados. Se trata de mtodos habitualmente usados que dependen
de la disponibilidad de datos de gran alcance y calidad que se pueden utilizar
para aplicar modelos de simulacin adecuados a la pregunta en cuestin
(vase el recuadro 1.4). Al contrario de las evaluaciones de impacto, estos
mtodos se emplean para simular futuros efectos potenciales, ms que para
medir los impactos reales de los programas implementados. Este tipo de
mtodos puede ser sumamente til para establecer referencias para los pro-
bables efectos del programa y para instituir objetivos realistas, as como para
estimar costos, tasas de retorno y otros parmetros econmicos. Se suelen
utilizar como la base de los anlisis econmicos de los proyectos, especial-
mente antes de que se introduzca una reforma o se implemente un proyecto.
Por qu evaluar? 15

IEP.indb 15 1/6/17 1:48 PM


Recuadro 1.4: Simulacin de posibles efectos del proyecto a
travs del modelado estructural

Construccin de un modelo para probar asistencia escolar en los primeros aos y, en


diseos alternativos utilizando datos de su lugar, utilizaba el dinero para aumentar los
Progresa en Mxico incentivos en efectivo para los alumnos de
Se puede utilizar un cierto tipo de simulacin cursos superiores, los efectos en la escolari-
ex ante (modelado estructural) para estimar zacin promedio completada probablemente
los efectos de un programa en una gama de seran mayores.
diseos alternativos. En la evaluacin Progresa/ En este caso, las proyecciones se realiza-
Oportunidades/Prospera, que se describe en ron utilizando la encuesta de lnea de base de
el recuadro 1.1, los datos recopilados eran lo una evaluacin de impacto que ya se haba
suficientemente ricos para que los investiga- realizado. Los resultados de las predicciones
dores construyeran un modelo que poda se pudieron probar para ver si arrojaban los
simular los efectos esperados de diseos de mismos impactos que el experimento del pro-
programas alternativos. grama real. Sin embargo, esto no es posible
Todd y Wolpin (2006) utilizaron datos de de hacer normalmente. Este tipo de mtodos
lnea de base de la evaluacin de impacto de simulacin suele utilizarse antes de que el
para construir un modelo de las decisiones de programa realmente se implemente con el fin
los padres a propsito de sus hijos, incluida la de analizar los probables efectos de diversos
escolarizacin. Los autores simularon cmo diseos de programa alternativos. As, pue-
seran los efectos con distintos diseos de den proporcionar una base para estrechar la
programa, y descubrieron que si el programa gama de opciones a probarse en la prctica.
eliminaba los incentivos en efectivo para la

Fuente: Todd y Wolpin (2006).


Nota: Para otro ejemplo de modelado estructural, vase Bourguignon, Ferreira y Leite (2003).

Los mtodos mixtos

Los enfoques de mtodos mixtos que combinan datos cuantitativos y cualita-


tivos constituyen un complemento clave en las evaluaciones de impacto que se
basan nicamente en el uso de datos cuantitativos, sobre todo para contribuir
a generar hiptesis y enfocar las preguntas de la investigacin antes de recopi-
lar los datos cuantitativos, as como para presentar perspectivas y visiones
novedosas del desempeo de un programa durante y despus de su implemen-
tacin. Hay numerosos mtodos cualitativos, que componen su propio mbito
de investigacin.5 Los mtodos que generan datos cualitativos suelen basarse
en enfoques abiertos, que no dependen de las respuestas predeterminadas de
las personas entrevistadas. Los datos se generan a travs de una gama de enfo-
ques, incluidos grupos focales, historiales y entrevistas con beneciarios selec-
cionados y otros informantes clave (Rao y Woolcock, 2003). Tambinpueden
16 La evaluacin de impacto en la prctica

IEP.indb 16 1/6/17 1:48 PM


incluir una gama de evaluaciones observacionales y etnogrcas. A pesar de
que las observaciones, ideas y opiniones recopiladas durante el trabajo cualita-
tivo no suelen ser estadsticamente representativas de los beneciarios del
programa y, por lo tanto, no son generalizables resultan tiles para entender
por qu se han alcanzado o no ciertos resultados (recuadro 1.5).
Las evaluaciones que integran el anlisis cuantitativo y cualitativo se carac-
terizan por utilizar mtodos mixtos (Bamberger, Rao y Woolcock,2010). En el

Recuadro 1.5: Un mtodo mixto de evaluacin en accin

Combinacin de una prueba controlada ms largo plazo. Si bien el RCT encontr que
aleatoria con un estudio etnogrfico en la intervencin no tena un impacto estads-
India tico significativo, el estudio cualitativo pro-
Los enfoques de mtodos mixtos pueden ser porcion visiones novedosas de las causas
especialmente tiles cuando evalan progra- del fracaso de la intervencin. La investi-
mas con resultados que son difciles de medir gacin cualitativa identific diversos facto-
en las encuestas cuantitativas. Los progra- res que obstaculizaron la efectividad de la
mas de los mbitos de democracia y gober- esta ltima: las variaciones en la calidad de
nanza constituyen ejemplos de este tipo. la facilitacin del programa, la falta de apoyo
As, mientras se diseaba una estrategia de arriba hacia abajo y las arraigadas estruc-
de evaluacin para el programa Campaa del turas de poder local.
pueblo que pretenda mejorar la participa- La evidencia cualitativa tambin descubri
cin ciudadana en los gobiernos locales, algunos impactos del programa menos tangi-
Ananthpur, Malik y Rao (2014) integraron un bles e inesperados. En los pueblos del trata-
ensayo controlado aleatorio (RCT, por sus miento, el programa mejor la resolucin de
siglas en ingls, Randomized Control Trial) conflictos en la prestacin de servicios y
(vase el glosario) con un estudio etnogrfico aument la participacin de las mujeres en
llevado a cabo en un subconjunto del 10% de las actividades de desarrollo de sus comuni-
la muestra de evaluacin utilizada para el RCT. dades. Adems, los investigadores de campo
Se emplearon mtodos de pareamiento para observaron que los gobiernos locales funcio-
asegurar caractersticas similares entre pue- naban mejor en los pueblos de tratamiento.
blos de tratamiento y de comparacin en la Sin la comprensin matizada del con-
muestra para el estudio cualitativo. Se asign texto y de la dinmica local que proporciona
un experimentado investigador de campo el componente cualitativo, los investigado-
para que viviera en cada pueblo y estudiara res no habran podido entender por qu los
los impactos del programa en las estructuras datos cuantitativos no encontraron impac-
sociales y polticas del pueblo. tos. El estudio etnogrfico fue capaz de pro-
El estudio etnogrfico continu durante porcionar una evaluacin ms rica, con
dos aos despus de que termin el RCT, lo perspectivas novedosas de los elementos
que permiti observaciones de efectos a tiles para mejorar el programa.

Fuente: Ananthpur, Malik y Rao (2014).

Por qu evaluar? 17

IEP.indb 17 1/6/17 1:48 PM


desarrollo de un enfoque de mtodo mixto, Creswell (2014) dene tres
aproximaciones bsicas:
1. Convergente paralelo. Se recopilan simultneamente datos cuantitativos
y cualitativos y se utilizan para triangular los hallazgos o para generar los
primeros resultados sobre cmo se est implementando el programa y
cmo lo perciben los beneciarios.
2. Explicativo secuencial. Los datos cualitativos proporcionan contexto y
explicaciones para los resultados cuantitativos, para explorar casos at-
picos de xito y fracaso, y para desarrollar explicaciones sistemticas del
desempeo del programa, como se constat en los resultados cuantitati-
vos. De esta manera, el trabajo cualitativo puede contribuir a determinar
por qu en el anlisis cuantitativo se observan ciertos resultados, y se
pueden usar para entrar en la caja negra de lo que ocurri en el pro-
grama (Bamberger, Rao y Woolcock, 2010).
3. Exploratorio secuencial. El equipo de evaluacin puede utilizar grupos
focales, listas, entrevistas con informantes clave y otros enfoques cualita-
tivos para desarrollar hiptesis a propsito de cmo y por qu el pro-
grama funcionara, y para claricar preguntas acerca de la investigacin
que hay que abordar en el trabajo cuantitativo de evaluacin de impacto,
lo que incluye las alternativas ms relevantes del diseo de programas
que deben ser probadas a travs de la evaluacin de impacto.

Las evaluaciones de procesos

Las evaluaciones de procesos se centran en cmo se implementa y funciona


un programa, considerando si corresponde a su diseo original, y documen-
tando su desarrollo y funcionamiento. Normalmente, estas evaluaciones
pueden llevarse a cabo con relativa rapidez y a un costo razonable. En los
proyectos piloto y en las etapas iniciales de un programa, pueden ser una
valiosa fuente de informacin sobre cmo mejorar la implementacin del
programa, y se suelen utilizar como primeros pasos para desarrollar un pro-
grama de modo que los ajustes operativos se puedan hacer antes de que se
termine su diseo. Pueden probar si un programa funciona como estaba dise-
ado y si es consistente con la teora del cambio del mismo (recuadro 1.6).
Una evaluacin de procesos debera incluir los siguientes elementos, que
a menudo se basan en una cadena de resultados o modelo lgico (vase el
captulo 2), complementados con documentos del programa y entrevistas
con informantes clave y grupos focales beneciarios:6
Objetivos del programa y contexto en el que funciona.
Descripcin del proceso utilizado para disear e implementar el programa.
18 La evaluacin de impacto en la prctica

IEP.indb 18 1/6/17 1:48 PM


Recuadro 1.6: Fundamentos para una ampliacin a escala
nacional mediante una evaluacin de procesos en Tanzania
En el desempeo de un programa hay mlti- ser difciles de cuantificar, como los cambios
ples facetas. La evidencia de las evaluacio- en las relaciones entre los miembros del
nes de procesos puede complementar los hogar o la dinmica de la comunidad. El obje-
resultados de la evaluacin de impacto y pro- tivo de la evaluacin del proceso consista en
porcionar un cuadro ms completo de dicho entender cmo funcionaba el programa en la
desempeo. Esto puede ser particularmente prctica y presentar recomendaciones de
importante para que los programas piloto mejoras.
arrojen luz sobre cmo estn funcionando las La evaluacin de impacto descubri que
nuevas instituciones y los nuevos procesos. el programa tena impactos positivos y esta-
En 2010 el gobierno de Tanzania decidi dsticamente significativos en resultados
llevar a cabo en tres distritos un plan piloto clave de educacin y salud. Los nios de los
de transferencias condicionadas con base en hogares que participaban tenan un 15%
la comunidad. El programa proporcionaba ms de probabilidades de completar la
una transferencia de efectivo a los hogares escuela primaria y un 11% menos de proba-
pobres en funcin del cumplimiento de cier- bilidades de caer enfermos. Adems, los gru-
tos requisitos educativos y sanitarios. Los pos focales con los maestros revelaron que
grupos comunitarios ayudaron a asignar las los alumnos de los grupos de tratamiento
transferencias a los hogares ms vulnerables estaban ms preparados y ms atentos.
de sus comunidades. Para evaluar si este Sin embargo, los grupos focales con
sistema basado en la comunidad funcionaba miembros de la comunidad indicaban que
en el contexto de Tanzania, un equipo de haba cierto grado de descontento con el
investigadores del Banco Mundial decidi proceso de seleccin de los beneficiarios.
integrar una evaluacin de procesos en una Los participantes se quejaban de falta de
evaluacin de impacto tradicional. transparencia en la seleccin y de retrasos
Para la evaluacin de procesos se utiliza- en los pagos. La evaluacin del proceso per-
ron datos cualitativos y cuantitativos. Un ao miti a los administradores del programa
despus de implementar la encuesta de abordar estos problemas y mejorar el funcio-
lnea de base en distritos piloto, los investi- namiento del programa.
gadores organizaron un ejercicio de tarjetas El trabajo de evaluacin fundament la
de puntuacin en la comunidad para calificar decisin del gobierno de Tanzania de aumen-
aspectos del programa, basndose en gru- tar la escala del programa. Se espera que las
pos focales compuestos por miembros de la transferencias condicionadas con base en
comunidad. Estos grupos tambin se usaron las comunidades lleguen a casi un milln de
para dar lugar a minuciosas discusiones hogares hacia 2017, teniendo en cuenta las
sobre los impactos del programa que podran lecciones de esta evaluacin exhaustiva.

Fuentes: Berman (2014); Evans et al. (2014).

Por qu evaluar? 19

IEP.indb 19 1/6/17 1:48 PM


Descripcin de las operaciones del programa, incluido cualquier cambio
en las mismas.
Datos bsicos sobre las operaciones del programa, incluidos indicadores
nancieros y de cobertura.
Identicacin y descripcin de eventos que escapan al control del pro-
grama que pueden haber inuido en la implementacin y los resultados.
Documentacin, como notas de concepto, manuales operativos, actas de
las reuniones, informes y memorandos.
Aplicar una evaluacin de impacto a un programa cuyos procesos operati-
vos no han sido validados plantea el doble riesgo de que se malgasten los
recursos de dicha evaluacin, cuando en realidad podra bastar con una eva-
luacin de proceso ms sencilla, o bien el riesgo de que los ajustes necesa-
rios en el diseo del programa se introduzcan una vez que la evaluacin de
impacto ya ha comenzado, lo cual cambia el carcter del programa que se
evala y la utilidad de la mencionada evaluacin.

Anlisis de costo-beneficio y costo-efectividad


Conceptos clave Es sumamente importante que la evaluacin de impacto pueda complemen-
El anlisis de tarse con informacin sobre el costo del proyecto, del programa o de la pol-
costo-beneficio estima
tica que se evala.
los beneficios totales
esperados de un
Una vez que estn disponibles los resultados de la evaluacin de impacto,
programa, comparado estos pueden combinarse con informacin sobre los costos del programa
con sus costos totales para responder a otras dos preguntas. En primer lugar, en la forma bsica de
esperados. una evaluacin de impacto, aadir informacin del costo permitir llevar a
El anlisis de cabo un anlisis de costo-benecio, a partir de lo cual se podr responder a
costo-efectividad la pregunta: cules son los benecios de un programa con un determinado
compara el costo
costo? El anlisis de costo-benecio estima los benecios totales esperados
relativo de dos o ms
programas o de de un programa, comparado con sus costos totales esperados. Busca cuanti-
alternativas de car todos los costos y benecios de un programa en trminos monetarios,
programas para y evala si estos ltimos superan a los costos.7
alcanzar un resultado En un mundo ideal, el anlisis de costo basado en la evidencia de la eva-
comn.
luacin de impacto existira no solo para un programa concreto sino tam-
bin para una serie de programas o alternativas de programas, de modo que
los responsables de las polticas pudieran valorar qu programa o alterna-
tiva es ms efectivo en funcin de los costos para lograr un determinado
objetivo. Cuando una evaluacin de impacto ensaya alternativas de un pro-
grama, aadir informacin sobre costos le permite responder a la segunda
pregunta: cmo se comparan diversas alternativas de implementacin en
cuanto a su costo-efectividad? Este anlisis de costo-efectividad compara el
20 La evaluacin de impacto en la prctica

IEP.indb 20 1/6/17 1:48 PM


costo relativo de dos o ms programas o alternativas de programas para
alcanzar un objetivo comn, como la produccin agrcola o las puntuacio-
nes de los alumnos en las pruebas.
En un anlisis de costo-benecio o de costo-efectividad, la evaluacin de
impacto estima el lado del benecio o el lado de la efectividad, mientras que
examinar los costos proporciona la informacin sobre los mismos. Este libro
se centra en la evaluacin de impacto y no aborda en detalle cmo recopilar
datos sobre costos o llevar a cabo anlisis de costo-benecio o costo-
efectividad. Sin embargo, es fundamental que la evaluacin de impacto se
complemente con informacin sobre el costo del proyecto, del programa o
de la poltica que se evala. Una vez que se disponga de informacin sobre el
impacto y el costo de diversos programas, el anlisis de costo-efectividad
puede identicar cules son las inversiones que arrojan la tasa ms alta de
retorno y permiten a los responsables de las polticas tomar decisiones bien
fundamentadas sobre las intervenciones en las que hay que invertir. El
recuadro 1.7 ilustra cmo se pueden utilizar las evaluaciones de impacto
para identicar los programas ms efectivos en trminos de costo-
efectividad y mejorar la asignacin de recursos.

Recuadro 1.7: La evaluacin de costo-efectividad

Comparacin de evaluaciones de impacto para analizar la costo-efectividad de


programas que influyen en el diferentes tipos de intervenciones educativas.
aprendizaje en las escuelas primarias Los autores compararon varios tipos de
Al evaluar un cierto nmero de programas con intervenciones en educacin, entre ellas el
objetivos similares, es posible comparar la acceso a la educacin, los insumos habitua-
costo-efectividad relativa de diferentes enfo- les, las innovaciones pedaggicas, la rendi-
ques para mejorar los resultados, como el cin de cuentas de los maestros y la gestin
aprendizaje en las escuelas primarias. Para basada en la escuela. En particular, investi-
que esto sea posible, los evaluadores deben garon las mejoras en las puntuaciones de las
divulgar no solo los resultados de la evaluacin pruebas, en trminos de desviaciones
de impacto sino tambin informacin detallada estndar, que podan obtenerse por cada
sobre el costo de las intervenciones. En un US$100 invertidos en el programa. Aunque
meta anlisis de los resultados de aprendizaje es probable que los costos disminuyeran si
efectuado en pases en desarrollo, Kremer, los programas se implementaban a escala,
Brannen y Glennerster (2013) utilizaron infor- para mayor consistencia, los investigadores
macin sobre el costo de 30 evaluaciones de utilizaron los costos tal como se informaba

Contina en la pgina siguiente.

Por qu evaluar? 21

IEP.indb 21 1/6/17 1:48 PM


Recuadro 1.7: La evaluacin de costo-efectividad (contina)
en las evaluaciones. As, encontraron que Por ejemplo, si bien la creacin y formacin de
las reformas pedaggicas y las intervencio- comits de escuelas locales en Indonesia no
nes que mejoran la rendicin de cuentas y tuvo impactos significativos en las puntuacio-
aumentan los incentivos para los maestros nes de las pruebas, lograr que los comits fue-
tienden a ser las ms costo-efectivas. Por ran ms representativos a travs de las
otro lado, llegaron a la conclusin de que elecciones result sumamente costo-efectivo.
proveer ms de los mismos insumos sin Como ilustra su estudio, comparar las
cambiar la pedagoga o la rendicin de cuen- evaluaciones de intervenciones que tienen
tas tena impactos limitados en las puntua- objetivos similares puede arrojar luz sobre
ciones de las pruebas. Por ejemplo, un la efectividad de diferentes intervenciones
programa aplicado en Kenia que increment en diferentes contextos. Sin embargo, los
el nmero de maestros en las escuelas no investigadores deben reconocer que los con-
tuvo impactos significativos en las puntua- textos varan de forma considerable segn
ciones de las pruebas de los alumnos. los programas y escenarios. Tambin sigue
Los programas que empoderaban a las siendo relativamente raro contar con abun-
comunidades locales a travs de intervencio- dancia de datos de distintos programas en
nes de gestin basadas en la escuela parecan trminos de mediciones, evaluaciones de
ser los ms exitosos y costo-efectivos, sobre impacto e informacin del costo de resulta-
todo cuando estas reformas se formalizaron. dos comparables.

Fuente: Kremer, Brannen y Glennerster (2013).

Consideraciones ticas con respecto a la


evaluacin de impacto

Cuando se toma la decisin de disear una evaluacin de impacto, se deben


considerar algunos asuntos ticos. Se han formulado preguntas a propsito
de si la evaluacin de impacto es tica en s misma y por s sola. Un punto de
partida de este debate consiste en considerar la tica de invertir recursos
pblicos en programas cuya efectividad se desconoce. En este contexto, la
falta de evaluacin puede en s misma ser no tica. La informacin sobre la
efectividad del programa que generan las evaluaciones de impacto puede
conducir a una inversin ms efectiva y tica de los recursos pblicos.
Otras consideraciones ticas tienen que ver con las reglas utilizadas para
asignar los benecios del programa, con los mtodos con los que se estudia
a los seres humanos y con la transparencia en la documentacin de los pla-
nes de investigacin, datos y resultados. Estos temas se abordarn en detalle
en el captulo 13.
El principio tico ms bsico en una evaluacin es que la prestacin de
intervenciones con benecios conocidos no debera negarse o retrasarse
22 La evaluacin de impacto en la prctica

IEP.indb 22 1/6/17 1:48 PM


nicamente en funcin de los objetivos de la evaluacin. En este libro se
sostiene que las evaluaciones no deberan dictar cmo se asignan los bene-
cios, sino ms bien que deberan ajustarse a reglas de asignacin del pro-
grama que sean equitativas y transparentes. En este contexto, cualquier
preocupacin tica a propsito de las reglas de asignacin del programa no
nace de la evaluacin de impacto en s misma sino directamente de las reglas
de operacin del programa. Planicar las evaluaciones puede ser til para
dilucidar las reglas de operacin del programa, y contribuir a estudiar si son
equitativas y transparentes, sobre la base de criterios claros de elegibilidad.
La asignacin aleatoria de los benecios del programa a menudo suscita
inquietudes ticas a propsito de la negacin de dichos benecios a destina-
tarios elegibles. Sin embargo, la mayora de los programas funciona en con-
textos operativos con recursos nancieros y administrativos limitados, lo
cual impide llegar a todos los beneciarios elegibles de una sola vez. Desde
una perspectiva tica, todos los sujetos que son igualmente elegibles para
participar en cualquier tipo de programa social deberan tener la misma
oportunidad de ser destinatarios del programa. La asignacin aleatoria
cumple este requisito tico. En situaciones en las cuales un programa se
aplicar en fases a lo largo del tiempo, la implementacin se puede basar en
seleccionar aleatoriamente el orden en que los beneciarios, todos igual-
mente meritorios, sern receptores del programa. En estos casos, los desti-
natarios que ingresen ms tarde en el programa pueden conformar el grupo
de comparacin para los primeros beneciarios, generando un slido diseo
de evaluacin, as como un mtodo transparente e imparcial para asignar los
escasos recursos.
La tica de la evaluacin de impacto excede a la tica de las reglas de
asignacin del programa. Tambin incluye la tica de la investigacin en
seres humanos, as como la tica de llevar a cabo investigaciones transpa-
rentes, objetivas y reproducibles, como se analiza en el captulo 13.
En numerosos pases e instituciones internacionales, se han creado jun-
tas de revisin institucional o comits ticos para regular las investigaciones
que involucran a seres humanos. Estos organismos se encargan de asesorar,
aprobar y monitorear los estudios de investigacin, con los objetivos funda-
mentales de proteger los derechos y promover el bienestar de todos los
sujetos. Aunque las evaluaciones de impacto son eminentemente empresas
operativas, tambin constituyen estudios de investigacin y, como tales,
deberan adherir a las directrices de investigacin para seres humanos.
Conseguir que una evaluacin de impacto sea objetiva, transparente y
reproducible es un componente tico igualmente importante de la investi-
gacin. Para que la investigacin sea transparente, los planes de evaluacin
de impacto pueden incluirse en un plan de anlisis previo y ser sometidos a
un registro de estudios. Una vez que la investigacin se lleve a cabo, los datos
Por qu evaluar? 23

IEP.indb 23 1/6/17 1:48 PM


y cdigos utilizados en el anlisis pueden hacerse pblicamente disponibles
de modo que otras personas puedan replicar el trabajo, a la vez que se pro-
tege el anonimato.

La evaluacin de impacto en las decisiones de


polticas

Las evaluaciones de impacto son necesarias para informar a los responsables


de las polticas en relacin con una gama de decisiones, que abarcan desde
los recortes de programas inecientes hasta el aumento de escala de inter-
venciones que funcionan, o ajustar los benecios del programa y seleccionar
entre diversas alternativas de programas. Dichas evaluaciones son ms efec-
tivas cuando se aplican de manera selectiva para responder a preguntas clave
de polticas, y se suelen aplicar a programas piloto innovadores que estn
probando un enfoque desconocido pero prometedor. La evaluacin de las
transferencias condicionadas en Mxico, que se describe en el recuadro 1.1,
se volvi inuyente no solo debido a la naturaleza innovadora del programa
sino tambin porque la evaluacin misma proporcion evidencia creble y
slida que no poda ignorarse en las posteriores decisiones de las polticas.
La adopcin y ampliacin del programa tanto a nivel nacional como interna-
cional tuvieron una fuerte inuencia de los resultados de la evaluacin.
Las evaluaciones de impacto se pueden utilizar para explorar diferentes
tipos de preguntas relacionadas con las polticas. La forma bsica de evalua-
cin de impacto probar la efectividad de un determinado programa. En
otras palabras, responder a la pregunta: son un determinado programa o
una determinada intervencin efectivos en comparacin con la ausencia del
programa? Como se ver en la parte 2 del libro, este tipo de evaluacin de
impacto depende de la comparacin entre un grupo de tratamiento al que se
aplic la innovacin, el programa o la poltica y un grupo al que no se le
aplic, con el n de estimar la efectividad. El principal reto en una evalua-
cin de impacto consiste en construir un grupo de comparacin que sea lo
ms similar posible al grupo de tratamiento. El grado de comparabilidad
entre los grupos de tratamiento y comparacin es central para la validez
interna de la evaluacin y, por lo tanto, es fundamental para evaluar el
impacto causal de un programa.
Las evaluaciones de impacto tambin se estn utilizando cada vez ms
para probar innovaciones de diseo en un programa sin un grupo de compa-
racin puro seleccionado fuera del programa. Estos tipos de evaluaciones
a menudo se realizan para ver si una determinada innovacin de diseo
puede mejorar la efectividad del programa o disminuir los costos (vase el
recuadro 1.8).
24 La evaluacin de impacto en la prctica

IEP.indb 24 1/6/17 1:48 PM


Recuadro 1.8: Evaluacin de programas innovadores

El equipo de Beahavioural Insights del BIT lleg a la conclusin de que el incentivo


Reino Unido del sorteo aument de manera significativa la
Creado en 2010 por el gobierno britnico, el inscripcin de los votantes. Adems, ahorr al
equipo de Behavioural Insights (BIT, por sus gobierno local mucho dinero; anteriormente,
siglas en ingls) fue la primera institucin el gobierno haba recurrido a una onerosa
estatal destinada a mejorar los servicios campaa puerta a puerta para incrementar la
pblicos a travs de la aplicacin de la cien- inscripcin de votantes.
cia del comportamiento. Los objetivos de la En otra evaluacin innovadora, el BIT se
organizacin son mejorar la costo-efectividad asoci con el Servicio Nacional de Salud y el
de los servicios pblicos, introducir modelos Departamento de Salud para analizar cmo
realistas de comportamiento humano en los animar en trminos costo-efectivos a las per-
anlisis de las polticas y permitir que las per- sonas a registrarse como donantes de rga-
sonas tomen mejores decisiones. Con este nos. Se trata de uno de los ensayos aleatorios
objetivo, el BIT utiliza experimentos con eva- controlados ms grandes jams llevados a
luaciones de impacto incorporadas para pro- cabo en el sector pblico del Reino Unido.
bar ideas innovadoras en las polticas Los investigadores encontraron resultados
pblicas. Desde su creacin, la organizacin alentadores a partir de una intervencin que
ha implementado ms de 150 pruebas de probaba el uso de diferentes mensajes en
control aleatorizado en una amplia variedad una pgina web pblica de alto trnsito. La
de mbitos de las polticas nacionales, a frase breve con mejores resultados se bas
menudo utilizando datos administrativos. en la idea de reciprocidad y preguntaba: Si
El BIT ha llevado a cabo evaluaciones de necesitara un trasplante de rganos, recurri-
innovaciones en los servicios pblicos sobre ra a l? Si la respuesta es s, ayude a otros.
la base de la literatura de la ciencia del com- El BIT es de propiedad conjunta y est
portamiento. La organizacin colabor con un financiado por el gobierno britnico, Nesta
municipio de Londres para introducir un (una institucin de beneficencia para la inno-
incentivo de sorteo para mejorar la inscripcin vacin), y los propios empleados. El modelo
de los votantes antes de las elecciones. Los se ha ampliado fuera del Reino Unido y se
residentes fueron asignados aleatoriamente a han creado oficinas de BIT en Australia y
tres grupos: i) sin sorteo, ii) un sorteo con un Estados Unidos. Adems, Estados Unidos
premio de 1.000 si se inscriban hasta cierta sigui el modelo BIT para crear una iniciativa
fecha y iii) un sorteo con un premio de 5.000 social y de ciencia del comportamiento en la
si se inscriban antes de esa misma fecha. El Casa Blanca en 2015.

Fuente: Behavioural Insights Team.

Las evaluaciones tambin pueden utilizarse para probar la efectividad de


las alternativas de implementacin de un programa. Por ejemplo, pueden
responder a la siguiente pregunta: cuando un programa se puede implemen-
tar de diversas maneras, cul es la modalidad de programa ms efectiva o la
ms costo-efectiva? En este tipo de evaluacin pueden compararse dos o ms
Por qu evaluar? 25

IEP.indb 25 1/6/17 1:48 PM


enfoques o rasgos de diseo dentro de un programa para generar evidencia
en relacin con cul es la alternativa ms costo-efectiva para lograr un deter-
minado objetivo. A estas alternativas de programa suele denominrselas
ramas de tratamiento. Por ejemplo, puede que un programa desee probar
campaas de extensin alternativas y seleccione a un grupo para que reciba
una campaa de correo, mientras que otro es destinatario de visitas puerta a
puerta y un tercero recibe mensajes de texto SMS, para evaluar cul es el
mtodo ms costo-efectivo. Las evaluaciones de impacto que prueban trata-
mientos de programas alternativos suelen incluir un grupo de tratamiento
para cada una de las ramas de tratamiento, as como un grupo de compara-
cin puro que no recibe ninguna intervencin del programa. Este tipo de
evaluaciones permite que los responsables de la toma de decisiones elijan
entre distintas alternativas de implementacin, y puede ser muy til para
mejorar el desempeo de los programas y ahorrar costos (recuadro 1.9).

Recuadro 1.9: La evaluacin de alternativas de diseo de


programas

La desnutricin y el desarrollo cognitivo Primero, los evaluadores utilizaron un pro-


en Colombia ceso de seleccin para identificar un grupo
A comienzos de los aos setenta, la Estacin de de 333 nios desnutridos. Estos nios fue-
Investigacin de Ecologa Humana, en colabora- ron clasificados en 20 sectores por barrio, y
cin con el Ministerio de Educacin de cada sector fue asignado aleatoriamente a
Colombia, implement un programa piloto para uno de cuatro grupos de tratamiento. Los
abordar el problema de la desnutricin infantil en grupos diferan solo en la secuencia en que
Cali, Colombia, mediante atencin sanitaria y comenzaban el tratamiento y, por lo tanto, en
actividades educativas, adems de alimentos y la cantidad de tiempo que dedicaran al pro-
complementos nutricionales. Como parte del grama. El grupo 4 fue el que empez primero
plan piloto, un equipo de evaluadores deba y se vio expuesto al tratamiento durante el
determinar cunto durara un programa de este perodo ms largo, seguido de los grupos 3,
tipo para reducir la desnutricin entre los nios 2 y 1. El tratamiento consista en seis horas
en edad preescolar de las familias de bajos diarias de atencin sanitaria y actividades
ingresos, y si las intervenciones tambin podran educativas, ms alimentos y complementos
generar mejoras en el desarrollo cognitivo. nutricionales. A intervalos regulares a lo largo
Finalmente, el programa se implement del programa, los evaluadores utilizaron prue-
para ocho familias elegibles, aunque durante bas cognitivas para seguir el progreso de los
el plan piloto los evaluadores pudieron com- nios en los cuatro grupos.
parar grupos similares de nios que reciban Los evaluadores llegaron a la conclusin
el tratamiento durante lapsos diferentes. de que los nios que estaban ms tiempo

Contina en la pgina siguiente.

26 La evaluacin de impacto en la prctica

IEP.indb 26 1/6/17 1:48 PM


Recuadro 1.9: La evaluacin de alternativas de diseo de programas (contina)
en el programa mostraban la mayor mejora Este ejemplo ilustra cmo los encarga-
en el rea cognitiva. En el test de inteligen- dos de implementar el programa y los res-
cia Stanford-Binet, que calcula la edad men- ponsables de las polticas pueden utilizar las
tal menos la edad cronolgica, el promedio evaluaciones de mltiples ramas de trata-
de los nios del grupo 4 era de -5 meses y el miento para determinar cul es la alternativa
de los nios del grupo 1 era de -15 meses. ms efectiva para un programa.

Fuente: McKay et al. (1978).

Adems, se pueden hacer comparaciones entre subgrupos de recepto-


res dentro de una determinada evaluacin para responder a la siguiente
pregunta: el programa es ms efectivo para un subgrupo que para otro
subgrupo? Por ejemplo, la introduccin de un nuevo programa de estudios,
aument ms las puntuaciones de las pruebas entre las alumnas que entre
los alumnos? Este tipo de preguntas de una evaluacin de impacto se
orienta a documentar si hay alguna heterogeneidad en los impactos del
programa en diferentes subgrupos. Estas preguntas deben tenerse en
cuenta al comienzo, dado que es necesario incorporarlas en el diseo de
una evaluacin de impacto y requieren muestras sucientemente grandes
para llevar a cabo el anlisis de los distintos subgrupos de inters.
Ms all de las diversas caractersticas del diseo ya tratadas, cabe consi-
derar los canales a travs de los cuales las evaluaciones de impacto inuyen
en las polticas pblicas. Esto puede suceder en relacin con decisiones
acerca de continuar, reformar o poner n a un programa. Los resultados de
la evaluacin de impacto tambin pueden fundamentar el aumento de la
escala de las pruebas piloto, como queda ilustrado en el caso de Mozambique
presentado en el recuadro 1.2.
Las evaluaciones tambin pueden aportar evidencia de un pas a otro o se
pueden utilizar para analizar cuestiones fundamentales, como las relaciona-
das con la conducta. Aventurarse ms all de las fronteras de una evaluacin
de un programa individual suscita la pregunta sobre su carcter generaliza-
ble. Como se ver en el captulo 4, en el contexto de una determinada eva-
luacin, la muestra de la evaluacin est diseada para ser estadsticamente
representativa de la poblacin de unidades elegibles de las que se extrae la
propia muestra y, por lo tanto, es externamente vlida. Pero ms all de la
validez externa, el carcter generalizable determinar si los resultados de
una evaluacin realizada a nivel local sern vlidos en otros entornos y para
otros grupos de poblacin. Este concepto ms expansivo y ambicioso
Por qu evaluar? 27

IEP.indb 27 1/6/17 1:48 PM


depende de la acumulacin de evidencia emprica creble en toda una gama
de entornos.
El campo de la evaluacin de impacto se basa cada vez ms en el cre-
ciente inventario de evaluaciones crebles para alcanzar conclusiones
ampliamente generalizables. Este esfuerzo se centra en probar si una
teora concreta del cambio es vlida en diferentes contextos y si un pro-
grama similar probado en entornos diferentes arroja resultados similares
(vase el recuadro 1.10). El uso de mltiples evaluaciones para responder
a preguntas centrales o reunir evidencia a travs de meta anlisis, estu-
dios sistemticos y registros de evaluacin est aumentando rpida-
mente, y abre una nueva frontera en el trabajo de evaluacin. Si los
resultados son consistentes en diferentes y mltiples entornos, esto
brinda mayor conanza a los responsables de las polticas en cuanto a la
viabilidad del programa en toda una gama de contextos y de grupos de
poblacin. Se trata de una consideracin importante, dado que los deba-
tes acerca de la capacidad de replicar resultados son fundamentales en
cuestiones relacionadas con la efectividad y escalabilidad ms amplia de
un determinado programa.

Recuadro 1.10: El enfoque de evaluaciones de impacto de clusters

Construccin estratgica de la evidencia perspectivas para aplicar ms ampliamente


para reducir las brechas de conocimiento las intervenciones de un programa y de las
A pesar de que el carcter generalizable de polticas, utilizando un enfoque de cluster de
una sola evaluacin de impacto puede ser investigacin.
bajo, en combinacin con evaluaciones simila- A menudo, las convocatorias de propues-
res en diferentes contextos los profesionales tas se orientan en torno a un conjunto de
del desarrollo pueden elaborar conclusiones preguntas de investigacin destinadas a fun-
ms ampliamente aplicables a propsito de damentar el programa y el diseo de las pol-
qu funciona y qu no. Cada vez ms, las ini- ticas, para generar evaluaciones de impacto
ciativas de evaluacin de impacto como el que contribuirn a una base de evidencia
Fondo Estratgico para la Evaluacin de coordinada. El objetivo consiste en orientar
Impacto del Banco Mundial (SIEF) y la la investigacin y la generacin de evidencia
Evaluacin de Impacto del Desarrollo (DIME), en torno a tipos de intervenciones o tipos de
as como la Iniciativa Internacional para la resultados.
Evaluacin de Impacto (3IE), se proponen Dentro de estos clusters se producen eva-
brindar a los responsables de las polticas luaciones para llenar lagunas en el conjunto

Contina en la pgina siguiente.

28 La evaluacin de impacto en la prctica

IEP.indb 28 1/6/17 1:48 PM


Recuadro 1.10: El enfoque de evaluaciones de impacto de clusters (contina)
de pruebas existente. Por ejemplo, hay slida Agrupar las evaluaciones en torno a un
evidencia que demuestra que los nios que cmulo comn de preguntas de investiga-
reciben una combinacin de nutricin, esti- cin y utilizando una batera clave de instru-
mulacin cognitiva y apoyo sanitario en los mentos para medir los resultados permite a
primeros 1.000 das de vida tienen ms pro- los responsables de las polticas y a los pro-
babilidades de evitar retrasos en el desarrollo. fesionales del desarrollo ver qu tipos de
Sin embargo, faltan investigaciones sobre programas funcionan en mltiples entornos.
cul es la mejor manera de prestar este Despus, podrn revisar sus propios dise-
apoyo combinado de formas escalables y os de polticas y programas con un sentido
costo-efectivas. SIEF apoya la investigacin ms afinado de los contextos en que deter-
para explorar esta pregunta en Bangladesh, minados programas han funcionado o no, o
Colombia, India, Indonesia, Madagascar, teniendo en cuenta cmo en diversos casos
Mozambique, Nepal y Nger. se han logrado resultados concretos.

Fuentes: DIME (www.worldbank.org/dime); SIEF (http://www.worldbank.org/en/programs/sief-trust-fund); 3IE


(http://www.3ieimpact.org).

La decisin de llevar a cabo una evaluacin de


impacto

No todos los programas justican una evaluacin de impacto. Las evaluacio-


nes de impacto deberan utilizarse selectivamente cuando la pregunta que
se plantea exige un exhaustivo anlisis de la causalidad. Estas evaluaciones
pueden ser costosas si uno tiene que recopilar sus propios datos, y el presu-
puesto con el que se cuenta para la evaluacin debera utilizarse de manera
estratgica. Si uno est comenzando, o pensando en ampliar un nuevo pro-
grama y tiene dudas acerca de proceder o no con una evaluacin de impacto,
formularse unas pocas preguntas bsicas le ayudar en esta decisin.
La primera pregunta que debe formularse es: qu est en juego? Ser
que la evidencia del xito del programa, o la modalidad del mismo o la inno-
vacin en el diseo fundamentarn decisiones clave? Estas decisiones a
menudo implican asignaciones presupuestarias y determinan la escala del
programa. Si el presupuesto es limitado o si los resultados afectarn solo a
unas pocas personas, puede que una evaluacin de impacto no merezca la
pena. Por ejemplo, puede que no se justique llevar a cabo una evaluacin
de impacto de un programa en una clnica pequea que ofrece asesora a los
pacientes de hospital mediante voluntarios. En cambio, una reforma del
salario de los maestros que eventualmente afectar a todos los maestros de
Por qu evaluar? 29

IEP.indb 29 1/6/17 1:48 PM


primaria del pas sera un programa con elementos mucho ms importantes
en juego.
Si se decide que hay mucho en juego la siguiente pregunta es: existe evi-
dencia que demuestre que el programa funciona? Concretamente, se sabe
cul sera el alcance del impacto del programa? Hay evidencia disponible de
programas similares en circunstancias similares? Si no hay evidencia dispo-
nible acerca del potencial del tipo de programa proyectado, puede que con-
venga comenzar con una prueba piloto que incorpore una evaluacin de
impacto. En cambio, si hay evidencia disponible de circunstancias similares,
el costo de una evaluacin de impacto probablemente estara justicado solo
si puede abordar una nueva pregunta determinante para las polticas pbli-
cas. Este sera el caso si el programa incluye innovaciones sustanciales que
todava no han sido probadas.
Para justicar la movilizacin de recursos tcnicos y nancieros necesa-
rios para llevar a cabo una evaluacin de impacto de alta calidad, la inter-
vencin que ser evaluada debe ser:
Innovadora. Probar un enfoque nuevo y prometedor.
Aplicable. Se puede aumentar la escala o se puede aplicar en un entorno
diferente.
Estratgicamente relevante. La evidencia proporcionada por la evalua-
cin de impacto fundamentar una decisin clave ligada a la interven-
cin. Esto podra estar relacionado con la ampliacin del programa,
reformas o asignaciones presupuestarias.
No probada. Se sabe poco acerca de la efectividad del programa o de las
alternativas de diseo, tanto a nivel global como en un contexto
especco.
Inuyente. Los resultados se utilizarn para fundamentar decisiones de
polticas.
Una pregunta nal es la siguiente: se cuenta con los recursos necesarios para
una buena evaluacin de impacto? Estos recursos ataen a elementos tcni-
cos, como datos y el tiempo adecuado, recursos nancieros para llevar a cabo
la evaluacin y recursos institucionales de los equipos que participan, ms su
inters y compromiso para construir y utilizar evidencia causal. Como se
aborda en profundidad en el captulo 12, un equipo de evaluacin es esencial-
mente una asociacin entre dos grupos: un equipo de responsables de las
polticas y un equipo de investigadores. Los equipos tienen que trabajar en
aras del objetivo comn de asegurar que una evaluacin tcnicamente robusta
y bien diseada se implemente de manera adecuada y arroje resultados rele-
vantes para cuestiones clave de las polticas y del diseo del programa.
30 La evaluacin de impacto en la prctica

IEP.indb 30 1/6/17 1:48 PM


Una clara comprensin de la premisa y de la promesa de la evaluacin de
impacto por parte del equipo de evaluacin contribuir a asegurar su xito.
Si usted decide que tiene sentido encarar una evaluacin de impacto, en
virtud de las preguntas planteadas y la necesidad relacionada de analizar la
causalidad, ms los elementos en juego asociados con los resultados y la
necesidad de evidencia acerca del desempeo de su programa, entonces lo
invitamos a continuar con la lectura. Este libro est dedicado a usted y a su
equipo de evaluacin.

Recursos adicionales

Para material relacionado con este captulo e hipervnculos de recursos adi-


cionales, se recomienda consultar el sitio web de Evaluacin de Impacto en la
Prctica (www.worldbank.org/ieinpractice).
Para ms informacin sobre las evaluaciones de impacto, vase S. R. Khandker,
G. B. Koolwal y H. A. Samad (2009), Handbook on Quantitative Methods of
Program Evaluation. Washington, D.C.: Banco Mundial.
Para un buen resumen de las pruebas controladas aleatorias, vase R. Glen-
nerster y K. Takavarasha (2013), Running Randomized Evaluations: A Practical
Guide. Princeton, NJ: Princeton University Press.
Otros recursos sobre pruebas controladas aleatorias:
E. Duo, R. Glennerster y M. Kremer (2007), Using Randomization in
Development Economics Research: A Toolkit. Documento de discusin
CEPR Nm. 6059. Londres: Center for Economic Policy Research.
E. Duo y M. Kremer (2008), Use of Randomization in the Evaluation
of Development Effectiveness. En: Evaluating Development Effectiveness
(vol.7). Washington, D.C.: Banco Mundial.
Otros recursos tiles sobre evaluacin de impacto:
F. Leeuw y J. Vaessen (2009), Impact Evaluations and Development. NONIE
Guidance on Impact Evaluation. Washington, D.C.: NONIE.
M. Ravallion (2001), The Mystery of the Vanishing Benets: Ms. Speedy
Analysts Introduction to Evaluation. World Bank Economic Review 15 (1):
11540.
. 2008. Evaluating Anti-Poverty Programs. En: Handbook of Develop-
ment Economics (vol. 4), editado por Paul Schultz y John Strauss. mster-
dam: North Holland.
. 2009. Evaluation in the Practice of Development. World Bank
Research Observer 24 (1): 2953.

Notas

1. Para una visin general de los programas de transferencias condicionadas y el


inuyente rol que desempea el programa de Mxico, as como tambin su
evaluacin de impacto, vase Fiszbein y Schady (2009).
Por qu evaluar? 31

IEP.indb 31 1/6/17 1:48 PM


2. Los datos administrativos son aquellos datos recopilados rutinariamente como
parte de la administracin del programa e incluyen informacin sobre costos,
registros y transacciones, normalmente como parte de la prestacin de servicios.
3. Hay numerosas tipologas para evaluaciones y preguntas de las evaluaciones.
Vanse Berk y Rossi (1998) y Rossi, Lipsey y Freeman (2003).
4. Los mtodos cuasi experimentales son mtodos de evaluacin de impacto que
utilizan un contrafactual, pero se diferencian de los mtodos experimentales
en el sentido de que no se basan en la asignacin aleatoria de la intervencin.
Vase la seccin 2 para un debate sobre ambos tipos de mtodos.
5. Para una visin general de los mtodos de investigacin cualitativos, vase
Patton (1990).
6. Adaptado del Bureau of Justice Assistance (1997: 9798 y 10203).
7. Para un debate detallado sobre el anlisis de costo-benecio, vanse Zerbe y
Dively (1994); Brent (1996); Belli et al. (2001), y Boardman et al. (2001).

Referencias bibliogrficas

Ananthpur, K., K. Malik y V. Rao. 2014. The Anatomy of Failure: An Ethnography


of a Randomized Trial to Deepen Democracy in Rural India. Documento de
trabajo de investigacin 6958. Washington, D.C.: Banco Mundial.
Bamberger, M., V. Rao y M. Woolcock. 2010. Using Mixed Methods in Monitoring
and Evaluation: Experiences from International Development. Documento de
trabajo de investigacin de polticas Nm. 5245. Washington, D.C.: Banco
Mundial.
Banerjee, A., E. Duo,N. Goldberg,D. Karlan,R. Osei, et al. 2015. A Multifaceted
Program Causes Lasting Progress for the Very Poor: Evidence from Six
Countries. Science 348 (6236). doi:10.1126/science.1260799.
Behrman, J. R. y J. Hoddinott. 2001. An Evaluation of the Impact of PROGRESA
on Pre-school Child Height. FCND Briefs 104, International Food Policy
Research Institute, Washington, D.C.
Belli, P., J. Anderson, H. Barnum, Jo. Dixon y J. P. Tan. 2001. Handbook of Economic
Analysis of Investment Operations. Washington, D.C.: Banco Mundial.
Berk, R. A. y P. Rossi. 1998. Thinking about Program Evaluation 2 (2da. edicin).
Thousand Oaks, CA: Sage Publications.
Berman, D. 2014. Tanzania: Can Local Communities Successfully Run Cash
Transfer Programs? Washington, D.C.: Human Development Network, Banco
Mundial.
Boardman, A., A. Vining, D. Greenberg y D. Weimer. 2001. Cost-Benet Analysis:
Concepts and Practice. New Jersey: Prentice Hall.
Bourguignon, F.,F. H. G. Ferreira y P. G. Leite. 2003. Conditional Cash Transfers,
Schooling y Child Labor: Micro-Simulating Brazils Bolsa Escola Program.
TheWorld Bank Economic Review 17 (2): 22954.
BRAC (Bangladesh Rural Advancement Committee). 2013. An End in Sight for
Ultra-poverty. Nota de informacin de BRAC (noviembre). Disponible en
http://www.brac.net/sites/default/les/BRAC%20Brieng%20-%20TUP.pdf.

32 La evaluacin de impacto en la prctica

IEP.indb 32 1/6/17 1:48 PM


Brent, R. 1996. Applied Cost-Benet Analysis. Cheltenham, Reino Unido: Edward
Elgar.
Bureau of Justice Assistance. 1997. Urban Street Gang Enforcement. Informe
preparado por el Institute for Law and Justice, Inc. Washington, D.C.: Office
of Justice Programs, Bureau of Justice Assistance, U.S. Department of
Justice.
Creswell, J. W. 2014. Research Design: Qualitative, Quantitative, and Mixed Methods
Approaches. Thousand Oaks, CA: Sage Publications.
Evans, D. K., S. Hausladen, K. Kosec y N. Reese. 2014. Community-based
Conditional Cash Transfers in Tanzania: Results from a Randomized Trial.
Washington, D.C.: Banco Mundial.
Fiszbein, A. y N. Schady. 2009. Conditional Cash Transfers, Reducing Present and
Future Poverty. Documento de trabajo de investigacin de polticas Nm. 47603.
Washington, D.C.: Banco Mundial.
Gertler, P. J. 2004. Do Conditional Cash Transfers Improve Child Health?
Evidence from PROGRESAs Control Randomized Experiment. American
Economic Review 94 (2): 33641.
Glennerster, R. y K. Takavarasha. 2013. Running Randomized Evaluations: A
Practical Guide. Princeton, NJ: Princeton University Press.
Imas, L. G. M. y R. C. Rist. 2009. The Road to Results: Designing and Conducting
Effective Development Evaluations. Washington, D.C.: Banco Mundial.
Kremer, M., C. Brannen y R. Glennerster. 2013. The Challenge of Education and
Learning in the Developing World. Science 340 (6130): 297300.
Khandker, S., G. B. Koolwal y H. A. Samad. 2010. Handbook on Impact Evaluation:
Quantitative Methods and Practices. Washington, D.C.: Banco Mundial.
Levy, S. y E. Rodrguez. 2005. Sin herencia de pobreza: el programa Progresa-
Oportunidades de Mxico. Washington, D.C.: BID.
Martnez, S., S. Nadeau y V. Pereira, 2012. The Promise of Preschool in Africa: A
Randomized Impact Evaluation of Early Childhood Development in Rural
Mozambique. Washington, D.C.: Banco Mundial y Save the Children.
McKay, H., A. McKay, L. Siniestra, H. Gmez y P. Lloreda. 1978. Improving
Cognitive Ability in Chronically Deprived Children. Science 200 (21): 27078.
Patton, M. Q. 1990. Qualitative Evaluation and Research Methods (2da. edicin).
Newbury Park, CA: Sage.
Rao, V. y M. Woolcock. 2003. Integrating Qualitative and Quantitative
Approaches in Program Evaluation. En: F. J. Bourguignon y L. Pereira da
Silva, The Impact of Economic Policies on Poverty and Income Distribution:
Evaluation Techniques and Tools, pp. 16590. Nueva York: Oxford University
Press.
Rossi, P., M. W. Lipsey y H. Freeman. 2003. Evaluation: A Systematic Approach
(7ma. edicin) Thousand Oaks, CA: Sage Publications.
Schultz, P. 2004. School Subsidies for the Poor: Evaluating the Mexican Progresa
Poverty Program. Journal of Development Economics 74 (1): 199250.
Skouas, E. y B. McClafferty. 2001. Is Progresa Working? Summary of the Results
of an Evaluation by IFPRI. Washington, D.C.: International Food Policy
Research Institute.

Por qu evaluar? 33

IEP.indb 33 1/6/17 1:48 PM


Todd, P. y K. Wolpin. 2006. Using Experimental Data to Validate a Dynamic
Behavioral Model of Child Schooling and Fertility: Assessing the Impact of a
School Subsidy Program in Mexico. American Economic Review 96 (5):
13841417.
Zerbe, R. y D. Dively. 1994. Benet Cost Analysis in Theory and Practice. Nueva York:
Harper Collins Publishing.

34 La evaluacin de impacto en la prctica

IEP.indb 34 1/6/17 1:48 PM


CAPTULO 2

La preparacin de una
evaluacin

Pasos iniciales

Este captulo resea los pasos iniciales que es preciso ejecutar para congu-
rar una evaluacin. Estos pasos son: i) construir una teora del cambio que
describa cmo se supone que el proyecto lograr los objetivos previstos;
ii)elaborar una cadena de resultados que sirva como instrumento til para
esbozar la teora del cambio; iii) especicar las preguntas de la evaluacin; y
iv) seleccionar los indicadores para evaluar el desempeo.
Los cuatro pasos son necesarios y es preferible implementarlos al inicio, es
decir, cuando comienza a disearse el proyecto de evaluacin del programa o
de las reformas. Esto requiere la participacin de todas las partes interesadas,
desde los responsables de las polticas hasta los implementadores del pro-
yecto, con el n de forjar una visin comn de los objetivos y de cmo sern
alcanzados. Esta participacin permitir crear un consenso sobre el enfoque
de la evaluacin y las principales preguntas a responder, y reforzar los vncu-
los entre la evaluacin, la implementacin del programa y el diseo de polti-
cas pblicas. La aplicacin de estos pasos contribuye a la claridad y la
especicidad, que son tiles tanto para elaborar una buena evaluacin de
impacto como para disear e implementar un programa efectivo. Cada uno de
los pasos est claramente denido y est articulado en el modelo lgico incor-
porado en la cadena de resultados desde la precisin en la determinacin de
35

IEP.indb 35 1/6/17 1:48 PM


los objetivos y las preguntas hasta la denicin de las ideas integradas en la
teora del cambio, y los resultados esperados por la implementacin del pro-
grama. Se requiere una especicacin clara de los indicadores concretos que
se utilizarn para medir el xito del programa, no solo para asegurar que la
evaluacin est enfocada sino tambin que el programa tenga objetivos bien
denidos. Esto tambin proporciona una base rme para anticipar los efectos
producidos. Estos parmetros son esenciales para denir los elementos tcni-
cos de la evaluacin, incluyendo el tamao de la muestra requerida para la
evaluacin y los clculos de la potencia, como se analiza en el captulo 15.
En la mayora de las evaluaciones de impacto ser importante incluir una
evaluacin de costo-benecio, o costo-efectividad, como se indica en el
captulo 1. Los formuladores de poltica debern estar atentos para saber
qu programas o reformas son efectivos pero tambin cul es su costo.
Setrata de un aspecto crucial para fundamentar decisiones acerca de si es
viable aumentar la escala de un programa y si es posible replicarlo, dos con-
sideraciones importantes en las decisiones de polticas pblicas.

Construccin de una teora del cambio

Una teora del cambio es la descripcin de cmo se supone que una interven-
cin conseguir los resultados deseados. En ese sentido, expone la lgica cau-
sal de cmo y por qu un proyecto, una modalidad de programa o un diseo
de innovacin lograrn los resultados previstos. Debido al enfoque causal de
la investigacin, una teora del cambio es la base de cualquier evaluacin de
impacto. Su construccin es uno de los primeros requisitos para el diseo del
proyecto, ya que contribuye a especicar las preguntas de la investigacin.
Las teoras del cambio describen una secuencia de eventos que generan
resultados: analizan las condiciones y los supuestos necesarios para que
seproduzca el cambio, explicitan la lgica causal inscrita en el programa y
trazan el mapa de las intervenciones del programa a lo largo de las vas lgicas
causales. Congurar una teora del cambio en conjunto con las partes intere-
sadas puede claricar y mejorar el diseo del programa. Esto es especialmente
importante en los programas que pretenden inuir en las conductas, pues las
teoras del cambio pueden ayudar a determinar los insumos y actividades de
la intervencin, qu productos se generan y cules son los resultados nales
derivados de los cambios de comportamiento de los beneciarios.
El mejor momento para desarrollar una teora del cambio es al comienzo
de la fase de diseo, cuando es posible reunir a las partes interesadas con el
n de denir una visin colectiva del programa, sus objetivos y la ruta para
alcanzar esos objetivos. As, las partes interesadas podrn implementar el
programa a partir de un entendimiento comn del mismo, de sus objetivos y
de su funcionamiento.
36 La evaluacin de impacto en la prctica

IEP.indb 36 1/6/17 1:48 PM


Por otra parte, es til que los diseadores de programas revisen la
literatura en busca de evidencia que describa experiencias y programas
similares, y comprueben los contextos y los supuestos detrs de las vas
causales de la teora del cambio que conguran. Por ejemplo, en el caso del
proyecto de reemplazo de suelos de tierra por suelos de cemento desarro-
llado en Mxico (que se resea en el recuadro 2.1), la literatura aporta

Recuadro 2.1: La articulacin de una teora del cambio: de los


pisos de cemento a la felicidad en Mxico
En la evaluacin del proyecto Piso Firme, multiplican en las heces y pueden ser ingeridos
Cattaneo et al. analizaron el impacto de la por las personas cuando son introducidos en
mejora de las viviendas en la salud y el el interior de la vivienda por los seres humanos
bienestar. Tanto el proyecto como la evaluacin o los animales. La evidencia demuestra que
estuvieron motivados por una clara teora del los nios pequeos que habitan en casas con
cambio. suelos de tierra tienen ms probabilidades de
El objetivo del proyecto Piso Firme consiste sufrir infecciones intestinales provocadas
en aumentar la calidad de vida, sobre todo en por parsitos, que pueden causar diarrea y
lo referente a la salud, de los grupos vulnerables desnutricin y que a menudo perjudican el
que viven en zonas densamente pobladas y de desarrollo cognitivo e incluso pueden llevar a la
bajos ingresos en Mxico. El programa se muerte. Los suelos de cemento interrumpen
inici en el estado norteo de Coahuila sobre la transmisin de las infecciones de los
la base de una evaluacin contextual llevada a parsitos. Tambin controlan la temperatura
cabo por el gobierno estadual. de manera ms eficiente y mejoran el aspecto
La cadena de resultados del programa es de la vivienda.
clara. Se realizan visitas puerta por puerta en Estos resultados previstos sirvieron
los barrios elegidos para ofrecer a los hogares de fundamento para las preguntas que
la construccin de 50 m de suelo de cemento. Cattaneo et al. (2009) formularon en la eva-
El gobierno compra y entrega el cemento y luacin. La hiptesis del equipo era que al
los hogares y los voluntarios comunitarios reemplazar los suelos de tierra con suelos de
aportan la mano de obra. El producto es la cemento se reducira la incidencia de la dia-
construccin de un suelo de cemento que se rrea, la desnutricin y la deficiencia de micro-
puede completar aproximadamente en un nutrientes. A su vez, las mejoras en la salud
da. Entre los resultados previstos por este y nutricin deberan impactar positivamente
programa se destacan una mayor limpieza, en el desarrollo cognitivo de los nios peque-
una mejora en la salud de los habitantes de la os. Los investigadores tambin anticiparon
casa y un aumento de su felicidad. y comprobaron un mayor bienestar entre los
La lgica de esta cadena de resultados es adultos, medido por el aumento de la satis-
que los suelos de tierra son un foco de faccin en la poblacin respecto de las condi-
enfermedades parasitarias porque es difcil ciones de sus viviendas y el descenso de las
mantenerlos limpios. Los parsitos viven y se tasas de depresin y de estrs percibidas.

Fuente: Cattaneo et al. (2009).

La preparacin de una evaluacin 37

IEP.indb 37 1/6/17 1:48 PM


informacin valiosa sobre cmo se transmiten los parsitos y de qu
manera la infestacin provocada por estos organismos produce diarrea
infantil.

Desarrollo de una cadena de resultados

Una cadena de resultados es una manera de describir una teora del cambio.
Otros enfoques incluyen modelos tericos, modelos lgicos, marcos lgicos
y modelos de resultados. Todos estos modelos integran los elementos bsi-
cos de una teora del cambio, a saber: una cadena causal, una especicacin
de las condiciones e inuencias externas y la determinacin de los supues-
tos clave. En este libro se utilizar el modelo de cadena de resultados porque
es el ms sencillo y claro para describir la teora del cambio en el contexto
Concepto clave operativo de los programas de desarrollo.
Una cadena de Una cadena de resultados establece la lgica causal desde el inicio del
resultados establece la programa, empezando con los recursos disponibles, hasta el nal,
secuencia de insumos,
teniendo en cuenta los objetivos de largo plazo. Fija una denicin lgica
actividades y
productos que y plausible de cmo una secuencia de insumos, actividades y productos
previsiblemente relacionados directamente con el proyecto interacta con el comporta-
mejorarn los miento y dene las vas para lograr los impactos (vase el grco 2.1). Una
resultados y los cadena de resultados bsica esquematizar un mapa con los siguientes
resultados finales.
elementos:
Insumos. Los recursos de que dispone el proyecto, que incluyen el
personal y el presupuesto.
Actividades. Las acciones emprendidas o el trabajo realizado para trans-
formar los insumos en productos.
Productos. Los bienes y servicios tangibles que producen las actividades
del programa (controlados de forma directa por la agencia ejecutora).
Resultados. Los resultados que previsiblemente se lograrn cuando la
poblacin se benecie de los productos del proyecto. En general, estos
resultados se observan entre el corto y el mediano plazo y no suelen estar
controlados de forma directa por la agencia ejecutora.
Resultados nales. Los resultados nales alcanzados sealan si los objeti-
vos del proyecto se cumplieron o no. Normalmente, los resultados nales
dependen de mltiples factores y se producen despus de un perodo
ms largo.
Tanto la implementacin como los resultados forman parte de la cadena
de resultados. La ejecucin tiene que ver con el trabajo efectuado en el
38 La evaluacin de impacto en la prctica

IEP.indb 38 1/6/17 1:48 PM


Grfico 2.1 Los elementos de una cadena de resultados

RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS FINALES

Recursos Acciones Productos Uso de los El objetivo


financieros, emprendidas o resultantes de productos final del
humanos y de trabajo realizado la transformacin por parte de programa.
otro tipo que se para transformar de insumos en la poblacin
movilizan para los insumos en productos beneficiaria.
realizar las productos tangibles. Objetivos de
actividades. especficos. largo plazo.

Presupuestos, Serie de Bienes y servicios No totalmente Cambios en


dotacin de actividades producidos bajo el bajo el control los resultados
personal y otros emprendidas control de la de la agencia producidos por
recursos para producir agencia ejecutora. ejecutora. mltiples
disponibles. bienes y factores.
servicios.

Resultados (LADO DE LA DEMANDA +


Implementacin (LADO DE LA OFERTA)
LADO DE LA OFERTA)

Fuente: Elaboracin propia, sobre la base de mltiples fuentes.

proyecto, que incluye insumos, actividades y productos. Estos mbitos, que


son responsabilidad directa del proyecto, suelen ser monitoreados para
vericar si el proyecto est generando los bienes y servicios previstos. Los
resultados comprenden los resultados y los resultados nales, que no son
controlados de manera directa por el proyecto y dependen de cambios en el
comportamiento de los beneciarios del programa, es decir, dependen de
las interacciones entre la oferta (la implementacin) y la demanda (los
beneciarios). Por lo general, estos mbitos son objeto de evaluaciones de
impacto para medir su efectividad.
Una buena cadena de resultados contribuir a hacer aorar los supuestos y
riesgos implcitos en la teora del cambio. Los formuladores de polticas
estn mejor situados para articular la lgica causal y los supuestos en los
quedescansa, as como los riesgos que pueden inuir en el logro de los resul-
tados previstos. El equipo que dirige la evaluacin deber explicitar los
supuestos y riesgos implcitos en consulta con los responsables de las polti-
cas. Una buena cadena de resultados tambin incluir evidencia provista por
la literatura relacionada con los resultados de programas similares.
Las cadenas de resultados son tiles para todos los proyectos, indepen-
dientemente de que contemplen o no una evaluacin de impacto, porque
permiten a los responsables de las polticas y a los administradores del pro-
grama explicitar los objetivos del proyecto, lo que contribuye a claricar la
La preparacin de una evaluacin 39

IEP.indb 39 1/6/17 1:48 PM


lgica causal y la secuencia de eventos que se encuentran detrs de un
programa. Adems, pueden identicar brechas y eslabones dbiles en el
diseo del programa y, por lo tanto, pueden ayudar a mejorar su diseo.
Las cadenas de resultados tambin facilitan el monitoreo y la evaluacin
pues especican cul es la informacin que debe ser monitoreada en cada
eslabn de la cadena para realizar un seguimiento de la implementacin del
programa, y denen qu indicadores de resultados hay que incluir cuando
se evala el proyecto.

La especificacin de las preguntas de la


evaluacin

La claridad de la pregunta de la evaluacin es el punto de partida de cual-


quier evaluacin efectiva. La formulacin de esta pregunta debe centrarse
enla investigacin, para asegurar que se ajusta al inters de las polticas
en cuestin. En el caso de una evaluacin de impacto, es necesario estruc-
turarla como una hiptesis comprobable. La evaluacin de impacto luego
genera evidencia creble para responder esa pregunta. Como se indic
antes, la pregunta fundamental de la evaluacin de impacto es: cul es el
impacto (o el efecto causal) de un programa en un resultado de inters?
Se pone nfasis en el impacto, es decir, en los cambios directamente atri-
buibles a un programa, a una modalidad de programa o a una innovacin
de diseo.
La pregunta de la evaluacin debe orientarse segn el inters central de
las polticas en cuestin. Como se seal en el captulo 1, las evaluaciones de
impacto pueden analizar toda una gama de preguntas. En ese sentido, antes
de estudiar cmo se llevar a cabo el proyecto, el equipo de evaluacin debe-
ra aclarar cul es la pregunta que se analizar como primer paso, sobre la
base de la teora del cambio.
Tradicionalmente, las evaluaciones de impacto se han centrado en el
impacto que tiene un programa plenamente implementado en los resulta-
dos nales y en contraste con los resultados observados en un grupo de
comparacin que no ha sido beneciado por el programa. Sin embargo, el
uso actual de las evaluaciones de impacto se est ampliando. El equipo de
evaluacin puede inquirir: la pregunta de evaluacin clave es la pregunta
clsica acerca de la efectividad de un programa para cambiar los resulta-
dos nales? O se trata de probar si una modalidad de programa es ms
costo-efectiva que otra o bien de introducir una innovacin en el diseo
del programa que, de manera previsible, cambiar las conductas, como
la matriculacin? En la actualidad la evaluacin de impacto est

40 La evaluacin de impacto en la prctica

IEP.indb 40 1/6/17 1:48 PM


incorporando nuevos enfoques, de manera creativa, para abordar las cues-
tiones de inters para el diseo de polticas, en una vasta gama de discipli-
nas (vase el recuadro 2.2).
En una evaluacin de impacto, la pregunta de la evaluacin debe ser
formulada como una hiptesis bien denida y comprobable, que pueda cuanti-
car la diferencia entre los resultados obtenidos al contrastar los grupos de
tratamiento y comparacin. La cadena de resultados puede usarse como base
para formular la hiptesis que se busca probar a partir de la evaluacin de
impacto. Como se seala en el recuadro 2.3, a menudo hay unas cuantas hip-
tesis asociadas con el programa, pero no es necesario explorar todas en una
evaluacin de impacto, y tampoco es posible hacerlo. En el ejemplo del pro-
grama de estudio de matemticas que resea el recuadro 2.2, la pregunta de la
evaluacin deriva de elementos fundamentales de la teora del cambio y se
formula como una hiptesis clara, comprobable y cuanticable: cul es el

Recuadro 2.2: Experimentos de mecanismo


Un experimento de mecanismo es una eva- Por ejemplo, un equipo de trabajo busca
luacin de impacto que prueba un meca- establecer si las personas que viven en
nismo causal especfico dentro de la teora barrios pobres de una ciudad tienen tasas de
del cambio. Por ejemplo: se ha identificado obesidad ms altas que las personas que
un problema y se ha hallado un posible pro- viven en sectores ms acomodados de la
grama para remediarlo. Es preciso disear misma ciudad. Despus de realizar una
una evaluacin a fin de probar la efectividad investigacin, el equipo observa que los
del programa. La evaluacin debera probar barrios pobres cuentan con menos tiendas y
directamente el impacto del programa? Una puestos de frutas y verduras frescas y otros
corriente de pensamiento actual sostiene alimentos nutritivos y estima que esta falta
que una evaluacin de programa de ese tipo de oferta puede estar contribuyendo a la
quiz no sea siempre la mejor manera de obesidad, y que la situacin se podra reme-
comenzar y que, en algunos casos, puede diar mediante la entrega de subsidios a los
ser preferible no llevar a cabo una evaluacin fruteros a fin de que operen ms puntos de
de programa sino ms bien poner a prueba venta. Una simple cadena de resultados
algunos de los supuestos o mecanismos podra tener el aspecto que se presenta en
subyacentes. Los experimentos de meca- el grfico B2.2.1.
nismo no prueban un programa; lo que prue- Una evaluacin del programa se centrara
ban es un mecanismo causal que subyace a en probar el impacto de los subsidios a las
la eleccin de un programa. fruteras en un conjunto de barrios pobres.

Contina en la pgina siguiente.

La preparacin de una evaluacin 41

IEP.indb 41 1/6/17 1:48 PM


Recuadro 2.2: Experimentos de mecanismo (contina)

Grfico B2.2.1 Identificacin de un experimento de mecanismo en una cadena de


resultados ms larga

RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS
FINALES

Fondos Subsidios a los Aumento del nmero Los residentes de Menor prevalencia
vendedores de de tiendas/puestos barrios pobres de la obesidad
frutas y verduras que venden fruta y consumen ms entre residentes
verdura alimentos nutritivos de barrios pobres
Mayor disponibilidad
de alimentos nutritivos
en barrios pobres

Resultados (LADO DE LA DEMANDA +


Implementacin (LADO DE LA OFERTA)
LADO DE LA OFERTA)

Fuente: Elaboracin propia, sobre la base de mltiples fuentes.

En cambio, un experimento de mecanismo se En general, un experimento de mecanismo


enfocara en evidenciar de manera ms directa debera ser mucho ms barato de implemen-
los supuestos subyacentes. Por ejemplo, tar que una evaluacin de programa completa,
puede poner a prueba el siguiente supuesto: si porque se puede llevar a cabo en una escala
los habitantes de los barrios pobres tienen ms ms pequea. En el ejemplo anterior de la
acceso a alimentos nutritivos, comern ms obesidad, proporcionar subsidios a los fruteros
de estos alimentos. Una forma de demostrarlo en numerosos barrios y supervisar a un gran
podra ser distribuir una canasta de frutas y nmero de residentes en esos barrios sera
verduras gratis una vez a la semana a un grupo bastante caro, mientras que la entrega de la
de habitantes y comparar su consumo de cesta con productos gratis resultara mucho
frutas y verduras con el de los residentes que menos costosa y sera suficiente para contar
no reciben la canasta gratis. Si no se encuentran con la participacin de varios cientos de fami-
diferencias en el consumo de frutas y lias. Si el experimento de mecanismo demues-
verduras en este experimento de mecanismo tra que el mecanismo funciona, todava habra
es probable que tampoco los subsidios a las que realizar un experimento de las polticas
fruteras tengan un impacto significativo debido para evaluar si los subsidios son una manera
a que uno de los mecanismos causales efectiva de proveer frutas y verduras a los
subyacentes no est funcionando. habitantes de los barrios pobres.

Fuente: Ludwig, Kling y Mullainathan (2011).

efecto del nuevo programa de matemticas en las puntuaciones de las prue-


bas? En el ejemplo que se analiza a lo largo del libro, el Programa de Subsidios
de Seguros de Salud, la pregunta de la evaluacin es: cul es el efecto del
Programa de Subsidios de Seguros de Salud en los gastos directos en salud de
los hogares pobres?
42 La evaluacin de impacto en la prctica

IEP.indb 42 1/6/17 1:48 PM


Recuadro 2.3: Una reforma de las matemticas en la enseanza
secundaria: elaboracin de una cadena de resultados y una
pregunta de la evaluacin
El ministerio de Educacin de un pas X est donde se impartir la formacin de los pro-
pensando en introducir un nuevo programa de fesores de matemticas.
estudio de matemticas en la enseanza Las actividades del programa consisten
secundaria. La currcula ha sido diseada para en disear la nueva currcula de estudio de
que resulte ser ms accesible a los profesores matemticas, desarrollar un programa de
y a los alumnos, a fin de mejorar el desempeo capacitacin de los profesores, capacitar a
de los estudiantes en pruebas estandarizadas los profesores, y encargar la impresin y la
de matemticas y, eventualmente, optimizar distribucin de los nuevos libros de texto.
su capacidad para completar la escuela Los productos son el nmero de profeso-
secundaria y tener acceso a mejores empleos. res que recibieron capacitacin, el nmero
Esta cadena de resultados esboza la teora de libros de texto entregados en las aulas
del cambio del programa. y la adaptacin de pruebas estandarizadas
Los insumos comprenden el personal del al nuevo programa de estudio.
ministerio de Educacin para liderar la Los resultados en el corto plazo son la
reforma, los profesores de matemticas aplicacin por parte de los profesores de
de las escuelas secundarias, un presu- los nuevos mtodos, el uso de los libros
puesto para desarrollar el nuevo programa de texto en las aulas y la administracin
de estudio, y las instalaciones municipales de las nuevas pruebas.
Grfico B2.3.1 Cadena de resultados para la reforma de la currcula de matemtica
en la escuela secundaria

RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS
FINALES

Presupuesto para Diseo del nuevo 5.000 profesores Los profesores usan Mejora de las tasas
el nuevo programa programa de de matemticas los libros de texto de finalizacin.
de matemticas. estudios. de secundaria y el nuevo programa Aumento de los
Dotacin de Capacitacin de capacitados. de estudios en ingresos.
personal del profesores. 100.000 libros de la clase. Aumento del empleo.
ministerio de Edicin, impresin, texto entregados Los estudiantes
Educacin y de distribucin de en las clases. siguen el programa
de estudios.
profesores de nuevos libros
Mejora del
secundaria. de texto.
desempeo de los
Instalaciones estudiantes en los
municipales de exmenes de
capacitacin. matemticas.

Resultados (LADO DE LA DEMANDA +


Implementacin (LADO DE LA OFERTA)
LADO DE LA OFERTA)

Fuente: Elaboracin propia, sobre la base de mltiples fuentes.

Contina en la pgina siguiente.

La preparacin de una evaluacin 43

IEP.indb 43 1/6/17 1:48 PM


Recuadro 2.3: Una reforma de las matemticas en la enseanza secundaria: elaboracin de una cadena
de resultados y una pregunta de la evaluacin (contina)

Los resultados en el mediano plazo son Si la implementacin se lleva a cabo


las mejoras en el desempeo de los como estaba previsto, los resultados de
alumnos en las pruebas estandarizadas las pruebas de matemticas mejorarn
de matemticas. en un promedio de 5 puntos.
Los resultados finales son el aumento en las El desempeo en las matemticas en la
tasas de finalizacin de los estudios secun- secundaria influye en las tasas de finali-
darios y en las tasas de empleo, y el incre- zacin de la enseanza secundaria, en las
mento en los ingresos de los graduados. perspectivas de empleo y en el nivel de
Diversas hiptesis sustentan la teora del los ingresos.
cambio:
La pregunta ms importante de la evalua-
Los profesores que recibieron formacin cin, que ha sido desarrollada por el equipo
utilizan el nuevo programa de estudio de de responsables de las polticas del Ministe-
manera efectiva. rio de Educacin y los investigadores que
Si los profesores reciben capacitacin y participaron para determinar la efectividad
se distribuyen los libros de texto, estos del programa, es: cul es el efecto del
se emplearn y los alumnos seguirn el nuevo programa de estudio de matemticas
programa de estudio. en las puntuaciones de las pruebas? Esta
El nuevo programa es superior al antiguo pregunta apunta al corazn del inters de las
en la manera de impartir los conocimien- polticas en cuanto a la efectividad del nuevo
tos de matemticas. programa de estudios.

El Programa de Subsidios de Seguros de Salud: una


introduccin

El Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en


ingls, Health Insurance Subsidy Program) es un caso cticio de un
gobierno que emprende una reforma en gran escala del sector de la salud.
Las preguntas relacionadas con este caso se utilizarn en todo el libro.
El sitio web de Evaluacin de Impacto en la Prctica (http://www
.worldbank.org/ieinpractice) contiene soluciones para las preguntas del
estudio de caso del HISP, una base de datos y el cdigo de anlisis en
StataTM, as como un manual tcnico en lnea que proporciona un trata-
miento ms formal del anlisis de datos.
El objetivo nal del HISP es mejorar la salud de la poblacin del pas.
El innovador y potencialmente caro HISP se encuentra en etapa de
pruebas. El gobierno est preocupado porque los hogares rurales pobres
no pueden permitirse los costos de una atencin sanitaria bsica, lo cual

44 La evaluacin de impacto en la prctica

IEP.indb 44 1/6/17 1:48 PM


tiene consecuencias perjudiciales para su salud. A n de abordar este
problema, el HISP subsidia seguros de salud para los hogares rurales
pobres, y cubre los costos relacionados con la atencin primaria y los
medicamentos. El propsito central del HISP consiste en reducir el costo
de la atencin sanitaria de las familias pobres y, eventualmente, mejorar
los resultados de salud. Los responsables de las polticas estn pensando
en ampliar el HISP para cubrir al conjunto del pas, lo cual costara cien-
tos de millones de dlares.
La cadena de resultados del HISP se ilustra en el grco 2.2. Las hip-
tesis relacionadas con la reforma del HISP son: i) los hogares se inscribi-
rn en el programa una vez que se les ofrezca, ii) la inscripcin en el
programa disminuir los gastos directos de los hogares en salud, iii) los
costos impiden a la poblacin rural tener acceso a la atencin sanitaria
ya los medicamentos disponibles, y iv) los gastos directos en los costos
vinculados con la salud son un factor fundamental que contribuye a la
pobreza y a los malos resultados de salud.
La pregunta clave de la evaluacin es: cul es el impacto del Programa
de Subsidios de Seguros de Salud en los gastos directos de los hogares en
atencin sanitaria? Tanto en el libro como en el material en lnea, esta
pregunta de la evaluacin con relacin al HISP ser respondida varias
veces, a partir de diferentes enfoques metodolgicos. En ese marco, sur-
girn respuestas distintas y a veces opuestas, de acuerdo con la meto-
dologa de evaluacin utilizada.

Grfico 2.2 La cadena de resultados del HISP

RESULTADOS
INSUMOS ACTIVIDADES PRODUCTOS RESULTADOS
FINALES

Presupuesto para Diseo de los Equipamientos de Nmero y porcentaje Mejora en los


el plan piloto HISP. beneficios y el salud en 100 de hogares elegibles resultados de
Red de funcionamiento del comunidades rurales inscritos el primer ao. salud.
equipamientos HISP. piloto que participan Menor gasto en salud
de salud. Formacin de del programa. de los hogares rurales
Personal en personal en clnicas Campaa para llegar pobres.
oficinas de salud rurales de a 4.959 hogares Mejora del acceso a
del gobierno comunidades piloto. elegibles en las atencin primaria.
central y local. Establecimiento de comunidades piloto. Satisfaccin con el
sistemas de pagos y programa HISP.
de informacin sobre
gestin.
Lanzamiento del HISP
en 100 comunidades
rurales piloto.
Campaa informativa
y educativa.

Resultados (LADO DE LA DEMANDA +


Implementacin (LADO DE LA OFERTA)
LADO DE LA OFERTA)

La preparacin de una evaluacin 45

IEP.indb 45 1/6/17 1:48 PM


La seleccin de indicadores de resultados y
desempeo

Una pregunta clara de la evaluacin debe ir acompaada de la especica-


cin acerca de qu medidas de resultado se utilizarn para evaluar el desem-
peo, incluso en el caso de mltiples resultados. Las medidas de resultado
seleccionadas se usarn para establecer si un programa o una reforma deter-
minados tienen xito o no. Tambin son los indicadores que se pueden
emplear como referencia al realizar los clculos de la potencia con el n de
jar los tamaos de la muestra necesarios para la evaluacin, como se ver
en el captulo 15.
Luego de seleccionar los principales indicadores de inters, es preciso
denir objetivos claros en lo relativo al xito del programa. Este paso equi-
vale a determinar el efecto anticipado del programa sobre los principales
indicadores de resultado que se han seleccionado. Los tamaos del efecto
son los cambios previstos como resultado del programa o de la reforma; por
ejemplo, el cambio en las puntuaciones de las pruebas o en la tasa de adop-
cin de un nuevo tipo de pliza de seguro. Los tamaos del efecto previstos
son la base para llevar a cabo clculos de la potencia (que se abordan con
ms detalles tcnicos en el captulo 15).
Es fundamental que los principales agentes interesados en el equipo de
evaluacin (tanto el equipo de investigacin como el equipo de polticas
pblicas) estn de acuerdo tanto en los indicadores primarios de resulta-
dos de inters en la evaluacin de impacto, como en los tamaos esperados
de los efectos previstos como resultado del programa o de la innovacin
(para ms detalles sobre el equipo de evaluacin, vase el captulo 12), ya
que se usarn para juzgar el xito del programa y formar la base de los cl-
culos de la potencia. Numerosas evaluaciones de impacto fracasan porque
los tamaos de muestra no son lo bastante grandes para detectar los cam-
bios generados por el programa: tienen un dcit de potencia. En ese
sentido, es sustancial denir los tamaos mnimos previstos del efecto para
establecer criterios bsicos del xito del programa o de la innovacin.
Cuando hay datos disponibles, es posible realizar simulaciones ex ante
para observar diferentes escenarios de resultados con el n de establecer
una referencia del tipo de tamaos del efecto que se pueden esperar en una
gama de indicadores. Las simulaciones ex ante tambin se pueden utilizar
para revisar indicadores iniciales de costo-benecio o costo-efectividad y
comparar intervenciones alternativas para provocar cambios en los resul-
tados de inters.
Una cadena de resultados articulada con claridad proporciona un mapa
til para seleccionar los indicadores que se medirn a lo largo de la cadena,

46 La evaluacin de impacto en la prctica

IEP.indb 46 1/6/17 1:48 PM


a n de monitorear la implementacin del programa y evaluar los resulta- Concepto clave
dos. Como se ha dicho, es til contar con la participacin de agentes Los buenos
interesados del programa, tanto de los equipos de polticas como de los de indicadores son
EMARF (especficos,
investigacin, para seleccionar estos indicadores y asegurar que son buenas
medibles, atribuibles,
medidas del desempeo del programa. La regla general indica que los crite- realistas y
rios para asegurar que los indicadores utilizados son buenas medidas se focalizados).
resumen en el acrnimo EMARF. Los indicadores deberan ser:
Especcos: para medir la informacin requerida de la forma ms rigu-
rosa posible.
Medibles: para garantizar que la informacin se puede obtener
fcilmente.
Atribuibles: para asegurar que cada medida est relacionada con los
logros del proyecto.
Realistas: para garantizar que los datos se pueden obtener de manera
oportuna, con una frecuencia y un costo razonables.
Focalizados: en la poblacin objetivo.

Al elegir los indicadores, es importante identicarlos a lo largo de toda la


cadena de resultados, y no solo en el nivel de los resultados, de modo que
puedan seguir la lgica causal de cualquier resultado observado del pro-
grama. En las evaluaciones de implementacin que se centran en probar dos
o ms alternativas de diseo, los resultados de inters pueden producirse
antes en la cadena de resultados, como un resultado adelantado o como
resultado de una fase temprana. Aun cuando el inters solo est puesto en
las medidas de resultados para la evaluacin, es sustancial realizar un segui-
miento de los indicadores de implementacin, de tal manera que se pueda
determinar si las intervenciones se han llevado a cabo como estaban proyec-
tadas, si han sido recibidas por los beneciarios previstos y si han llegado a
tiempo. Si no se identican estos indicadores en toda la cadena de resulta-
dos se corre el riesgo de que la evaluacin de impacto sea como una caja
negra que podr determinar si los resultados previstos se materializaron o
no, pero no ser capaz de explicar por qu.

Lista de verificacin: datos para los indicadores

Como lista de vericacin nal, una vez que se han seleccionado los indica-
dores es til pensar en las disposiciones para producir los datos con el n de
medir los indicadores. En el captulo 4 se presenta un debate exhaustivo

La preparacin de una evaluacin 47

IEP.indb 47 1/6/17 1:48 PM


sobre dnde conseguir los datos para la evaluacin. Esta lista de vericacin
(adaptada de PNUD, 2009) abarca las disposiciones prcticas necesarias
para asegurar que es posible producir todos los indicadores de manera able
y oportuna:
Se han especicado con claridad los indicadores (productos y resulta-
dos)? Estos provienen de las preguntas clave de la evaluacin y deberan
ser consistentes con los documentos de diseo del programa y con la
cadena de resultados.
Los indicadores son EMARF? Especcos, medibles, atribuibles, realis-
tas y focalizados.
Cul es la fuente de los datos de cada indicador? Es necesario denir con
claridad la fuente de los datos, como una encuesta, un estudio o una reu-
nin de las partes interesadas.
Con qu frecuencia se recopilarn los datos? Es preciso incluir un
calendario.
Quin es el responsable de recopilar los datos? Se debe especicar quin
es responsable de organizar la recopilacin de datos, vericar la calidad y
la fuente de los datos y asegurar el cumplimiento de las normas ticas.
Quin es responsable del anlisis y de los informes? Hay que jar la fre-
cuencia de los anlisis, el mtodo de anlisis y el responsable de los
informes.
Qu recursos se necesitan para producir los datos? Es fundamental que
los recursos requeridos sean claros y que estn destinados a producir los
datos, que a menudo es la parte ms cara de una evaluacin si se recopi-
lan datos primarios.
La documentacin es adecuada? Es til disear planes para documentar
los datos, incluir la utilizacin de un registro y asegurar el anonimato.
Qu riesgos implica? Al realizar el monitoreo planicado y las activida-
des de evaluacin es preciso considerar los riesgos y los supuestos, as
como la manera en que pueden inuir en la puntualidad y la calidad de
los datos y de los indicadores.

Recursos adicionales

Para obtener material complementario de este captulo y para conseguir


hipervnculos a recursos adicionales se recomienda consultar el sitio de la
Evaluacin de Impacto en la Prctica (http://www.worldbank.org/ieinpractice).

48 La evaluacin de impacto en la prctica

IEP.indb 48 1/6/17 1:48 PM


El Mdulo 1 del World Banks Impact Evaluation Toolkit (http://www
.worldbank.org/health/impactevaluationtoolkit) ofrece un grco de la
teoradel cambio, una plantilla de cadena de resultados y ejemplos de
indicadores para nanciamiento basado en resultados.
L. Morra Imas y R. Rist (2009) brindan un buen estudio de las teoras del
cambio en The Road to Results: Designing and Conducting Effective
Development Evaluations. Washington, D.C.: Banco Mundial.
Para un debate sobre cmo seleccionar los indicadores de desempeo, vanse:
L. Morra Imas y R. Rist (2009), The Road to Results: Designing and
Conducting Effective Development Evaluations. Washington, D.C.:
Banco Mundial.
J. Kusek y R. Rist (2004), Ten Steps to a Results-Based Monitoring and
Evaluation System. Washington, D.C.: Banco Mundial.

Referencias bibliogrficas

Cattaneo, M., S. Galiani, P. Gertler, S. Martinez y R. Titiunik. 2009. Housing,


Health and Happiness. American Economic Journal: Economic Policy 1 (1):
75105.
Morra Imas, L. y R. Rist. 2009. The Road to Results: Designing and Conducting
Effective Development Evaluations. Washington, D.C.: Banco Mundial.
Kusek, J. y R. Rist. 2004. Ten Steps to a Results-Based Monitoring and Evaluation
System. Washington, D.C.: Banco Mundial.
Ludwig, J., J. Kling y S. Mullainathan. 2011. Mechanism Experiments and Policy
Evaluations. Journal of Economic Perspectives 25 (3): 1738.
PNUD (Programa de las Naciones Unidas para el Desarrollo). 2009. Handbook on
Planning, Monitoring and Evaluating for Development Results. Nueva York:
PNUD.
University of Wisconsin - Extension. 2010. Enhancing Program Performance with
Logic Models. Curso en lnea. Disponible en http://www.uwex.edu/ces/pdande
/evaluation/evallogicmodel.html.
Vermeersch, C., E. Rothenbhler y J. Sturdy. 2012. Impact Evaluation Toolkit:
Measuring the Impact of Results-Based Financing on Maternal and Child
Health. Washington, D.C.: Banco Mundial. Disponible en www.worldbank.org
/ health/impactevaluationtoolkit.

La preparacin de una evaluacin 49

IEP.indb 49 1/6/17 1:48 PM


IEP.indb 50 1/6/17 1:48 PM
Segunda parte

CMO EVALUAR

La segunda parte de este libro explica cmo funcionan las evaluaciones de


impacto, a qu preguntas responden, qu mtodos estn disponibles para lle-
varlas a cabo y cules son las ventajas y las desventajas de cada uno de ellos.
El enfoque de la evaluacin de impacto propuesto en este libro aboga por la
seleccin del mtodo ms riguroso que sea compatible con las caractersti-
cas operativas de un programa. El men de opciones para una evaluacin de
impacto incluye la asignacin aleatoria, las variables instrumentales, el diseo
de regresin discontinua, las diferencias en diferencias y el pareamiento. Todos
estos mtodos comparten el objetivo comn de construir grupos de compara-
cin vlidos que permitan estimar los verdaderos impactos de un programa.

El captulo 3 introduce el concepto del contrafactual como piedra angular de la


evaluacin de impacto mediante una explicacin de las propiedades que debe
tener la estimacin del contrafactual y ejemplos de estimaciones invlidas o
falsas del contrafactual. Del captulo 4 al 8 se aborda cada una de las metodo-
logas para una evaluacin de impacto: el captulo 4 trata la asignacin aleato-
ria; el 5, las variables instrumentales; el 6, el diseo de regresin discontinua;

IEP.indb 51 1/6/17 1:48 PM


el 7, las diferencias en diferencias, y el 8, el pareamiento. En estos captulos se
analiza cmo y por qu cada mtodo puede producir una estimacin vlida del
contrafactual, en qu contexto de las polticas pblicas es posible implementar-
los y cules son las principales limitaciones de cada uno. Asimismo, se ilustra
el uso de los diferentes mtodos con ejemplos especficos del mundo real de
las evaluaciones de impacto que los han utilizado y con el estudio de caso del
Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en ingls,
Health Insurance Subsidy Program) que se present en el captulo 2. El cap-
tulo 9 avanza sobre cmo abordar los problemas que pueden surgir durante la
implementacin, y reconoce que las evaluaciones de impacto no suelen ejecu-
tarse siguiendo el diseo de un modo exacto. En este contexto, se consideran
las dificultades habituales, entre ellas el cumplimiento imperfecto, los efectos
secundarios y el desgaste de la muestra, y se ofrece orientacin acerca de
cmo afrontar estos problemas. El captulo 10 concluye esta segunda parte del
libro con una gua de las evaluaciones de programas multifacticos, en especial
aquellos con distintos niveles de tratamiento y mltiples brazos de tratamiento.

A lo largo de la segunda parte, el libro brinda la oportunidad de aplicar mtodos


y poner a prueba la comprensin a partir del estudio de caso del HISP. Como se
recordar, la pregunta clave de la evaluacin para los responsables de la pol-
tica del HISP es: qu impacto tiene este programa en los gastos directos en
atencin sanitaria de los hogares pobres? Se utilizar la base de datos del HISP
para ilustrar cada mtodo de evaluacin e intentar responder esta pregunta.
Siendo que ya se han reunido adecuadamente los datos, de modo que se han
eliminado todos los problemas relacionados con estos datos, el libro proporcio-
nar los resultados del anlisis, que debern ser interpretados. En ese sentido,
la tarea del lector ser determinar por qu la estimacin del impacto del HISP
cambia con cada mtodo y decidir qu resultados son ms fiables para justifi-
car una decisin a favor o en contra de la ampliacin del HISP. Las soluciones
a las preguntas se hallan en el sitio web de evaluacin de impacto en la prc-
tica (www.worldbank.org/ieinpractice), donde, adems, se encuentra la base
de datos, el cdigo de anlisis en el software Stata y un manual tcnico que
proporciona un tratamiento ms formal de los datos.

La parte 3 comienza indicando cmo usar las reglas de operacin del programa,
esto es: los recursos disponibles de un programa, los criterios para la seleccin
de beneficiarios, y el plazo de implementacin, como base para seleccionar
un mtodo de evaluacin de impacto. All se presenta un marco sencillo para
determinar cul de las metodologas de evaluacin de impacto expuestas en la
parte 2 es ms conveniente para un determinado programa, en funcin de sus
normas operativas.

IEP.indb 52 1/6/17 1:48 PM


CAPTULO 3

Inferencia causal y
contrafactuales

Inferencia causal

En las evaluaciones de impacto precisas y ables existen dos conceptos


esenciales: la inferencia causal y los contrafactuales.
Muchas preguntas de poltica econmica tienen que ver con relaciones
de causa y efecto: la formacin de los profesores mejora las puntuaciones
de los alumnos en las pruebas? Los programas de transferencias condicio-
nadas consiguen mejores resultados en la salud de los nios? Los progra-
mas de formacin profesional aumentan los ingresos de quienes los han
cursado?
Las evaluaciones de impacto pretenden responder estas preguntas de
causa y efecto con precisin. Evaluar el impacto de un programa en un con-
junto de resultados equivale a evaluar el efecto causal del programa en esos
resultados.1
Concepto clave
A pesar de que las preguntas de causa y efecto son habituales, contestar-
Las evaluaciones de
las no es un asunto sencillo. En el contexto de un programa de formacin impacto establecen
profesional, por ejemplo, la sola observacin de que los ingresos de una per- hasta qu punto un
sona que ha recibido formacin aumentan despus de que ha completado programa y solo ese
ese programa no basta para establecer la causalidad. Tal vez los ingresos de programa provoc un
esa persona se habran incrementado aunque no hubiera sido objeto de la cambio en un
resultado.
formacin, sino como consecuencia de sus esfuerzos, de las condiciones
53

IEP.indb 53 1/6/17 1:48 PM


cambiantes del mercado laboral o de muchos otros factores que inuyen en
los ingresos. Las evaluaciones de impacto ayudan a superar el problema de
atribuir causalidad pues determinan, empricamente, en qu medida un
programa concreto y solo ese programa contribuye a cambiar un resul-
tado. Para establecer causalidad entre un programa y un resultado se
emplean mtodos de evaluacin de impacto a n de descartar la posibilidad
de que cualquier factor distinto del programa de inters explique el impacto
observado.
La respuesta a la pregunta bsica de la evaluacin de impacto cul es el
impacto o efecto causal de un programa (P) en un resultado de inters (Y)
se obtiene mediante la frmula bsica de la evaluacin de impacto:

= (Y | P = 1) (Y | P = 0)

Segn esta frmula, el impacto causal () de un programa (P) en un resul-


tado (Y) es la diferencia entre el resultado (Y) con el programa (es decir,
cuando P = 1) y el mismo resultado (Y) sin el programa (cuando P = 0).
Por ejemplo, si P representa un programa de formacin profesional e Y
simboliza los ingresos, el impacto causal de un programa de formacin pro-
fesional () es la diferencia entre los ingresos de una persona (Y) despus
de participar en el programa de formacin profesional (es decir, cuando
P=1) y los ingresos de la misma persona (Y) en el mismo momento en el
tiempo, si no hubiera participado en el programa (cuando P = 0). Dicho de
otro modo, se trata de medir el ingreso en el mismo momento en el tiempo
para la misma unidad de observacin (en este caso, una persona) pero en
dos realidades diferentes. Si esto fuera posible, se observara cul sera el
ingreso de ese mismo individuo en el mismo momento en el tiempo tanto
con el programa como sin l, de modo que la nica explicacin posible de
cualquier diferencia en los ingresos de esa persona sera el programa.
Alcomparar al mismo individuo consigo mismo en el mismo momento se
conseguira eliminar cualquier factor externo que tambin pudiera expli-
car la diferencia de los ingresos. En ese caso, sera posible conar en que la
relacin entre el programa de formacin profesional y el cambio en los
ingresos es causal.
La frmula bsica de la evaluacin de impacto es vlida para cualquier
unidad analizada, ya sea una persona, un hogar, una comunidad, una
empresa, un colegio, un hospital u otra unidad de observacin que pueda
beneciarse del programa o verse afectada por l. La frmula tambin es
vlida para cualquier resultado (Y) relacionado con el programa en cuestin.
Una vez que se han medido los dos componentes clave de esta frmula el
resultado (Y) con el programa y sin l, es posible responder cualquier pre-
gunta acerca del impacto del programa.

54 La evaluacin de impacto en la prctica

IEP.indb 54 1/6/17 1:48 PM


El contrafactual

Como ya se seal, es posible pensar en el impacto () de un programa como


la diferencia en los resultados (Y) para la misma unidad (persona, hogar,
comunidad, etc.) cuando ha participado en el programa y cuando no lo ha
hecho. Sin embargo, es imposible medir al mismo sujeto en dos realidades
diferentes al mismo tiempo. En cualquier momento del tiempo, un sujeto
habr participado en el programa o no lo habr hecho. No se lo puede obser-
var simultneamente en dos realidades distintas (es decir, con el programa
y sin l). Esto se denomina problema contrafactual: cmo medir lo que Concepto clave
habra ocurrido si hubieran prevalecido las otras circunstancias? Aunque se El contrafactual es lo
puede observar y medir el resultado (Y) para un participante del programa que habra ocurrido
cul habra sido el
(Y | P = 1), no hay datos para establecer cul habra sido su resultado en
resultado (Y ) para un
ausencia delprograma (Y | P = 0). En la frmula bsica de la evaluacin de participante del
impacto, eltrmino (Y | P = 0) representa el contrafactual, lo cual se puede programa en ausencia
expresar como cul habra sido el resultado si una persona no hubiera par- del programa (P ).
ticipado en el programa?
Por ejemplo, si el seor Desafortunado toma una pldora y muere cinco
das despus, el solo hecho de que el seor Desafortunado haya muerto des-
pus de tomar la pldora no permite concluir que la pldora haya sido la
causa de su muerte. Quiz l estaba muy enfermo cuando tom la pldora y
fue la enfermedad la que provoc su muerte en lugar de la pldora. Para infe-
rir la causalidad habr que descartar todos los dems factores potenciales
capaces de haber inuido en el resultado en cuestin. En este sencillo ejem-
plo, para saber si la pldora caus la muerte del seor Desafortunado, un eva-
luador tendra que establecer qu le habra ocurrido al seor Desafortunado
si no hubiera tomado la pldora. Como el seor Desafortunado tom la pl-
dora, no es posible observar de forma directa qu habra ocurrido si no lo
hubiera hecho. Lo que le habra ocurrido si no hubiera tomado la pldora es
el contrafactual. Para denir el impacto de la pldora, el principal reto del
evaluador consiste en determinar qu aspecto tiene el estado contrafactual
de la realidad para el seor Desafortunado (vase el recuadro 3.1).
Cuando se lleva a cabo una evaluacin de impacto, es relativamente fcil
obtener el primer trmino de la frmula bsica (Y | P = 1) el resultado con
un programa, tambin conocido como el resultado bajo tratamiento, ya que Concepto clave
basta con medir el resultado de inters para el participante del programa. Como no es posible
Sin embargo, no es posible observar de forma directa el segundo trmino de observar directamente
el contrafactual, es
la frmula (Y | P = 0) para el participante. Es preciso obtener esta informa-
preciso estimarlo.
cin estimando el contrafactual.
Para entender este concepto clave de estimacin del contrafactual es til
recurrir a otro caso hipottico. La solucin del problema contrafactual sera

Inferencia causal y contrafactuales 55

IEP.indb 55 1/6/17 1:48 PM


Recuadro 3.1: El problema del contrafactual: la seorita nica y
el programa de transferencias condicionadas
La seorita nica es una recin nacida condicionadas y sin l: su familia cumple los
cuya madre percibe una asignacin moneta- requisitos (chequeos, vacunacin, seguimiento
ria mensual siempre que la nia sea some- del crecimiento) y recibe la transferencia condi-
tida a chequeos regulares en el centro de cionada o no lo hace. En otras palabras, no hay
salud local, reciba las vacunas y se chequee forma de observar cul es el contrafactual. Como
su crecimiento. Segn el gobierno, la trans- la madre de la seorita nica cumpli los requisi-
ferencia condicionada motivar a la madre tos y recibi la transferencia condicionada, no es
de la seorita nica a acudir a los servicios factible saber qu altura tendra la seorita nica
de salud que requiere el programa y contri- si su madre no hubiera recibido la transferencia
buir al crecimiento normal y saludable de la condicionada.
nia. Para realizar una evaluacin de impacto Ser difcil encontrar una comparacin
de la transferencia condicionada, el gobierno adecuada para la seorita nica porque,
elige la altura como indicador de resultados como su nombre indica, es nica. Sus ante-
de la salud en el largo plazo. cedentes socioeconmicos, sus atributos
Idealmente, para evaluar el impacto del genticos y sus caractersticas personales y
programa, habra que medir la altura de la del hogar no pueden ser hallados en nin-
seorita nica a los 3 aos, cuando su guna otra persona. Si se compara la seo-
madre recibi la transferencia condicionada rita nica con alguien que no particip en el
y tambin cuando su madre no recibi dicha programa por ejemplo, el seor Inimitable,
transferencia. Luego habra que comparar la comparacin tal vez resulte inadecuada:
las dos alturas para establecer el impacto. Si la seorita nica puede ser exactamente
fuera posible comparar la altura de la seo- idntica al seor Inimitable. Quiz la seo-
rita nica a los 3 aos bajo el programa con rita nica y el seor Inimitable no tienen el
la altura de la seorita nica a los 3 aos sin mismo aspecto, no viven en el mismo lugar,
el programa se sabra que cualquier diferen- no tienen los mismos padres y no midieron
cia en la altura habra sido efecto solo del lo mismo cuando nacieron. Por lo tanto, si
programa de transferencias condicionadas. se observa que el seor Inimitable es ms
Como todo lo dems relativo a la seorita bajo que la seorita nica a los 3 aos no
nica sera igual, no habra otras caracters- ser posible saber si la diferencia se debe al
ticas que explicaran la diferencia de altura. programa de transferencias condicionadas
Sin embargo, es imposible observar a la o a alguna de las muchas otras diferencias
seorita nica con el programa de transferencias entre los dos nios.

posible si el evaluador pudiera encontrar un clon perfecto de un partici-


pante en el programa (vase el grco 3.1). Por ejemplo, si el seor Fulanito
comienza a recibir US$12 como dinero de bolsillo y lo que se busca es medir
el impacto de este tratamiento en su consumo de caramelos, la existencia de
un clon perfecto del seor Fulanito hara la evaluacin muy fcil, pues se
56 La evaluacin de impacto en la prctica

IEP.indb 56 1/6/17 1:48 PM


Grfico 3.1 El clon perfecto

Beneficiario/a Clon

6 caramelos 4 caramelos

Impacto = 6 4 = 2 caramelos

podra comparar el nmero de caramelos que come el seor Fulanito


(por ejemplo, seis) cuando recibe el dinero, con el nmero de caramelos
(por ejemplo, cuatro) que come su clon, que no recibe dinero. En este caso,
el impacto del dinero de bolsillo sera de dos caramelos, es decir, la diferen-
cia entre el nmero de caramelos consumidos bajo tratamiento (seis) y el
nmero de caramelos consumidos sin tratamiento (cuatro). En realidad,
est claro que es imposible hallar clones perfectos, y que incluso entre
gemelos genticamente idnticos hay diferencias importantes.

La estimacin del contrafactual

La clave para estimar el contrafactual para los participantes del programa


consiste en desplazarse del nivel individual o de la persona al nivel del
grupo. A pesar de que no existe un clon perfecto de una persona nica, es
posible contar con propiedades estadsticas para generar dos grupos de
personas que, si su nmero es lo bastante alto, sean indistinguibles una de
otra desde el punto de vista estadstico en el nivel del grupo. El grupo que
participa en el programa se denomina grupo de tratamiento, y su resultado
es (Y | P = 1) despus de que ha participado en el programa. El grupo de com-
paracin estadsticamente idntico (a veces llamado grupo de control) es
el grupo que no es objeto del programa y permite estimar el resultado con-
trafactual (Y | P = 0): es decir, el resultado que se habra obtenido en el grupo
de tratamiento si no hubiera recibido el programa.
Inferencia causal y contrafactuales 57

IEP.indb 57 1/6/17 1:48 PM


Concepto clave Por lo tanto, en la prctica el reto de una evaluacin de impacto es denir
Sin un grupo de un grupo de tratamiento y un grupo de comparacin que sean estadstica-
comparacin que mente idnticos, en promedio, en ausencia del programa. Si los dos grupos
produzca una
son idnticos (estadsticamente), con la nica excepcin de que un grupo
estimacin precisa del
contrafactual, no se
participa en el programa y el otro no, es posible estar seguros de que cual-
puede establecer el quier diferencia en los resultados tendra que deberse al programa.
verdadero impacto de Encontrar esos grupos de comparacin es la piedra angular de cualquier
un programa. evaluacin de impacto, al margen del tipo de programa que se evale. En
pocas palabras, sin un grupo de comparacin que produzca una estimacin
precisa del contrafactual, no se puede establecer el verdadero impacto de un
programa.
En ese sentido, el principal desafo para identicar los impactos es crear
un grupo de comparacin vlido que tenga las mismas caractersticas que el
grupo de tratamiento en ausencia del programa. Concretamente, los grupos
de tratamiento y de comparacin deben ser iguales en al menos tres
aspectos.
En primer lugar, las caractersticas promedio del grupo de tratamiento y
del grupo de comparacin deben ser idnticas en ausencia del programa.2
Aunque no es necesario que las unidades individuales en el grupo de trata-
miento tengan clones perfectos en el grupo de comparacin, en promedio
las caractersticas de los grupos de tratamiento y de comparacin deberan
ser las mismas. Por ejemplo, la edad promedio de las personas en el grupo de
tratamiento debera ser la misma que en el grupo de comparacin.
En segundo lugar, el tratamiento no tendra que afectar al grupo de
comparacin de forma directa ni indirecta. En el caso del seor Fulanito y
el dinero de bolsillo, el grupo de tratamiento no debera transferir recur-
sos al grupo de comparacin (efecto directo) ni inuir en el precio de los
caramelos en los mercados locales (efecto indirecto). Por ejemplo, si lo
que se busca es aislar el impacto del dinero de bolsillo en el consumo de
caramelos, al grupo de tratamiento no se le deberan ofrecer ms visitas
Concepto clave
ala tienda de caramelos que al grupo de comparacin; de otra manera,
Un grupo de compara-
cin vlido (1) tiene las
no se podra distinguir si el consumo adicional de caramelos es conse-
mismas caractersticas, cuencia del dinero de bolsillo o del mayor nmero de visitas a la tienda de
en promedio, que el caramelos.
grupo de tratamiento en En tercer lugar, los resultados de las personas en el grupo de control
ausencia del programa; deberan cambiar de la misma manera que los resultados en el grupo de tra-
(2) no es afectado por el
tamiento, si ambos grupos son objeto del tratamiento (o no). En este sentido,
programa; y (3)
reaccionara al los grupos de tratamiento y de comparacin tendran que reaccionar al
programa de la misma programa de igual modo. Por ejemplo, si los ingresos de las personas del
manera que el grupo de grupo de tratamiento aumentaran en US$100 gracias al programa de forma-
tratamiento, si fuera cin, los ingresos de las personas en el grupo de comparacin tambin ten-
objeto del programa.
dran que subir US$100 si hubieran sido objeto de la formacin.
58 La evaluacin de impacto en la prctica

IEP.indb 58 1/6/17 1:48 PM


Si se cumplen estas tres condiciones, solamente la existencia del pro-
grama de inters explicar cualquier diferencia en el resultado (Y) entre los
dos grupos. Esto obedece a que la nica diferencia entre los grupos de trata-
miento y los de comparacin es que los miembros del grupo de tratamiento
recibieron el programa, mientras que los del grupo de comparacin no lo
recibieron. Cuando la diferencia en el resultado se puede atribuir total-
mente al programa, se ha identicado el impacto causal del programa.
En el caso del seor Fulanito se observ que estimar el impacto del dinero
de bolsillo en su consumo de caramelos exiga la tarea impracticable de
encontrar el clon perfecto del seor Fulanito. En vez de analizar el impacto
en un solo individuo, es ms realista evaluar el impacto promedio en un
grupo de individuos (vase el grco 3.2). En ese sentido, si se pudiera iden-
ticar otro grupo de individuos que comparten el mismo promedio de edad,
composicin por sexo, educacin, preferencia por los caramelos, etc., con la
salvedad de que no recibe el dinero de bolsillo adicional, sera posible esti-
mar el impacto del dinero de bolsillo, pues este estara conformado por la Concepto clave
diferencia entre el consumo promedio de caramelos en ambos grupos. Por lo Cuando el grupo de
tanto, si el grupo de tratamiento consume una media de seis caramelos por comparacin no estima
con precisin el
persona, mientras que el grupo de comparacin consume una media de cua-
verdadero contrafac-
tro, el impacto promedio del dinero de bolsillo adicional en el consumo de tual, el impacto
caramelos sera de dos caramelos. estimado del programa
Despus de denir un grupo de comparacin vlido, es importante consi- no es vlido. En
derar qu ocurrira si la decisin fuera seguir adelante con una evaluacin trminos estadsticos
es sesgado.
sin haber hallado ese grupo. Es evidente que un grupo de comparacin no

Grfico 3.2 Un grupo de comparacin vlido

Tratamiento Comparacin

Media Y = 6 caramelos Media Y = 4 caramelos

Impacto = 6 4 = 2 caramelos

Inferencia causal y contrafactuales 59

IEP.indb 59 1/6/17 1:48 PM


vlido diere del grupo de tratamiento de alguna manera distinta de la
ausencia de tratamiento. Debido a esas otras diferencias, la estimacin de
impacto puede ser no vlida o, en trminos estadsticos, puede ser sesgada:
en ese caso la evaluacin de impacto no estimar el verdadero impacto del
programa, sino el efecto del programa mezclado con esas otras diferencias
existentes entre los grupos.

Dos estimaciones falsas del contrafactual

En lo que queda de la segunda parte de este libro se abordarn los diversos


mtodos disponibles para construir grupos de comparacin vlidos que
permitirn estimar el contrafactual. Sin embargo, antes resulta til analizar
dos mtodos de uso habitual, aunque sumamente riesgosos, para construir
grupos de comparacin que a menudo conducen a estimaciones inadecua-
das (falsas) del contrafactual:
Las comparaciones antes-despus (tambin conocidas como comparacio-
nes pre-post o reexivas): cotejan los resultados del mismo grupo antes y
despus de participar en un programa.
Las comparaciones de inscritos y no inscritos (o autoseleccionados): com-
paran los resultados de un grupo que elige participar en un programa con
otros de un grupo que elige no participar.

Contrafactual falso 1: comparacin entre resultados antes y


despus de un programa

Una comparacin antes-despus intenta establecer el impacto de un


programa a partir de un seguimiento de los cambios en los resultados en los
participantes del programa a lo largo del tiempo. De acuerdo con la frmula
bsica de la evaluacin de impacto, el resultado para el grupo de tratamiento
(Y | P = 1) es, sin duda, el resultado despus de participar en el programa. Sin
embargo, las comparaciones antes-despus consideran el contrafactual esti-
mado (Y | P = 0) como el resultado para el grupo de tratamiento antes de
quecomience la intervencin. Bsicamente, esta comparacin supone que si
el programa no hubiera existido, el resultado (Y) para los participantes del
programa habra sido igual a su situacin antes del programa. Lo cierto es
que en la mayora de los programas implementados durante meses o aos
este supuesto no puede sostenerse.
A modo de ejemplo se aborda la evaluacin de un programa de micro-
nanzas para agricultores pobres. El programa ofrece microprstamos a
los agricultores, lo que les permite comprar fertilizantes y aumentar su
60 La evaluacin de impacto en la prctica

IEP.indb 60 1/6/17 1:48 PM


produccin de arroz. El ao previo al inicio del programa, los agricultores
cosecharon un promedio de 1.000 kilos de arroz por hectrea (el punto B
enel grco 3.3). Un ao despus del lanzamiento del sistema de micro-
nanzas, la produccin de arroz subi a 1.100 kilos por hectrea (el punto A
en el grco 3.3). Si se tratara de evaluar el impacto sobre la base de una
comparacin antes-despus, se utilizara el resultado de antes del pro-
grama como una estimacin del contrafactual. Al aplicar la misma fr-
mula bsica de la evaluacin de impacto, se llegara a la conclusin de que
el programa ha incrementado la produccin de arroz en 100 kilos por
hectrea (A-B).
Ahora bien, si las lluvias fueron normales en el ao previo al lanza-
miento del programa y luego, durante el ao en que se implement el pro-
grama, se produjo una sequa, la produccin promedio de los agricultores
sin el sistema de microprstamos ser probablemente menor que B, y se
situar, por ejemplo, en el nivel D debido a la sequa. En ese caso, el verda-
dero impacto del programa sera A-D, que es mayor que los 100 kilos esti-
mados a partir de la comparacin antes-despus. En cambio, si las lluvias
hubieran mejorado entre los dos aos, el contrafactual de la produccin de
arroz podra haberse situado en el nivel C. Entonces el verdadero impacto

Grfico 3.3 Estimaciones antes-despus de un programa de microfinanzas

1.100 A
Produccin de arroz (kg por ha)

Cambio observado

Contrafactual C C? = 100

Contrafactual B
1.000 B

Contrafactual D
D?

Ao 0 Ao 1

Nota: = Cambio en la cosecha de arroz (kg); ha = hectreas; kg = kilogramos.

Inferencia causal y contrafactuales 61

IEP.indb 61 1/6/17 1:48 PM


del programa habra sido inferior a 100 kilos. En otras palabras, si los an-
lisis de impacto no pueden dar cuenta de las lluvias y de todos los dems
factores capaces de inuir en la produccin de arroz a lo largo del tiempo,
es imposible calcular el verdadero impacto del programa mediante una
comparacin antes-despus.
En el ejemplo anterior de las micronanzas, las lluvias constituyen uno
de varios factores externos que pueden inuir en el resultado de inters del
programa (la produccin de arroz) durante su vigencia. De la misma manera,
muchos resultados que los programas de desarrollo pretenden mejorar,
como los ingresos, la productividad, la salud o la educacin, estn afectados
por un conjunto de factores en el transcurso del tiempo. Por ese motivo, el
resultado de referencia casi nunca es una buena estimacin del contrafac-
tual y se lo considera un contrafactual falso.

Evaluacin de impacto del HISP: una comparacin de


resultados antes-despus

Como se recordar, el HISP es un programa nuevo en el pas, que subsi-


dia los seguros de salud en los hogares rurales pobres, y este seguro cubre
los gastos relacionados con la atencin de salud y los medicamentos para
quienes se inscriben en l. El objetivo del HISP es reducir lo que los
hogares pobres gastan en atencin primaria de salud y medicamentos
y, eventualmente, mejorar los resultados de salud. Aunque se podran
contemplar numerosos indicadores de resultados para la evaluacin del
programa, al gobierno le interesa, en particular, el anlisis de los efectos
del HISP en los gastos directos en salud per cpita anuales (de ahora en
adelante denominados gasto en salud).
Si el HISP se ampliara a todo el pas representara un alto porcentaje
del presupuesto nacional, hasta el 1,5% del producto interno bruto (PIB),
segn algunas estimaciones. Adems, hay otras complejidades adminis-
trativas y logsticas importantes que intervienen en la gestin de un
programa de estas caractersticas. Por eso, en los niveles ms altos del
gobierno se ha tomado la decisin de introducir el HISP primero como
programa piloto y, ms tarde, segn los resultados de la fase inicial,
aumentar su escala de manera progresiva a lo largo del tiempo. Sobre la
base de los resultados de los anlisis nancieros y de costo-benecio, la
presidenta y su gabinete han anunciado que para que el HISP sea viable y
se pueda extender a todo el pas es preciso que los gastos en salud per
cpita anuales de los hogares rurales pobres disminuyan en al menos
US$9 en promedio, en comparacin con lo que habran gastado en ausen-
cia del programa, y se debe lograr esta meta en un plazo de dos aos.

62 La evaluacin de impacto en la prctica

IEP.indb 62 1/6/17 1:48 PM


Finalmente, durante la fase piloto inicial el HISP se implementa en
100 pueblos rurales. Justo antes del comienzo del programa, el gobierno
contrata una empresa de encuestas para que realice un sondeo de lnea
de base en los 4.959 hogares de estos pueblos. La encuesta recopila infor-
macin detallada sobre cada hogar, que incluye su composicin demo-
grca, sus activos, su acceso a los servicios sanitarios y su gasto en salud
durante el ao anterior. Poco despus de la encuesta de lnea de base, el
HISP llega a los 100 pueblos piloto con un gran despliegue de publicidad,
que abarca actividades comunitarias y otras campaas promocionales
para animar a los pobladores a inscribirse.
De los 4.959 hogares que contiene la muestra de lnea de base, un total
de 2.907 se inscriben en el HISP y el programa funciona con xito
durantelos dos aos siguientes. Todas las clnicas y farmacias que sirven
los 100 pueblos aceptan a los pacientes con el sistema de seguro y las
encuestas muestran que la mayora de los hogares inscritos expresa
satisfaccin con el programa. Al nal del perodo piloto de dos aos se
recopila una segunda ronda de datos de evaluacin en la misma muestra
de 4.959 hogares.3
La presidenta y el ministro de Salud le han encargado a un equipo que
supervise la evaluacin de impacto del HISP y este debe recomendarle al
gobierno si es conveniente ampliar el programa al nivel nacional o no. La
pregunta de evaluacin de impacto de inters es: cul es el efecto del
Programa de Subsidios de Seguros de Salud en los gastos directos en
salud de los hogares pobres? Es preciso recordar que hay mucho en juego.
Si se llega a la conclusin de que el HISP reduce los gastos en salud en al
menos US$10, se extender a todo el pas. Si el programa no alcanza ese
objetivo, la decisin ser que no se ample.
El primer consultor experto seala que para estimar el impacto del
HISP hay que calcular el cambio en los gastos en salud a lo largo del
tiempo en los hogares que se inscribieron. El consultor sostiene que
debido a que el HISP cubre todos los gastos de salud, cualquier reduccin
de los gastos durante la vigencia del programa debe ser atribuida al efecto
del HISP. A partir del subconjunto de los hogares inscritos, el experto
estima los gastos promedio en salud antes de la implementacin del
programa y luego de la ejecucin del mismo, dos aos despus. En otras
palabras, lleva a cabo una comparacin antes-despus (los resultados se
recogen en el cuadro 3.1) Se observa que el grupo de tratamiento redujo
sus gastos directos en salud en US$6,65, al pasar de US$14,49 antes de la
introduccin del HISP a US$7,84 dos aos ms tarde. Como indica el
valor t-estadstico, la diferencia entre gastos en salud antes y despus
delprograma es estadsticamente signicativa.4 Esto signica que se ha

Inferencia causal y contrafactuales 63

IEP.indb 63 1/6/17 1:48 PM


Cuadro 3.1 Evaluacin del HISP segn comparacin antes-despus

Despus Antes Diferencia t-estadstico


Gasto en salud de los
hogares (en US$) 7,84 14,49 6,65** 39,76

** Significativo al nivel del 1%.

Cuadro 3.2 Impacto del HISP segn comparacin antes-despus (anlisis


de regresin)

Regresin lineal
Regresin lineal multivariante
Impacto estimado en el
gasto en salud de los 6,65** 6,71**
hogares (en US$) (0,23) (0,23)

Nota: Los errores estndar estn entre parntesis.


** Significativo al nivel del 1%.

encontrado evidencia slida contra quienes sostienen que la verdadera


diferencia entre los gastos antes y despus de la intervencin es cero.
Aunque la comparacin antes-despus es para el mismo grupo de
hogares, es preciso establecer si otras circunstancias cambiaron en estos
hogares a lo largo de los ltimos dos aos, inuyendo en sus gastos en
salud. Por ejemplo, hay nuevos medicamentos que se encuentran dispo-
nibles desde hace poco tiempo. Adems, la reduccin de los gastos en
salud podra haber sido provocada por la crisis nanciera que el pas ha
vivido recientemente. Para abordar algunas de estas cuestiones, el con-
sultor lleva a cabo un anlisis de regresin ms sosticado que intentar
controlar por estos otros factores.
El anlisis de regresin emplea las estadsticas para analizar las rela-
ciones entre una variable dependiente (la variable que ser explicada) y
variables explicativas (los resultados se recogen en el cuadro 3.2). Una
regresin lineal es la forma ms sencilla de hacerlo: los gastos en salud
son la variable dependiente y solo hay una variable explicativa, un indica-
dor binario (0-1) que asume el valor 0 si la observacin es de lnea de base
y 1 si la observacin corresponde al seguimiento.
En tanto, una regresin lineal multivariante aade variables explicati-
vas para controlar por, o mantener constantes, otras caractersticas que se
observan para los hogares en la muestra, que incluyen indicadores
deriqueza (activos), composicin del hogar, etctera.5

64 La evaluacin de impacto en la prctica

IEP.indb 64 1/6/17 1:48 PM


Se observa que el resultado de la regresin lineal es equivalente a la
simple diferencia antes y despus en los gastos promedio en salud que
muestra el cuadro 3.1 (una reduccin de US$6,65 en los gastos en salud).
Una vez que se utiliza una regresin lineal multivariante para controlar
por otros factores disponibles en los datos, se vuelve a obtener un resul-
tado similar: una disminucin de US$6,71 en los gastos en salud.

Pregunta HISP 1

A. La comparacin antes-despus controla por todos los factores que


inuyen en los gastos en salud a lo largo del tiempo?
B. Sobre la base de los resultados producidos por el anlisis antes-
despus, debera ampliarse el HISP a nivel nacional?

Contrafactual falso 2: comparacin entre los grupos de inscritos y


no inscritos (autoseleccionados)

La comparacin entre un grupo de individuos que se inscriben voluntaria-


mente en un programa y un grupo de individuos que elige no participar es
otro enfoque riesgoso de la evaluacin de impacto. Un grupo de compara-
cin que se autoselecciona para no participar en un programa ser otro
contrafactual falso. La seleccin se produce cuando la participacin en el
programa se basa en las preferencias, decisiones o caractersticas no obser-
vables de los participantes potenciales.
A modo de ejemplo se puede pensar en un programa de orientacin pro-
fesional para los jvenes desempleados. Dos aos despus de su lanza-
miento, una evaluacin intenta estimar su impacto en los ingresos a partir
de la comparacin de los ingresos promedio de un grupo de jvenes que
decidieron inscribirse en el programa con los de un grupo de jvenes que, a
pesar de ser elegibles, decidieron no inscribirse. Si los resultados demostra-
ran que los jvenes que eligieron inscribirse en el programa ganan el
doble de los que decidieron no hacerlo, cmo debera interpretarse este
hallazgo? En este caso, el contrafactual se estima sobre la base de los ingre-
sos de quienes eligieron no inscribirse en el programa. Sin embargo, es pro-
bable que los dos grupos sean, en esencia, diferentes. Aquellos individuos
que decidieron participar pueden estar muy motivados para mejorar sus
vidas y quiz esperen un retorno alto de la formacin. Mientras que los que
decidieron no inscribirse tal vez son jvenes desanimados que no esperan
beneciarse de este tipo de programas. Es factible que estos dos grupos
Inferencia causal y contrafactuales 65

IEP.indb 65 1/6/17 1:48 PM


obtengan resultados bastante distintos en el mercado laboral y consigan
ingresos diferentes incluso sin el programa de formacin profesional.
Los mismos problemas surgen cuando la admisin en un programa se
basa en preferencias no observadas de los administradores del programa.
Por ejemplo, si los administradores del programa basan la admisin y la
inscripcin en una entrevista. Puede que los admitidos en el programa sean
aquellos en quienes los administradores ven una buena probabilidad de
beneciarse del programa. Tal vez los no admitidos pueden mostrar menos
motivacin en la entrevista, tener calicaciones ms bajas o sencillamente
carecer de destrezas en una entrevista. Como se seal en el caso anterior,
es probable que estos dos grupos de jvenes obtengan ingresos diferentes en
el mercado laboral incluso sin un programa de formacin profesional.
Por lo tanto, el grupo que no se inscribi no proporciona una buena
estimacin del contrafactual ya que la observacin de una diferencia en los
ingresos entre los dos grupos no permite determinar si se debe al programa
Concepto clave de formacin o a los contrastes subyacentes entre los dos grupos en motiva-
El sesgo de seleccin cin, destrezas y otros factores. As, el hecho de que individuos menos
se produce cuando los motivados o menos cualicados no se hayan inscrito en el programa de for-
motivos por los que un
macin genera un sesgo en la evaluacin de impacto del programa.6 Este
individuo participa en
un programa estn sesgo se llama sesgo de seleccin. En trminos ms generales, el sesgo de
correlacionados con seleccin se produce cuando los motivos por los que un individuo participa
los resultados. en un programa estn correlacionados con los resultados, incluso en ausen-
Asegurarse de que el cia del programa. Asegurarse de que el impacto estimado est libre de ses-
impacto estimado est gos de seleccin es uno de los principales objetivos de cualquier evaluacin
libre de sesgos de
seleccin es uno de los
de impacto, y plantea importantes dicultades. En este ejemplo, si los jve-
principales objetivos nes que se inscribieron en la formacin profesional hubiesen tenido ingre-
en cualquier sos ms altos incluso en ausencia del programa, el sesgo de seleccin sera
evaluacin de impacto positivo; en otras palabras, se sobreestimara el impacto del programa de
y plantea importantes formacin profesional al atribuirle los ingresos ms altos que los participan-
dificultades.
tes habran tenido de todas maneras.

Evaluacin del impacto del HISP: comparacin entre


hogares inscritos y no inscritos

Despus de haber reexionado de forma ms detenida sobre la compara-


cin antes-despus el equipo de evaluacin llega a la conclusin de que
todava hay numerosos factores que pueden explicar parte del cambio en
los gastos en salud a lo largo del tiempo (concretamente, al ministerio de
Finanzas le preocupa que una reciente crisis nanciera haya afectado los
ingresos de los hogares, y puede que explique el cambio observado en los
gastos en salud).

66 La evaluacin de impacto en la prctica

IEP.indb 66 1/6/17 1:48 PM


Otro consultor sugiere que sera ms adecuado estimar el contrafac-
tual en el perodo posterior a la intervencin, es decir, dos aos despus
del comienzo del programa. El consultor seala que de los 4.959 hogares
contenidos en la muestra, solo 2.907 se inscribieron en el programa, de
modo que alrededor del 41% de los hogares sigue sin cobertura del HISP.
El consultor sostiene que todos los hogares de los 100 pueblos piloto
cumplan las condiciones para inscribirse. Estos hogares comparten las
mismas clnicas de salud y estn sujetos a los mismos precios locales de
los productos farmacuticos. Adems, la mayora de los integrantes de
esos hogares trabaja en actividades econmicas similares. El consultor
opina que, en estas circunstancias, los resultados del grupo no inscrito
despus de la intervencin podran servir para estimar el resultado con-
trafactual del grupo inscrito en el HISP. Por lo tanto, decide calcular los
gastos promedio en salud en el perodo posterior a la intervencin, tanto
para los hogares que se inscribieron en el programa como para los que
no lo hicieron (losresultados se recogen en el cuadro 3.3). Utilizando los
gastos promedio de salud de los hogares no inscritos como la estimacin
del contrafactual, elconsultor llega a la conclusin de que el programa
ha reducido los gastos promedio de salud en casi US$14,46.
Ahora bien, los hogares que decidieron no inscribirse en el programa
pueden ser sistemticamente diferentes de los que s lo hicieron? Quiz
los hogares que se inscribieron en el HISP tenan mayores gastos en salud
o eran personas con ms informacin acerca del programa o ms atentas
a la salud de su familia. Otra posibilidad es que tal vez los hogares que se
inscribieron eran ms pobres, en promedio, que los que no se inscribie-
ron, ya que el HISP tena como objetivo los hogares pobres. El consultor
asegura que el anlisis de regresin puede controlar por estas diferencias
potenciales entre los dos grupos. Por lo tanto, realiza otra regresin mul-
tivariante que controla por todas las caractersticas del hogar que puede
encontrar en la base de datos, y estima el impacto del programa como se
muestra en el cuadro 3.4.

Cuadro 3.3 Evaluacin del HISP segn comparacin inscritos-no inscritos


(comparacin de medias)

Inscritos No inscritos Diferencia t-estadstico


Gasto en salud de los
hogares (en US$) 7,84 22,30 14,46** 49,08

** Significativo al nivel del 1%.

Inferencia causal y contrafactuales 67

IEP.indb 67 1/6/17 1:48 PM


Cuadro 3.4 Evaluacin del HISP segn comparacin inscritos-no inscritos
(anlisis de regresin)

Regresin lineal Regresin lineal multivariante


Impacto estimado
sobre el gasto en
salud de los hogares 14,46** 9,98**
(en US$) (0,33) (0,29)

Nota: Los errores estndar estn entre parntesis.


** Significativo al nivel del 1%.

Con una simple regresin lineal de los gastos en salud en una variable
indicativa de si un hogar se inscribi o no en el programa, es posible
encontrar un impacto estimado de US$ -14,46, es decir, que el programa
ha disminuido el promedio de gastos de salud en US$14,46. Sin embargo,
cuando se controla por todas las dems caractersticas de los datos, se
estima que el programa ha reducido los gastos en salud en US$ 9,98 al ao.

Pregunta HISP 2

A. Este anlisis controla por todos los factores que determinan las dife-
rencias en gastos en salud entre los dos grupos?
B. Sobre la base de los resultados producidos por el mtodo de inscripcin-
no inscripcin, debera ampliarse el HISP al nivel nacional?

Recursos adicionales

Para material complementario del libro y para otros hipervnculos de recursos,


se recomienda ver el sitio web de la Evaluacin de Impacto en la Prctica
(http://www.worldbank.org/ieinpractice).

Notas

1. Usamos el Modelo Causal de Rubin como marco para la inferencia causal.


2. Esta condicin se relajar en algunos mtodos de evaluacin de impacto que, en
cambio, requerirn que el cambio promedio en los resultados (tendencias) sea el
mismo en ausencia del programa.
3. Se supone que ningn hogar ha dejado la muestra en esos dos aos (hay un
desgaste cero de la muestra). Este no es un supuesto realista en la mayora de las
encuestas de hogares. En la prctica, a veces no se puede hacer un seguimiento de

68 La evaluacin de impacto en la prctica

IEP.indb 68 1/6/17 1:48 PM


las familias que se mudan en su nueva localidad, y algunos hogares se rompen o
dejan de existir del todo.
4. Cabe destacar que un t-estadstico (t-stat) de 1,96 o ms (en valor absoluto) es
estadsticamente signicativo en un nivel del 5%.
5. Para ms informacin sobre el anlisis multivariante, vase el manual tcnico en
lnea del sitio web de la Evaluacin de Impacto en la Prctica (www.worldbank
.org/ieinpractice).
6. Otro ejemplo: si los jvenes que esperan beneciarse de un modo considerable
del sistema de formacin tambin tienen ms probabilidades de inscribirse
(tal vez porque esperan tener salarios ms altos con la formacin) compararlos
con un grupo de jvenes que espera menores retornos y que no se inscribe
arrojar una estimacin de impacto sesgada.

Referencias bibliogrficas

Imbens, G. y D. Rubin. 2008. Rubin Causal Model. En: S. N. Durlauf y L. E. Blume


(eds.), The New Palgrave Dictionary of Economics (2da. edicin). Nueva York:
Palgrave.
Rubin, D. 1974. Estimating Causal Effects of Treatments in Randomized and
Non- Randomized Studies. Journal of Educational Psychology 66 (5): 688701.

Inferencia causal y contrafactuales 69

IEP.indb 69 1/6/17 1:48 PM


IEP.indb 70 1/6/17 1:48 PM
CAPTULO 4

La asignacin aleatoria

La evaluacin de programas basados en reglas


de asignacin

Despus de analizar dos estimaciones falsicadas del contrafactual que


se utilizan habitualmente, aunque con un alto riesgo de sesgo las compara-
ciones antes-despus y las comparaciones inscritos-no inscritos, a conti-
nuacin se presentar un conjunto de mtodos que se pueden aplicar para
estimar con mayor precisin los impactos de un programa. Sin embargo,
esas estimaciones no siempre son tan fciles como puede parecer a primera
vista. La mayora de los programas se disea y luego se implementa en un
entorno complejo y cambiante, donde diversos factores pueden inuir en
los resultados tanto de los participantes del programa como de aquellos que
no participan. Las sequas, los terremotos, las recesiones, los cambios de
gobierno y los vaivenes de las polticas nacional e internacional forman
parte del mundo real. En una evaluacin, se debe asegurar que la estima-
cin del impacto del programa siga siendo vlida a pesar de esta diversidad
de factores.
Las reglas de un programa para seleccionar a los participantes constitui-
rn el parmetro clave para determinar el mtodo de la evaluacin de
impacto. Creemos que, en la mayora de los casos, los mtodos de evalua-
cin deben intentar adaptarse al contexto de las reglas operativas de un
programa (con unos pocos ajustes por aqu y por all) y no al contrario.
Sin embargo, tambin se parte de la premisa de que todos los programas
71

IEP.indb 71 1/6/17 1:48 PM


sociales deben tener reglas de asignacin justas y transparentes. Una de las
reglas ms justas y transparentes para asignar recursos escasos entre pobla-
ciones que los merecen de igual manera consiste en que todos aquellos que
sean elegibles tengan la misma oportunidad de participar en el programa.
Una manera sencilla de conseguirlo es mediante un sorteo.
En este captulo, se analizar un mtodo que se asemeja a un sorteo y que
decide quin participa en un programa en un determinado momento y quin
no: el mtodo de asignacin aleatoria, tambin conocido como ensayo aleato-
rio controlado (RCT, por sus siglas en ingls, randomized control trial). Este
mtodo no solo proporciona a los administradores del programa una regla
imparcial y transparente para asignar recursos escasos entre poblaciones
igualmente merecedoras de ellos, sino que tambin representa el mtodo ms
slido para evaluar el impacto de un programa. Por eso, la aplicacin del
mismo para evaluar los impactos de los programas ha aumentado de manera
considerable en los ltimos aos.

La asignacin aleatoria del tratamiento

Cuando se asigna de forma aleatoria a los beneciarios de un programa es


decir, mediante sorteo entre una poblacin elegible numerosa, se puede
generar una estimacin robusta del contrafactual. La asignacin aleatoria
del tratamiento se considera la regla de oro de la evaluacin de impacto.
Utiliza un proceso aleatorio, o el azar, para decidir a quin se le conceder
acceso al programa y a quin no.1 En la asignacin aleatoria, todas las unida-
des elegibles (por ejemplo, una persona, un hogar, una empresa, un hospital,
una escuela o una comunidad) tienen la misma probabilidad de ser
seleccionadas para un programa.2
Antes de ver cmo se implementa la asignacin aleatoria en la prctica y
por qu genera una estimacin slida del contrafactual, conviene dedicar un
momento a pensar por qu la asignacin aleatoria tambin es una manera
justa y transparente de asignar los escasos recursos de un programa. Una
vez que se ha denido una poblacin objetivo (por ejemplo, hogares por
debajo de la lnea de la pobreza, nios menores de 5 aos o caminos en zonas
rurales en el norte del pas), la asignacin aleatoria es una regla de asigna-
cin justa porque permite que los administradores del programa se asegu-
ren de que todas las unidades elegibles tengan la misma probabilidad de
participar en el programa y de que el programa no sea asignado con criterios
arbitrarios o subjetivos, ni por cuestiones de favoritismo u otras prcticas
injustas. Cuando se produce un exceso de demanda de un programa, la
asignacin aleatoria es una regla que los administradores del mismo pueden
explicar fcilmente, que todas las partes interesadas pueden entender y que
72 La evaluacin de impacto en la prctica

IEP.indb 72 1/6/17 1:48 PM


se considera justa en numerosas circunstancias. Adems, cuando el proceso
de asignacin se lleva a cabo de modo abierto y transparente, no es fcil
manipularlo y, por lo tanto, protege a los administradores del programa de
posibles acusaciones de favoritismo o corrupcin. Por lo tanto, como meca-
nismo de asignacin, la asignacin aleatoria tiene sus propios mritos,
que van mucho ms all de su utilidad como instrumento de evaluacin
deimpacto. De hecho, diversos programas utilizan de manera rutinaria los
sorteos como una forma de seleccionar a los participantes del conjunto de
individuos elegibles, sobre todo debido a sus ventajas administrativas y de
gobernanza.3 El recuadro 4.1 presenta dos casos de este tipo en frica.

Recuadro 4.1: La asignacin aleatoria como un valioso instrumen-


to operativo
La asignacin aleatoria puede ser una regla til postulantes a un lugar pblico, y se introducan
para asignar los beneficios de un programa, en una caja pequeos trozos de papel con
incluso fuera del contexto de una evaluacin nmeros que iban de 1 a N. Despus, se
de impacto. Los siguientes dos casos de llamaba a los postulantes uno por uno para
frica ilustran por qu. que sacaran un nmero de la caja delante de
En Costa de Marfil, despus de un perodo todos los dems participantes. Una vez que
de crisis, el gobierno introdujo un programa se sacaba el nmero, se lea en voz alta.
de empleo temporal inicialmente dirigido a Despus de que se haba llamado a todos los
los ex combatientes, que luego se ampli postulantes, se verificaban uno por uno
a la juventud en trminos ms generales. El los nmeros que quedaban en la caja
programa ofreca a los jvenes oportunidades para cerciorarse de que correspondieran a
de empleo de corto plazo, sobre todo participantes que no haban asistido al sorteo.
limpiando o rehabilitando caminos, a travs Si haba N plazas disponibles en el programa,
de la agencia nacional de vialidad. Se invit se seleccionaba a aquellos postulantes que
a los jvenes en las municipalidades que haban sacado los nmeros ms bajos. El
participaban a que se inscribieran. Dado el proceso de sorteo se organiz por separado
atractivo de los beneficios, fueron muchos para hombres y mujeres. Fue bien aceptado
ms los jvenes que postularon que las plazas por los participantes, y contribuy a dar una
disponibles. Para encontrar una manera imagen de imparcialidad y transparencia
transparente y justa de asignar los beneficios al programa en un contexto posterior al
entre los postulantes, los administradores del conflicto, marcado por tensiones sociales.
programa recurrieron a un proceso de sorteo Despus de varios aos en marcha, los
pblico. Una vez que la inscripcin se cerr y investigadores utilizaron esta regla de
se conoca el nmero de postulantes (por seleccin, ya integrada en el funcionamiento
ejemplo, N) en una localidad, se organizaba del programa, para emprender su evaluacin
un sorteo pblico. Se convocaba a todos los de impacto.

Contina en la pgina siguiente.

La asignacin aleatoria 73

IEP.indb 73 1/6/17 1:48 PM


Recuadro 4.1: La asignacin aleatoria como un valioso instrumento operativo (contina)

En Nger, el gobierno comenz a responsables de los pueblos al centro


implementar en 2011 un proyecto de red de municipal, se escriban los nombres de sus
proteccin nacional, con el apoyo del Banco pueblos en un trozo de papel, y se introducan
Mundial. Nger es uno de los pases ms en una caja. Despus, un nio sacaba al azar
pobres del mundo y la poblacin de hogares los papeles que correspondan a los pueblos
pobres que merecan el programa super por beneficiarios hasta que se llenaban las
mucho los beneficios disponibles durante los cuotas. El procedimiento se utiliz por
primeros aos de funcionamiento. Los separado para pueblos sedentarios y pueblos
administradores del programa contaban con nmadas a fin de asegurar la representacin
un sistema de seleccin geogrfica para de cada grupo. (Despus de seleccionar a
definir en qu departamentos y comunas los pueblos, se implement un mecanismo
se implementara primero el programa de de definicin de objetivos a nivel de los
transferencias de efectivo. Esto se poda hogares para identificar a los hogares ms
hacer porque haba datos para determinar la pobres, que posteriormente fueron inscritos
pobreza relativa o el estado de vulnerabilidad como beneficiarios.) La transparencia y la
de los diversos departamentos o comunas. imparcialidad del sorteo pblico fueron muy
Sin embargo, dentro de las comunas, haba apreciadas por las autoridades locales y de
muy pocos datos disponibles para evaluar los pueblos, y por los administradores del
qu pueblos eran ms merecedores que programa, de tal manera que el proceso de
otros sobre la base de criterios objetivos. sorteo pblico sigui siendo utilizado en el
As, para la primera fase del proyecto, los segundo y tercer ciclo del proyecto para
administradores del programa decidieron seleccionar ms de 1.000 pueblos en todo
utilizar sorteos pblicos de modo de el pas. Aunque el sorteo pblico no fue
seleccionar a los pueblos beneficiarios dentro necesario para realizar una evaluacin de
de las comunas definidas como objetivo. impacto en ese momento, su valor como
Esta decisin se llev a cabo en parte porque instrumento operativo transparente, justo
los datos disponibles para priorizar de manera y ampliamente aceptado para asignar
objetiva a los pueblos eran limitados, y beneficios entre poblaciones que los
en parte porque en el proyecto se estaba merecan por igual, justific la continuidad de
incorporando una evaluacin de impacto. En su uso ante los administradores del programa
los sorteos pblicos se invitaba a todos los y las autoridades locales.

Fuentes: Bertrand et al. (2016); Premand, Barry y Smitz (2016).

La asignacin aleatoria a menudo puede derivarse de las reglas operati-


vas de un programa. En numerosos programas, la poblacin de posibles
participantes es decir, el conjunto de individuos que el programa qui-
sieraservir es mayor que el nmero de participantes a los que el programa
se puede realmente dirigir en un determinado momento. Por ejemplo,
en un solo ao un programa educativo puede proporcionar materiales
escolares a500 escuelas de un total de 1.000 escuelas elegibles en el pas.
74 La evaluacin de impacto en la prctica

IEP.indb 74 1/6/17 1:48 PM


Ounprograma de mejora de caminos rurales puede tener el objetivo de
pavimentar 250 caminos rurales, aunque haya cientos de caminos ms
queel programa deseara mejorar. O un programa de empleo para jvenes
puede tener la meta de llegar a 2.000 jvenes desempleados en su primer
ao de funcionamiento, aunque haya decenas de miles de jvenes en dichas
circunstancias que el programa quisiera servir. Por diversos motivos, puede
que los programas no logren alcanzar al conjunto de la poblacin de inters.
Las limitaciones presupuestarias pueden impedir que los administradores
ofrezcan el programa a todas las unidades elegibles desde el comienzo.
Aunque haya presupuestos disponibles para cubrir un gran nmero de
participantes, las limitaciones de capacidad a veces impedirn que un pro-
grama pueda ser implementado para todos al mismo tiempo. Por ejemplo,
en el caso del programa de formacin profesional para jvenes, la cantidad
de jvenes desempleados que desean obtener una formacin profesional
puede ser superior al nmero de plazas disponibles en las escuelas tcnicas
durante el primer ao del programa, y eso puede restringir el nmero de
alumnos que pueden matricularse.
Cuando la poblacin de participantes elegibles es superior al nmero de
plazas disponibles en el programa, alguien debe tomar la decisin de quin
participar y quin no. En otras palabras, los administradores del programa
deben denir un mecanismo de seleccin para asignar los servicios del
mismo. El programa podra funcionar segn un principio de orden de
llegada, o basarse en caractersticas observables (por ejemplo, atendiendo
primero las zonas ms pobres); la seleccin tambin podra basarse en
caractersticas no observables (por ejemplo, dejar que los individuos se ins-
criban a partir de sus propias motivaciones y conocimientos), o se podra
recurrir a un sorteo. Incluso en contextos donde es posible clasicar a los
participantes potenciales en funcin de la necesidad, puede que convenga
asignar parte de los benecios mediante un sorteo. Por ejemplo, pinsese en
un programa que tiene como objetivo al 20% ms pobre de los hogares sobre
la base de una medida del ingreso. Si el ingreso solo se puede medir de forma
imperfecta, el programa podra usar esta medida para incluir a todos los
participantes potenciales que se identican como de extrema pobreza
(por ejemplo, el 15% inferior). Sin embargo, dado que el ingreso se mide de
manera imperfecta, los hogares que se encuentren justo por debajo del
umbral de elegibilidad en el percentil 20, en la realidad pueden ser elegi-
bles o no serlo (si se pudiera medir el verdadero ingreso), mientras que los
hogares que se hallen justo por encima del percentil 20 tambin pueden ser
elegibles o no. En este contexto, utilizar un sorteo para determinar qu
hogares seran beneciarios en torno al percentil 20 (por ejemplo, entre los
percentiles 15 y 25 de la distribucin del ingreso) podra ser una manera
justa de asignar los benecios en este grupo de hogares.
La asignacin aleatoria 75

IEP.indb 75 1/6/17 1:48 PM


Por qu la asignacin aleatoria produce una excelente
estimacin del contrafactual?

Como ya se ha visto, el grupo de comparacin ideal sera lo ms similar


posible al grupo de tratamiento en todos los sentidos, excepto con respecto
a su participacin en el programa que se evala. Cuando se asignan unida-
des de manera aleatoria a los grupos de tratamiento y de comparacin,
ese proceso de asignacin aleatoria producir dos grupos que tienen una
alta probabilidad de ser estadsticamente idnticos, siempre que el nmero
de unidades potenciales a las que se aplica el proceso de asignacin aleatoria
sea sucientemente grande. Concretamente, con un gran nmero de unida-
des el proceso de asignacin aleatoria producir grupos que tienen prome-
dios estadsticamente equivalentes en todas sus caractersticas.4
Concepto clave El grco 4.1 ilustra por qu la asignacin aleatoria produce un grupo
En la asignacin de comparacin estadsticamente equivalente al grupo de tratamiento.
aleatoria, cada unidad
Supngase que la poblacin de unidades elegibles (el conjunto de partici-
elegible tiene la
misma probabilidad de pantes potenciales, o la poblacin de inters para la evaluacin) consiste en
ser seleccionada para ms de 1.000 personas. Entonces, se asigna aleatoriamente la mitad al grupo
el tratamiento, de de tratamiento y la otra mitad al grupo de comparacin. Por ejemplo, se
modo que se asegura escriben los nombres de las 1.000 personas en trozos de papel individuales,
la equivalencia entre
se mezclan todos los trozos en una caja, y luego se le pide a alguien que
los grupos de
tratamiento y
extraiga a ciegas 500 nombres. Si los primeros 500 nombres constituyen el
comparacin tanto en grupo de tratamiento, entonces tendramos un grupo de tratamiento asig-
las caractersticas nado de forma aleatoria (los primeros 500 nmeros extrados) y un grupo
observables como en de comparacin asignado tambin de manera aleatoria (los 500 nombres
las no observables. que quedaron en la caja).
Ahora supngase que el 40% de las 1.000 personas originales eran mujeres.
Dado que los nombres se han asignado al azar, de los 500 nombres que

Grfico 4.1 Caractersticas de los grupos bajo tratamiento con


asignacin aleatoria

Poblacin de unidades elegibles

La asignacin aleatoria La asignacin aleatoria


conserva las caractersticas conserva las caractersticas

Grupo de tratamiento: Grupo de comparacin:


asignado al tratamiento no asignado al tratamiento

76 La evaluacin de impacto en la prctica

IEP.indb 76 1/6/17 1:48 PM


sesacaron de la caja, alrededor del 40% sern tambin mujeres. Si entre las
1.000 personas, el 20% tena los ojos azules, entonces casi el 20% de ellas en
los grupos de tratamiento y de comparacin tambin deberan tener los ojos
azules. En general, si la poblacin de unidades elegibles es lo sucientemente
grande, el mecanismo de asignacin aleatoria asegura que cualquier caracte-
rstica de la poblacin se transera tanto al grupo de tratamiento como al
grupo de comparacin. Del mismo modo que las caractersticas observables,
como el sexo o el color de los ojos de un individuo, se transeren tanto al
grupo de tratamiento como al de comparacin, es lgico pensar que las carac-
tersticas que son ms difciles de observar (variables no observables), como
la motivacin, las preferencias u otros rasgos de la personalidad que son
complejos de medir, tambin se aplicarn por igual al grupo de tratamiento y
al de comparacin. As, los grupos de tratamiento y comparacin generados
a travs de la asignacin aleatoria sern similares no solo en cuanto a sus
caractersticas observables sino tambin en relacin con las no observables.
Tener dos grupos similares en todos los aspectos asegura que la estimacin
del contrafactual se aproxime al valor verdadero del resultado en ausencia de
tratamiento, y que una vez que el programa se haya implementado, las esti-
maciones de impacto no sufrirn un sesgo de seleccin.
Cuando una evaluacin utiliza la asignacin aleatoria para generar los
grupos de tratamiento y de comparacin, en teora, el proceso debera pro-
ducir dos grupos equivalentes, siempre que se cuente con un nmero de
unidades lo sucientemente grande. Con los datos de lnea de base de la
muestra de evaluacin con la que se cuente, se podr comprobar emprica-
mente este supuesto y vericar que, de hecho, no hay diferencias sistem-
ticas en las caractersticas observables entre los grupos de tratamiento y
de comparacin antes del inicio del programa. Luego, si despus de lanzar
el programa se observan diferencias en los resultados entre los grupos de
tratamiento y comparacin, sabremos que esas diferencias se deben nica-
mente a la incidencia del programa, dado que los dos grupos eran idnticos
en la lnea de base, antes del inicio del programa, y que estn expuestos a
los mismos factores externos a lo largo del tiempo. En este sentido, el
grupo de comparacin contiene todos los factores que tambin pueden
explicar el resultado de inters.
Para estimar el impacto de un programa bajo la asignacin aleatoria, se
debe observar la diferencia entre el resultado bajo tratamiento (el resul-
tado medio del grupo de tratamiento asignado de forma aleatoria) y nues-
tra estimacin del contrafactual (el resultado medio del grupo de
comparacin asignado de manera aleatoria). As, podemos conar en que
nuestro impacto estimado constituye el verdadero impacto del programa,
puesto que se han eliminado todos los factores observados y no observados
que, de otra manera, podran explicar la diferencia en los resultados.
La asignacin aleatoria 77

IEP.indb 77 1/6/17 1:48 PM


Enlosrecuadros 4.2 a 4.6, se analizan las aplicaciones de la asignacin alea-
toria en el mundo real para evaluar el impacto de diversas intervenciones
en todo el mundo.
En el grco 4.1 se presupone que todas las unidades de la poblacin ele-
gible sern asignadas ya sea al grupo de tratamiento o al grupo de compara-
cin. Sin embargo, en algunos casos no es necesario incluir todas las unidades
en la evaluacin. Por ejemplo, si la poblacin de unidades elegibles es de
1milln de madres y se quiere evaluar la efectividad de los bonos en efectivo
en la probabilidad de que estas madres vacunen a sus hijos, bastar con
seleccionar una muestra aleatoria representativa de, por ejemplo, 1.000
madres y asignar a esas 1.000 madres ya sea al grupo de tratamiento o de
comparacin. El grco 4.2 ilustra este proceso. Segn la misma lgica que

Recuadro 4.2: La asignacin aleatoria como regla de seleccin de


un programa: las transferencias condicionadas y la educacin en
Mxico
El programa Progresa, actualmente primeros aos, y las otras 181 sirvieron como
denominado Prospera, proporciona grupo de comparacin antes de incorporarse
transferencias en efectivo a las madres al programa en el tercer ao.
pobres de zonas rurales de Mxico con la Sobre la base de la asignacin aleatoria,
condicin de que matriculen a sus hijos en la Schultz (2004) encontr un aumento
escuela y acudan regularmente a chequeos promedio de un 3,4% en la inscripcin de
de salud (vase el recuadro 1.1 en el captulo 1). todos los alumnos de primero a octavo
Las transferencias en efectivo para nios de grados, y el mayor incremento, de un 14,8%,a
entre tercero y noveno grado equivalen a se observ entre las nias que haban
alrededor del 50% al 75% del costo privado terminado sexto grado. El probable motivo
de la escolarizacin y estn garantizadas de este ltimo resultado es que la tasa de
durante tres aos. Las comunidades y nias que tienden a abandonar la escuela
los hogares elegibles para el programa se crece a medida que estas son mayores; por
determinaron sobre la base del ndice de ello, con el fin de que permanecieran en la
pobreza creado a partir de los datos del censo escuela despus de los cursos de primaria,
y de la recopilacin de datos bsicos. Debido las nias recibieron una transferencia
a la necesidad de desplegar en fases el ligeramente superior. Estos impactos de
programa social de gran escala, cerca de las corto plazo luego fueron extrapolados para
dos terceras partes de las localidades (314 predecir el impacto a ms largo plazo del
de 495) fueron asignadas aleatoriamente para programa Progresa en la escolarizacin y en
ser beneficiarias del programa en los dos los ingresos a lo largo de la vida.

Fuente: Schultz (2004).


a. Para ser precisos, Schultz combin la asignacin aleatoria con el mtodo de diferencias en diferencias que se
analiza en el captulo 7.

78 La evaluacin de impacto en la prctica

IEP.indb 78 1/6/17 1:48 PM


Recuadro 4.3: Asignacin aleatoria de donaciones para mejorar
las perspectivas de empleo juvenil en el norte de Uganda
En 2005 el gobierno de Uganda comenz un podan financiar. Despus de una seleccin,
programa destinado a disminuir el desempleo el gobierno elabor una lista de 535
juvenil y a promover la estabilidad social en propuestas elegibles para el programa.
el norte del pas, sacudido por conflictos. El Posteriormente, las propuestas fueron asig-
Programa de Oportunidades para los Jvenes nadas de manera aleatoria a grupos de trata-
invit a grupos de jvenes adultos a presentar miento (265 propuestas) o de comparacin
propuestas de ayuda para actividades (270 propuestas).
empresariales y formacin profesional. Se El monto de la ayuda en el grupo de trata-
presentaron miles de propuestas, pero el miento ascenda a un promedio de US$382
gobierno solo poda financiar unas cuantas por persona. Cuatro aos despus del desem-
centenas. bolso, los jvenes del grupo de tratamiento
Aprovechando la alta demanda del pro- tenan ms del doble de probabilidades de
grama, los evaluadores trabajaron con el trabajar en un oficio calificado que los jvenes
gobierno para asignar de forma aleatoria del grupo de comparacin. Tambin ganaban
cules seran los grupos que recibiran finan- un 38% ms y ostentaban un 57% ms de
ciamiento. El gobierno central pidi a los stock de capital. Sin embargo, los investigado-
gobiernos de los distritos que presentaran res no encontraron impacto alguno en la cohe-
ms del doble de propuestas de las que sin social ni en las conductas antisociales.

Fuente: Blattman, Fiala y Martnez (2014).

Recuadro 4.4: Asignacin aleatoria de intervenciones en abasteci-


miento de agua y saneamiento en zonas rurales de Bolivia
A partir de 2012, el gobierno boliviano, con para dar a cada comunidad elegible la misma
apoyo del Banco Interamericano de Desarrollo probabilidad de participar. Junto con los
(BID), implement una asignacin aleatoria de gobiernos municipales, los administradores
intervenciones en materia de abastecimiento del programa organizaron una serie de
de agua y saneamiento en pequeas eventos donde celebraron sorteos pblicos
comunidades rurales. En los 24 municipios ante la presencia de dirigentes comunitarios,
del pas con las mayores necesidades, el la prensa y la sociedad civil.
programa identific ms de 369 comunidades Primero, se dividieron las comunidades
elegibles para la intervencin. Dado que solo segn el tamao de la poblacin. Luego,
haba recursos para cubrir 182 comunidades, dentro de cada grupo, se obtuvieron al azar
el programa utiliz la asignacin aleatoria los nombres de las comunidades y se

Contina en la pgina siguiente.

La asignacin aleatoria 79

IEP.indb 79 1/6/17 1:48 PM


Recuadro 4.4: Asignacin aleatoria de intervenciones en abastecimiento de agua y saneamiento en
zonas rurales de Bolivia (contina)

registraron en una lista. Las comunidades misma lista ordenada de forma aleatoria
que quedaron al comienzo de la lista se para asignar un futuro financiamiento
asignaron al grupo de tratamiento. Cada despus de completar la evaluacin. De
concurso fue monitoreado por un notario esta manera, ninguna comunidad quedara
pblico independiente, que posteriormente marginada de la intervencin debido
registr y certific los resultados, lo que nicamente a los objetivos de la evaluacin,
concedi un nivel adicional de legitimidad al pero existira un grupo de comparacin
proceso. En el caso de las comunidades que mientras las limitaciones presupuestarias
quedaron fuera del programa, los gobiernos restringieran el nmero de proyectos en
municipales se comprometieron a utilizar la cada municipalidad.

Fuente: Proyecto Banco Interamericano de Desarrollo N BO-L1065, vase http://www.iadb.org/en/projects


/project-description-title,1303.html?id=BO-L1065.
Nota: Vase el sorteo pblico para asignaciones aleatorias en https://vimeo.com/86744573.

Recuadro 4.5: Asignacin aleatoria de proteccin del agua de


pozos para mejorar la salud en Kenia
El vnculo entre calidad del agua e impactos la contaminacin. A partir de 2005, la ONG
en la salud en los pases en desarrollo ha sido International Child Support (ICS), implement
bien documentado. Sin embargo, el valor un programa de proteccin de pozos en dos
sanitario de mejorar la infraestructura cerca distritos de Kenia occidental. Debido a limita-
de las fuentes de agua es menos evidente. ciones financieras y administrativas, ICS deci-
Kremer et al. (2011) midieron los efectos de di ampliar el programa a lo largo de cuatro
un programa que proporcionaba tecnologa aos. Esto les permiti a los evaluadores utili-
de proteccin de pozos para mejorar la zar los pozos que todava no haban recibido
calidad del agua en Kenia, asignando tratamiento como grupo de comparacin.
aleatoriamente los pozos receptores del De los 200 pozos elegibles, 100 fueron
tratamiento. asignados al azar para recibir el tratamiento en
Alrededor del 43% de los hogares de las los primeros dos aos. El estudio observ
zonas rurales de Kenia occidental obtienen que la proteccin de los pozos redujo la con-
el agua potable de pozos naturales. La taminacin fecal del agua en un 66% y la dia-
tecnologa de proteccin de fuentes de agua rrea infantil entre los usuarios de los pozos
asla la fuente de un pozo para disminuir en un 25%.

Fuente: Kremer et al. (2011).

80 La evaluacin de impacto en la prctica

IEP.indb 80 1/6/17 1:48 PM


Recuadro 4.6: Asignacin aleatoria e informacin a propsito de
los riesgos del VIH para reducir el embarazo adolescente en Kenia
En un experimento aleatorio que se realiz para que recibieran el primer tratamiento.
en Kenia occidental, Dupas (2011) prob la Despus, se asignaron de manera aleatoria
efectividad de dos diferentes tratamientos 71 escuelas al segundo tratamiento
de educacin sobre el VIH/Sida para reducir estratificando la muestra por su participacin
conductas sexuales no seguras entre los en el primer tratamiento. Esto produjo cuatro
adolescentes. El primer tratamiento consisti grupos de escuelas: las escuelas que reciban
en la formacin de profesores en el programa el primer tratamiento, las que reciban el
nacional de estudios sobre VIH/Sida, que se segundo, las que reciban ambos y las que no
centr en la aversin al riesgo y que promova reciban ninguno.
la abstinencia. El segundo tratamiento, la La asignacin aleatoria de las escuelas
Campaa de informacin sobre el riesgo garantizaba que no habra diferencias siste-
relativo, tena como objetivo reducir las mticas en la informacin a la que estaban
relaciones sexuales entre hombres mayores expuestos los alumnos antes de que comen-
y chicas jvenes proporcionando informacin zara el programa. Un ao despus de la ter-
sobre las tasas de VIH desagregadas por minacin del programa, Dupas observ que
edad y sexo. la campaa de informacin sobre el riesgo
El estudio se llev a cabo en dos distritos relativo produjo una disminucin del 28% en
rurales de Kenia, con una muestra de la probabilidad de que una joven quedara
328 escuelas primarias. Los investigadores embarazada. En cambio, las escuelas que
asignaron de forma aleatoria 163 escuelas solo haban sido destinatarias del primer
estratificadas por localidad, puntuacin de tratamiento no mostraron efecto alguno en
las pruebas y proporcin alumnos/sexo, el embarazo adolescente.

Fuente: Dupas (2011).

Grfico 4.2 Muestra aleatoria y asignacin aleatoria de tratamiento

Poblacin de unidades elegibles

Validez
La seleccin aleatoria
externa
conserva las caractersticas

Muestra de evaluacin

La asignacin aleatoria La asignacin aleatoria


conserva las caractersticas conserva las caractersticas
Validez
interna
Grupo de tratamiento: Grupo de comparacin:
asignado al tratamiento no asignado al tratamiento

La asignacin aleatoria 81

IEP.indb 81 1/6/17 1:48 PM


se detall ms arriba, la seleccin de una muestra aleatoria de la poblacin
de unidades elegibles para formar la muestra de evaluacin conserva las
caractersticas de la poblacin de las unidades elegibles. Dentro de la mues-
tra, la asignacin aleatoria de individuos a los grupos de tratamiento y
comparacin tambin conserva dichas caractersticas. En el captulo 15 se
abordarn otros aspectos del muestreo.

Validez externa e interna

Los pasos de la seleccin aleatoria del tratamiento, que ya se han detallado,


aseguran tanto la validez interna como externa de las evaluaciones de
impacto (grco 4.2).
Validez interna signica que el impacto estimado del programa es el
impacto libre de todos los dems factores de confusin potenciales (o, en
otras palabras, que el grupo de comparacin represente una estimacin
precisa del contrafactual de modo que se estime el verdadero impacto del
programa). Hay que recordar que la asignacin aleatoria produce un grupo
de comparacin que es estadsticamente equivalente al grupo de trata-
Concepto clave miento en la lnea de base, antes de que empiece el programa. Una vez que
Una evaluacin tiene el programa comienza, el grupo de comparacin est expuesto al mismo
validez interna si conjunto de factores externos que el grupo de tratamiento a lo largo del
proporciona una tiempo, con la nica excepcin del propio programa. Por lo tanto, si aparece
estimacin precisa del cualquier diferencia en los resultados entre los grupos de tratamiento y
contrafactual mediante de comparacin, solo puede deberse a la existencia del programa en el
un grupo de
comparacin vlido.
grupo de tratamiento. La validez interna de una evaluacin de impacto se
asegura a travs del proceso de asignacin aleatoria del tratamiento.
Validez externa quiere decir que la muestra de la evaluacin representa
Concepto clave con precisin a la poblacin de unidades elegibles. Los resultados de la eva-
Una evaluacin tiene luacin se pueden entonces generalizar a la poblacin de unidades elegibles.
validez externa si la Se utiliza el muestreo aleatorio para asegurar que la muestra de la evaluacin
muestra de evaluacin
representa con
reeje adecuadamente la poblacin de unidades elegibles, de modo que los
precisin a la impactos identicados en la muestra de la evaluacin pueden extrapolarse a
poblacin de unidades la poblacin.
elegibles. Los Ntese que se ha realizado un proceso de seleccin aleatoria con dos
resultados pueden objetivos diferentes: seleccin aleatoria de una muestra (para la validez
luego generalizarse al
externa), y asignacin aleatoria del tratamiento como mtodo de evaluacin
conjunto de la
poblacin de unidades de impacto (para la validez interna). Una evaluacin de impacto puede pro-
elegibles. ducir estimaciones internamente vlidas del impacto mediante una asigna-
cin aleatoria del tratamiento; sin embargo, si la evaluacin se lleva a cabo
con una muestra no aleatoria de la poblacin, puede que los impactos esti-
mados no sean generalizables para el conjunto de unidades elegibles.
Alcontrario, si la evaluacin utiliza una muestra aleatoria de la poblacin de
82 La evaluacin de impacto en la prctica

IEP.indb 82 1/6/17 1:48 PM


unidades elegibles, pero el tratamiento no se asigna de manera aleatoria, la
muestra sera representativa pero el grupo de comparacin puede no ser
vlido, lo cual pone en entredicho la validez interna. En algunos contextos,
puede que los programas se enfrenten a limitaciones que exigen un equilibrio
entre validez interna y externa. Este es el caso, por ejemplo, del programa
analizado anteriormente, que tiene como objetivo el 20% inferior de los
hogares sobre la base del ingreso. Si este programa incorpora a todos los
hogares por debajo del percentil 15, pero lleva a cabo una evaluacin de
impacto de asignacin aleatoria entre una muestra aleatoria de hogares
entre los percentiles 15 a 25, dicha evaluacin tendr validez interna gra-
cias a la asignacin aleatoria: es decir, se conocer el verdadero impacto en
el subconjunto de hogares entre los percentiles 15 y 25. Sin embargo, la
validez externa de la evaluacin de impacto ser limitada, dado que los
resultados no pueden extrapolarse directamente al conjunto de la poblacin
de beneciarios, en particular, a los hogares que se encuentren por debajo
del percentil 15.

Cundo puede aplicarse la asignacin aleatoria?

La asignacin aleatoria puede utilizarse como regla de asignacin de un


programa en dos escenarios especcos:
1. Cuando la poblacin elegible es mayor que el nmero de plazas disponibles
del programa. Cuando la demanda de un programa supera a la oferta, se
puede utilizar un sorteo para seleccionar el grupo de tratamiento dentro
de la poblacin elegible. En este contexto, todas las unidades de la pobla-
cin tienen la misma probabilidad (o una probabilidad conocida superior
a 0 e inferior a 1) de ser seleccionadas para el programa. El grupo que
gana el sorteo es el grupo de tratamiento y el resto de la poblacin a la
queno se ha ofrecido el programa es el grupo de comparacin. Siempre
que exista una limitacin que impida ampliar la escala del programa a
toda la poblacin, se pueden mantener los grupos de comparacin para
medir los impactos del programa a corto, mediano y largo plazo. En este
contexto, no hay un dilema tico en mantener indenidamente un grupo
de comparacin, ya que un subgrupo de la poblacin quedar necesaria-
mente excluido del programa debido a problemas de capacidad.
Por ejemplo, el ministerio de Educacin desea equipar con bibliotecas a
las escuelas pblicas de todo el pas, pero el ministerio de Finanzas solo
asigna un presupuesto suciente para cubrir una tercera parte de
lasbibliotecas. Si el ministerio de Educacin quiere que todas las escue-
las pblicas tengan las mismas posibilidades de tener una biblioteca,
organizar un sorteo en el que cada escuela tenga la misma probabilidad
La asignacin aleatoria 83

IEP.indb 83 1/6/17 1:48 PM


(1 en 3) de resultar seleccionada. Las escuelas elegidas en el sorteo
reciben una nueva biblioteca y constituyen el grupo de tratamiento, y a
los otros dos tercios de las escuelas pblicas del pas no se les ofrece la
biblioteca y se convierten en el grupo de comparacin. A menos que se
asignen ms fondos al programa de bibliotecas, seguir habiendo un
grupo de escuelas que no recibir nanciamiento para una biblioteca a
travs del programa, y podr usarse como grupo de comparacin para
medir el contrafactual.
2. Cuando sea necesario ampliar un programa de manera progresiva hasta que
cubra a toda la poblacin elegible. Cuando un programa se extiende por
etapas, establecer de forma aleatoria el orden en el que los participantes se
benecian del mismo ofrece a cada unidad elegible la misma posibilidad
de recibir tratamiento en la primera fase o en una fase posterior. Siempre
que no se haya sumado todava el ltimo grupo al programa, este sirve
como grupo de comparacin vlido a partir del cual se podr estimar el
contrafactual para los que ya se han incorporado. Esta conguracin tam-
bin puede permitir que la evaluacin recoja los efectos de una exposicin
diferencial al tratamiento, es decir, el efecto de recibir un programa durante
un perodo ms o menos prolongado.
Por ejemplo, supngase que el ministro de Salud quiere capacitar a los
15.000 profesionales de enfermera de todo el pas en el uso de un nuevo
protocolo sanitario, pero necesita tres aos para capacitarlos a todos. En el
contexto de una evaluacin de impacto, el ministro podra seleccionar de
manera aleatoria a un tercio de las enfermeras para que reciban capacita-
cin durante el primer ao, un tercio para el segundo ao y un tercio para
el tercer ao. Para evaluar el efecto de un programa de capacitacin un
ao despus de su implementacin, el grupo de enfermeras capacitadas
durante el primer ao constituir el grupo de tratamiento y el grupo de
enfermeras seleccionadas de modo aleatorio para recibir capacitacin
durante el tercer ao sera el grupo de comparacin, ya que todava no se
habrn expuesto al aprendizaje.

Cmo asignar aleatoriamente el tratamiento

Despus de haber analizado cmo funciona la asignacin aleatoria y por qu


produce un buen grupo de comparacin, se abordarn los pasos para asignar
con xito el tratamiento de manera aleatoria. El grco 4.3 ilustra este
proceso.
El primer paso de la asignacin aleatoria consiste en denir las unidades
elegibles para el programa. Cabe recordar que, dependiendo del programa
concreto, una unidad podra ser una persona, un centro de salud, una
84 La evaluacin de impacto en la prctica

IEP.indb 84 1/6/17 1:48 PM


Grfico 4.3 Pasos para la asignacin aleatoria del tratamiento

1. Definir las unidades 2. Seleccionar la muestra 3. Asignar aleatoriamente al


elegibles de evaluacin tratamiento
Comparacin

Tratamiento

Validez externa Validez interna

No elegible Elegible

escuela, una empresa o incluso todo un pueblo o una municipalidad. La


poblacin de unidades elegibles est compuesta por aquellos para los cuales
interesa conocer el impacto de un programa. Por ejemplo, si se est imple-
mentando un programa de formacin para los maestros de escuela primaria
en zonas rurales, los maestros de escuela primaria de zonas urbanas o los
profesores de secundaria no formaran parte del conjunto de unidades
elegibles.
Una vez que se ha determinado la poblacin de unidades elegibles, habr
que comparar el tamao del grupo con el nmero de observaciones requeri-
das para la evaluacin. El tamao de la muestra de la evaluacin se establece
mediante clculos de la potencia y se basa en el tipo de preguntas a las que el
evaluador deseara que se respondiera (ver captulo 15). Si la poblacin elegi-
ble es pequea, quizs haya que incluir todas las unidades elegibles en la eva-
luacin. Por el contrario, si hay ms unidades elegibles de las que se requiere
para la evaluacin, entonces el segundo paso consiste en seleccionar una
muestra de unidades a partir de la poblacin que se incluir en la muestra
deevaluacin.
Este segundo paso responde sobre todo a la necesidad de limitar los
costos de la recopilacin de datos. Si se observa que los datos de los sistemas
La asignacin aleatoria 85

IEP.indb 85 1/6/17 1:48 PM


de monitoreo existentes se pueden usar para la evaluacin, y que esos
sistemas abarcan al conjunto de unidades elegibles, tal vez no sea necesario
elaborar una muestra distinta de la evaluacin. Sin embargo, imagnese una
evaluacin en la que la poblacin de unidades elegibles comprende decenas
de miles de maestros de todas las escuelas del pas, y que se necesita recopilar
informacin detallada sobre los conocimientos y las prcticas pedaggicas
de los maestros. Entrevistar y evaluar a todos los docentes del pas sera pro-
hibitivamente oneroso e inviable en trminos logsticos. A partir de los cl-
culos de potencia, puede que el evaluador decida que, para responder a su
pregunta de inters, es suciente contar con una muestra de 1.000 maestros
distribuidos en 200 escuelas. Siempre que la muestra de docentes sea repre-
sentativa del conjunto de la poblacin de maestros, cualquier resultado de la
evaluacin ser externamente vlido y se puede generalizar al resto de los
docentes del pas. La recopilacin de datos sobre esta muestra de 1.000
maestros en 200 escuelas ser mucho menos costosa que recolectar datos
sobre todos los docentes de todas las escuelas del pas.
El tercer paso consiste en congurar los grupos de tratamiento y de
comparacin a partir de las unidades de la muestra de la evaluacin, mediante
la asignacin aleatoria. En los casos en que la asignacin aleatoria tenga que
llevarse a cabo en un foro pblico, por ejemplo en la televisin, puede que sea
necesario utilizar una tcnica sencilla, como lanzar una moneda a la suerte
o sacar los nombres de una caja. Los siguientes ejemplos suponen que la
unidad de aleatorizacin es una persona individual, aunque la misma lgica
se aplica a la aleatorizacin de ms unidades agregadas de observacin,
como escuelas, rmas o comunidades:

1. Si se quiere asignar el 50% de los individuos al grupo de tratamiento y


50% al grupo de comparacin, hay que lanzar la moneda para cada per-
sona. Hay que decidir con antelacin cul cara de la moneda asignar una
persona al grupo de tratamiento.
2. Si se quiere asignar una tercera parte de la muestra de la evaluacin al
grupo de tratamiento, se puede tirar un dado para cada persona. Antes, hay
que decidir una regla, por ejemplo, si el dado muestra 1 o 2, el individuo
ser asignado al grupo de tratamiento, mientras que si arroja un 3, 4, 5 o 6
el individuo ser derivado al grupo de comparacin. El dado se tirara una
vez para cada persona en la muestra de evaluacin, y se la asignara sobre
la base del nmero del dado.
3. Escribir los nombres de todos los individuos en trozos de papel de igual
tamao y forma. Plegar los papeles de modo que no se puedan leer los
nombres y mezclarlos de manera conveniente en una caja o en algn otro
recipiente. Antes de empezar a sacar los nombres, debe decidirse la regla,

86 La evaluacin de impacto en la prctica

IEP.indb 86 1/6/17 1:48 PM


es decir, cuntos trozos de papel se extraern, y que extraer un nombre
signica asignar a esa persona al grupo de tratamiento. Una vez que la
regla est clara, se debe solicitar a alguien del pblico (una persona
imparcial, como un nio) que extraiga tantos trozos de papel como parti-
cipantes se requiera en el grupo de tratamiento.
Si tienen que asignarse muchas unidades (por ejemplo, ms de 100), utilizar
enfoques sencillos como los descritos requerir demasiado tiempo y habr
que utilizar un proceso automatizado. Para ello, primero habr que decidir
una regla de modo que se asignen los participantes sobre la base de nme-
ros aleatorios. Por ejemplo, si se deben asignar 40 de 100 unidades dela
muestra de evaluacin al grupo de tratamiento, puede decidirse asignar
esas 40 unidades con los nmeros aleatorios ms altos al grupo detrata-
miento y el resto al grupo de comparacin. Para implementar la asignacin
aleatoria, se asignar un nmero al azar a cada unidad en la muestra de
evaluacin, utilizando un generador aleatorio de nmeros en una hoja de
clculo, o en un programa estadstico especializado (grco 4.4), y se utili-
zar la regla ya denida para formar los grupos de tratamiento y compara-
cin. Esimportante decidir la regla antes de generar los nmeros al azar.

Grfico 4.4 Asignacin aleatoria del tratamiento mediante hoja de clculo

La asignacin aleatoria 87

IEP.indb 87 1/6/17 1:48 PM


Deotramanera, puede que el evaluador se vea tentado de usar una regla
basada en los nmeros aleatorios que ve, lo que invalidara la asignacin
aleatoria.
La lgica en que se fundamenta el proceso automatizado no es diferente
de la asignacin aleatoria basada en lanzar una moneda o extraer nombres
de un sombrero. Se trata de un mecanismo que asigna al azar si cada unidad
pertenece al grupo de tratamiento o de comparacin.
Al utilizar un sorteo pblico, dados o nmeros al azar generados por
computador, es importante documentar el proceso para asegurar que sea
transparente. En primer lugar, eso signica que la regla de asignacin debe
decidirse con antelacin y comunicarse al pblico. En segundo lugar, el eva-
luador debe ceirse a la regla una vez que se extraen los nmeros al azar. En
tercer lugar, debe demostrarse que el proceso era realmente aleatorio. En el
caso de los sorteos y el lanzamiento de dados, se puede grabar el proceso en
video; la asignacin mediante nmeros al azar generados por computador
requiere que se presente un registro de los cmputos, de modo que el pro-
ceso pueda ser auditado.5

A qu nivel se lleva a cabo una asignacin aleatoria?

La asignacin aleatoria puede llevarse a cabo en diversos niveles: indivi-


dual, hogares, empresas, comunidades o regiones. En general, el nivel en el
que se asignan aleatoriamente las unidades a los grupos de tratamiento y de
comparacin depender en gran medida de dnde y cmo se implemente el
programa. Por ejemplo, si se aplica un programa sanitario a nivel de las
clnicas de salud, primero se elegir una muestra aleatoria de dichas clnicas
y despus se asignar algunas de ellas al grupo de tratamiento y otras al
grupo de comparacin.
Cuando el nivel de asignacin aleatoria es superior o ms agregado, como
el nivel regional o provincial, puede resultar difcil realizar una evaluacin
de impacto, porque el nmero de regiones o provincias en la mayora de los
pases no es sucientemente grande para obtener grupos equilibrados de
tratamiento y de comparacin. Si un pas tiene nicamente seis provincias,
solo podr haber tres de ellas en el grupo de tratamiento y tres en el grupo
de comparacin, lo cual es insuciente para asegurar que las caractersticas
de referencia de los grupos de tratamiento y comparacin estn equilibra-
das. Adems, para que la asignacin aleatoria genere estimaciones de
impacto no sesgadas, es importante garantizar que los factores externos
dependientes del tiempo (como el clima o los ciclos de las elecciones locales)
sean en promedio los mismos en los grupos de comparacin y de trata-
miento. A medida que el nivel de asignacin aumenta, se vuelve cada vez
ms improbable que estos factores estn equilibrados entre ambos grupos.
88 La evaluacin de impacto en la prctica

IEP.indb 88 1/6/17 1:48 PM


Por ejemplo, la lluvia es un factor externo dependiente del tiempo porque
vara sistemticamente de un ao al siguiente. En una evaluacin del sector
agrcola, convendra asegurarse de que las sequas afecten por igual a las
provincias que se encuentran en el grupo de tratamiento y en el de compa-
racin. Con solo tres provincias en los grupos de tratamiento y comparacin,
este equilibrio podra perderse con facilidad. Por otro lado, si se rebajara la
unidad de seleccin al nivel subprovincial, como una municipalidad, es ms
probable que la lluvia est equilibrada entre los grupos de tratamiento y
comparacin a lo largo del tiempo.
Asimismo, a medida que el nivel de la asignacin aleatoria disminuye
por ejemplo, a nivel individual o del hogar aumentan las probabilidades
deque el grupo de comparacin se vea afectado de forma involuntaria por
el programa. Hay dos tipos particulares de riesgos que se deben tener en
cuenta cuando se escoge el nivel de asignacin, a saber: los efectos de
derrame y el cumplimiento imperfecto. El efecto de derrame se produce
cuando el grupo de tratamiento inuye de forma directa o indirecta en los
resultados del grupo de comparacin (o viceversa). Por su parte, el cumpli-
miento imperfecto tiene lugar cuando algunos miembros del grupo de
comparacin participan en el programa o algunos miembros del grupo
detratamiento no lo hacen (vase un anlisis ms detallado de estos con-
ceptos en el captulo 9).
Tener en cuenta el nivel de asignacin aleatoria de manera rigurosa
puede minimizar el riesgo de derrame y de cumplimiento imperfecto. Las
personas pueden asignarse a grupos o agrupaciones, como los alumnos de
una escuela o los hogares en una comunidad, para minimizar los ujos de
informacin y los contactos entre individuos en los grupos de tratamiento
y comparacin. Para reducir la contaminacin, el nivel de asignacin
tambin debera escogerse segn la capacidad del programa para mantener
una clara diferencia entre grupos de tratamiento y comparacin a lo largo
de la intervencin. Si el programa comprende actividades a nivel comuni-
tario, puede que sea difcil evitar exponer a todos los individuos de esa
comunidad al programa.
Un ejemplo bien conocido de efecto de derrame es la administracin de
medicamentos antiparasitarios a los nios. Si en el grupo de tratamiento
hay hogares situados cerca de un hogar del grupo de comparacin, los
nios de los hogares de comparacin pueden verse afectados positivamente
por un efecto de derrame del grupo de tratamiento, porque se reducirn sus
probabilidades de contraer parsitos procedentes de sus vecinos (Kremer y
Miguel, 2004). Para aislar el impacto del programa, los hogares de trata-
miento y comparacin deben estar situados sucientemente lejos unos de
otros de modo de evitar ese tipo de derrames. Sin embargo, a medida que la
distancia entre los hogares aumente, se volver ms oneroso implementar
La asignacin aleatoria 89

IEP.indb 89 1/6/17 1:48 PM


el programa y, a la vez, administrar las encuestas. Como regla general, si se
pueden descartar los efectos de derrame de forma razonable, es preferible
llevar a cabo una asignacin aleatoria del tratamiento en el nivel ms
bajo posible de implementacin del programa, lo cual garantizar que el
nmero de unidades de los grupos de tratamiento y comparacin sea el
mayor posible.

La estimacin del impacto bajo asignacin aleatoria

Una vez que se haya seleccionado una muestra de evaluacin aleatoria y


asignado el tratamiento de manera aleatoria, es bastante sencillo estimar el
impacto del programa. Despus de que el programa ha funcionado durante
un tiempo, tendrn que medirse los resultados de las unidades de trata-
miento y de comparacin. El impacto del programa es sencillamente la dife-
rencia entre el resultado promedio (Y) para el grupo de tratamiento y
elresultado promedio (Y) para el grupo de comparacin. Por ejemplo, en
el caso genrico que se presenta en el grco 4.5, el resultado promedio
del grupo de tratamiento es 100, y el resultado promedio del grupo de
comparacin es 80, por lo que el impacto del programa equivale a 20. Por
ahora, se supondr que todas las unidades en el grupo de tratamiento son
efectivamente tratadas y que ninguna unidad del grupo de comparacin es
tratada. En el ejemplo del programa de formacin de los profesores, todos
los profesores asignados al grupo de tratamiento reciben la formacin y nin-
guno de los profesores del grupo de comparacin la recibe. En el captulo 5,
se analiza el escenario (ms realista) donde el cumplimiento es incompleto,
es decir, donde menos del 100% de las unidades en el grupo de tratamiento
realmente participa en la intervencin o algunas unidades decomparacin
tienen acceso al programa. En este caso, todava se puede obtener una esti-
macin no sesgada del impacto del programa mediante la asignacin aleato-
ria, aunque la interpretacin de los resultados variar.

Grfico 4.5 Estimacin del impacto con la asignacin aleatoria

Tratamiento Comparacin Impacto


Media (Y ) para el grupo Media (Y ) para el grupo
Impacto = Y = 20
de tratamiento = 100 de comparacin = 80
Se inscribe
si y solo si
est
asignado
al grupo de
tratamiento

90 La evaluacin de impacto en la prctica

IEP.indb 90 1/6/17 1:48 PM


Lista de verificacin: la asignacin aleatoria

La asignacin aleatoria es el mtodo ms robusto para estimar los contrafac-


tuales; se considera el sello de oro de la evaluacin de impacto. Para estimar
la validez de esta estrategia de evaluacin en un determinado contexto,
deberan contemplarse algunas pruebas bsicas.
Estn equilibradas las caractersticas de la lnea de base? Deben com-
pararse las caractersticas de lnea de base del grupo de tratamiento y
del grupo de comparacin.6
Se ha producido algn incumplimiento con la asignacin? Se debe veri-
car si todas las unidades elegibles han recibido tratamiento y que no
haya unidades no elegibles que hayan recibido tratamiento. Si ha habido
incumplimiento, tendr que utilizarse el mtodo de variable instrumen-
tal (vase el captulo 5).
Son sucientemente numerosas las unidades en los grupos de trata-
miento y comparacin? Si no, sera necesario combinar la asignacin
aleatoria con diferencias en diferencias (vase el captulo 7).
Hay algn motivo para creer que los resultados en algunas unidades de
alguna manera dependen de la asignacin de otras unidades? Podra
haber un impacto del tratamiento en las unidades del grupo de compara-
cin? (vase el captulo 9).

Evaluacin del impacto del HISP con la asignacin


aleatoria

Volvamos al ejemplo del Programa de Subsidios de Seguros de Salud


(HISP, por sus siglas en ingls, Health Insurance Subsidy Program) y veri-
quemos qu signica asignacin aleatoria en este contexto. Recurdese
que se intenta estimar el impacto de un programa a partir de una prueba
piloto que comprende 100 pueblos de tratamiento.
Despus de llevar a cabo dos evaluaciones de impacto utilizando
estimaciones potencialmente sesgadas del contrafactual en el
captulo3 (con recomendaciones de polticas contradictorias), usted
decide volver a repensar cmo obtener una estimacin ms precisa del
contrafactual. Despus de consultar con su equipo de evaluacin, est
convencido de que construir una estimacin vlida del contrafactual

La asignacin aleatoria 91

IEP.indb 91 1/6/17 1:48 PM


requerir identicar un grupo de pueblos que sean lo ms parecidos
posible a los 100 pueblos del tratamiento en todos los sentidos, con la
excepcin de que un grupo particip en el HISP y el otro no. Dado que
el HISP se implement como plan piloto, y que los 100 pueblos de
tratamiento fueron seleccionados de forma aleatoria entre los pueblos
rurales en todo el pas, usted observa que los pueblos del tratamiento
deberan, en promedio, tener las mismas caractersticas que los pue-
blos rurales no tratados en todo el pas. Por lo tanto, se puede estimar
el contrafactual de una manera vlida, midiendo los gastos en salud de
los hogares elegibles en los pueblos rurales que no participaron del
programa.
Afortunadamente, en el momento de las encuestas de lnea de base y
de seguimiento, se recopilaron datos de otros 100 pueblos rurales a los
que no se ofreci el programa. Esos 100 pueblos tambin fueron selec-
cionados de manera aleatoria entre la poblacin de los pueblos rurales
en el pas. Por lo tanto, la manera en que fueron escogidos los dos gru-
pos de pueblos garantiza que tienen caractersticas estadsticamente
idnticas, excepto que los 100 pueblos de tratamiento se inscribieron
en el HISP y los 100 pueblos del grupo de comparacin no fueron
destinatarios del programa. Se ha producido una asignacin aleatoria
del tratamiento.
Dada la asignacin aleatoria del tratamiento, usted confa en que
ningn factor externo, excepto el HISP, explicara las diferencias en los
resultados entre los pueblos de tratamiento y de comparacin. Para
validar este supuesto, usted comprueba si los hogares elegibles en los
pueblos de tratamiento y comparacin tienen caractersticas similares
en la lnea de base, como se muestra en el cuadro 4.1.
Usted observa que las caractersticas promedio de los hogares en los
pueblos de tratamiento y de comparacin son, de hecho, muy similares.
Las nicas diferencias estadsticamente signicativas son las relativas
al nmero de aos de escolarizacin del jefe de hogar y la distancia
al hospital, y esas diferencias son pequeas (solo 0,16 aos, o menos
del6% de los aos de escolarizacin promedio del grupo de compara-
cin, y 2,91 km, o menos del 3% de la distancia promedio al hospital del
grupo de comparacin). Incluso con un experimento aleatorio en una
muestra grande, se puede esperar un pequeo nmero de diferencias
debido al azar y a las propiedades del test estadstico. De hecho, al
utilizar niveles de signicancia estndar del 5%, poda esperarse que
alrededor del 5% de las diferencias en las caractersticas sean estadsti-
camente signicativas, aunque no se esperara que la magnitud de estas
diferencias fuese grande.

92 La evaluacin de impacto en la prctica

IEP.indb 92 1/6/17 1:48 PM


Cuadro 4.1 Evaluacin del HISP: balance entre los pueblos de tratamiento
y de comparacin en la lnea de base

Pueblos de Pueblos de
Caractersticas tratamiento comparacin
de los hogares (N = 2964) (N = 2664) Diferencia t-estadstico
Gasto en salud
(dlares de
EE.UU. anuales
per cpita) 14,49 14,57 0,08 0,73
Edad del jefe
de hogar (aos) 41,66 42,29 0,64 1,69
Edad del
cnyuge (aos) 36,84 36,88 0,04 0,12
Nivel de
estudios del
jefe de hogar
(aos) 2,97 2,81 0,16* 2,30
Nivel de
estudios del
cnyuge (aos) 2,70 2,67 0,03 0,43
Jefe de hogar
es mujer = 1 0,07 0,08 0,01 0,58
Jefe de hogar
es indgena = 1 0,43 0,42 0,01 0,69
Nmero de
miembros del
hogar 5,77 5,71 0,06 1,12
Tiene suelo de
tierra 0,72 0,73 0,01 1,09
Tiene bao = 1 0,57 0,56 0,01 1,04
Hectreas de
terreno 1,68 1,72 0,04 0,57
Distancia a un
hospital (km) 109,20 106,29 2,91 2,57

** Significativo al nivel del 1%.

Con la validez del grupo de comparacin ya establecida, ahora


sepuede estimar el contrafactual como los gastos promedio en salud
de los hogares elegibles en los 100 pueblos del grupo de comparacin.
El cuadro 4.2 muestra los gastos promedio en salud de los hogares
elegibles en los pueblos de los grupos de tratamiento y de compara-
cin. Ntese que en la lnea de base los gastos promedio en salud de los

La asignacin aleatoria 93

IEP.indb 93 1/6/17 1:48 PM


Cuadro 4.2 Evaluacin del HISP segn la asignacin aleatoria
(comparacin de medias)

Tratamiento Comparacin Diferencia t-estadstico


Lnea de base:
gasto en salud
de los hogares
(en dlares de
EE.UU.) 14,49 14,57 0,08 0,73
Encuesta de
seguimiento:
gasto en salud
de los hogares
(en dlares de
EE.UU.) 7,84 17,98 10,14** 49,15

** Significativo al nivel del 1%.

hogares de los grupos de tratamiento y comparacin no son estadsti-


camente diferentes, como debera esperarse con una asignacin
aleatoria.
Ahora que se cuenta con un grupo de comparacin vlido, se puede
encontrar el impacto del HISP sencillamente calculando la diferencia
entre los gastos directos promedio en salud de los hogares en los pueblos
de tratamiento y de comparacin asignados de forma aleatoria en el
perodo de seguimiento. El impacto es una reduccin de US$10,14 a lo
largo de dos aos. Replicar este resultado mediante un anlisis de regre-
sin lineal arroja el mismo resultado, como se observa en el cuadro 4.3.
Por ltimo, mediante un anlisis de regresin multivariante que controla
por otras caractersticas observables de los hogares de la muestra, se
observa que el programa ha reducido los gastos de los hogares inscritos
en US$10,01, a lo largo de dos aos, lo cual es casi idntico al resultado de
la regresin lineal.
Con la asignacin aleatoria, podemos estar seguros de que no hay
factores que sean sistemticamente diferentes entre los grupos de trata-
miento y comparacin que tambin puedan explicar la diferencia en
gastos en salud. Ambos conjuntos de pueblos comenzaron con caracters-
ticas promedio muy similares y han estado expuestos al mismo conjunto
de polticas y programas nacionales durante los dos aos de tratamiento.
Por lo tanto, el nico motivo plausible por el que los hogares pobres en las
comunidades de tratamiento tienen gastos inferiores a los de los hogares

94 La evaluacin de impacto en la prctica

IEP.indb 94 1/6/17 1:48 PM


en los pueblos de comparacin es que el primer grupo fue destinatario
del programa de seguro de salud y el otro grupo no lo fue.

Cuadro 4.3 Evaluacin del HISP segn la asignacin aleatoria


(anlisis de regresin)

Regresin
Regresin lineal lineal multivariante
Impacto estimado sobre
el gasto en salud de los 10,14** 10,01**
hogares (0,39) (0,34)

Nota: Los errores estndares estn entre parntesis.


** Significativo al nivel del 1%.

Pregunta HISP 3

A. Por qu la estimacin de impacto obtenida mediante una regresin


lineal multivariante se mantiene bsicamente constante cuando se
controla por otros factores, al cotejarse con la regresin lineal simple
y la comparacin de medias?
B. Sobre la base del impacto estimado con el mtodo de asignacin alea-
toria, debera ampliarse el HISP a nivel nacional?

Recursos adicionales

Para material de apoyo para este captulo e hipervnculos de recursos


adicionales, se recomienda consultar el sitio web de la Evaluacin de
Impacto en la Prctica (http://www.worldbank.org/ieinpractice).
Para ms recursos sobre las evaluaciones de impacto con asigna-
cin aleatoria, vase el portal de evaluacin del BID (www.iadb
.org/portalevaluacion).
Para un resumen completo de las evaluaciones de impacto con asigna-
cin aleatoria, vase el siguiente libro y el sitio web correspondiente:
R. Glennerster y K. Takavarasha (2013), Running Randomized Evaluations:
A Practical Guide. Princeton, NJ: Princeton University Press (http://
runningres.com/).

La asignacin aleatoria 95

IEP.indb 95 1/6/17 1:48 PM


Para un debate en profundidad sobre cmo encontrar el equilibrio entre
grupos de tratamiento y de comparacin mediante la asignacin aleato-
ria, vase:
M. Bruhn y D. McKenzie (2009), In Pursuit of Balance: Randomization in
Practice in Development Field Experiments. American Economic Journal:
Applied Economics 1(4): 20032.

Para un ejemplo de asignacin aleatoria pblica para una evaluacin en


Camern, vase el World Bank Impact Evaluation Toolkit, Mdulo 3
(www.worldbank.org/health/impactevaluationtoolkit).

Notas

1. La asignacin aleatoria del tratamiento tambin suele denominarse ensayo


aleatorio controlado, evaluaciones aleatorias, evaluaciones experimentales y
experimentos sociales, entre otras denominaciones. Estrictamente hablando, un
experimento no tiene que identicar impactos mediante asignaciones aleatorias,
pero los evaluadores suelen utilizar el trmino experimento solo cuando la
evaluacin recurre a la asignacin aleatoria.
2. Ntese que esta probabilidad no necesariamente signica una probabilidad del
50% de ganar el sorteo. En la prctica, la mayora de las evaluaciones con
asignacin aleatoria darn a cada unidad elegible una probabilidad de seleccin
determinada, de manera que el nmero de ganadores (tratamientos) sea igual al
total de benecios disponibles. Por ejemplo, si un programa tiene sucientes
fondos para servir solo a 1.000 comunidades de una poblacin de 10.000
comunidades elegibles, cada comunidad tendr una probabilidad de una entre
10 de ser seleccionada para el tratamiento. La potencia estadstica (un concepto
analizado ms en detalle en el captulo 15) se maximizar cuando la muestra de
evaluacin se divida por igual entre los grupos de tratamiento y comparacin.
En el ejemplo de este caso, para un tamao total de la muestra de 2.000
comunidades, la potencia estadstica se maximizar si se seleccionan las
1.000comunidades de tratamiento y una submuestra de 1.000 comunidades
decomparacin, en lugar de tomar una muestra aleatoria simple del 20% de las
10.000 comunidades originales elegibles (lo que producira una muestra de
evaluacin de alrededor de 200 comunidades de tratamiento y 1.800
comunidades de comparacin).
3. Por ejemplo, los programas de vivienda que otorgan viviendas subvencionadas
suelen utilizar los sorteos para seleccionar a los participantes del programa.
Numerosas escuelas subvencionadas en Estados Unidos seleccionan a los
postulantes mediante sorteo.
4. Adems de crear grupos que tienen caractersticas promedio similares, la
asignacin aleatoria tambin crea grupos que tienen distribuciones similares.
5. La mayora de los programas informticos permiten establecer un nmero
aleatorio para que los resultados de la asignacin aleatoria sean plenamente
transparentes y replicables.

96 La evaluacin de impacto en la prctica

IEP.indb 96 1/6/17 1:48 PM


6. Como se ha mencionado, por motivos estadsticos no todas las caractersticas
observables deben ser similares en los grupos de tratamiento y de comparacin
para que la aleatorizacin sea exitosa. Incluso cuando las caractersticas de los
dos grupos son verdaderamente idnticas, se puede esperar que el 5% de las
mismas aparecern con una diferencia estadsticamente signicativa cuando se
utiliza un intervalo de conanza de 95% para la prueba. Las variables en cuyo
caso se presenta una diferencia grande entre los grupos de tratamiento y de
comparacin son especialmente preocupantes.

Referencias bibliogrficas

Bertrand, M., B. Crpon, A. Marguerie y P. Premand. 2016. Impacts Court et


Moyen Terme sur les Jeunes des Travaux Haute Intensit de Main doeuvre
(THIMO): Rsultats de lvaluation dimpact de la composante THIMO du
Projet Emploi Jeunes et Dveloppement des Comptence (PEJEDEC) en Cte
dIvoire. Washington, D.C.: Banco Mundial y Abidjan, BCP-Emploi.
Blattman, C., N. Fiala y S. Martnez. 2014. Generating Skilled Self-Employment in
Developing Countries: Experimental Evidence from Uganda. Quarterly Journal
of Economics. (doi:10.1093/qje/qjt057.).
Bruhn, M. y D. McKenzie. 2009. In Pursuit of Balance: Randomization in Practice
in Development Field Experiments. American Economic Journal: Applied
Economics 1(4): 20032.
Dupas, P. 2011. Do Teenagers Respond to HIV Risk Information? Evidence from
aField Experiment in Kenya. American Economic Journal: Applied Economics
3(1): 134.
Glennerster, R. y K. Takavarasha. 2013. Running Randomized Evaluations: A
Practical Guide. Princeton, NJ: Princeton University Press.
Kremer, M., J. Leino, E. Miguel y A. Peterson Zwane. 2011. Spring Cleaning: Rural
Water Impacts, Valuation, and Property Rights Institutions. Quarterly Journal
of Economics 126: 145205.
Kremer, M. y E. Miguel. 2004. Worms: Identifying Impacts on Education and
Health in the Presence of Treatment Externalities. Econometrica 72 (1):
159217.
Premand, P., O. Barry y M. Smitz. 2016. Transferts montaires, valeur ajoute de
mesures daccompagnement comportemental, et dveloppement de la petite
enfance au Niger. Rapport descriptif de lvaluation dimpact court terme du
Projet Filets Sociaux. Washington, D.C.: Banco Mundial.
Schultz, P. 2004. School Subsidies for the Poor: Evaluating the Mexican Progresa
Poverty Program. Journal of Development Economics 74 (1): 199250.

La asignacin aleatoria 97

IEP.indb 97 1/6/17 1:48 PM


IEP.indb 98 1/6/17 1:48 PM
CAPTULO 5

Las variables instrumentales

La evaluacin de programas cuando no todos


cumplen su asignacin

En el anlisis de la asignacin aleatoria del captulo 4, se asume que el admi-


nistrador del programa tiene la facultad para asignar la intervencin a los gru-
pos de tratamiento y de comparacin, y que los asignados al tratamiento
participan en el programa y los asignados al grupo de comparacin nolohacen.
En otras palabras, las observaciones asignadas a los grupos de tratamiento y
de comparacin cumplen su asignacin. El pleno cumplimiento se logra con
mayor frecuencia en pruebas de laboratorio o en ensayos mdicos, donde el
investigador puede asegurar, primero, que todos los sujetos del grupo de tra-
tamiento reciban un determinado tratamiento y, segundo, que no lo reciba
ninguno de los sujetos del grupo de comparacin.1 De manera ms general, en
el captulo 4 se asume que los programas pueden determinar quines son
losparticipantes potenciales, excluyendo a algunos y asegurando que otros
participen.
Sin embargo, en los programas sociales del mundo real, puede que sea
poco realista pensar que el administrador del programa ser capaz de
asegurar un cumplimiento pleno de la asignacin del grupo. Aun as, nume-
rosos programas permiten a los participantes potenciales elegir si se inscri-
ben o no y, por lo tanto, no pueden excluir a participantes potenciales que
quieran inscribirse. Adems, algunos programas tienen un presupuesto lo
sucientemente grande para administrar la intervencin de forma inmediata
99

IEP.indb 99 1/6/17 1:48 PM


Concepto clave a toda la poblacin elegible, de modo que no sera tico asignar aleatoria-
El mtodo de variables mente a las personas a los grupos de tratamiento y de comparacin, y excluir
instrumentales se a participantes potenciales en aras de la evaluacin. Por ende, se necesita una
sustenta en alguna manera alternativa de evaluar el impacto de este tipo de programas.
fuente externa de El mtodo denominado variables instrumentales (VI) puede resultar til
variacin para
para evaluar los programas con cumplimiento imperfecto, inscripcin
determinar el estatus
del tratamiento. Ejerce voluntaria o cobertura universal. En general, para estimar los impactos, el
una influencia sobre la mtodo VI depende de una fuente externa de variacin para determinar el
probabilidad de estatus del tratamiento. El mtodo puede aplicarse a un amplio espectro de
participar en un situaciones, ms all de la evaluacin de impacto. Se puede pensar en una VI
programa, pero est
como algo que escapa al control del individuo y que inuye en su probabili-
fuera del control de los
participantes y no se dad de participar en un programa pero que, de otra manera, no est asociado
relaciona con las con las caractersticas de dicho individuo.
caractersticas de los En este captulo, se analizar cmo esta variacin externa, o VI, puede
mismos. ser generada por las reglas de funcionamiento del programa que est bajo
el control de los encargados del mismo o de los equipos de evaluacin. Para
producir evaluaciones de impacto vlidas, esta fuente externa de variacin,
o VI, debe satisfacer un cierto nmero de condiciones, las cuales se aborda-
rn detenidamente en este captulo. Se ha observado que la asignacin
aleatoria del tratamiento, como se seal en el captulo 4, es un muy
bueninstrumento y que satisface las condiciones necesarias. El mtodo VI
se utilizar en dos aplicaciones comunes de la evaluacin de impacto.
Primero, se usar como una extensin del mtodo de asignacin aleatoria
cuando no todas las unidades cumplen con su asignacin de grupo.
Ensegundo lugar, se recurrir a l para disear una promocin aleatoria
del tratamiento, un mtodo de evaluacin que puede funcionar en algunos
programas que ofrecen inscripcin voluntaria o cobertura universal.
Elrecuadro 5.1 ilustra un uso creativo del mtodo de VI.

Tipos de estimaciones de impacto

Una evaluacin de impacto siempre estima el impacto de un programa com-


parando los resultados de un grupo de tratamiento con la estimacin de un
contrafactual obtenido de un grupo de comparacin vlido. En el captulo 4
se asuma que haba pleno cumplimiento en el tratamiento, es decir, que
todas las unidades a las que se ofreca un programa se inscriban en l y que
ninguna de las unidades del grupo de comparacin reciba el programa. En
este escenario, se estimaba el efecto promedio del tratamiento para la
poblacin.
En la evaluacin de los programas en el mundo real, donde los
participantes potenciales pueden decidir si se inscriben o no, el pleno
100 La evaluacin de impacto en la prctica

IEP.indb 100 1/6/17 1:48 PM


Recuadro 5.1: El uso de variables instrumentales para evaluar el
impacto de Plaza Ssamo en la preparacin escolar
El programa de televisin Plaza Ssamo, entre los hogares y la antena de televisin
destinado a preparar a los nios en edad ms cercana que transmitiera UHF como
preescolar para la escuela primaria, obtuvo instrumento de participacin en el programa.
rpidamente la aclamacin de la crtica y goz Los investigadores sostenan que, dado que
de gran popularidad al emitirse por primera vez las antenas de televisin estaban construidas
en 1969. Desde entonces lo han visto millones en lugares escogidos por el gobierno antes
de nios. En 2015 Kearney y Levine se de que Plaza Ssamo comenzara a ser
propusieron estudiar los impactos a largo plazo emitido la variable no estara relacionada
del programa en una evaluacin retrospectiva con las caractersticas del hogar ni con
realizada en Estados Unidos. Aprovechando cambios en el resultado.
las limitaciones de la tecnologa de las La evaluacin encontr resultados
emisiones televisivas durante los primeros positivos en la preparacin escolar de los
aos del programa, los investigadores utilizaron nios en edad preescolar. En las zonas con
un enfoque de variables instrumentales (VI). recepcin de la seal de televisin UHF
En los primeros aos, el programa no cuando el programa comenz, los nios
llegaba a todos los hogares. Solo se emita tenan ms probabilidades de cursar la
en los canales de frecuencia ultra alta (UHF). escuela primaria a la edad adecuada. Este
As, alrededor de solo dos tercios de la efecto fue notable en los nios afroamericanos
poblacin de Estados Unidos viva en zonas y en los nios no hispanos, en los varones y
con acceso al programa. Por lo tanto, en los pequeos de zonas econmicamente
Kearney y Levine (2015) utilizaron la distancia desfavorecidas.

Fuente: Kearney y Levine (2015).

cumplimiento es menos comn que en contextos como los experimentos de


laboratorio. En la prctica, los programas suelen ofrecer tratamiento a un
grupo especco, y algunas unidades participan y otras no. En este caso, sin
pleno cumplimiento, las evaluaciones de impacto pueden estimar el efecto
de ofrecer un programa o el efecto de participar en el programa.
La intencin de tratar (ITT, por sus siglas en ingls, intention-to-treat)
es un promedio ponderado de los resultados de los participantes y no
participantes en el grupo de tratamiento versus el resultado promedio
del grupo de comparacin. Es importante en aquellos casos en los que
seintenta determinar el impacto promedio de ofrecer un programa y la
inscripcin en el grupo de tratamiento es voluntaria. En cambio, puede
que tambin se desee conocer el impacto de un programa en el grupo
deindividuos a losque se ofrece el programa y que realmente participan.
Las variables instrumentales 101

IEP.indb 101 1/6/17 1:48 PM


Concepto clave Este impacto estimado se denomina tratamiento en los tratados (TOT,
La intencin de tratar por sus siglas en ingls, treatment-on-the-treated). La ITT y el TOT sern
(ITT) estima la iguales cuando haya pleno cumplimiento. Ms adelante se volver sobre
diferencia en los
las diferencias entre ambos, pero ahora se presentar un ejemplo para
resultados entre las
unidades asignadas al ilustrar estos conceptos.
grupo de tratamiento y Considrese el Programa de Subsidios de Seguros de Salud (HISP, por sus
las unidades siglas en ingls), que se ha analizado en los captulos anteriores. Debido a
asignadas al grupo de consideraciones operativas y para minimizar los efectos de derrame, la uni-
comparacin, dad de asignacin del tratamiento elegida por el gobierno es el centro
independientemente
poblado. Los hogares de un centro poblado de tratamiento (las circunscrip-
de si las unidades
asignadas al grupo de ciones donde se ofrece el programa de seguro de salud) pueden inscribirse
tratamiento reciben en de forma voluntaria para un subsidio de seguro de salud, mientras que los
efecto el tratamiento. hogares de las comunidades de comparacin no pueden. A pesar de que
todos los hogares de los pueblos de tratamiento son elegibles para inscri-
Concepto clave birse en el programa de seguro de salud, puede que una parte de los mismos
El tratamiento en los por ejemplo, el 10% decida no hacerlo (quiz porque ya tienen un seguro
tratados (TOT) estima a travs de sus empleos, porque estn sanos y no prevn la necesidad de cui-
la diferencia en los dados sanitarios, o por muchos otros motivos).
resultados entre las
En este escenario, el 90% de los hogares del pueblo de tratamiento
unidades que
realmente reciben el decide inscribirse en el programa y recibe los servicios que este ofrece. La
tratamiento y el grupo estimacin de ITT se obtendra comparando el resultado promedio de
de comparacin. todos los hogares a los que se ofreci el programa es decir, el 100% de los
hogares de los centros poblados de tratamiento con el resultado promedio
en los pueblos de comparacin (donde no se ha inscrito ningn hogar). En
cambio, el TOT se puede ver como el impacto estimado para el 90% de los
hogares de las circunscripciones de tratamiento que se inscribieron en el
programa. Cabe sealar que el impacto del TOT no es necesariamente el
mismo que el impacto que se obtendra para el 10% de los hogares de los
pueblos de tratamiento que no se inscribieron, en caso de que se inscriban.
Esto es debido a que los individuos que participan en un programa cuando
el mismo es ofrecido pueden ser distintos a los individuos a los que se ofrece
el programa pero que deciden no inscribirse. Por ello, los efectos del trata-
miento local no pueden extrapolarse directamente de un grupo a otro.

El cumplimiento imperfecto

Como ya se ha sealado, en los programas sociales del mundo real, el pleno


cumplimiento con los criterios de seleccin de un programa (y, por ende, la
adhesin a la condicin de tratamiento o comparacin) es deseable, y los
responsables de las polticas y los equipos de evaluacin por igual suelen
intentar acercarse lo ms posible a ese ideal. Sin embargo, en la prctica, no
102 La evaluacin de impacto en la prctica

IEP.indb 102 1/6/17 1:48 PM


siempre se consigue un cumplimiento del 100% de las asignaciones a los
grupos de tratamiento y comparacin, a pesar de los esfuerzos del encargado
del programa y del equipo de evaluacin. A continuacin, se presentarn
diferentes casos que pueden ocurrir y se debatirn las implicaciones para
los mtodos de evaluacin que se pueden utilizar. Para empezar, hay que
subrayar que la mejor solucin para el cumplimiento imperfecto consiste
sencillamente en evitarlo. En este sentido, los administradores del programa
y los responsables de las polticas deberan intentar que el cumplimiento sea
lo ms alto posible en el grupo de tratamiento y lo ms bajo posible en el
grupo de comparacin.
Supngase que se intenta evaluar un programa de formacin docente,
para el cual son elegibles 2.000 maestros a n de que participen en una
capacitacin piloto. Los maestros han sido asignados de forma aleatoria
auno de dos grupos: 1.000 al de tratamiento y otros 1.000 al de comparacin.
Cuando todos los docentes del grupo de tratamiento reciben la capacita-
cin, y ninguno en el grupo de comparacin la ha recibido, se estima el
efecto promedio del tratamiento (ATE, por sus siglas en ingls, average
treatment effect) calculando la diferencia en los resultados medios (por
ejemplo, las puntuaciones en las pruebas de los alumnos) entre los dos gru-
pos. Este ATE es el impacto promedio del tratamiento en los 1.000 maestros,
dado que todos los maestros asignados al grupo de tratamiento realmente
asisten al curso, algo que no ocurre con ninguno de los maestros asignados
al grupo de comparacin.
El primer caso de cumplimiento imperfecto ocurre cuando algunas
unidades asignadas al grupo de tratamiento deciden no inscribirse o, por
algn otro motivo, no reciben tratamiento. En el ejemplo de la formacin
docente, algunos maestros asignados al grupo de tratamiento no se pre-
sentan el primer da del curso. En este caso, no se puede calcular el trata-
miento promedio para todos los maestros porque algunos nunca se
inscribieron; por lo tanto, nunca se podr calcular qu resultados habran
tenido con el tratamiento. Sin embargo, se puede estimar el impacto pro-
medio del programa en aquellos que realmente siguen o aceptan el trata-
miento. Se quiere estimar el impacto del programa en aquellos maestros a
los que se asign el tratamiento y que en la prctica se inscribieron. Esta es
la estimacin del TOT. En el ejemplo de la formacin docente, la estima-
cin del TOT representa el impacto en los maestros asignados al grupo de
tratamiento que se presentaron y recibieron la capacitacin.
El segundo caso de cumplimiento imperfecto se produce cuando los
individuos asignados al grupo de comparacin consiguen participar en el
programa. En este caso, los impactos no pueden estimarse directamente
paratodo el grupo de tratamiento porque sus contrapartes en el grupo de
comparacin no se pueden observar sin tratamiento. Se supona que las
Las variables instrumentales 103

IEP.indb 103 1/6/17 1:48 PM


unidades tratadas en el grupo de comparacin generaban una estimacin
del contrafactual para algunas unidades en el grupo de tratamiento, pero
en la prctica reciben el tratamiento; por lo tanto, no hay manera de saber
cul habra sido el impacto del programa en este subconjunto de indivi-
duos. En el ejemplo de la formacin docente, supngase que los maestros
ms motivados del grupo de comparacin consiguen asistir de alguna
manera al curso. En este caso, los ms motivados en el grupo de tratamiento
no tendran contrapartes en el grupo de comparacin, de modo que
no sera posible estimar el impacto de la formacin en ese segmento de
maestros motivados.
Cuando hay incumplimiento en cualquiera de los dos lados, debera
pensarse detenidamente en qu tipo de efecto de tratamiento se estima y
cmo interpretarlo. Una primera opcin consiste en calcular una compa-
racin del grupo originalmente asignado al tratamiento con el grupo origi-
nalmente asignado a la comparacin; esto dar la estimacin de la ITT. La
ITT compara a aquellos a quienes se pretende tratar (los asignados al
grupo de tratamiento) con aquellos que se intenta no tratar (los asignados
al grupo de comparacin). Si el incumplimiento se produce solo del lado
del tratamiento, puede ser una medida de impacto interesante y relevante,
porque en cualquier caso la mayora de los responsables de las polticas
y administradores de programa solo pueden ofrecer un programa y no
pueden obligar a su poblacin designada a aceptar el mismo.
En el ejemplo de la formacin docente, puede que el gobierno quiera
conocer el impacto promedio del programa en todos los maestros asignados,
aunque algunos de ellos no asistan al curso. Esto se debe a que, aunque el
gobierno ample el programa, es probable que haya maestros que nunca
asistirn. Sin embargo, si hay incumplimiento en el lado de la comparacin,
la estimacin de la ITT no es tan esclarecedora. En el caso de la formacin
docente, dado que el grupo de comparacin inclua a maestros formados,
elresultado promedio en el grupo de comparacin se ha visto afectado por
el tratamiento. Supngase que el efecto de la formacin docente en los resul-
tados es positivo. Si aquellos que incumplieron en el grupo de comparacin
son los maestros ms motivados y los que ms se benecian de la capacita-
cin, el resultado promedio para el grupo de comparacin tendr un sesgo
positivo (porque los maestros motivados del grupo de comparacin que
recibieron capacitacin harn subir el resultado promedio) y la estimacin
ITT tendr un sesgo negativo (dado que se trata de la diferencia entre los
resultados promedio en el grupo de tratamiento y de comparacin).
En estas circunstancias de no cumplimiento, una segunda opcin
consiste en estimar lo que se conoce como el efecto local promedio del
tratamiento (LATE, por sus siglas en ingls, local average treatment effect).
ElLATEdebe ser interpretado con cuidado, ya que representa los efectos
104 La evaluacin de impacto en la prctica

IEP.indb 104 1/6/17 1:48 PM


del programa solo para un subgrupo especco de la poblacin. En particular,
cuando hay incumplimiento en el grupo de tratamiento y en el de
comparacin, el LATE es el impacto en el subgrupo de cumplidores. En el
ejemplo de la formacin docente, si hay incumplimiento en ambos grupos,
la estimacin LATE es vlida solo para los maestros del grupo de trata-
miento que se inscribieron en el programa y que no se habran inscrito si
hubieran sido asignados al grupo de comparacin.
A continuacin, se explicar cmo estimar el LATE y, algo que es igual de
importante, cmo interpretar los resultados. Los principios para estimar el
LATE se aplican cuando hay incumplimiento en el grupo de tratamiento, en
el de comparacin, o en ambos al mismo tiempo. ElTOT es simplemente un
LATE en el caso ms especco en que hay incumplimiento solamente en el
grupo de tratamiento. Por lo tanto, el resto de este captulo se enfoca en
cmo estimar el LATE.

Asignacin aleatoria de un programa y aceptacin final

Imagnese que se debe evaluar el impacto de un programa de formacin


para el empleo en los salarios de los individuos. El programa se asigna de
forma aleatoria a nivel individual. El grupo de tratamiento recibe el pro-
grama, mientras que el grupo de comparacin no lo recibe. Lo ms probable
es que se encuentren tres tipos de individuos en la poblacin:
Inscritos si se lo ofrecen. Son los individuos que cumplen con su asigna-
cin. Si se les asigna al grupo de tratamiento (asignados al programa),
lo aceptarn y se inscribirn. Si se les asigna al grupo de comparacin
(noasignados al programa), no se inscriben.
Nuncas. Son los individuos que jams se inscriben ni aceptan el programa,
aunque se les asigne al grupo de tratamiento. Si en efecto se les asigna a
este ltimo, sern incumplidores.
Siempres. Estos individuos encontrarn una manera de inscribirse en el
programa o aceptarlo, aunque se les asigne al grupo de comparacin. Si en
efecto son asignados al grupo de comparacin, sern incumplidores.
En el contexto de un programa de formacin laboral, el grupo de los
Nuncas puede estar formado por personas no motivadas que, aunque se
lesasigne un lugar en el curso, no se presentan. En cambio, los del grupo
de los Siempres estn tan motivados que encuentran una manera de entrar
en el programa aunque originalmente se les haya asignado al grupo de
comparacin. El grupo de Inscritos si se lo ofrecen son los que se anotan en
el curso si son asignados a l, pero no buscan inscribirse si son asignados
al grupo de comparacin.
Las variables instrumentales 105

IEP.indb 105 1/6/17 1:48 PM


El grco 5.1 presenta la asignacin aleatoria del programa y de la
inscripcin nal, o aceptacin, cuando los tipos Inscritos si se lo ofrecen,
Nuncas y Siempres estn presentes. Supngase que la poblacin se com-
pone de un 80% de Inscritos si se lo ofrecen, 10% de Nuncas y 10% de
Siempres. Si se toma una muestra aleatoria de la poblacin para la mues-
tra de evaluacin, dicha muestra tendr tambin alrededor de un 80% de
Inscritos si se lo ofrecen, 10% de Nuncas y 10% de Siempres. Luego, si la
muestra de evaluacin se asigna de manera aleatoria a un grupo de trata-
miento y a un grupo de comparacin, una vez ms debera haber cerca de
un 80% de Inscritos si se lo ofrecen, 10% de Nuncas y 10% de Siempres en
ambos grupos. En el grupo asignado al tratamiento, se inscribirn los
individuos Inscritos si se lo ofrecen y Siempres, y solo el grupo de Nuncas
permanecer al margen. En el grupo de comparacin, los individuos de
Siempres se inscribirn, mientras que los grupos de Inscritos si se lo ofre-
cen y Nuncas permanecern fuera. Esimportante recordar que si bien se
sabe que en la poblacin existen estos tres tipos de individuos, no es
posible necesariamente distinguir el tipo de un individuo hasta que se
observan ciertas conductas. En el grupo de tratamiento, se podr identi-
car a los tipos de Nuncas cuando no se inscriben, pero no se podr dis-
tinguir entre los Inscritos si se lo ofrecen y los Siempres,dado que ambos
tipos se inscribirn. En el grupo de comparacin, se podr identicar a

Grfico 5.1 Asignacin aleatoria con cumplimiento imperfecto

1. Definir las unidades elegibles 2. Seleccionar la muestra 3. Asignar aleatoriamente 4. Inscripcin


de evaluacin al tratamiento

Nunca Solo se Siempre Validez externa Validez interna


se inscribe se
inscribe si es inscribe
asignado

106 La evaluacin de impacto en la prctica

IEP.indb 106 1/6/17 1:48 PM


los Siempres cuando se inscriben, pero no se podr distinguir entre los
Inscritos si se lo ofrecen y los Nuncas, dado que ninguno de los dos tipos
se inscribir.

La estimacin de impacto bajo asignacin aleatoria con


cumplimiento imperfecto

Despus de establecer la diferencia entre asignar un programa y la


inscripcin o aceptacin en la prctica, se estimar el LATE del programa.
Esta estimacin se lleva a cabo en dos pasos, los cuales se ilustran en el
grco 5.2.2
Para estimar los impactos del programa bajo la asignacin aleatoria con
cumplimiento imperfecto, primero se estima el impacto de la ITT. Se debe
recordar que se trata solo de la diferencia en el indicador de resultados (Y)

Grfico 5.2 Estimacin del efecto local promedio del tratamiento bajo
asignacin aleatoria con cumplimiento imperfecto

Grupo asignado Grupo no asignado


Impacto
al tratamiento al tratamiento

Porcentaje inscrito = 90% Porcentaje inscrito = 10% porcentaje de inscritos = 80%


Media Y para los asignados a Media Y para los no Y = ITT = 40
tratamiento = 110 asignados a tratamiento = 70 LATE = 40%/80% = 50

Nunca se
inscribe

Solo se
inscribe
si es
asignado

Siempre se
inscribe

Nota: La estimacin de la intencin de tratar (ITT) se obtiene comparando los resultados de los
individuos asignados al grupo de tratamiento con los de aquellos asignados al grupo de comparacin,
independientemente de la inscripcin en la prctica. La estimacin del efecto local promedio del trata-
miento (LATE) es el impacto del programa en los que se inscriben solo si son asignados al programa
(Inscritos si se lo ofrecen). La estimacin LATE no proporciona el impacto del programa en aquellos
que nunca se inscriben (Nuncas) o en aquellos que siempre se inscriben (Siempres).
= impacto causal; Y = resultado.

Las variables instrumentales 107

IEP.indb 107 1/6/17 1:48 PM


para el grupo que se asigna al tratamiento y el mismo indicador para el
grupo al que no se asigna tratamiento. Por ejemplo, si el salario medio (Y)
del grupo de tratamiento es US$110 y el salario medio del grupo de compa-
racin es US$70, la estimacin de la ITT del impacto sera de US$40 (US$110
menos US$70).
En segundo lugar, habra que recuperar la estimacin del LATE para el
grupo de Inscritos si se lo ofrecen de la estimacin ITT. Para esto, se debe
identicar de dnde proviene la diferencia de US$40. Se procede por
eliminacin. Primero, se sabe que la diferencia no puede ser causada por
diferencias entre las personas que nunca se inscriben (los Nuncas) en los
grupos de tratamiento y de comparacin. Esto se debe a que los Nuncas
jams se inscriben en el programa, de modo que para ellos es igual estar
enel grupo de tratamiento que en el de comparacin. En segundo lugar,
sesabe que la diferencia de US$40 no puede ser producida por diferencias
entre los individuos de Siempres en los grupos de tratamiento y de compa-
racin porque estos siempre se anotan en el programa. Para ellos tampoco
hay diferencia entre estar en el grupo de tratamiento o el grupo de compa-
racin. Por lo tanto, la diferencia en los resultados entre ambos grupos
debe necesariamente provenir del efecto del programa en el nico grupo
afectado por su asignacin al grupo de tratamiento o de comparacin, es
decir, el grupo de Inscritos si se lo ofrecen. Si se puede identicar a los
Inscritos si se lo ofrecen en ambos grupos, ser fcil estimar el impacto del
programa en ellos.
En realidad, aunque se sabe que estos tres tipos de individuos existen
enla poblacin, no se puede separar a los individuos en funcin de si son
Inscritos si se lo ofrecen, Nuncas o Siempres. En el grupo que fue asignado al
tratamiento, se puede identicar a los Nuncas (porque no se han inscrito),
pero no se puede diferenciar entre los Siempres y los Inscritos si se lo ofrecen
(porque ambos estn inscritos). En el grupo de comparacin, se puede iden-
ticar el grupo de Siempres (porque se inscriben en el programa), pero no es
posible diferenciar entre los Nuncas y los Inscritos si se lo ofrecen.
Sin embargo, una vez que se observa que el 90% de las unidades en el
grupo asignado al tratamiento en efecto se inscribe, se puede deducir que
el 10% de las unidades de nuestra poblacin debe estar formada Nuncas
(esdecir, el porcentaje de individuos del grupo asignados al tratamiento que
no se inscribieron). Adems, si se observa que el 10% de las unidades del
grupo de comparacin se inscribe, se sabe que el 10% son Siempres (una vez
ms, el porcentaje de individuos de nuestro grupo que no fue asignado al
tratamiento y que s se inscribi). Esto deja al 80% de las unidades en el
grupo de Inscritos si se lo ofrecen. Se sabe que el impacto de US$40 proviene
de una diferencia en la inscripcin en el 80% de las unidades de la muestra
que corresponde a Inscritos si se lo ofrecen. Si el 80% de las unidades es
108 La evaluacin de impacto en la prctica

IEP.indb 108 1/6/17 1:48 PM


responsable de un impacto promedio de US$40 en el conjunto del grupo
asignado al tratamiento, el impacto en ese 80% de Inscritos si se lo ofrecen
debe ser 40/0,8, o US$50. Dicho de otra manera, el impacto del programa
para los Inscritos si se lo ofrecen es de US$50, pero cuando este impacto se
distribuye en el conjunto del grupo asignado al tratamiento, el efecto pro-
medio se diluye debido al 20% que no cumpli con la asignacin aleatoria
original.
Recurdese que uno de los problemas bsicos de la autoseleccin en los
programas es que no siempre se puede saber por qu algunas personas deci-
den participar y otras no. Cuando se lleva a cabo una evaluacin donde las
unidades estn asignadas de forma aleatoria, pero la participacin en la
prctica es voluntaria o existe una forma en que las unidades del grupo de
comparacin participen en el programa, se presenta un problema similar, a
saber, que no siempre se entender la conducta que determina si un indivi-
duo se comporta como un Nunca, un Siempre, o un Inscrito si se lo ofrecen.
Sin embargo, si la falta de cumplimiento no es demasiado severo, la asigna-
cin aleatoria sigue proporcionando un instrumento til para la evaluacin
del impacto. El aspecto negativo de la asignacin aleatoria con cumplimiento
imperfecto es que esta estimacin de impacto ya no es vlida para el con-
junto de la poblacin. En cambio, la estimacin debera interpretarse como
una estimacin local que se aplica solo a un subgrupo especco dentro de la
poblacin designada, los Inscritos si se lo ofrecen.
La asignacin aleatoria de un programa tiene dos caractersticas impor-
tantes que permiten estimar el impacto cuando hay cumplimiento imper-
fecto (vase el recuadro 5.2):

1. Puede servir para predecir la inscripcin en el programa si la mayora de


las personas se comportan como Inscritos si se lo ofrecen, y se inscriben en
el programa cuando se les asigna al tratamiento y no se inscriben cuando
no se les asigna.
2. Dado que los dos grupos (asignados y no asignados al tratamiento)
se generan mediante un proceso aleatorio, las caractersticas de los
individuos en los dos grupos no estn correlacionadas con ningn otro
factor como la habilidad o la motivacin que pueda inuir tambin en
los resultados (Y).

En trminos estadsticos, la asignacin aleatoria sirve como VI. Se trata de


una variable que predice la inscripcin real de unidades en un programa,
pero que no est relacionada con otras caractersticas de los individuos
quepuedan estar vinculadas a los resultados. Aunque en parte la decisin de
los individuos de inscribirse en un programa no puede estar controlada
porlos administradores del programa, otra parte de la decisin s est bajo
Las variables instrumentales 109

IEP.indb 109 1/6/17 1:48 PM


Recuadro 5.2: Variables instrumentales para lidiar con la falta de
cumplimiento en un programa de vales escolares en Colombia
El Programa de Ampliacin de Cobertura Hubo cierto incumplimiento con el diseo
de la Educacin Secundaria (PACES), en aleatorio, ya que alrededor del 90% de los
Colombia, suministr vales a ms de ganadores del sorteo haban usado el vale
125.000 estudiantes para cubrir algo ms de u otra forma de beca, y el 24% de los
la mitad del costo de asistencia a escuelas perdedores del sorteo haban recibido becas.
secundarias privadas. Dado el presupuesto Utilizando nuestra terminologa, la poblacin
limitado del programa, los vales se asigna- debe haber contenido un 10% de Nuncas,
ron mediante sorteo. Angrist et al. (2002) un 24% de Siempres y un 66% de Inscritos
aprovecharon este tratamiento asignado de si se lo ofrecen. Angrist et al. (2002) tambin
manera aleatoria para determinar el efecto utilizaron la asignacin original, o la condicin
del programa sobre los resultados educati- del ganador o perdedor del sorteo de los
vos y sociales. alumnos, como una variable instrumental
Angrist et al. (2002) observaron que los para estimar el tratamiento en los tratados
ganadores del sorteo tenan un 10% ms de (TOT), la recepcin real de la beca. Por ltimo,
probabilidades de terminar el octavo grado y pudieron efectuar un anlisis de costo-
registraron una desviacin estndar de 0,2 beneficio para entender mejor el impacto del
puntos ms en las pruebas estandarizadas programa de vales tanto en los gastos de los
tres aos despus del sorteo inicial. Tambin hogares como del gobierno. Los investigado-
observaron que los efectos educativos res llegaron a la conclusin de que los costos
fueron mayores en las nias que los nios. sociales totales del programa eran pequeos
Luego examinaron el impacto del programa y se vean compensados por los retornos
en varios resultados no educativos y previstos para los participantes y sus fami-
observaron que era menos probable que los lias, lo que sugiere que los programas orien-
ganadores del sorteo estuvieran casados y tados a la demanda, como PACES, pueden
que trabajaban alrededor de 1,2 horas ser una solucin costo-efectiva para aumen-
menos por semana. tar los logros educativos.

Fuente: Angrist et al. (2002).

su control. Concretamente, la parte de la decisin que puede controlarse es


la asignacin a los grupos de tratamiento y comparacin. En la medida en
que la asignacin a los grupos de tratamiento y de comparacin predice la
inscripcin nal en el programa, la asignacin aleatoria se puede usar como
un instrumento para predecir la inscripcin nal. Tener esta VI permite
recuperar las estimaciones del LATE de las estimaciones del efecto de ITT
para el tipo de unidades Inscritos si se lo ofrecen.
Una variable VI debe satisfacer dos condiciones bsicas:
1. No debera estar correlacionada con las caractersticas de los grupos de
tratamiento y de comparacin. Esto se consigue asignando el tratamiento
110 La evaluacin de impacto en la prctica

IEP.indb 110 1/6/17 1:48 PM


aleatoriamente a las unidades en la muestra de evaluacin. Esto se
conoce como exogeneidad. Es importante que la VI no inuya directa-
mente en elresultado de inters. Los impactos deben ser causados ni-
camente a travs del programa que nos interesa evaluar.
2. Debe inuir en las tasas de participacin de los grupos de tratamiento
ycomparacin de manera diferente. Normalmente se piensa en aumen-
tar la participacin en el grupo de tratamiento. Esto se puede vericar
constatando que la participacin es ms alta en el grupo de tratamiento
que en el de comparacin. Esta condicin se conoce como relevancia.

Interpretacin de la estimacin del efecto promedio del


tratamiento local

La diferencia entre la estimacin de un ATE y la estimacin de un LATE es


especialmente importante cuando se trata de interpretar los resultados de
una evaluacin. Pinsese sistemticamente en cmo interpretar una esti-
macin LATE. En primer lugar, debe reconocerse que los individuos que
cumplen en un programa (el tipo Inscritos si se lo ofrecen) son diferentes de
los individuos que no cumplen (los tipos Nuncas y Siempres). Concretamente,
en el grupo de tratamiento, los no cumplidores/no participantes (Nuncas)
pueden ser aquellos que esperan ganar poco con la intervencin. En el
grupo de comparacin, los no cumplidores/participantes (Siempres) pro-
bablemente constituyan el grupo de individuos que esperan el mayor bene-
cio de participar. En el ejemplo de la formacin docente, los maestros
asignados a la capacitacin pero que deciden no participar (el tipo Nuncas)
pueden ser aquellos que creen que no necesitan formacin, maestros con
un mayor costo de oportunidad del tiempo (por ejemplo, porque tienen un
segundo empleo o porque tienen que cuidar de sus hijos), o maestros regi-
dos por una supervisin laxa, que pueden dejar de asistir sin tener proble-
mas. Por otro lado, los docentes asignados al grupo de comparacin pero
que se inscriben de todas maneras (el tipo Siempres) pueden ser aquellos
que creen que necesitan formacin, maestros que no tienen hijos que cui-
dar o maestros con un director estricto que insiste en que todos tienen que
recibir capacitacin.
En segundo lugar, se sabe que la estimacin LATE proporciona el
impacto para un subgrupo particular de la poblacin: tiene en cuenta solo
al subgrupo que no se ve afectado por ningn tipo de incumplimiento. En
otras palabras, tiene en cuenta solo el tipo Inscritos si se lo ofrecen. Dado
que el tipo Inscritos si se lo ofrecen es diferente de los Nuncas y de los
Siempres, el impacto que se halla a travs de la estimacin LATE no se
aplica a los tipos Nuncas o Siempres. Por ejemplo, si el ministerio de
Las variables instrumentales 111

IEP.indb 111 1/6/17 1:48 PM


Educacin decidiera implementar una segunda ronda de capacitacin y
pudiera obligar a los maestros Nuncas que no recibieron formacin en la
primera ronda a recibirla en esta ocasin, no se sabe si esos maestros ten-
dran efectos menores, iguales o mayores en comparacin con los partici-
pantes de la primera ronda. De la misma manera, si los docentes ms auto
motivados siempre encuentran una manera de seguir la capacitndose a
pesar de ser asignados de forma aleatoria al grupo de comparacin, el
LATE para los cumplidores de los grupos tanto de tratamiento como de
comparacin no proporciona informacin acerca del impacto del pro-
grama para los maestros sumamente motivados (los Siempres). La estima-
cin del LATE se aplica nicamente a un subconjunto especco de la
poblacin, a saber, aquellos tipos que no estn afectados por la falta de
cumplimiento es decir, solo el tipo cumplidor y no debera extrapolarse
a otros subconjuntos de la poblacin.

Promocin aleatoria como variable instrumental

En la seccin anterior, se expuso cmo estimar el impacto sobre la base de la


asignacin aleatoria del tratamiento, aun cuando el cumplimiento con los
grupos de tratamiento y comparacin originalmente asignados sea imper-
fecto. A continuacin, se propone un enfoque muy similar que se puede apli-
car a la evaluacin de programas que tienen elegibilidad universal o
inscripcin abierta, o en los que el administrador del programa no puede
controlar quin participa y quin no.
Este enfoque, denominado promocin aleatoria, proporciona un est-
mulo ms para que un conjunto aleatorio de unidades se inscriba en el
programa. Esta promocin aleatoria sirve como VI. Sirve como una fuente
externa de variacin que afecta la probabilidad de recibir tratamiento,
pero no est relacionada de ninguna forma con las caractersticas de los
participantes.
Los programas de participacin voluntaria suelen permitir que los indi-
viduos que se interesan en el programa decidan por s mismos si quieren
inscribirse y participar. Pinsese una vez ms en el programa de formacin
laboral tratado anteriormente, aunque esta vez la asignacin aleatoria no es
posible y cualquier individuo que desee inscribirse en el programa puede
hacerlo. De manera muy parecida a la del ejemplo anterior, se prev encon-
trar diferentes tipos de personas: cumplidores, un grupo de Siempres y un
grupo de Nuncas.
Siempres. Los individuos que siempre se inscribirn en el programa.
Nuncas. Los individuos que jams se inscribirn.

112 La evaluacin de impacto en la prctica

IEP.indb 112 1/6/17 1:48 PM


Cumplidores o Inscritos si se promueve. En este contexto cualquier indivi-
duo que quiera inscribirse en el programa puede hacerlo. Sin embargo,
algunos individuos pueden estar interesados en inscribirse, pero por
diversos motivos no tienen suciente informacin o el incentivo correcto
para hacerlo. En este caso, los cumplidores son aquellos que se inscriben
si se promueve. Se trata de un grupo de individuos que se anotan en el
programa solo si se les ofrece un incentivo adicional, un estmulo o moti-
vacin que los impulse a participar. Sin este estmulo adicional, los
Inscritos si se promueve sencillamente quedaran fuera del programa.
Para volver al ejemplo de la formacin para el empleo, si la agencia que orga-
niza la capacitacin est bien nanciada y tiene suciente capacidad, puede
que despliegue una poltica de puertas abiertas y trate a todas las personas
desempleadas que quieran participar. Sin embargo, es poco probable que
todas las personas desempleadas quieran participar o incluso que sepan que
el programa existe. Puede que algunas personas desempleadas tengan repa-
ros para inscribirse porque saben muy poco acerca del contenido de la for-
macin y les cuesta obtener informacin adicional. Supngase que la agencia
de formacin para el empleo contrata a un trabajador de extensin comuni-
taria para que se pasee por la ciudad a n de alentar a un grupo de personas
desempleadas seleccionado de forma aleatoria para que se inscriban en el
programa de formacin laboral. Con la lista de personas desempleadas ele-
gidas de manera aleatoria, llama a sus puertas, describe el programa de for-
macin y les ofrece ayuda para inscribirse en ese mismo momento. La visita
es una forma de promocin o estmulo para participar en el programa. Desde
luego, no se puede obligar a nadie a participar. Adems, las personas desem-
pleadas que el trabajador de extensin comunitaria no visita tambin pue-
den inscribirse, aunque tendrn que ir personalmente a la agencia para
hacerlo. Por lo tanto, ahora hay dos grupos de personas desempleadas: aque-
llas que fueron asignadas de modo aleatorio a una visita del trabajador
comunitario y aquellas que aleatoriamente no fueron visitadas. Si el esfuerzo
de extensin es efectivo, la tasa de inscripcin entre las personas desem-
pleadas que fueron visitadas debera ser superior a la tasa entre las personas
desempleadas que no fueron visitadas.
Pinsese ahora en cmo se puede evaluar este programa de formacin
laboral. No se puede simplemente comparar a las personas desempleadas
que se inscriben con aquellas que no se inscriben. Esto se debe a que los
desempleados que se inscriben probablemente sean muy diferentes de
aquellos que no lo hacen, tanto en sus caractersticas observables como no
observables. Puede que tengan un nivel educativo mayor o menor (esto
puede observarse con facilidad) y probablemente estn ms motivados y
deseosos de encontrar un empleo (esto es difcil de observar y medir).

Las variables instrumentales 113

IEP.indb 113 1/6/17 1:48 PM


Sin embargo, hay una variacin adicional que se puede explotar para
encontrar un grupo de comparacin vlido. Pinsese si se puede comparar
el grupo de personas que fueron asignadas aleatoriamente para recibir una
visita del trabajador de extensin con el grupo que no fue visitado. Dado que
los grupos con promocin y sin promocin fueron determinados de forma
aleatoria, ambos contienen composiciones idnticas de personas muy moti-
vadas (Siempres) que se inscribirn independientemente de que el trabaja-
dor de extensin llame a su puerta o no. Ambos grupos tambin contienen
personas no motivadas (Nuncas) que no se inscribirn en el programa, a
pesar de los esfuerzos del trabajador de extensin. Por ltimo, si el trabaja-
dor de extensin es efectivo motivando a las personas a inscribirse, algunos
(Inscritos si se promueve) se anotarn en el programa si el trabajador de
extensin los visita, pero no lo harn si no reciben dicha visita.
Dado que el trabajador de extensin visit a un grupo de individuos
asignados de manera aleatoria, puede derivarse una estimacin LATE,
como se sealaba anteriormente. La nica diferencia es que en lugar de
asignar el programa de modo aleatorio, se lo est promoviendo aleatoria-
mente. Siempre que los Inscritos si se promueve (que se inscriben cuando
sehace contacto con ellos pero no se anotan si no hay contacto) sean lo
sucientemente numerosos, entre el grupo con la promocin y el grupo sin
la promocin habr variaciones que permitirn identicar el impacto de la
formacin en los Inscritos si se promueve. En lugar de cumplir la asigna-
cin del tratamiento, los Inscritos si se promueve ahora cumplen con la
promocin.
Para que esta estrategia funcione, la actividad de promocin tiene que ser
efectiva y aumentar la inscripcin considerablemente en el grupo de
Inscritos si se promueve. Al mismo tiempo, las actividades de promocin en
s mismas no deberan inuir en los resultados nales de inters (como los
ingresos), dado que al nal lo que interesa sobre todo es estimar el impacto
del programa de formacin y no el impacto de la estrategia de promocin en
los resultados nales. Por ejemplo, si el trabajador de extensin ofreci
grandes cantidades de dinero a los desempleados para conseguir que se ins-
cribieran, sera difcil saber si algn cambio posterior en los ingresos fue
causado por la formacin o por la actividad de promocin.
La promocin aleatoria es una estrategia creativa que genera el equivalente
de un grupo de comparacin para los nes de la evaluacin de impacto. Se
puede usar cuando un programa tiene inscripcin abierta y es posible organi-
zar una campaa de promocin destinada a una muestra aleatoria de la pobla-
cin de inters. La promocin aleatoria es otro ejemplo de VI que permite
evaluar el impacto de manera no sesgada. Sin embargo, una vez ms, como
sucede con la asignacin aleatoria con cumplimiento imperfecto, las evalua-
ciones de impacto que dependen de la promocin aleatoria proporcionan una
114 La evaluacin de impacto en la prctica

IEP.indb 114 1/6/17 1:48 PM


estimacin LATE: una estimacin local del efecto en un subgrupo especco
de la poblacin, el grupo de Inscritos si se promueve. Como sucedi antes, esta
estimacin LATE no puede extrapolarse directamente al conjunto de la
poblacin, dado que los grupos de Siempres y Nuncas probablemente sean
bastante diferentes del grupo de Inscritos si se promueve.

Ha dicho promocin?
Concepto clave
La promocin aleatoria pretende aumentar la aceptacin de un programa La promocin aleatoria
voluntario en una submuestra de la poblacin seleccionada aleatoriamente. es un mtodo de
La promocin puede adoptar diversas formas. Por ejemplo, puede que se variables instrumenta-
decida iniciar una campaa de informacin para llegar a aquellas personas les que permite
que no se han inscrito porque no lo saban o porque no entienden cabalmente estimar el impacto de
manera no sesgada.
el contenido del programa. Tambin, se pueden ofrecer incentivos para ins-
Asigna aleatoriamente
cribirse, como pequeos obsequios o premios, o facilitando el transporte. una promocin o
Como se seal de manera ms general en el caso de las VI, para que el incentivo para
mtodo de promocin aleatoria genere una estimacin vlida del impacto participar en el
del programa debe cumplirse una serie de condiciones: programa. Es una
estrategia til para
1. Los grupos que son objeto y no objeto de la promocin deben ser simila- evaluar programas que
res. Es decir, las caractersticas promedio de los dos grupos deben ser estn abiertos a todos
los que sean elegibles.
estadsticamente equivalentes. Esto se consigue asignando de forma
aleatoria las actividades de extensin o promocin entre las unidades de
la muestra de evaluacin.
2. La propia promocin no debera inuir directamente en los resultados de
inters. Este es un requisito crtico, de modo que se pueda saber que los
cambios en los resultados de inters son provocados por el programa
mismo y no por la promocin.
3. La campaa de promocin debe alterar considerablemente las tasas de
inscripcin en el grupo objeto de la promocin en relacin con el grupo
que no ha sido objeto de la misma. Normalmente, se piensa en aumentar
la inscripcin mediante la promocin. Esto se puede vericar consta-
tando que las tasas de inscripcin sean ms altas en el grupo que es objeto
de la promocin que en el grupo que no lo es.

El proceso de promocin aleatoria

El proceso de promocin aleatoria se presenta en el grco 5.3. Al igual


quecon los mtodos anteriores, se comienza con la poblacin de unidades
elegibles para el programa. A diferencia de la asignacin aleatoria, ya no
se puede elegir aleatoriamente quin recibir el programa y quin no lo
Las variables instrumentales 115

IEP.indb 115 1/6/17 1:48 PM


Grfico 5.3 Proceso de promocin aleatoria

1. Definir las unidades elegibles 2. Seleccionar la muestra 3. Realizar la promocin 4. Inscripcin


de evaluacin aleatoria del programa

Sin promocin

Promocin

Nunca Inscritos Siempre Validez externa Validez interna


si son
objeto de la
promocin

recibir, porque el programa es totalmente voluntario. Sin embargo, en la


poblacin de unidades elegibles, habr tres tipos de unidades:
Siempres. Aquellos que siempre quieren inscribirse en el programa.
Inscritos si se promueve. Aquellos que se inscriben en el programa solo si
son objeto de la promocin.
Nuncas. Aquellos que jams se inscriben en el programa, independiente-
mente de que sean objeto de la promocin o no.
Una vez ms, ntese que ser un Siempre, un Inscrito si se promueve o un
Nunca es una caracterstica intrnseca de las unidades que no se puede medir
fcilmente con un equipo de evaluacin del programa porque estrelacio-
nado con factores como la motivacin, la inteligencia y la informacin.
Una vez que se dene la poblacin elegible, el paso siguiente consiste en
seleccionar de manera aleatoria una muestra de la poblacin que formar
parte de la evaluacin. Estas son las unidades sobre las que se recopilan
datos. En algunos casos, por ejemplo, cuando se dispone de datos sobre
todas las unidades elegibles, se puede incluir al conjunto de la poblacin en
la muestra de evaluacin.
Una vez que se ha denido la muestra de evaluacin, la promocin
aleatoria asigna aleatoriamente la muestra mencionada en el grupo
objeto de la promocin y un grupo que no es objeto de ella. Dado que
tanto los miembros del grupo con promocin como los del grupo sin pro-
mocin se escogen de forma aleatoria, ambos grupos compartirn las
116 La evaluacin de impacto en la prctica

IEP.indb 116 1/6/17 1:48 PM


caractersticas de la muestra de evaluacin general, que sern equivalen-
tes a las caractersticas de la poblacin de las unidades elegibles. Por lo
tanto, el grupo que es objeto de la promocin y el grupo que no lo es
tendrn caractersticas similares.
Despus de acabar la campaa de promocin, pueden observarse las
tasas de inscripcin en ambos grupos. En el grupo sin promocin, se inscri-
birn solo los Siempres. Aunque se sabe qu unidades son Siempres en el
grupo sin promocin, en este grupo no se podr distinguir entre los Nuncas
y los Inscritos si se promueve. En cambio, en el grupo con promocin se ins-
cribirn tanto los Inscritos si se promueve como los Siempres, mientras que
los Nuncas no se anotarn. Por ello, en el grupo con promocin se podr
identicar al grupo de Nuncas, pero no se podr distinguir entre los Inscritos
si se promueve y los Siempres.

Estimacin de impacto bajo la promocin aleatoria

Imagnese que en un grupo de 10 individuos la campaa de promocin


aumenta la inscripcin de un 30% en el grupo sin promocin (3 Siempres) a
un 80% en el grupo con promocin (3 Siempres y 5 Inscritos si se promueve).
Supngase que el resultado promedio de todos los individuos del grupo sin
promocin (10 individuos) es 70, y que el resultado promedio de los indivi-
duos en el grupo con promocin (10 individuos) es 110 (grco 5.4). Cul
sera el impacto del programa?

Grfico 5.4 Estimacin del efecto local promedio del tratamiento bajo la
promocin aleatoria

Grupo con promocin Grupo sin promocin Impacto

Porcentaje de inscritos = 80% Porcentaje de inscritos = 30% porcentaje de inscritos = 50%


Media Y para grupo con Media Y para grupo sin Y = 40
promocin = 110 promocin = 70 LATE = 40%/50% = 80

Nunca

Inscrito si
es objeto
de la
promocin

Siempre

Nota: Las figuras que aparecen con el fondo sombreado corresponden a los que se inscriben.
= impacto causal; Y = resultado.

Las variables instrumentales 117

IEP.indb 117 1/6/17 1:48 PM


En primer lugar, calclese la simple diferencia de los resultados entre los
grupos con promocin y sin promocin, que es de 40 (110 - 70). Se sabe que
ningn elemento de esta diferencia de 40 proviene de los Nuncas porque
estos no se inscriben en ningn grupo. Tambin se sabe que ningn ele-
mento de la diferencia de 40 se debe a los Siempres porque estos se inscriben
en ambos grupos. Por lo tanto, toda la diferencia de 40 tendra que deberse
al grupo Inscritos si se promueve.
El segundo paso consiste en obtener la estimacin LATE del programa de
los Inscritos si se promueve. Se sabe que la diferencia de 40 entre los grupos
con promocin y sin promocin puede atribuirse a los Inscritos si se pro-
mueve, que constituyen solo el 50% de la poblacin. Para evaluar el efecto
promedio del programa en un cumplidor, se divide 40 por el porcentaje de
Inscritos si se promueve en la poblacin. Aunque no se puede identicar
directamente a los Inscritos si se promueve, se puede deducir cul debe ser
su porcentaje de la poblacin, es decir, la diferencia en las tasas de inscrip-
cin de los grupos con promocin y sin promocin (50%, o 0,5). Por lo tanto,
la estimacin del efecto local promedio del tratamiento del programa del
grupo Inscritos si se promueve es 40/0,5 = 80.
Dado que la promocin se asigna de forma aleatoria, los grupos con pro-
mocin y sin promocin tienen iguales caractersticas. Por lo tanto, las dife-
rencias que se observan en los resultados promedio entre los dos grupos
tienen que deberse al hecho de que en el grupo con promocin los Inscritos
si se promueve se inscriben, mientras que en el grupo sin promocin no lo
hacen. Una vez ms, los impactos estimados de los Inscritos si se promueve
no deberan extrapolarse directamente a otros grupos, puesto que es proba-
ble que sean bastante diferentes de los grupos que se inscriben Nunca y
Siempre. El recuadro 5.3 presenta un ejemplo de promocin aleatoria para
un proyecto en Bolivia.

Recuadro 5.3: Promocin de inversiones en infraestructura


educativa en Bolivia
En 1991 Bolivia institucionaliz y ampli un incorpor una evaluacin de impacto al
exitoso Fondo de Inversin Social (FIS) que diseo del programa.
ofreca financiamiento a comunidades Como parte de la evaluacin de impacto
rurales para infraestructura de educacin, del componente educativo, se seleccionaron
salud y agua. El Banco Mundial, que aleatoriamente comunidades de la regin
contribua al financiamiento del fondo, de Chaco para la promocin activa del FIS.

Contina en la pgina siguiente.

118 La evaluacin de impacto en la prctica

IEP.indb 118 1/6/17 1:48 PM


Recuadro 5.3: Promocin de inversiones en infraestructura educativa en Bolivia (contina)
Estas recibieron visitas adicionales de la electricidad, las instalaciones de sanea-
incentivos para participar. El programa miento, el nmero de libros de texto por
estaba abierto a todas las comunidades estudiante y la proporcin de estudiantes
elegibles en la regin y estaba orientado a por profesor. Sin embargo, detectaron un
la demanda, ya que las comunidades deban escaso impacto en los resultados educati-
solicitar fondos para un proyecto especfico. vos, con la excepcin de un descenso de
La participacin fue mayor entre las alrededor del 2,5% en la tasa de abandono
comunidades con promocin. escolar. Como consecuencia de estas obser-
Newman et al. (2002) usaron la promo- vaciones, el Ministerio de Educacin y el FIS
cin aleatoria como variable instrumental. dedican ahora ms atencin y recursos al
Observaron que las inversiones en educa- software de la educacin, y solo financian
cin lograron mejorar la calidad de ciertos mejoras de la infraestructura fsica cuando
aspectos de la infraestructura escolar, como forman parte de una intervencin integral.

Fuente: Newman et al. (2002).

Evaluacin de impacto del HISP: promocin aleatoria

A continuacin, se procurar utilizar el mtodo de promocin aleatoria


para evaluar el impacto del HISP. Supngase que el ministerio de Salud
toma la decisin ejecutiva de que el subsidio de seguro de salud debera
estar disponible inmediatamente para cualquier hogar que quiera inscri-
birse. Ntese que se trata de un escenario diferente del caso de asigna-
cin aleatoria que se ha estudiado hasta ahora. Sin embargo, usted sabe
que en trminos realistas esta ampliacin a nivel nacional ser progresiva
lo largo del tiempo, de modo que llega a un acuerdo para intentar acelerar
la inscripcin en un subconjunto aleatorio de pueblos mediante una
campaa de promocin. En una submuestra aleatoria de los pueblos,
usted emprende un esfuerzo intensivo de promocin que incluye la
comunicacin y el marketing social con el n de crear conciencia de la
existencia del HISP. Las actividades de promocin estn diseadas cui-
dadosamente para evitar contenidos que puedan incentivar de forma
involuntaria cambios en otros comportamientos relacionados con la
salud, dado que esto invalidara la promocin como VI. En cambio, la
promocin se concentra exclusivamente en aumentar la inscripcin en el
HISP. Despus de dos aos de promocin y de implementacin del pro-
grama, se observa que el 49,2% de los hogares de los pueblos que fueron

Las variables instrumentales 119

IEP.indb 119 1/6/17 1:48 PM


asignados aleatoriamente a la promocin se ha inscrito en el programa,
mientras que solo lo ha hecho un 8,4% de los hogares de los pueblos sin
promocin (cuadro 5.1).
Dado que los pueblos con promocin y sin promocin fueron asignados
aleatoriamente, se sabe que las caractersticas promedio de los dos grupos
deberan ser las mismas en ausencia de la promocin. Dicho supuesto
puede vericarse comparando los gastos bsicos en salud (as como cual-
quier otra caracterstica) de las dos poblaciones. Despus de dos aos de
implementacin del programa, se observa que el gasto promedio en salud
en los pueblos con promocin es de US$14,97 versus US$18,85 en las zonas
sin promocin (una diferencia inferior a US$3,87). Sin embargo, dado que
la nica diferencia entre los pueblos con promocin y sin promocin es
que la inscripcin en el programa ha sido ms alta en los pueblos con pro-
mocin (gracias a la campaa de promocin), esta diferencia de US$3,87
en gastos de salud tiene que deberse al 40,78% adicional de hogares que se
inscribieron en los pueblos con promocin debido precisamente a la pro-
mocin. Por lo tanto, hay que ajustar las diferencias en gastos sanitarios
para encontrar el impacto del programa en los Inscritos si se promueve.
Para esto, se divide la estimacin de la ITT es decir, la simple diferencia
entre los grupos con promocin y sin promocin por el porcentaje de
Inscritos si se promueve: 3,87/0,4078 = US$9,49. Su colega, un especialista
en econometra que sugiere utilizar la promocin aleatoria como variable
instrumental, estima el impacto del programa mediante un procedimiento
de mnimos cuadrados en dos etapas (vase el manual tcnico en lnea en

Cuadro 5.1 Evaluacin del HISP segn la promocin aleatoria


(comparacin de medias)

Pueblos con Pueblos sin


promocin promocin Diferencia t-estadstico
Lnea de
base: gasto
en salud de
los hogares 17,19 17,24 0,05 0,47
Encuesta de
seguimiento:
gasto en
salud de los
hogares 14,97 18,85 3,87 16,43
Participacin
en el HISP 49,20% 8,42% 40,78% 49,85

** Significativo al nivel del 1%.

120 La evaluacin de impacto en la prctica

IEP.indb 120 1/6/17 1:48 PM


Cuadro 5.2 Evaluacin del HISP segn la promocin aleatoria
(anlisis de regresin)

Regresin lineal Regresin lineal multivariante


Impacto estimado
sobre el gasto en 9,50** 9,74**
salud de los hogares (0,52) (0,46)

Nota: Los errores estndares se encuentran entre parntesis.


** Significativo al nivel del 1%.

www.worldbank.org/ieinpractice para ms detalles sobre el enfoque eco-


nomtrico para estimar los impactos con VI). Su colega encuentra los
resultados que aparecen en el cuadro 5.2. Este impacto estimado es vlido
para aquellos hogares que se inscribieron en el programa debido a la pro-
mocin, pero que de otra manera no se habran inscrito: en otras palabras,
los Inscritos si se promueve.

Pregunta HISP 4

A. Cules son las condiciones clave requeridas para aceptar los resulta-
dos de la evaluacin de promocin aleatoria del HISP?
B. Sobre la base de estos resultados, se debera ampliar el HISP a nivel
nacional?

Limitaciones del mtodo de promocin aleatoria

La promocin aleatoria es una estrategia til para evaluar el impacto de


programas voluntarios y programas con elegibilidad universal, sobre todo
porque no requiere la exclusin de ninguna unidad elegible. Sin embargo, el
enfoque tiene algunas limitaciones en comparacin con la asignacin alea-
toria del tratamiento.
En primer lugar, la estrategia de promocin debe ser efectiva. Si la cam-
paa de promocin no aumenta la inscripcin, no aparecer ninguna diferen-
cia entre los grupos con promocin y sin promocin, y no habr nada que
comparar. Por lo tanto, es crucial disear cuidadosamente la campaa de pro-
mocin y realizar una prueba piloto extensiva de la misma para asegurarse de
que ser efectiva. El aspecto positivo es que el diseo de dicha campaa puede
ayudar a los administradores del programa ensendoles cmo aumentar la
inscripcin despus de que haya concluido el perodo de evaluacin.
En segundo lugar, el mtodo de promocin aleatoria permite estimar el
impacto del programa solo para un subconjunto de la poblacin de unidades
Las variables instrumentales 121

IEP.indb 121 1/6/17 1:48 PM


elegibles (un LATE). Concretamente, el impacto promedio local del programa
se estima a partir del grupo de individuos que se inscriben nicamente cuando
se les incentiva a hacerlo. Sin embargo, puede que los individuos de este grupo
tengan caractersticas muy diferentes de aquellos que siempre se inscriben o
nunca se inscriben. Por lo tanto, el efecto promedio del tratamiento para el
conjunto de la poblacin puede ser distinto del efecto del tratamiento prome-
dio estimado para los individuos que participan solo cuando se les incentiva.
Una evaluacin con promocin aleatoria no estimar los impactos en el grupo
de individuos que se inscriben en el programa sin ser incentivados. En algu-
nos casos, este grupo (los Siempres) puede ser precisamente el grupo que el
programa est diseado para beneciar. En este contexto, el diseo de promo-
cin aleatoria arrojar luz sobre los impactos esperados en nuevas poblacio-
nes que se inscribiran debido a la promocin adicional, pero no en cuanto a la
poblacin que ya se ha inscrito por su propia iniciativa.

Lista de verificacin: promocin aleatoria como


variable instrumental

La promocin aleatoria genera estimaciones vlidas del contrafactual si la


campaa de promocin aumenta de forma considerable la aceptacin del
programa sin inuir directamente en los resultados de inters.
Las caractersticas de lnea de base, estn equilibradas entre las unida-
des que recibieron la campaa de promocin y aquellas que no la recibie-
ron? Comprense las caractersticas de lnea de base de los dos grupos.
La campaa de promocin, ha inuido de forma considerable en la acep-
tacin del programa? Tendra que inuir. Comprense las tasas de acep-
tacin del programa en las submuestras con promocin y sin promocin.
La campaa de promocin, inuye directamente en los resultados?
Notendra que inuir. Esto no puede comprobarse directamente, de modo
que tiene que depender de la teora, del sentido comn y del conocimiento
adecuado del entorno de la evaluacin de impacto como gua.

Recursos adicionales

Para material de apoyo del libro e hipervnculos a recursos adicionales,


serecomienda consultar el sitio web de la Evaluacin de Impacto en la
Prctica (http://www.worldbank.org/ieinpractice).
Para otros recursos sobre VI, vase el portal de evaluacin del Banco
Interamericano de Desarrollo (BID) (http//:www.iadb.org/portalevaluacion).
122 La evaluacin de impacto en la prctica

IEP.indb 122 1/6/17 1:48 PM


Notas

1. En la ciencia mdica, los pacientes del grupo de comparacin suelen recibir


un placebo, es decir, una pldora edulcorada que no tendr efecto en el
resultado previsto. Esto se hace con el n de controlar mejor el efecto placebo,
es decir, los cambios potenciales en la conducta y los resultados que podran
darse sencillamente por el acto de recibir un tratamiento, aunque el trata-
miento mismo sea inefectivo.
2. Estos dos pasos corresponden a la tcnica economtrica de mnimos cuadrados
en dos etapas, que produce una estimacin del efecto local promedio del
tratamiento.

Referencias bibliogrficas

Angrist, J., E. Bettinger, E. Bloom, E. King y M. Kremer. 2002. Vouchers for Private
Schooling in Colombia: Evidence from a Randomized Natural Experiment.
American Economic Review 92 (5): 153558.
Kearney, M. S. y P. B. Levine. 2015. Early Childhood Education by MOOC: Lessons
from Sesame Street. Documento de trabajo NBER 21229, National Bureau of
Economic Research, Cambridge, MA.
Newman, J., M. Pradhan, L. B. Rawlings, G. Ridder, R. Coa y J. L. Evia. 2002. An
Impact Evaluation of Education, Health, and Water Supply Investments by the
Bolivian Social Investment Fund. World Bank Economic Review 16 (2): 24174.

Las variables instrumentales 123

IEP.indb 123 1/6/17 1:48 PM


IEP.indb 124 1/6/17 1:48 PM
CAPTULO 6

Diseo de regresin discontinua

Evaluacin de programas que utilizan un ndice


de elegibilidad

Los programas sociales a menudo utilizan un ndice para decidir quin


tiene derecho a inscribirse en un programa y quin no. Por ejemplo, los
programas de lucha contra la pobreza suelen focalizarse en los hogares
pobres, identicados mediante una puntuacin o un ndice de la pobreza.
El ndice de pobreza se puede basar en una frmula que mide un conjunto
de activos bsicos del hogar como factor aproximado (o estimativo) de sus
medios (como el ingreso, el consumo o el poder adquisitivo).1 Se clasica a
los hogares con baja puntuacin como pobres, y a los hogares con puntua-
ciones ms altas se les considera relativamente acomodados. Los progra-
mas de lucha contra la pobreza suelen establecer un umbral o una
puntuacin lmite, por debajo del cual se determina la condicin de
pobreza y la elegibilidad para el programa. El sistema de seleccin de
beneciarios del gasto social en Colombia es un ejemplo de este tipo
deesquema (vase el recuadro 6.1). Las puntuaciones en las pruebas edu-
cativas constituyen otro ejemplo (recuadro 6.3). Se puede conceder la
admisin a la universidad a los individuos que obtienen los mejores resul-
tados en las pruebas estandarizadas, calicados desde el ms bajo al ms
alto. Siel nmero de becas es limitado, solo sern admitidos los alumnos
conpuntuaciones por encima de un cierto umbral (como, por ejemplo, el
10% superior de los alumnos). En ambos ejemplos hay un ndice de
125

IEP.indb 125 1/6/17 1:48 PM


Recuadro 6.1: Uso del diseo de regresin discontinua para
evaluar el impacto de la reduccin de las tarifas escolares en
los ndices de matriculacin en Colombia
Barrera-Osorio, Linden y Urquiola (2007) uti- puntuacin SISBEN en la lnea de base;
lizaron un diseo de regresin discontinua en otras palabras, no hay saltos en las
(DRD) para evaluar el impacto de un pro- caractersticas en la puntuacin SISBEN. En
grama para reducir las tarifas escolares en segundo lugar, los hogares en ambos lados
Colombia (Gratuidad) sobre los ndices de de las puntuaciones lmite tienen caractersti-
matriculacin en los colegios de la ciudad cas similares, y generan grupos de compara-
de Bogot. El programa defini su poblacin cin crebles. En tercer lugar, se dispona de
objetivo sobre la base del SISBEN, un ndice una muestra grande de hogares. Por ltimo,
continuo de pobreza cuyo valor est deter- el gobierno mantuvo en secreto la frmula
minado por caractersticas de los hogares, utilizada para calcular el ndice SISBEN, de
como la ubicacin, los materiales de cons- modo que no se pudieran manipular las
truccin de la vivienda, los servicios de los puntuaciones.
que dispone, la demografa, la salud, la edu- Al usar el mtodo DRD, los investigado-
cacin, el ingreso y las ocupaciones de los res observaron que el programa tuvo un
miembros de la familia. El gobierno estable- impacto positivo significativo en los ndices
ci dos puntuaciones lmite en el ndice de matriculacin escolar. Concretamente, la
SISBEN. As, los nios de los hogares con matriculacin fue 3 puntos porcentuales
puntuaciones inferiores a la primera puntua- ms alta en los alumnos de primaria de
cin lmite eran elegibles para recibir educa- hogares con puntuaciones inferiores a la
cin gratuita entre los grados 1 y 11, los primera puntuacin lmite y 6 puntos por-
nios de los hogares cuyas puntuaciones se centuales ms alta en los alumnos de
hallaban entre la primera y la segunda pun- secundaria de los hogares ubicados entre la
tuacin eran elegibles para un subsidio del primera y la segunda puntuacin lmite. Este
50% en las tarifas para los grados 10 y 11, y estudio aporta evidencia sobre los benefi-
los nios de los hogares con puntuaciones cios de reducir los costos directos de la
superiores a la segunda puntuacin no eran escolarizacin, sobre todo entre los alum-
elegibles para recibir educacin gratuita ni nos en situacin de riesgo. Sin embargo,
subsidios. sus autores tambin recomiendan una
Los autores utilizaron un DRD por cuatro investigacin ms detallada sobre las elasti-
motivos. En primer lugar, las caractersticas cidades con respecto al precio para funda-
del hogar, como el ingreso o el nivel educa- mentar mejor el diseo de los programas
tivo del jefe de familia, son continuos en la de subsidios como este.

Fuente: Barrera-Osorio, Linden y Urquiola (2007).

126 La evaluacin de impacto en la prctica

IEP.indb 126 1/6/17 1:48 PM


elegibilidad continuo, as como tambin un umbral o una puntuacin
lmite que determina quin es elegible y quin no lo es.
El diseo de regresin discontinua (DRD) es un mtodo de evaluacin de
impacto que se puede utilizar en programas que tienen un ndice de elegibi-
lidad continuo con un umbral (puntuacin lmite) de elegibilidad denido
con claridad para determinar quin es elegible y quin no lo es. A n de
aplicar un DRD, deben cumplirse las siguientes condiciones:

1. El ndice debe clasicar a las personas o unidades de una manera conti-


nua o uida. ndices como el de pobreza, las puntuaciones de las
pruebas estandarizadas o la edad tienen numerosos valores que se pue-
den ordenar de menor a mayor y, por lo tanto, se pueden considerar
continuos. En cambio, las variables con categoras discretas que solo
tienen unos pocos valores posibles o no se pueden ordenar, no se consi-
deran continuas. Ejemplos de esta ltima clase son la condicin laboral
(empleado o desempleado), el nivel ms alto de estudios alcanzado
(primario, secundario, universitario o posgrado), la propiedad de un
automvil (s o no) o el pas de nacimiento.

2. El ndice debe tener una puntuacin lmite claramente denida, es decir,


un punto por debajo o por encima del cual se clasica a la poblacin
como elegible para el programa. Por ejemplo, los hogares con un ndice
de pobreza igual o menor a 50 sobre 100 se podran clasicar como
pobres, los individuos mayores de 67 aos se podran clasicar como ele-
gibles para una jubilacin, y los alumnos con una puntuacin superior a
90 sobre 100 podran considerarse elegibles para una beca. Las puntua-
ciones lmite en estos ejemplos son 50, 67 y 90 respectivamente.

3. La puntuacin lmite debe ser nica para el programa de inters, es decir, Concepto clave
aparte del programa que se evala, no debera haber otros programas que El diseo de regresin
utilicen la misma puntuacin lmite. Por ejemplo, si un ndice de pobreza discontinua (DRD) es un
por debajo de 50 clasica a un hogar para recibir una transferencia de mtodo de evaluacin de
impacto adecuado para
efectivo, un seguro de salud y transporte pblico gratis, no se podra uti-
programas que utilizan
lizar el mtodo DRD para estimar por s solo el impacto del programa de un ndice continuo para
transferencias de efectivo. clasificar a los
participantes potenciales
4. La puntuacin de un individuo o una unidad particular no puede ser y que tienen una
manipulada por los encuestadores, los beneciarios potenciales, los puntuacin lmite en el
administradores del programa o los polticos. ndice que determina si
los participantes
El DRD estima el impacto en torno a la puntuacin lmite de elegibilidad potenciales tienen
como la diferencia entre el resultado promedio de unidades del lado tratado derecho o no a
de la puntuacin lmite de elegibilidad y el resultado promedio de unidades beneficiarse del
en el lado no tratado (comparacin) de la puntuacin lmite. programa.

Diseo de regresin discontinua 127

IEP.indb 127 1/6/17 1:48 PM


Pinsese en un programa agrcola cuyo n es aumentar la produccin
total de arroz subsidiando la compra de fertilizantes de los agricultores. El
programa est destinado a ncas pequeas y medianas con menos de 50
hectreas. Antes del comienzo del programa, se puede esperar que las ncas
ms pequeas tengan una produccin menor que las grandes, como se
muestra en el grco 6.1, que ilustra el tamao de la nca y la produccin de
arroz. En este caso, la puntuacin de elegibilidad es el nmero de hectreas
de la nca, y la puntuacin lmite es de 50 hectreas. Las reglas del pro-
grama establecen que las ncas por debajo de 50 hectreas son elegibles
para recibir subsidios para fertilizantes, y las ncas de 50 o ms hectreas no
lo son. Entonces, se puede prever que participar del programa una canti-
dad de ncas de 48, 49 o incluso 49,9 hectreas. Y habr otro grupo con 50,
50,1 y 50,2 hectreas que no participar del programa, porque esas ncas
superan la puntuacin lmite. Es probable que el grupo de ncas con 49,9
hectreas sea muy similar al grupo de aquellas que tienen 50,1 hectreas en
todos los aspectos, salvo que un grupo recibi el subsidio para fertilizantes y
el otro no. A medida que nos alejamos de la puntuacin lmite de elegibili-
dad, hay ms diferencias entre las ncas elegibles. Sin embargo, la extensin
de las ncas es una buena medida de sus diferencias, y permite controlar por
una buena parte de esas diferencias.

Grfico 6.1 Produccin de arroz, fincas pequeas vs. fincas grandes


(lnea de base)
Produccin de arroz (fanegas por hectrea)

20

19

18

17

16

15
20 30 40 50 60 70 80

Hectreas de terreno

= produccin de las fincas > 50 hectreas


= produccin de las fincas < 50 hectreas

128 La evaluacin de impacto en la prctica

IEP.indb 128 1/6/17 1:48 PM


Una vez que el programa se pone en marcha y subvenciona el costo del
fertilizante de las ncas pequeas y medianas, la evaluacin de impacto
podra utilizar un DRD para evaluar su impacto (grco 6.2). El DRD cal-
cula el impacto como la diferencia en los resultados, por ejemplo, de la pro-
duccin de arroz, entre las unidades a ambos lados del lmite de elegibilidad,
que en este caso es un tamao de nca de 50 hectreas. Las ncas que eran
demasiado grandes para inscribirse en el programa constituyen el grupo de
comparacin y generan una estimacin del resultado contrafactual de esas
ncas del grupo de tratamiento que eran justo lo sucientemente pequeas
para inscribirse. Dado que estos dos grupos eran muy similares en la lnea de
base y estn expuestos al mismo conjunto de factores externos a lo largo del
tiempo (como el clima, los shocks de precios y las polticas agrcolas locales
y nacionales), el nico motivo plausible de la diferencia en los resultados
tiene que ser el propio programa.
Dado que el grupo de comparacin est compuesto por ncas que
superan la puntuacin de elegibilidad, el impacto dado por un DRD es
vlido solo a nivel local, es decir, en la cercana del lmite de elegibili-
dad. De esta manera, se obtiene una estimacin de un efecto local prome-
dio del tratamiento (LATE) (vase el captulo 5). El impacto del programa
de subvenciones de fertilizantes es vlido para las ncas ms grandes

Grfico 6.2 Produccin de arroz, fincas pequeas vs. fincas grandes


(seguimiento)
Produccin de arroz (fanegas por hectrea)

20

19

A
18

17
B
A
16 = Impacto
B

15
20 30 40 50 60 70 80
Hectreas de terreno
= produccin de las fincas > 50 hectreas
= produccin de las fincas < 50 hectreas

Diseo de regresin discontinua 129

IEP.indb 129 1/6/17 1:48 PM


dentro de aquellas de tamao medio, es decir, aquellas cuya extensin se
halla justo por debajo de las 50 hectreas. La evaluacin de impacto no
ser necesariamente capaz de identicar directamente el impacto del
programa en las ncas ms pequeas por ejemplo, las de 10 o 20 hect-
reas de supercie, donde los efectos de una subvencin de los fertili-
zantes podran diferir en aspectos importantes de las ncas de tamao
medio de 48 o 49 hectreas. Una ventaja del mtodo DRD es que una vez
que se aplican las reglas de elegibilidad del programa, no es preciso dejar
a ninguna unidad elegible sin tratamiento para los nes de la evaluacin
de impacto. La otra cara de la moneda es que los impactos de las obser-
vaciones lejos de la puntuacin lmite no se conocern. El recuadro 6.2
presenta un ejemplo del uso del DRD para evaluar un programa de redes
de proteccin social en Jamaica.

Recuadro 6.2: Redes de proteccin social basadas en un ndice de


pobreza en Jamaica
El mtodo de diseo de regresin puntuacin, Levy y Ohls (2010) pudieron
discontinua (DRD) se utiliz para evaluar el comparar los hogares justo por debajo del
impacto de una iniciativa de redes de umbral de elegibilidad con los hogares justo
proteccin social en Jamaica. En 2001 el por encima (con una diferencia de entre 2 y
gobierno de este pas lanz el programa 15 puntos con respecto a la puntuacin
Advancement through Health and Education lmite). Los investigadores justificaron el uso
(PATH) (Salud y Educacin para el Progreso) del mtodo de DRD con datos de lnea de
destinado a aumentar las inversiones en base que mostraban que los hogares de
capital humano y mejorar la focalizacin de tratamiento y comparacin tenan niveles
los beneficios de las prestaciones sociales similares de pobreza, medidos por las pun-
para los pobres. El programa ofreca tuaciones de tipo proxy mean, y niveles
subsidios de salud y educacin a los nios similares de motivacin, dado que todos los
de los hogares pobres elegibles, con la hogares de la muestra haban postulado al
condicin de que asistieran a la escuela y programa. Los investigadores tambin utili-
realizaran chequeos mdicos de manera zaron la puntuacin de elegibilidad del pro-
regular. El beneficio mensual promedio para grama en el anlisis de regresin para
cada nio fue de alrededor de US$6,50, controlar por cualquier diferencia entre
adems de una exencin estatal de ciertas ambos grupos.
tasas en salud y educacin. Levy y Ohls (2010) llegaron a la conclusin
Despus de determinar la elegibilidad de que el programa PATH aumentaba la
para el programa con una frmula de asistencia escolar de los nios de entre 6 y

Contina en la pgina siguiente.

130 La evaluacin de impacto en la prctica

IEP.indb 130 1/6/17 1:48 PM


Recuadro 6.2: Redes de proteccin social basadas en un ndice de pobreza en Jamaica (contina)

17 aos en una media de 0,5 das al mes, lo de que la magnitud de los impactos que
cual es significativo, dado que la tasa de hallaron era en general consistente con los
asistencia ya era bastante alta (85%). programas de transferencias condicionadas
Adems, las visitas a los centros de salud de implementados en otros pases. Un aspecto
nios de 0 a 6 aos aumentaron en alrededor final interesante de esta evaluacin es
de un 38%. Aunque los investigadores no que recopil tanto datos cuantitativos
pudieron encontrar ningn impacto de ms como cualitativos, utilizando sistemas de
largo plazo en los logros escolares ni en la informacin, entrevistas, grupos focales y
condicin de salud, llegaron a la conclusin encuestas de hogares.

Fuente: Levy y Ohls (2010).

El diseo de regresin discontinua difuso

Aun cuando se haya vericado que no existe evidencia de manipulacin en


el ndice de elegibilidad, puede que todava persista un problema si las uni-
dades no respetan su asignacin al grupo de tratamiento o de compara-
cin. En otras palabras, algunas unidades que tienen derecho al programa
sobre la base de su ndice de elegibilidad pueden decidir no participar,
mientras que otras unidades que no tenan derecho al programa sobre la
base de su ndice de elegibilidad pueden encontrar un modo de participar
de todas maneras. Cuando todas las unidades cumplen con la asignacin
que les corresponde sobre la base de su ndice de elegibilidad, se dice que
el DRD es ntido, y si hay incumplimiento en alguno de los lados de la
puntuacin lmite, se dice que el DRD es difuso (grco 6.3). Si el DRD es
difuso, se puede utilizar el enfoque de variable instrumental para corregir
por la falta de cumplimiento (vase el captulo 5). Recurdese que en el
caso de la asignacin aleatoria con incumplimiento, se utiliza la asignacin
aleatoria como la variable instrumental que ayud a corregir por la falta de
cumplimiento. En el caso del DRD, se puede usar la asignacin original
basada en el ndice de elegibilidad como variable instrumental. Sin
embargo, hacerlo tiene un inconveniente, a saber, que la estimacin de
impacto con el DRD instrumental ser ms localizada en el sentido de que
ya no es vlida para todas las observaciones cercanas a la puntuacin lmite
sino que representa el impacto para el subgrupo de la poblacin situada
cerca de la puntuacin lmite y que participa en el programa solo debido a
los criterios de elegibilidad.
Diseo de regresin discontinua 131

IEP.indb 131 1/6/17 1:48 PM


Grfico 6.3 Cumplimiento de la asignacin

a. DRD ntido b. DRD difuso


(pleno cumplimiento) (cumplimiento incompleto)

Porcentaje de hogares
Porcentaje de hogares

que participan
que participan 100 100

50 50

10 10

30 40 50 60 70 80 30 40 50 60 70 80
ndice de pobreza de la ndice de pobreza de la
lnea de base lnea de base

Verificacin de la validez del diseo de regresin


discontinua

Para que un DRD produzca una estimacin LATE no sesgada de la puntua-


cin lmite, es importante que el ndice de elegibilidad no sea manipulado en
la cercana de la puntuacin lmite de modo que un individuo pueda cambiar
su condicin de tratamiento o control.2 La manipulacin de los criterios de
elegibilidad puede adoptar numerosas formas. Por ejemplo, los encuestadores
que recopilan los datos que se utilizan para calcular la puntuacin de elegibi-
lidad podran cambiar una o dos respuestas de los encuestados; o puede que
los encuestados mientan deliberadamente a los encuestadores si creen que
con eso tendrn acceso al programa. Adems, la manipulacin de las
puntuaciones puede agravarse a lo largo del tiempo, a medida que los encues-
tadores, los encuestados y los polticos comienzan a aprender las reglas del
juego. En el ejemplo de la subvencin de los fertilizantes, la manipulacin en
torno al lmite se producira si los agricultores pudieran alterar los ttulos de
propiedad o si dieran informes falsos sobre el tamao de sus ncas. O un
agricultor con 50,3 hectreas de tierra podra encontrar una manera de vender
media hectrea para ser elegible para el programa, en el caso de que los bene-
cios previstos de la subvencin a los fertilizantes merecieran la pena hacerlo.
Una de las seales que delata la manipulacin se ilustra en el grco 6.4.
El panel (a) muestra la distribucin de los hogares segn su ndice de lnea
de base cuando no hay manipulacin. La densidad de los hogares en torno al
lmite (50) es continua (o uida). El panel (b) presenta una situacin dife-
rente: un nmero mayor de hogares parecen estar agrupados justo por
132 La evaluacin de impacto en la prctica

IEP.indb 132 1/6/17 1:48 PM


Grfico 6.4 Manipulacin del ndice de elegibilidad

a. Sin manipulacin b. Manipulacin


Porcentaje de hogares

Porcentaje de hogares
No elegible No elegible

Elegible Elegible

20 30 40 50 60 70 80 90 20 30 40 50 60 70 80 90
ndice de pobreza de la lnea de base ndice de pobreza de la lnea de base

Recuadro 6.3: El efecto en el desempeo escolar de la agrupacin


de alumnos segn sus puntuaciones en las pruebas educativas
en Kenia
Para comprobar si la asignacin de alumnos mejores resultados que aquellos asignados a
a clases sobre la base del desempeo mejora la seccin de bajo desempeo.
los resultados educativos, Duflo, Dupas y En promedio, las puntuaciones de las prue-
Kemer (2011) llevaron a cabo un experimento bas finales de los colegios que agruparon
con 121 escuelas primarias en la regin occi- estudiantes en clases con niveles similares de
dental de Kenia. En la mitad de las escuelas, desempeo fueron 0,14 desviaciones estn-
los alumnos de primer grado fueron distribui- dar ms altas que en el caso de los colegios
dos de forma aleatoria en dos diferentes sec- que no usaron este mtodo y en cambio utili-
ciones de la clase. En la otra mitad de los zaron la asignacin aleatoria para crear grupos
colegios, los alumnos fueron asignados a equivalentes de estudiantes. Estos resultados
una seccin de alto o de bajo desempeo no fueron solo producto de los alumnos en las
segn sus puntuaciones en las pruebas ini- secciones de alto desempeo, dado que los
ciales, usando la puntuacin de las pruebas estudiantes de la seccin de bajo desempeo
educativas como punto lmite. tambin mostraron mejoras en las puntuacio-
El diseo de regresin discontinua (DRD) nes de las pruebas. En el caso de los alumnos
les permiti comprobar a los autores si la com- justo en torno a la puntuacin lmite, los inves-
posicin de los alumnos de una clase tena un tigadores encontraron que no haba una dife-
efecto directo en las puntuaciones de las prue- rencia significativa en las puntuaciones finales
bas. Los investigadores compararon las pun- de las pruebas. Estas conclusiones rechazan
tuaciones finales de las pruebas de los alumnos la hiptesis de que los alumnos se benefician
justo en torno al lmite para ver si aquellos asig- directamente al tener compaeros de clase
nados a la seccin de alto desempeo tenan con un desempeo superior.

Fuente: Duflo, Dupas y Kemer (2011).

Diseo de regresin discontinua 133

IEP.indb 133 1/6/17 1:48 PM


debajo del lmite, mientras que hay relativamente pocos hogares justo por
encima del lmite. Dado que no hay un motivo a priori para creer que debe-
ra haber un gran cambio en el nmero de hogares justo en torno al lmite, la
ocurrencia de ese cambio en la distribucin en torno al lmite es una prueba
de que de alguna manera los hogares pueden estar manipulando sus pun-
tuaciones para tener acceso al programa. Una segunda prueba de manipula-
cin graca el ndice de elegibilidad en relacin con la variable de resultado
en la lnea de base y verica que no haya discontinuidad, o un salto, justo
en torno a la lnea del lmite.

Evaluacin de impacto del HISP: diseo de regresin


discontinua

Pinsese en cmo se puede aplicar el mtodo de diseo de regresin


discontinua (DRD) al Programa de Subsidios de Seguros de Salud (HISP).
Despus de llevar a cabo investigaciones sobre el diseo del HISP, se
descubre que adems de seleccionar aleatoriamente los pueblos de trata-
miento, las autoridades localizaron el programa en los hogares de bajos
ingresos utilizando la lnea nacional de pobreza. La lnea de la pobreza se
basa en un ndice de pobreza que asigna a cada hogar en el pas una pun-
tuacin entre 20 y 100 en funcin de sus activos, las condiciones de la
vivienda y la estructura sociodemogrca. La lnea de pobreza ha sido
jada ocialmente en 58. Esto signica que todos los hogares con una
puntuacin de 58 o menos se clasican como pobres, y que todos los
hogares con una puntuacin de ms de 58 se consideran no pobres.
Incluso en los pueblos de tratamiento, solo los hogares pobres son elegi-
bles para inscribirse en el HISP. La base de datos con la que se cuenta
contiene informacin tanto de los hogares pobres como de los no pobres
en las comunidades de tratamiento.
Antes de llevar a cabo las estimaciones del diseo de regresin discon-
tinua, se decide vericar si hay evidencia de manipulacin del ndice de
elegibilidad. Como primera medida, se verica si la densidad del ndice
de elegibilidad suscita alguna preocupacin a propsito de la manipula-
cin del ndice. Luego se graca el porcentaje de hogares en contraste con
el ndice de pobreza de la lnea de base (grco 6.5).3 El grco no seala
ninguna concentracin de los hogares justo por debajo del lmite de 58.
A continuacin, se verica si los hogares respetaron su asignacin a
los grupos de tratamiento y comparacin sobre la base de su puntuacin
de elegibilidad. Se grca la participacin en el programa en contraste
con el ndice de pobreza de lnea de base (grco 6.6) y se observa que

134 La evaluacin de impacto en la prctica

IEP.indb 134 1/6/17 1:48 PM


Grfico 6.5 HISP: densidad de los hogares, segn el ndice de pobreza de
lnea de base

0,04

0,03
Densidad estimada

0,02

0,01

Elegible No elegible

58
0
20 40 60 80 100
ndice de pobreza de la lnea de base (20100)

Grfico 6.6 Participacin en el HISP, segn el ndice de pobreza de lnea


de base

1,0
Tasa de participacin en el HISP

0,8

0,6

Elegible No elegible

0,4

0,2

0
20 40 60 80 100
ndice de pobreza de la lnea de base (20100)

Diseo de regresin discontinua 135

IEP.indb 135 1/6/17 1:48 PM


dos aos despus del comienzo del plan piloto, solo los hogares con una
puntuacin de 58 o menos (es decir, a la izquierda de la lnea de la
pobreza) han podido inscribirse en el HISP. Adems, todos los hogares
elegibles se inscribieron en el HISP. En otras palabras, se observa un
cumplimiento total, por lo cual se obtiene un DRD ntido.
A continuacin, se procede a aplicar el mtodo de DRD para calcular
el impacto del programa. Utilizando datos del seguimiento, se vuelve a
gracar la relacin entre las puntuaciones en el ndice de pobreza y los
gastos previstos en salud, y se observa la relacin que se ilustra en el
grco 6.7. En la relacin entre el ndice de pobreza y los gastos previstos
en salud, se encuentra una clara ruptura, o discontinuidad de la lnea de
pobreza (58).
La discontinuidad reeja una disminucin de los gastos en salud en
aquellos hogares elegibles para beneciarse del programa. Dado que los
hogares en ambos lados de la puntuacin lmite de 58 son muy similares,
la explicacin plausible de la diferencia en el nivel de gastos en salud es
que un grupo de los hogares era elegible para inscribirse en el programa
y el otro no. Esta diferencia se estima a travs de una regresin con los
datos recogidos en el cuadro 6.1.

Grfico 6.7 ndice de pobreza y gastos en salud: el HISP dos aos despus

60
Gastos en salud (dlares de EE.UU.)

Elegible No elegible

40

20 A

0 58
20 40 60 80 100
ndice de pobreza de la lnea de base (20100)

Gastos en salud (dlares de EE.UU.) Valores ajustados


Impacto estimado en el gasto en salud

136 La evaluacin de impacto en la prctica

IEP.indb 136 1/6/17 1:48 PM


Cuadro 6.1 Evaluacin del HISP: diseo de regresin discontinua con
anlisis de regresin

Regresin lineal multivariante


Impacto estimado en el gasto en salud de 9,03**
los hogares (0,43)

Nota: Los errores estndar estn entre parntesis. ** Significativo al nivel del 1%.

Pregunta HISP 5

A. El resultado que se reeja en el cuadro 6.1, es vlido para todos los


hogares elegibles?
B. En comparacin con el impacto estimado con la asignacin aleatoria,
qu dice este resultado con respecto a los hogares con un ndice de
pobreza justo por debajo de 58?
C. De acuerdo con las estimaciones de impacto del DRD, se debera
ampliar el HISP a nivel nacional?

Limitaciones e interpretaciones del mtodo de


diseo de regresin discontinua

El diseo de regresin discontinua proporciona estimaciones del LATE en


torno al lmite de elegibilidad en el punto en que las unidades de trata-
miento y comparacin son ms similares. Cuanto ms se acerque uno a la
puntuacin lmite, ms similares sern las unidades a cada lado del umbral.
De hecho, si uno se aproxima mucho a la puntuacin lmite, las unidades a
ambos lados del umbral sern tan similares que su comparacin ser tan
buena como si los grupos de tratamiento y de comparacin se hubieran
elegido mediante la asignacin aleatoria del tratamiento.
Dado que el mtodo de DRD estima el impacto del programa en torno a
la puntuacin lmite, o localmente, la estimacin no se puede necesaria-
mente generalizar a unidades cuyas puntuaciones se alejan ms del umbral,
es decir, donde los individuos elegibles y no elegibles quiz no sean tan
similares. El hecho de que el mtodo de DRD no pueda proporcionar una
estimacin de un efecto de tratamiento promedio para todos los participan-
tes del programa puede verse a la vez como una fortaleza y como una limita-
cin, lo cual depende de la pregunta de la evaluacin de inters. Si la

Diseo de regresin discontinua 137

IEP.indb 137 1/6/17 1:48 PM


evaluacin pretende responder la pregunta el programa debera existir o
no?, el efecto de tratamiento promedio para toda la poblacin elegible puede
ser el parmetro ms relevante, y es evidente que el DRD no ser del todo
perfecto. Sin embargo, si la cuestin de inters para las polticas es el pro-
grama debera suspenderse o ampliarse? es decir, para los beneciarios
(potenciales) justo en las inmediaciones del lmite, el DRD produce preci-
samente la estimacin local de inters para sustentar esta importante deci-
sin de poltica.
Como ya se seal, pueden surgir otras complicaciones cuando el cum-
plimiento en cualquiera de los dos lados del lmite es imperfecto. Este DRD
difuso se produce cuando las unidades que no son elegibles debido a su pun-
tuacin en el ndice consiguen tener acceso al programa, o cuando las unida-
des elegibles segn la puntuacin del ndice deciden no participar en el
programa. En este caso, se puede utilizar una metodologa de variable ins-
trumental similar a la denida en el captulo 5, a saber, la localizacin de las
unidades por encima o por debajo de la puntuacin lmite se usar como
variable instrumental para la participacin observada en el programa. Como
suceda en los ejemplos del captulo 5, esto tiene un inconveniente: solo se
puede estimar el impacto de aquellas unidades que son sensibles al crite-
rio de elegibilidad, esto es si se trata del tipo Inscrito si es elegible, pero no si
se trata del tipo Siempres o Nuncas.
El hecho de que el mtodo de DRD estime el impacto solo en las inmedia-
ciones de las puntuaciones lmite tambin genera dicultades en trminos
de la potencia estadstica del anlisis. En ocasiones, solo se emplea en el an-
lisis un conjunto limitado de observaciones que se sitan cerca de la puntua-
cin lmite, con lo cual el nmero de observaciones en el anlisis de DRD se
reduce, en comparacin con los mtodos que analizan todas las unidades en
los grupos de tratamiento y comparacin. Para obtener una potencia esta-
dstica suciente al aplicar el DRD, habr que utilizar un ancho de banda en
torno a la puntuacin lmite que incluya un nmero suciente de observa-
ciones. En la prctica, se debera intentar utilizar un ancho de banda lo ms
amplio posible, a la vez que se conserva el equilibrio en las caractersticas
observadas de la poblacin por encima y por debajo de la puntuacin lmite.
Luego, se puede aplicar la estimacin varias veces usando diferentes anchos
de banda para vericar si las estimaciones son sensibles al ancho de banda
utilizado.
Es necesario formular otra advertencia al utilizar el mtodo de DRD, a
saber, la especicacin puede ser sensible a la forma funcional que se emplea
para modelar la relacin entre la puntuacin de elegibilidad y el resultado
de inters. En los ejemplos presentados en este captulo, se da por sentado
que la relacin entre el ndice de elegibilidad y el resultado es lineal. En rea-
lidad, la relacin podra ser ms compleja, e incluir relaciones no lineales e
138 La evaluacin de impacto en la prctica

IEP.indb 138 1/6/17 1:48 PM


interacciones entre variables. Si uno no se da cuenta de estas relaciones
complejas en la estimacin, se las puede confundir con una discontinuidad,
lo que llevara a una interpretacin incorrecta de la estimacin de impacto
con DRD. En la prctica, se puede estimar el impacto del programa utili-
zando diversas formas funcionales (lineales, cuadrticas, cbicas, curticas,
y otras similares) para evaluar si, de hecho, las estimaciones de impacto son
sensibles a la forma funcional.
Por ltimo, como se seala ms arriba, hay unas cuantas condiciones
importantes para la regla de elegibilidad y el umbral. En primer lugar, deben
ser nicos del programa de inters. Por ejemplo, puede utilizarse un ndice
de pobreza que establezca un ranking de hogares o individuos para focalizar
una diversidad de programas sociales para los pobres. En este caso, no ser
posible aislar el impacto de un solo programa de lucha especca contra la
pobreza de todos los dems programas que utilizan los mismos criterios de
focalizacin. En segundo lugar, la regla de elegibilidad y el umbral deberan
ser resistentes a la manipulacin de los encuestadores, los beneciarios
potenciales, los administradores de los programas o los polticos. La mani-
pulacin del ndice de elegibilidad crea una discontinuidad en el ndice que
socava la condicin bsica para que el mtodo funcione, a saber, que el ndice
de elegibilidad debera ser continuo en torno al umbral.
Incluso con estas limitaciones, el DRD es un poderoso mtodo de evalua-
cin de impacto para generar estimaciones no sesgadas del impacto de un
programa en la cercana del lmite de elegibilidad. El DRD aprovecha las
reglas de asignacin del programa, a partir de ndices de elegibilidad conti-
nuos, que ya son habituales en numerosos programas sociales. Cuando se
aplican las reglas de focalizacin basadas en el ndice, no es necesario excluir
un grupo de hogares o individuos elegibles como beneciarios del trata-
miento a los nes de la evaluacin, porque se puede utilizar el diseo de
regresin discontinua como alternativa.

Lista de verificacin: diseo de regresin


discontinua

El DRD requiere que el ndice de elegibilidad sea continuo en torno a la pun-


tuacin lmite, y que las unidades sean similares en las cercanas por encima
o por debajo de la puntuacin lmite.
Es continuo el ndice en torno la puntuacin lmite en el momento de la
lnea de base?
Hay alguna evidencia de falta de cumplimiento de la regla que determine
la elegibilidad para el tratamiento? Comprubese que todas las unidades
Diseo de regresin discontinua 139

IEP.indb 139 1/6/17 1:48 PM


elegibles y ninguna unidad no elegible han recibido el tratamiento. Si se
encuentra falta de cumplimiento, habr que combinar el DRD con un
enfoque de variable instrumental para corregir esta discontinuidad
difusa.4
Hay alguna evidencia de que las puntuaciones del ndice puedan haber
sido manipuladas con el n de inuir en quien tena derecho a bene-
ciarse del programa? Comprubese si la distribucin de la puntuacin del
ndice es uida en el punto lmite. Si se halla evidencia de una concen-
tracin de puntuaciones ya sea por encima o por debajo del punto lmite,
puede que esto sea una seal de manipulacin.
El umbral corresponde a un nico programa que se est evaluando o
est siendo usado por otros programas tambin?

Otros recursos

Para material de apoyo de este libro y para hipervnculos de otros recur-


sos, se recomienda consultar el sitio web de Evaluacin de Impacto en la
Prctica (http://www.worldbank.org/ieinpractice).
Para informacin acerca de la evaluacin de un programa de transferen-
cias de efectivo utilizando un DRD, vase la entrada en el blog de impacto
del desarrollo del Banco Mundial http://blogs.worldbank.org
/impactevaluations/.
Para una revisin de los temas prcticos en la implementacin del DRD,
vase G. Imbens y T. Lemieux (2008), Regression Discontinuity Designs:
A Guide to Practice. Journal of Econometrics 142 (2): 61535.

Notas

1. En ocasiones, esto se denomina prueba de medias proxy.


2. El ndice de elegibilidad continuo a veces se denomina variable forzada.
3. Nota tcnica: la densidad se estim utilizando el mtodo de estimacin univa-
riante del ncleo de Epanechnikov.
4. En este caso, se utilizara la localizacin a la izquierda o la derecha del punto
lmite como variable instrumental para la aceptacin del programa en la
prctica en la primera etapa de una estimacin de mnimos cuadrados en dos
etapas.

140 La evaluacin de impacto en la prctica

IEP.indb 140 1/6/17 1:48 PM


Referencias bibliogrficas

Barrera-Osorio, F., L. Linden y M. Urquiola. 2007. The Effects of User Fee


Reductions on Enrollment: Evidence from a Quasi-Experiment. Washington,
D.C.: Columbia University y Banco Mundial.
Duo, E., P. Dupas y M. Kremer. 2011. Peer Effects, Teacher Incentives, and the
Impact of Tracking: Evidence from a Randomized Evaluation in Kenya.
American Economic Review 101: 173974.
Imbens, G. y T. Lemieux. 2008. Regression Discontinuity Designs: A Guide to
Practice. Journal of Econometrics 142 (2): 61535.
Levy, D. y J. Ohls. 2010. Evaluation of Jamaicas PATH Conditional Cash Transfer
Programme. Journal of Development Effectiveness 2 (4): 42141.

Diseo de regresin discontinua 141

IEP.indb 141 1/6/17 1:48 PM


IEP.indb 142 1/6/17 1:48 PM
CAPTULO 7

Diferencias en diferencias

Evaluacin de un programa cuando la regla de


asignacin es menos clara

Los tres mtodos de evaluacin de impacto analizados hasta ahora,


asignacin aleatoria, variables instrumentales (VI) y diseo de regresin
discontinua (DRD), estiman el contrafactual mediante reglas explcitas de
asignacin del programa que el equipo de evaluacin conoce y entiende. Se
ha visto por qu estos mtodos ofrecen estimaciones crebles del contrafac-
tual haciendo relativamente pocas suposiciones e imponiendo pocas condi-
ciones. Los dos prximos tipos de mtodos, diferencias en diferencias (DD)
y pareamiento, ofrecen al equipo de evaluacin herramientas adicionales
que pueden aplicarse cuando las reglas de asignacin del programa son
menos claras o cuando no es factible ninguno de los tres mtodos antes des-
critos. En casos como este, se suele utilizar tanto el mtodo de diferencias
en diferencias como el de pareamiento. Sin embargo, ambos tambin
requieren supuestos ms fuertes que la asignacin aleatoria, o los mtodos
de VI o DRD. Se entiende que si no se conoce la regla de asignacin del pro-
grama, hay una incgnita ms en la evaluacin, acerca de la cual se deben
formular supuestos. Dado que los supuestos no son necesariamente verda-
deros, puede que el mtodo de diferencias en diferencias o el de parea-
miento no siempre proporcionen estimaciones ables de los impactos de
los programas.

143

IEP.indb 143 1/6/17 1:48 PM


El mtodo de diferencias en diferencias

Concepto clave El mtodo de diferencias en diferencias contrasta las diferencias en los


El mtodo de resultados a lo largo del tiempo entre una poblacin inscrita en un programa
diferencias en (el grupo de tratamiento) y una poblacin no inscrita (el grupo de compara-
diferencias compara
cin). Pinsese, por ejemplo, en un programa de reparacin de carreteras
los cambios en los
resultados a lo largo
que se lleva a cabo a nivel de distrito pero que no se puede asignar aleatoria-
del tiempo entre mente entre distritos ni se asigna sobre la base de un ndice con un umbral
unidades inscritas en claramente denido, lo cual permitira un diseo de regresin discontinua.
un programa (el grupo Las juntas de los distritos pueden decidir inscribirse o no inscribirse en el
de tratamiento) y programa. Uno de los objetivos del programa consiste en mejorar el acceso
unidades que no lo
de la poblacin a los mercados laborales, y uno de los indicadores de resul-
estn (el grupo de
comparacin). Esto tados es la tasa de empleo. Como se analiz en el captulo 3, el solo hecho de
permite corregir observar el cambio antes y despus en las tasas de empleo en los distritos
cualquier diferencia que se inscriben en el programa no capturar el impacto causal del pro-
entre los grupos de grama porque es probable que muchos otros factores inuyan en el empleo
tratamiento y
a lo largo del tiempo. A la vez, comparar los distritos que se inscribieron y los
comparacin que sea
constante a lo largo
que no se inscribieron en el programa de reparacin de carreteras ser pro-
del tiempo. blemtico si existen motivos no observables por los que algunos distritos se
inscribieron en el programa y otros no lo hicieron (el problema de sesgo de
seleccin en el escenario de inscritos versus no inscritos).
Sin embargo, qu pasara si se combinan los dos mtodos y se comparan
los cambios antes-despus en los resultados de un grupo que se inscribi en
el programa con los cambios antes-despus de un grupo que no se inscribi
en el programa? La diferencia en los resultados antes-despus para el grupo
inscrito la primera diferencia controla por factores que son constantes a lo
largo del tiempo en ese grupo, puesto que se est comparando el propio
grupo consigo mismo. Sin embargo, todava quedan los factores externos
que varan con el tiempo (factores variables en el tiempo) en este grupo. Una
manera de capturar esos factores que varan en el tiempo es medir el cambio
antes-despus en los resultados de un grupo que no se inscribi en el pro-
grama pero que estuvo expuesto al mismo conjunto de condiciones ambien-
tales (la segunda diferencia). Si se limpia la primera diferencia de otros
factores variables en el tiempo que inuyen en el resultado de inters sustra-
yendo la segunda diferencia, se habr eliminado una fuente de sesgo que
resultaba preocupante en las comparaciones sencillas antes-despus. El
enfoque de diferencias en diferencias hace lo que su nombre sugiere: com-
bina las dos estimaciones falsas del contrafactual (comparaciones antes-des-
pus y comparaciones entre quienes se inscriben y quienes deciden no
hacerlo) para producir una mejor estimacin del contrafactual. En el ejem-
plo del programa de reparacin de carreteras, el mtodo DD podra compa-
rar los cambios en el empleo antes y despus de que se ponga en marcha el
144 La evaluacin de impacto en la prctica

IEP.indb 144 1/6/17 1:48 PM


programa en los individuos que viven en distritos que lo introdujeron con los
cambios en el empleo en los distritos donde no se implement el programa.
Es importante sealar que el contrafactual que se estima en este caso es
el cambio en los resultados del grupo de tratamiento. La estimacin de este
contrafactual es el cambio en los resultados del grupo de comparacin. Los
grupos de tratamiento y comparacin no tienen necesariamente que tener
las mismas condiciones antes de la intervencin. Sin embargo, para que el
mtodo de diferencias en diferencias sea vlido, el grupo de comparacin
debe mostrar con precisin el cambio en los resultados que habra experi-
mentado el grupo de tratamiento en ausencia de tratamiento. Para aplicar
diferencias en diferencias, hay que medir los resultados en el grupo que se
benecia del programa (el grupo de tratamiento) con los resultados del
grupo que no se benecia (el grupo de comparacin), tanto antes como des-
pus del programa. En el recuadro 7.1, se presenta un ejemplo de utilizacin
del mtodo DD para entender el impacto de los incentivos electorales en la
implementacin de un programa de transferencias condicionadas aplicado
en Brasil y en las tasas de desercin escolar.

Recuadro 7.1: Utilizacin del mtodo DD para entender el impacto


de los incentivos electorales en las tasas de abandono escolar en
Brasil
En un estudio emprico sobre los incentivos en el desempeo del programa en las dife-
electorales locales, De Janvry, Finan y Sadoulet rentes municipalidades. Para explorar esta
(2011) analizan los impactos de un programa variacin, los investigadores compararon la
de transferencias condicionadas en Brasil. El mejora en las tasas de abandono escolar en
programa Bolsa Escola entregaba a las madres los municipios cuyos alcaldes ejercan su pri-
de los hogares pobres una mensualidad con la mer mandato con los municipios donde los
condicin de que sus hijos asistieran a la alcaldes ya estaban en su segundo man-
escuela. Se trataba de un programa federal dato. Su hiptesis era que, dado que en
similar al de Oportunidades de Mxico (vanse Brasil existe un lmite de dos mandatos para
los recuadros 1.1 y 4.2), pero a nivel municipal. los cargos locales, a los alcaldes que se
Las municipalidades eran las encargadas de hallaban en su primer mandato les preocu-
identificar a los beneficiarios e implementar el paba su reeleccin y, por lo tanto, actuaban
programa. de manera diferente que los alcaldes que
Utilizando el mtodo de diferencias en ejercan ya en su segundo mandato, que no
diferencias, los autores estimaron el impacto tenan esas preocupaciones.
del programa en las tasas de abandono En general, el programa tuvo xito y redujo
escolar, y encontraron una variacin notable las tasas de abandono escolar en un promedio

Contina en la pgina siguiente.

Diferencias en diferencias 145

IEP.indb 145 1/6/17 1:48 PM


Recuadro 7.1 Utilizacin del mtodo DD para entender el impacto de los incentivos electorales en las
tasas de abandono escolar en Brasil (contina)
del 8% entre los beneficiarios. Los investiga- Su conclusin fue que las preocupaciones
dores observaron que el impacto del pro- acerca de la reeleccin incentivaron a los pol-
grama era un 36% mayor en los municipios ticos locales a aumentar sus esfuerzos en la
cuyos alcaldes ejercan su primer mandato. implementacin del programa Bolsa Escola.

Fuente: De Janvry, Finan y Sadoulet (2011).

Grfico 7.1 El mtodo de diferencias en diferencias

Resultado- Grupo de
tasa de comparacin
empleo
D = 0,81
C = 0,78
B = 0,74
Impacto estimado = 0,11
E = 0,63
A = 0,60

Grupo de Tendencia del grupo de


tratamiento comparacin

Tiempo
Ao 2 Ao 1 Ao 0 Ao 1

Nota: Todas las diferencias entre los puntos deberan leerse como diferencias verticales de los
resultados en el eje vertical.

El grco 7.1 ilustra el mtodo de diferencias en diferencias en el ejemplo


de la reparacin de carreteras. El ao 0 es el ao de lnea de base. En el ao
1 se inscribe en el programa un grupo de distritos de tratamiento, mientras
que no lo hace un grupo de distritos de comparacin. El nivel de los resulta-
dos (la tasa de empleo) en el grupo de tratamiento va de A, antes del
comienzo del programa, a B, despus del comienzo del programa, mientras
que el resultado para el grupo de comparacin va de C, antes del comienzo
del programa, a D, despus del comienzo del programa.
Recurdense los dos falsos contrafactuales: la diferencia de los resulta-
dos antes y despus de la intervencin en el grupo de tratamiento (B-A) y la
diferencia de los resultados despus de la intervencin entre los grupos de
tratamiento y de comparacin (BD). Con las diferencias en diferencias, la
146 La evaluacin de impacto en la prctica

IEP.indb 146 1/6/17 1:48 PM


estimacin del contrafactual se obtiene calculando el cambio en los resul-
tados del grupo de comparacin (DC) y luego sustrayndolo del cambio en
los resultados del grupo de tratamiento (BA). Utilizar el cambio en los
resultados del grupo de comparacin como la estimacin del contrafactual
para el cambio en los resultados del grupo de tratamiento es similar a supo-
ner que si el grupo que se inscribi no hubiera participado en el programa,
sus resultados habran evolucionado a lo largo del tiempo siguiendo la
misma tendencia que el grupo que no se inscribi, es decir, la evolucin en
el resultado del grupo inscrito habra ido de A a E, como se muestra en el
grco 7.1.
En resumen, el impacto del programa se computa simplemente como la
diferencia entre dos diferencias:

Impacto de la DD = (B A) (D C) = (0,74 0,60) (0,81 0,78) = 0,11.

Las relaciones que se muestran en el grco 7.1 tambin pueden presen-


tarse en un cuadro sencillo. El cuadro 7.1 describe los componentes de las
estimaciones de diferencias en diferencias. La primera lnea contiene los
resultados del grupo de tratamiento antes de la intervencin (A) y despus
de la intervencin (B). La comparacin antes-despus del grupo de trata-
miento es la primera diferencia (BA). La segunda lnea contiene los resul-
tados del grupo de comparacin antes de la intervencin (C) y despus de
la intervencin (D), de modo que la segunda diferencia es (DC).
El mtodo de diferencias en diferencias computa la estimacin del impacto
de la siguiente manera:

1. Se calcula la diferencia del resultado (Y) entre las situaciones antes y


despus para el grupo de tratamiento (B A).

Cuadro 7.1 Clculo del mtodo de diferencias en diferencias

Despus Antes Diferencia


Tratamiento/inscritos B A BA
Comparacin/no inscritos D C DC
Diferencia BD AC DD = (B A) (D C)

Despus Antes Diferencia


Tratamiento/inscritos 0,74 0,60 0,14
Comparacin/no inscritos 0,81 0,78 0,03
Diferencia 0,07 0,18 DD = 0,14 0,03 = 0,11

Diferencias en diferencias 147

IEP.indb 147 1/6/17 1:48 PM


2. Se calcula la diferencia del resultado (Y) entre las situaciones antes y des-
pus para el grupo de comparacin (D C).
3. A continuacin, se calcula la diferencia entre la diferencia en los resulta-
dos del grupo de tratamiento (B A) y la diferencia del grupo de compa-
racin (D C), o DD = (B A) (D C). Estas diferencias en diferencias
constituyen la estimacin del impacto.
Tambin se consideran las diferencias en diferencias en la direccin contra-
ria: se calcula primero la diferencia en el resultado entre el grupo de trata-
miento y el de comparacin en la situacin despus; luego se calcula la
diferencia en el resultado entre el grupo de tratamiento y de comparacin
en la situacin antes, y nalmente se sustrae este ltimo del primero.

Impacto DD = (B D) (A C) = (0,74 0,81) (0,60 0,78) = 0,11.

Qu utilidad tiene el mtodo de diferencias en


diferencias?

Para entender la utilidad de este mtodo, debe tomarse nuestro segundo


contrafactual falso, analizado en el captulo 3, que comparaba las unidades
inscritas con las no inscritas en un programa. Recurdese que la principal
preocupacin en este caso era que las dos series de unidades pudieran tener
caractersticas diferentes y que pueden ser dichas caractersticas y no el
programa las que explican la diferencia en los resultados entre los dos gru-
pos. Las diferencias no observadas en las caractersticas eran especialmente
preocupantes: por denicin, es imposible incluir las caractersticas no
observables en el anlisis.
El mtodo de diferencias en diferencias contribuye a resolver este pro-
blema en la medida en que se puede razonablemente suponer que muchas
caractersticas de las unidades o personas son constantes a lo largo del
tiempo (o invariables en el tiempo). Pinsese, por ejemplo, en caractersticas
observables, como el ao de nacimiento de una persona, la ubicacin de una
regin con respecto al ocano, la altura de la ciudad o el nivel de educacin
de los padres. Es probable que la mayora de estos tipos de variables, aunque
posiblemente relacionadas con los resultados, no cambien en el transcurso
de una evaluacin. Con el mismo razonamiento, podra llegarse a la conclu-
sin de que muchas caractersticas no observables de los individuos tam-
bin son ms o menos constantes a lo largo del tiempo. Pinsese, por
ejemplo, en los rasgos de la personalidad o el historial de salud de la familia.
Es posible que estas caractersticas intrnsecas de las personas no cambien
con el tiempo.
148 La evaluacin de impacto en la prctica

IEP.indb 148 1/6/17 1:48 PM


En lugar de contrastar los resultados entre los grupos de tratamiento y Concepto clave
comparacin despus de la intervencin, los mtodos de diferencias en En lugar de contrastar
diferencias estudian las tendencias entre los grupos de tratamiento y compa- resultados entre los
racin. La tendencia de un individuo es la diferencia en los resultados para grupos de tratamiento
ese individuo antes y despus del programa. Al sustraer la situacin de los y comparacin
despus de la
resultados antes de la situacin despus, se anula el efecto de todas las carac-
intervencin, los
tersticas que son nicas de ese individuo y que no cambian a lo largo del mtodos de
tiempo. En realidad, se est anulando (o controlando) no solo el efecto de diferencias en
caractersticas observables invariables en el tiempo, sino tambin el efecto diferencias comparan
de caractersticas no observables invariables en el tiempo, como las ya men- las tendencias entre
ambos grupos.
cionadas. En el recuadro 7.2 se describe un estudio que utiliz el mtodo de
diferencias en diferencias para estimar el impacto de una mayor presencia
policial en la incidencia de robos de vehculos en Buenos Aires.

Recuadro 7.2: Aplicacin del mtodo de diferencias en diferencias


para estudiar los efectos del despliegue policial en la tasa de
delitos en Argentina
DiTella y Schargrodsky (2005) analizaron si un policial en zonas con tasas de delitos ms
mayor despliegue de las fuerzas policiales redu- altas. En cambio, el incremento en el des-
ca los delitos en Argentina. En 1994 un ataque pliegue de la fuerza policial en Argentina no
terrorista contra un importante centro judo en estaba relacionado en absoluto con la inci-
Buenos Aires llev al gobierno argentino a dencia de los robos de vehculos, de modo
aumentar la proteccin policial de los edificios que el estudio no sufre de este problema de
relacionados con instituciones judas en el pas. causalidad simultnea. DiTella y Schargrodsky
Con el objetivo de entender el impacto de utilizaron el mtodo de diferencias en dife-
la presencia policial en la incidencia del rencias para estimar el impacto de la mayor
delito, los autores recopilaron datos sobre el presencia policial en la incidencia de los
nmero de robos de vehculos por manzana robos de vehculos.
en tres barrios en Buenos Aires antes y des- Los resultados revelaron un efecto disua-
pus del ataque terrorista. Luego combina- sorio positivo de la presencia policial en los
ron esta informacin con datos geogrficos delitos. Sin embargo, este efecto era locali-
sobre la ubicacin de instituciones judas en zado. En las manzanas donde haba edificios
aquellos barrios. Este estudio present un relacionados con instituciones judas que
enfoque diferente de las habituales regresio- tenan proteccin policial, los robos de veh-
nes utilizadas en la lucha contra el crimen. culos disminuyeron significativamente en
Los trabajos sobre el impacto de la presencia comparacin con otras manzanas, a saber,
policial a menudo se enfrentan a un pro- en un 75%. Los investigadores no encontra-
blema de endogeneidad, puesto que los ron impactos en los robos de vehculos a una
gobiernos tienden a aumentar la presencia o dos manzanas de los edificios protegidos.

Fuente: DiTella y Schargrodsky (2005).

Diferencias en diferencias 149

IEP.indb 149 1/6/17 1:48 PM


El supuesto de tendencias iguales en el
mtodo de diferencias en diferencias

A pesar de que las diferencias en diferencias permiten tener en cuenta las


diferencias entre los grupos de tratamiento y comparacin que son constan-
tes a lo largo del tiempo, no ayudan a eliminar las diferencias entre los gru-
pos de tratamiento y de comparacin que cambian con el tiempo. En el
ejemplo del programa de reparacin de carreteras, si las zonas de trata-
miento tambin se benecian de la construccin de un nuevo puerto mar-
timo al mismo tiempo que se produce la reparacin de las carreteras, el
efecto de esta ltima no podr separarse de la construccin del puerto mar-
timo utilizando un enfoque de diferencias en diferencias. Para que el mtodo
proporcione una estimacin vlida del contrafactual, se debe suponer que
no existen ese tipo de diferencias que varan en el tiempo entre los grupos de
tratamiento y comparacin.
Otra manera de pensar en esto es que, en ausencia del programa, las dife-
rencias en los resultados entre los grupos de tratamiento y comparacin ten-
dran que evolucionar de forma paralela. Es decir, sin el tratamiento, los
resultados tendran que aumentar o disminuir en la misma medida en ambos
grupos; los resultados tienen que mostrar tendencias iguales en ausencia de
tratamiento.
Desde luego, no hay manera de demostrar que las diferencias entre los
grupos de tratamiento y comparacin habran evolucionado de manera
paralela en ausencia del programa. El motivo es que no se puede observar
qu habra ocurrido con el grupo de tratamiento en ausencia del trata-
miento, es decir, no se puede observar el contrafactual.
Por lo tanto, cuando se emplea el mtodo de diferencias en diferencias, se
debe suponer que, en ausencia del programa, los resultados en el grupo de
tratamiento habran evolucionado de forma paralela con los resultados del
grupo de comparacin. El grco 7.2 ilustra un incumplimiento de este
supuesto fundamental. Si las tendencias de los resultados son diferentes
para los grupos de tratamiento y de comparacin, el efecto estimado de tra-
tamiento obtenido mediante mtodos de diferencias en diferencias sera
invlido o estara sesgado. Esto se debe a que la tendencia del grupo de com-
paracin no es una estimacin vlida de la tendencia contrafactual que
habra prevalecido en el grupo de tratamiento en ausencia del programa.
Como se muestra en el grco 7.2, si en realidad los resultados del grupo de
comparacin aumentan ms lentamente que los resultados del grupo de tra-
tamiento en ausencia del programa, utilizar la tendencia del grupo de com-
paracin como estimacin del contrafactual de la tendencia del grupo de
tratamiento conduce a una estimacin sesgada del impacto del programa.
Ms concretamente, se estara sobreestimando el impacto del programa.
150 La evaluacin de impacto en la prctica

IEP.indb 150 1/6/17 1:48 PM


Grfico 7.2 Diferencias en diferencias cuando las tendencias de los
resultados son diferentes

Grupo de
Resultado- comparacin
tasa de
D = 0,81
empleo
C = 0,78
Contrafactual
verdadero
B = 0,74
Impacto verdadero < 0,11
A = 0,60 E = 0,63

Tendencia del grupo de


Grupo de
comparacin
tratamiento

Tiempo
Ao 2 Ao 1 Ao 0 Ao 1

Comprobacin del supuesto de igualdad de tendencias en el


mtodo de diferencias en diferencias

A pesar de que no se puede demostrar, la validez del supuesto funda-


mental de igualdad de tendencias se puede evaluar. Una primera veri-
cacin de validez consiste en contrastar los cambios en los resultados en
los grupos de tratamiento y comparacin en repetidas ocasiones antes
de la implementacin del programa. En el programa de reparacin de
carreteras, esto signica que se medira el cambio en la tasa de empleo
entre los grupos de tratamiento y comparacin antes del comienzo del
programa, es decir, entre el segundo y el primer ao, y entre el primer
ao y el ao cero. Si se ve que los resultados evolucionaban de forma
paralela antes del comienzo del programa, es razonable suponer que
habran seguido evolucionando de la misma manera despus de la inter-
vencin. Para vericar la igualdad de las tendencias antes de la inter-
vencin, se requieren al menos dos rondas de observaciones en los
grupos de tratamiento y comparacin antes del comienzo del programa.
Esto signica que la evaluacin requerira tres rondas de observaciones:
dos observaciones previas a la intervencin para valorar las tendencias
anteriores al programa, y al menos una observacin posterior a la inter-
vencin para evaluar el impacto mediante el mtodo de diferencias en
diferencias.
Diferencias en diferencias 151

IEP.indb 151 1/6/17 1:48 PM


Una segunda manera de comprobar el supuesto de las tendencias iguales
sera llevar a cabo lo que se denomina prueba de placebo. Para esta prueba, se
realiza una segunda estimacin de diferencias en diferencias utilizando un
grupo de tratamiento falso, es decir, un grupo que, segn lo que el evalua-
dor sabe, no ha sido afectado por el programa. Por ejemplo, se quiere esti-
mar cmo las clases de apoyo para los alumnos del sptimo grado inuyen
en su probabilidad de asistir a la escuela, y entonces se eligen estudiantes de
octavo grado como grupo de comparacin. Para comprobar si los estudian-
tes de sptimo y octavo grado tienen las mismas tendencias en trminos de
asistencia escolar, podra vericarse que los estudiantes de octavo y de sexto
grado tengan las mismas tendencias. El evaluador sabe que los alumnos de
sexto grado no se vern afectados por el programa, de modo que si realiza
una estimacin de diferencias en diferencias utilizando a los alumnos de
octavo grado como grupo de comparacin y a los de sexto como el grupo de
tratamiento falso, tiene que obtener un impacto de cero. De lo contrario, el
impacto que encuentre se deber necesariamente a alguna diferencia fun-
damental en las tendencias entre los estudiantes de sexto y octavo grado.
Esto, a su vez, arroja dudas sobre si es vlido el supuesto de que los alumnos
de sptimo y octavo grado tienen tendencias iguales en ausencia del
programa.
Una tercera manera de probar el supuesto de tendencias iguales sera lle-
var a cabo la prueba de placebo no solo con un grupo de tratamiento falso,
sino tambin con un resultado falso. En el ejemplo de las clases de apoyo,
conviene comprobar la validez de utilizar a los alumnos de octavo grado
como grupo de comparacin estimando el impacto de las clases de apoyo en
un resultado que, segn lo que se sabe, no se ve afectado por dichas clases,
como, por ejemplo, el nmero de hermanos que los alumnos tienen. Si la
estimacin de diferencias en diferencias encuentra un impacto de las cla-
ses de apoyo en el nmero de hermanos de los alumnos, entonces ya se sabe
que el grupo de comparacin debe tener alguna falla.
Una cuarta manera de comprobar el supuesto de las tendencias iguales
consistira en aplicar el mtodo de diferencias en diferencias utilizando
diferentes grupos de comparacin. En el ejemplo de las clases de apoyo, pri-
mero se llevara a cabo la estimacin con los alumnos de octavo grado como
grupo de comparacin, y luego se realizara una segunda estimacin
tomando a los alumnos de sexto grado como grupo de comparacin. Si los
dos grupos son vlidos, se observar que el impacto estimado es aproxima-
damente el mismo en ambos clculos. En los recuadros 7.3 y 7.4 se presentan
dos ejemplos de una evaluacin de diferencias en diferencias que utilizan
una combinacin de estos mtodos para probar el supuesto de tendencias
iguales.

152 La evaluacin de impacto en la prctica

IEP.indb 152 1/6/17 1:48 PM


Recuadro 7.3: Comprobando el supuesto de tendencias iguales:
privatizacin del agua y mortalidad infantil en Argentina
Galiani, Gertler y Schargrodsky (2005) usaron relacin alguna con las crisis econmicas
el mtodo de diferencias en diferencias para ni con los niveles histricos de mortalidad
resolver una importante pregunta de las pol- infantil. Verificaron la solidez de sus obser-
ticas pblicas: la privatizacin de los servi- vaciones llevando a cabo una prueba pla-
cios de suministro de agua mejora los cebo con un resultado falso: distinguieron
resultados en materia de salud y contribuye al entre aquellas causas de mortalidad infan-
alivio de la pobreza? Durante la dcada de til relacionadas con la calidad del agua,
1990, Argentina inici una de las campaas como enfermedades infecciosas y parasi-
de privatizacin ms grandes de su historia y tarias, y aquellas no relacionadas con la
transfiri las compaas municipales de aguas calidad del agua, como los accidentes y las
a empresas privadas reguladas. El proceso de enfermedades congnitas. Luego proba-
privatizacin se produjo a lo largo de una ron el impacto de la privatizacin de los
dcada, y el mayor nmero de privatizaciones servicios de suministro de agua por sepa-
tuvo lugar despus de 1995, cubriendo alre- rado para los dos subconjuntos de causas
dedor del 30% de los municipios del pas y a de mortalidad. As, llegaron a la conclusin
un 60% de la poblacin. de que la privatizacin de los servicios de
La evaluacin aprovech el cambio de la suministro de agua estaba correlacionada
propiedad del servicio de aguas a lo largo del con la disminucin de las muertes por
tiempo para determinar el impacto de la pri- enfermedades infecciosas y parasitarias,
vatizacin sobre la tasa de mortalidad de los pero no estaba correlacionada con la dis-
menores de 5 aos. Antes de 1995, el ritmo minucin de las muertes por causas como
de reduccin de las tasas de mortalidad accidentes y enfermedades congnitas.
infantil era el mismo en todo el pas; des- Al final, la evaluacin determin que la
pus de 1995, las tasas de mortalidad se mortalidad infantil se redujo cerca de un 8%
redujeron ms rpidamente en aquellos en las zonas donde se privatizaron los servi-
municipios donde se haba privatizado el cios, y que el efecto fue ms notable, de
suministro de agua. alrededor de un 26%, en las zonas ms
De acuerdo con los investigadores, en pobres, donde la ampliacin de la red de
este contexto es muy probable que se suministro de agua haba sido mayor. Este
cumpla el supuesto necesario para aplicar estudio arroj luz sobre diversos debates
el mtodo de diferencias en diferencias. fundamentales de polticas pblicas en rela-
Concretamente, los autores demostraron cin con la privatizacin de los servicios
que no se observaban diferencias en las pblicos. Los investigadores llegaron a la
tendencias de mortalidad infantil entre los conclusin de que en Argentina el sector pri-
municipios de comparacin y tratamiento vado regulado demostraba ser ms exitoso
antes de que comenzara la campaa que el sector pblico en la mejora de indica-
de privatizaciones. Tambin demostraron dores de acceso, servicio y, lo que es ms
que la decisin de privatizar no guardaba importante, mortalidad infantil.

Fuente: Galiani, Gertler y Schargrodsky (2005).

Diferencias en diferencias 153

IEP.indb 153 1/6/17 1:48 PM


Recuadro 7.4: Poniendo a prueba el supuesto de tendencias
iguales: la construccin de escuelas en Indonesia
Duflo (2001) analiz los impactos de un mtodo de estimacin vlido, primero
mediano y largo plazo de un programa para tuvo que probar el supuesto de tendencias
construir escuelas en Indonesia en los resul- iguales en diferentes distritos. Para hacerlo,
tados educativos y del mercado laboral. En utiliz una prueba de placebo con un grupo
1973 Indonesia se embarc en un programa de tratamiento falso. Compar la cohorte de
de construccin de escuelas primarias de 18 a 24 aos en 1974 con la cohorte de 12 a
gran escala, y se construyeron ms de 17 aos. Dado que ambas eran demasiado
61.000 establecimientos de este tipo. Para mayores para beneficiarse del nuevo pro-
centrarse en los alumnos que no se haban grama, los cambios en sus niveles educati-
matriculado anteriormente en la escuela, el vos no deberan ser sistemticamente
gobierno asign el nmero de colegios que diferentes en los distintos distritos. La esti-
seran construidos en cada distrito en pro- macin de esta regresin de diferencias en
porcin al nmero de alumnos no matricula- diferencias era cercana a cero. Este resul-
dos en ese distrito. Duflo deseaba evaluar el tado significaba que los niveles educativos
impacto del programa en los niveles educa- antes de que el programa comenzara no
tivos y los salarios. La exposicin al trata- aumentaron ms rpidamente en las zonas
miento se midi por el nmero de escuelas que despus se convertiran en distritos de
de la regin, y los grupos de tratamiento y alta exposicin que en los distritos de baja
comparacin fueron identificados a partir de exposicin. La prueba de placebo tambin
la edad que tenan cuando se lanz el pro- mostr que la estrategia de basarse en la
grama. El grupo de tratamiento se compona edad en el momento de la construccin de
de varones nacidos despus de 1962, dado la escuela funcionara.
que habran sido lo bastante jvenes para La evaluacin encontr resultados positi-
beneficiarse de las nuevas escuelas prima- vos en los niveles educativos y en los sala-
rias cuando estas se construyeron en 1974. rios de los alumnos con una alta exposicin
El grupo de comparacin estaba formado al programa, es decir, aquellos que tenan
por varones nacidos antes de 1962, que menos de 8 aos cuando se construyeron
habran sido demasiado mayores para bene- las escuelas. Para estos estudiantes, cada
ficiarse del programa. nueva escuela construida por cada 1.000
Duflo utiliz el mtodo de diferencias en nios se asociaba con una mejora de 0,12 a
diferencias para estimar el impacto del pro- 0,19 aos en los niveles educativos y un
grama en los logros educativos promedio de aumento del 3% al 5,4% en los salarios. El
los salarios, y compar las diferencias en los programa tambin aument en un 12% la
resultados entre distritos de alta y baja expo- probabilidad de que un nio completara la
sicin. A fin de demostrar que se trataba de escuela primaria.

Fuente: Duflo (2001).

154 La evaluacin de impacto en la prctica

IEP.indb 154 1/6/17 1:48 PM


Evaluacin del impacto del HISP: la aplicacin de
diferencias en diferencias

El mtodo de diferencias en diferencias se puede usar para evaluar el


Programa de Subsidios de Seguros de Salud (HISP, por sus siglas en
ingls). En este escenario, hay dos rondas de datos sobre dos grupos de
hogares: un grupo que se inscribi en el programa y otro que no lo hizo.
Si se recuerda el caso de los grupos inscritos y no inscritos, se ver que no
se puede simplemente comparar los gastos promedio en salud de los dos
grupos debido al sesgo de seleccin. Puesto que se cuenta con datos de
los perodos para cada hogar de la muestra, dichos datos se pueden usar
para resolver algunos de estos problemas comparando el cambio en los
gastos en salud de ambos grupos, suponiendo que el cambio en el gasto
en salud del grupo no inscrito reeje lo que habra ocurrido con los gas-
tos del grupo inscrito en ausencia del programa (vase el cuadro 7.2).
Ntese que no importa de qu manera se calcula la doble diferencia.
A continuacin, se estima el efecto utilizando anlisis de regresin
(cuadro 7.3). Recurriendo a una simple regresin lineal para computar la
estimacin simple de diferencias en diferencias, se observa que el programa
redujo los gastos en salud de los hogares en US$ 8,16. Luego se rena el an-
lisis aadiendo otras variables de control. En otras palabras, se emplea una
regresin lineal multivariante que tiene en cuenta mltiples otros factores,
yse observa la misma reduccin en los gastos de los hogares en salud.
Cuadro 7.2 Evaluacin del HISP: diferencias en diferencias (comparacin
de medias)

Despus Antes (lnea de Diferencia


(seguimiento) base)
Inscritos 7,84 14,49 6,65
No inscritos 22,30 20,79 1,51
Diferencia DD = 6,65 1,51 = 8,16

Nota: El cuadro presenta el gasto medio (en dlares) en salud de los hogares inscritos y no inscri-
tos, antes y despus de la introduccin del HISP.

Cuadro 7.3 Evaluacin del HISP: diferencias en diferencias (anlisis de


regresin)

Regresin lineal Regresin lineal multivariante


Impacto estimado sobre
el gasto en salud de los 8,16** 8,16**
hogares (0,32) (0,32)

Nota: Los errores estndares estn entre parntesis.


** Significativo al nivel del 1%.

Diferencias en diferencias 155

IEP.indb 155 1/6/17 1:48 PM


Pregunta HISP 6
A. Qu supuestos bsicos son necesarios para aceptar este resultado de diferencias
en diferencias?
B. De acuerdo con los resultados de las diferencias en diferencias, se debera ampliar
el HISP a nivel nacional?

Limitaciones del mtodo de diferencias en


diferencias

Aun cuando las tendencias sean iguales antes del comienzo de la inter-
vencin, el sesgo en la estimacin de diferencias en diferencias puede
producirse y pasar inadvertido. Esto se debe a que el mtodo DD atri-
buye a la intervencin cualquier diferencia de las tendencias entre los
grupos de tratamiento y de comparacin que se producen desde el
momento en que la intervencin comienza. Si hay otros factores presen-
tes que inuyen en la diferencia en las tendencias entre los dos grupos, y
la regresin multivariante no rinde cuenta de ellos, la estimacin ser
invlida o sesgada.
Supngase que se intenta estimar el impacto en la produccin de arroz
con la subvencin de los fertilizantes y que esto se lleva a cabo midiendo la
produccin de arroz de los agricultores subvencionados (tratamiento) y de
los agricultores no subvencionados (comparacin) antes y despus de la dis-
tribucin de las subvenciones. Si en el ao 1 tiene lugar una sequa que afecta
solamente a los agricultores subvencionados, la estimacin de diferencias
en diferencias producir una estimacin invlida del impacto de subvencio-
nar los fertilizantes. En general, cualquier factor que afecte a uno de los dos
grupos de forma desproporcionada, y lo hace al mismo tiempo en que el
grupo de tratamiento recibe el tratamiento, sin que esto se tome en cuenta
en la regresin, puede potencialmente invalidar o sesgar la estimacin del
impacto del programa. El mtodo DD supone que no hay factores de este
tipo presentes.

Verificacin: diferencias en diferencias

Las diferencias en diferencias suponen que las tendencias de los resultados


son similares en los grupos de comparacin y tratamiento antes de la inter-
vencin y que los nicos factores que explican las diferencias en los
156 La evaluacin de impacto en la prctica

IEP.indb 156 1/6/17 1:48 PM


resultados entre ambos grupos, aparte del propio programa, son constantes
a lo largo del tiempo.
Los resultados habran evolucionado de forma paralela en los grupos
de tratamiento y comparacin en ausencia del programa? Esto se puede
evaluar utilizando diversas pruebas de falsicacin, como las siguien-
tes: 1) Los resultados en los grupos de tratamiento y comparacin evo-
lucionaban de modo paralelo antes de la intervencin? Si hay dos
rondas de datos disponibles antes del comienzo del programa, se debe
probar si existen diferencias en las tendencias que aparecen entre
ambos grupos; 2) Qu sucede con los resultados falsos que no deberan
verse afectados por el programa? Evolucionan de forma paralela antes
y despus del inicio de la intervencin en los grupos de tratamiento y
comparacin?
Realizar el anlisis de diferencias en diferencias utilizando varios grupos
plausibles de comparacin. Deberan obtenerse estimaciones similares
del impacto del programa.
Efectuar el anlisis de diferencias en diferencias usando los grupos de
tratamiento y comparacin elegidos, y un resultado falso que no debera
verse afectado por el programa. Debera encontrarse un impacto nulo del
programa en ese resultado.
Llevar adelante el anlisis de diferencias en diferencias utilizando la
variable de resultados elegida con dos grupos que, segn lo que se sabe,
no se vieron afectados por el programa. Debera observarse un impacto
cero del programa.

Otros recursos

Para material de apoyo del libro y para hipervnculos de recursos adicionales,


se recomienda consultar el sitio web de la Evaluacin de Impacto en la Prctica
(http://www.worldbank.org/ieinpractice).
Para ms referencias sobre los supuestos no dichos de las diferencias en dife-
rencias, vase la entrada correspondiente en el blog de Impacto del Desarrollo
del Banco Mundial (http://blogs.worldbank.org/impactevaluations).

Referencias bibliogrficas

De Janvry, A., F. Finan y E. Sadoulet. 2011. Local Electoral Incentives and Dec-
entralized Program Performance. The Review of Economics and Statistics 94
(3):67285.
Diferencias en diferencias 157

IEP.indb 157 1/6/17 1:48 PM


DiTella, R. y E. Schargrodsky. 2005. Do Police Reduce Crime? Estimates Using the
Allocation of Police Forces after a Terrorist Attack. American Economic Review
94 (1): 11533.
Duo, E. 2001. Schooling and Labor Market Consequences of School Construction
in Indonesia: Evidence from an Unusual Policy Experiment. American
Economic Review 91 (4): 795813.
Galiani, S., P. Gertler y E. Schargrodsky. 2005. Water for Life: The Impact of the
Privatization of Water Services on Child Mortality. Journal of Political Economy
113 (1): 83120.

158 La evaluacin de impacto en la prctica

IEP.indb 158 1/6/17 1:48 PM


CAPTULO 8

Pareamiento

Construccin de un grupo de comparacin


artificial

El mtodo que se describe en este captulo consiste en tcnicas estadsti- Concepto clave
cas a las que se denominarn pareamiento (matching). Los mtodos de El pareamiento utiliza
pareamiento se pueden aplicar en el contexto de casi todas las reglas de grandes bases de datos
asignacin de un programa, siempre que se cuente con un grupo que no y tcnicas estadsticas
haya participado en el mismo. El pareamiento utiliza tcnicas estadsticas para construir el mejor
grupo de comparacin
para construir un grupo de comparacin. Para cada unidad posible, el tra- posible sobre la base
tamiento intenta encontrar una unidad de no tratamiento (oconjunto de de caractersticas
unidades de no tratamiento) que tengan caractersticas lo ms parecidas observables.
posible. Pinsese en un caso en el que se propone evaluar el impacto de
un programa de capacitacin laboral sobre el ingreso y se cuenta con una
base de datos, como los registros de ingreso y las declaraciones tributarias,
que contiene tanto a los individuos que se inscribieron en el programa
como a los individuos que no lo hicieron. El programa que se intenta eva-
luar no tiene reglas de asignacin claras (como asignacin aleatoria o un
ndice de elegibilidad) que explique por qu ciertos individuos se inscri-
bieron en el programa y otros no lo hicieron. En este contexto, los mto-
dos de pareamiento permitirn identicar el conjunto de individuos no
inscritos que ms se parece a los individuos tratados, a partir de las carac-
tersticas que ya se tienen en la base de datos. Estos individuos no

159

IEP.indb 159 1/6/17 1:48 PM


inscritos pareados luego se convierten en el grupo de comparacin que se
emplea para estimar el contrafactual.
La bsqueda de una buena pareja para cada participante del programa
requiere aproximarse todo lo posible a las caractersticas que explican la
decisin del individuo de inscribirse en el programa. Desafortunadamente,
en la prctica esto es ms difcil. Si la lista de caractersticas observables rele-
vantes es muy grande, o si cada caracterstica adopta muchos valores, puede
que sea complicado identicar una pareja para cada una de las unidades del
grupo de tratamiento. A medida que aumenta el nmero de caractersticas o
dimensiones con las que se quiere parear las unidades que se inscribieron en
el programa, puede que uno se encuentre con lo que se denomina la maldicin
de la dimensionalidad. Por ejemplo, si solo se consideran tres caractersticas
importantes para identicar el grupo de comparacin del pareamiento, como
la edad, el sexo y si la persona tiene un diploma de estudios secundarios, es
probable que se encuentren parejas para todos los participantes que se inscri-
bieron en el programa entre el conjunto de aquellos que no se inscribieron
(los no inscritos), pero se corre el riesgo de dejar al margen otras caractersti-
cas potencialmente importantes. Sin embargo, sise aumenta la lista de carac-
tersticas por ejemplo, para incluir el nmero de hijos, el nmero de aos de
estudios, el nmero de meses que el individuo lleva desempleado, el nmero
de aos de experiencia, etc. puede que la base de datos no contenga una
buena pareja para la mayora de los participantes del programa que estn
inscritos, a menos que abarque un nmero muy grande de observaciones. El
grco 8.1 ilustra el pareamiento sobre la base de cuatro caractersticas: edad,
sexo, meses de desempleo, y diploma de estudios secundarios.

Grfico 8.1 Pareamiento exacto en cuatro caractersticas

Unidades tratadas Unidades no tratadas

Meses Diploma de Meses Diploma de


Edad Gnero Edad Gnero
desempleado secundaria desempleado secundaria
19 1 3 0 24 1 8 1
35 1 12 1 38 0 1 0
41 0 17 1 58 1 7 1
23 1 6 0 21 0 2 1
55 0 21 1 34 1 20 0
27 0 4 1 41 0 17 1
24 1 8 1 46 0 9 0
46 0 3 0 41 0 11 1
33 0 12 1 19 1 3 0
40 1 2 0 27 0 4 0

160 La evaluacin de impacto en la prctica

IEP.indb 160 1/6/17 1:48 PM


Pareamiento por puntajes de propensin

Por suerte, la maldicin de la dimensionalidad puede solucionarse fcil-


mente utilizando un mtodo denominado pareamiento por puntajes de
propensin (propensity scrore-matching) (Rosenbaum y Rubin, 1983). Con
este enfoque, ya no se requiere que se intente parear a cada unidad inscrita
con una unidad no inscrita que tenga exactamente el mismo valor para
todas las caractersticas de control observables. En cambio, para cada uni-
dad del grupo de tratamiento y del conjunto de no inscritos, se computa la
probabilidad de que esta unidad se inscriba en el programa (el denominado
puntaje de propensin) sobre la base de los valores observados de sus carac-
tersticas (las variables explicativas). Esta puntuacin es un nmero real
entre 0 y 1 que resume la inuencia de todas las caractersticas observables
en la probabilidad de inscribirse en el programa. Deberan utilizarse solo
las caractersticas observables en la lnea de base para calcular el puntaje de
propensin. Esto se debe a que las caractersticas post tratamiento pueden
haberse visto afectadas por el propio programa, y el uso de dichas caracte-
rsticas para identicar a un grupo de comparacin pareado sesgara los
resultados. Cuando el tratamiento inuye en las caractersticas del indivi-
duo y se usan aquellas caractersticas para parear, se escoge un grupo de
comparacin que se parece al grupo de tratamiento debido al propio trata-
miento. Sin el tratamiento, esas caractersticas tendran un aspecto muy
diferente. Esto incumple el requisito bsico de una buena estimacin del
contrafactual, a saber: que el grupo de comparacin debe ser similar en
todos los aspectos, excepto en el hecho de que el grupo de tratamiento
recibe el tratamiento y el grupo de comparacin no lo recibe.
Una vez que se ha computado el puntaje de propensin de todas las
unidades, aquellas del grupo de tratamiento pueden parearse con unidades
en el conjunto de no inscritos que tienen los puntajes de propensin ms
cercanos.1 Estas unidades prximas se convierten en el grupo de compara-
cin y se utilizan para producir una estimacin del contrafactual. El mtodo
de pareamiento por puntajes de propensin intenta imitar la asignacin
aleatoria a los grupos de tratamiento y comparacin escogiendo para el
grupo de comparacin aquellas unidades que tienen propensiones similares
a las unidades del grupo de tratamiento. Dado que el pareamiento de punta-
jes de propensin no es un mtodo de asignacin aleatoria pero intenta
imitarlo, pertenece a la categora de mtodos cuasi-experimentales.
La diferencia promedio en los resultados entre las unidades de trata-
miento, o inscritas, y sus unidades de comparacin correspondientes genera
la estimacin del impacto del programa. En resumen, el impacto del pro-
grama se estima comparando los resultados promedio de un grupo de

Pareamiento 161

IEP.indb 161 1/6/17 1:48 PM


tratamiento, o inscrito, y el resultado promedio del subgrupo de unidades
estadsticamente pareadas, donde el pareamiento se basa en caractersticas
observables en los datos disponibles.
Para que el pareamiento por puntajes de propensin produzca estimacio-
nes del impacto de un programa para todas las observaciones tratadas, cada
unidad de tratamiento o inscrita debe parearse con una unidad no inscrita.2
Sin embargo, en la prctica puede ocurrir que, para algunas unidades inscri-
tas, no haya unidades en el conjunto de no inscritos que tengan puntajes de
propensin similares. En trminos tcnicos, puede que se produzca una
falta de rango comn, o falta de superposicin, entre los puntajes de propen-
sin del grupo de tratamiento o inscrito y los del conjunto de no inscritos.
El grco 8.2 representa un ejemplo de la falta de rango comn. En
primer lugar, se estima la probabilidad de que cada unidad de la muestra se
inscriba en el programa a partir de las caractersticas observables de esa
unidad, es decir, el puntaje de propensin. El grco muestra la distribucin
de los puntajes de propensin por separado para los inscritos y no inscritos.
El problema es que estas distribuciones no se superponen perfectamente.
En el medio de la distribucin, es relativamente fcil encontrar las parejas
porque hay tanto inscritos como no inscritos con estos niveles de puntajes
de propensin. Sin embargo, los inscritos con puntajes de propensin cerca-
nos a 1 no se pueden parear con ningn no inscrito porque no hay no inscri-
tos con puntajes de propensin tan altos. Hay tan poca similitud entre las
unidades que tienen muchas probabilidades de inscribirse en el programa y

Grfico 8.2 Pareamiento por puntajes de propensin y rango comn

No inscritos Inscritos
Densidad

Rango comn

0 Puntaje de propensin 1

162 La evaluacin de impacto en la prctica

IEP.indb 162 1/6/17 1:48 PM


las unidades no inscritas que no se puede encontrar una buena pareja para
ellas. De la misma manera, los no inscritos con puntajes de propensin cer-
canos a 0 no pueden parearse con ningn inscrito porque no hay inscritos
que tengan puntajes de propensin tan bajos. Por lo tanto, en los extremos,
o colas, de la distribucin del puntaje de propensin aparece una falta de
rango comn. En este caso, el procedimiento de pareamiento estima el
efecto local promedio del tratamiento (LATE, por sus siglas en ingls) para
las observaciones sobre el rango comn.
Los pasos que hay que seguir cuando se aplica un pareamiento por pun-
tajes de propensin se resumen en Jalan y Ravaillon (2003).3 Primero, se
necesitarn encuestas representativas y altamente comparables en las que
se puedan identicar las unidades que se inscribieron en el programa y las
que no lo hicieron. Segundo, se renen las dos muestras y se estima la pro-
babilidad de que cada individuo se inscriba en el programa, a partir de las
caractersticas individuales observables en la encuesta. Este paso produce el
puntaje de propensin. Tercero, se limita la muestra a unidades para las que
aparece un rango comn en la distribucin del puntaje de propensin.
Cuarto, para cada unidad inscrita, se identica un subgrupo de unidades con
puntajes de propensin similares. Quinto, se comparan los resultados de las
unidades de tratamiento, o inscritas, y las parejas de las unidades de compa-
racin, o no inscritas. La diferencia de los resultados promedio de estos dos
subgrupos es la medida del impacto que se puede atribuir al programa para
esa observacin especca tratada. Sexto, la media de estos impactos indivi-
duales arroja una estimacin del efecto local promedio del tratamiento. En
la prctica, los programas estadsticos habitualmente usados incluyen
comandos que realizan los pasos 2 a 6 de manera automtica.
En general, es importante recordar tres cuestiones esenciales acerca del
pareamiento. En primer lugar, los mtodos de pareamiento solo pueden
utilizar caractersticas observables para construir grupos de comparacin,
dado que las caractersticas no observables no se pueden considerar. Si hay
alguna caracterstica no observable que inuye en la inscripcin o no
inscripcin de la unidad en el programa, y que tambin inuye en el resul-
tado, las estimaciones de impacto obtenidas con el grupo de comparacin
pareado estaran sesgadas. Para que el resultado del pareamiento no est
sesgado, requiere un supuesto de mucho peso, a saber: que no hay diferen-
cias no observables en el grupo de tratamiento y de comparacin que tam-
bin estn asociadas con los resultados de inters.
Segundo, el pareamiento debe realizarse utilizando solo caractersticas
que no estn afectadas por el programa. La mayora de las caractersticas
que se miden despus del comienzo del programa no perteneceran a esta
categora. Si los datos de lnea de base (antes de la intervencin) no estn
disponibles y los nicos datos son los existentes despus de que la
Pareamiento 163

IEP.indb 163 1/6/17 1:48 PM


intervencin ha comenzado, las nicas caractersticas que se podrn utilizar
para construir una muestra pareada sern aquellas (normalmente pocas)
caractersticas que no se ven afectadas por un programa, como la edad y el
sexo. Aunque se quisiera parear utilizando un conjunto mucho ms rico de
caractersticas, entre ellas los resultados de inters, no se podr hacerlo por-
que aquellas estn potencialmente afectadas por la intervencin. No se reco-
mienda el pareamiento basado nicamente en caractersticas posteriores a
la intervencin. Si hay datos de lnea de base disponibles, se puede realizar
el pareamiento sobre la base de un conjunto ms rico de caractersticas,
entre ellas, los resultados de inters. Dado que los datos se recopilan antes
de la intervencin, el programa no puede haber afectado aquellas variables
anteriores a la misma. Sin embargo, si hay datos de lnea de base sobre los
resultados disponibles, no se debera utilizar el mtodo de pareamiento solo,
sino que habra que combinarlo con diferencias en diferencias para reducir
el riesgo de sesgo. Este procedimiento se detallar en la prxima seccin.
Tercero, los resultados de la estimacin del mtodo de pareamiento
soloson tan buenos como las caractersticas que se utilizan para el parea-
miento. Si bien es importante poder parear utilizando un gran nmero de
caractersticas, lo es an ms poder parear sobre la base de caractersticas
que determinan la inscripcin. Cuanto ms se comprenda acerca de los cri-
terios utilizados para la seleccin de los participantes, en mejores condicio-
nes se estar de construir el grupo de comparacin.

La combinacin del pareamiento con otros


mtodos

Aunque la tcnica de pareamiento requiere un volumen importante de


datosy tiene un riesgo signicativo de sesgo, ha sido utilizada para evaluar
programas de desarrollo en una amplia gama de contextos. Los usos ms
convincentes del pareamiento son aquellos que combinan el pareamiento
con otros mtodos y aquellos que utilizan el mtodo de control sinttico. En
esta seccin, se analizarn las diferencias en diferencias pareadas y el
mtodo de control sinttico.

Diferencias en diferencias pareadas

Cuando dispone de datos de lnea de base sobre los resultados, el pareamiento


se puede combinar con diferencias en diferencias para reducir el riesgo de
sesgo en la estimacin. Como se ha analizado, el simple pareamiento con
puntajes de propensin no puede dar cuenta de caractersticas no observa-
bles que podran explicar por qu un grupo decide inscribirse en un
164 La evaluacin de impacto en la prctica

IEP.indb 164 1/6/17 1:48 PM


programa, y eso tambin podra afectar los resultados. El pareamiento
combinado con diferencias en diferencias al menos tiene en cuenta cual-
quier caracterstica no observable que sea constante a lo largo del tiempo
entre ambos grupos. Se implementa de la siguiente manera:
1. El pareamiento debe realizarse a partir de caractersticas observables de
la lnea de base (como se ha sealado).
2. Para cada unidad inscrita, se debe calcular el cambio en los resultados
entre los perodos antes y despus (primera diferencia).
3. Para cada unidad inscrita, calclese el cambio en los resultados entre los
perodos antes y despus para la comparacin pareada de esta unidad
(segunda diferencia).
4. Rstese la segunda diferencia de la primera diferencia, es decir, aplquese
el mtodo de diferencias en diferencias.
5. Por ltimo, calclese un promedio de esas dobles diferencias.
Los recuadros 8.1 y 8.2 proporcionan ejemplos de evaluaciones que utiliza-
ron el mtodo de diferencias en diferencias pareadas en la prctica.

Recuadro 8.1: Diferencias en diferencias pareadas: caminos


rurales y desarrollo del mercado local en Vietnam
En Vietnam, Mu y Van de Walle (2011) usaron de comparacin. Utilizando datos de una
el pareamiento de puntajes de propensin en encuesta de lnea de base, encontraron una
combinacin con el mtodo de diferencias diversidad de factores a nivel de la comuna
en diferencias para estimar el impacto de un que determinaba si un camino en ella era
programa de caminos rurales en el desarrollo seleccionado para el programa, como el
del mercado local a nivel de la comuna. Entre tamao de la poblacin, los porcentajes de
1997 y 2001, el gobierno vietnamita rehabi- las minoras tnicas, la calidad de vida, la
lit 5.000 km de caminos rurales. Los cami- densidad de los caminos existentes y la pre-
nos fueron seleccionados segn criterios de sencia de transporte de pasajeros. Estimaron
costo y de densidad demogrfica. los puntajes de propensin basndose en
Dado que las comunas que se beneficia- estas caractersticas y limitaron el tamao
ron de la reparacin de caminos no fueron de la muestra a la zona de rango comn.
seleccionadas de forma aleatoria, los investi- Esto dio como resultado 94 comunas de
gadores utilizaron el pareamiento de punta- tratamiento y 95 comunas de comparacin.
jes de propensin para construir un grupo Para limitar an ms el sesgo de seleccin
Contina en la pgina siguiente.

Pareamiento 165

IEP.indb 165 1/6/17 1:48 PM


Recuadro 8.1: Diferencias en diferencias pareadas: caminos rurales y desarrollo del mercado local en
Vietnam (contina)

potencial, los investigadores utilizaron dife- actividades agrcolas a actividades ms


rencias en diferencias para estimar el cam- relacionadas con los servicios, como la
bio en las condiciones del mercado local. confeccin de ropa y las peluqueras. Sin
Dos aos despus de iniciado el pro- embargo, los resultados variaban considera-
grama, los resultados indicaron que la blemente entre las comunas. En las ms
rehabilitacin de caminos produjo impactos pobres, los impactos tendan a ser mayores
positivos significativos en la presencia y debido a los menores niveles de desarrollo
la frecuencia de los mercados locales y en la inicial del mercado. Los investigadores lle-
disponibilidad de servicios. En las comu- garon a la conclusin de que los proyectos
nas de tratamiento se desarroll un 10% de mejora de caminos pequeos pueden
ms de nuevos mercados que en las comu- tener impactos ms importantes si se foca-
nas de comparacin. En las primeras era lizan en zonas con un desarrollo de mercado
ms habitual que los hogares cambiaran de inicialmente bajo.

Fuente: Mu y Van de Walle (2011).

Recuadro 8.2: Pareamiento de diferencias en diferencias: suelos


de cemento, salud infantil y felicidad de las madres en Mxico
El Programa Piso Firme de Mxico ofrece a programa. Para mejorar la comparabilidad
los hogares con suelos de tierra hasta 50 m2 entre los grupos de tratamiento y compara-
de piso de cemento (vase el recuadro 2.1). cin, los investigadores limitaron su muestra
Piso Firme comenz como un programa a hogares de las ciudades vecinas situadas
local en el estado de Coahuila, pero fue justo a ambos lados de la frontera entre los
adoptado a nivel nacional. Cattaneo et al. dos estados. En esta muestra, utilizaron tc-
(2009) aprovecharon la variacin geogrfica nicas de pareamiento para seleccionar los
para evaluar el impacto de esta iniciativa grupos de tratamiento y comparacin que
para la mejora de la vivienda a gran escala en eran ms similares. Las caractersticas pre-
la salud y en los resultados del bienestar. vias al tratamiento que se usaron fueron el
Los investigadores utilizaron el mtodo porcentaje de hogares con suelos de tierra,
de diferencias en diferencias junto con el el nmero de hijos pequeos y el nmero de
pareamiento para comparar a los hogares de hogares en cada bloque.
Coahuila con familias similares en el estado Adems del pareamiento, los auto-
vecino de Durango, que en el momento de la res utilizaron variables instrumentales para
encuesta todava no haba implementado el obtener estimaciones del LATE a partir de

Contina en la pgina siguiente.

166 La evaluacin de impacto en la prctica

IEP.indb 166 1/6/17 1:48 PM


Recuadro 8.2: Pareamiento de diferencias en diferencias: suelos de cemento, salud infantil y felicidad de
las madres en Mxico (contina)

las estimaciones del efecto de la intencin madres, que declararon un aumento del
de tratar. Con la oferta de un piso de 59% en la satisfaccin con la vivienda, un
cemento como variable instrumental para incremento del 69% en la satisfaccin con
determinar si los hogares tenan realmente la calidad de vida, una reduccin del 52%
suelos de cemento encontraron que el en la escala de evaluacin de la depresin
programa produca una reduccin del y una disminucin del 35% en una escala
18,2% de la presencia de parsitos, una de evaluacin del estrs percibido.
disminucin del 12,4% de la prevalencia Cattaneo et al. (2009) concluyeron que
de casos de diarrea y una baja del 19,4% Piso Firme tiene un impacto absoluto mayor
de la prevalencia de anemia. Adems, en el desarrollo cognitivo infantil con un
pudieron utilizar la variabilidad en el total costo menor que el programa de transferen-
del espacio del suelo realmente recubierto cias condicionadas de efectivo a gran escala
de cemento para predecir que una com- de Mxico, Progresa-Oportunidades, y que
pleta sustitucin de los pisos de tierra por otros programas comparables de suplemen-
pisos de cemento en un hogar producira tos nutricionales y estimulacin cognitiva
una reduccin del 78% de las infecciones temprana. Los pisos de cemento tambin
parasitarias, una disminucin del 59% de evitan mejor la proliferacin de infecciones
los casos de diarrea, una reduccin del parasitarias que el tratamiento habitual de
81% de la anemia y una mejora del 36% al eliminacin de parsitos. Los autores afir-
96% en el desarrollo cognitivo de los man que los programas para reemplazar los
nios. Los autores tambin recopilaron suelos de tierra con suelos de cemento tie-
datos sobre el bienestar de los adultos y nen probabilidades de mejorar la salud de
llegaron a la conclusin de que los pisos los nios de manera costo-efectiva en con-
de cemento hacen ms felices a las textos similares.

Fuente: Cattaneo et al. (2009).

El mtodo de control sinttico

El mtodo de control sinttico permite utilizar la estimacin del impacto


en contextos donde una nica unidad (como un pas, una empresa o un
hospital) es objeto de una intervencin o se expone a un evento. En lugar
de comparar esta unidad tratada con un grupo de unidades no tratadas,
el mtodo usa informacin sobre las caractersticas de la unidad tratada
y las unidades no tratadas para construir una unidad de comparacin
sinttica o articial, ponderando cada unidad no tratada de tal manera
que la unidad de comparacin sinttica se asemeje lo ms posible a la
unidad tratada. Esto requiere una extensa serie de observaciones de las
caractersticas de la unidad tratada y de las unidades no tratadas a lo
Pareamiento 167

IEP.indb 167 1/6/17 1:48 PM


largo del tiempo. Esta combinacin de unidades de comparacin en una
unidad sinttica proporciona una mejor comparacin para la unidad
tratada que cualquier unidad no tratada individualmente. El recuadro 8.3
presenta un ejemplo de una evaluacin para la cual se emple el mtodo
de control sinttico.

Recuadro 8.3: El mtodo de control sinttico: los efectos


econmicos de un conflicto terrorista en Espaa
Abadie y Gardeazbal (2003) utilizaron el crecimiento econmico. Por lo tanto, la
mtodo de control sinttico para investigar comparacin entre el crecimiento del PIB
los efectos econmicos de un conflicto de la economa vasca y del resto de Espaa
terrorista en el Pas Vasco. A comienzos de reflejara tanto el efecto del terrorismo
los aos setenta el Pas Vasco era una como el efecto de estas diferencias en los
de las regiones ms ricas de Espaa. Sin factores determinantes del crecimiento
embargo, hacia finales de los aos noventa, econmico antes del comienzo del terro-
despus de 30 aos de conflicto, haba rismo. En otras palabras, el enfoque de
cado hasta la sexta posicin en el producto diferencias en diferencias producira resul-
interno bruto (PIB) per cpita. En los albo- tados sesgados del impacto del terrorismo
res de los atentados terroristas a comien- en el crecimiento econmico del Pas
zos de los aos setenta, el Pas Vasco Vasco. Para lidiar con esta situacin, los
era diferente de otras regiones de Espaa autores utilizaron una combinacin de otras
en caractersticas que, segn se piensa, regiones espaolas, de modo de construir
estn relacionadas con el potencial de una regin de comparacin sinttica.

Fuente: Abadie y Gardeazbal (2003).

Evaluacin del impacto del HISP: la utilizacin de tcnicas


de pareamiento

Despus de conocer las tcnicas de pareamiento, puede que uno se pre-


gunte si podra usarlas para estimar el impacto del Programa de Subsidios
de Seguros de Salud (HISP, por sus siglas en ingls). Por ejemplo, se
decide utilizar tcnicas de pareamiento para seleccionar un grupo de
hogares no inscritos que parecen similares a los hogares inscritos a partir
de las caractersticas observables de la lnea de base. Para hacer esto, se
utiliza el paquete de pareamiento del software estadstico. Primero, se
debe estimar la probabilidad de que un hogar se inscriba en el programa

168 La evaluacin de impacto en la prctica

IEP.indb 168 1/6/17 1:48 PM


sobre la base de los valores observados de las caractersticas (las variables
explicativas), como la edad del jefe de hogar y del cnyuge, su nivel de
estudios, si el jefe del hogar es mujer, si el hogar es indgena, etc.
A continuacin, se llevar a cabo un pareamiento considerando dos
escenarios. En el primero, hay un gran conjunto de variables para pre-
decir la inscripcin, entre ellas las caractersticas socioeconmicas del
hogar. En el segundo, hay escasa informacin para predecir la inscrip-
cin (solo el nivel de estudios y la edad del jefe de hogar). Como se
muestra en el cuadro 8.1, la probabilidad de que un hogar se inscriba en
el programa es menor si el jefe de hogar es mayor, si tiene ms estudios,
si es mujer, o si el hogar cuenta con bao o posee un terreno ms
grande. Por el contrario, ser indgena, tener ms miembros en el hogar,
tener un suelo de tierray vivir ms lejos de un hospital son factores que

Cuadro 8.1 Estimacin del puntaje de propensin a partir de


caractersticas observables de la lnea de base

Todo el Conjunto
conjunto de limitado de
variables variables
Variable dependiente: inscritos = 1 explicativas explicativas

Variables explicativas: caractersticas


observables en la lnea de base Coeficiente Coeficiente
Edad del jefe del hogar (aos) 0,013** 0,021**
Edad del cnyuge (aos) 0,008** 0,041**
Nivel educativo del jefe del hogar (aos) 0,022**
Nivel educativo del cnyuge (aos) 0,016*
Jefe del hogar es mujer =1 0,020
Indgena = 1 0,161**
Nmero de miembros del hogar 0,119**
Suelo de tierra = 1 0,376**
Bao = 1 0,124**
Hectreas de terreno 0,028**
Distancia del hospital (km) 0,002**
Constante 0,497** 0,554**

Nota: Regresin probit. La variable dependiente equivale a 1 si el hogar est inscrito en el HISP y
0 en caso contrario. Los coeficientes representan la contribucin de cada variable explicativa a la
probabilidad de que un hogar se inscriba en el HISP.
Nivel de significancia: * = 5%; ** = 1%.

Pareamiento 169

IEP.indb 169 1/6/17 1:48 PM


aumentan la probabilidad de que un hogar se inscriba en el programa.
Por lo tanto, en general, parecera que los hogares ms pobres y con
menor nivel educativo tienen ms probabilidades de inscribirse, lo cual
es una buena noticia para un programa que se focaliza en las personas
pobres.
Ahora que el software ha estimado la probabilidad de que todos los
hogares se inscriban en el programa (el puntaje de propensin), se veri-
ca la distribucin del puntaje de propensin para los hogares de compa-
racin inscritos y pareados. El grco 8.3 muestra que el rango comn
(cuando se utiliza todo el conjunto de variables explicativas) se extiende
por toda la distribucin del puntaje de propensin. De hecho, ninguno de
los hogares inscritos queda marginado de la zona de rango comn. En
otras palabras, se puede encontrar un hogar de comparacin como pareja
para cada uno de los hogares inscritos.

Grfico 8.3 Pareamiento para el HISP: rango comn

3
Densidad

0
0 ,2 ,4 ,6
Puntaje de propensin
No inscritos Inscritos

Se decide utilizar el pareamiento de vecino ms prximo, es decir, se


le pide al software que, para cada hogar inscrito, encuentre el hogar no
inscrito que tiene el puntaje de propensin ms cercano al hogar inscrito.
El software limita la muestra a aquellos hogares en los grupos de inscritos
y no inscritos para los que puede encontrar una pareja en el otro grupo.

170 La evaluacin de impacto en la prctica

IEP.indb 170 1/6/17 1:48 PM


Para obtener la estimacin de impacto utilizando el mtodo de parea-
miento, primero se calcula el impacto para cada hogar inscrito indivi-
dualmente (utilizando el hogar de comparacin pareado de cada hogar) y
luego se calcula el promedio de esos impactos individuales. El cuadro 8.2
muestra que el impacto estimado al aplicar este procedimiento es una
reduccin de US$9,95 en los gastos en salud de los hogares.
Por ltimo, el software tambin permite computar el error estndar en
la estimacin de impacto utilizando la regresin lineal (cuadro 8.3).4

Cuadro 8.2 Evaluacin del HISP: pareamiento de las caractersticas de


lnea de base y comparacin de medias

Inscritos Comparacin pareada Diferencia


Gasto en salud de 7,84 17,79 9,95
los hogares (US$) (usando el conjunto de
variables explicativas)
19,9 11,35
(utilizando un conjunto
limitado de variables
explicativas)

Nota: Este cuadro compara los gastos en salud promedio de los hogares en los hogares inscritos
y las parejas de hogares de comparacin.

Cuadro 8.3 Evaluacin del HISP: pareamiento de las caractersticas de


lnea de base y anlisis de regresin

Regresin lineal Regresin lineal


(pareamiento en todo (pareamiento en
el conjunto de conjunto limitado de
variables explicativas) variables explicativas)
Impacto estimado en
los gastos en salud 9,95** 11,35**
de los hogares (US$) (0,24) (0,22)

Nota: Los errores estndar estn entre parntesis.


Nivel de significancia: ** = 1%.

Se observa tambin que en los datos de las encuestas se cuenta con


informacin de los resultados de lnea de base, de modo que se deciden
utilizar las diferencias en diferencias pareadas adems de usar todo el
conjunto de variables explicativas. Es decir, se calcula la diferencia en los
gastos en salud de los hogares en el seguimiento entre hogares inscritos y

Pareamiento 171

IEP.indb 171 1/6/17 1:48 PM


hogares de comparacin pareados; se computa la diferencia en los gastos
en salud de los hogares en la lnea de base entre los hogares inscritos y las
parejas de comparacin; y luego se calcula la diferencia entre estas dos
diferencias. El cuadro 8.4 muestra el resultado de este enfoque de dife-
rencias en diferencias pareadas.

Cuadro 8.4 Evaluacin del HISP: mtodo de diferencias en diferencias


combinado con pareamiento en las caractersticas de lnea de base

Comparaciones
pareadas
utilizando el
conjunto de
variables
Inscritos explicativas Diferencia
Gastos en Seguimiento 7,84 17,79 9,95
salud de los Lnea de base 14,49 15,03 0,54
hogares
(US$) Diferencias
en
diferencias
pareadas
=9,41**
(0,19)

Nota: Los errores estndar estn entre parntesis y el clculo se realiz utilizando una
regresin lineal.
Nivel de significancia: ** = 1%.

Pregunta HISP 7

A. Cules son los supuestos bsicos necesarios para aceptar estos resul-
tados sobre la base del mtodo de pareamiento?
B. Por qu los resultados del mtodo de pareamiento son diferentes si se
utiliza todo el conjunto vs. el conjunto limitado de variables
explicativas?
C. Qu sucede cuando se compara el resultado del mtodo de parea-
miento con el resultado de la asignacin aleatoria? Por qu los resul-
tados son tan diferentes en el pareamiento con un conjunto limitado
de variables explicativas? Por qu el resultado es ms parecido
cuando se realiza el pareamiento en todo el conjunto de variables
explicativas?
D. A partir del resultado del mtodo de pareamiento, debera ampliarse
el HISP a escala nacional?

172 La evaluacin de impacto en la prctica

IEP.indb 172 1/6/17 1:48 PM


Limitaciones del mtodo de pareamiento

Aunque los procedimientos de pareamiento se pueden aplicar en numero-


sos contextos, independientemente de las reglas de asignacin de un pro-
grama, tienen varias limitaciones importantes. En primer lugar, requieren
conjuntos de datos amplios sobre grandes muestras de unidades, e incluso
cuando estos estn disponibles, puede que se produzca una falta de rango
comn entre el grupo de tratamiento, o inscrito, y el conjunto de no parti-
cipantes. En segundo lugar, solo se puede aplicar el pareamiento basn-
dose en caractersticas observables; por denicin, no se pueden
incorporar las caractersticas no observables en el clculo del puntaje de
propensin. Por lo tanto, para que el procedimiento de pareamiento iden-
tique un grupo de comparacin vlido, no deben existir diferencias siste-
mticas en las caractersticas no observables entre las unidades de
tratamiento y las unidades de comparacin pareadas5 que podran inuir
en el resultado (Y). Dado que no se puede demostrar que existen esas
caractersticas no observables que inuyen en la participacin y en los
resultados, se debe suponer que no existen. Normalmente se trata de un
supuesto de mucho peso. A pesar de que el pareamiento contribuye a con-
trolar por caractersticas bsicas observables, nunca se puede descartar el
sesgo que nace de las caractersticas no observables. En resumen, el
supuesto de que no se ha producido un sesgo de seleccin debido a las
caractersticas no observables es de mucho peso y, lo que es ms proble-
mtico, no puede comprobarse.
El pareamiento por s solo suele ser menos robusto que los otros mto-
dos de evaluacin analizados, dado que requiere el fuerte supuesto de
que no hay caractersticas no observables que inuyan simultneamente
en la participacin en el programa y en sus resultados. Por otro lado, la
asignacin aleatoria, la variable instrumental y el diseo de regresin
discontinua no requieren el supuesto indemostrable de que no hay tales
variables no observables. Tampoco requieren muestras tan grandes o
caractersticas bsicas tan amplias como el pareamiento por puntajes de
propensin.
En la prctica, los mtodos de pareamiento suelen usarse cuando no es
posible recurrir a las opciones de asignacin aleatoria, variable instrumental
y diseo de regresin discontinua. El denominado pareamiento ex post es
muy riesgoso cuando no hay datos de lnea de base disponibles sobre el
resultado de inters o de las caractersticas bsicas. Si una evaluacin utiliza
datos de encuestas que fueron recopilados despus del comienzo del pro-
grama (es decir, ex post) para deducir las caractersticas bsicas de las

Pareamiento 173

IEP.indb 173 1/6/17 1:48 PM


unidades de la lnea de base y luego emparejar el grupo tratado con un grupo
de comparacin empleando esas caractersticas deducidas, puede empare-
jar involuntariamente basndose en caractersticas que tambin fueron
afectadas por el programa; en ese caso, el resultado de estimacin sera inv-
lido o estara sesgado.
Por el contrario, cuando se dispone de datos de lnea de base, el parea-
miento basado en las caractersticas bsicas puede ser muy til si se
combina con otras tcnicas, como el mtodo de diferencias en diferen-
cias, lo que permite corregir por las diferencias entre los grupos que son
jas a lo largo del tiempo. El pareamiento tambin es ms able cuando
se conocen las reglas de asignacin del programa y las variables funda-
mentales, en cuyo caso el pareamiento se puede llevar a cabo con esas
variables.
A estas alturas, es probable que quede claro que las evaluaciones de
impacto se disean mejor antes de que un programa comience a ser imple-
mentado. Una vez que el programa ha comenzado, si hay que inuir en cmo
se asigna y no se han recopilado datos de lnea de base, habr pocas o ninguna
opcin rigurosa para la evaluacin de impacto.

Verificacin: el pareamiento

El pareamiento se basa en el supuesto de que las unidades inscritas y no


inscritas son similares en trminos de cualquier variable no observable que
podra inuir tanto en la probabilidad de participar en el programa como en
el resultado.
La participacin en el programa est determinada por variables que no
se pueden observar? Esto no se puede comprobar directamente, de modo
que para orientarse habr que arse de la teora, del sentido comn y del
conocimiento adecuado del contexto de la evaluacin de impacto.
Las caractersticas observables estn bien equilibradas entre los subgru-
pos pareados? Comprense las caractersticas observables de cada grupo
de tratamiento y su grupo de unidades de comparacin pareados en la
lnea de base.
Se puede encontrar una unidad de comparacin pareada para cada uni-
dad de tratamiento? Verifquese si hay un rango comn suciente en la
distribucin de los puntajes de propensin. Las pequeas zonas de rango
comn o superposicin sealan que las personas inscritas y no inscritas
son muy diferentes, y aquello arroja dudas sobre si el pareamiento es un
mtodo creble.
174 La evaluacin de impacto en la prctica

IEP.indb 174 1/6/17 1:48 PM


Otros recursos

Para material de apoyo relacionado con este libro y para hipervnculos de ms


recursos, se recomienda consultar el sitio web de la Evaluacin de Impacto en
la Prctica (http://www.worldbank.org/ieinpractice).
Para ms informacin, consltese P. Rosenbaum (2002), Observational Studies
(2da. edicin), Springer Series in Statistics. Nueva York: Springer-Verlag.
Para ms informacin sobre la implementacin del pareamiento por puntajes
de propensin, vase C. Heinrich, A. Maffioli y G. Vsquez (2010), A Primer
for Applying Propensity-Score Matching. Impact-Evaluation Guidelines.
Nota tcnica del BID-TN-161. Washington, D.C.: BID.

Notas

1. Nota tcnica: en la prctica, se utilizan muchas deniciones de lo que constituye


la unidad ms prxima o cercana para llevar a cabo un pareamiento. Las
unidades de control ms cercanas se pueden denir sobre la base de una
estraticacin del puntaje de propensin la identicacin de los vecinos ms
prximos de la unidad de tratamiento, considerando la distancia, dentro de un
determinado radio o utilizando tcnicas de ncleo. Se considera una buena
prctica vericar la robustez de los resultados del pareamiento empleando
diversos algoritmos de pareamiento. Para ms detalles, vase Rosenbaum
(2002).
2. En este libro, el anlisis del pareamiento se centra en un pareamiento de uno a
uno. No se analizarn otros tipos de pareamiento, como el de uno a varios o el de
reemplazo/sin reemplazo. Sin embargo, en todos los casos el marco conceptual
descrito aqu seguira vigente.
3. En Rosenbaum (2002) se puede encontrar un anlisis detallado del parea-
miento.
4. Nota tcnica: cuando las puntuaciones de propensin de las unidades inscritas
no estn plenamente cubiertas por el rea de rango comn, los errores estndar
deberan estimarse utilizando un muestreo autodocimante en lugar de una
regresin lineal.
5. Para los lectores que tienen conocimientos de econometra, esto signica que la
participacin es independiente de los resultados, dadas las caractersticas
bsicas utilizadas para realizar el pareamiento.

Referencias bibliogrficas

Abadie, A. y J. Gardeazbal. 2003. The Economic Costs of Conict: A Case Study


of the Basque Country. American Economic Review 93 (1): 11332.
Cattaneo, M. D., S. Galiani, P. J. Gertler, S. Martnez y R. Titiunik. 2009. Housing,
Health, and Happiness. American Economic Journal: Economic Policy 1 (1):
75105.

Pareamiento 175

IEP.indb 175 1/6/17 1:48 PM


Heinrich, C., A. Maffioli y G. Vzquez. 2010. A Primer for Applying Propensity-
Score Matching. Impact-Evaluation Guidelines. Nota tcnica del BID-TN-161.
Washington, D.C.: BID.
Jalan, J. y M. Ravallion. 2003. Estimating the Benet Incidence of an Antipoverty
Program by Propensity-Score Matching. Journal of Business & Economic
Statistics 21 (1): 1930.
Mu, R. y D. Van de Walle. 2011. Rural Roads and Local Market Development in
Vietnam. Journal of Development Studies 47 (5): 70934.
Rosenbaum, P. 2002. Observational Studies (2da. edicin), Springer Series in
Statistics. Nueva York: Springer-Verlag.
Rosenbaum, P. y D. Rubin. 1983. The Central Role of the Propensity Score in
Observational Studies of Causal Effects. Biometrika 70 (1): 4155.

176 La evaluacin de impacto en la prctica

IEP.indb 176 1/6/17 1:48 PM


CAPTULO 9

Cmo abordar las dicultades


metodolgicas

Efectos heterogneos del tratamiento

Ya se ha visto que la mayora de los mtodos de evaluacin de impacto solo


producen estimaciones vlidas del contrafactual bajo supuestos especcos.
Elprincipal riesgo de cualquier mtodo es que sus supuestos fundamentales
no sean vlidos, lo que genera estimaciones sesgadas del impacto del pro-
grama que se evala. Sin embargo, tambin hay otros riesgos comunes en la
mayora de las metodologas que se han analizado. En este captulo, se exa-
minarn los principales.
Un tipo de riesgo surge cuando se estima el impacto de un programa en
todo un grupo y los resultados ocultan algunas diferencias en las respuestas al
tratamiento de los diferentes receptores, es decir, los efectos heterogneos del
tratamiento. La mayora de los mtodos de evaluacin de impacto supone que
un programa inuye en los resultados de una manera simple y lineal para
todas las unidades de la poblacin.
Sin embargo, si se piensa que diferentes subpoblaciones pueden haber
vivido el impacto de un programa de manera muy diferente, puede que con-
venga tener muestras estraticadas para cada subpoblacin. Supngase,
por ejemplo, que a uno le interesa conocer el impacto de un programa de
comida escolar en las nias, pero solo el 10% del alumnado est confor-
mado por nias. En ese caso, puede que incluso una muestra aleatoria
177

IEP.indb 177 1/6/17 1:48 PM


grande de alumnos no contenga un nmero suciente de nias como para
estimar el impacto del programa en ellas. Para el diseo de la muestra de
evaluacin, convendra estraticar la misma basndose en el sexo, e incluir
un nmero sucientemente grande de nias a n de poder detectar un
determinado tamao del efecto.

Efectos no intencionados en la conducta

Cuando se lleva a cabo una evaluacin de impacto, tambin puede suceder


que se induzca a respuestas no intencionadas en la conducta de la poblacin
que se estudia, a saber:
El efecto Hawthorne ocurre cuando debido al mero hecho de saber que
estn siendo observadas, las unidades se comportan de manera diferente
(vase el recuadro 9.1).

Recuadro 9.1: Cuentos tradicionales de la evaluacin de impacto:


el efecto Hawthorne y el efecto John Henry
La expresin efecto Hawthorne se refiere a fueron objeto de polmicas y en alguna
los experimentos llevados a cabo entre medida se los desacredit, la expresin
1924 y 1932 en el Hawthorne Works, una efecto Hawthorne permaneci.
fbrica de equipos elctricos en el estado En cuanto al efecto John Henry, la expre-
de Illinois. Los experimentos probaron el sin fue acuada por Gary Saretsky en 1972
impacto del cambio en las condiciones de para referirse al legendario hroe popular
trabajo (como aumentar o disminuir la inten- John Henry, el hombre del taladro de
sidad de la luz) en la productividad de los acero encargado de horadar las rocas con
trabajadores, y llegaron a la conclusin de un taladro de acero para preparar los aguje-
que cualquier cambio en las condiciones de ros de los explosivos durante la construc-
trabajo (ms o menos luz, ms o menos cin de un tnel de ferrocarril. Segn cuenta
perodos de descanso, etc.) produca un la leyenda, cuando Henry supo que se le
aumento de la productividad. Esto se inter- comparaba con un taladro de acero, trabaj
pret como un efecto de observacin, esforzndose mucho ms para superar a la
es decir, los trabajadores que formaban propia mquina. Desafortunadamente, falle-
parte del experimento se vieron a s mis- ci como consecuencia de ello. Sin embargo,
mos como algo especial y su productividad la expresin sigue vigente para describir
aument debido a esto, y no debido al cam- cmo las unidades de comparacin a veces
bio en las condiciones de trabajo. Si bien los se esfuerzan ms para compensar el hecho
experimentos originales posteriormente de no ser objeto de un tratamiento.

Fuentes: Landsberger (1958).

178 La evaluacin de impacto en la prctica

IEP.indb 178 1/6/17 1:48 PM


El efecto John Henry se produce cuando las unidades de comparacin se
esfuerzan ms para compensar el hecho de no ser objeto del tratamiento
(vase el recuadro 9.1).
La anticipacin puede generar otro tipo de efecto no intencionado en la
conducta. En una aleatorizacin por fases, puede que las unidades del
grupo de comparacin esperen recibir el programa en el futuro y comien-
cen a cambiar su comportamiento antes de que el programa realmente se
materialice.
El sesgo por sustitucin es otro efecto en la conducta que inuye en el
grupo de comparacin: las unidades que no fueron seleccionadas para ser
objeto del programa pueden encontrar buenos sustitutos gracias a su
propia iniciativa.
Las respuestas en la conducta que afectan de manera desproporcionada al
grupo de comparacin constituyen un problema porque pueden socavar la
validez interna de los resultados de la evaluacin, aunque se use la asigna-
cin aleatoria como mtodo de evaluacin. Un grupo de comparacin que se
esfuerza ms para compensar el hecho de no ser objeto de un tratamiento, o
que cambia su conducta en previsin del programa, no es una buena repre-
sentacin del contrafactual.
Si se tiene algn motivo para creer que se pueden producir estas respuestas
no intencionadas en la conducta, a veces una opcin es constituir otros grupos
de comparacin que no se vean en absoluto afectados por la intervencin, es
decir, un grupo que permita explcitamente comprobar dichas respuestas.
Tambin puede que sea una buena idea recopilar datos cualitativos con el
n de entender mejor las respuestas en la conducta.

Imperfeccin del cumplimiento

La imperfeccin del cumplimiento es la discrepancia entre la condicin asig-


nada del tratamiento y la condicin real del mismo. La imperfeccin del
cumplimiento se produce cuando algunas unidades asignadas al grupo de
tratamiento no reciben tratamiento, y cuando algunas unidades asignadas
al grupo de comparacin reciben tratamiento. En el captulo 5 se estudia la
imperfeccin del cumplimiento en referencia a la asignacin aleatoria, si
bien la imperfeccin del cumplimiento tambin se puede producir con el
diseo de regresin discontinua (como se seala en el captulo 6) y con dife-
rencias en diferencias (captulo 7). Antes de que se puedan interpretar las
estimaciones de impacto que genera cualquier mtodo, es necesario saber si
se ha producido una imperfeccin del cumplimiento en el programa.
Cmo abordar las dificultades metodolgicas 179

IEP.indb 179 1/6/17 1:48 PM


La imperfeccin del cumplimiento puede tener lugar de diversas
maneras:

No todos los participantes previstos participan realmente en el programa.


A veces, algunas unidades asignadas a un programa deciden no participar.

Algunos participantes previstos son excluidos del programa debido a


errores administrativos o de ejecucin.

Se ofrece el programa por error a algunas unidades del grupo de compa-


racin, que se inscriben en l.

Algunas unidades del grupo de comparacin consiguen participar en el


programa a pesar de que no se les ofrece.

El programa se asigna a partir del ndice continuo de elegibilidad, pero


no se aplica estrictamente el umbral de elegibilidad.
Se produce una migracin selectiva en funcin de la condicin del trata-
miento. Por ejemplo, puede que la evaluacin compare los resultados en
los municipios tratados y no tratados, pero las personas pueden decidir
trasladarse a otro municipio si no les agrada la condicin de tratamiento
de su municipio.

En general, ante una situacin de imperfeccin del cumplimiento, los


mtodos normales de evaluacin de impacto producen estimaciones de la
intencin de tratar. Sin embargo, se pueden obtener estimaciones del tra-
tamiento en los tratados a partir de las estimaciones de la intencin de
tratar mediante el mtodo de variables instrumentales.
En el captulo 5 se explic la idea bsica para lidiar con la imperfeccin
del cumplimiento en el contexto de la asignacin aleatoria. Mediante un
ajuste del porcentaje de cumplidores en la muestra de la evaluacin, se
pudo recuperar el efecto local promedio del tratamiento en los cumplidores
a partir de la estimacin de la intencin de tratar. Este ajuste puede
ampliarse a otros mtodos mediante la aplicacin del enfoque ms general
de variables instrumentales. La variable instrumental contiene una fuente
externa de variacin que ayuda a eliminar o corregir el sesgo que puede
derivarse de la imperfeccin en el cumplimiento. En el caso de la asignacin
aleatoria con imperfeccin en el cumplimiento, se utiliza una variable 0/1
(denominada dummy) que asume el valor de 1 si la unidad estaba asignada
originalmente al grupo de tratamiento, y de 0 si la unidad estaba original-
mente asignada al grupo de comparacin. Durante la fase de anlisis, la
variable instrumental se usa con frecuencia en el contexto de una regresin
en dos fases que permite identicar el impacto del tratamiento en los
cumplidores.
180 La evaluacin de impacto en la prctica

IEP.indb 180 1/6/17 1:48 PM


La lgica del mtodo de variable instrumental puede aplicarse al contexto
de otros mtodos de evaluacin:

En el contexto del diseo de regresin discontinua, debe utilizarse una


variable 0/1 que indique si la unidad se encuentra en el lado no elegible o
elegible de la puntuacin lmite.
En el contexto de la migracin selectiva, una posible variable instrumen-
tal para la ubicacin del individuo despus del comienzo del programa
sera la ubicacin del individuo antes del anuncio del programa.

A pesar de la posibilidad de abordar la imperfeccin en el cumplimiento


utilizando variables instrumentales, es necesario recordar tres puntos:

1. Desde un punto de vista tcnico, no es deseable que una gran parte del
grupo de comparacin se inscriba en el programa. A medida que
aumenta la proporcin del grupo de comparacin que se inscribe en el
programa, la fraccin de cumplidores en la poblacin disminuir, y el
efecto local promedio del tratamiento estimado con el mtodo de varia-
ble instrumental ser vlido solo para una fraccin cada vez ms
pequea de la poblacin de inters. Si esto se extiende demasiado, puede
que los resultados pierdan toda relevancia para las polticas, dado que ya
no seran aplicables a una parte sucientemente grande de la poblacin
de inters.
2. Tampoco es deseable que una parte grande del grupo de tratamiento
siga sin inscribirse. Una vez ms, a medida que la fraccin del grupo
de tratamiento que se inscribe en el programa disminuye, tambin lo
hace la fraccin de cumplidores de la poblacin. El efecto prome-
dio del tratamiento estimado con el mtodo de variable instrumental
ser vlido solo para una fraccin cada vez menor de la poblacin de
inters.
3. Como ya se trat en el captulo 5, el mtodo de variables instrumentales
es vlido solo en ciertas circunstancias; decididamente no es una solu-
cin universal.

El efecto de derrame

Los derrames (o efectos de derrame) son otro problema habitual a los que se
enfrentan las evaluaciones, sea que se aplique el mtodo de asignacin alea-
toria, el de diseo de regresin discontinua o el de diferencias en diferen-
cias. Un derrame se produce cuando una intervencin afecta a un no
Cmo abordar las dificultades metodolgicas 181

IEP.indb 181 1/6/17 1:48 PM


participante, y puede ser positivo o negativo. Hay cuatro tipos de efectos de
derrame, segn Angelucci y Di Maro (2015):

Externalidades. Se trata de efectos que van de los sujetos tratados a los


sujetos no tratados. Por ejemplo, vacunar contra la gripe a los nios de un
pueblo reduce la probabilidad de que los habitantes no vacunados del
mismo pueblo contraigan esa enfermedad. Se trata de un ejemplo de
externalidades positivas. Las externalidades tambin pueden ser negati-
vas. Por ejemplo, los cultivos de un agricultor pueden verse parcialmente
destruidos si su vecino aplica un herbicida en su propio terreno y parte
del herbicida cae sobre el otro lado de la lnea divisoria de la propiedad.

Interaccin social. Los efectos de derrame pueden ser el producto de


interacciones sociales y econmicas entre poblaciones tratadas y no
tratadas, que conducen a impactos indirectos en los no tratados. Por
ejemplo, un alumno que recibe una Tablet como parte de un programa
de mejora del aprendizaje puede compartir el dispositivo con otro
alumno que no participa en el programa.

Efectos de equilibrio del contexto. Estos efectos se producen cuando una


intervencin inuye en las normas comportamentales o sociales dentro
de un determinado contexto, como una localidad tratada. Por ejemplo,
aumentar la cantidad de recursos que reciben los centros de salud trata-
dos de manera que puedan ampliar su gama de servicios puede inuir en
las expectativas de la poblacin a propsito de cul debera ser el nivel de
los servicios ofrecidos en todos los centros de salud.
Efectos de equilibrio general. Estos efectos se producen cuando las inter-
venciones inuyen en la oferta y demanda de bienes y servicios y, por
ende, cambian el precio de mercado de esos servicios. Por ejemplo, un
programa que entrega vales a las mujeres pobres para que utilicen los
centros privados para dar a luz puede aumentar la demanda de servicios
en los centros privados, lo que incrementara el precio del servicio para
todos. El recuadro 9.2 presenta un ejemplo de externalidades negativas
debido a efectos de equilibrio general en el contexto de un programa de
capacitacin laboral.

Si el no participante que experimenta el derrame pertenece al grupo de


comparacin, el efecto derrame viola el requisito bsico de que el resultado
de una unidad no debera verse afectado por la asignacin concreta de trata-
mientos a otras comunidades. Este supuesto de estabilidad del valor de la uni-
dad de tratamiento (o SUTVA, por sus siglas en ingls, stable unit treatment
value assumption) es necesario para asegurar que la asignacin aleatoria
produzca estimaciones no sesgadas del impacto. Si el grupo de control se ve
182 La evaluacin de impacto en la prctica

IEP.indb 182 1/6/17 1:48 PM


Recuadro 9.2: Externalidades negativas debidas a efectos de
equilibrio general: asistencia para la colocacin laboral y
resultados del mercado de trabajo en Francia
Los programas de asistencia para la coloca- obtenido el empleo que obtuvo el trabajador
cin laboral son populares en numerosos asesorado. Para investigar esta hiptesis,
pases desarrollados. Los gobiernos contra- llevaron a cabo un experimento aleatorio
tan a una entidad externa para que ayude a que inclua 235 mercados laborales (en las
los trabajadores desempleados en su bs- ciudades) de Francia. Estos mercados de
queda de empleo. Numerosos estudios lle- trabajo fueron asignados aleatoriamente a
gan a la conclusin de que estos programas uno de cinco grupos, que variaban en cuanto
de asesora tienen un impacto significativo y al porcentaje de buscadores de empleo que
positivo en quienes buscan empleo. eran asignados al tratamiento de asesora
Crpon et al. (2013) investigaron si (0%, 25%, 50%, 75% y 100%). En cada
procurar asistencia laboral a trabajadores mercado laboral, los buscadores de empleo
jvenes y con estudios que buscaban elegibles eran asignados de forma aleatoria
empleo en Francia podra tener efectos al tratamiento, siguiendo esta proporcin.
negativos en otros jvenes que buscan Al cabo de ocho meses, los autores
empleo pero que no tienen el apoyo del encontraron que los jvenes desempleados
programa. Segn su hiptesis, podra existir asignados al programa tenan probabilidades
un mecanismo de derrame, es decir, cuando significativamente mayores de encontrar un
el mercado laboral no est creciendo empleo estable que aquellos que no haban
demasiado, ayudar a una persona que busca sido asignados. No obstante, al parecer esto
empleo a encontrarlo puede producirse en se produjo parcialmente a expensas de los
desmedro de otra persona que busca trabajadores elegibles que no se beneficiaron
empleo y que, de otra manera, podra haber del programa.

Fuente: Crpon et al. (2013).

indirectamente afectado por el tratamiento recibido por el grupo de trata-


miento (por ejemplo, los alumnos del grupo de comparacin que usan las
Tablets de los alumnos del grupo de tratamiento), la comparacin no repre-
senta con precisin qu habra ocurrido en el grupo de tratamiento en
ausencia de tratamiento (el contrafactual).
Si el no participante que experimenta el derrame no pertenece al grupo
de comparacin, el supuesto SUTVA sera vlido y el grupo de comparacin
seguira proporcionando una buena estimacin del contrafactual. Sin
embargo, an habra que medir el derrame, porque representa un impacto
real del programa. En otras palabras, la comparacin de los resultados de los
grupos de tratamiento y comparacin generara estimaciones no sesgadas
del impacto del tratamiento en el grupo tratado, pero esto no tendra en
cuenta el impacto del programa en otros grupos.
Cmo abordar las dificultades metodolgicas 183

IEP.indb 183 1/6/17 1:48 PM


Un ejemplo clsico de efectos de derrame debido a externalidades se pre-
senta en Kremer y Miguel (2004), que analizaron el impacto de administrar
una medicacin antiparasitaria a nios en escuelas de Kenia (recuadro9.3).
Los parsitos intestinales pueden transmitirse de una persona a otra a travs
del contacto con materia fecal contaminada. Cuando un nio recibe el remedio
antiparasitario, su carga de parsitos disminuye, pero tambin lo har la
carga de parsitos de las personas que viven en su entorno, dado que ya no
entrarn en contacto con los parsitos del nio. Por lo tanto, en el ejemplo de
Kenia, cuando se administr el remedio a los nios de una escuela, se bene-
ciaron no solo esos nios (benecio directo) sino tambin los nios de las
escuelas vecinas (benecios indirectos).
Como se describe en el grco 9.1, la campaa antiparasitaria de las escue-
las del grupo A tambin disminuye el nmero de parsitos que afectan a los
nios que no pertenecen a las escuelas del grupo A. Concretamente, puede
reducir la carga de parsitos que afectan a los nios que van a las escuelas del
grupo de comparacin B, situadas cerca de las escuelas del grupo A. Sin
embargo, las escuelas de comparacin que se hallan ms lejos de las escuelas
del grupo A las llamadas escuelas del grupo C no experimentan dichos
efectos de derrame porque el remedio administrado en el grupo A no eli-
mina los parsitos que afectan a los nios que van a las escuelas del grupo C.
La evaluacin y sus resultados se estudian con ms detalle en el recuadro 9.3.

Recuadro 9.3: Trabajando con los efectos de derrame: remedios


antiparasitarios, externalidades y educacin en Kenia
El Proyecto de Tratamiento Antiparasitario de con las recomendaciones de la Organizacin
las escuelas primarias de Busia, Kenia, fue Mundial de la Salud (OMS) y tambin recibie-
diseado para probar diversos aspectos de ron educacin antiparasitaria preventiva con
los tratamientos antiparasitarios y de la pre- charlas sobre la salud, psteres y capacita-
vencin. La iniciativa fue un programa de la cin de los profesores.
organizacin holandesa sin fines de lucro Debido a limitaciones administrativas y
International Child Support Africa, en coope- financieras, el programa se llev a cabo
racin con el Ministerio de Salud de Kenia. El segn el orden alfabtico de las escuelas. El
proyecto abarcaba 75 escuelas con una matri- primer grupo de 25 escuelas comenz en
culacin total de ms de 30.000 alumnos de 1998, el segundo grupo en 1999 y el tercer
6 a 18 aos. Los nios fueron tratados con grupo en 2001. Mediante una seleccin alea-
remedios antiparasitarios de conformidad toria de las escuelas, Kremer y Miguel

Contina en la pgina siguiente.

184 La evaluacin de impacto en la prctica

IEP.indb 184 1/6/17 1:48 PM


Recuadro 9.3: Trabajando con los efectos de derrame: remedios antiparasitarios, externalidades y
educacin en Kenia (contina)

(2004) pudieron estimar el impacto del trata- disminuyeron en 12 puntos porcentuales a


miento antiparasitario en un establecimiento travs de un efecto de derrame indirecto.
e identificar los derrames en otras escuelas Tambin se observaron externalidades entre
utilizando una variacin exgena de la cerca- las escuelas.
na entre las escuelas de comparacin y las Dado que el costo del tratamiento antipa-
de tratamiento. Aunque el cumplimiento del rasitario es tan bajo y que los efectos en la
diseo aleatorio fue relativamente alto (el salud y la educacin son relativamente altos,
75% de los alumnos asignados al grupo de los autores llegaron a la conclusin de que el
tratamiento recibi los medicamentos anti- tratamiento antiparasitario es una manera
parasitarios y solo un pequeo porcentaje relativamente costo-efectiva para mejorar
del grupo de comparacin recibi trata- las tasas de participacin en las escuelas.
miento), los investigadores pudieron aprove- El estudio tambin muestra que las enfer-
char el no cumplimiento para determinar las medades tropicales como los parsitos pue-
externalidades de salud, o derrames, en las den desempear un importante rol en los
escuelas. resultados educativos, lo cual fortalece los
El efecto directo de las intervenciones argumentos de que la alta carga de infeccio-
fue una reduccin de las infecciones parasi- nes existente en frica puede ser uno de los
tarias moderadas a graves en 26 puntos factores que explica su bajo ingreso. Por lo
porcentuales para los alumnos que tomaban tanto, Kremer y Miguel sostienen que el estu-
la medicacin. Entretanto, las infecciones dio es un slido argumento a favor de las sub-
moderadas a graves entre los alumnos venciones pblicas a los tratamientos contra
que asistan a las escuelas de trata- las infecciones, con beneficios de derrame
miento pero no tomaban la medicacin similares en los pases en desarrollo.

Fuente: Kremer y Miguel (2004).

Diseo de una evaluacin de impacto que tiene en cuenta


los derrames

Supngase que se disea una evaluacin de impacto para un programa


donde es probable que se produzcan derrames. Cmo se enfocara esto?
Lo primero es entender que el objetivo de la evaluacin necesita ser ms
amplio. Mientras que una evaluacin estndar pretende estimar el impacto
(o efecto causal) de un programa en un resultado de inters para las unida-
des que reciben el tratamiento, una evaluacin con efectos de derrame
tendr que responder a dos preguntas:
1. La pregunta estndar sobre la evaluacin del impacto directo. Cul es el
impacto (o efecto causal) de un programa en un resultado de inters para
Cmo abordar las dificultades metodolgicas 185

IEP.indb 185 1/6/17 1:48 PM


Grfico 9.1 Un ejemplo clsico de efecto de derrame: externalidades positivas
de la administracin de remedios antiparasitarios a los nios de las escuelas

nta
de co gio esc
ona ola
Z r
ontagio es
de c co
ona lar
Z Escuela

Escuela B

Zona de externalidades
del tratamiento
antiparasitario

ntagio e
e co sco
nad la
o

r
Z
Escuela

las unidades que reciben el tratamiento? Se trata del impacto directo que
el programa tiene en los grupos tratados.
2. Una segunda pregunta sobre la evaluacin del impacto indirecto. Cul es
el impacto (o efecto causal) de un programa en un resultado de inters en
las unidades que no reciben el tratamiento? Se trata del impacto indirecto
que el programa tiene en los grupos no tratados.
Para estimar el impacto directo en los grupos tratados, habr que elegir el
grupo de comparacin de tal manera que no se vea afectado por los derra-
mes. Por ejemplo, puede ponerse como condicin que los pueblos, clnicas u
hogares de tratamiento y comparacin estn situados lo sucientemente
lejos unos de otros de manera que los derrames sean poco probables.
Para estimar el impacto indirecto en los grupos no tratados, debera iden-
ticarse para cada grupo no tratado un grupo de comparacin adicional que
186 La evaluacin de impacto en la prctica

IEP.indb 186 1/6/17 1:48 PM


pueda verse afectado por los derrames. Por ejemplo, los trabajadores comu-
nitarios de la salud pueden realizar visitas domiciliarias para proporcionar
informacin a los padres acerca de los benecios de una dieta variada mejo-
rada para los nios. Supngase que los trabajadores comunitarios de la salud
solo visitan algunos hogares de un pueblo determinado. Uno puede estar
interesado en los efectos de derrame sobre los nios de los hogares no visita-
dos, en cuyo caso necesitara hallar un grupo de comparacin para estos
nios. Al mismo tiempo, puede ser que la intervencin tambin afecte la
variedad de la dieta de los adultos. Si tal efecto indirecto es de inters para la
evaluacin, se necesitara tambin un grupo de comparacin para los adul-
tos. A medida que aumente el nmero de canales potenciales de derrame, el
diseo puede complicarse con relativa rapidez.
Las evaluaciones con efectos de derrame plantean ciertos problemas
especcos. Por ejemplo, cuando los efectos de derrame son probables, es
importante entender el mecanismo de derrame, ya sea biolgico, social,
ambiental o de otro tipo. Si no se sabe cul es el mecanismo de derrame, no
ser posible elegir con precisin los grupos de comparacin que son y no son
afectados por los derrames. En segundo lugar, una evaluacin con efectos de
derrame requiere una recopilacin de datos ms amplia que una evaluacin
en la cual esa preocupacin no existe: hay un grupo de comparacin adicio-
nal (en el ejemplo anterior, los pueblos vecinos). Puede que tambin tengan
que recopilarse datos sobre las otras unidades (en el ejemplo anterior, los
adultos de los hogares objetivo para visitas relacionadas con la nutricin de
los nios). En el recuadro 9.4 se analiza cmo los investigadores manejaron
los efectos de derrame en una evaluacin de un programa de transferencias
condicionadas en Mxico.

Recuadro 9.4: Evaluacin de los efectos de derrame:


transferencias condicionadas y derrames en Mxico
Angelucci y De Giorgi (2009) analizaron los elegibles a travs de prstamos o regalos.
derrames en el programa Progresa, en El programa Progresa se implant por
Mxico, que proporcionaba transferencias fases a lo largo de dos aos, y se seleccionaron
condicionadas a los hogares (vanse los aleatoriamente 320 pueblos para recibir las
recuadros 1.1 y 4.2). Los investigadores transferencias de efectivo en 1998, y 186 en
buscaban analizar si haba riesgo compartido 1999. Por lo tanto, entre 1998 y 1999 haba 320
en los pueblos. Si los hogares compartan pueblos de tratamiento y 186 pueblos de
riesgo, los hogares elegibles podan comparacin. En los pueblos de tratamiento,
transferir parte del efectivo a hogares no la elegibilidad de un hogar para las
Contina en la pgina siguiente.

Cmo abordar las dificultades metodolgicas 187

IEP.indb 187 1/6/17 1:48 PM


Recuadro 9.4: Evaluacin de los efectos de derrame: transferencias condicionadas y derrames en
Mxico (contina)

transferencias de Progresa estaba determinada tratamiento. Esto equivala a alrededor de la


por el nivel de pobreza y se contaba con los mitad del incremento promedio del consumo
datos del censo de ambos grupos. Esto cre de alimentos de los hogares elegibles. Los
cuatro subgrupos dentro de la muestra: resultados tambin apoyaron la hiptesis de
poblaciones elegibles y no elegibles en los riesgo compartido en los pueblos. Los
pueblos de tratamiento y comparacin. hogares no elegibles en los pueblos de
Suponiendo que el programa no afectaba tratamiento recibieron ms prstamos y
indirectamente a los pueblos de comparacin, transferencias de los amigos y la familia que
los hogares no elegibles en dichos pueblos los hogares no elegibles en los pueblos de
constituan un contrafactual vlido para los comparacin. Esto implica que el efecto de
hogares no elegibles en los pueblos de derrame funcion a travs de los mercados
tratamiento, con el objetivo de estimar el de seguro y de crdito locales.
efecto de derrame en los hogares no elegibles A partir de estos resultados, Angelucci y
dentro de los pueblos de comparacin. De Giorgi llegaron a la conclusin de que
Los autores encontraron evidencia de las anteriores evaluaciones de Progresa
derrames positivos en el consumo. El subestimaban el impacto del programa en
consumo de alimentos de los adultos un 12% porque no tenan en cuenta los
aument cerca de un 10% al mes en los efectos indirectos en los hogares no
hogares no elegibles de los pueblos de elegibles en los pueblos de tratamiento.

Fuente: Angelucci y De Giorgi (2009).

El desgaste

El sesgo del desgaste es otro problema habitual que afecta a las evaluaciones,
ya sea con el mtodo de asignacin aleatoria, de regresin discontinua o de
diferencias en diferencias. El desgaste se produce cuando partes de la mues-
tra desaparecen a lo largo del tiempo y los investigadores no pueden
encontrar a todos los miembros iniciales de los grupos de tratamiento y
comparacin en las encuestas o en los datos de seguimiento. Por ejemplo, de
los 2.500 hogares encuestados en la lnea de base, los investigadores pueden
encontrar solo 2.300 en una encuesta de seguimiento dos aos despus. Si
intentan volver a realizar la encuesta al mismo grupo, por ejemplo, 10 aos
despus, puede que encuentren incluso menos hogares originales.
El desgaste se puede producir por diferentes motivos. Por ejemplo, puede
que los miembros de los hogares o incluso familias enteras se muden a otro
pueblo, ciudad, regin, o incluso pas. En un ejemplo reciente, una encuesta de
seguimiento realizada 22 aos despus en Jamaica indic que el 18% de la
188 La evaluacin de impacto en la prctica

IEP.indb 188 1/6/17 1:48 PM


muestra haba emigrado (vase el recuadro 9.5). En otros casos, los encues-
tados ya no estaban dispuestos a responder a una segunda encuesta. Tambin
ocurri que los conictos y la falta de seguridad en la zona impidieron que
el equipo de investigacin llevara a cabo una encuesta en algunas localida-
des incluidas en la lnea de base.

Recuadro 9.5: El desgaste en estudios con seguimiento a largo


plazo: desarrollo infantil temprano y migracin en Jamaica
El desgaste puede ser especialmente Sin embargo, al considerarse el subgrupo de
problemtico cuando han pasado muchos nios que se haban convertido en
aos entre las encuestas de lnea de base y trabajadores migrantes, se observaron
seguimiento. En 1986 un equipo de la seales de desgaste selectivo. De los 23
University of West Indies inici un estudio trabajadores migrantes, nueve haban
para medir los resultados a largo plazo de abandonado la muestra y una parte
una intervencin en la primera infancia en significativamente mayor de aquellos
Jamaica. En 2008, cuando los participantes perteneca al grupo de tratamiento. Esto
originales tenan 22 aos, se llev a cabo un implicaba que el tratamiento estaba asociado
seguimiento. Fue difcil encontrar la pista con la migracin. Dado que los trabajadores
de todos los participantes del estudio migrantes suelen ganar ms que aquellos
original. que permanecen en Jamaica, esto hizo difcil
La intervencin consisti en un programa la formulacin de estimaciones de impacto.
de dos aos que ofreci estimulacin Para tratar los sesgos potenciales del
psicosocial y suplementos nutricionales a desgaste entre los trabajadores migrantes, los
nios pequeos con problemas de investigadores utilizaron tcnicas
crecimiento en Kingston, Jamaica. Un total economtricas. Predijeron los ingresos de los
de 129 nios fueron asignados aleatoriamente trabajadores migrantes que haban
a una de tres ramas de tratamiento o a un abandonado la muestra mediante una
grupo de comparacin. Los investigadores regresin de mnimos cuadrados ordinarios
tambin encuestaron a 84 nios sin utilizando como factores determinantes la
problemas de crecimiento para un segundo condicin de tratamiento, el sexo y
grupo de comparacin. En el seguimiento, la migracin. Con estas predicciones en la
los investigadores pudieron realizar una estimacin de impacto, llegaron a la conclusin
segunda encuesta con casi el 80% de los de que los resultados del programa eran
participantes. No se recogi evidencia de impresionantes. La intervencin en la primera
desgaste selectivo en el conjunto de la infancia haba aumentado los ingresos del
muestra, lo que significa que no haba grupo de tratamiento en un 25%. Este efecto
diferencias significativas en las caractersticas era lo bastante grande para que el grupo de
de lnea de base de aquellos que podan ser tratamiento con problemas de crecimiento
encuestados a los 22 aos, comparados con alcanzara al grupo de comparacin sin
aquellos que no podan ser encuestados. problemas de crecimiento 20 aos ms tarde.

Fuentes: Gertler et al. (2014); Grantham-McGregor et al. (1991).

Cmo abordar las dificultades metodolgicas 189

IEP.indb 189 1/6/17 1:48 PM


El desgaste puede ser problemtico por dos motivos. En primer lugar, la
muestra de seguimiento quiz ya no represente adecuadamente a la pobla-
cin de inters. Recurdese que cuando se elige la muestra, en el momento de
la asignacin aleatoria, se hace de manera que represente de forma apropiada
a la poblacin de inters. En otras palabras, se escoge una muestra que tiene
validez externa para la poblacin de inters. Si la encuesta o la recopilacin
de datos de seguimiento se ve limitada por un desgaste considerable, debera
ser preocupante que la muestra de seguimiento represente solo a un sub-
conjunto especco de la poblacin de inters. Por ejemplo, si las personas
de mayor nivel educativo de la muestra original tambin son las que emi-
gran, la encuesta de seguimiento ignorara a aquellas personas con estudios
y ya no representara adecuadamente a la poblacin de inters, que inclua a
esas personas.
En segundo lugar, puede que la muestra de seguimiento ya no est equili-
brada entre el grupo de tratamiento y de comparacin. Supngase que se
intenta evaluar un programa que quiere mejorar la educacin de las nias y
que es ms probable que las nias con estudios se muden a la ciudad a bus-
car un empleo. Entonces, la encuesta de seguimiento podra mostrar un alto
desgaste desproporcionado en el grupo de tratamiento, en relacin con el
grupo de comparacin. Esto podra afectar la validez interna del programa,
es decir, al contrastar las unidades de tratamiento y comparacin que se
encuentran en el seguimiento, ya no se podr dar una estimacin precisa del
impacto del programa.
Si durante las encuestas de seguimiento se halla desgaste, los siguientes
dos pasos pueden ayudar a evaluar el alcance del problema. Primero, verif-
quese si las caractersticas de lnea de base de las unidades que abandonaron
la muestra son estadsticamente iguales a las caractersticas de lnea de base
de las unidades que fueron encuestadas con xito la segunda vez. Siempre
que las caractersticas de lnea de base de ambos grupos no sean estadstica-
mente diferentes, la nueva muestra debera seguir representando a la pobla-
cin de inters.
Segundo, verifquese si la tasa de desgaste del grupo de tratamiento es
similar a la tasa de desgaste del grupo de comparacin. Si ambas son signi-
cativamente diferentes, surge la preocupacin de que la muestra ya no sea
vlida, y quiz deban utilizarse diversas tcnicas estadsticas para intentar
corregir esto. Un mtodo habitual es la ponderacin por probabilidad inversa,
un mtodo que repondera estadsticamente los datos (en este caso, los datos
de seguimiento) para corregir el hecho de que una parte de los encuestados
originales est ausente. El mtodo formula una reponderacin de la muestra
de seguimiento de modo que tenga un aspecto similar a la muestra de lnea
de base.1

190 La evaluacin de impacto en la prctica

IEP.indb 190 1/6/17 1:48 PM


Programacin en el tiempo y persistencia de
los efectos

Los canales de transmisin entre insumos, actividades, productos y resultados


pueden tener lugar de inmediato, pronto o despus de un perodo de tiempo,
y suelen estar estrechamente relacionados con los cambios en el comporta-
miento humano. En el captulo 2 se pona de relieve la importancia de pensar
en estos canales y planicar correspondientemente antes de que comenzara
la intervencin, as como de desarrollar una cadena causal clara para el pro-
grama que se est evaluando. En aras de la sencillez, nos hemos abstrado de
los problemas relacionados con la programacin en el tiempo. Sin embargo, es
fundamental considerar estos aspectos cuando se disea una evaluacin.
En primer lugar, los programas no necesariamente se vuelven plenamente
efectivos justo despus de su inicio (King y Behrman, 2009). Los administra-
dores de un programa necesitan tiempo para que ste comience a funcionar,
y puede ser que los beneciarios no vean los frutos de inmediato porque los
cambios de conducta requieren tiempo, y puede ser que las instituciones tam-
poco modiquen su comportamiento con rapidez. Por otro lado, una vez que
las instituciones y los beneciarios cambian ciertas conductas, puede ocurrir
que estas se mantengan aun cuando se suspenda el programa. Por ejemplo,
un programa que incentiva a los hogares a separar y reciclar la basura y aho-
rrar energa puede seguir siendo efectivo despus de que se eliminen los
incentivos, si consigue cambiar las normas de los hogares en el manejo de la
basura y la energa. Cuando se disea una evaluacin, hay que tener mucho
cuidado (y ser realistas) para denir cunto podra tardar el programa en
alcanzar su plena efectividad. Puede que sea necesario llevar a cabo diversas
encuestas de seguimiento para medir el impacto del programa a lo largo del
tiempo, o incluso despus de que el programa se interrumpa. El recuadro 9.6
presenta el caso de una evaluacin donde algunos efectos solo se hicieron
visibles despus de suspendida la intervencin inicial.

Recuadro 9.6: Evaluacin de los efectos a largo plazo: subsidios y


adopcin de redes antimosquitos tratadas con insecticidas en Kenia
Dupas (2014) dise una evaluacin de impacto ingls, insecticide treated bed nets) en Busia,
para medir los impactos tanto de corto como Kenia. Utilizando un experimento de dos fases
de largo plazo de diferentes esquemas de sub- donde intervena la fijacin de precios, Dupas
sidios en la demanda de redes antimosquitos asign aleatoriamente hogares a diversos nive-
tratadas con insecticidas (ITN, por sus siglas en les de subsidios para un nuevo tipo de ITN.
Contina en la pgina siguiente.

Cmo abordar las dificultades metodolgicas 191

IEP.indb 191 1/6/17 1:48 PM


Recuadro 9.6: Evaluacin de los efectos a largo plazo: subsidios y adopcin de redes antimosquitos
tratadas con insecticidas en Kenia (contina)

Un ao despus, todos los hogares en un sub- ITN se ofreci gratis, la tasa de adopcin
conjunto de pueblos tuvieron la oportunidad de aument al 98%. A largo plazo, las tasas de
comprar la misma red. Esto permiti a los adopcin ms altas se tradujeron en una
investigadores medir la disponibilidad de los mayor disponibilidad a pagar, dado que los
hogares a pagar por las ITN y cmo esta dispo- hogares vieron los beneficios de tener una
nibilidad cambiaba en funcin del subsidio reci- ITN. Aquellos que recibieron uno de los
bido en la primera fase del programa. subsidios ms grandes en la primera fase
En general, los resultados indicaron tenan tres veces ms probabilidades de
que un subsidio nico tena impactos comprar otra ITN en la segunda fase a ms
significativamente positivos en la adopcin del doble del precio.
de ITN y la disponibilidad para pagar a largo Los resultados de este estudio implican
plazo. En la primera fase del experimento, que se produce un efecto de aprendizaje en
Dupas observ que los hogares que reciban las intervenciones en ITN. Esto seala que
un subsidio que reduca el precio de la ITN es importante considerar los impactos de
de US$3,80 a US$0,75 tenan un 60% ms las intervenciones a largo plazo, as como
de probabilidades de comprarla. Cuando la dar a conocer la persistencia de los efectos.

Fuente: Dupas (2014).

Otros recursos

Para material de apoyo relacionado con el libro y para hipervnculos a ms


recursos, se recomienda consultar el sitio web de la Evaluacin de Impacto en
la Prctica (http://www.worldbank.org/ieinpractice).

Nota

1. Un mtodo estadstico ms avanzado sera estimar lmites ntidos en los


efectos del tratamiento (vase Lee, 2009).

Referencias bibliogrficas

Angelucci, M. y G. De Giorgi. 2009. Indirect Effects of an Aid Program: How Do


Cash Transfers Affect Ineligibles Consumption. American Economic Review
99 (1): 486508.
Angelucci, M. y V. Di Maro. 2015. Programme Evaluation and Spillover Effects.
Journal of Development Effectiveness (doi: 10.1080/19439342.2015.1033441).

192 La evaluacin de impacto en la prctica

IEP.indb 192 1/6/17 1:48 PM


Crpon, B., E. Duo, M. Gurgand, R. Rathelot y P. Zamora. 2013. Do Labor Market
Policies Have Displacement Effects? Evidence from a Clustered Randomized
Experiment. Quarterly Journal of Economics 128 (2): 53180.
Dupas, P. 2014. Short-Run Subsidies and Long-Run Adoption of New Health
Products: Evidence from a Field Experiment. Econometrica 82 (1): 197228.
Gertler, P., J. Heckman, R. Pinto, A. Zanolini, C. Vermeersch, S. Walker, S. M. Chang
y S. Grantham-McGregor. 2014. Labor Market Returns to an Early Childhood
Stimulation Intervention in Jamaica. Science 344 (6187): 9981001.
Grantham-McGregor, S., C. Powell, S. Walker y J. Himes. 1991. Nutritional
Supplementation, Psychosocial Stimulation and Development of Stunted
Children: The Jamaican Study. Lancet 338: 15.
King, E. M. y J. R. Behrman. 2009. Timing and Duration of Exposure in
Evaluations of Social Programs. World Bank Research Observer 24 (1): 5582.
Kremer, M. y E. Miguel. 2004. Worms: Identifying Impacts on Education and
Health in the Presence of Treatment Externalities. Econometrica 72 (1): 159217.
Landsberger, H. A. 1958. Hawthorne Revisited. Ithaca, NY: Cornell University Press.
Lee, D. 2009. Training, Wages, and Sample Selection: Estimating Sharp Bounds on
Treatment Effects. Review of Economic Studies 76 (3):10711102.
Levitt, S. D. y J. A. List. 2009. Was There Really a Hawthorne Effect at the Hawthorne
Plant? An Analysis of the Original Illumination Experiments. Documento de
trabajo NBER 15016. Cambridge, MA: National Bureau of Economic Research.
Saretsky, G. 1972. The OEO P.C. Experiment and the John Henry Effect. Phi Delta
Kappan 53: 57981.

Cmo abordar las dificultades metodolgicas 193

IEP.indb 193 1/6/17 1:48 PM


IEP.indb 194 1/6/17 1:48 PM
CAPTULO 10

Evaluacin de programas
multifacticos

Evaluacin de programas que combinan diversas


opciones de tratamiento

Hasta ahora, se han analizado programas con un solo tipo de tratamiento. Sin
embargo, muchas cuestiones relevantes relacionadas con las polticas se plan-
tean en programas multifacticos, es decir, que combinan varias opciones de
tratamiento.1 Los responsables de formular polticas pueden estar interesa-
dos en saber no solo si el programa funciona o no, sino tambin si funciona
mejor o tiene un costo menor que otro programa. Por ejemplo, si se quiere
aumentar la asistencia a la escuela, es ms ecaz orientar las intervenciones
a la demanda (como las transferencias condicionadas a las familias) o a la
oferta (como mayores incentivos para los profesores)? Y si se introducen las
dos intervenciones conjuntamente, funcionan mejor que cada una por su
cuenta?, son complementarias? Si la costo-efectividad es una prioridad,
puede preguntarse perfectamente cul es el nivel ptimo de los servicios que
debe prestar el programa. Por ejemplo, cul es la duracin ptima de un pro-
grama de capacitacin para el empleo? Un programa de seis meses contri-
buye ms que un programa de tres meses a que los participantes encuentren
empleo? De ser as, la diferencia es lo sucientemente grande para justicar
los recursos adicionales necesarios para un programa de seis meses? Por
ltimo, a los responsables de polticas les puede interesar cmo alterar un
195

IEP.indb 195 1/6/17 1:48 PM


programa existente para hacerlo ms efectivo, y quiz quieran probar diversos
mecanismos con el n de encontrar cul(es) funciona(n) mejor.
Adems de estimar el impacto de una intervencin sobre un resultado de
inters, las evaluaciones de impacto pueden ayudar a responder preguntas
ms generales, como las siguientes:
Cul es el impacto de un tratamiento en comparacin con otro? Por
ejemplo, cul es el impacto en el desarrollo cognitivo de los nios de un
programa que ofrece capacitacin a los padres, en comparacin con una
intervencin sobre nutricin?
El impacto conjunto de un primer y un segundo tratamiento es mayor que
la suma de los dos impactos? Por ejemplo, el impacto de la intervencin de
capacitacin de padres y la intervencin sobre nutricin es mayor, menor o
igual que la suma de los efectos de cada una de las intervenciones?
Cul es el impacto de un tratamiento de alta intensidad en comparacin
con un tratamiento de menor intensidad? Por ejemplo, cul es el efecto
en el desarrollo cognitivo de nios con retraso en el crecimiento si un
trabajador social los visita en su casa cada dos semanas, en lugar de visi-
tarlos una vez al mes?
Este captulo ofrece ejemplos de diseos de evaluaciones de impacto para dos
tipos de programas multifacticos: los que tienen mltiples niveles del mismo
tratamiento y los que tienen mltiples tratamientos. Primero se analiza cmo
disear una evaluacin de impacto de un programa con varios niveles de tra-
tamiento. Despus, se examinan los diferentes tipos de impactos de un pro-
grama con mltiples tratamientos. Para este anlisis se supone que se usar un
mtodo de asignacin aleatoria, aunque puede generalizarse a otros mtodos.

Evaluacin de programas con diferentes niveles


de tratamiento

Disear una evaluacin de impacto para un programa con niveles variables de


tratamiento es relativamente fcil. Imagnese que se intenta evaluar el impacto
de un programa con dos niveles de tratamiento: alto (por ejemplo, visitas cada
dos semanas) y bajo (visitas mensuales). Se quiere evaluar el impacto de
ambas opciones, y saber cunto afectan a los resultados esas visitas adiciona-
les. Para ello, se puede organizar un sorteo de modo de decidir quin recibe el
nivel alto de tratamiento, quin recibe el nivel bajo de tratamiento y a quin se
asigna al grupo de comparacin (el grco 10.1 ilustra este proceso).
Como es habitual en la asignacin aleatoria, el primer paso consiste en
denir la poblacin de unidades elegibles para el programa. El segundo, en
seleccionar una muestra aleatoria de unidades que se incluir en la evaluacin,
196 La evaluacin de impacto en la prctica

IEP.indb 196 1/6/17 1:48 PM


Grfico 10.1 Pasos para la asignacin aleatoria de dos niveles de tratamiento

1. Definir unidades 2. Seleccionar la muestra 3. Asignacin aleatoria a los


elegibles de evaluacin niveles alto y bajo del tratamiento

No elegible Elegible

la denominada muestra de evaluacin. Una vez que se cuente con la muestra de


evaluacin, en el tercer paso se asignarn aleatoriamente unidades al grupo
que recibe un nivel alto de tratamiento, al grupo que recibe el nivel bajo de tra-
tamiento o al grupo de comparacin. Como resultado de la asignacin aleatoria
a mltiples niveles de tratamiento, se habrn creado tres grupos distintos:
El grupo A es el grupo de comparacin.
El grupo B recibe el nivel bajo de tratamiento.
El grupo C recibe el nivel alto de tratamiento.
Cuando se implementa correctamente, la asignacin aleatoria garantiza que
los tres grupos sean similares. Por lo tanto, se puede estimar el impacto del
nivel alto de tratamiento mediante la comparacin del resultado promedio
del grupo C con el resultado promedio del grupo A. Tambin se puede esti-
mar el nivel bajo de tratamiento comparando el resultado promedio del
grupo B con el del grupo A. Finalmente, se puede evaluar si el nivel alto de
tratamiento tiene un mayor impacto que el nivel bajo de tratamiento com-
parando los resultados promedio de los grupos B y C.
La estimacin del impacto de un programa con ms de dos niveles de Concepto clave
tratamiento seguir la misma lgica. Si existen tres niveles de tratamiento, el Al evaluar programas
proceso de asignacin aleatoria crear tres grupos de tratamiento diferen- con n diferentes
tes, adems de un grupo de comparacin. En general, con n niveles de trata- niveles de tratamiento,
miento, habr n grupos de tratamiento, ms un grupo de comparacin. En debe haber n grupos
de tratamiento ms un
los recuadros10.1 y 10.2 se presentan ejemplos de evaluaciones de impacto
grupo de comparacin.
que prueban modalidades de diferentes intensidades u opciones de trata-
mientos mltiples.
Evaluacin de programas multifacticos 197

IEP.indb 197 1/6/17 1:48 PM


Recuadro 10.1: Prueba de la intensidad de un programa para
mejorar la adhesin a un tratamiento antirretroviral
Pop-Eleches et al. (2011) utilizaron un diseo los cuatro grupos de intervencin, mientras
multinivel transversal para evaluar el impacto que el intervalo de valor de 2/3 a 1 correspon-
del uso de mensajes SMS como recordato- da al grupo de control.
rios para la adhesin de los pacientes con Los investigadores concluyeron que los
VIH/SIDA a la terapia antirretroviral en una mensajes semanales aumentaban el porcen-
clnica rural de Kenia. El estudio vari la inten- taje de pacientes con un 90% de adhesin a
sidad del tratamiento en dos dimensiones: la la terapia antirretroviral en alrededor de un
frecuencia con que se enviaban los mensa- 13%-16%, en comparacin con la ausencia de
jes a los pacientes (a diario o semanalmente) mensajes. Estos mensajes semanales tam-
y la extensin de los mensajes (breves o lar- bin eran efectivos para reducir la frecuencia
gos). Los mensajes breves tenan solo un de las interrupciones del tratamiento, que
recordatorio (Este es un recordatorio para segn se ha demostrado constituyen una
usted), mientras que los mensajes largos causa importante del fracaso por resistencia
incluan un recordatorio y una frase de aliento al tratamiento en contextos de recursos limi-
(Este es un recordatorio. Sea fuerte y tados. Contrariamente a las expectativas, aa-
valiente, nos preocupamos por usted). Se dir palabras de aliento en los mensajes ms
asign un total de 531 pacientes a uno de los largos no era ms efectivo que un mensaje
cuatro grupos de tratamiento o al grupo de breve o ningn mensaje.
comparacin. Los grupos de tratamiento Los investigadores tambin descubrieron
consistan en: mensajes semanales breves, que si bien los mensajes semanales mejora-
mensajes semanales largos, mensajes dia- ban la adhesin, los mensajes diarios no lo
rios breves o mensajes diarios largos. hacan, pero no fueron capaces de distinguir
Una tercera parte de la muestra se asign al por qu los primeros eran los ms efectivos.
grupo de control y las otras dos terceras partes Es posible que esta conclusin se explique
se asignaron por igual a cada uno de los cuatro gracias a la habituacin, o la menor respuesta
grupos de intervencin. Se gener una secuen- ante un estmulo repetido con frecuencia, o
cia de nmeros aleatorios entre 0 y 1. Cuatro puede que los pacientes sencillamente opina-
intervalos iguales entre 0 y 2/3 correspondan a ran que los mensajes diarios eran intrusivos.

Cuadro B10.1.1 Resumen del diseo del programa

Frecuencia del
Grupo Tipo de mensaje mensaje N de pacientes
1 Solo recordatorio Semanal 73
2 Recordatorio + aliento Semanal 74
3 Solo recordatorio Diario 70
4 Recordatorio + aliento Diario 72
5 Ninguno (grupo de comparacin) Ninguna 139

Fuente: Pop-Eleches et al. (2011).

198 La evaluacin de impacto en la prctica

IEP.indb 198 1/6/17 1:48 PM


Recuadro 10.2: Pruebas de alternativas de los programas para
monitorear la corrupcin en Indonesia
En Indonesia, Olken (2007) utiliz un diseo annima. Para medir los niveles de corrup-
transversal para probar diferentes mtodos cin, un equipo independiente de ingenieros
con el fin de controlar la corrupcin, desde y topgrafos tom muestras bsicas de las
una estrategia de vigilancia de arriba hacia nuevas carreteras, estim el costo de los
abajo hasta una supervisin comunitaria materiales usados y compar sus clculos
ms de base. El autor recurri a una metodo- con los presupuestos presentados.
loga de asignacin aleatoria en ms de 600 Olken observ que el incremento de las
comunidades que estaban construyendo auditoras pblicas (desde una probabilidad
carreteras como parte de un proyecto nacio- de resultar auditado de alrededor del 4%
nal de mejora de infraestructura. hasta una probabilidad del 100%) redujo la
Uno de los tratamientos mltiples con- prdida de gastos en unos 8 puntos por-
sisti en seleccionar de manera aleatoria centuales (a partir de un 24%). El aumento
algunas comunidades para informarles que de la participacin de la comunidad en la
su proyecto de construccin sera auditado supervisin tuvo un impacto sobre la pr-
por un funcionario pblico. Luego, para dida de mano de obra pero no sobre la pr-
poner a prueba la participacin comunitaria dida de gastos. Los formularios para
en la supervisin, los investigadores imple- comentarios solo resultaron eficaces
mentaron dos intervenciones. Distribuyeron cuando se distribuyeron entre los nios en
invitaciones a reuniones comunitarias para la escuela para que se los entregaran a sus
la rendicin de cuentas y repartieron formu- familias, y no cuando fueron entregados a
larios para presentar comentarios de manera los lderes comunitarios.

Fuente: Olken (2007).

Evaluacin de mltiples intervenciones

Adems de comparar varios niveles de tratamiento, tambin se pueden com-


parar opciones de tratamiento totalmente diferentes. De hecho, los respon-
sables de las polticas preeren comparar los mritos relativos de diferentes
intervenciones, ms que conocer solo el impacto de una intervencin.
Imagnese que se propone evaluar el impacto en la matriculacin escolar
de un programa con dos intervenciones, transferencias condicionadas a las
familias de los estudiantes y transporte gratuito en autobs a la escuela.
Primero, es necesario conocer el impacto de cada intervencin por separado.
Este caso es prcticamente idntico a aquel en que se prueban diferentes
niveles de tratamiento de una intervencin, a saber, en lugar de asignar alea-
toriamente las unidades a niveles altos y bajos de tratamiento y al grupo de
comparacin, se les puede asignar de forma aleatoria a un grupo de
Evaluacin de programas multifacticos 199

IEP.indb 199 1/6/17 1:48 PM


transferencias condicionadas, a un grupo de transporte gratuito en autobs
y al grupo de comparacin. En general, con n niveles de tratamiento, habr
n grupos de tratamiento, ms un grupo de comparacin.
Aparte de querer conocer el impacto de cada intervencin por separado,
puede que tambin se desee conocer si la combinacin de los dos es mejor
que la simple suma de los efectos individuales. Desde el punto de vista de los
participantes, el programa est disponible en tres formas diferentes: solo
transferencias condicionadas, nicamente transporte gratuito en autobs o
una combinacin de transferencias y transporte gratuito.
La asignacin aleatoria para un programa con dos intervenciones es muy
similar al proceso de un programa con una sola intervencin. La principal
diferencia es la necesidad de organizar varios sorteos independientes, en
lugar de uno. Esto produce un diseo cruzado, a veces llamado diseo trans-
versal. En el grco 10.2 se ilustra este proceso. Como en el caso anterior, en
el primer paso se dene la poblacin de unidades elegibles para el programa.
El segundo paso consiste en seleccionar una muestra aleatoria de unidades
elegibles para formar la muestra de evaluacin. Una vez obtenida la muestra
de evaluacin, en el tercer paso se asignan aleatoriamente sus unidades a un
grupo de tratamiento y a un grupo de control. En el cuarto paso, se lleva a
cabo un segundo sorteo para asignar de forma aleatoria una subserie del
grupo de tratamiento a n de que reciba la segunda intervencin. Por ltimo,
en el quinto paso se realiza otro sorteo para asignar una subserie del grupo
de comparacin inicial a n de que reciba la segunda intervencin, mientras
que la otra subserie se mantiene como un conjunto puro de comparacin.2

Grfico 10.2 Pasos para la asignacin aleatoria de dos intervenciones

1. Definir unidades 2. Seleccionar la 3. Asignacin 4. y 5. Asignacin


elegibles muestra de aleatoria al aleatoria al segundo
evaluacin primer tratamiento
tratamiento

No elegible Elegible

200 La evaluacin de impacto en la prctica

IEP.indb 200 1/6/17 1:48 PM


Como consecuencia de la asignacin aleatoria a los dos tratamientos, se
habrn creado cuatro grupos, como se muestra en el grco 10.3.
El grupo A recibe ambas intervenciones (transferencias condicionadas y
transporte en autobs).
El grupo B recibe la primera intervencin pero no la segunda (solo trans-
ferencias condicionadas).
El grupo C no recibe la primera intervencin pero s la segunda (solo el
transporte en autobs).
El grupo D no recibe ni la primera ni la segunda intervencin, y consti-
tuye el grupo de comparacin puro.
Cuando se implementa correctamente, la asignacin aleatoria garantiza que
los cuatro grupos sean similares. Por lo tanto, se puede estimar el impacto de
la primera intervencin comparando el resultado del grupo B (por ejemplo,
la tasa de asistencia escolar) con el resultado del grupo puro de compara-
cin, el grupo D. Tambin se puede estimar el impacto de la segunda inter-
vencin comparando el resultado del grupo C con el resultado del grupo de
comparacin puro, el grupo D. Adems, este diseo tambin permite com-
parar el impacto progresivo de recibir la segunda intervencin cuando una
unidad ya ha recibido la primera. La comparacin de los resultados del

Grfico 10.3 Diseo hbrido para un programa con dos intervenciones

Intervencin 1

Tratamiento Comparacin

Grupo A Grupo C
Tratamiento
Intervencin 2

Grupo B Grupo D
Comparacin

Evaluacin de programas multifacticos 201

IEP.indb 201 1/6/17 1:48 PM


grupo A y del grupo B determinar el impacto de la segunda intervencin
para aquellas unidades que ya han recibido la primera intervencin. La
comparacin de los resultados de los grupos A y C determinar el impacto
de la primera intervencin en las unidades que ya han recibido la segunda
intervencin.
En la descripcin anterior se ha usado el ejemplo de la asignacin aleato-
ria para explicar la manera de disear una evaluacin de impacto para un
programa con dos intervenciones diferentes. Cuando un programa cuenta
con ms de dos intervenciones, se puede aumentar el nmero de sorteos y
continuar subdividiendo la evaluacin para formar grupos que reciben las
diversas combinaciones de intervenciones. Tambin se pueden implemen-
tar mltiples tratamientos y mltiples niveles de tratamiento. Aunque se
ample el nmero de grupos, la teora fundamental del diseo sigue siendo
la misma que la descripta anteriormente.
Sin embargo, la evaluacin de ms de una o dos intervenciones generar
dicultades prcticas tanto en la evaluacin como en el funcionamiento del
programa, ya que la complejidad del diseo incrementar exponencial-
mente el nmero de ramas de tratamiento. Para evaluar el impacto de una
sola intervencin se necesitan nicamente dos grupos, uno de tratamiento y
otro de comparacin. Para evaluar el impacto de dos intervenciones se nece-
sitan cuatro grupos, tres de tratamiento y uno de comparacin. Si se quisiera
evaluar el impacto de tres intervenciones, incluidas todas las combinaciones
posibles entre ellas, se necesitara 2 2 2 = 8 grupos en la evaluacin. En
general, en el caso de una evaluacin que vaya a incluir todas las combina-
ciones posibles entre n intervenciones, se necesitarn 2n grupos. Adems,
para poder distinguir los resultados de los grupos, cada grupo requiere un
nmero suciente de unidades de observacin de modo de garantizar una
potencia estadstica suciente. En la prctica, la deteccin de diferencias
Concepto clave
entre las ramas de la intervencin puede exigir muestras ms grandes que la
Para que una
comparacin entre un grupo de tratamiento y un grupo de comparacin
evaluacin estime el
impacto de todas las puro. Si las dos ramas de tratamiento logran provocar cambios en los resul-
posibles combinacio- tados deseados, se requerirn muestras ms grandes para detectar las posi-
nes entre n interven- bles diferencias menores entre los dos grupos.3
ciones diferentes, se Por ltimo, los diseos cruzados tambin se pueden utilizar en diseos
requerir un total de 2n de evaluacin que combinan diversos mtodos de evaluacin. Las reglas
grupos de tratamiento
y de comparacin.
operativas que rigen la asignacin de cada tratamiento determinarn qu
combinacin de mtodos debe usarse. Por ejemplo, puede ocurrir que el
primer tratamiento se asigne sobre la base de una puntuacin de elegibili-
dad, pero el segundo se asignar de manera aleatoria. En este caso, el
diseo puede recurrir a un diseo de regresin discontinua para la pri-
mera intervencin y a un mtodo de asignacin aleatoria para la segunda
intervencin.
202 La evaluacin de impacto en la prctica

IEP.indb 202 1/6/17 1:48 PM


Otros recursos

Para material de apoyo relacionado con este libro y para hipervnculos de ms


recursos, se recomienda consultar el sitio web de la Evaluacin de Impacto en
la Prctica (http://www.worldbank.org/ieinpractice).
Para ms informacin sobre el diseo de evaluaciones de impacto con mlti-
ples opciones de tratamiento, vase A. Banerjee y E. Duo (2009), The Expe-
rimental Approach to Development Economics. Annual Review of Economics
1: 15178.

Notas

1. Vase Banerjee y Duo (2009), para un anlisis ms detallado.


2. Ntese que, en la prctica, es posible combinar los tres sorteos separados en uno
solo y alcanzar el mismo resultado.
3. Probar el impacto de mltiples intervenciones tambin tiene una implicacin
ms sutil: a medida que se incrementa el nmero de intervenciones o niveles de
tratamiento que se contrastan unos con otros, se aumenta la probabilidad de
encontrar un impacto en al menos una de las pruebas, aunque no haya impacto.
En otras palabras, hay ms probabilidades