Approche Experimentale en Eco de Developppementt

L’approche expérimentale en économie
• BILAN/ESSAI
du développement*
Abhijit V. Banerjee
Esther Duflo**
Les expériences avec assignation aléatoire (ou « expériences randomisées ») sont un

outil de recherche désormais couramment utilisé en économie du développement. Cet
article présente un panorama de la littérature récente dans ce domaine et présente les
forces et limites de cette approche, du point de vue théorique et pratique. La valeur des
expériences randomisées est qu’elles rendent possible, grâce à une étroite collabora-
tion entre chercheurs et acteurs de terrain, d’estimer des paramètres qu’il serait impos-
sible d’estimer autrement. Nous présentons les critiques qui ont été soulevées au sujet
de cette méthode, et concluons que, bien qu’elles soient raisonnables, les objections
soulevées s’appliquent presque souvent à toute méthode empirique, et non seulement
aux expériences. En conclusion, nous revenons sur les relations entre théorie et expé-
riences.
Expérimentations par assignation aléatoire - économie du développement - évaluation
de Programme
The experimental approach to development economics
Randomized experiments have become a popular tool in development economics re-

search and have been the subject of a number of criticisms. This paper reviews the
recent literature and discusses the strengths and limitations of this approach in theory
and in practise. We argue that the main virtue of randomized experiments is that, owing
to the close collaboration between researchers and implementers, they allow the esti-
mation of parameters that would not otherwise be possible to evaluate. We discuss the
concerns that have been raised regarding experiments and generally conclude that,
although real, they are often not specific to experiments. We conclude by discussing
the relationship between theory and experiments.
Randomized experiments - development economics - program evaluation
Classification JEL: C9, D8, IO, I1, I2, O1.
*
Cet article est une traduction de l’article « The Experimental Approach in Development
Economics », Annual Review of Economics, volume 1, numéro 1, p. 151-178, 2009.
La traduction a été révisée par Hélène Giacobino et Esther Duflo.
Nous remercions Guido Imbens pour les nombreuses conversations très utiles que nous
avons eues ensemble, et James J. Heckman pour les commentaires détaillés qu’il a fait
à la lecture de la première version de cet article.
**
Department of Economics and Abdul Latif Jameel Poverty Action Lab, Massachusetts
Institute of Technology, Cambridge, Massachusetts. Email : banerjee@mit.edu,
eduflo@mit.edu
REP 119 (5) septembre-octobre 2009

692 ———————— L’approche expérimentale en économie du développement
1. Introduction
Au cours des dernières années, on a assisté à une véritable explosion des

expérimentations par assignation aléatoire dans le champ de l’économie du
développement. A l’automne 2008, à l’occasion de la conférence NEUCD
(New England Universities Conference on Development Economics), sur les
112 articles présentés utilisant des données microéconomiques (non com-
prises les expériences de laboratoire), 24 rendaient compte d’expériences
randomisées. En 2004, il y en avait 4. Toujours à l’automne 2008, à l’occa-
sion de la conférence BREAD, la conférence la plus prestigieuse en matière
d’économie du développement, 4 des 8 orateurs invités ont présenté des
expériences randomisées. Sur les six articles publiés ou à paraître en 2008
dans le Quarterly Journal of Economics qui utilisent des données microéco-
nomiques de pays en développement, 3 sont des expériences randomisées.
Et cet enthousiasme n’est pas l’apanage des seuls universitaires. A la Ban-
que Mondiale, pour le seul continent africain, on pouvait recenser en 2008
67 évaluations par assignation aléatoire sur les 89 programmes d’évaluation
en cours.
Une telle progression a inévitablement donné naissance à une vague de
critiques – pour la plupart bienveillantes – qui, tout en reconnaissant les
avantages des expériences, rappellent qu’elles ne nous permettent pas de
répondre à plusieurs questions importantes. Dans l’ensemble, ces critiques
ne sont pas nouvelles : la plupart des objections habituelles (ainsi que
d’autres plus inhabituelles) sont évoquées dans un article classique de Ja-
mes Heckman [1992].
Ces critiques ont leur utilité, car – bien que nous ne soyons pas totalement
d’accord avec toutes – elles nous ont aidés à définir les forces et les limites
des expériences randomisées. Nous maintenons cependant que la plupart
d’entre elles ignorent les véritables raisons pour lesquelles l’approche expé-
rimentale a suscité un tel intérêt en économie du développement. Nous
avons donc souhaité reprendre ces diverses critiques, à la fois pour les
expliciter et les nuancer, mais également pour établir que – par méconnais-
sance de ce qui est passionnant dans une expérimentation – certains ont
tendance à créer des oppositions factices entre les travaux expérimentaux et
d’autres formes de recherches.
2. La promesse des expériences
Tout comme les recherches menées par le passé en économie du travail,

de la santé et de l’éducation, la recherche expérimentale en économie du
développement tente de résoudre la difficulté qu’il y a à identifier les effets
d’un programme face à des chaînes de causalité multiples et complexes. En
général, les participants à un programme ne sont pas comparables aux non
Abhijit V. Banerjee, Esther Duflo ———————————————————————————————————— 693
participants, et nous ne disposons d’aucune information nous permettant de

savoir ce qui leur aurait advenu s’ils n’avaient pas participé au programme.
Il est donc difficile de séparer l’effet causal du programme (c’est-à-dire, pour
un participant donné, la différence entre la situation dans laquelle il se
trouve lorsqu’il a bénéficié du programme et celle dans laquelle il se trou-
verait s’il n’en avait pas bénéficié) de celui d’autres facteurs. L’un des pro-
blèmes centraux est celui de la sélection : les participants sont en général
systématiquement différents des non participants. Il est bien entendu impos-
sible d’identifier les effets du traitement pour chaque personne individuel-
lement. Mais une expérience randomisée, en faisant varier un seul facteur à
la fois (le programme), nous permet d’obtenir une estimation valide de
l’effet moyen d’un traitement pour une population donnée (pour une analyse
plus détaillée du problème de l’évaluation, voir Heckman et Vytlacil [2008a] ;
Imbens et Woolridge [2008]).
Au milieu des années 1990, le travail expérimental en économie du déve-
loppement (par exemple Glewwe et al. [2004] ; Banerjee et al. [2005] ;
Glewwe et al. [2009]) cherchait à répondre à des questions de base en
économie de l’éducation, à savoir : un meilleur accès aux ressources (ma-
nuels scolaires, tableaux dans les classes, moins d’élèves par classe) a-t-il
un impact sur les résultats scolaires (présence, résultats aux examens), et si
oui, dans quelle mesure ?
Le cadre théorique était donc très simple, ce qui n’a pas empêché ces
recherches de produire des résultats surprenants, aussi bien positifs que
négatifs. Par exemple, le fait d’améliorer l’accès aux manuels scolaires, en
passant d’un manuel pour quatre élèves ou plus, à un manuel pour deux
élèves n’a pas d’influence sur les résultats moyens aux examens (Glewwe et
al. [2009]). Le fait de diviser par deux le nombre d’élèves par classe n’a pas
eu d’effet non plus (Banerjee et al. [2005]). Cependant, au Kenya, une étude
portant sur un traitement contre les vers intestinaux (Miguel et Kremer
[2004]) a montré qu’un traitement vermifuge coûtant 49 cents par enfant
permet de réduire l’absentéisme de 25 %. Ceci est en partie du aux effets de
contagion (un enfant traité diminue le risque de contamination d’un enfant
non traité). Ainsi, si l’objectif est de réduire l’absentéisme à l’école, le trai-
tement vermifuge est 20 fois plus efficace par dollar dépensé que le recru-
tement d’un professeur supplémentaire (le coût d’une année supplémentaire
d’éducation est de $3,25 pour le traitement vermifuge, contre environ $60
pour le programme des professeurs supplémentaires), même si les deux
mesures « marchent » au sens où elles conduisent à une amélioration sta-
tistiquement significative de la participation.
Ces études font clairement apparaître que notre intuition (ou la théorie
économique en tant que telle) est un bien mauvais guide du choix entre des
programmes concurrents qui visent le même objectif : comment aurions-
nous pu deviner a priori que le traitement contre les parasites intestinaux est
beaucoup plus efficace que le recrutement d’un professeur supplémentaire ?
D’une manière plus générale, dans un bulletin du J-PAL (Laboratoire
d’Action contre la Pauvreté Abdul Latif Jameel – 2005), on compare le coût
par enfant, d’une année d’éducation supplémentaire induite par les diffé-
rentes stratégies mises en œuvre. Les coûts varient de +$3,50 pour une
année supplémentaire pour le traitement vermifuge, à +$6000/année
supplémentaire/enfant pour le volet Education Primaire du programme PRO-

GRESA, programme mexicain de transferts sociaux conditionnels. Même si
l’on exclut PROGRESA, dont l’éducation n’est pas le seul objectif, le coût par
année d’éducation supplémentaire va de $3,25 à plus de $200 d’un pro-
gramme à l’autre. Le taux de rentabilité des investissements publics est loin
d’être égal.
Ajoutons que les économistes n’étaient pas les seules personnes à ne pas
comprendre ce qui se passait : les organisations en charge de la mise en
œuvre de ces programmes n’étaient pas mieux informées. Par exemple,
l ‘organisation non gouvernementale (ONG) qui finançait les programmes
de déparasitage au Kenya était au départ très enthousiaste à l’idée de dis-
tribuer aux enfants des uniformes scolaires, alors qu’une évaluation par
assignation aléatoire a par la suite montré que le coût par enfant d’un tel
projet était de $100 par année d’enseignement supplémentaire.
Ces expérimentations font émerger plusieurs conclusions importantes.
Premièrement, pour élaborer des politiques efficaces, il faut pouvoir juger de
l’efficacité de chaque composante d’un programme – et les connaissances a
priori ne fournissent pas un guide adéquat. Deuxièmement, il est difficile
d’estimer ces différents paramètres à partir de données non expérimentales.
La raison en est que celles-ci proviennent souvent de systèmes scolaires qui
combinent plusieurs aspects. Cela rend difficile une évaluation de chaque
composante. En d’autres termes, les données non expérimentales, à quel-
ques exceptions près, ne fournissent pas de résultats suffisamment rigou-
reux pour élaborer des politiques, ce qui constitue une motivation impor-
tante à mener des expérimentations.
L’une des conséquences immédiates de cette observation est que, étant
donné le coût et le temps demandé par les expériences randomisées, cela
vaut la peine de mener plusieurs expérimentations en même temps, sur la
même population, afin d’évaluer des variantes potentielles du programme.
Par exemple, au Kenya, la Banque Mondiale a attribué des fonds aux
Conseils d’établissements afin que les écoles puissent recruter des institu-
teurs supplémentaires avec des contrats de courte durée, dans le but de
diminuer le nombre d’élèves par classe. Lorsque les chercheurs ont travaillé
avec les écoles pour organiser l’évaluation du programme, ils ne se sont pas
contentés d’appliquer le programme aux établissements sélectionnés de
manière aléatoire (Duflo et al. [2008a]). Ils ont introduit deux variations sup-
plémentaires : (a) la formation des Conseils d’établissement percevant les
fonds, pour leur permettre de mieux contrôler les enseignants supplémen-
taires ; et (b) la constitution de classes de niveau. Grâce à ce protocole, les
chercheurs sont alors en mesure d’évaluer : l’impact de la réduction de la
taille des classes sans que la pédagogie ait été modifiée ; l’efficacité des
jeunes instituteurs supplémentaires en contrat de courte durée par rapport à
celle des enseignants fonctionnaires, expérimentés et traditionnels ; le rôle
que peuvent jouer des Conseils d’établissement dès lors qu’ils sont correc-
tement responsabilisés et l’impact des classes de niveau. Comme dans Ba-
nerjee et al. [2005], mais dans un contexte différent, cette étude montre que
le seul fait de réduire la taille d’une classe sans apporter d’autres change-
ments n’a pas d’impact significatif. En revanche, un impact positif important
est constaté lorsque l’on passe de l’enseignant classique à l’enseignant en
contrat de courte durée, et un impact positif et significatif de la diminution

de la taille des classes lorsque celle-ci se combine à la responsabilisation du
Conseil d’établissement. De plus, pour une taille de classe donnée, cette
évaluation montre également combien la répartition des élèves par niveau
est importante, tant pour les élèves en difficulté que pour ceux qui réus-
sissent. D’autres exemples d’expérimentations par traitements multiples in-
cluent : des cours de soutien et un apprentissage assisté par ordinateur
(Banerjee et al. [2007]) ; diverses stratégies de prévention du sida chez les
adolescents (Duflo et al. [2007] ; Dupas [2007]) ; des expérimentations d’in-
formation et de mobilisation dans les écoles primaires en Inde (Banerjee et
al. [2008a]) ; des facteurs influençant l’offre et la demande pour améliorer les
niveaux de vaccination en Inde (Banerjee et al. [2008b]) ; deux stratégies
pour aider les fumeurs à arrêter de fumer (Gine et al. [2008]).
Une autre leçon est que si l’on souhaite construire une base de connais-
sance exploitable, il est nécessaire d’appliquer un processus d’apprentis-
sage dynamique car les résultats expérimentaux sont souvent surprenants
et nécessitent par conséquent d’être explicités. Tel est le processus déve-
loppé dans les études menées par Duflo et al. [2008c, d] : plusieurs expéri-
mentations portant sur l’utilisation d’engrais ont été menées successive-
ment pendant plusieurs années, chaque résultat ayant déclenché le besoin
d’expérimenter une nouvelle intervention afin de mieux comprendre les
résultats obtenus dans le cadre de l’expérimentation précédente.
De plus, pour un apprentissage optimal, il est souvent intéressant de
tester d’abord une intervention complexe pour voir s’il existe un effet global,
puis, dans l’affirmative, de décomposer l’intervention selon ses différents
paramètres afin de comprendre quelles sont les parties du programme qui
fonctionnent1. Bien souvent, lorsqu’il s’agit d’évaluer des politiques, les
expérimentations s’arrêtent à la première étape. Par exemple le célèbre
programme mexicain intitulé PROGRESA-Opportunidades combine des
transferts sociaux vers les femmes des familles pauvres, sous condition d’un
« bon comportement » (par exemple que les femmes investissent dans
l’éducation et la santé préventive) ainsi que des améliorations des services
de santé et d’éducation. Le programme a été répliqué dans de nombreux
pays, souvent accompagné d’une évaluation aléatoire (Fizbein et Schady
[2009]). Cependant, la conditionnalité elle-même n’a pas encore été évaluée :
ce n’est que dans le cadre d’une étude actuellement en cours au Maroc que
l’on a formé et comparé différents groupes de traitement, et qu’ainsi les
chercheurs vont pouvoir évaluer son importance. Dans cette expérimen-
tation, un groupe de villages reçoit des transferts purement non condition-
nels, un autre groupe reçoit des prestations avec des conditions peu contrai-
gnantes (par exemple, le critère d’assiduité n’est contrôlé que par les
enseignants) et deux groupes reçoivent des prestations avec des types de
conditionnalité plus strictes (dans l’un des groupes, l’assiduité des enfants
est supervisée par des inspecteurs, et dans l’autre groupe la vérification est
1. L’approche inverse, c’est-à-dire celle qui consiste à passer d’une intervention à la fois au
programme complet peut également être adaptée dès lors que vos antécédents montrent
que certaines combinaisons vont fonctionner, alors que l’alternative est meilleure si, d’une
manière générale, vous êtes sceptique.

faite quotidiennement au moyen d’un appareil de lecture des empreintes

digitales).
Bien qu’avec du recul tout ceci semble évident, ce n’est qu’après les pre-
mières expérimentations que les chercheurs et les acteurs de terrain ont pu
apprécier pleinement l’importance d’un tel protocole. Les associations ont
également réalisé qu’il était dans leur intérêt d’établir des relations à relati-
vement long terme avec les chercheurs, de telle sorte que l’expérimentation
puisse constituer un processus d’apprentissage continu et que des études
intéressantes pour les deux parties puissent être développées. En d’autres
termes, nous avons quelque peu délaissé les évaluations ponctuelles dans
lesquelles le chercheur se contente d’évaluer un programme spécifique
choisi par l’organisation qui le met en œuvre. C’est là une différence impor-
tante avec la littérature sur l’évaluation qui existe aux États-Unis ou au
Canada où, à quelques exceptions importantes près (par exemple, Angrist et
al. [2009]), les programmes à évaluer sont principalement choisis par les
institutions responsables de leur mise en œuvre, les chercheurs se voyant
confier le seul rôle d’évaluateur.
Du point de vue des chercheurs, ce nouveau processus leur a donné la
possibilité de passer du rôle d’évaluateur à celui de co-expérimentateur.
Ainsi, le chercheur se voit proposer de définir la question à laquelle il va
falloir répondre, ce qui lui permet de puiser dans le corpus expérimental
existant ainsi que dans la théorie. Par exemple, lorsque Seva Mandir, une
ONG opérant au Rajasthan en Inde a souhaité améliorer la qualité des écoles
qu’elle dirige, l’idée de départ était de mettre en place un programme de
motivation des enseignants qui seraient récompensés en fonction des résul-
tats obtenus aux examens. Or, les responsables de Seva Mandir avaient été
convaincus par les résultats de l’étude de Glewwe et al. [2003] qui montre
que le versement aux professeurs de bonus liés aux résultats des examens
peut aboutir à ce que ceux-ci n’enseignent plus que pour les examens, ou à
des manipulations à court-terme des résultats. Ils avaient donc décidé de
mettre en place un bonus basé sur la présence de l’enseignant. Pour mesu-
rer l’assiduité des professeurs dans des régions très isolées et peu peuplées,
dans lesquelles les écoles sont difficiles d’accès, Duflo et Hanna (Duflo et al.
[2007]) ont proposé d’utiliser des appareils photo indiquant la date et
l’heure. Bien qu’au départ les membres de Seva Mandir aient été surpris par
cette proposition, ils décidèrent d’essayer. Dans les écoles du programme
(les « écoles appareils photo »), les enseignants prenaient une photo de
leurs élèves deux fois par jour (le matin et l’après midi), et leur salaire était
calculé en fonction (fonction non linéaire) du nombre de jours de présence.
Les résultats ont été étonnants (Duflo et al. [2007]) : l’absentéisme des ensei-
gnants est passé de 40 % à 20 % et, dans le même temps, les résultats des
élèves se sont améliorés.
Convaincue par ce système, Seva Mandir a décidé de poursuivre le pro-
gramme, sans pour autant abandonner l’espoir d’améliorer la motivation
intrinsèque des enseignants, tant dans les écoles munies d’appareils photo
que dans les autres. Au lieu d’étendre immédiatement le programme
« Appareils Photo » à toutes leurs écoles, ils ont décidé de le poursuivre
dans les écoles dans lesquelles il était déjà en place et de prendre le temps
de tester d’autres programmes, dans les écoles avec ou sans appareil photo.
Ils ont travaillé avec Sendhil Mullainathan afin d’identifier des moyens per-
mettant de motiver les enseignants. Une idée a consisté à fournir un carnet
à tous les enfants en leur demandant d’y inscrire tous les jours ce qu’ils
avaient fait à l’école. Les jours où l’enseignant – ou l’élève – était absent, la
page restait blanche ou la date était barrée. Les parents devaient regarder ce
carnet une fois par semaine. Les chercheurs espéraient ainsi pouvoir aider
les parents à prendre la mesure de l’absentéisme des enseignants et des
enfants. Cependant, cette approche a échoué : les parents avaient au départ
une si piètre opinion de l’école que la mise en place du carnet a eu plutôt
tendance à les persuader que quelque chose de bien s’y passait, quelque
soit le nombre de jours d’absence. Les parents des écoles « avec carnet »
avaient donc une meilleure opinion de l’école que les parents des écoles
« sans carnet », et aucun impact n’a été constaté sur l’assiduité des ensei-
gnants. Pour autant, les carnets ont été très appréciés par les élèves et par
les professeurs et le fait de les utiliser a poussé les enseignants à travailler
plus. Les résultats aux examens se sont améliorés dans les écoles « avec
carnet ». Il apparaît donc que si les carnets ont échoué en tant qu’outil
permettant d’améliorer l’assiduité des enseignants, ils se sont révélés utiles
en tant qu’outil pédagogique. Dans la mesure où cette hypothèse n’avait pas
été envisagée dans le protocole expérimental de départ, il est possible que
ces résultats ne soient qu’un accident statistique. C’est la raison pour la-
quelle Seva Mandir va désormais mettre des appareils photo en place dans
toutes ses écoles (après plusieurs années, ils continuent à avoir un impact
important sur l’assiduité et sur les résultats aux examens), tout en menant
de nouvelles expérimentations avec des carnets afin de voir si les résultats
pédagogiques persistent.
Une conséquence importante de ce processus a été la prise de conscience
croissante, au sein de la communauté scientifique, du fait que l’un des
éléments les plus importants de l’approche expérimentale est sans doute de
pouvoir faire varier les paramètres d’un traitement d’une manière aidant à
répondre à des questions conceptuelles (et pertinentes d’un point de vue
politique) auxquelles il n’était pas possible de répondre de manière fiable
par d’autres moyens2. Berry [2008] présente une illustration intéressante.
Les incitations basées sur l’assiduité et sur les résultats sont très répandues,
mais on ne sait pas clairement si ces incitations doivent cibler les enfants
(comme dans les programmes évalués par Angrist et al. [2008] et par An-
grist et Lavy [2009]) ou les parents (comme dans Kremer et al. [2007]). Si les
parents étaient capables de motiver les enfants, ce choix n’aurait pas d’im-
portance, mais dans le cas contraire, il est possible qu’il soit très important.
C’est pour répondre à cette question que Berry a conçu un programme dans
les bidonvilles de Delhi, où les élèves ou leurs parents recevaient des inci-
2. Cette souplesse n’est bien entendu pas sans limites. Les problèmes éthiques (supervi-
sés par les Conseils Internes des Universités) et la contrainte de travailler avec une organi-
sation de terrain impose une limite aux questions que vous pouvez poser, par rapport à ce
qu’il est possible de faire avec une expérimentation en laboratoire. Tout ne peut pas être
testé et tout le monde n’accepte pas d’être un cobaye. Cependant, le caractère très réaliste
du cadre est un avantage énorme. Il convient de noter que les coûts moindres des pro-
grammes et que le fait de travailler avec des partenaires ONG permet d’étendre la palette
d’expérimentations réalisables dans le domaine du développement, par comparaison à ce
qui a été réalisable aux États-Unis.

tations (des jouets pour les enfants ou de petites sommes d’argent pour les
parents) selon les progrès de l’enfant en lecture. Les résultats suggèrent que
pour les enfants initialement très en retard, les récompenses dirigées vers
eux sont plus efficaces, alors que c’est l’inverse chez les enfants initialement
à l’aise à l’école. Sans expérience, répondre à cette question aurait été
impossible.
Ainsi, les expérimentations sont-elles en train d’apparaître comme un outil
puissant pour tester des théories. Bien que les théories à vérifier soient
différentes, la motivation qui ressort des articles récents en économie du
développement est la même que celle qui sous-tendait la première généra-
tion d’expérimentations aux États-Unis, conçues pour identifier des para-
mètres précis (par exemple, le revenu et l’effet de substitution dans des
expérimentations d’impôts négatif (« negative income tax »), le risque moral
dans l’expérimentation sur l’Assurance Santé – « Rand Health Insurance Ex-
periment » –, etc.). Les interventions sont conçues et évaluées non seule-
ment pour montrer l’effet moyen du traitement d’une politique spécifique
d’un programme, mais également pour permettre l’identification de para-
mètres économiques précis. A titre d’exemple, prenons l’étude réalisée par
Karlan et Zinman [2005] en collaboration avec un institut de crédit en Afri-
que du Sud. Cet institut consent des prêts de faibles montants à des taux
d’intérêt élevés à des emprunteurs présentant un niveau de risque élevé.
L’expérimentation a été conçue pour tester les poids relatifs de la charge de
remboursement ex post (y compris l’aléa moral) et de l’anti-sélection ex ante
par rapport aux défauts de remboursement. Par l’intermédiaire d’un premier
courrier, des emprunteurs potentiels, présentant le même niveau de risque
observable, se sont vu proposer de manière aléatoire soit un taux d’intérêt
élevé, soit un taux d’intérêt bas. Ensuite, ces emprunteurs potentiels déci-
daient ou non d’emprunter au taux qui leur était proposé. Parmi ceux ayant
sollicité un prêt au taux le plus élevé, la moitié s’est vue proposer – de
manière aléatoire – un taux d’intérêt plus bas que le taux d’appel ; l’autre
moitié a poursuivi au taux initialement proposé. Les emprunteurs ne sa-
vaient pas ex ante que le taux contractuel pourrait être différent du taux
d’appel. Les chercheurs ont ensuite comparé les comportements des
emprunteurs de ces trois groupes. La comparaison entre ceux ayant ré-
pondu à l’offre à taux d’intérêt bas et ceux ayant répondu à l’offre à taux
d’intérêt élevé parmi ceux qui, au final, paie un taux d’intérêt faible, permet
d’identifier l’effet d’anti-sélection. En comparant ceux s’étant vu initialement
proposer des taux élevés mais ayant obtenu des taux contractuels différents,
on identifie l’effet du poids du remboursement.
L’étude a mis en évidence le fait que les femmes présentent un risque lié
à l’anti-sélection mais que les hommes présentent un risque lié à l’aléa
moral. Cette différence inattendue a posé un problème aux auteurs de l’ar-
ticle (s’agissait-il d’un hasard statistique ou d’un phénomène réel ?), mais la
contribution méthodologique n’a pas été remise en question. L’idée de dé-
part consistant à faire varier les taux d’intérêt ex post et ex ante afin d’iden-
tifier effet de sélection et effet de traitement a depuis été reproduite dans
plusieurs études. Ashraf et al. [2007] et Cohen et Dupas [2007] l’ont utilisée
pour comprendre la relation entre le prix payé pour un bien utile à la santé
et son utilisation. L’augmentation du prix pourrait avoir un effet sur l’usage,
en raison d’un effet de sélection (ceux qui achètent plus cher sont plus
intéressés) ou à cause d’une illusion psychologique : un bien payé plus cher
vaut plus cher (le « psychological sunk cost effect »). Pour différencier ces
effets, les chercheurs ont affecté de manière aléatoire le prix proposé ainsi
que le prix effectivement payé. L’effet qu’a le prix proposé sur le maintien du
prix réel à un niveau fixe permet d’identifier l’effet de sélection, alors que la
variation du prix réel (en maintenant le prix proposé fixe) permet de mettre
en lumière l’effet psychologique du prix. Ashraf et al. [2007] l’ont étudié
dans le cas d’un produit de purification de l’eau, et Cohen et Dupas [2007] se
sont penchés sur le cas des moustiquaires. Ni l’une ni l’autre de ces études
n’a mis en évidence un effet psychologique du prix. La variation expérimen-
tale était essentielle ici, et pas uniquement afin d’éviter les biais : en dehors
d’une expérience, nous n’observons tout simplement pas de personnes
confrontées à des prix d’appel différents et des prix réels identiques. Ce type
d’expérimentations nous rappelle les motivations des premières expérimen-
tations sociales (comme par exemple l’expérimentation de l’impôt sur le
revenu négatif) qui cherchaient à obtenir des variations distinctes des reve-
nus et des salaires afin d’estimer le revenu et de mettre en lumière des effets
de substitution qui ne pouvaient être obtenus à partir de données non expé-
rimentales (Heckman [1992]).
Les expériences qui étudient les produits de « self control », qui aident les
consommateurs à se contrôler eux-mêmes, sont d’autres exemples de pro-
jets motivés par la théorie économique. Ainsi, Ashraf et al. [2006] ont tra-
vaillé aux Philippines, avec une institution de micro-finance, pour proposer à
leurs clients un produit d’épargne qui les engagent à conserver leurs éco-
nomies sur un compte bloqué pour une certaine durée ou jusqu’à un certain
montant, sans aucun avantage en termes de taux d’intérêt. Gine et al. [2008]
ont travaillé avec la même organisation et ont invité des fumeurs souhaitant
arrêter de fumer à passer un contrat avec eux-mêmes : ils déposaient de
l’argent sur un compte spécial et ils perdaient cet argent si, au bout de
plusieurs semaines, leur test d’urine se révélait positif à la nicotine. Dans les
deux cas, les protocoles ont été conçus par des économistes en vue de
résoudre des problèmes de la vie réelle, mais ils s’accompagnaient égale-
ment d’une forte motivation théorique. Comme il s’agissait d’idées nou-
velles émises par des chercheurs, l’utilisation de l’évaluation par assignation
aléatoire allait de soi pour tester si ces produits étaient potentiellement
utiles pour les consommateurs avant de les introduire à grande échelle.
Les exemples que nous venons d’évoquer portent sur des comportements
individuels, mais les expérimentations peuvent aussi permettre de com-
prendre la manière dont fonctionnent les institutions. C’est ce qu’ont fait
Bertrand et al. [2009] : ces chercheurs ont mis sur pied une expérimentation
pour comprendre la structure de la corruption dans le processus d’obtention
du permis de conduire à Delhi. Ils ont recruté des personnes qui souhai-
taient passer le permis de conduire et les ont réparties en trois groupes :
dans le premier groupe, les gens recevaient un bonus s’ils obtenaient leur
permis de conduire rapidement, dans le second groupe, des leçons de
conduite gratuites ont été offertes, le troisième groupe constituait le groupe
de comparaison. Les chercheurs ont constaté que les personnes du groupe
« bonus » obtenaient leur permis de conduire plus rapidement que ceux qui
étaient dans le groupe « leçons gratuites ». Ils ont également découvert que
les personnes du groupe « bonus » étaient plus susceptibles de payer un
agent pour obtenir leur permis (agent qui, semble-t-il, paye à son tour un
fonctionnaire). Ils ont également découvert qu’il y avait peu de chances que
les candidats ayant payé un agent aient réellement passé l’examen de
conduite avant d’obtenir leur permis. Bien que les personnes du groupe
« bonus » obtenant leur permis rapidement ne conduisent pas systémati-
quement moins bien que les personnes du groupe de comparaison (ce qui
serait un test décisif démontrant que la corruption se traduit par une attri-
bution inefficace des permis de conduire), cette expérimentation fournit des
éléments qui suggèrent que dans ce cas, la corruption fait plus que « grais-
ser les rouages » du système.
La créativité des chercheurs a également été aiguillonnée par la prise de
conscience que l’expérimentation est une option facilement accessible. En
principe, il n’existe pas de lien automatique entre la collecte attentive et
innovante de données microéconomiques et la méthode expérimentale. Et
de fait, il existe une longue tradition en économie du développement consis-
tant à collecter des données de façon spécifique pour tester des théories. La
quantité et la qualité des données microéconomiques collectées en écono-
mie du développement ont explosé au cours des dernières décennies, et pas
uniquement dans le contexte des expérimentations. Néanmoins, la méthode
expérimentale encourage le développement de méthodes de collection de
données originales : contrairement aux grandes bases de données tradition-
nelles, les échantillons sont faibles (les coûts restent donc limités), et les
questions posées sont très spécifiques. Dans de nombreuses études expé-
rimentales, une grande partie des personnes censées être affectées par le
programme le sont réellement. Cela permet de travailler sur des échantillons
de taille réduite, avec des questionnaires spécifiques. Il devient donc fai-
sable de dépenser plus d’argent par variable et par observation que dans
des grandes enquêtes polyvalentes auprès des ménages ou des entreprises.
A l’inverse, les données non expérimentales doivent souvent compter avec
des variations (changement de politique, variations induites par le marché,
variations naturelles, bouleversements au niveau de l’offre, etc.) qui affec-
tent des populations importantes, nécessitant donc l’utilisation de bases de
données très importantes, et qui, bien souvent, ne sont pas collectées dans
un but spécifique. Il est par conséquent plus difficile d’ajuster la mesure à
une question donnée. Même lorsqu’il est possible de mener ex post un
exercice sophistiqué de collecte de données, en ciblant spécifiquement une
question donnée, il est généralement impossible de le faire pour une en-
quête de « baseline ». Ceci empêche donc l’utilisation d’une stratégie de
type différence-en-différence, qui est souvent essentielle pour les données
non expérimentales.
Une étude menée par Olken [2007] illustre le type de données qu’il est
possible de collecter dans un contexte expérimental. L’objectif était de déter-
miner si des audits ou des contrôles menés par les communautés étaient
efficaces pour réduire la corruption dans des projets décentralisés de
construction. Il était donc nécessaire d’obtenir une mesure fiable des ni-
veaux de corruption. Olken, se focalisant sur la construction des routes, a
fait faire par des ingénieurs des sondages dans les chaussées construites
afin de mesurer la quantité de matériaux utilisée, pour la comparer aux

quantités déclarées par les entreprises. La différence entre les deux mesure
la quantité de matériaux volés, ou jamais achetés mais facturés, et constitue
donc une mesure objective de la corruption. Olken a ensuite démontré que
la menace de contrôles permet de réduire la part de ressources manquantes
mais que, sauf circonstances particulières, les encouragements en faveur
d’une plus grande participation aux réunions communautaires n’ont que
peu d’effet.
On trouve un autre exemple innovant de collecte de données dans Bea-
man et al. [2009]. L’article évalue l’impact d’une représentation obligatoire
des femmes dans les conseils municipaux sur les attitudes des citoyens vis
à vis des femmes leaders. Il s’agit d’une expérimentation par assignation
aléatoire car les villages « réservés aux femmes » ont été sélectionnés de
manière aléatoire, par la loi : dans ces villages, seules des femmes pou-
vaient être élues à la tête du village. Pour obtenir une mesure de la préfé-
rence pour les femmes leaders qui ne soit pas contaminée par le désir de la
personne interrogée de faire plaisir à l’enquêteur, les chercheurs ont utilisé
des « tests d’associations implicites » élaborés par des psychologues (Banaji
[2001]). Bien que ces tests soient utilisés couramment par les psychologues,
et qu’ils soient recommandés par les économistes (Bertrand et al. [2005]), ils
n’avaient pas encore été utilisés sur le terrain dans un pays en développe-
ment. Par ailleurs, il n’existait pratiquement aucune étude essayant de com-
prendre si de tels préjugés sont solidement ancrés ou s’ils peuvent être
affectés par l’environnement. L’étude a également mis en œuvre une autre
mesure du biais implicite vis à vis des femmes, mesure inspirée par les
chercheurs en sciences politiques. On a demandé aux personnes enquêtées
d’écouter un discours, qui avait réellement été prononcé par un chef de
village ; ce discours a été enregistré soit par un homme, soit par une
femme ; il était ensuite demandé aux participants, sélectionnés de manière
aléatoire pour écouter l’un ou l’autre discours, de donner leur opinion sur ce
qu’ils avaient écouté. La différence dans les notes données par ceux ayant
écouté la voix masculine et ceux ayant écouté la voix féminine mesure la
discrimination statistique envers les femmes. L’article compare ensuite cette
mesure de la discrimination dans les villages « réservés » et dans les vil-
lages « non réservés ».
Il ne s’agit là que de deux exemples puisés dans une littérature très riche.
De nombreuses expérimentations de terrain intègrent de petites expérimen-
tations de laboratoire (jeu du dictateur, choix par tirages au sort, expérimen-
tations sur les taux de remise, jeu du bien public, etc.). Par exemple, dans
leur évaluation du programme de transferts sociaux conditionnels mis en
place en Colombie, les chercheurs de l’Institut des Etudes Fiscales ont inclus
des jeux du bien public, le partage des risques et la formation de coalitions
dans le cadre de leurs travaux de collecte de données (Attanasio et al.
[2008a]).

3. Les questions soulevées

par ces expériences
Comme nous l’avons déjà indiqué, les questions soulevées par les expé-
rimentations ne sont pas nouvelles. Cependant, nombre de ces questions se
basent sur une comparaison, implicite ou explicite, entre la méthode expé-
rimentale et d’autres méthodes cherchant à comprendre la même chose. Le
message que nous avons essayé de faire passer dans les paragraphes pré-
cédents est que le principal avantage des expérimentations consiste sans
doute à nous permettre l’accès à un terrain où les approches non expéri-
mentales sont impossibles. Dès lors, les objections soulevées par les cri-
tiques de la littérature expérimentale sont à prendre comme des mises en
garde envers la surinterprétation des résultats expérimentaux. Cependant, il
existe également des cas dans lesquels les deux approches, expérimentale
et non expérimentale, sont envisageables, sous des formes relativement
comparables. Le problème consiste alors à savoir quelle approche adopter.
Par ailleurs, certains s’inquiètent de savoir ce que les expérimentations ap-
portent au domaine de l’économie du développement. Dans ce chapitre,
nous allons dresser la liste de ces objections et les reprendre l’une après
l’autre. On notera que, bien que certains de ces problèmes soient spéci-
fiques aux expérimentations (nous le signalerons au fur et à mesure), la
majeure partie d’entre eux (validité externe, différence entre équilibre partiel
et effets d’équilibre du marché, non identification de la distribution de l’effet)
sont communs à toutes les évaluations microéconomique, que l’on ait re-
cours à des méthodes expérimentales ou non. Ces problèmes sont fréquem-
ment mis en avant au sujet de la méthode expérimentale ; cela s’explique
sans doute par le fait que la plupart des autres soucis habituels sont réglés
par l’assignation aléatoire.
3.1. La dépendance à l’environnement
La dépendance à l’environnement est un élément clé de la possibilité de

généralisation (ou de la validité externe). La question posée est la suivante :
obtiendrions-nous le même résultat si nous menions la même expérimen-
tation dans un contexte différent ? Ou plus exactement, le programme qui
est en cours d’évaluation aurait-il les mêmes effets s’il était mis en œuvre
ailleurs (et pas dans le cadre d’une expérimentation) ?
En réalité, nous avons là deux questions distinctes : premièrement, bien
évidemment, nous devons nous inquiéter de l’impact des différences dans
l’environnement sur l’efficacité du programme évalué. L’une des vertus de
l’expérimentation est qu’elle nous donne la possibilité d’évaluer l’effet
moyen du programme pour une population spécifique, sans partir de l’hy-
pothèse selon laquelle l’effet du programme est constant d’un individu à un
autre. Mais si l’effet n’est pas constant d’un individu à un autre, il est alors
susceptible de varier systématiquement en fonction des variables de

contrôle. Par exemple, une distribution d’uniformes scolaires n’aura certai-
nement pas le même impact en Norvège et au Kenya. La question est de
savoir où placer la barre : le Mexique s’apparente-t-il plus à la Norvège ou
au Kenya ? Le même problème se pose également au sein d’un même pays.
Très clairement, un raisonnement a priori nous aide peu – le raisonnement
économique de base pose que la distribution d’uniformes n’aura d’effet que
pour les populations dont le revenu moyen n’est pas très élevé par rapport
au prix des uniformes – mais où se situe « pas très élevé » ? Si nos théories
sont suffisamment précises pour nous permettre de le savoir, ou si nous
posons le principe qu’elles le sont, alors nous n’avons sans doute plus
besoin d’expérimentations : la théorie suffit à nous donner une idée de qui
aura tendance à obtenir un uniforme ou non, et nous pourrons utiliser cette
restriction pour évaluer de manière convaincante les modèles structurels
portant sur l’impact de la distribution d’uniformes scolaires. En d’autres
termes, sans hypothèses, les résultats d’une expérimentation ne peuvent
être généralisés au-delà de leur contexte, mais avec suffisamment d’hypo-
thèses, les données non expérimentales peuvent suffire. Pour justifier l’ex-
périmentation, nous devons nous placer au milieu du gué.
La deuxième question, sans doute plus spécifique aux expérimentations
menées dans le domaine de l’économie du développement (et souvent par
des ONG), concerne l’effet lié à celui qui met en œuvre le programme. En
effet, plus l’organisation est petite et plus les chances d’obtenir des effets qui
ne reflètent que ses caractéristiques propres sont élevées. Ce risque peut
être partiellement atténué si l’on se penche avec attention sur la façon dont
le programme est mis en œuvre, et particulièrement sur la place du pro-
gramme évalué dans le plan d’action global de l’organisation (par exemple,
quelle est la taille du programme évalué par rapport à toutes les actions
menées par l’organisation ? Comment l’équipe de terrain a-t-elle été sélec-
tionnée ? Qui a décidé du choix du lieu ?). Pour que les résultats soient plus
qu’une démonstration de possibilité, il faut que le programme soit suffisam-
ment bien défini et bien compris pour que sa mise en œuvre puisse être
facilement déléguée à un grand nombre d’équipes de terrain plus ou moins
autonomes.
Néanmoins, tout ceci reste très vague et très subjectif (Qu’est-ce qu’un
grand nombre ? Qu’est-ce qu’une équipe suffisamment autonome ?). La
seule façon de s’assurer de la généralité d’un résultat est de mener des
expérimentations supplémentaires dans des lieux différents, avec des équi-
pes différentes. Si la théorie nous aide à prévoir quels types d’effets sont
attendus dans tels types de milieux, il est judicieux de conduire des expé-
riences dans ces différents milieux.
Plusieurs études ont ainsi été dupliquées dans des contextes différents. Le
programme de soutien scolaire, le balsakhi évalué par Banerjee et al. [2007]
a été évalué à deux endroits différents (à Bombay et à Vadodara), avec deux
équipes de terrain distinctes (toutes deux membres du réseau Pratham,
mais totalement différentes au niveau de leur management). Les résultats se
sont avérés relativement cohérents. De la même manière, en combinant
déparasitage et distribution de complément en fer, Bobonis et al. [2006] ont
obtenu un impact sur l’assiduité à l’école dans le nord de l’Inde similaire à
celui que Miguel et Kremer [2004] ont trouvé au Kenya [2004]. Bleakley
[2007] trouve des résultats similaires dans son étude du déparasitage au
Sud des États Unis au début du vingtième siècle. Le programme
PROGRESA/Opportunidades a été répliqué sous différents noms et avec
quelques variantes dans de nombreux pays. Dans plusieurs d’entre eux, il a
été accompagné d’évaluations aléatoires (en Colombie, au Nicaragua, en
Equateur et au Honduras ; des opérations sont en cours au Maroc) (Pour
plus d’informations sur l’évaluation du programme PROGRESA d’origine et
sur ses duplications, lire Fizbein et Schady [2009]). Les résultats, analysés
par différentes équipes de chercheurs dans plusieurs pays sont remarqua-
blement similaires d’un pays à l’autre.
D’autres résultats sont au contraire différents d’un contexte à l’autre. Une
campagne d’information et de mobilisation des Conseils de parents d’élèves
a eu un impact positif sur les résultats d’apprentissage au Kenya, mais non
en Inde (Banerjee et al. [2008] ; Duflo et al. [2008a]). Une intervention simi-
laire ayant pour objectif de redynamiser les Comités de gestion des centres
de santé en Ouganda a également eu un impact très important sur des
paramètres sur lesquels il est habituellement difficile d’influer, tels que la
mortalité infantile (Bjorkman et Svensson [2007]).
Outre les duplications pures, des expérimentations similaires menées
dans des contextes différents sont autant de moyens permettant d’accumu-
ler des connaissances. L’analyse faite par Holla et Kremer [2008] de 16 éva-
luations aléatoires portant sur l’élasticité des prix dans les domaines de la
santé et de l’éducation en est un bon exemple. Nous reviendrons plus loin
de manière détaillée sur ces résultats mais le point clé ici est que ces expé-
rimentations recouvrent une large palette de biens de santé et de biens
d’éducation dans plusieurs pays. Un point commun important est la très
forte élasticité de la demande pour ces biens selon leur prix, en particulier
lorsque le prix se situe près de zéro (à la fois dans le sens positif et dans le
sens négatif). Bien qu’il ne s’agisse pas de duplication au sens strict, ces
études révèlent toutes le même phénomène fondamental.
Certains craignent que le système universitaire encourage peu la réplica-
tion des expérimentations : les revues seraient moins susceptibles de pu-
blier les résultats de la cinquième évaluation sur un même sujet, et les
agences internationales seraient réticentes à les financer. L’utilisation géné-
ralisée de l’expérimentation en économie est très récente et il est donc
difficile d’estimer la gravité de ce problème. Mais compte tenu, par exemple,
du nombre de publications sur les bénéfices de l’éducation, nous ne som-
mes pas trop pessimistes : il semble que les revues n’ont pas de problèmes
particuliers à publier plusieurs études sur le même sujet. La bonne nouvelle
est que plusieurs initiatives de duplication systématique sont en cours. Par
exemple, un programme de transfert d’actifs et de formation ciblant les
ultra-pauvres, qui avait été initialement conçu au Bangladesh par l’ONG
BRAC (programme décrit en détail ci-après), est actuellement en cours
d’évaluation au Honduras, au Pérou, dans les états du Karnataka et du Ben-
gale Occidental, au Bangladesh et au Pakistan. Dans chaque pays, on trouve
une équipe de recherche distincte et un partenaire de terrain différent. Des
études sur la sensibilité au taux d’intérêt, dupliquant l’expérimentation de
Karlan et Zinman [2008], sont actuellement en cours au Ghana et au Pérou
(en deux lieux distincts, avec deux partenaires différents). Des évaluations
d’impact du microcrédit sont menées simultanément au Maroc, en Inde, aux
Philippines et au Mexique. Une formation commerciale est en cours d’éva-
luation au Pérou, en République Dominicaine, en Inde et au Mexique. Plu-
sieurs programmes visant à encourager l’épargne sont en train d’être éva-
lués au Pérou, aux Philippines, au Ghana et en Ouganda. Ainsi, il semble
que les agences internationales ont un intérêt suffisant pour ces expérimen-
tations pour accepter de les financer et qu’il y a suffisamment de chercheurs
qui aient envie de les mener. Par exemple, les nombreuses expérimen-
tations en cours concernant les populations ultra-pauvres sont toutes finan-
cées par la Fondation Ford, dans une volonté explicite de mieux comprendre
le programme en l’évaluant dans plusieurs endroits différents. C’est l’ONG
Innovations for Poverty Action (ONG fondée par Dean Karlan), qui est à
l’origine de nombre de ces duplications et qui reçoit les financements, mais
les équipes de recherche et les partenaires de terrain sont différents dans
chaque pays. Les différentes équipes de recherche se concertent sur les
stratégies d’évaluation et sur les instruments afin de s’assurer que des résul-
tats différents représenteront bien des différences au niveau des contextes
plutôt que des différences au niveau des stratégies d’évaluation.
Toutes ces études sont en cours et leurs résultats nous permettront d’en
apprendre beaucoup plus sur les conditions dans lesquelles les programmes
sont dépendants du contexte. Des tests systématiques seront nécessaires
afin de voir si les résultats diffèrent d’un site à l’autre. Les enseignements de
la recherche sur les effets des traitements hétérogènes, dont nous allons
parler ci-dessous, peuvent être utiles : premièrement, les variables indica-
trices de site peuvent être traitées comme des variables de contrôle dans le
cadre d’une régression et des tests non paramétriques de l’hétérogénéité
peuvent être réalisés (voir, par exemple, Crump et al. [2009]). Si hétérogé-
néité il y a, alors un test plus puissant consisterait à voir si l’hétérogénéité
persiste après que l’on a pris en compte l’hétérogénéité des variables de
contrôle. Une autre manière de procéder consiste à mener un test pour voir
si l’effet de traitement conditionné aux variables de contrôle est égal pour
toutes les variables indicatrices de site (Heckman et al. [2010]).
En principe, si nous étions prêts à mener suffisamment d’expérimenta-
tions, dans des lieux suffisamment variés, nous pourrions apprendre tout ce
que nous souhaiterions savoir sur la distribution des effets d’un traitement
d’un site à un autre, en prenant en compte n’importe quel ensemble de
variables de contrôle. Cela n’est pas le cas des études non expérimentales.
Bien qu’il soit possible d’identifier une quasi-expérimentation particulière
qui permettrait d’identifier l’effet d’un programme dans un contexte précis, il
est très improbable qu’une telle quasi-expérimentation puisse être répliquée
dans autant de contextes différents qu’on le souhaiterait. Dans les cas des
études non expérimentales, on doit supposer que les hypothèses d’identifi-
cation sont valides dans toutes les études pour pouvoir les comparer. Si
plusieurs études non expérimentales donnent des résultats différents, une
explication possible est que l’une d’entre-elles – ou plusieurs – est (sont)
biaisée(s) (ce principe sous-tend les tests de validité des variables instru-
mentales basés sur la « sur-identification » (« overidentification tests »).

L’idée a été proposée – voir par exemple Rodrik [2008] – que la dépen-
dance environnementale pose moins de problèmes pour les études non
expérimentales car celles-ci couvrent des domaines beaucoup plus larges,
ce qui permet de les généraliser plus facilement3. Il y aurait donc un choix à
faire entre les études par assignation aléatoire dont la validité interne est
forte, et les études non expérimentales dont la validité externe est plus
grande. Pourtant, cela n’est pas nécessairement vrai. Une partie du pro-
blème est de savoir ce que l’on veut dire par effet généralisable : cela signi-
fie que si l’on mène la même action dans un lieu différent, on obtiendra le
même résultat. Mais de quelle action et de quel résultat parlons-nous ? Dans
le cadre d’études transversales dans lesquelles on compare, par exemple,
différents types d’investissements, il faut croire au fait que l’action a été la
même et que l’on a mesuré les résultats de la même façon et il faut faire
confiance au jugement de ceux qui ont construit l’ensemble des données et
rassemblé un certain nombre de programmes dans une catégorie générale.
Par exemple, la catégorie « Investissements dans l’éducation » peut signifier
beaucoup de choses différentes. La conclusion généralisable de l’étude est
donc, au mieux, l’impact de la moyenne de l’ensemble des choses que l’on
a regroupées lorsqu’on a construit les données agrégées, ce qui ne veut pas
forcément dire grand chose.
Un problème plus subtil se pose lorsque l’on évalue des programmes bien
définis. Le fait que pour l’évaluation du programme on utilise les données
d’une large zone géographique ne signifie pas nécessairement que l’estima-
tion de l’effet du programme obtenu sera la moyenne des effets du pro-
gramme sur tous les types de personnes vivant dans cette zone importante
(ou sur toutes les personnes qui sont les participants probables du pro-
gramme). Pour estimer l’effet d’un programme en l’absence d’expérience,
on tente de contrôler chaque différence observable entre les personnes
bénéficiant du programme et celles qui ne le sont pas ; par exemple, par un
appariement statistique (« matching »). Mais dans l’échantillon apparié, il
n’y a pas de garantie qu’on trouve un « match » dans le groupe non traité
pour toutes les observations du groupe traité. Il existe plusieurs méthodes
qui permettent de gérer cette absence de chevauchement entre la distribu-
tion des participants et des non participants (Heckman et al. [1997, 1998] ;
Rubin [2006] ; Imbens et Woolridge [2008]) mais, dans tous les cas, l’évalua-
tion sera entièrement motivée par les sous-groupes de la population où,
même après l’appariement, il reste à la fois suffisamment de participants et
de non participants, et ces sous-groupes pourraient ne pas être représenta-
tifs de la population dans son ensemble. Nous pouvons comparer les carac-
téristiques observables de la population sur laquelle on a estimé l’effet du
traitement à celles de la population dans son ensemble, mais nous n’avons
aucun moyen de savoir comment ces personnes diffèrent du reste de la
population, pour ce qui est des caractéristiques non observables. Imbens et
Woolbridge [2008] concluent ainsi que « ce qui caractérise potentiellement
3. On notera que les expérimentations par assignation aléatoire ne sont pas toutes à petite
échelle. Par exemple, les programmes de représentation obligatoire dont nous parlons ici
ont été mis en œuvre à l’échelle nationale en Inde. Alors que Duflo et Chattopdhyay [2004]
recherchaient au départ deux États (très différents), Topalova et Duflo [2004] ont étendu
l’analyse à tous les grands états de l’Inde.

toutes ces méthodes [qui améliorent les chevauchements entre participants

et non participants] c’est qu’elles modifient ce qui est évalué … cela se
traduit par une diminution de la validité externe mais il est vraisemblable
que cela augmente la validité interne ». Ainsi, le compromis entre validité
interne et validité externe est également présent dans les études non expé-
rimentales. Il est bien connu (voir Imbens et Angrist [1994]) que c’est éga-
lement vrai pour les évaluations avec variables instrumentales : les partici-
pants pour lesquels les effets du programme sont identifiés (les
« compliers ») peuvent constituer un petit sous-ensemble non représentatif
de la population d’intérêt. Dans une expérience, si les taux de participation
des personnes choisies pour le groupe de traitement restent élevés, nous
savons que la population affectée est au moins représentative de la popu-
lation choisie pour l’expérimentation.
Heckman introduit la notion de « biais de randomisation » : une impossi-
bilité à généraliser les résultats d’une expérience qui viendrait du fait même
de la randomisation ; le fait que l’on évalue le programme en ayant recours
à une évaluation aléatoire modifie la manière dont les acteurs se com-
portent. L’une des formes de ce biais est l’effet Hawthorne ou l’effet John
Henry : le comportement des individus des groupes traité ou témoin change
car ces individus savent que le programme est en train d’être évalué. Bien
que l’estimation de l’effet du programme puisse être valide d’un point de
vue interne, sa pertinence est alors limitée en dehors de l’expérimentation
(Heckman et Vytlacil [2008b]). Toutefois, les effets Hawthorne constituent un
problème quel que soit le contexte à partir du moment où l’on étudie des
participants. Ils ne sont pas spécifiques à l’expérimentation en tant que
telle4. Les chercheurs en sciences sociales s’inquiètent du biais lié à l’inter-
view (par exemple parce que les gens souhaitent donner une certaine
impression à l’enquêteur).
Une autre forme plus subtile de biais lié à l’assignation aléatoire est pré-
sentée par Heckman [1992]. Il constate que, dans l’expérimentation du pro-
gramme de formation professionnel JTPA, tous les sites n’ont pas accepté
de participer et que certains sites en particulier ont spécifiquement refusé
l’expérimentation à cause de l’assignation aléatoire. Il se peut que ces sites
soient différents. Dans le domaine de l’économie du développement, les
expérimentations tendent à être menées avec divers partenaires mais il est
vrai que toutes les ONG ou tous les gouvernements ne sont pas volontaires
pour participer à des évaluations aléatoires. Si les évaluations aléatoires ne
peuvent être menées que dans des sites spécifiques ou qu’avec certains
partenaires particuliers, c’est précisément parce qu’elles sont aléatoires et
que les partenaires ne l’acceptent pas tous. Dans de nombreux sites, la
duplication ne permet pas de faire disparaître le problème. Il s’agit là d’une
objection de taille (étroitement liée au problème de participation dont nous
parlerons plus bas) – à savoir le problème de la participation au niveau de
l’organisation – et il s’agit-là d’une critique difficile à réfuter dans la mesure
où les données – quel que soit leur nombre – ne seront jamais suffisantes
4. En réalité, l’effet Hawthorne d’origine s’est produit durant des « expérimentations »

menées sur le lieu de travail, et dans des conditions qui n’étaient pas assignées de manière
aléatoire.

pour nous rassurer totalement sur l’absence de ce problème. Cela dit, notre
expérience suggère que, dans le contexte des pays en développement, ce
problème tend à disparaître car les évaluations aléatoires sont de mieux en
mieux acceptées, et les partenaires se multiplient. La situation va continuer
de s’améliorer si les évaluations aléatoires sont recommandées par les
donateurs dans la mesure où les partenaires se diversifieront encore davan-
tage.
C’est déjà ce qui est en train de se passer. De nombreux chercheurs et
acteurs de terrain de la Banque Mondiale travaillent notamment avec les
gouvernements de pays en développement en vue de lancer un ambitieux
programme d’évaluation5. Par exemple, l’Initiative Africa Impact Evaluation
soutient (financièrement et techniquement) plusieurs gouvernements afri-
cains pour la mise en place, en Afrique, d’évaluations aléatoires sur diffé-
rents sujets. A l’heure actuelle, 67 évaluations aléatoires sont en cours dans
le cadre de ce programme et couvrent 5 thèmes : l’éducation, la lutte contre
le paludisme, la lutte contre le sida, la gouvernance et les transports. AGE-
MAD est une évaluation récente menée dans ce cadre : il s’agit d’une initia-
tive visant à réformer l’école à Madagascar (Banque Mondiale [2008]). Ce
projet démontre la volonté et la capacité d’un Ministère de l’Education à
mettre en œuvre une évaluation aléatoire dès lors qu’il reçoit le soutien et
les encouragements nécessaires de la part d’une grande agence de finance-
ment.
A notre avis, le fait que les partenaires qui mènent des évaluations aléa-
toires se distinguent par leur volonté et leur capacité à suivre un protocole
constitue un problème plus délicat que l’adhésion à la randomisation. En
effet, il est possible que ces caractéristiques n’existent plus lorsque les pro-
jets seront développés à une plus grande échelle. Il est important d’avoir
conscience de ces limites lorsque l’on interprète les résultats. Jusqu’à pré-
sent, insuffisamment d’efforts ont été consacrés à réaliser des évaluations
« à moyenne échelle » de programmes qui avaient bien fonctionné à petite
échelle ; c’est pourtant là que ces problèmes de mise en œuvre apparaî-
traient de manière évidente.
Cela dit, cette difficulté n’est pas non plus totalement absente des études
non expérimentales, en particulier dans les pays en développement. Les
programmes ne peuvent pas tous être évalués de manière convaincante. On
a souvent besoin de bases de données importantes (notamment si l’on veut
améliorer la validité externe en étudiant un programme national). Dans cer-
tains cas, les données sont collectées spécifiquement pour l’évaluation, sou-
vent avec l’aide du Bureau National des Statistiques du pays concerné. Dans
ce cas, il faut que le pays accepte l’évaluation d’une politique à grande
échelle, ce qui est politiquement plus sensible que lorsqu’il s’agit de pro-
grammes pilotes, beaucoup moins visibles ; ainsi, les pays peuvent sélec-
tionner les programmes à évaluer de manière stratégique. Dans certains cas,
il est possible d’utiliser des enquêtes régulières, à grande échelle (comme le
National Sample Survey en Inde, l’enquête SUSENAS en Indonésie, etc.).
5. François Bourguignon et Paul Gertler, à l’époque où ils étaient respectivement Chef

Economiste et Chef Economiste du Réseau Développement Humain à la Banque Mondiale,
ont joué un rôle clé pour encourager ces évaluations.

Mais de tels dispositifs n’existent pas dans tous les pays en développement,
bien que des bases de données telles que les Enquêtes de Santé et Démo-
graphiques (« Demographic and Health Surveys ») qui sont disponibles dans
la plupart des pays aient certainement amélioré les choses. Ainsi, ni les pays
ni les programmes qui peuvent être évalués avec des données non expéri-
mentales ne sont choisis au hasard. La difficulté de généraliser les résultats
d’une étude donnée est donc toujours potentiellement présente, quelle que
soit les approches employées.
3.2. Questions de participation
Un taux de participation élevé facilite l’interprétation de l’estimation des

variables instrumentales des estimations du « traitement sur le traité »
(« treatment on the treated ») et donc la généralisation des résultats à
d’autres environnements. En économie du développement les expérimen-
tations ont souvent été randomisées au niveau de lieux ou de groupes
(villages, quartiers, écoles) dans lesquels les acteurs de terrain peuvent
raisonnablement penser qu’ils seront en mesure de mettre le programme en
œuvre. Le taux de participation des sites à l’expérience est donc élevé,
souvent de 100 %. L’échantillon traité sera donc vraisemblablement un sous-
ensemble aléatoire de l’ensemble de lieux sélectionnés pour le programme.
Si le programme est ensuite volontaire, les bénéficiaires ne sont pas choisis
au hasard, mais leur sélection reflète ce que l’on observerait si la politique
était généralisée, ce qui rend l’estimation de l’effet de traitement sur les
traités pertinente.
Heckman [1992] s’est penché sur l’interprétation des résultats d’expéri-
mentations aléatoires menées aux États-Unis dans lesquelles on proposait
aux personnes de suivre un programme de formation professionnelle. Si
l’on compare les personnes à qui on a donné le choix de prendre part à un
programme de formation à celles à qui on n’a pas donné ce choix, on
obtient une identification correcte de l’effet qu’a le fait d’offrir une telle
possibilité (« intention to treat »). L’estimation par variable instrumentale
utilisant l’intention de traiter comme instrument estime correctement l’im-
pact moyen de ce programme sur des personnes qui ont choisi d’y partici-
per. Mais comme ces personnes sont volontaires, cela ne nous renseigne
pas sur l’impact moyen d’un programme de formation qui serait rendu
obligatoire pour les individus percevant des allocations chômage : l’effet
pourrait être plus faible pour des gens que l’on force à participer. Pour
obtenir un tel résultat, il faudrait organiser une expérimentation avec parti-
cipation obligatoire.
Des questions similaires se posent dans certaines expérimentations me-
nées dans les pays en développement. Par exemple, l’étude de Karlan et
Zinman [2007] sur les effets de l’accès au crédit à la consommation porte sur
une population dont les demandes de prêts ont été rejetées par la banque.
Les chercheurs ont demandé aux agents de la banque d’identifier dans cette
population un petit groupe de personnes refusées et d’en « repêcher » cer-
taines, en les sélectionnant de manière aléatoire. Cependant, les agents
conservaient leur pouvoir discrétionnaire et l’ont utilisé pour rejeter approxi-

mativement la moitié de ceux qui étaient « repêchés ». L’expérimentation
identifie l’effet de ce crédit supplémentaire sur la population des personnes
ayant été « repêchées » : il apparaît que ce crédit augmente les chances pour
la personne de conserver son emploi ainsi que son revenu. S’il est vrai que
cette expérimentation fournit des preuves (très intéressantes) du fait que le
crédit à la consommation peut être une bonne chose pour certaines per-
sonnes, compte tenu de la nature inhabituelle de la population traitée (ceux
ayant été « repêchés » à deux reprises), il reste possible que cet échantillon
ne soit pas représentatif de l’effet pour ceux dont la demande de prêt a été
directement acceptée ou définitivement rejetée.
Heckman se demande également si les évaluations aléatoires sont la
meilleure méthode pour savoir qui prend part aux programmes proposés, et
pourquoi. Mais l’assignation aléatoire peut être utilisée précisément pour
essayer de mieux comprendre les problèmes de sélection. Comme nous
l’avons vu plus haut, plusieurs études ont été menées dans lesquelles l’as-
signation aléatoire est spécifiquement conçue pour mesurer l’effet de sélec-
tion, qui serait impossible à mesurer par d’autres moyens (Karlan et Zinman
[2005] ; Ashraf et al. [2007] ; Cohen et Dupas [2007]). Pour mieux com-
prendre la sélection, Cohen et Dupas [2007] ont recueilli les taux d’hémo-
globine des femmes qui ont acheté des moustiquaires à différents prix. Elles
souhaitaient examiner si les femmes prenant uniquement les moustiquaires
gratuites étaient moins susceptibles d’être anémiées. Dans d’autres études,
bien que l’évaluation ne soit pas spécifiquement conçue pour capter l’effet
de sélection, le taux de participation des personnes à qui on propose le
programme est particulièrement intéressant à étudier, et les données ini-
tiales sont spécifiquement collectées pour étudier cet effet. Par exemple, les
résultats intéressants de l’étude menée par Ashraf et al. [2006] permettent
de décrire les caractéristiques de ceux qui adoptent un système d’engage-
ment pour se forcer à épargner.
Dans d’autres cas, l’adhésion au programme n’est pas un problème car le
traitement se présente comme un cadeau, à la différence de l’offre de for-
mation qui n’a aucune valeur à moins que la personne ne soit prête à y
investir le temps suffisant. Par exemple, deMel et al. [2008] ont cherché à
cerner, au Sri Lanka, l’effet résultant de l’octroi de dons entre $100 et $200 à
toutes les entreprises de leur échantillon. Ils ont mis en valeur un impact
important de ces bourses sur les revenus des entreprises, qui correspond à
un rendement du capital équivalent à 5 %. McKenzie et Woodruff [2008] ont
mené la même expérimentation au Mexique et les rendements qu’ils ont
obtenus étaient plus élevés (20-35 %). Dans les deux cas, le fait que les
entreprises ciblées étaient de petites entreprises était un élément crucial : le
montant du don permettait de s’assurer que pratiquement tout le monde
trouverait un intérêt à participer au programme (même lorsqu’il s’agit d’un
cadeau, le fait de participer induit toujours un coût pour le participant).
Cependant, il peut arriver que même un cadeau soit refusé, comme nous
l’avons découvert à notre grande surprise lorsque nous avons travaillé avec
l’institution de microcrédit Bandhan pour évaluer leurs programmes desti-
nés à venir en aide aux ultra-pauvres (A. Banerjee, R. Chattopadhyay,
E. Duflo, et J.M. Shapiro, résultats non publiés). Dans le cadre du pro-
gramme Bandhan, les villageois qui sont trop pauvres pour pouvoir accéder
au réseau de la micro-finance sont identifiés grâce à une évaluation partici-
pative de leurs ressources ainsi que par d’autres enquêtes de suivi, puis on
leur offre un actif (en général, deux vaches, quelques chèvres, ou d’autres
actifs productifs) d’une valeur comprise entre $25 et $100, et ce sans aucune
obligation légale (si ce n’est qu’on leur demande de prendre soin de ce qui
leur a été donné et qu’on leur indique qu’il y aura un suivi). On leur verse
également une indemnité hebdomadaire et on leur assure une formation. Le
but est de voir si le fait d’avoir accès à des actifs entraîne une amélioration
à long terme de leurs conditions de vie (ou si ces personnes vont tout
simplement vendre les biens et en épuiser rapidement les produits). Le
protocole de l’évaluation a été conçu en considérant que toute personne à
qui un actif serait offert l’accepterait, or il en a été tout autrement. Une part
importante des clients (18 %) a refusé la proposition : certains se méfiaient
car ils pensaient que l’on essayait de les convertir au christianisme ; d’autres
pensaient qu’il s’agissait d’une ruse pour les endetter – et qu’en fin de
compte, on leur demanderait de rembourser –. D’autres encore ne doutaient
pas des motivations de Bandhan mais se sentaient incapables de s’en sortir
et de prendre correctement soin de ce qui leur était donné, ils ne voulaient
pas se trouver mal à l’aise dans le village en cas de perte du bien.
3.3. Problèmes spécifiques liés à l’assignation

aléatoire
L’étude Bandhan nous offre un exemple de biais de l’assignation aléatoire,
à savoir l’effet de Hawthorne : le fait de faire partie d’une expérimentation
(et d’être contrôlé) influence les comportements. Le fait que ces villageois
n’étaient pas habitués à voir un organisme privé distribuer des actifs gratui-
tement a certainement contribué au problème. Cependant, il est possible
que Bandhan n’ait pas fait suffisamment d’efforts de communication pour
informer les villageois des détails du programme, précisément parce que
seuls certains des ultra-pauvres serait sélectionné au hasard pour en béné-
ficier, et Bandhan ne souhaitait pas créer un effet d’attente.
Dans la plupart des expériences, l’assignation aléatoire au niveau du lieu
se justifie du fait de contraintes budgétaires et administratives. C’est préci-
sément la raison pour laquelle les organisations acceptent souvent de pro-
céder à une randomisation à ce niveau. Parce que les gouvernements ont
des budgets limités, et parce que de très nombreuses ONG de petite taille
mènent de nombreuses actions différentes, les villages ou les écoles dans la
plupart des pays en développement sont habitués au fait que certaines
zones bénéficient de certains programmes et d’autres non. Lorsqu’une ONG
ne travaille que dans certains villages, les villageois la voient comme faisant
partie de la stratégie globale de l’ONG. Lorsque l’on explique aux habitants
des zones témoins que le budget n’est suffisant que pour un nombre limité
d’écoles, ils sont généralement d’accord pour considérer qu’un tirage au
sort est un moyen équitable d’allouer ces ressources limitées. Bien souvent,
ces personnes sont tellement habituées à l’arbitraire que le principe d’assi-
gnation aléatoire leur semble à la fois transparent et légitime.
L’un des problèmes que pose la reconnaissance explicite de l’assignation

aléatoire comme un moyen équitable de répartir le programme, c’est que les
acteurs de terrain peuvent penser que la manière la plus simple de présenter
le programme à la communauté consiste à dire qu’il est prévu que ce pro-
gramme soit à l’avenir étendu aux zones témoins (surtout lorsque cela est
effectivement prévu, comme dans les cas de déploiement progressif). Cela
peut créer des problèmes si, parce qu’ils anticipent le traitement, certains
individus tendent à modifier leur comportement. Cette critique a été émise
dans le cadre de l’évaluation du programme PROGRESA : comme les vil-
lages témoins savaient qu’un jour ou l’autre ils seraient eux aussi couverts
par le programme, cela a pu avoir une influence sur leur comportement.
Lorsque pour l’évaluation il est nécessaire que les individus ne sachent
pas qu’ils sont exclus du programme, les comités d’éthique accordent en
général une dispense de divulgation complète jusqu’à la fin de l’enquête, du
moins lorsque le programme ne fait courir aucun risque au sujet. Dans de
tels cas, les participants ne sont pas informés qu’ils font partie d’une étude
randomisée. Une telle situation est plus courante lorsque l’assignation aléa-
toire est opérée au niveau de l’individu. Dans de tels cas, les bénéficiaires
sélectionnés sont uniquement informés qu’ils ont reçu le programme : le
prêt qu’ils avaient demandé leur a été accordé (Karlan et Zinman [2007]) ou
que la banque a décidé de baisser leur taux d’intérêt (Karlan et Zinman
[2005]), mais pas qu’il s’agissait d’une expérience.
3.4. Les effets d’équilibre
Un problème connexe est celui posé par ce que l’on appelle couramment
les effets d’équilibre général (bien que ce terme puisse créer une confusion ;
nous préférons donc parler d’effets d’équilibre car le concept d’équilibre
général est essentiellement un concept multimarché). Les effets d’un pro-
gramme identifiés dans le cadre d’une petite étude peuvent être différents
des effets du programme s’il était généralisé au niveau national (Heckman et
al. [1999] ; Abbring et Heckman [2007]). Prenons par exemple ce qui se
passerait si l’on essayait de généraliser un programme qui indique – dans le
cadre d’une expérimentation à petite échelle – que des fillettes désavanta-
gées ayant reçues des bourses leur permettant d’aller dans des écoles pri-
vées sont mieux formées et perçoivent des revenus plus élevés. Si le pro-
gramme était généralisé au niveau national, deux choses pourraient se
produire : les écoles privées pourraient être surchargées, et les bénéfices de
l’éducation pourraient baisser en raison d’une augmentation de l’offre. Ces
deux effets conduiraient à des résultats plus faibles que dans l’expérience
localisée.
Le problème des effets d’équilibre n’a pas de solution totalement satisfai-
sante. Fort heureusement, il se présente rarement. Par exemple, si nous
souhaitons déterminer quelle est la meilleure stratégie pour favoriser la
vaccination (distribution fiable des vaccins ou distribution fiable des vaccins
accompagnée d’un petit cadeau pour que la mère se souvienne de faire le
rappel du vaccin à temps) (comme dans Banerjee et al. [2008b]), la méthode
expérimentale ne pose aucun problème. Le fait que pour vacciner la totalité

de la région il n’est pas nécessaire de recruter beaucoup d’infirmières sup-
plémentaires nous aide car nous pouvons supposer que le coût d’une infir-
mière ne va pas augmenter de beaucoup, voire pas augmenter du tout, si le
programme est généralisé. Inversement, bien qu’il soit utile de savoir que
les élèves ayant reçu des bourses pour l’école privée en Colombie s’en
sortent mieux, tant au niveau de leurs études que plus tard dans la vie (voir
Angrist et al. [2002, 2006]), il est probable que la généralisation du pro-
gramme entraînerait une augmentation de l’offre de travail éduqué, et donc
une baisse de la rémunération de l’éducation. Un problème similaire se pose
pour l’évaluation des programmes de formation professionnelle. Par exem-
ple, Attanasio et al. [2008b] ont eu recours à l’assignation aléatoire de can-
didats dans le cadre d’un programme de formation professionnelle en Co-
lombie. Le programme s’intitulait Jovenes in Action et l’objectif était d’en
évaluer l’impact. Attanasio et son équipe montrent que le programme a un
effet important sur le taux d’emploi une fois le diplôme obtenu. Cependant,
dans la mesure où le programme de formation proposait également une
aide à la recherche d’emploi, il se peut qu’il ait aidé les stagiaires à trouver
plus facilement un travail aux dépends d’autres jeunes. Cet effet pourrait
disparaître totalement dès lors que le programme s’adresserait à tous les
jeunes d’une même ville.
Les effets d’équilibre peuvent être étudiés dans des études de pro-
grammes menés à grande échelle. Cela n’est pas un argument en faveur des
études « cross-countries », qui sont souvent impossible à interpréter, mais
plutôt des études basées sur des données microéconomiques qui tirent parti
de changements de politique économique de grande échelle. Bien que ces
politiques ne soient typiquement pas assignées de manière aléatoire, ces
études permettent d’être attentifs aux problèmes de causalité ainsi qu’aux
effets d’équilibre. Un bon exemple de ce type de recherche est le travail
réalisé par Hsieh et Urquiola [2006] qui utilisent un protocole quasi expéri-
mental pour démontrer que le programme chilien de coupons pour l’école
privée ne s’est pas traduit par une amélioration générale de la qualité de
l’éducation, bien qu’il ait modifié l’allocation des élèves dans les écoles.
D’autres études se penchent spécifiquement sur d’éventuels effets d’équili-
bre de marché des politiques, comme par exemple les études d’Acemoglu et
Angrist [2001] et de Duflo [2004a].
On peut vérifier si les résultats provenant d’une étude quasi expérimentale
au niveau d’une zone concordent avec les résultats d’expériences aléatoires
plus locales. Par exemple, dans le cas des coupons, nous nous attendons à
ce que les effets d’équilibre viennent enrayer la réponse de l’offre et donc,
nous nous attendons à ce que des études plus importantes, quasi-
expérimentales, donnent des effets plus modestes que ceux constatés dans
les expérimentations. Si nous constatons le contraire, alors il faudra s’inter-
roger sur la fiabilité ou la représentativité de l’étude non-expérimentale. En
ce sens, les expérimentations et les études non expérimentales peuvent se
compléter plutôt que de se substituer les unes aux autres.
Une autre approche consiste à essayer d’évaluer l’importance de l’effet
d’équilibre en utilisant la méthode expérimentale. Dans le cadre d’une re-
cherche en cours, Kremer et Muralidharan (résultats non publiés) ont étudié
les effets d’un programme de bourse pour l’école privée grâce à une double
assignation aléatoire : ils ont assigné de manière aléatoire les villages dans
lesquels les bourses ont été distribuées, ainsi que les personnes qui ont reçu
les bourses au sein d’un même village. En comparant les estimations qu’ils
vont obtenir à partir de ces deux traitements, ils espèrent être en mesure de
déduire l’importance de l’effet d’équilibre. Cette approche ne traite que d’un
niveau d’équilibre (sur le marché de l’éducation, pas sur celui du travail)
mais il s’agit là d’un début important.
Une autre alternative consiste à combiner les résultats de différentes expé-
rimentations en utilisant une expérimentation (ou éventuellement une quasi-
expérimentation) pour estimer l’élasticité de la demande de compétences,
une autre pour estimer l’offre d’enseignement de qualité et une troisième
pour estimer dans quelle mesure la distribution de bourses pour l’école
privée contribuent à l’acquisition de compétences. Ce type de travail néces-
site une approche plus structurelle, toutefois il a la capacité de combler
l’écart entre les mondes macro et micro. Il répond aux critiques selon les-
quelles les expérimentations peuvent permettre d’obtenir la bonne réponse
à des questions mineures sans pour autant parvenir à traiter des « grandes »
questions d’intérêt (comme on peut le lire dans certains des commentaires
portant par exemple sur l’article de Banerjee dans la Boston Review ; ces
commentaires sont présentés dans Banerjee [2007]). L’expérimentation peut
nous aider à estimer les paramètres économiques (tels que la rentabilité du
capital pour les petites entreprises, l’élasticité de l’emploi, les avantages
individuels de l’éducation, etc.), paramètres qui peuvent ensuite être utilisés
de manière combinée avec des modèles d’équilibre microfondés (Heckman
et al. [1999] ont développé et exposé cette méthode pour une politique
d’enseignement). Il existe en économie du développement une littérature de
plus en plus importante, avec notamment des gens comme Robert Town-
send et ses collaborateurs, qui tente d’intégrer les microestimations dans
l’étalonnage des modèles de croissance avec contraintes de crédit6. Il est
clair qu’il reste encore beaucoup à faire dans ce domaine.
3.5. L’hétérogénéité des effets du traitement
La majorité des évaluations de programmes sociaux se concentre exclu-

sivement sur l’impact moyen. L’un des avantages des résultats expérimen-
taux réside dans leur simplicité : ils sont faciles à interpréter car la seule
chose à faire consiste à comparer des moyennes – ceci pourrait encourager
les décideurs politiques à prendre ces résultats plus au sérieux (voir, par
exemple, Duflo [2004b] ; Duflo et Kremer [2004]). Cependant, comme le sou-
lignent Heckman et al. [1997], l’effet moyen d’un traitement peut ne pas être
ce que les décideurs politiques veulent savoir : ils pourraient s’intéresser
6. Nous discutons de cette littérature dans Banerjee et Duflo [2005]. Pour une réponse plus
détaillée à l’argument selon lequel les chercheurs devraient ne plus faire de microestima-
tions car la seule chose qui compte c’est la croissance et que l’utilisation de données agré-
gées est la seule manière d’estimer les moteurs de croissance, on peut se référer à Banerjee
[2008].

plus à l’effet sur les plus pauvres, ou sur les plus riches. D’un point de vue
intellectuel, restreindre l’analyse à une comparaison naïve des moyennes
n’a pas grand sens.
Malheureusement, l’effet moyen d’un traitement (ou l’effet moyen du trai-
tement dans un sous-échantillon déterminé par des variables observables)
est la seule statistique conventionnelle de la distribution que l’on puisse
obtenir à partir d’une expérimentation aléatoire, sans hypothèses supplé-
mentaires (Heckman [1992]). Bien entendu, nous pouvons toujours compa-
rer la totalité de la distribution des résultats obtenus pour un traitement à
celle des résultats obtenus pour l’échantillon témoin : il existe des tests de
comparaison des distributions ainsi que les dominances stochastiques (voir
Abadie [2002]). Par exemple, Banerjee et al. [2007] ont montré que la distri-
bution des résultats aux examens parmi les élèves des écoles qui bénéfi-
cient d’un balsakhi (ou tuteur) fait apparaître une dominance stochastique
de premier ordre dans le groupe traitement (par rapport au groupe témoin)
et que la majorité des gains sont obtenus chez les enfants initialement en
situation d’échec scolaire. Cette découverte est importante car, dans les
classes du programme, les enfants en situation d’échec scolaire étaient ex-
traits de la salle de classe et se voyaient proposer un soutien scolaire, alors
que ceux qui étaient en tête de classe restaient dans la classe. Ainsi, on
s’attend à obtenir des effets différents sur les deux groupes et il serait
difficile de justifier le programme s’il n’aidait que les meilleurs élèves. Duflo
et al. [2007] ont également étudié comment le programme de motivation
des enseignants grâce à l’appareil photo, dont nous avons parlé plus haut, a
un effet sur la totalité de la distribution des absences parmi les professeurs
et ils ont trouvé une dominance stochastique de premier ordre. Cependant,
le fait de comparer ces distributions ne fournit pas d’information sur la
distribution des effets du traitement en tant que tel (car les différences de
quantiles d’une distribution ne sont pas le quantile de la différence).
Dans leur excellent examen de la littérature économique récente traitant
de l’évaluation des programmes (y compris des détails techniques qui sont
derrière une grande partie de la matière traitée ici), Imbens et Woolridge
[2008] avancent l’opinion que la distribution des variables d’intérêt dans le
groupe traitement et dans le groupe témoin (que l’on peut toujours connaî-
tre) est tout ce que nous avons besoin de savoir sur le programme : toute
fonction de bien-être sociale est définie en fonction de la distribution des
variables d’intérêt, pas en fonction de la distribution des effets du traite-
ment. On pourrait ne pas être d’accord avec ce point de vue. Une personne
en charge de la planification peut s’intéresser au pourcentage de personnes
qui vont bénéficier d’un traitement, pourcentage qui n’est pas identifié par
des expérimentations (ou par n’importe quelle autre méthode d’évaluation)
sans hypothèses supplémentaires. Pour bien comprendre toute l’étendue du
problème, prenons l’exemple suivant : nous avons une population de trois
personnes dont nous connaissons les valeurs des « potential outcomes »
(ou, la valeur de la variable d’intérêt dans les deux états possibles, traité ou
contrôlé), avec et sans traitement. Sans traitement, le potential outcome de
Monsieur A est de 1, celui de Monsieur B est de 2 et celui de Monsieur C est
de 3. Avec traitement, le potential outcome de Monsieur A est de 2, celui de
Monsieur B est de 3 et celui de Monsieur C est de -4. Que devons-nous
penser de ce programme ? Que ce soit en termes d’effet moyen du traite-

ment ou en termes de distribution générale, le traitement a échoué : la
distribution 1, 2, 3 pour le potential outcome sans traitement domine sto-
chastiquement la distribution -4, 2, 3 du potential outcome avec traitement.
Devons-nous par conséquent en conclure qu’un décideur politique devrait
toujours favoriser l’échantillon témoin par rapport au traitement ? Pas
nécessairement, car le traitement bénéficie à une majorité et le décideur
politique peut avoir un intérêt à faire ce qui est bien pour le plus grand
nombre. Et même si nous ne sommes pas d’accord avec les préférences des
décideurs politiques, il est difficile d’argumenter que c’est l’évaluateur qui
doit dicter le choix de la fonction de bien être social.
Dès lors que nous reconnaissons l’intérêt potentiel qu’il y a à identifier la
distribution des effets d’un traitement (et non la distribution des résultats
finaux), un problème se pose : il est impossible d’extraire cette information
de la distribution des résultats dans le groupe témoin et dans le groupe
traitement. Le problème ici est d’ordre logique et il n’est pas spécifique aux
expérimentations en tant que telles, ni d’une quelconque autre stratégie
d’évaluation spécifique – l’information pertinente n’est tout simplement pas
disponible parce que nous ne connaissons pas les potential outcomes traités
et contrôlés pour chaque individu. Dans le cas d’une expérience randomi-
sée, Heckman et al. [1997] montrent que l’introduction d’hypothèses de
comportement supplémentaires (plus spécifiquement, la modélisation de la
décision de participer comme une fonction des résultats potentiels, avec et
sans traitement) permet une estimation précise des liens au niveau des
caractéristiques de la distribution des effets du traitement. Abbring et Hec-
kman [2007] donnent une liste détaillée de méthodes pour estimer la distri-
bution des effets d’un traitement. Ces techniques peuvent également s’ap-
pliquer dans des contextes non expérimentaux mais les auteurs soulignent
le fait qu’elles peuvent être particulièrement utiles avec des données expé-
rimentales car, d’une part, les expériences permettent d’éviter les problèmes
de sélection qui « minent les données non expérimentales », et d’autre part
elles garantissent que les variables observées aient un support commun
dans les groupes de traitement et de contrôle, une condition nécessaire à
l’application de ces techniques.
A notre avis, la recherche expérimentale aurait tout à gagner à participer
plus aux travaux de ce corpus de recherche. Communiquer des résultats
dont la validité est sujette à plus d’hypothèse en plus des résultats purement
expérimentaux ne peut qu’enrichir le travail expérimental, dès lors que les
limites de ces résultats additionnels sont explicitement discutées. Cepen-
dant, les expérimentations conservent un avantage essentiel par rapport aux
autres méthodes : avec très peu d’hypothèses, il est possible de connaître
des aspects importants de l’impact du traitement (tels que la moyenne pour
n’importe quel sous-groupe). Le fait que nous souhaitions aller au-delà de
ces mesures, et que nous puissions en conséquence avoir besoin d’hypo-
thèses supplémentaires ne peut pas être retenu en faveur des méthodes non
randomisées.
En outre, dans la plupart des cas, on s’intéresse plus à l’hétérogénéité du
traitement en fonction de caractéristiques observables. Par exemple, dans
l’expérimentation des balsakhi, nous avons non seulement observé que la
distribution des résultats aux examens dans le groupe traitement présentait

une dominance stochastique de premier ordre par rapport au groupe té-
moin, mais nous avons également vu que c’étaient les élèves qui obtenaient
initialement les résultats les plus bas qui en profitaient le plus. Du point de
vue de Pratham c’est cette dimension d’hétérogénéité, facilement obser-
vable dès lors que l’on a des données sur les scores avant que l’expérience
commence, qui est intéressante. Lorsque nous démarrons une expérimen-
tation, il faut que nous ayons émis des hypothèses claires quant à la ma-
nière dont les effets du traitement varient en fonction de variables de
contrôle et que nous ayons collecté les données initiales appropriées.
Heureusement, la recherche récente en économétrie est là pour nous
aider. Crump et al. [2009] ont mis au point deux tests non paramétriques
pour déterminer si les effets d’un traitement sont hétérogènes : l’un de ces
tests permet de déterminer si l’effet du traitement est égal à zéro pour
n’importe quel sous groupe (définie par les variables de contrôle) et l’autre
test permet de voir si l’effet du traitement est le même pour tous les sous
groupes (définis par les variables de contrôle).
De plus, il est possible d’estimer les effets d’un traitement pour différents
sous-groupes. L’une des difficultés réside dans le fait que, si les sous-
groupes sont déterminés ex post, il y a un danger « d’aller à la pêche » pour
trouver un résultat positif au moins dans un sous-groupe déterminé ex-post.
Pour éviter cet écueil, la théorie peut nous aider en nous indiquant ce à quoi
nous devons nous attendre. Une autre possibilité est de spécifier ex ante les
résultats devant être observés et les hypothèses testées, en particulier les
sous-groupes (ce qui est recommandé dans la littérature médicale). Si nous
souhaitons tout de même tirer des leçons des différences des effets (intéres-
sants mais inattendus ex ante) du traitement, la duplication peut être utile :
dès lors que l’on organise une seconde expérimentation, il est possible de la
construire explicitement pour tester ces hypothèses nouvelles. Par exemple
Karlan et Zinman [2007] et deMel et al. [2009] ont trouvé des résultats dif-
férents chez les hommes et chez les femmes. Ces différences étaient inat-
tendues et peuvent être dues au hasard. Mais à partir du moment où l’étude
est dupliquée ailleurs, ces différences peuvent former le socle d’un nouvel
ensemble d’hypothèses à tester (Pour une discussion plus détaillée de ces
points, voir Duflo [2007]).
Enfin, différents articles récents (Manski [2000, 2002, 2004] ; Deheijia
[2005] ; Hirano et Porter [2005]) cherchent à rendre tout ceci moins ad hoc.
Les auteurs veulent intégrer le processus d’évaluation et d’apprentissage
dans le cadre explicite de l’élaboration des programmes. Ainsi, ils tentent de
se mettre eux-mêmes, de manière explicite, à la place d’un décideur poli-
tique essayant de décider non seulement s’il doit ou non mettre en œuvre
un programme, mais qui se demande également comment (le programme
doit-il être obligatoire ? Doit-on laisser des marges de manœuvre au ges-
tionnaire pour choisir les participants ?). Le décideur politique a accès aux
variables de contrôle concernant les bénéficiaires potentiels ainsi qu’aux
résultats des expérimentations aléatoires. Ces travaux tentent de développer
une théorie sur la manière dont un gestionnaire devrait prendre des déci-
sions, en tenant compte à la fois de l’hétérogénéité et de l’incertitude des
bénéfices d’un programme conditionnés par les variables de contrôle. A
notre connaissance, ces outils n’ont pas été utilisés dans la recherche en
économie du développement. Nous avons donc devant nous des pistes de
travail très riches.
3.6. Relations avec l’estimation structurelle
Initialement, la plupart des articles portant sur l’approche expérimentale

se concentraient sur des estimations en forme réduite des effets d’un pro-
gramme. Cependant, il n’y a pas de raison de ne pas utiliser ces données
pour extraire des paramètres structurels quand cela est possible. Les esti-
mations structurelles demandent plus d’hypothèses, mais elles peuvent être
utiles pour vérifier et confirmer des résultats et d’une manière plus générale,
pour soutenir leur validité externe. Par ailleurs, si nous avons confiance
dans les hypothèses qui sous-tendent ces estimations, il est possible d’en
tirer des conclusions politiques qui iront bien au-delà de ce que l’on obtient
à partir des formes réduites.
Parmi les premiers exemples de ces méthodes appliquées au développe-
ment, on trouve les travaux d’Attanasio et al. [2001] et de Todd et Wolpin
[2006] qui ont tous deux utilisés les données de PROGRESA. Todd et Wolpin
[2006] utilisent l’expérimentation comme moyen de valider le modèle struc-
turel : ils ont évalué un modèle structurel sur l’échantillon non traité, et
vérifier que le modèle prédisait correctement l’impact du traitement. Un
autre exemple du potentiel qu’il y a à associer expérimentation et estimation
structurelle est présenté dans Duflo et al. [2007]. Après avoir présenté les
résultats des formes réduites, l’article exploite la non-linéarité dans les inci-
tations auxquelles font fasse les enseignants de Seva Mandir (les ensei-
gnants percevaient un salaire minimum de $10 s’ils étaient présents moins
de 10 jours par mois, et un bonus de $1 par jour supplémentaire) pour
obtenir une estimation du coût d’opportunité et de l’élasticité de l’absence
au bonus. Le modèle est extrêmement simple : en venant à l’école les pre-
miers jours du mois, l’enseignant augmente sa chance de percevoir $1 sup-
plémentaire par jour à la fin du mois et doit renoncer à son utilité de ne pas
aller à l’école ce jour là. Ce modèle fait néanmoins surgir des problèmes
d’estimation très intéressants à partir du moment où l’on essaye d’introduire
de manière réaliste une hétérogénéité et une auto-corrélation au cours du
temps dans le coût d’opportunité de se rendre au travail. Comme pour Todd
et Wolpin [2006] cet article compare ensuite les prévisions du modèle pour
le comportement du groupe témoin, et pour le groupe traitement après un
changement dans les règles de paiement de Seva Mandir.
En principe, il devrait être possible d’exploiter davantage les complémen-
tarités entre estimation structurelle et expérimentations. L’un des avantages
des expérimentations réside dans leur souplesse quant à la collecte de don-
nées et au choix du traitement (dans les limites des règles éthiques et des
règles applicables aux études portant sur des sujets humains, et de ce que
les partenaires veulent – et peuvent – mettre en œuvre). Il devrait être pos-
sible de concevoir l’expérimentation pour faciliter l’estimation structurelle
en s’assurant qu’elle inclut des sources de variation qui aideraient les cher-
cheurs à identifier les paramètres nécessaires et à collecter les données

appropriées. Les expérimentations en économie du développement com-
portent de plus en plus souvent des structures complexes et des groupes de
traitement nombreux. Il est donc possible d’introduire une variation qui
pourrait aider à identifier les paramètres structurels d’intérêt. On pourrait
aussi estimer un modèle structurel à partir des données initiales avant que
les résultats expérimentaux ne soient connus afin de procéder à une valida-
tion « en aveugle » des modèles structuraux. Nous ne disposons pas encore
d’exemples de travaux de ce type : ceux dont nous parlons exploitent la
variation expérimentale, ex post plutôt qu’ils ne l’introduisent à dessein.
3.7. Relations à la théorie
Les expérimentations peuvent être et ont été utiles pour tester les théories
(cf. Banerjee [2005] et Duflo et al. [2006] pour un exposé plus exhaustif de
ces questions). Comme l’identification des résultats expérimentaux de base
ne dépend pas de la théorie, il est possible de tester la théorie de manière
irréfutable (c’est-à-dire que l’on peut disposer d’un test qui ne va pas dépen-
dre également d’autres théories). Ainsi, les résultats expérimentaux nous
ont amené à repenser certains éléments de base de la théorie de la de-
mande.
Plusieurs études par assignation aléatoire portant sur la demande en pro-
duits de santé préventive, sont parvenues à la conclusion que l’élasticité de
la demande au prix est énorme. Au Kenya, Kremer et Miguel [2007] mon-
trent que le fait d’augmenter le prix des médicaments antiparasites de 0 à
30 cents par enfant réduit la fraction d’enfants prenant le médicament de
75 % à 19 %. Toujours au Kenya, Cohen et Dupas [2007] ont découvert que le
fait d’augmenter le prix des moustiquaires imprégnées d’insecticide de 0 à
60 cents réduit de 60 % le nombre de ceux qui achètent les moustiquaires.
En Zambie, le fait d’augmenter le prix d’un désinfectant de l’eau de 9 à
24 cents a réduit de 30 % la part des personnes acceptant l’offre (Ashraf et
al. [2007]). On retrouve des réponses importantes similaires à celles-ci dans
le cas des petites subventions : en Inde, Banerjee et al. [2008b] ont constaté
qu’en offrant aux mères un kilo de lentilles (d’une valeur d’environ 60 cents)
à chaque vaccination et une série de bols lorsque le programme de vacci-
nation était terminé, on augmentait de 20 % la probabilité que l’enfant re-
çoive l’ensemble des vaccins nécessaires. Plus remarquable encore : au Ma-
lawi, une récompense de 10 cents a eu pour conséquence que 20 % de
personnes supplémentaires sont allées chercher les résultats de leur test de
dépistage du sida (Thornton [2007]).
Après avoir passé en revue tous ces résultats (ainsi que plusieurs articles
sur l’éducation qui aboutissent tous à des conclusions similaires), Holla et
Kremer [2008] concluent que ces élasticités de la demande ne peuvent pro-
venir du modèle standard de demande de santé. Par exemple, on peut
imaginer que des agents économiques rationnels et conventionnels pour-
raient décider soit de faire un test de dépistage du sida (sachant que le fait
de connaître leur statut va leur permettre de prolonger leur vie et celle des
autres) soit de ne pas le faire (le test peut être très stressant et source de
honte). Ce qui est plus difficile à comprendre c’est qu’autant d’entre eux
changent d’avis à cause de 10 cents alors qu’il s’agit de quelque chose qui
risque fort de bouleverser totalement leur vie.
Kremer et Holla [2008] avancent l’hypothèse qu’un tel schéma de de-
mande correspond à un modèle dans lequel les gens désirent vraiment le
produit mais en remettent toujours l’acquisition à plus tard : il est tentant de
retarder le moment où il faut payer le prix dans la mesure où les bénéfices
se situent dans le futur. Cependant, si les gens veulent vraiment acheter des
moustiquaires, ou s’ils veulent connaître les résultats de leur test, mais
reculent sans arrêt la décision de le faire, alors ils doivent être extrêmement
naïfs, compte tenu des bénéfices potentiels en termes de vie sauvée que
représentent ces deux actions. Or, en termes de produits financiers, les
résultats (expérimentaux) tendent à montrer que les gens ne sont pas naïfs.
Ashraf et al. [2006] montrent ainsi que ceux qui ont des préférences hyper-
boliques sont prêts à adopter des dispositifs d’engagement afin de bloquer
leur épargne, ce qui indique un niveau élevé de conscience de soi. Duflo et
al. [2008c] montrent que les fermiers kenyans qui déclarent ne pas avoir
suffisamment d’argent pour acheter des engrais au moment des semailles,
sont prêts à bloquer de l’argent au moment de la récolte, pour acheter les
engrais qui seront utilisés plusieurs mois plus tard. Ainsi, lorsqu’on leur
donne ex ante (avant la récolte) le choix du moment auquel les engrais
étaient proposés aux fermiers, près de la moitié des fermiers demandent
que les vendeurs passent les voir immédiatement après la récolte plutôt
qu’au moment où ils ont besoin des engrais, car ils savent qu’ils auront
l’argent nécessaire à ce moment-là. Leur demande de livraison immédiate
tend à prouver que les fermiers se contrôlent suffisamment pour garder
l’engrais sans le revendre.
Il arrive que les expérimentations donnent des résultats qui sont encore
plus troublants par rapport à la théorie existante (pour une analyse plus
détaillée, voir Duflo [2007]). Bertrand et al. [2009] donnent un exemple frap-
pant qui ne cadre avec aucune théorie économique existante : ils montrent
que des modifications apparemment mineures (comme la présence d’une
photographie sur une publicité) ont autant d’effet sur les éventuels emprun-
teurs que des changements importants du taux d’intérêt.
Dans toutes ces recherches, les expériences de terrain jouent le rôle tradi-
tionnellement joué par les expériences de laboratoire, mais avec plus de
crédibilité. L’objectif est de disposer de meilleures théories, mais est-ce que
la théorie peut nous aider à concevoir de meilleures expériences et à mieux
interpréter les résultats afin d’élaborer de meilleures politiques ? Une direc-
tion possible consiste à utiliser les résultats expérimentaux pour évaluer les
modèles structurels. La théorie peut aussi jouer un rôle plus basique mais
tout aussi important : nous avons besoin d’un cadre qui nous permette
d’interpréter des résultats isolés. Par exemple, pouvons-nous aller au-delà
de la simple observation du fait que différentes ressources introduites dans
les écoles ont des productivités différentes ? Ou est-ce que chaque résultat
expérimental constitue un résultat sui generis ? Pour atteindre cet objectif, il
est peu probable que l’on ait besoin d’une théorie très compliquée. La théo-
rie doit nous permettre de réduire la dimensionnalité sur la base d’un en-
semble de prémices raisonnables. Il est essentiel que d’autres travaux soient

réalisés dans ce sens.
4. Conclusion
Nous sommes donc totalement d’accord avec le principal point soulevé
par Heckman [1992] : pour être intéressantes, les expérimentations doivent
être ambitieuses et éclairées par la théorie. C’est aussi dans ce cas qu’elles
seront le plus susceptibles d’être utiles aux décideurs politiques. Nous
croyons fermement que les connaissances des économistes peuvent et doi-
vent guider les décideurs dans l’élaboration des politiques (voir également
Banerjee [2002]). Les économistes sont parfois bien placés pour proposer ou
identifier des programmes politiques susceptibles de réellement changer les
choses. Sans doute plus important encore, ils sont parfois en excellente
position pour faire naître le processus de découverte de politiques, en jouant
sur les deux tableaux : celui de la théorie et celui de la recherche expérimen-
tale. Ce processus « d’expérimentation créative », dans le cadre duquel les
décideurs politiques et les chercheurs travaillent ensemble pour réfléchir
différemment et tirer les enseignements des réussites et des échecs est sans
aucun doute la contribution la plus précieuse des récentes études expéri-
mentales.
Références bibliographiques
ABADIE A. [2002], « Bootstrap tests for distributional treatment effects in instrumen-
tal variables models », Journal of the American Statistical Association, 97(457),
p. 284-292.
ABBRING J.H, HECKMAN J. J. [2007], « Econometrics evaluation of social programs
part III : distributional treatment effects, dynamic treatment effects, dynamic dis-
crete choice and general equilibrium policy evaluation », in : J.J. Heckman and
E.E. Leamers (Eds.), Handbook of Econometrics, Volume 6B, Chapter 72, Amster-
dam : Elsevier, p. 5145-5303.
ABDUL LATIF JAMEEL POVERTY ACTION LAB (ALJ-PAL) [2005], Fighting Poverty :
What Works ?, Fall, Issue 1, Cambridge, MA : MIT.
ACEMOGLU D., ANGRIST J. [2001], « How large are human-capital externalities ?
Evidence from compulsory schooling laws », in : B.S. Bernanke and K. Rogoff
(Eds.), NBER Macroeconomics Annual 2000, Volume 15, Cambridge, MA : MIT
Press, p. 9-74.
ANGRIST J., BETTINGER E., BLOOM E., KREMER M., KING E. [2002], « Vouchers for
private schooling in Colombia : evidence from randomized natural experi-
ments », American Economic Review, 92(5), p. 1535-1558.
ANGRIST J., BETTINGER E., KREMER M. [2006], « Long-term educational conse-
quences of secondary school vouchers : evidence from administrative records in
Colombia », American Economic Review, 96(3), p. 847-862.

ANGRIST J., LANG D., OREOPOULOS P. [2009], « Incentives and services for college
achievement : evidence from a randomized trial », American Economic Journal :
Applied Economics, 1(1), p. 136-163.
ANGRIST J., LAVY V. [2009], « The effect of high school matriculation awards :
evidence from group-level randomized trials », American Economic Review, in
press (see also NBER Working Papers 9389).
ASHRAF N., BERRY J., SHAPIRO J. M. [2007], « Can higher prices stimulate product
use ? Evidence from a field experiment in Zambia », NBER Working Papers 13247.
ASHRAF N., KARLAN D., YIN W. [2006], « Tying Odysseus to the mast : evidence
from a commitment savings product in the Philippines », Quarterly Journal of
Economics, 121(2), p. 635-672.
ATTANASIO O., BARR A., CAMILLO J., GENICOT G., MEGHIR C. [2008a], « Group
formation and risk pooling in a field experiment »,. Mimeogr., Georgetown Uni-
versity.
ATTANASIO O., KUGLER A., MEGHIR C. [2008b], « Training disadvantaged youth in
Latin America : evidence from a randomized trial », ISF Working Papers (EWP
08/01), Institute for Fiscal Studies, London.
ATTANASIO O., MEGHIR C., SANTIAGO A. [2001], « Education choices in Mexico :
using a structural model and a randomized experiment to evaluate », Progresa.
Mimeogr., University College London.
BANAJI M. [2001], « Implicit attitudes can be measured », in : H.L. Roediger III, J.S.
Nairne, I. Neath and A. Surprenant (Eds.), The Nature of Remembering : Essays in
Honor of Robert G. Crowder, Washington DC : American Psychological Associa-
tion, p. 117-150.
BANERJEE A. [2002], « The uses of economic theory : against a purely positive
interpretation of theoretical results », Working Papers 007, Department of Econo-
mics, MIT.
BANERJEE A. [2005], « New development economics and the challenge to theory »,
Economic and Political Weekly, 40(40), p. 4340-4344.
BANERJEE A. [2007], Making Aid Work, Cambridge, MA : MIT Press.
BANERJEE A. [2008], « Big answers for big questions : the presumption of growth
policy », Mimeogr., Department of Economics, MIT.
BANERJEE A., BANERJI R., DUFLO E., GLENNERSTER R., KHEMANI S. [2009], « Pit-
falls of participatory programs : evidence from a randomized evaluation in edu-
cation in India », NBER Working Papers 14311, Forthcoming in American Econo-
mic Journal : Economic Policy.
BANERJEE A., COLE S., DUFLO E., LINDEN L. [2007] « Remedying education : evi-
dence from two randomized experiments in India », Quarterly Journal of Econo-
mics, 122(3), p. 1235-1264.
BANERJEE A., DUFLO E. [2005], « Growth theory through the lens of development
economics », in : S. Durlauf and P. Aghion (Eds.), Handbook of Economic Growth,
Volume 1A, Amsterdam : Elsevier, p. 473-552.
BANERJEE A., DUFLO E., GLENNERSTER R., KOTHARI D. [2008b], « Improving im-
munization coverage in rural India : a clustered randomized controlled evaluation
of immunization campaigns with and without incentives », Mimeogr., Depart-
ment of Economics, MIT.
BANERJEE A., JACOB S., KREMER M., LANJOUW J., LANJOUW P. [2005], « Moving
to universal education ! Costs and trade offs », Mimeogr., Department of Econo-
mics, MIT.

BEAMAN L., CHATTOPADHYAY R., DUFLO E., PANDE R., TOPALOVA P. [2009],
« Powerful women : does exposure reduce bias ? » BREAD Working Papers 181 ;
NBER Working Papers 14198, forthcoming in Quarterly Journal of Economics.
BERRY J. [2008], « Child control in education decisions : an evaluation of targeted
incentives to learn in India », Mimeogr., Department of Economics, MIT.
BERTRAND M., CHUGH D., MULLAINATHAN S. [2005], « Implicit discrimination »,
American Economic Review, 95(2), p. 94-98.
BERTRAND M., DJANKOV S., HANNA R., MULLAINATHAN S. [2007], « Corruption in
driving licensing process in Delhi », Quarterly Journal of Economics, 122(4),
p. 1639-1676.
BERTRAND M., KARLAN D., MULAINATHAN S., ZINMAN J. [2009], « What’s Adver-
tising Content Worth ? Evidence from a Consumer Credit Marketing », forthco-
ming in Quarterly Journal of Economics.
BJORKMAN M., SVENSSON J. [2007], « Power to the people : evidence from a
randomized field experiment of a community-based monitoring project in
Uganda », CEPR Working Papers 6344, forthcoming in Quarterly Journal of Eco-
nomics.
BLEAKLEY H. [2007], « Disease and development : evidence from hookworm eradi-
cation in the american south », Quarterly Journal of Economics, 122(1), p. 73-117.
BOBONIS G., MIGUEL E., SHARMA C. P. [2006], « Anemia and school participa-
tion », Journal of Human Resources, 41(4), p. 692-721.
COHEN J., DUPAS P. [2007], « Free distribution or cost-sharing ? Evidence from a
randomized malaria prevention experiment », Global Working Papers 14, Broo-
kings Institution.
CRUMP R., HOTZ J., IMBENS G., MITNIK O. [2009], « Nonparametric tests for treat-
ment effect heterogeneity », Review of Economics and Statistics, in press.
DEHEJIA R. [2005], « Program evaluation as a decision problem », Journal of Eco-
nometrics, 125(1-2), p. 141-173.
DE MEL S., MCKENZIE D., WOODRUFF C. [2008] « Returns to capital in microenter-
prises : evidence from a field experiment », Quarterly Journal of Economics,
123(4), p. 1329-1372.
DE MEL S., MCKENZIE D., WOODRUFF C. [2009], « Are Women More Credit Cons-
trained ? Experimental Evidence on Gender and Microenterprise Returns », for-
thcoming in American Economic Journal : Applied Economics.
DUFLO E. [2004a], « The medium run consequences of educational expansion :
evidence from a large school construction program in Indonesia », Journal of
Development Economics, 74(1), p. 163-197.
DUFLO E. [2004b], « Scaling up and evaluation », in : F. Bourguignon and B. Ples-
kovic (Eds.), Accelerating Development, Washington, DC : World Bank/Oxford
University Press, p. 342-367.
DUFLO E. [2007], « Field experiments in development economics », in : R. Blundell,
W. Newey and T. Persson (Eds.), Advances in Economic Theory and Econome-
trics, Econometric Society monograph 42, Cambridge, UK : Cambridge University
Press, chapter 13.
DUFLO E., CHATTOPADHYAY R. [2004], « Women as policy makers : evidence from
a randomized policy experiment in India », Econometrica, 72(5), p. 1409-1443.
DUFLO E., DUPAS P., KREMER M. [2008a], « Peer effects, pupil teacher ratios, and
teacher incentives : evidence from a randomized evaluation in Kenya », Mi-
meogr., Department of Economics, MIT.

DUFLO E., DUPAS P., KREMER M., SINEI S. [2006], « Education and HIV/AIDS pre-
vention : evidence from a randomized evaluation in western Kenya », World Bank
Policy Research Working Papers 402, World Bank.
DUFLO E., HANNA R., RYAN S. [2007], « Monitoring works : getting teachers to
come to school », BREAD Working Papers 103 (see also NBER Working Papers
11880).
DUFLO E., KREMER M. [2004], « Use of randomization in the evaluation of develo-
pment effectiveness », in : O. Feinstein, G.K. Ingram and G.K. Pitman (Eds.), Eva-
luating Development Effectiveness, World Bank Series on Evaluation and Deve-
lopment, Volume 7, New Brunswick, NJ : Transactions, p. 205-232.
DUFLO E., KREMER M., GLENNERSTER R. [2008b], « Using randomization in deve-
lopment economics research : a toolkit », in : T.P. Schultz and J.A. Strauss (Eds.),
Handbook of Development Economics, Volume 4, Chapter 15, Amsterdam : Else-
vier, p. 3895-3962.
DUFLO E., KREMER M., ROBINSON J. [2008c], « How high are rates of return to
fertilizer ? Evidence from field experiments in Kenya », American Economic Re-
view, 98(2), p. 482-488.
DUFLO E., KREMER M., ROBINSON J. [2008d], « Why are farmers not using fertili-
zer ? Procrastination and learning in technology adoption », Mimeogr., Depart-
ment of Economics, MIT.
DUPAS P. [2007], « Relative risks and the market for sex : teenage pregnancy, HIV,
and partner selection in Kenya », Mimeogr., University of California, Los Angeles.
FISZBEIN A., SCHADY N. (EDS.) [2009], Conditional Cash Transfers : Reducing Pre-
sent and Future Poverty, Washington, DC : World Bank.
GINE X., KARLAN D., ZINMAN J. [2008], « Put your money where your butt is : a
commitment savings account for smoking cessation », Mimeogr., Department of
Economics, Yale University.
GLEWWE P., ILIAS N., KREMER M. [2003], « Teacher incentives », Working paper,
Department of Economics, Harvard University.
GLEWWE P., KREMER M., MOULIN S. [2009], « Many children left behind ? Text-
books and test scores in Kenya », American Economic Journal : Applied Econo-
mics, 1(1), p. 112-135.
GLEWWE P., KREMER M., MOULIN S., ZITZEWITZ E. [2004], « Retrospective vs.
prospective analyses of school inputs : the case of flip charts in Kenya », Journal
of Development Economics, 74(1), p. 251-268.
HECKMAN J. J. [1992]. « Randomization and social policy evaluation », in : C
Manski, I Garfinkel (Eds.), Evaluating Welfare and Training Programs, Cambridge,
MA : Harvard University Press, p. 201-230.
HECKMAN J. J., ICHIMURA H., SMITH J., TODD P. [1998], « Characterizing selection
bias using experimental data », Econometrica, 66(5), p. 1017-1098.
HECKMAN J. J., ICHIMURA H., TODD P. [1997], « Matching as an econometric eva-
luation estimator : evidence from evaluating a job training program », Review of
Economic Studies, 64(4), p. 605-654.
HECKMAN J., LEAMERS E. (EDS.) [2008]. Handbook of Econometrics, Volume 6B,
Amsterdam : Elsevier, 1054 p.
HECKMAN J. J., LOCHNER L., TABER C. [1999], « Human capital formation and
general equilibrium treatment effects : a study of tax and tuition policy », Fiscal
Studies, 20(1), p. 25-40.

HECKMAN J. J., SMITH J., CLEMENTS N. [1997], « Making the most out of pro-
gramme evaluations and social experiments : Accounting for heterogeneity in
programme impacts », Review of Economic Studies, 64(4), p. 487-535.
HECKMAN J. J., SCHMIERER D., URZUA S. [2010], « Testing the correlated random
coefficient model », forthcoming in Journal of Econometrics.
HECKMAN J. J., URZUA S., VYTLACIL E. J. [2006], « Understanding instrumental
variables in models with essential heterogeneity », Review of Economics and
Statistics, 88(3), p. 389-432.
HECKMAN J. J., VYTLACIL E. J. [2008a], « Econometrics evaluation of social pro-
gram part I : using the marginal treatment effect to organize alternative economic
estimators to evaluate social programs and to forecast their effect in new envi-
ronment ». See Heckman and Leamers 2008, p. 4779-4874.
HECKMAN J. J., VYTLACIL E. J. [2008b], « Econometrics evaluation of social pro-
gram part II : using the marginal treatment effect to organize alternative econo-
mic estimators to evaluate social programs and to forecast their effect in new
environment ». See Heckman and Leamers 2008, p. 4875-5144.
HIRANO K., PORTER J. [2005], « Asymptotics for statistical decision rules », Econo-
metrica, 71(5), p. 1307-1338.
HSIEH C.-T., URQUIOLA M. [2006], « The effects of generalized school choice on
achievement and stratification : evidence from Chile’s voucher program », Jour-
nal of Public Economics, 90(8-9), p. 1477-1503.
IMBENS G., ANGRIST J. [1994], « Identification and estimation of local average
treatment effects », Econometrica, 61(2), p. 467-476.
IMBENS G., WOOLDRIDGE J.M. [2008], « Recent developments in the econometrics
of program evaluation », Mimeogr., Department of Economics, Harvard Univer-
sity, forthcoming in Journal of Economic Literature.
KARLAN D. [2005], « Using experimental economics to measure social capital and
predict real financial decisions », American Economic Review, 95(5), p. 1688-
1699.
KARLAN D., ZINMAN J. [2005], « Observing unobservables : identifying information
asymmetries with a consumer credit field experiment », Working Paper 94, De-
partment of Economics, Yale University.
KARLAN D., ZINMAN J. [2007], « Expanding credit access : using randomized sup-
ply decisions to estimate the impacts », Mimeogr., Department of Economics,
Yale University.
KARLAN D., ZINMAN J. [2008], « Credit elasticities in less developed countries :
implications for microfinance », American Economic Review, 98(3), p. 1040-1068.
KREMER M., HOLA A. [2008], « Pricing and access : lessons from randomized eva-
luation in education and health », Mimeogr., Department of Economics, Harvard
University.
KREMER M., MIGUEL E. [2007], « The illusion of sustainability », Quarterly Journal
of Economics, 122(3), 1007-1065.
KREMER M., MIGUEL E., THORNTON R. [2007], « Incentives to learn » NBER Wor-
king Papers 10971, forthcoming in Review of Economics and Statistics.
MANSKI C. [2000], « Identification problems and decisions under ambiguity : empi-
rical analysis of treatment response and normative analysis of treatment
choice », Journal of Econometrics, 95(2), p. 415-442.
MANSKI C. [2002], « Treatment choice under ambiguity induced by inferential pro-
blems », Journal of Statistical Planning and Inference, 105(1), p. 67-82.

MANSKI C. [2004], « Statistical treatment rules for heterogeneous populations »,

Econometrica, 72(4), p. 1221-1246.
MCKENZIE D., WOODRUFF C. [2008], « Experimental evidence on returns to capital
and access to finance in Mexico », World Bank Economic Review, 22(3), p. 457-
482.
MIGUEL E., KREMER M. [2004], « Worms : identifying impacts on education and
health in the presence of treatment externalities », Econometrica, 72(1), p. 159-
217.
OLKEN B. [2007], « Monitoring corruption : evidence from a field experiment in
Indonesia », Journal of Political Economy, 115(2), p. 200-249.
RODRIK D. [2008], « The new development economics : we shall experiment, but
how shall we learn ? », Mimeogr., Department of Economics, Harvard University.
RUBIN D. [2006], Matched Sampling for Causal Effects, Cambridge, UK : Cambridge
University Press.
THORNTON R. [2007], « The demand for and impact of HIV testing. Evidence from a
field experiment », American Economic Review, 98(5), p. 1829-1863.
TODD P., WOLPIN K. I. [2006], « Using experimental data to validate a dynamic
behavioral model of child schooling : assessing the impact of a school subsidy
program in Mexico », American Economic Review, 96(5), p. 1384-1417.
World Bank [2008], « De nouveaux modes de gestion pour accroitre les perfor-
mances de l’enseignement primaire malgache », Working Paper, World Bank.

Approche Experimentale en Eco de Developppementt

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Approche Experimentale en Eco de Developppementt

Încărcat de

Drepturi de autor:

Formate disponibile

L’approche expérimentale en économie

Les expériences avec assignation aléatoire (ou « expériences randomisées ») sont un

The experimental approach to development economics

Randomized experiments have become a popular tool in development economics re-

Classification JEL: C9, D8, IO, I1, I2, O1.

REP 119 (5) septembre-octobre 2009

Au cours des dernières années, on a assisté à une véritable explosion des

2. La promesse des expériences

Tout comme les recherches menées par le passé en économie du travail,

participants, et nous ne disposons d’aucune information nous permettant de

supplémentaire/enfant pour le volet Education Primaire du programme PRO-

contrat de courte durée, et un impact positif et significatif de la diminution

REP 119 (5) septembre-octobre 2009

faite quotidiennement au moyen d’un appareil de lecture des empreintes

REP 119 (5) septembre-octobre 2009

afin de mesurer la quantité de matériaux utilisée, pour la comparer aux

REP 119 (5) septembre-octobre 2009

3. Les questions soulevées

3.1. La dépendance à l’environnement

La dépendance à l’environnement est un élément clé de la possibilité de

susceptible de varier systématiquement en fonction des variables de

REP 119 (5) septembre-octobre 2009

REP 119 (5) septembre-octobre 2009

toutes ces méthodes [qui améliorent les chevauchements entre participants

4. En réalité, l’effet Hawthorne d’origine s’est produit durant des « expérimentations »

REP 119 (5) septembre-octobre 2009

5. François Bourguignon et Paul Gertler, à l’époque où ils étaient respectivement Chef

REP 119 (5) septembre-octobre 2009

3.2. Questions de participation

Un taux de participation élevé facilite l’interprétation de l’estimation des

conservaient leur pouvoir discrétionnaire et l’ont utilisé pour rejeter approxi-

3.3. Problèmes spécifiques liés à l’assignation

L’un des problèmes que pose la reconnaissance explicite de l’assignation

3.4. Les effets d’équilibre

expérimentale ne pose aucun problème. Le fait que pour vacciner la totalité

3.5. L’hétérogénéité des effets du traitement

La majorité des évaluations de programmes sociaux se concentre exclu-

REP 119 (5) septembre-octobre 2009

penser de ce programme ? Que ce soit en termes d’effet moyen du traite-

distribution des résultats aux examens dans le groupe traitement présentait

3.6. Relations avec l’estimation structurelle

Initialement, la plupart des articles portant sur l’approche expérimentale

cheurs à identifier les paramètres nécessaires et à collecter les données

3.7. Relations à la théorie

semble de prémices raisonnables. Il est essentiel que d’autres travaux soient

REP 119 (5) septembre-octobre 2009

REP 119 (5) septembre-octobre 2009

REP 119 (5) septembre-octobre 2009

REP 119 (5) septembre-octobre 2009

REP 119 (5) septembre-octobre 2009

MANSKI C. [2004], « Statistical treatment rules for heterogeneous populations »,

REP 119 (5) septembre-octobre 2009

S-ar putea să vă placă și