Sunteți pe pagina 1din 22

Chapitre 17

Thorie des jeux (1) : concepts fondamentaux

17.1 Introduction
La thorie des jeux est la fois une branche de lconomie et des mathmatiques qui sapplique de trs nombreux problmes sociaux, politiques et conomiques. Des agents conomiques, des joueurs ou des collectivits (pays, armes) prennent des dcisions en considrant le fait que les autres acteurs avec lesquels ils interagissent laborent eux aussi des stratgies. En dautres termes, les agents prennent une dcision qui tient compte du fait que les autres vont y ragir. Ces autres prennent en retour en considration la raction de lagent dans leurs dcisions. Ces relations complexes sappellent des interactions stratgiques. Mme dans un environnement limit un petit nombre dacteurs, 2, 3 ou 4, les interactions stratgiques sont trs complexes et riches denseignements. Dans ce chapitre et le suivant, on conservera les hypothses prcdemment faites : les agents sont informs de faon symtrique, optimisent leur fonction dobjectif et savent galement que les autres sont rationnels, point important sur lequel on reviendra plus loin dans ce chapitre. Les contextes possibles ne se limitent pas lconomie : ils incluent de nombreux autres domaines dont la stratgie militaire (voir lencadr). La thorie des jeux sapplique aussi au contexte politique : paradoxalement, il ny a rien de plus stratgique que la ligne dun parti politique, alors que lon pourrait penser que lidologie et les rfrents historiques devraient sufre expliquer leur positionnement. Lorsquils laborent une plate-forme lectorale nationale ou rgionale, les stratges prennent en compte la faon dont les autres partis vont laborer eux-mmes leur plate-forme, en essayant de capturer des lecteurs plus proches, voire, dans la stratgie dite de triangulation, de diviser le camp adverse sur des sujets divers : aux tats-Unis sur la question de lavortement, en France sur des sujets comme la scurit ou ladhsion de la Turquie lUnion Europenne. Enn, tous les lments de la thorie des jeux se retrouvent videmment dans les jeux tels que les checs, le jeu de go ou des jeux plus complexes avec plusieurs joueurs comme Diplomacy.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

360

Partie 4 Lanalyse des marchs non concurrentiels

LUS Airforce a cr la RAND Corporation en 1945, RAND tant lacronyme de Research and Development. Ce groupe a ds le dpart runi des chercheurs de toutes disciplines an de comprendre les enjeux stratgiques du contexte militaire de lpoque, cest--dire la guerre froide, la thorie des dominos, les conits nuclaires. Ces rexions stratgiques ont rassembl un grand nombre de personnalits scientiques, notamment John Von Neumann, Kenneth Arrow (Nobel 1972), Paul Samuelson (Nobel 1970), Leo Hurwicz (Nobel 2007), Ed Phelps (Nobel 2006). Une des questions cls tait, dans le contexte de la guerre froide de lpoque, de dterminer la meilleure stratgie que les tats-Unis pourraient adopter sans connatre celle du bloc oppos, par exemple, an davoir une politique de dissuasion efcace. Les dveloppements de la thorie des jeux au cours de la priode 1945-1958 ont t tout fait considrables, simplement parce quil y avait une demande sociale immense dont les enjeux taient rien de moins que dviter une escalade nuclaire conduisant la destruction de la plante pour ses applications. Les autres questions concernaient les tactiques de dfense face aux missiles ennemis, les tactiques employer lors des combats ariens entre avions de chasse ou dautres questions tactiques de base comme le positionnement des troupes face un ennemi partiellement invisible. La thorie des jeux peut aussi se retrouver de faon plus inattendue en psychologie. Dans lhistoire dUlysse et les sirnes rinterprte par Jon Elster, on peut trs bien reprsenter le comportement dUlysse comme un jeu stratgique particulier : entre lui-mme aujourdhui et lui-mme lorsquil est sur le bateau ; il y a en effet un conit dintrt vident entre Ulysse sur le quai qui ne veut pas plonger la mer et Ulysse sur le bateau qui narrive pas rsister la tentation des sirnes. Ce conit peut sanalyser dans le cadre de la thorie des jeux. Une des solutions est de restreindre lespace de choix de son opposant : Ulysse sur le quai va essayer de restreindre le pouvoir dUlysse sur le bateau de faon limiter son champ daction. Comme Ulysse aujourdhui est le premier jouer, il a un avantage stratgique trs fort, que lon dcouvrira au chapitre suivant comme tant le leadership au sens de Stackelberg. Ce champ de lconomie, qui tudie la psychologie dans le cadre de la thorie des jeux entre diffrentes parties de lesprit dun individu est parfois appel picoeconomics, lchelon infrieur de celui de la microconomie1 . Enn, dans le contexte conomique, la thorie des jeux sapplique ds quil y a un petit nombre dacteurs, dans le cas de loligopole ou mme du monopole, entre lentreprise en monopole et les consommateurs : le monopole considre la raction optimale des consommateurs et le fait que quand le prix de vente augmente, leur demande pour le bien diminuera. Ctait en fait la premire interaction stratgique vue dans ce cours. Avant cet exemple du monopole, les interactions stratgiques navaient pas t abordes, parce quen

1. Si micro, dans une unit de mesure, signie la millionime partie de lunit, pico signie un millionime de millionime de partie.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

361

concurrence pure, lorsque le nombre dagents est grand, lun deux a peu dinuence sur les autres. Un consommateur lorsquil dcide dacheter ou non une voiture, ne prendra pas en compte le comportement de tous les autres consommateurs. Dans le cas de loligopole, notamment du duopole, se rajoute une srie dinteractions stratgiques : chaque entreprise va tenir compte de ce que font les autres, en plus de la prise en compte des ractions des consommateurs. Le premier avoir tudi ces aspects stratgiques est lconomiste franais Antoine-Augustin Cournot, ds la premire moiti du XIXe sicle : son analyse contient en germe tous les lments de la thorie des jeux dveloppe dans les annes 1950. Ceux-ci seront formaliss dans la dernire partie de ce chapitre, o nous verrons comment les outils dvelopps ici peuvent servir lanalyse de la concurrence. Nous allons dabord tudier in extenso un des jeux les plus clbres de la thorie des jeux, le dilemme du prisonnier. Cette analyse nous permettra dintroduire plusieurs des concepts fondamentaux, celui de jeu de coopration, lquilibre de Nash, le raisonnement par induction rcursive, le Folk Theorem, et de nous interroger une nouvelle fois sur les limites de la rationalit : si la thorie suggre labsence de coopration dans un grand nombre de situations, lexprience montre au contraire quelle merge trs spontanment. Dans le chapitre suivant, nous tudierons dautres jeux et les concepts dquilibre associs, notamment les quilibres en stratgie mixte et les dveloppements en biologie thorique issus de la thorie des jeux.

17.2 Le dilemme du prisonnier


Plusieurs concepts de la thorie des jeux peuvent en effet tre tudis au travers dun seul et mme exemple, le dilemme du prisonnier. La premire version de ce jeu a t prsente par des chercheurs de la Rand en 1950, et a rapidement servi illustrer le processus de course aux armements ou inversement du processus de dsarmement nuclaire1 . Ce jeu sapplique une foule de contextes. La version la plus simple est lhistoire de deux voleurs complices qui ont commis un forfait. Ils sont arrts et la police aimerait obtenir des aveux. Elle est sre que les deux voleurs ont commis le forfait, mais elle na pas assez de preuves pour les condamner lourdement. Au tribunal, la peine serait probablement lgre en labsence daveux. Les voleurs se sont promis, avant dtre arrts, de ne pas se trahir. La police les interroge sparment et essaie dobtenir des aveux de chacun deux en promettant une amnistie celui qui parlera, sil est seul parler. De l surgit le dilemme. Les prisonniers savent quils ne seront pas condamns lourdement sils cooprent effectivement en ne parlant pas la police. Mais ils ont une incitation
1. Certains dont Harold Kuhn, un des acteurs de cette poque, lattribuent Al Tucker de Stanford qui fut entre autres le directeur de thse de John Nash (voir le rcit du symposium Nobel de 1994, rfrence cite dans lencadr sur John Nash), dautres Melvin Dresher et Merill Flood de la Rand (voir notamment Nicolas Eber, Thorie des Jeux, Dunod , ch. 3 sur ce point).
2010 Pearson Education France Principes de microconomie Etienne Wasmer

362

Partie 4 Lanalyse des marchs non concurrentiels

individuelle avouer leur crime et ventuellement tre amnistis. Vont-ils avouer leurs fautes ? videmment, on ne considre pas ici les aspects moraux dune norme de coopration, qui dailleurs consisterait ici nier le forfait et donc ne pas cooprer avec les autorits1 ! On tudiera donc le problme sous langle de la rationalit stricte et on va donc ici essayer de comprendre lintrt rationnel de chacun de ces individus. Ce jeu peut tre dcrit au moyen dune matrice, la matrice du jeu, qui peut tre reprsente dans une table 2x2, o toutes les situations possibles sont prvues. Les stratgies du joueur 1 apparassent dans les ranges et celles du joueur 2 dans les colonnes. Dans chaque cellule, on placera les payoffs des agents, cest--dire leurs gains. Ici par convention, on placera le nombre dannes de prison dans les cellules (!) de la matrice, avec un signe ngatif pour indiquer quil sagit bien dune perte dutilit. Les stratgies sont des actions qui doivent tre choisies dans lensemble des stratgies possibles, en loccurrence lensemble {nier, avouer}.
Joueur 2 Nier Nier Joueur 1 Avouer (1, 1) (0, 5) Avouer (5, 0) (4, 4)

Il y a donc au total 4 possibilits selon que les voleurs nient tous les deux, cooprent tous les deux ou que lun avoue et lautre nie. Si tous les deux nient et donc cooprent entre eux, la peine est minimale, un an de prison. Si un voleur coopre avec son complice en niant mais que lautre fait dfection et avoue, celui qui nie prend alors 5 annes de prison et lauteur des aveux est amnisti. Enn, quand les deux font dfection leur pacte antrieur et avouent tous les deux, on tient compte du fait quils ont avou, mais comme la police na pas eu besoin des aveux de lun ou de lautre individuellement pour les faire condamner, il ny a pas besoin de les rcompenser et les deux copent de 4 annes de prison. Quelle sera la meilleure stratgie du joueur 1 ? Il faut pour cela tudier chaque situation possible, car les deux joueurs ne peuvent pas se coordonner. Supposons que le joueur 2 nie. Pour le joueur 1, nier galement entrane une condamnation une anne de prison, mais sil avoue, il est amnisti. Dans ce cas, le joueur 1 a intrt avouer. Supposons maintenant que le joueur 2 avoue. Pour le joueur 1, nier entrane alors cinq annes de prison, mais sil avoue galement, il nest condamn qu quatre annes demprisonnement. De nouveau, son intrt rationnel sera davouer. Ainsi, quelle que soit la stratgie du joueur 2, la seule raction rationnelle du joueur 1 est davouer. Quand

1. Comme souvent en sciences sociales, la morale naura pas de caractre prdictif universel puisquelle peut prdire alternativement la coopration (entre voleurs) ou la non-coopration (donc le fait davouer la police). A contrario, lanalyse de la rationalit aura une valeur prdictive claire dans ce cas prcis o on va identier un seul choix possible. La prdiction de la rationalit ne sera dailleurs pas toujours raliste, comme on le verra plus loin. En revanche, elle prsente lavantage de ne pas tre une explication ad hoc, contrairement une explication du comportement qui expliquerait la coopration ou la non-coopration en fonction du contexte, donc en introduisant une explication non falsiable comme dans tel quartier, les dealers ne parlent pas avec la police , qui naurait dautre mrite que dtre juste, mais videmment ad hoc.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

363

une stratgie est prfrable aux autres quelle que soit la stratgie de lopposant, on parle de stratgie dominante. En loccurrence, par simple raisonnement rationnel, on peut liminer toute la premire ligne sachant que la rponse du joueur 1 sera sur la seconde ligne du tableau. Pour le joueur 2, la rexion sera identique, car le jeu est symtrique. Peu importe ce que fait le joueur 1, il aura lui aussi intrt avouer. Donc, comme avouer sera une stratgie dominante, on peut liminer dofce la premire colonne. Il ne reste donc par limination quune seule possibilit, qui est la case infrieure droite : les deux feront dfection de faon non cooprative. Qui plus est, cette solution est ce que lon appelle un quilibre de Nash, dni plus prcisment la section suivante. Il est noter que tous les jeux nont pas ncessairement une stratgie dominante, comme on le verra plus loin.

17.3 Les concepts fondamentaux de la thorie des jeux


Lquilibre de Nash
Dans un jeu deux joueurs, un quilibre de Nash est une situation dans laquelle chaque joueur choisit sa meilleure rponse compte tenu de la rponse de lautre, et les stratgies retenues de chaque joueur sont mutuellement cohrentes : si 1 a intrt jouer A quand 2 joue B, et que 2 a intrt jouer B lorsque 1 joue A, alors la situation o A et B sont joues est un quilibre de Nash. Une autre faon de dnir un quilibre de Nash est une situation dont personne na intrt dvier individuellement, sachant la stratgie de lautre. Ne pas dvier individuellement veut dire que les individus font un choix optimal qui maximise leur utilit compte tenu de la stratgie de lautre. Lautre fait le mme raisonnement compte tenu de la stratgie du premier joueur. Ce concept dquilibre de Nash est assez naturel et a trois proprits quil convient de discuter :

la rationalit : il repose sur loptimisation et la poursuite de lintrt individuel, pour ne pas dire lgosme, des joueurs; la spontanit : la convergence vers lquilibre se fait en gnral sans besoin dintervention extrieure; la stabilit : si on y est, on y reste, puisque par dnition les deux joueurs ne souhaitent pas dvier de cet quilibre.

Ces trois proprits nont pas t ici soulignes par hasard ; ce sont en ralit trois similitudes trs fortes avec la main invisible dAdam Smith. Lquilibre de march en situation de concurrence pure et parfaite est galement le fruit de la rationalit et de la poursuite de lintrt individuel ; il est spontan ; il est en gnral stable. En
2010 Pearson Education France Principes de microconomie Etienne Wasmer

364

Partie 4 Lanalyse des marchs non concurrentiels

revanche, lquilibre de Nash comporte deux diffrences essentielles avec lquilibre de march :

Contrairement la situation gnrique du march en concurrence pure et parfaite en prsence de prfrences convexes o lquilibre de march est unique, il y a frquemment plusieurs quilibres de Nash (voir le chapitre suivant pour de tels exemples) ; et surtout, contrairement la situation gnrique du march en concurrence pure et parfaite en prsence de prfrences convexes o lquilibre de march est unique et optimal au sens de Pareto, lquilibre de Nash est frquemment sous-optimal au sens de Pareto, comme on vient de le voir.

Les implications philosophiques de ces deux diffrences avec la main invisible sont importantes. Sur la premire proprit ci-dessus, dans une situation caractrise par le laissez-faire, si on a deux ou plusieurs quilibres possibles, cela implique dune part que la situation atteinte dpend de lhistoire et de la coordination des agents sur un des quilibres : le rle des attentes des agents par rapport lquilibre est donc trs important, car ce qui se produit, lquilibre atteint, dpend de ce que les agents croient devoir se produire. Sils croyaient en un autre de ces quilibres possibles, cest cet autre quilibre qui serait atteint. On peut donc concevoir un monde dans lequel on peut affecter le cours des choses en modiant les croyances ou les attentes des agents. Dautre part, les diffrents quilibres peuvent tre compars en terme de bien-tre collectif : certains peuvent tre mieux que dautres pour tous les agents (donc Pareto-dominants), certains peuvent procurer un plus grand surplus collectif. Or, rien ne garantit que le laissez-faire conduise au meilleur quilibre. Ce qui redonne du sens laction collective visant changer les croyances. Enn, sur la seconde proprit, il existe des situations hors quilibre qui sont encore plus dsirables dun point de vue normatif : on a illustr ici linefcacit dun quilibre non coopratif ; quilibre car cest une situation dans laquelle on na pas intrt dvier, non coopratif cause de la dfection des acteurs, et inefcace car on pourrait augmenter le surplus collectif (ou lefcacit agrge) en changeant les stratgies des joueurs. De plus, contrairement lquilibre de march, lquilibre de Nash du dilemme du prisonnier nest pas efcace au sens de Pareto. Si les deux joueurs avaient coopr et tenu leur pacte, il y aurait eu une amlioration au sens de Pareto, de (4, 4) (1, 1). Cest donc une amlioration qui se fait sans dtriorer le bien-tre de quiconque, sauf bien sr de la police qui nentre pas dans le jeu. Lide quil existe des situations raisonnables dans lesquelles les agents se coordonnent au sens de Nash sur des quilibres inefcaces a donc une grande porte philosophique : lquilibre de Nash indique une tension entre la rationalit individuelle qui est lhypothse de travail de la microconomie, et la rationalit collective qui suggre des gains une coordination des agents. Notons cependant quil y a quand mme une certaine continuit entre lquilibre de Nash et lquilibre de march : on peut voir lquilibre de march comme un quilibre de Nash particulier dans lequel les agents sont de taille inniment petites, et donc dont les interactions stratgiques sont ngligeables.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

365

John F. Nash junior, n en 1928, a reu le prix Nobel en 1994 avec Reinhart Selten et John Harsanyi pour la thorie des jeux non coopratifs (la distinction entre la thorie des jeux coopratifs et non coopratifs est dnie dans un encadr du chapitre suivant). Lorsque Nash est arriv comme doctorant en septembre 1948 au dpartement de mathmatiques de Princeton, la lettre de recommandation que lui avait faite R.L. Dufn du Carnegie Institute of Technology tenait en une ligne : This man is a genius. Plus tard, son directeur de thse Al Tucker conera : At times I have thought this recommendation was extravagant, but the longer Ive known Nash the more I am inclined to agree that Dufn was right. Ses travaux principaux ont t publis entre 1950 et 1953 et ont profondment inuenc la littrature conomique au cours des 50 annes suivantes en introduisant deux concepts cls : le premier est le concept dquilibre qui porte son nom et un rsultat dexistence important discut au chapitre suivant ; le second est le calcul et les conditions dexistence dune solution de ngociation entre plusieurs individus qui est connue sous le nom de ngociation la Nash . Suite ces travaux, John Nash a souffert de schizophrnie pendant plusieurs dcennies, a t intern et a quasiment cess dinteragir avec les autres chercheurs, au point que son existence avait t oublie par la plupart de ses successeurs, avant de progressivement et partiellement retrouver ses capacits. Le comit Nobel a envoy un chercheur sudois de haut niveau, lui-mme thoricien des jeux, Jorgen Weibull, auditionner John Nash et vrier quil tait peu prs remis. Comme de tradition, un symposium sur la thorie des jeux a t organis avec tous les grands acteurs de cette priode le 8 dcembre 1994. En dpit de ce qui a t dit plus haut sur Nash et sa rputation, le prix qui lui a t accord a donn lieu une controverse, les mathmaticiens considrant ses rsultats comme relativement triviaux. La profondeur de limpact de ses travaux en conomie ne laisse cependant aucun doute sur son mrite. En particulier, Nash a dvelopp un concept dquilibre qui peut se voir comme une alternative lquilibre issu de la main invisible, avec des prdictions normatives diffrentes. Dans un jeu de coopration comme celui du dilemme du prisonnier, il y a un gain pour les agents cooprer mais lquilibre de Nash ne permet pas datteindre cette coopration. Travaux principaux : Equilibrium Points in N-person Games , Proceedings of the National Academy of Sciences, 1950 ; The Bargaining Problem , Econometrica, avril 1950 ; Two-person Cooperative Games , Econometrica, janvier 1953.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

366

Partie 4 Lanalyse des marchs non concurrentiels

Pour lhistoire, on pourra consulter la biographie trs documente, A Beautiful Mind, par Sylvia Nasar, dont on a tir un lm, les travaux de Robert Leonard, professeur dhistoire conomique lUQAM qui a jou un rle important dans cette biographie, le trs pdagogique ouvrage de Nicolas Eber, Thorie des Jeux, Dunod, et enn les passionnantes minutes du symposium Nobel du 8 dcembre 1994 publies sous le titre The work of John Nash in game theory .

Les jeux rpts


Le rsultat de lanalyse thorique prcdente est que la non-coopration entre les deux joueurs est la solution naturelle, du moins dans ce jeu statique. Pourtant, intuitivement, la coopration peut merger plus facilement lors dinteractions rptes plusieurs fois, ce que lon appellera les jeux rpts. Pourquoi le boucher va-t-il nous servir au mme prix un bon morceau de viande alors quil pourrait nous donner un moins bon morceau quil aurait achet moins cher ? Par altruisme, certes, mais surtout parce quil souhaite que nous revenions les jours suivants, ce qui est notre faon de cooprer en tant que consommateur. En dautres termes, va-t-on retrouver lquilibre non coopratif si le jeu se reproduit dune priode sur lautre, alors quil est de lintrt des deux parties de se coordonner pour cooprer ? On peut imaginer en effet que la rptition du jeu introduit un puissant motif de coopration : cooprer pour inciter lautre cooprer au tour suivant, motivation qui nexiste pas dans le jeu statique puisquil ny a pas de tour suivant.

Stratgies en jeux rpts


Dans ce contexte de jeu rpt, on fait une hypothse importante pour lanalyse : les joueurs de ce jeu retiennent le rsultat des tours prcdents. Il peuvent donc choisir une action lors dune des priodes en prenant en compte dune part les rponses possibles de lautre joueur, et dautre part les actions de lautre joueur depuis le dbut du jeu. chaque tour, ils doivent donc dcider de leur meilleure action. Dans ce cadre de jeu rpt, chaque joueur a donc choisir une stratgie dans un ensemble plus complexe que dans un jeu une priode. Une stratgie en jeux rpts consistera en une rgle de dcision applicable chaque priode en fonction de ce qui a t jou prcdemment. Dans le cadre du dilemme du prisonnier, il sagit simplement de cooprer ou de faire dfection en connaissant les actions passes de ladversaire. Il y a diverses stratgies possibles, qui correspondent de faon amusante des traits de caractre trs diffrents. En notant D pour dfection et C pour coopration, on aurait ainsi les diverses stratgies suivantes :

la stratgie All D : toujours faire dfection, quoi quil arrive, mme si lautre a toujours coopr ; la stratgie All C : toujours cooprer, quoi quil arrive, mme si ladversaire fait dfection ;
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

367

la stratgie dite du Tit-for-Tat ou du donnant donnant. Un joueur jouant Tit-for-Tat commence en cooprant. Si ladversaire coopre, il continue de cooprer. Mais si ladversaire fait dfection, le joueur fait dfection au jeu suivant pour le punir. De faon condense, Tit for Tat fait ce qua fait ladversaire au coup prcdent aprs avoir coopr au premier coup ; la stratgie de la reprsaille permanente (permanent retaliation) : le joueur coopre tant que ladversaire coopre, notamment au premier coup. Mais si ladversaire fait dfection, il est puni jusqu la n du jeu. Cest la stratgie de la rancune tenace.

Il existe videmment une multitude dautres stratgies plus complexes. On peut ainsi jouer alatoirement, ou tenter dapprendre si on joue avec un joueur All C, ou au contraire un rancunier. Il semble donc a priori difcile didentier la meilleure face tous les types de joueurs dans un jeu rpt. En effet, la meilleure stratgie dpend de ce que fait ladversaire. Contrairement au dilemme du prisonnier statique un joueur peut avoir intrt cooprer an dobtenir la coopration de lautre. Si le joueur coopre date t , lautre peut bien sr faire dfection. Mais sil coopre aussi, les deux peuvent entrer dans un cercle vertueux o lquilibre de coopration est atteint. Si ladversaire fait dfection malgr tout, alors la meilleure stratgie nest plus de cooprer, mais de faire dfection. Il nest donc pas possible didentier de stratgies qui soient optimales, bien que certaines stratgies soient meilleures que dautres. Un peu comme aux checs, il y a une meilleure stratgie, mais on ne sait pas lidentier. On verra ce point plus formellement au chapitre suivant avec le thorme de Nash.

Les jeux nis


Il existe deux types de jeux rpts. Ceux dont on connat la n avec certitude, et ceux pour lesquels ce nest pas le cas. Cette distinction est fondamentale car les implications de la thorie des jeux seront fondamentalement diffrentes selon le cas dans lequel on se place. Imaginons donc un dilemme du prisonnier rpt un certain nombre de priodes T connues lavance, ce qui est ce que lon appelle un jeu ni : la n du jeu est connue avec certitude par tous les joueurs. Llment important ici est que la date de n du jeu est connue lavance par les deux joueurs. Pour rsoudre ce type de jeu, on applique une mthode de raisonnement trs utile connatre, dite mthode de raisonnement rebours, ou en anglais backward induction. Lide est dabord de trouver le comportement optimal des acteurs du jeu lors de la dernire priode, puis de raisonner en remontant le temps, partir de la dernire priode du jeu. On trouve alors la solution pour T 1, puis T 2, etc. jusqu la premire priode. En dernire priode, sachant que le jeu sarrte, quelle est la meilleure stratgie ? On a vu dans le jeu statique que la meilleure stratgie, du point de vue de la rationalit individuelle, tait de faire dfection. On pourrait imaginer dans un jeu rpt que le motif de coopration resurgisse. Mais la dernire priode du jeu nest, du point de vue des joueurs, quun jeu statique, puisquil ny a pas, par dnition, de tour ultrieur. On en
2010 Pearson Education France Principes de microconomie Etienne Wasmer

368

Partie 4 Lanalyse des marchs non concurrentiels

dduit qu la priode T , la meilleure stratgie de chaque joueur est lquilibre de Nash en stratgie dominante, cest--dire la double dfection (D,D), et cest ce que les joueurs doivent galement penser. Recommenons le raisonnement en priode T 1. ce stade, lintrt de cooprer est dinciter la coopration en dernire priode. Mais on vient juste de montrer que cela ne sera pas le cas, puisque la stratgie (D,D) mergera en dernire priode quoi quil arrive. Donc en T 1, il ny aura aucun avantage cooprer, et on retrouvera de nouveau lquilibre de dfection des deux joueurs (D,D). Ce qui est vrai en T 1 est vrai en T 2 et de proche en proche, on peut remonter jusquen priode 1. Par induction rebours, on vient dtablir qu toutes les tapes, les agents joueront la stratgie de dfection, car ils anticipent tout ce qui va se passer, qui se conrmera rationnellement par la suite. Ceci suppose nanmoins que les agents sont rationnels au point de comprendre ce qui se passera par la suite, et de faire lhypothse que lautre agent a ce mme type de comprhension rationnelle. Ce sont des hypothses trs fortes de rationalit, pousses lextrme : on parle en loccurrence de common knowledge pour caractriser la situation dans laquelle lagent 1 sait que lagent 2 sera rationnel, que lagent 2 sait que lagent 1 sera rationnel, mais au degr suivant, que lagent 1 sait aussi que lagent 2 sait quil sera rationnel, et ainsi de suite, jusqu linni. Cette ide de rationalit tendue, le common knowledge, est intrinsquement lie au concept dquilibre de Nash : les agents seront rationnels sous lhypothse quils savent que les autres le seront aussi, que ceux-ci le sauront et sauront quils le savent1 . Cette hypothse est forte, et donc critiquable, mais dans certains contextes, peut apparatre comme plutt naturelle. Ainsi, aux checs, comme dans la plupart des jeux de socit, on joue son meilleur coup sous lhypothse que ladversaire jouera lui-mme le meilleur. On pourrait srement faire mieux si ladversaire jouait autre chose que son meilleur choix (par exemple ne pas prendre la dame imprudemment approche du roi adverse), mais la sagesse implique en gnral de ne pas trop compter sur lerreur de lautre. ce stade, nous sommes placs devant la conclusion assez pessimiste selon laquelle les stratgies de dfection sont assez robustes, car elles sinstallent mme en jeu rpt o il y aurait pourtant avantage pousser la coopration.

Les jeux innis


Ce rsultat ne tient cependant pas dans le cas des jeux innis, ce qui est un rsultat rconfortant. Il faut dabord dnir les jeux innis. Il y en a deux types ; soit il sagit de situations dans lesquelles le jeu continue jusqu la n des temps (la date T de la dernire priode tend vers linni) ; soit, de faon en ralit quivalente sur le plan de lcriture formelle du jeu, il sagit de situations dans lesquelles le jeu sarrtera de faon imprvue par les agents, alatoirement par exemple. Dans chacun des cas, il est clair que lon ne peut

1. Lconomiste Robert Ysral Aumann, prix Nobel dconomie 2005 avec Thomas Shelling, a formellement dvelopp cette notion de connaissance commune.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

369

plus faire de raisonnement rcursif en partant de la dernire priode : on ne connat pas la n du jeu. Comment va-t-on alors dterminer le raisonnement que vont faire les agents ? Il sagit de quelque chose de beaucoup plus difcile, et pour cause : comme souvent en conomie, une dcision une date t dpend de lanticipation que vont faire les agents aux dates suivantes. Or, en jeu ni, lanticipation tait trs simple : on savait ce qui se passerait toutes les tapes suivantes par raisonnement rebours. En jeu inni, on ne le sait plus ; les agents non plus. En fait, il existe de nombreuses stratgies possibles, et on retrouvera la notion dquilibres multiples discute lors du chapitre sur lquilibre conomique et au dbut de ce chapitre : si un couple de stratgies A,B est anticip par les deux acteurs et constitue un quilibre de Nash, ils trouveront rationnel de jouer cela. Le problme est quici, il ny a pas unicit de A et de B. Un rsultat central de la thorie des jeux, quil faut connatre mais qui ne sera pas dmontr ici en raison de la complexit de la rsolution, est le suivant : si les agents sont sufsamment patients, des stratgies comportant des phases de coopration rciproques sont des quilibres de Nash. On retrouve ici lide de taux descompte voque au chapitre 7 sur les choix intertemporels. Lintuition sera trs simple comprendre : si les agents ont un degr de patience sufsant par rapport aux tapes futures, ils seront prts prendre le risque dune perte aujourdhui (cooprer alors que lautre fait dfection), an de voir la coopration sinstaller lors de la priode suivante : linvestissement paie par rapport au cot initial (le risque pris) si le taux descompte psychologique dni par la grandeur d au chapitre 7 est sufsamment proche de 1, cas dans lequel toutes les priodes sont quivalentes du point de vue de lutilit de lindividu. La situation d = 1 est aussi celle o le degr dimpatience r dni dans ce mme chapitre est de 0 % : on est indiffrent entre 10 euros aujourdhui et 10 euros la priode suivante. Ce rsultat est une version simple dun rsultat plus gnral, si gnral quil en serait presque dcevant si le but tait de prdire ce que les agents rationnels vont jouer : en jeux rpts innis, presque toutes les solutions sont possibles, y compris donc les solutions coopratives quand le taux descompte est proche de 1. Ce rsultat a t dmontr sous des formes diverses par plusieurs personnes, sans quune personne bien identie ne lui soit vraiment associe. On lui a donc donn, par dfaut, le nom de Folk theorem, le thorme de la foule ou du peuple (des chercheurs en sciences sociales et en thorie des jeux).

17.4 Lmergence de la coopration


En dpit de ce dernier rsultat plus optimiste sur la possibilit dmergence de la coopration, celle-ci semble limite en pratique ds lors que les acteurs sont rationnels en jeu ni, ou, en jeu inni, ds lors quils sont impatients.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

370

Partie 4 Lanalyse des marchs non concurrentiels

Les normes sociales et la thorie conomique


Dans quelles conditions la coordination peut-elle pourtant merger ? Une solution pour maintenir la coopration en labsence de motif rationnel au sens conomique est lmergence des normes, comme Kenneth Arrow la brillamment discut1 . Selon Arrow, une norme est un objet qui merge plus ou moins spontanment dans un march quand celui-ci est dfaillant, cest--dire quand la somme des comportements individuels conduit un rsultat particulirement inefcace. Comme on la vu dans un chapitre prcdent (chapitre 15) dans le cas des externalits de pollution, les normes sociales ou environnementales peuvent intervenir pour prvenir ou corriger le manque de coopration : le sentiment de culpabilit de celui qui jette un papier, ou du chef dentreprise qui dgrade lenvironnement en produisant des rejets nocifs, peut partiellement ou compltement prvenir ce comportement si la dsutilit psychologique pesant sur lindividu lorsque son comportement dvie de la norme est plus leve que le surcot, soit en loccurrence dans les deux exemples prcdents le fait de faire un dtour pour trouver la poubelle publique, soit le cot du traitement des rejets. Dans le cas du dilemme du prisonnier, la norme est de cooprer et, si on ne coopre pas, on devrait alors prouver un sentiment de culpabilit. Dans un groupe de travail, quelquun qui ne coopre pas assez avec les autres sera pnalis : la norme sociale est de considrer les individus non coopratifs comme de mauvais citoyens qui se feront rejeter par la communaut. On voit dj quil existe des cas dans lesquels cette norme pourra tre sufsante pour restaurer lefcacit, mais aussi dautres cas dans lesquels ce ne sera pas possible. En particulier, la norme sera gnralement insufsante dans les contextes o les mcanismes de concurrence conomique vont avantager plus fortement les entreprises qui se conformeront le moins la norme, puisque leurs cots de production seront infrieurs aux autres. Une autre difcult thorique avec ce concept de norme est quil existe frquemment des quilibres multiples pour une raison simple et gnrale : si trs peu de personnes jettent leurs papiers dans la nature, le fait de le faire est dautant plus choquant du point de vue de la norme, ce qui assure la stabilit de cet quilibre. Mais si beaucoup de personnes le font, alors la norme aura un impact faible et sera donc insufsante, conduisant de faon stable un quilibre avec beaucoup de comportements non coopratifs. Enn, on ne sait pas expliquer trs clairement quand les normes mergent ou non. Ce sont des objets assez complexes, qui voluent au cours du temps. Il est certes facile dexpliquer une situation de coopration par une norme, mais lexplication est alors ad hoc au sens o elle nexplique que cette situation et na pas de caractre descriptif ou prdictif dans dautres situations. Cest un reproche frquemment adress par les conomistes aux sociologues, et qui est partiellement justi. Ces derniers, en retour, leur reprochent en revanche de dlaisser une explication qui est pourtant, bien quad hoc, souvent la plus juste, au prot

1. Arrow J. Kenneth, Social Choice and Individual Values, Wiley, New York, 1951. La vision des normes comme rpondant une inefcacit ou une imperfection de march est appele la vision consquentialiste des normes, voir notamment P.J. Hammond, Consequentialist Social Norms and Public Decision Making , Essays in Honor of Kenneth Arrow, W.P. Heller, M. Ross and D. Starrett, Cambridge, CUP, 1986, p. 3-27.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

371

dexplications plus gnrales mais fausses ou forces. Le point de vue de lconomiste moderne, qui est aussi le parti pris de ce manuel, est alors dviter une controverse inutile et davoir pour slogan que : tout ceci est une question empirique, imaginons des tests permettant de trancher, de dcider entre les diverses hypothses en prsence . La dcidabilit est rassurante intellectuellement1 . Les normes peuvent aussi tre imposes : ce qui ntait pas rationnel individuellement au dpart le devient alors. Un exemple vident dapplication de la thorie du dilemme du prisonnier est le dsarmement nuclaire des annes 1980 entre lURSS et les tats-Unis ; dsarmer seul est absurde puisque cela donne un avantage considrable lautre partie. Mais surarmer cote cher chacune des deux socits. Le dsarmement simultan est prfrable, mais inapplicable spontanment. Lors des ngociations sur le dsarmement stratgique (Strategic Arms Limitation Talks, SALT, en 1972 et 1979 puis Strategic Arms Reduction Treaty START I en 1991, START II en 1993), un aspect crucial portait sur la ncessit des contrles rciproques pour sassurer que chaque pays appliquait bien son programme de dsarmement, an de permettre de vrier si le comportement de coopration tait respect en pratique. De faon connexe, linterdiction stricte de la prolifration nuclaire est base sur lide quil sera plus difcile de faire merger la coopration lorsque le nombre de joueurs passe de 2 un nombre N plus grand que 2 : ce fait est aussi une des prdictions (non dmontre ici) de la thorie des jeux. Autre exemple choisi pour son aspect provocant : lmergence de comportements maeux est une solution efcace au dilemme du prisonnier. Il est peut-tre rationnel de chercher tre libr pour rcompense de sa dfection, mais si lesprance de vie du dlateur est de quelques semaines aprs sa libration, il rchira bien avant de dnoncer son collgue. La maa transforme donc le zro anne de prison en un moins linni qui consiste nir dans le bton. La loi du silence change donc la structure du jeu et permet datteindre lquilibre de coopration, mais on nest plus dans un dilemme du prisonnier.

Les expriences dAxelrod


ce stade, nous sommes donc placs devant une question non tranche, qui est celle des conditions dans lesquelles la coopration peut merger. Intrigu par labsence de rsultat prdictif clair du Folk theorem, un chercheur en sciences politiques de luniversit du Michigan, Robert Axelrod, a imagin dans les annes 70 une srie dexpriences qui ont eu un retentissement considrable. Robert Axelrod a lanc un premier tournoi aux chercheurs de diffrentes disciplines, politologues, conomistes, sociologues, mathmaticiens. Lide tait que chaque participant rdige un petit programme dans un langage informatique simple ( lpoque, basic ou fortran) qui reprsente sa stratgie prfre dans un tournoi reprsentant un dilemme
1. Quand bien mme le logicien Kurt Gdel nous a appris quelle ntait pas si frquente, y compris en mathmatiques o les propositions indcidables sont inniment plus frquentes que les propositions dcidables. Mais chercher dcider plutt que dy renoncer demble est une mthode de travail fconde dans les sciences sociales quantitatives.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

372

Partie 4 Lanalyse des marchs non concurrentiels

du prisonnier rpt pendant 200 parties. Chaque programme serait oppos tour de rle tous les autres programmes, y compris lui-mme, et un programme jouant alatoirement la stratgie C ou la stratgie D. La prsence de ce programme fou , au sens de parfaitement non rationnel, permettait dajouter une dose dirrationalit et donc dviter que tous les participants se coordonnent spontanment sur lquilibre prdit par la thorie des jeux, savoir (DD) sur les deux cents priodes du jeu, et rendait galement plus complique la tche de programmes qui tentaient de deviner la stratgie de leur adversaire. Comment en effet distinguer le programme alatoire dun programme complexe jouant alternativement les stratgies C et D pour deviner quel type de joueur il a lui-mme affaire ? Le gagnant de ce jeu serait celui ayant cumul le plus de points au total, points distribus selon la matrice des payoffs suivante :
Joueur 2 Nier (C) Nier (C) Joueur 1 Avouer (D) (3, 3) (0, 5) Avouer (D) (5, 0) (1, 1)

On peut vrier que la stratgie (D,D) est bien optimale sur une priode, et donc par induction rebours, sur toutes les priodes. En 200 manches, si les deux programmes cooprent tout le temps, le score possible, qui sera celui de rfrence, est de 200 3 = 600 pour chacun des joueurs. Ce nest pas le score maximal, qui est de 200 5 = 1 000, sil joue toujours dfection et que son adversaire joue toujours coopration : il est certes improbable de faire face ce type de situation o un saint coopre toujours face un adversaire aussi odieux , mais cela peut thoriquement arriver. Pour ce premier tournoi il y en a eu un second , 15 programmes se sont affronts. Leur longueur variait entre 4 lignes de codes et 77. Les programmes plus longs tentaient de jouer de faon intelligente pour dabord tenter de comprendre la stratgie de ladversaire. Une srie de lignes contribuait tester le programme adverse pour savoir sil faisait dfection suite une dfection, sil se vengeait sur plusieurs priodes, ou sil tait au contraire trs coopratif ; dans ce cas, lide tait de faire dfection et de marquer quelques points. Les rsultats de ce tournoi peuvent se rsumer ainsi : Le programme RANDOM (dune longueur de 5 lignes) a ralis le plus bas score avec 276, comparer avec le score de rfrence de 600 et a donc ni 15e . tre fou ne payait pas dans ce tournoi. Ce programme a certes marqu quelques points de temps en temps, mais globalement le score est assez proche de 1 par priode, donc du payoff de la case (D,D). Les programmes sophistiqus ne sont pas forcment ceux qui ont fait les meilleurs scores. Certains russissaient certes correctement, mais le programme le plus sophistiqu (77 lignes) a termin 14e sur 15.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

373

Le programme qui sortit nalement vainqueur a t paradoxalement le plus simple, celui qui avait la plus faible longueur, 4 lignes seulement. En moyenne, le score a t de 504 par manche, ce qui est assez proche du score de rfrence de 600. Lhonntet oblige reconnatre que ce programme ntait pas le fruit du travail dun conomiste, mais de celui dun chercheur en psychologie et en biologie mathmatique, Anatol Rapoport, de luniversit de Toronto. Ce programme tait le simple Tit-for-Tat. Cooprer ds le premier tour, puis jouer ce que ladversaire vient de jouer au tour prcdent, ce qui scrit trs simplement en langage cod. Tit-for-Tat commence en cooprant, punit si ladversaire a fait dfection, mais peut pardonner si ladversaire se montre de nouveau coopratif. Le deuxime meilleur programme (40 lignes) a ralis un score assez proche, de 500 points.

Axelrod et Rapoport Robert Axelrod, de luniversit du Michigan, dont la page personnelle http://wwwpersonal.umich.edu/~axe/ contient une partie de la description des expriences, est un politiste n en 1943. Ses travaux sur la coopration ont t cits de trs nombreuses reprises et il a reu le trs prestigieux prix MacArthur en 1987. Ce prix permet de nancer pendant 5 ans les recherches dun tout petit nombre de chercheurs de renom sils sont rsidents amricains. Anatol Rapoport (1911-2007), de luniversit de Toronto, est titulaire dun PhD de mathmatiques de luniversit de Chicago. Il a appliqu les mathmatiques la psychologie et la biologie. En 1980, il a gagn le tournoi organis par Axelrod avec la stratgie la plus simple ; Tit-for-Tat ou donnant-donnant. Les travaux dAxelrod ont t diffuss dans la communaut scientique par un article dans Nature en 1981 puis dans un ouvrage publi en 1984, The evolution of cooperation dans lequel Robert Axelrod a dcrit prcisment le droulement de ses expriences. Dans cet ouvrage, Axelrod cherche comprendre ce qui dtermine les stratgies gagnantes. Il a tir une srie de conclusions fort instructives. Premirement, la discipline du programmeur navait pas de lien avec le score. Aussi incroyable que cela puisse paratre ce stade de louvrage, les conomistes ne sont ni plus ni moins dous que les autres pour gagner, pas plus que les informaticiens ou les politistes ! Deuximement, la complexit du programme navait pas non plus de lien avec le rsultat. Troisimement, en revanche, une proprit des programmes gagnants semblait jouer un rle important : cette qualit des programmes gagnants est appele nice . Elle consiste ne jamais tre le premier faire dfection. On peut facilement comprendre cela : deux programmes nice qui se rencontrent sont certains de toujours cooprer, et donc ralisent chacun un score de 600 points. Sur les quinze programmes, 6 avaient cette proprit de niceness et ils se sont placs parmi les 7 premiers du classement ! Chacun des programmes ayant cette proprit a donc
2010 Pearson Education France Principes de microconomie Etienne Wasmer

374

Partie 4 Lanalyse des marchs non concurrentiels

obtenu les 600 points 6 fois au moins (contre les cinq autres et contre lui-mme)1 Quatrimement, il existait un programme nice particulier, Permanent retaliation, dcrit la section prcdente : ce programme commence par cooprer comme les autres nice, mais la premire dfection, il fera dfection de faon permanente. Cest un programme la fois nice et trs rancunier : de fait, son score na pas t si bon et il a termin 7e sur 15, dernier des nice donc, mais nanmoins devant tous les programmes non nice sauf 1. Ce score relativement faible par rapport aux autres programmes nice sexplique par le fait quil a chou maintenir la coopration face des programmes sophistiqus qui tentaient dapprendre en faisant parfois dfection. Ceux-l avaient dailleurs tort de le faire face un programme aussi rancunier ! Quel est donc le quatrime enseignement ? Simplement que le pardon peut payer. Tit-for-Tat pardonne trs frquemment, puisque cela lui prend seulement une priode pour effacer laffront. La cinquime leon est que la punition peut aussi payer : tre toujours coopratif quand les autres font toujours dfection nest pas payant. Larticle de Nature de 1981 a eu un grand retentissement et se trouve tre lun des plus cits de toutes les sciences sociales. Ce programme communiquait lensemble du protocole et des programmes au monde scientique. Robert Axelrod ne sest pas arrt l : il a ensuite organis un second tournoi qui a runi 62 participants qui ont recommenc le test, avec lide de battre Tit-for-Tat. Et, dans ce deuxime tournoi bien plus difcile, Rapoport a soumis le mme programme Tit-for-Tat et. . . ce programme a de nouveau gagn ! Que peut-on en dduire ? Axelrod donne plusieurs conseils ses lecteurs la n de son livre : 1. Ne soyez pas trop envieux, ne cherchez pas faire plus que votre adversaire, mais contentez-vous dun honnte 3,3. En lespce, le plus est lennemi du bien ! En essayant davoir plus, le jeu entre rapidement dans un cycle de mance qui le conduit vers une situation de non-coopration. Il ne faut pas essayer de prendre lautre, mais essayer de btir la coopration. 2. Ne soyez pas le premier faire dfection, commencez par essayer de cooprer. 3. Mais nhsitez pas punir sil le faut. Rendez la pareille. 4. Enn, le trs pertinent Ne soyez pas trop intelligent ! 2 . Les programmes qui tentaient le plus de se comporter de faon stratgique pour essayer dobtenir les cinq points nont pas fait particulirement mieux que les programmes simples.
1. Un conomiste pourrait se demander pourquoi certain de ces programmes nont pas ajout une dernire ligne de code indiquant quil fallait faire D la dernire priode. Cette stratgie aurait en effet fait progresser le score de 600 602 puisque le dernier score aurait alors t de 5 au lieu de 3, perdant ainsi la proprit de niceness. Cette remarque, que lauteur doit Nicolas Lepage-Saucier, est juste. Mais si deux programmes se rencontrant jouaient cette stratgie, en revanche, le dernier score serait de 1 et le score total de 598. Le fait dajouter ou non cette dernire ligne est un pari sur le caractre coopratif des autres. 2. Conseil facile suivre, que lauteur de ce manuel tente dutiliser tous les jours et qui explique au passage pourquoi les conomistes et les traders ne font pas toujours systmatiquement mieux que les autres ! trop rationaliser on peut commettre des erreurs dapprciation.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

375

De faon presciente, Axelrod anticipait avec les points 2 et surtout 3 lun des grands enseignements de lconomie du comportement, une branche de recherche dont le dveloppement actuel est spectaculaire, et qui soppose en grande partie aux postulats noclassiques. En loccurrence, les gens ont tendance agir de faon similaire ce quils ont eux-mmes vcu. Les bourreaux ont souvent t victimes ! Si on a coopr avec quelquun, cette personne aura envie de cooprer. Si on la trompe, elle aura tendance faire dfection galement. En loccurrence, la rationalit troite de la stratgie des jeux est mise en dfaut par ce trait de comportement : la coopration pouvait merger de faon spontane sans que cela ne soit ncessairement rationnel. Ex post, la coopration tait ce quil y avait defcace, mais ce nest pas ce qui tait attendu et ce ntait pas le rsultat dune rationalisation pousse des individus. On peut enn faire une dernire observation sur un rsultat fort intriguant, qui nest pourtant que discrtement abord dans louvrage de 1984 dAxelrod, et quil convient de souligner ici : Axelrod a par la suite rejou son tournoi avec diverses variantes, dont le fait de reprendre les mmes participants et dy ajouter un nouveau programme. Il a notamment introduit une stratgie alternative appele Tit-for-2-Tat. Cette stratgie est une variante de la loi du talion incarne par Tit-for-Tat, plus christique : au lieu de punir immdiatement, Tit-for-2-Tat coopre dabord une seconde fois, il tend la joue gauche linstar de lenseignement des vangiles. Il savre que cette stratgie permet de ne pas rompre le cycle de coopration face une erreur toujours possible de lautre, ou face un adversaire coopratif mais qui tente de tester un peu son adversaire. Tit-for-2-Tat aurait en fait battu Tit-for-Tat au premier tournoi ! Mais toujours selon Axelrod, cette stratgie aurait en revanche fait un score moyen lors du 2e tournoi. Cette dernire remarque permet de souligner un point important sur lequel on reviendra au chapitre suivant : il est difcile de trouver un programme qui gagne dans toutes les populations de programmes possibles. Comment voluer dans un monde o les populations de stratgies varient ? Une piste de rexion consiste rechercher des stratgies gagnantes par slection naturelle, en donnant un avantage reproductif aux programmes faisant mieux que les autres. Mais il faut aussi que ces programmes puissent eux-mmes sadapter de temps en temps lvolution de la population de comptiteurs , car ceux-ci sont mieux slectionns au cours du temps et donc plus difciles battre. On a ici les prmices de la thorie des jeux volutionniste, qui a ralis la synthse formidable entre les sciences dures comme la biologie et les sciences sociales.

17.5 Conclusion
Nous disposons maintenant dun grand nombre de concepts thoriques permettant dapprhender les interactions stratgiques. Ce chapitre a t consacr ltude du concept central dquilibre de Nash, et a tent de montrer son importance en le positionnant par rapport lquilibre concurrentiel dcentralis. Nous avons notamment montr les inefcacits dune conomie rgie par des quilibres de Nash non coopratifs, et insist
2010 Pearson Education France Principes de microconomie Etienne Wasmer

376

Partie 4 Lanalyse des marchs non concurrentiels

sur le fait que dans un environnement o les interactions stratgiques sont rptes, la coopration semble une stratgie plus dsirable, car pouvant tre gagnante, au moins du point de vue prdictif : les agents qui cooprent, dans les expriences dAxelrod, lemportent sur ceux qui font dfection les premiers. Dans le chapitre 9 consacr la rationalit et la cohrence des choix dans la thorie conomique, nous insistions sur le fait que la thorie conomique nous disait ce que nous devrions faire quand bien mme cela ntait pas ce que faisaient les agents conomiques. Ici nous atteignons une conclusion exactement oppose : mieux vaut ne pas suivre aveuglment les prdictions de la thorie des jeux qui indique dans un jeux ni de ne pas cooprer par induction rcursive.

2010 Pearson Education France Principes de microconomie Etienne Wasmer

Activits

Questions de cours
Q1 Pourquoi faut-il tre nice ? Q2 Dans le dilemme du prisonnier T priodes, par quel raisonnement peut-on dduire quil vaut mieux ne pas cooprer ? Q3 Quest-ce que le Folk Theorem et quelles sont ses implications dans le cas du dilemme du prisonnier avec un nombre inni de priodes ? Q4 Que signie common knowledge ? Q5 Dans un jeu deux joueurs, quelles sont les proprits de lquilibre de Nash ? Q6 Dans le dilemme du prisonnier simple (une priode) : a. La meilleure stratgie pour un joueur donn est de ne pas cooprer (avouer le vol la police) uniquement si lautre joueur ne coopre pas non plus, et de cooprer (ne pas avouer) si lautre coopre. b. La meilleure stratgie pour un joueur donn est de ne pas cooprer (avouer le vol la police) dans tous les cas de gure. c. La meilleure stratgie pour un joueur donn est de toujours cooprer (ne jamais avouer le vol la police) dans tous les cas de gure. Q7 Parmi les recommandations suivantes, laquelle NE FAIT PAS PARTIE de la stratgie TIT-for-TAT : a. la rciprocit. b. la jalousie. c. le pardon. Q8 Selon la thorie des jeux, dans un dilemme de prisonnier rpt en horizon ni, la situation de coopration va merger : a. Vrai. b. Faux. Q9 En concurrence imparfaite, lquilibre de Cournot-Nash reprsente une situation dans laquelle : a. la demande des consommateurs est inlastique. b. chaque entreprise choisit la quantit produire en considrant loffre de lautre entreprise comme donne. c. le prix dquilibre est infrieur au prix de concurrence pure et parfaite.

2010 Pearson Education France Principes de microconomie Etienne Wasmer

378

Partie 4 Lanalyse des marchs non concurrentiels

Exercices
E1 On considre le jeu stratgique suivant :
1 A B C 3,3 3,3 4,1 2 1,0 0,0 2,2 3 0,3 3,2 2,0

1) On rappelle quune stratgie strictement dominante est une stratgie qui est prfre toutes les autres quelle que soit la stratgie adopte par lautre joueur. Inversement, une stratgie strictement domine est une stratgie qui nest jamais choisie quelle que soit la stratgie adopte par lautre joueur car une autre stratgie lui est strictement prfre. En procdant par itration, liminez les stratgies strictement domines en les barrant dans la matrice. 2) Que pouvez-vous dire du prol de stratgies restant ? Est-ce un quilibre de Nash ? E2 Stratgies dominantes et quilibre de Nash On considre la matrice des gains suivante :
L T M B a,b 1,1 3,2 R c,2 1,0 0,1

1) Pour quelles valeurs de a , b et c, le prol de stratgies (T , L ) est-il un quilibre en stratgies dominantes ? 2) Pour quelles valeurs de a , b et c, le prol de stratgies (T , L ) est-il un quilibre de Nash en stratgies pures ? E3 Jeu de lUltimatum On suppose que deux joueurs jouent le jeu dit Jeu de lUltimatum. Dans ce jeu squentiel, le joueur 1 reoit une somme dargent S et doit proposer un partage de cette somme (x ,1 x ) entre lui-mme et le joueur 2. Si le partenaire accepte le deal, les deux ngociateurs remportent les sommes respectives ; si le partenaire rejette loffre, la somme dargent S est perdue pour les deux joueurs. 1) On suppose que la fonction dutilit du joueur i {1,2} est de la forme u i (xi ,x j ) = xi . Que pouvez-vous dire des prfrences des joueurs ? En raisonnant rebours, dterminez la stratgie optimale du joueur 1. 2) Dans la ralit on observe rarement lquilibre de Nash de la premire question. En effet, en faisant jouer ce jeu des employs dun centre de distribution aux tats-Unis, Carpenter et al. (2005) trouvent pour S = 100 $ que les employs dans le rle du joueur 1 proposent en moyenne 45 % de la somme au joueur 2 qui rejette loffre en moyenne dans 7 % des cas.
2010 Pearson Education France Principes de microconomie Etienne Wasmer

Chapitre 17 Thorie des jeux (1) : concepts fondamentaux

379

Donnez plusieurs explications pour le comportement du joueur 1. Comment modieriez-vous la fonction dutilit des joueurs pour tenir compte des rsultats observs ? E4 Multiplicit dquilibres, absence dquilibre et jeu symtrique Un jeu stratgique deux joueurs est dit symtrique si les deux joueurs ont le mme ensemble de stratgies et si les prfrences des deux joueurs reprsentes par u 1 et u 2 sont telles que u 1 (s1 ,s2 ) = u 2 (s2 ,s1 ) pour tout prol de stratgies (s1 ,s2 ). 1) Dans chacun des jeux suivants, dites sil est symtrique. a. Matching Pennies :
Pile Pile Face 1,1 1,1 Face 1,1 1,1

b. The Stag Hunt :


Stag Stag Hare 2,2 1,0 Hare 0,1 1,1

c. Jeu de coordination :
pas deffort pas deffort effort 0,0 e,0 effort 0,e 1e,1e

2) Donnez le nombre dquilibres de Nash. Sont-ils Pareto-optimaux ? E5 Le Jeu du Concours de Beaut Dans le Jeu du Concours de Beaut, les participants doivent choisir un nombre entre 0 et 100 inclus ; la personne qui choisit la valeur la plus proche des 2 3 de la moyenne des nombres cits par lensemble des participants gagne le jeu. On suppose que les participants sont parfaitement rationnels et que la rationalit de chacun des joueurs est connaissance commune. Dterminez lquilibre de Nash de ce jeu : quelle est la stratgie optimale dun participant ? E6 quilibre de Nash et Jeu rpt (exercice plus difcile) On cherche illustrer le Folk Theorem en montrant que de nombreux prols de stratgies dont des stratgies coopratives sont susceptibles dmerger comme quilibre de Nash dans un jeu rpt o les joueurs jouent un nombre inni (ou indtermin) de fois le mme jeu. Dans cet exercice, on considre que les joueurs jouent de manire rcursive un Dilemme du Prisonnier dcrit par la matrice de paiements suivante :
C C D a,a b,0 D 0,b 1,1

2010 Pearson Education France Principes de microconomie Etienne Wasmer

380

Partie 4 Lanalyse des marchs non concurrentiels

1) Quel est le message principal dlivr par le Folk Theorem ? 2) Quelles conditions doivent satisfaire a et b pour que la matrice des payoffs prcdente corresponde bien aux caractristiques dun Dilemme du Prisonnier ? 3) On suppose dabord que les joueurs jouent le Dilemme du Prisonnier T fois o le nombre T est parfaitement connu des deux joueurs. Quelles sont les caractristiques dun quilibre dans ce jeu rpt ? 4) On considre maintenant que la date T est imparfaitement connue des deux t t joueurs de sorte quils ignorent quand le jeu doit se terminer. On note a t = (a1 ,a2 ) les actions choisies par les joueurs 1 et 2 la priode t du jeu. Par exemple, si a t = ( D , D ), les deux joueurs choisissent de ne pas cooprer la date t . On suppose que le joueur 1 adopte la stratgie suivante : 1 t , . . . ,a2 ) = (C , . . . ,C ) et Pour toute priode t , s1 (a 1 , . . . ,a t ) = C si (a2 1 t s1 (a , . . . ,a ) = D sinon. Le joueur 2 adopte la mme stratgie : 1 t , . . . ,a1 ) = (C , . . . ,C ) et s2 (a 1 , . . . ,a t ) = D Pour tout t , s2 (a 1 , . . . ,a t ) = C si (a1 sinon. Interprtez : quelle stratgie dcrite dans le chapitre cette description renvoie-telle ? 5) On suppose que a = 2 et b = 3. crivez le vecteur des payoffs pour chacun des joueurs si le joueur 2 dcide de ne plus cooprer partir de la priode 3, i.e. si 1 T , . . . ,a2 ) = (C ,C , D , . . . , D ) (on se rfrera la description de la stratgie des (a2 joueurs ci-dessus an de trouver la rponse optimale du joueur 1 dans ce cas et dduisez-en les gains associs). 6) On suppose que les deux joueurs dprcient le futur au taux descompte psychologique d 1 de sorte que les gains en priode t reoivent un poids dt . crivez lutilit intertemporelle Ui du joueur i si celui-ci dcide de jouer la coopration chaque priode. En rappelant que la formule de la somme S dune suite gomtrique
d de raison d et de premier terme x est donne par S = x 1 1d , rcrire lutilit intertemporelle Ui de jouer la coopration chaque priode. 7) Jouer toujours la coopration est un quilibre de Nash si aucun des deux joueurs na intrt dvier une priode t quelconque en jouant D . crivez lutilit intertemporelle Ui du joueur i si celui-ci dcide de dvier et de jouer D chaque priode sachant que lautre coopre initialement. 8) On suppose que d = 1 4 . La coopration continue est-elle un quilibre de Nash ? 5 1 Que se passe-t-il si d = 3 4 ? De mme, si a = 2 et d = 4 ? Comment le rsultat dpend-il du degr de patience des joueurs ? Des incitations cooprer ?
T +1

2010 Pearson Education France Principes de microconomie Etienne Wasmer

S-ar putea să vă placă și