Tema 4 - Turnirurile Lui Axelrod

Miroiu, A.
2007, Fundamentele politicii vol 2: Rationalitate si alegere colectiva, Polirom
Motivul pentru acest lucru este posibil este acela că jucătorii sunt conştienţi de posibilitatea ca jocul să se repete, deci
ca ei se se întâlnească şi altă dată. (Desigur, probabilitatea de a ne întâlni cu ceilalţi depinde de mulţi factori. Dacă
locuiesc într-un sat, e mult mai probabil să mă întâlnesc cu cineva decât dacă locuiesc într-o metropolă: nu e de aceea
de miurare că oamenii care locuiesc în sat se salută, spre deosebire de cei dintr-o metropolă.) Cu alte cuvinte, alegerea
pe care o fac astăzi dobândeşte şi un alt sens: ea nu numai că determină rezultatul dilemei jucate acum, ci şi
influenţează alegerile ulterioare ale jucătorilor. Viitorul dobândeşte astfel un rol esenţial în modul în care aleg jucătorii
în prezent.
Consideraţii de tipul menţionat aici au motivat cel puţin două mari tipuri de strategii de cercetare. Primele sunt
experimentale: este oare posibil să testăm empiric astfel de ipoteze privind felul în care oamenii se comportă în situaţii
precum dilema prizonierului? Putem deci construi modele care să fie supuse testului empiric? Strategiile de cercetare
de al doilea tip au produs modele mai complexe (care şi ele, apoi, au fost testate empiric). Anume, ele s-au concentrat
asupra strategiilor complexe de comportament folosite de oameni atunci când se confruntă cu dileme repetate.
Să discutăm mai întâi foarte pe scurt primul tip de strategii de cercetare. Ne putem întreba: dacă punem membrii
unui grup de oameni într-o situaţie de dilemă repetată (fără ca ei să cunoască de câte ori este repetată aceasta), atunci ei
se vor comporta aşa cum prezice teoria? Psihologii obţinut au concluzii deosebit de interesante în acest sens. Bunăoară,
să ne amintim că în clasica dilemă jucătorii erau izolaţi între ei (în două celule), nu puteau comunica. Se schimbă ceva
dacă le permitem să comunice? Experimentele au confirmat intuiţia: dacă jucătorii pot comunica, atunci frecvenţa
cooperării creşte: pe măsură ce se pot auzi, se pot vedea, se pot şi vedea şi auzi (Rapoport, Chammah: 1965). Sau:
depinde felul în care oamenii se comportă de sexul lor, ori de cultura căreia îi aparţin15? Depinde felul în care oamenii
se comportă de modul în care este formulată problema în care se află? Astfel de experimente au fost realizate cu sutele,
iar dilema repetată a prizonierului a devenit în anii 60' şi 70', aşa cum remarca acum două decenii R. Axelrod (1984: p.
28), un fel de E. coli a psihologiei sociale. Vom reveni în capitolele următoare la acest tip de abordări, în principal în
legătură cu chestiunea acţiunii colective, care – după mulţi autori – poate modelată ca o dilemă cu n jucători.
Iată un exemplu clasic (Tversky, Kahneman: 1986): subiecţilor li s-au oferit informaţii statistice cu privire la
tratamentul cancerului de plămâni. Unor subiecţi statisticile le-au fost prezentate în termeni de rate de mortalitate, iar
altora în termeni de rate de supravieţuire. Apoi li s-a cerut să indice tratamentul pe care îl preferă. Informaţia era
următoarea:
1) Supravieţuire: dacă se aplică un tratament chirurgical, atunci din 100 de bolnavi 90 supravieţuiesc perioadei
postoperatorii, 68 sunt în viaţă după un an şi 34 sunt în viaţă după cinci ani; dacă se foloseşte ca tratament
iradierea, atunci toţi trăiesc în timpul tratamentului, 77 sunt în viaţă după primul an şi 22 după cinci ani.
2) Mortalitate: dacă se aplică un tratament chirurgical, atunci din 100 de bolnavi 10 mor în perioadea
postoperatorie, 32 mor până la sfârşitul primului an şi 66 mor într-o perioadă de cinci ani; dacă se foloseşte
ca tratament iradierea, atunci nici unul nu moare în timpul tratamentului, 23 mor până la sfârşitul primului
an şi 78 mor într-o perioadă de cinci ani.
Formularea diferită produce efecte foarte diferite în răspunsurile subiecţilor. În formularea care făcea apel la
supravieţuire doar 18% au favorizat terapia prin radiaţie, în timp ce în formularea care făcea apel la mortalitate
această terapie a fost favorizată de 44% dintre subiecţi. Motivul e că în acest caz apărea evident riscul mic al unui
morţi imediate. Ceea ce e interesant, arată autorii, e că acest efect se constată nu numai în cazul pacienţilor, ci şi în
cel al chirurgilor experimentaţi, ca şi în cel al studenţilor în business, care au cunoştinţe mai avansate de statistică.
Cea de-a doua strategie de cercetare a dilemei repetate (indefinit) a dobândit în anii '80 şi '90 o celebritate
imensă, în special datorită turnirurilor lui Axelrod (1984; 1986; 1997). Să presupunem că avem doi jucători şi că aceştia
se confruntă cu o interacţiune repetată între ei de tipul dilemei prizonierilor, iar ei ştiu acest lucru. Pentru fiecare jucător
se deschid două căi de a juca. Prima e aceea de a lua fiecare instanţă a jocului în parte şi de juca folosind strategia
aplicabilă astfel (am văzut că atunci echilibrul se atinge când fiecare defectează). Cea de-a doua este să îşi elaboreeze o
politică mai generală de a juca. Mai devreme am menţionat un prim exemplu în acest sens: jucătorul va coopera în 51%
din cazuri dacă jucătorul celălalt cooperează mereu, şi va defecta mereu în cazul în care jucătorul celălalt defectează cel
15
De exemplu, McClintock şi McNeel (1966) au comparat felul în care se comportă belgienii şi americanii când sunt puşi în faţa
unor astfel de situaţii. Belgienii s-au dovedit a fi mult mai competitivi, anume tindeau fie să maximizeze diferenţa dintre câştigul
lor şi cel al celorlalţi jucători, fie să aibă mai puţină încredere în cooperarea cu ceilalţi.
puţin o dată. Dar de bună seamă că putem imagina multe astfel de strategii sau politici de a juca în cazul unei dileme
repetate în mod indefinit. Unele pot fi foarte simple, altele mai mult sau mai puţin complicate. Iată câteva exemple:
 Jucătorul cooperează întotdeauna.
 Jucătorul defectează întotdeauna.
 RANDOM: jucătorul alege în mod întâmplător dacă să coopereze sau nu.
 TIT FOR TAT (TFT): în primul joc se cooperează; apoi se alege strategia jucată în jocul anterior de
celălalt jucător: dacă el a cooperat, cooperează; dacă el nu a cooperat, atunci nu cooperează16.
 PAVLOV: în primul joc se cooperează; apoi se rămâne la aceeaşi strategie dacă în jocul anterior a
obţinut unul din primele două rezultate: tentaţia T sau recompensa R, şi schimbă strategia în celelalte
cazuri. Strategia se bazează pe „legea efectului”: câştigi – stai / pierzi – schimbi.
 TIT FOR 2 TATS: în primul joc cooperează; apoi dacă în jocul anterior celălalt jucător a cooperat, el
cooperează; dacă nu a cooperat, atunci cooperează încă o dată; dacă nu a cooperat în ultimele două
jocuri, atunci nu cooperează.
 TESTER: la prima mutare defectează; dacă celălalt jucător defectează la un moment dat, cooperează şi
apoi joacă în continuare TIT FOR TAT; dacă celălalt continuă să coopereze, mai cooperează de două ori
apoi defectează mereu.17
Când face apel la astfel de strategii sau politici de acţiune, jucătorul are în minte nu numai câştigul pe care îl a obţine
când joacă acum dilema, ci şi la câştigul ce poate fi obţinut în urma jucării repetate a dilemei. Să presupunem că eu joc
mereu D, iar tu joci mereu C. Atunci de fiecare dată eu voi obţine tentaţia T, iar tu vei obţine valoarea F. Dar să ţinem
seamă şi de următorul lucru: de cele mai multe ori viitorul nu e atât de important ca prezentul; pentru mine faptul că
obţin acum 1000 de lei e poate mult mai important decât faptul că peste douăzeci de ani voi primi 50 000 de lei.
Câştigul viitor – deci cel obţinut în urma jucării unor dileme viitoare – contează mai puţin decât cel prezent. Pentru a da
seamă de acest lucru, se introduce adesea un factor de actualizare w, care exprimă importanţa sau greutatea pe care o
are următorul joc relativ la cel curent; el reprezintă gradul în care ponderăm valaorea câştigurilor viitoare relativ la cel
curent18. De exemplu să presupunem că w = ½, deci că importanţa fiecărui joc va fi jumătate din cea a jocului anterior.
Atunci câştigul cumulativ pe care îl voi obţine eu (când eu joc întotdeauna D iar tu joci întotdeauna C), dacă dilema se
va juca indefinit de mult, va fi T . (1 + ½ + ¼ + 1/8 ...). Cum se ştie, suma acestui şir este 2. În general, pentru un w
oarecare, valoarea cumulativă a şirului 1 + w + w2 + w3+ ... este 1/(1 - w). De pildă, dacă valoarea următorului joc este
80% din cea a jocului prezent, atunci câştigul total pe care eu îl voi obţine va fi T . 1/(1 – 0,8) = T . 1/ 0,2 = 5T. În
general, dacă valoarea lui w scade apropiindu-se de zero, atunci defectarea e o strategie mai bună – iar strategia indicată
de a juca devine aceea indicată pentru cazul standard în care dilema se joacă o singură dată; dacă însă valoarea lui w
creşte spre unu, câştigul obţinut prin defectare scade şi deci a defecta mereu nu mai apare ca cea mai atractivă politică
de urmat.
Iar atunci apare o întrebare fundamentală: există o cea mai bună politică sau strategie de a juca pentru a obţine
cele mai bune rezultate? Răspunsul nu pare să fie unul pe care îl putem formula în mod a priori: cu alte cuvinte, prin
formularea unei ipoteze şi prin demonstrarea ei teoretică. Mai curând, răspunsul poate proveni prin testarea empirică a
acestor strategii posibile: facem experimente prin care jucătorii să aplice un număr destul de mare de ori diverse
strategii şi apoi vom compara rezultatele obţinute. Dar să ne gândim că numărul strategiilor posibile nu este deloc unul
mic. Apoi, ar trebui ca fiecare astfel de strategie să fie jucată cu oricare alta (inclusiv cu ea însăşi – şi anume de un
număr suficient de mare încât rezultatele să fie statistic relevante. De aceea, e puţin probabil că s-ar putea şi
experimental să se răspundă la întrebarea: care e cea mai bună strategie de a juca? Mai degrabă răspunsul va avea o
altă formă: dată fiind o colecţie de astfel de strategii, care dintre ele sunt cele mai bune? Şi ce caracteristici au cele
care s-au dovedit cele mai bune?
16
Programul este deci unul de tipul „ochi pentru ochi, dinte pentru dinte”.
17
Aceaastă strategie se vede uşor că e mai bună când joacă contra lui TIT FOR 2 TATS: căci cel ce joacă această din urmă
strategie defectează numai după ce celălalt a defectat de două ori; or TESTER nu defectează de două ori la rând, de aceea TIT
FOR 2 TATS cooperează cu TESTER şi deci este „exploatat” de acesta.
18
Din punct de vedere matematic, w ar putea fi interpretat şi altfel, anume ca exprimând probabilitatea ca jocul următor să aibă
loc.
Cât de multe astfel de strategii sau politici există? Să luăm cel mai simplu caz, în care sunt doar doi jucători, fiecare
jucător are la dispoziţie exact două alternatice, iar strategiile pe care le joacă fiecare sunt deterministe. Pentru fiecare
joc (sau: mutare) ştim că sunt posibile patru rezultate. Dacă jocul a avut trei mutări până acum, înseamnă că sunt
posibile 4 4 4 = 64 istorii posibile diferite ale acestora. O strategie ar trebui să determine ce mutare se poate face în
fiecare din cele 64 de cazuri posibile. Strategia ar putea fi atunci specificată ca o funcţie care ataşează fiecăruia din
aceste cazuri o mutare (D sau C). De pildă, dacă tu ai cooperat de trei ori, o strategie îmi spune dacă să colaborez sau
să defectez la a patra mutare. Câte astfel de strategii există? Numărul lor este uriaş: 2 64, ceea ce este aproape 1019.
Dacă ar fi ca un computer să examineze toate aceste strategii, cu o viteză de 100 pe secundă, i-ar trebui cam 5,8
miliarde de ani pentru a încheia o astfel de sarcină.
Este evident deci că oamenii nu pot merge pur şi simplu pe calea testării tuturor strategiilor posibile: ei au nevoie să
găsească alte modalităţi de a alege cum să se comporte.
O observaţie crucială este următoarea: fiecare astfel de strategie sau politică de a acţiona în cazul unei dileme
repetate este un algoritm pe care un jucător îl poate adopta. Să presupunem că eu joc cu altcineva o astfel de dilemă
repetată. Nu l-am văzut niciodată pe adversarul meu, nu am interacţionat direct niciodată. Pentru fiecare joc eu primesc
pe o hârtie care a fost mutarea lui, iar pe această bază eu îmi formez o imagine cu privire la felul în care joacă acesta –
ce politică urmează. Testându-l, văd că el a adoptat strategia pe care am numit-o mai devreme TIT FOR TAT. Ştiind
cum va reacţiona, pentru mine e mai uşor să mă gândesc cum voi proceda la rândul meu. Dar eu am în faţă doar o
bucată de hârtie tipărită. Nu ştiu nimic despe celălalt jucător: cine este; ce pregătire are; ce sex are; din ce cultură
provine etc. În fond, tot ceea ce ştiu este că aplică un algoritm simplu:
 Începe prin a coopera!
 Dacă celălalt jucător a cooperat, în următorul joc cooperează!
 Dacă celălalt jucător a defectat, în următorul joc defectează!
Plecând de aici, R. Axelrod (1984) a făcut observaţia crucială că în fond nu e important că eu joc cu o strategie
împotriva ta, care ai o (altă) strategie, ci că joacă între ele două astfel de strategii sau algoritmi de acţiune. De aceea,
experimentele cu subiecţi umani ar putea fi înlocuite cu un alt tip de experimente – în care joacă între ele programe de
calculator.
Turnirurile lui Axelrod

La începutul anilor '80, R. Axelrod a făcut apel la computerele existente atunci pentru a pune să joace între ele
un număr de astfel de programe. El a realizat două astfel de turniruri, în care programele jucau următoarea dilemă
repetată:
Programul 2: D Programul 2: C
Programul 1: D P=1 F=0
P=1 T=5
Programul 1: C T=5 R=3
F=0 R=3
Axelrod a invitat specialişti în teoria jocurilor să propună programe; au răspuns solicitării lui economişti, psihologi,
matematicieni, fizicieni, biologi, sociologi, specialişti în ştiinţa politică şi în cea a computerelor. Specializările diferite
ale celor care au paricipat a reprezentat un factor important, căci a arătat pe de o parte cât de semnificativă e problema
pentru toate aceste specializări şi, pe de altă parte, că se poate imagina un limbaj comun al problemelor cu care se
confruntă fiecare. Prima dată Axelrod a primit un număr de 14 programe, la care el a mai adăugat încă unul: programul
RANDOM, cel care alege în mod întâmplător dacă la următoarea mutare va coopera sau nu.
Fiecare program a jucat cu fiecare, şi anume – pentru a obţine o estimare mai mare a scorurilor pentru fiecare
pereche – de cinci ori, iar fiecare rundă a constat din 200 de mutări. Apelul la computere a permis depăşirea limitelor
experimentelor cu subiecţi umani. Căci în total s-au jucat doar în acest turnir 120 000 de mutări (sau de dileme), care ar
fi fost foarte greu să fie gestionate în experimentele obişnuite19. Programul care a câştigat turnirul a fost TIT FOR TAT,
propus de A. Rapoport, şi care era cel mai scurt, deci cel mai simplu program. (E semnificativă, accentuează Axelrod,
diferenţa dintre situaţia analizată aici şi cea a programelor de şah: în aceasta din urmă programele mai complexe sunt
mai bune.) În fiecare rundă era posibil ca un program să obţină un scor între 0 puncte şi 1000; câştigătorul a obţinut o
medie de 504 puncte.
19
În plus, se presupune că fiecare program e aplicat fără greşeli; există şi studii în care programul e aplicat, dar cu erori.
Axelrod a formulat o serie de concluzii în legătură cu programele care au obţinut scoruri mai bune şi cu
proprietăţile pe care acestea le aveau în comun. Apoi a solicitat să fie propuse din nou astfel de programe pentru a testa
care este mai bun. Acum, la al doilea turnir, nivelul de sofisticare a fost mai ridicat, iar cei care au răspuns lui Axelrod
au încercat şi mai mult să producă acea colecţie de programe care din punctul lor de vedere, ca specialişti, erau
candidaţii cei mai buni. Au fost primite 62 de programe, la care Axelrod a adăugat din nou pe RANDOM. Din nou
programele au jucat între ele şi, din nou, câştigătorul a fost cel mai simplu dintre ele, anume acelaşi TIT FOR TAT.
Atenţia multor cercetători s-a concentrat de aceea asupra câştigătorului. Dar este foarte important să reţinem că
Axelrod nu s-a raportat numai la acesta, căci el a încercat să vadă ce proprietăţi au programele care au avut rezultatele
cele mai bune şi să tragă de aici concluziile. Căci turnirurile, aşa cum am văzut, au avut ca participanţi un număr foarte
mic de programe (deşi erau cele considerate de specialişti ca fiind candidaţii cei mai buni!) dintre mult mai multele
posibile. De aceea, rezultatele turnirurilor nu spun care e programul optim de urmat, ci care e programul mai bun în
condiţiile în care se confruntă cu anumite alte programe (şi de un anumit număr de ori: căci evident numărul de mutări
ar fi putut fi diferit). Axelrod a argumentat că programele care în turnirurile sale au obţinut cele mai bune rezultate au
următoarele proprietăţi:
 sunt “drăguţe”: încep prin a coopera;
 sunt “reactive”: reacţionează prin necooperare la necooperare;
 sunt “iertătoare”: dacă adversarul reîncepe să coopereze, şi ele cooperează;
 nu sunt “complicate”: adversarul îşi poate da uşor seama de strategia folosită20.
TIT FOR TAT are are în chip exemplar aceste proprietăţi. Spre deosebire de TEST, el începe prin a coopera şi
este, deci, drăguţ. Dar, spre deosebire de programul ALL C, care constă în a coopera întotdeauna, el este reactiv: se
răzbună pe cel care nu cooperează, şi anume imediat (în acest sens, e mai răzbunător decât TIT FOR 2 TATS, care nu
e imediat reactiv şi permite adversarului să defecteze de două ori înainte de a reacţiona). Este, pe de altă parte, iertător,
iarăşi imediat: dacă celălalt a cooperat, programul schimbă felul în care a acţionat şi cooperează din nou. În sfârşit, este
foarte simplu (de fapt, cel mai simplu). Avantajele acstei caracteristici se leagă de faptul că ceilalţi jucători îl înţeleg
imediat şi le este foarte uşor să prevadă cum va juca în viitor. (Pesemne că un raţionament analog acestuia e la baza
atitudinii care face ca un joc precum cel de fotbal să fie atât de popular: regulile lui sunt foarte simple şi de aceea jocul
poate fi extrem de uşor înţeles.)
Profilat ca învingător redutabil, programul TIT FOR TAT a apărut drept cea mai promiţătoare cale de a ne
comporta în situaţii precum dilema repetată. Unele cercetări au indicat însă şi alţi candidaţi cu şanse mari de a produce
rezultate foarte bune. Iată două exemple în acest sens. Primul porneşte de la faptul că în executarea unui plan jucătorii
pot face erori, deci pot să aplice în mod imperfect o strategie (Axelrod: 1997; Bendor: 1993; Bendor et. al: 1991). De
exemplu, dacă un jucător adoptă strategia ALL C, de a coopera mereu, în timp ce jucătorul celălalt adoptă strategia
ALL D, de a defecta mereu, câştigul primului jucător e F + e, unde e este un număr pozitiv a cărui valoare tinde spre
zero atunci când programul este executat fără eroare. Deoarece cunoaşte structura jocului, fiecare jucător deduce cum a
jucat celălalt pe baza câştigului său. Dar dacă valoarea lui e este îndeajuns de mare, atunci ea produce perturbaţii care
fac ca deducţiile jucătorilor să nu mai fie corecte. De pildă, să presupunem că două copii ale programului TIT FOR
TAT joacă între ele, dar cu eroare. Atunci o eroare din partea uneia dintre copii va produce defectări din partea
celeilalte pentru un lung şir de mutări. Repetând turnirul în astfel de situaţii, TIT FOR TAT nu mai obţine rezultate la
fel de bune; de pildă, programul DOWNING, care în turnirurile iniţiale ale lui Axelrod nu era între primele 50%, îl
învinge pe TIT FOR TAT. DOWNING îşi bazează mutarea nouă pe o estimare a unei istorii mai mari decât face TIT
FOR TAT a mutărilor, ceea ce înseamnă că TIT FOR TAT este prea simplu. (Dar, argumentează Axelrod (1997),
urmând pe Nowak şi Sigmund (1993), dacă modificăm pe TIT FOR TAT astfel încât să fie mai generos, adică să nu
reacţioneze imediat la defectare, atunci performanţele sale devin mai bune.)
Un al doilea exemplu priveşte programul PAVLOV (Nowak, Sigmund: 1993; Macy: 1995). Experimentele
realizate par să dovedească superioritatea acestui program faţă de TIT FOR TAT21. Cele două programe, formal, diferă
20
Plecând de la aceste rezultate, Axelrod propune câteva reguli pentru succes atunci când ne confruntăm cu situaţii de tipul
dilemei iterate a prizonierului:
 Nu fi invidios!
 Nu fi primul care nu cooperează!
 Răspunde atât la cooperare cât şi la necooperare!
 Nu fi prea deştept!
în următorul punct: PAVLOV cooperează cu o probabilitate mare când la mutarea anterioară avea fie (C, C) fie (D, D);
în rest cooperează cu o probabilitate mică. Dar TIT FOR TAT cooperează cu o probabilitate mare când la mutarea
anterioară a avut (C, C) sau (D, C) (celălalt a cooperat). PAVLOV are două avantaje22 în raport cu TIT FOR TAT.
Primul este că, atunci când e aplicat cu erori, am văzut că TIT FOR TAT are probleme atunci când joacă cu o replică a
sa; în cazul lui PAVLOV, dacă o copie a sa defectează, atunci şi cealaltă copie va reacţiona, dar apoi ambele revin la
cooperarea mutuală şi deci obţin rezultate mai bune. În al doilea rând, atunci când joacă cu programe precum ALL C,
cele două se comportă diferit: TIT FOR TAT pierde din avantaj, căci cooperează de la o mutare înainte şi obţine deci
doar câştigul R, în timp ce PAVLOV continuă fără regrete să defecteze şi obţine câştigul T (şi ştim că avem T > R).
Una dintre consecinţele cele mai importante care decurg din această analiză este aceea că, în cazul unei dileme repetate,
probabilitatea cooperării creşte. Că este aşa se poate vedea şi cu ajutorul următorului exemplu (Axelrod: 1984, cap. 4).
Pesemne că ne aşteptăm foarte puţin ca şi în cazul unui război să ia naştere cooperarea. Dar uneori e posibil să se
întâmple aşa ceva. Axelrod are în vedere frontul de Vest în timpul primului război mondial. În prima sa fază, războiul a
fost mobil şi foarte sângeros; dar după un anumit timp, liniile s-au stabilizat şi armatele au stat faţă în faţă perioade mai
lungi, fără deplasări semnificative ale frontului. În aceste situaţii unităţile de luptă (de exemplu batalioanele – formate
din aproximativ o mie de oameni, dintre care jumătate erau în prima linie) se confruntau cu dileme ale prizonierului.
Pentru fiecare, cele două alternative erau: să tragi cu armele pentru a ucide sau să tragi încercând intenţionat să eviţi să
cauzezi pagube. Pe termen scurt – adică presupunând că dilema nu se repetă – e de preferat să produci pagube cât mai
mari adversarului. Cum amândouă unităţile aflate faţă în faţă vor adopta această strategie, pentru fiecare pagubele
(constând în pierderi umane) deveneau mari.
Dar între două unităţi care stăteau un timp mai îndelungat faţă în faţă situaţia devenea una de dilemă repetată indefinit.
Ca urmare, era posibil, aşa cum face predicţia teoria, să apară echilibre diferite de perechea (D, D), deci de adoptarea
de către fiecare unitate a strategiei de a trage pentru a produce pagube. Chiar din toamna primului an de război, 1914,
au apărut astfel de acţiuni: focul înceta când pe ambele părţi ale frontului se servea masa; de Crăciun a existat o largă
fraternizare. Cooperările directe, explicite nu se puteau însă realiza le larg şi sistematic pe front: centrele de comandă
au luat măsuri ca micile unităţi să nu poată ajunge la astfel de acţiuni. Dar în timp au apărut strategii mai sofisticate,
bazate pe semnale neverbale. De exemplu, cooperările pe bază de reciprocitate erau posibile: soldaţii de pe ambele părţi
ale frontului evaluau că nu se defecta necondiţionat când era vorba de satisfacerea aceloraşi nevoi de bază (de pildă, nu
se trăgea când se făceau aprovizionări cu apă şi alimente). Cooperarea era condiţioată: iar fiecare încerca să arate
adversarului că putea produce pierderi mai mari decât cele obişnuite; de aceea, uneori se aplicau astfel de acţiuni (de
pildă, artileria trăgea uneori focuri bine plasate). Când apăreau defectări, cealaltă parte trebuia să se asigure dacă era e
vorba de o schimbare a strategiei; de aceea răspunsul nu era imediat (altfel zis, nu se aplica TIT FOR TAT, ci mai
curând ceva de genul TIT FOR 2 TATS, sau TIT FOR 3 TATS). Apariţia unui sistem de cooperare ca acesta – „trăieşte
şi lasă-l şi pe celălalt să trăiască!” – arată că pentru cooperare nu trebuie făcută supoziţia existenţei unor relaţii
personale (de prietenie de pildă) între cei care care interacţionează; reciprocitatea este suficientă.
Sistemul din tranşeele primului război mondial a fost în timp distrus: unităţile erau rotate şi nu apucau aceleaşi să stea
mult timp faţă în faţă; s-au folosit raiduri mici, pentru a omorâ sau a captura soldaţii din tranşeele adverse – mecanism
care a distrus reciprocitatea presupusă.
Abordarea evoluţionistă a dilemei prizonierului (*)

Axelrod a conceput însă şi un alt tip de mecanisme de testare empirică a diferitelor strategii de acţiune în situaţii
de genul dilemei prizonierilor – în fond, de situaţii în care resursele sunt limitate, iar cooperarea este mai avantajoasă
decât comportamentul egoist. Versiunile evoluţioniste ale jocului au fost, din anii '80, cele mai atractive pentru
cerceători. Ideea este următoarea: mai mulţi jucători folosesc strategii diferite pentru a juca între ei o dilemă iterată, la
fel ca şi în turnirurile clasice pe care le-am discutat mai devreme. Dar să presupunem acum că jucătorii alcătuiesc o
populaţie (care va fi păstrată constantă ca mărime în toate iterările dilemei). În această populaţie o proporţie de jucători
folosesc aceeaşi strategie, deci se presupune că au loc interacţiuni şi între copii ale aceleiaşi strategii. Fiecare jucător
obţine un număr de puncte. O sumă sub medie a punctelor obţinute de copiile unei strategii face ca în următoarea rundă
21
Autorii au utilizat o abordare evoluţionistă, de tipul celor pe care le vom discuta imediat. După o sută de mii de generaţii,
PAVLOV predomină.
22
Are şi dezavantaje. Cel mai important este că poate produce comportamente care nu tind spre optim, ci spre satisficient (H.A.
Simon: 1997). Într-adevăr, el are tendinţa de a repeta comportamentul care a fost recompensat (să ne amintim de experimentul
originar al lui Pavlov privind formarea reflexului condiţionat) şi deci se poate fixa pe o alternativă care produce câştiguri mai
proaste decât alternativele disponibile.
proporţia în populaţie a acestor copii să fie mai mică, în timp ce o sumă mai mare decât media face ca proporţia în
populaţie a copiilor strategiei să fie mai mare. Spre deosebire de turnirurile celelalte ale lui Axelrod, acum fiecare
strategie va obţine un scor mai mare confruntându-se în principal nu cu strategii necompetitive, ci cu strategii cu
succes. Intuitiv – iar aici este apelul la biologia evoluţionistă – scorul obţinut de o strategie într-o rundă e cel care
determină numărul de „urmaşi” (adică de copii ale strategiei) în runda următoare. Cum populaţia are mărime fixă,
înseamnă că naşteri mai multe de urmaşi ai unei strategii echivalează cu morţi mai multe ale reprezentanţilor unei alte
strategii. Iarăşi, în populaţia considerată nu apar copii ale tuturor strategiilor posibile, ci copii ale unei colecţii
determinate de astfel de strategii.
Să formulăm mai riguros aceste observaţii: populaţia de la care se pleacă este o mulţime de perechi {(p 1,
S1),...(pn, Sn)}, unde S1, ... S1 sunt cele n strategii selectate, iar p 1, ... p1 sunt proporţiile fiecărei strategii în cadrul
populaţiei. În prima rundă se pleacă de la proporţii egale, iar într-o rundă ulterioară proporţia pi a strategiei Si este dată
de formula:
pi = Hi/H
unde Hi este scorul obţinut de strategia Si în runda precedentă, iar H este scorul mediu. (Se poate nota că pentru o rundă
ulterioară proporţia în populaţie a unei strategii ar putea să fie calculată şi altfel; metoda folosită aici e cea a evoluţiei
conform cu regula „adaptării proporţionale” – şi, evident, rezultatele obţinute sunt relative la această alegere.)
Dacă strategiile sunt deterministe, e interesant că într-un aranjament experimental evoluţionist din nou TIT FOR
TAT se dovedeşte cel mai de succes program. După o mie de generaţii, el era deja dominant în populaţie şi continua să
crească.
Şi o altă întrebare e acum interesantă: dacă într-o populaţie există o singură strategie, dar intră în joc o copie a
unei alte strategii, ce se întâmplă? Reuşeşte prima să se menţină, altfel zis să fie colectiv stabilă? Biologic, intuiţia este
simplă: când în populaţie apare un mutant, problema este de a determina dacă acesta reuşeşte să invadeze populaţia
nativă. Axelrod indică o serie de rezultate interesante (1984, capitolul 3):
 TIT FOR TAT e stabil colectiv dacă şi numai dacă w este îndeajuns de mare.
 strategie care cooperează la prima mutare este stabilă colectiv numai atunci când w e suficient de mare.
 Pentru ca o strategie drăguţă să fie stabilă colectiv, ea trebuie să fie propovată de prima defectare a celuilalt
jucător.
 ALL D e sabilă colectiv.
 Strategiile care pot invada pe ALL D într-un mănunchi (când proporţia interacţiunilor dintre copiile acestora
sunt minime) sunt cele care discriminează cel mai bine, precum TIT FOR TAT.
 O strategie drăguţă nu poate fi invadată nici de un singur individ, nici de un mănunchi de astfel de indivizi.
Experimentele evoluţioniste ale lui Axelrod aveau mai multe tipuri de supoziţii. Una este aceea că strategiile
erau deterministe, iar eroarea era considerată ca fiind zero. În al doilea rând, în rundele ulterioare ale turnirurilor
evoluţioniste erau permise numai copii ale (supravieţuitorilor) programelor care începuseră turnirul; nu erau permise
programe noi, ori „mutante”. În al treilea rând, lista programelor admise era esenţială pentru a trage concluziile; dar
dacă s-ar fi admis şi alte strategii, nu e deloc limpede că aceleaşi concluzii ar fi fost disponibile. Or, fiecare din cele trei
supoziţii e greu de acceptat: în viuaţa reală programele se joacă cu erori; mutanţii apar; iar natura este extrem de
inventivă cu noi strategii de acţiune.
Plecând de aici, alţi cercetători (de pildă, Nowak, Sigmund: 1993) au încercat să vadă ce se obţine dacă sunt
relaxate unele dintre aceste supoziţii. De pildă, dacă erorile sunt admise, un TIT FOR TAT mai generos are un succes
superior lui TIT FOR TAT23; în al doilea rând, dacă o strategie permite ca jucătorul să îşi întemeieze probabilitatea de a
coopera pe propria sa mutare anterioară24, ca şi pe mutarea anterioară a oponentului său, atunci PAVLOV se dovedeşte
că are un succes mai mare. Dacă se face însă apel la strategii deterministe, rezultatele sunt diferite (Linster: 1992).
Chiar dacă nici un program nu devine dominant, unul – anume GRIM – ajunge să reprezinte totuşi mai mult de 50%
din populaţie. Acest program, care în experimentele probabiliste (precum cele ale lui Nowak şi Sigmund (1993) apărea
23
Strategiile luate în considerare în acest caz sunt cele „reactive”. Ele sunt definite astfel: fiecare strategie se joacă cu o
probabilitate p 1 de a coopera în prima rundă şi cu o probabilitate p 2 de a coopera dacă celălalt jucător a defectat în runda
anterioară. Pentru TIT FOR TAT generos, p2 = min{(1-(T-R)/(R-F)), (R-P)/(T-P)}.
24
În acest caz, fiecărei strategii i se ataşează câte o probabilitate de a defecta dacă la mutarea anterioară s-a obţinut unul dintre
rezultatele (C, C), (C, D), (D, C) şi (D, D), deci după ce jucătorul a primit una dintre cele patru câştiguri, respectiv R, F, T şi P.
ca extrem de necompetitiv25, este foarte simplu: el cooperează până când oponentul a defectat prima dată, după care
defectează tot restul jocului. Iar alături de el obţin rezultate bune – deci supravieţuiesc într-o iterare evoluţionistă a
dilemei – şi programe precum PAVLOV, TIT FOR TAT şi ALL C.
Aceste rezultate şi ele întăresc ideea că în cazul unei dileme iterate indefinit nu există o singură strategie
optimă: ce înseamnă a avea succes depinde de context, de caracteristicile mediului.
Să încercăm să tragem câteva concluzii. E. Ostrom (1998) le sumarizează astfel:
 În cele mai multe dileme sociale, cercetările au dovedit că există nivele ridicate de cooperare iniţiale; totuşi,
acest nivel nu este nici pe departe cel optimal.
 Comportamentul actorilor în situaţii de dileme sociale repetate de un număr finit de ori nu satisface predicţiile
care decurg din argumentul inducţiei inverse.
 Strategiile de echilibru de tip Nash nu sunt buni predictori ale comportamentului individual.
 Atunci când sunt puşi în faţa unor dileme sociale repetate actorii învaţă să joace nu strategii de echilibru de tip
Nash, ci alte tipuri de comportamente.
Dacă aşa stau lucrurile, înseamnă că pentru a înţelege cum se comportă oamenii puşi în situaţii de tipul
dilemelor sociale va trebui să facem apel la alte tipuri de abordări ale acestora. În capitolele următoare le vom analiza
pe larg.
25
Motivul pentru care GRIM se comportă foarte prost în situaţiile care admit eroarea este că se obţin rezultate slabe atunci când
joacă între ele două copii ale acestuia: într-adevăr, dacă o copie a defectat, atunci ambele joacă apoi numai D.

Tema 4 - Turnirurile Lui Axelrod

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tema 4 - Turnirurile Lui Axelrod

Încărcat de

Drepturi de autor:

Formate disponibile

Miroiu, A.

2007, Fundamentele politicii vol 2: Rationalitate si alegere colectiva, Polirom

Turnirurile lui Axelrod

Abordarea evoluţionistă a dilemei prizonierului (*)

S-ar putea să vă placă și