Dilema Prizonierului

Dilema prizonierului
Dilema prizonierului este un paradox, component central a teoriei jocurilor. n cazul dilemei este
vorba despre un joc de tip sum non-zero care a fost formulat de ctre angajai ai companiei RAND
Corporation. Merrill Flood i Melvin Drescher descriu o dilem social ca pe un joc ntre dou
persoane, care arat cum pot conduce hotrrile raionale individuale la rezultate colective
neoptime. Termenul dilema prizonierului a fost formulat de Albert Tucker de la Universitatea
Princeton.
Descrierea situaiei
Doi prizonieri sunt bnuii c au svrit o infraciune. Pedeapsa maxim pentru aceast infrac iune
este de cinci ani. Celor doi prizonieri li se face o propunere pe care cei doi o cunosc. Dac unul
dintre ei mrturisete i astfel i mpovreaz partenerul, atunci scap nepedepsit cellalt trebuie
s ispeasc o pedeaps de cinci ani. Dac cei doi decid s nu mrturiseasc, rmn doar dovezi
prezumptive care le vor aduce o pedeaps de doi ani. Dac amndoi mrturisesc, pe fiecare l
ateapt o pedeaps de patru ani. Prizonierii sunt chestionai separat unul de cellalt, astfel nct
nici unul dintre ei nu va cunoate nici nainte i nici dup chestionare inten ia celuilalt.
Aceast dilem poate fi numit paradox, deoarece decizia prizonierilor luat individual i con tient
(aceea de a mrturisi) i decizia colectiv (aceea de a tinui) sunt divergente.
Matricea recompenselor arat n felul urmtor:
B tinuiete
B mrturisete
A tinuiete
A:2 / B:2
A:5 / B:0
A mrturisete
A:0 / B:5
A:4 / B:4
Semnificaia rezultatelor:
0...temptation Recompens pentru trdare unilateral (libertate)
2...reward Recompens pentru cooperarea lui A cu B (doar pedeaps de doi ani)
4...punishment Pedeaps pentru trdare bilateral (patru ani de pedeaps)
5...sucker's payoff Pedeaps pentru nelarea ncrederii
Cele patru modaliti de combinare existente nu depind numai de propria decizie, ci i de deciziile
complicilor (interdependen comportamental).
n mod individual, pare s fie pentru fiecare avantajos s coopereze. Prizonierul se gnde te
astfel: Dac cellalt coopereaz, mi pot reduce pedeapsa la patru ani, dac cooperez i eu ; ns
dac cellalt tinuiete faptele svrite: pot s-mi reduc pedeapsa de la doi ani la zero prin
declaraia mea! Deci trebuie s mrturisesc faptele orice s-ar ntmpla! . Decizia de a mrturisi
faptele svrite nu depinde de comportamentul celuilalt i pare s fie ntotdeauna avantajos s
mrturiseasc. O astfel de strategie care este aleas fr a ine cont de decizia oponentului este
denumit strategie dominant.
Cum arat i matricea, cei doi prizonieri ar fi totui mai avantajai dac amndoi s-ar decide s
tinuiasc faptele. Atunci ar primi fiecare doar cte doi ani de detenie. Locul de desf urare a
jocului mpiedic nelegerea dintre cei doi prizonieri i provoac astfel o trdare unilateral prin care
trdtorul sper s obin pentru sine cel mai bun rezultatachitarea (dac cellalt prizonier tinuiete
faptele) sau s primeasc o pedeaps de patru ani n loc de cinci (dac cellalt prizonier
mrturisete). Dac amndoi fac acest lucru, i nrutesc astfel i individual situa ia, deoarece
acum fiecare primete cte patru ani n loc de cte doi ani.
Dilema prizonierului const din aceast divergen a strategiilor posibile. Presupusa analiz
progresiv, raional a situaiei induce pe cei doi prizonieri la mrturisire, ceea ce conduce la un
rezultat prost (alocare care nu este optim). Rezultatul mai bun ar fi atins prin cooperare, ns
acesta este susceptibil de trdarea ncrederii. Juctorii raionali se ntlnesc ntr-un punct care n
acest caz este denumit echilibru Nash pareto-ineficient.
Jocuri i strategii
Jocul unic
Conform analizei clasice a jocului, n dilema prizonierului jucat o singur dat, singura strategie
raional pentru individul interesat de binele propriu este aceea de a nu coopera cu cellalt prizonier,
ci s mrturiseasc i astfel s-l trdeze pe cellalt. Prin decizia sa prizonierul nu poate influen a
comportamentul celuilalt prizonier i independent de decizia luat de cellalt se plaseaz ntr-o
poziie mai bun dac nu coopereaz (mrturisete). Aceast analiz condiioneaz faptul c
juctorii se ntlnesc o singur dat, iar hotrrile lor nu pot influena interac iunile de mai trziu.
Deoarece este vorba despre o dilem autentic, din aceast analiz nu reiese nici o instruc iune
clar (concluzie prescriptiv) pentru interaciuni reale corespunztoare unei dileme a prizonierului.
ntr-un joc unic trebuie precizat c este indiferent dac cele dou pr i s-au n eles ntre ele. Situa ia
rmne la fel dup o eventual discuie!
Jocul repetat (finit)

Situaia se schimb, dac jocul este jucat n mai multe runde (aa numitele turnee iterate). n acest
caz o nelare a ncrederii este rzbunat n jocul urmtor sau ntr-un joc de mai trziu, iar
cooperarea este rspltit.
Numrul rundelor nu trebuie s fie cunoscut dinainte, ci trebuie s fie necunoscut. n caz contrar s-ar
putea ca pentru strategii de fapt cooperante s fie profitabil ca n ultima rund s intervin trdarea,
deoarece pentru aceasta nu mai este posibil o recompens. Astfel, penultima rund devine ultima,
pentru care rezult din nou aceeai situaie. Din aceasta reiese o solue neoptim. Problema ultimei
runde se aplaneaz dac jocul este jucat ca un - presupus sau actual - turneu nesfr it.
Ct de benefic este o anumit strategie ntr-un astfel de turneu, depinde ntotdeauna de strategiile
concurente pe care aceasta le influeneaz i nu poate fi declarat n mod absolut.
Jocul infinit
Jocul se repet, fr ca juctorii s tie cnd va avea loc ultima rund. Dac juctorii se afl n
aceast dilem, atunci poate exista o lips de cooperare n jocul urmtor. Faptul de a nu coopera nu
este rspltit (n mod inevitabil), deoarece pentru trdare (n mod direct) se va primi pedeaps n
jocul urmtor, n timp ce cooperarea este rspltit (n mod constant). Tit-for-tat (Ochi pentru ochi)
nseamn pedeaps pentru trdare n perioada urmtoare. n acest caz se vorbe te despre
ncredere calculat.
Politologul american Robert Axelrod a organizat la nceputul anilor '80 un concurs pe calculator, pe
tema dilemei prizonierului repetat. El fcea ca programele de calculator s concureze ntre ele pe
baza a diferite strategii. Cea mai de succes strategie i n acelai timp una dintre cele mai u oare a
fost Strategia ochi pentru ochi, dezvoltat de Anatol Rapoport. Aceasta nsemna cooperare
(renunare la trdare), atta timp ct i cellalt coopera. Dac cellalt ncerca s-i creeze un
avantaj (trdare), atunci i cealalt parte trda.
Competiii dinamico-evolutive
O dezvoltare a jocului pe mai multe runde este jocul pe mai multe generaii. Dac toate strategiile
apar n mai multe runde unele mpotriva celorlalte i una mpotriva celeilalte, rezultatele ob inute vor
fi numrate mpreun, pentru fiecare strategie. Pentru o rund urmtoare, strategiile de succes le
nlocuiesc pe cele cu mai puin succes. Strategia cea mai de succes apare cu o densitate mai mare
n generaia urmtoare. i aceast variant a competiiei a fost implementat de Axelrod.
Strategiile care au tendina de a nela, au obinut aici la nceput rezultate relativ bune atta timp
ct au venit n contact cu alte strategii care aveau tendina de a coopera lsndu-se exploatate.
Dac strategiile neltoare sunt de succes, atunci strategiile cooperative se vor rri de la o
generaie la alta strategiile neltoare reuind s anuleze chiar i fundamentul succesului. Dac
dou strategii neltoare se ntlnesc, se obin rezultate mai proaste dect n cazul n care s-ar
ntlni dou strategii cooperante. Strategiile neltoare se pot dezvolta doar prin exploatarea
partenerilor de joc. Pe de alt parte, strategiile cooperante se dezvolt cel mai bine, dac vin n
contact unele cu altele. O minoritate de strategii cooperante, cum ar fi Tit-for-tat (ochi pentru ochi)
poate pretinde astfel a se afla chiar ntr-o majoritate de strategii neltoare. Astfel de strategii care
se pot stabili prin generaii i care sunt rezistente invaziilor altor strategii se numesc strategii
evolutive stabile.
Strategia Tit-for-tat a putut fi ntrecut n anul 2004 de o strategie nou, propus de Universitatea
Southampton i care n cazul unei ntlniri fa n fa i dup un schimb iniial recurge la dou roluri
de exploatator i respectiv de victim, pentru a permite exploatatorului o pozi ie de conducere
(master-and-servant). n acest caz este necesar o anumit marime critic, i anume
strategia master-and-servant nu poate fi stabilit dintr-o populaie incipient. Deoarece partenerii de
joc comunic codat despre comportamenul lor de nceput, exist obiec ia c strategia master-andservant ncalc regulile jocului, despre care partenerii de joc sunt chestionai izolati unii de ceilal i.
Strategia amintete de populaiile de insecte unde insectele lucrtoare renun total la reproduc ie i
i dedic fora de munc pentru bunstarea reginei prolifice.
Condiiile necesare rspndirii strategiilor cooperative sunt: a) se joac n mai multe runde; b)
juctorii se pot recunoate ntre ei de la o rund la alta, pentru ca n caz de nevoie s poat fi
recompensai; c) nu se tie cnd se vor ntlni juctorii pentru ultima oar.
Cteva strategii selectate

Pentru dilema prizonierului jucat n mai multe runde exist mai multe strategii diferite. Pentru
anumite strategii s-au ncetenit anumite nume (traducerea din parantez):
tit-for-tat (ochi pentru ochi): Coopereaz n prima rund i copiaz n runda urmtoare
mutarea anterioar a partenerului de joc. Aceast strategie este n principiu deschis nspre
cooperare, practicnd ns despgubire n caz de trdare. Pentru nc o cooperare a
partenerului de joc nu este neierttoare, ci reacioneaz coopernd.
mistrust (nencredere): Trdeaz n prima rund i copiaz n rundele urmtoare (ca i ochi
pentru ochi) mutarea anterioar a partenerului de joc. Nu este deschis nspre cooperare.
spite (ciud): Coopereaz pn cnd partenerul de joc trdeaz primul. Mai apoi trdeaz
tot timpul. Coopereaz pn la primul semn de nelare a ncrederii. Este foarte rzbuntoare.
pavlov: Coopereaz n prima rund i trdeaz, dac mutarea partenerului de joc a fost
diferit de propria mutare. Coopereaz, dac n runda precedent ambii juctori au cooperat
sau ambii au trdat. Aceasta conduce la o schimbare a comportamentului, dac ctigul din
runda precedent a fost mic, ns conduce la meninerea comportamentului, dac c tigul a fost
mare.
gradual (gradual): Coopereaz pn cnd partenerul de joc trdeaz primul. Trdeaz o

singur dat i coopereaz de dou ori. Dac partenerul de joc trdeaz nc o dat dup
aceast secven, atunci el trdeaz strategia gradual de dou ori i coopereaz de dou ori.
Dac partenerul de joc trdeaz nc o dat, atunci el trdeaz strategia de trei ori i
coopereaz de dou ori. Aceast strategie coopereaz strict, pedepsete ns orice ncercare
de exploatare cu mai mult intransigen.
prober (probant): joac primele trei mutri cooperare, trdare, trdare i trdeaz mai
departe, dac oponentul a cooperat la a doua i la a treia mutare, joac de altfel tit-for-tat.
Testeaz dac partenerul de joc este exclus fr rzbunare. Exclude partenerii de joc
nerzbuntori. Se adapteaz ns la rzbunare.
master-and-servant (Domn i servitor sau i Strategie Southampton): Joac n timpul

primelor cinci pn la zece runde un comportament codat, servind recunoaterii. Strategia se
asigur dac partenerii de joc acioneaz dup modelul Master-and-servant. Dac este cazul,
partenerul de joc devine exploatator, cel care trdeaz ntotdeauna, cellalt devine excep ie, cel
care coopereaz necondiionat. Dac partenerul de joc nu se conformeaz strategiei masterand-servant, atunci se trdeaz, n dauna combatanilor ce iau parte la competi ie. Aceast
strategie conduce la faptul c o parte dintre juctorii ce iau parte la ea fac un lucru bun,
deoarece ei primesc n mod neobinuit numrul maxim posibil de puncte pentru o trdare
unilateral. Partea exploatat a juctorilor strategiei Master-and-servant dispare, ceea ce se
compenseaz prin succesiunea prii de suces.
always defect (trdeaz ntotdeauna): Trdeaz ntotdeauna, indiferent de ce face

partenerul de joc.
always cooperate (coopereaz ntotdeauna): Coopereaz ntotdeauna, indiferent de ce

face partenerul de joc.
random (aleator): Trdeaz sau coopereaz pe baza unei hotrri aleatorii 50:50.
per kind (periodic sau amical): Joac periodic seria coopereaz/coopereaz/trdeaz.

Aceast strategie ncearc s-l pun pe juctor n siguran printr-o dubl cooperare, pentru a-l
exclude o singur dat.
per nasty (periodic i neamical): Joac periodic seria trdeaz/trdeaz/coopereaz.
go by majority (decide conform majoritii): Coopereaz n prima rund i joac apoi

mutarea cea mai utilizat de ctre partenerul de joc. n caz de egalitate se coopereaz.
Strategia optim
Singura strategie tit-for-tat simpl, ns foarte eficient i de succes pe termen lung prezint totui
desfigurri, deoarece amndoi juctorii se pot bloca ntr-o confruntare de durat, dac dup o
anumit perioad amndoi juctorii aleg pe termen lung aceast strategie denumit Vendetta (ital.:
rzbunare)

Dilema Prizonierului

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Dilema Prizonierului

Încărcat de

Drepturi de autor:

Formate disponibile

Dilema prizonierului

0...temptation Recompens pentru trdare unilateral (libertate)

2...reward Recompens pentru cooperarea lui A cu B (doar pedeaps de doi ani)

4...punishment Pedeaps pentru trdare bilateral (patru ani de pedeaps)

5...sucker's payoff Pedeaps pentru nelarea ncrederii

Jocul repetat (finit)

Cteva strategii selectate

gradual (gradual): Coopereaz pn cnd partenerul de joc trdeaz primul. Trdeaz o

master-and-servant (Domn i servitor sau i Strategie Southampton): Joac n timpul

always defect (trdeaz ntotdeauna): Trdeaz ntotdeauna, indiferent de ce face

always cooperate (coopereaz ntotdeauna): Coopereaz ntotdeauna, indiferent de ce

per kind (periodic sau amical): Joac periodic seria coopereaz/coopereaz/trdeaz.

per nasty (periodic i neamical): Joac periodic seria trdeaz/trdeaz/coopereaz.

go by majority (decide conform majoritii): Coopereaz n prima rund i joac apoi

S-ar putea să vă placă și