Sunteți pe pagina 1din 51

Jocuri dinamice în informație

completă
2 tipuri de jocuri dinamice
• Când însăși interacțiunea jucătorilor este dinamică: să
observăm mișcările celorlalți jucători înainte de a juca noi
însăși
• → joc secvențional
• Repetarea unui joc static: înainte de a juca jucătorii observă
(cunosc) soluția jocului precedent
• → joc repetat
Soluțiile jocurilor
• Forma extinsă a jocului este mai bine adaptată pentru
reprezentarea jocurilor dinamice
• Scopul: să arătăm că echilibrul Nash nu este soluția
satisfăcătoare pentru astfel de jocuri…
deoarece ignoră structura secvențională de luare a
deciziilor.
• În forma extinsă a jocului unele echilibre, care erau în
forma normală nu mai sunt valabile.
Vom numi joc sub formă extinsă acel joc dinamic în care se
cunosc:
a) mulţimea jucătorilor;
b) mulţimea strategiilor fiecărui jucător;
c) ordinea în care jucătorii iau deciziile;
d) funcţiile de câştig ale jucătorilor.
Reprezentarea grafică a acestor jocuri se face sub forma unui graf de
tip arbore.
În acest graf vom avea următoarele elemente:
- nodurile grafului sunt momentele la care jucătorii aleg o strategie
posibilă;
- arcele(ramurile) grafului reprezintă acţiunile alese ale jucătorilor;
- nodul iniţial reprezintă momentul de început al jocului;
- nodurile finale indică sfârşitul jocului şi în dreptul lor sunt specificate
câştigurile jucătorilor.
Joc și subjoc
• Subjoc: este o parte a jocului dinamic care formează
(poate fi separată) ea singură un joc aparte.

• În arborile jocului subjocul este o parte a acestui


arbore care poate fi el însăși un arbore format din
noduri și arce (ramuri), cu un nod inițial și toate
ramurile care pornesc din el.
Exemplu
Joc secvențional
( forma extinsă)
Exemplu

• În unele cazuri jocul are mai multe echilibre Nash și este


complicat să zicem care din ele se va stabili la finele
jocului…

• Dar când jocul este secvențional așa ceva devine posibil.


jucătorul B
L R

U (3,9) (1,8)
jucătorul A
D (0,0) (2,1)

Când jucăm simultan (U,L) și (D,R) sunt cele două


echilibre a lui Nash
Și este imposibil să spunem care din ele va fi ales.
jucătorul B
L R

U (3,9) (1,8)
jucătorul A
D (0,0) (2,1)

Presupunem că jocul este secvențional:


A este lider (primul care întră în joc) și B este satelit (follower
eng., următorul care intră în joc)
Să rescriem acest joc în forma sa extinsă…
A
U D A începe jocul (joacă primul)
B B B îl urmează (joacă al doilea)
L R L R

(3,9) (1,8) (0,0) (2,1)


A
U D
B B
L R L R

(3,9) (1,8) (0,0) (2,1)


(U,L) este un echilibru Nash
(D,R) este un echilibru Nash
Care va rezulta din joc?
A
U D
B B
L R L R

(3,9) (1,8) (0,0) (2,1)


Când A joacă U, B joacă L; A câștigă 3.
Când A joacă D, B joacă R; A câștigă 2.
Deci, echilibrul lui Nash care reiese din jocul
secvențional va fi (U,L)
Exemplu: Votul strategic
• 3 țări : Arabia Saudită, Kuweitul și Venesuela sunt
membri ai clubului țărilor exportatoare de petrol
• Ele planifică să accepte (sau nu) un nou membru al
clubului (numai unul)
• 2 țări candidează: Irakul și Gabonul
• Ordonarea preferințelor pentru fiecare țară membru e prezentată în
tabel:
Arabia Saudită Kuweitul Venesuela

1. GABON 1. Nici una 1. IRAK

2. Nici una 2. GABON 2. GABON

3. IRAK 3. IRAK 3. Nici una


Pentru a decide …
• Procedura de votare în două tururi :
• 1 tur : selecționarea țării candidat
• Al 2 tur : se face alegerea să fie sau nu acceptată
în club țara

Reprezentăm jocul printr-un arbore decizional


1. IRAK sau GABON ?

Irak Gabon

2. IRAK sau 2. GABON sau


Nici una ? Nici una ?

IRAK Nici una GABON Nici una


• Dacă nu există votare strategică Gabonul va deveni
membru al clubului :
• Soluție preferată de către Arabia Saudită, însă n°2 pentru
ceilalți membri.

• Să presupunem că în primul tur Kuweitul alege IRAKUL …


• …care în ordonarea preferințelor la el e pe ultimul loc.

De ce ?
1. IRAK sau GABON ?

Irak Gabon

2. IRAK sau 2. GABON sau


Nici una ? Nici una ?

IRAK Nici una GABON Nici una


• Alegand alternativa care îi place cel mai puțin
… și anticipand voturile celorlalte țări
Kuweitul în final obține soluția preferată ( nici una, deci nici o
țară nu întră în club).

Și dacă ceilalți jucători anticipează că Kuweitul votează


strategic?
• Pentru Venesuela, varianta că nimeni nu întră în club
este cea mai rea ;

• În primul tur ea tot votează strategic și alegee GABON


(n°2) preferat lui IRAK (n°1)

De ce ?
1. IRAK sau GABON ?

Irak Gabon

2. IRAK sau 2. GABON sau


Nici una ? Nici una?

IRAK Nici una GABON Nici una


Inducția recursivă (regresivă)
Algoritmul lui Zermelo
Raționament utilizat în votarea strategică:
• De prevăzut ce se va petrece în viitor (în exemplul nostru
etapa 2 a jocului) și de luat în considerație pentru
deciziile curente. (etapa 1).
Inducția recursivă : un principiu de bază în găsirea
soluțiilor pentru jocurile secvenționale
→ Începem de la sfârșitul jocului și ne urcăm
pe arbore în sus.
Teorema Zermelo – Kuhn Un joc finit în informaţie perfectă are un
echilibru Nash în strategii pure.

Demonstraţia acestei teoreme se face pe baza algoritmului lui Zermelo care este o
generalizare a inducției recursive cu mai mulți jucători (pe baza programării dinamice).
Cum jocul este finit, există o mulțime de noduri „penultime”, adică anterioare nodurilor
terminale.
În aceste noduri se determină câștigurile maxime pe care le pot avea jucătorii ce trebuie
să joace în acel moment.
De aici vom avansa în sens invers în cadrul arborelui până la nodul inițial, pentru care
vom determina strategia de echilibru.
Se verifică ușor că această strategie este un echilibru Nash al jocului dinamic.

Observație Dacă vom slăbi condițiile teoremei, atunci algoritmul lui Zermelo nu mai este
eficient. De exemplu, pentru jocurile infinite sau pentru jocurile cu strategii nestrict
dominate nu se poate determina echilibrul pornind de la acest algoritm.
Subjoc și echilibrul perfect
• Vom numi subjoc propriu G al unui joc sub formă extinsă T secvenţa de noduri
şi arce ce încep dintr-un nod unic şi se continuă cu toţi succesorii acelui nod
(un subarbore al arborelui iniţial).
• Vom numi echilibru perfect în subjoc acea strategie p a jocului G care este
echilibru Nash al oricărui subjoc propriu al lui G.

• Observaţii
1. Cum orice joc poate fi privit ca propriul sau subjoc, un echilibru perfect al
subjocului este în mod necesar un echilibru Nash.
2. Echilibrul perfect al subjocului este – în cazul jocurilor finite – acelaşi cu cel
determinat prin algoritmul inducţiei recursive.
Exemplu
• Avem o piață și 2 firme A și B care doresc să pătrundă
pe această piață, dar intrarea este profitabilă numai
pentru o firmă (situație de monopol natural)
• De ce ?
• Joc secvențional: A decide prima să intre sau nu pe
piață, după care decide B
• Informația este completă și perfectă
(0, 50)
Intră

Nu intră (0, 0)
N’u intră

A Nu intră (50, 0)

Intră B

Intră (-10, -10)


• Acest joc are 3 subjocuri
• 2 în care firma B trebuie să alegă să intre sau nu pe
piață
• Și tot jocul integral
• Aplicând metoda inducției recursive obținem
echilibrul perfect:
{A intră; B nu intră}
• Totuși acesta nu este unicul echilibru al jocului…
• Firma A alege între 2 acțiuni ( să intre sau nu)
• Firma B de asemenea alege
• → 4 strategii din care 2 sunt condiționate:
• Să intre indiferent de ce face A
• Să nu intre indiferent de ce face A
• Să facă aceiași ce face A
• Să facă contrarul la ceia ce face A
• Echilibrul în strategii pure : determinăm pentru fiecare firmă cel mai
bun răspuns la strategia promovată de către cealaltă firmă
• Fiecare firmă se comportă rațional fiind cunoscute presupunerile
sale cu privire la strategiile aplicate de către cealaltă firmă
Același joc sub formă strategică (normală)
Tot timpul Nici o Imită Face
intră dată nu alegerea alegerea
intră firmei A contrară
firmei A

Intră (-10,-10) (50,0) (-10,-10) (50, 0)

Nu (0, 50) (0,0) (0,0) (0, 50)


intră
• Combinația de strategii {Nu intră, tot timpul intră} este un
echilibru Nash în subjocul care începe după ce A a decis
să nu intre

• Însă acest echilibru nu este perfect în subjoc, deoarece


el nu este echilibru în subjocul care începe după ce A a
decis să intre pe piață
Inducția recursivă
• Permite eliminarea strategiilor ce nu sunt credibile
(ex. amenințarea firmei B tot timpul să intre pe piață
indiferent de faptul ce face A – nu este credibilă)
• Inducția recursivă = eliminarea iterativă a strategiilor
dominate aplicate la jocurile în forma extinsă ….

permite obținerea echilibrului perfect în subjoc.


Jocuri repetate
Vom numi joc-etapă acea secvență de decizii (statică sau
dinamică) ce se repetă de un număr T de ori (T eventual
infinit).

Jocurile pot fi finit sau infinit repetate, în raport cu


orizontul T în care se desfăşoară jocul

Jocurile se desfăşoară în informaţie perfectă şi completă,


respectiv la sfârşitul fiecărei etape orice jucător ştie istoria
jocului şi câştigurile obţinute.
Criteriul urmat de jucători în alegerea strategiilor este
maximizarea câştigului mediu (aşteptat) pe unitatea de timp,
respectiv:

Pentru jocurile finit repetate soluţia poate fi determinată prin


algoritmul inducţiei recursive, iar acest algoritm arată faptul
că echilibrul Nash al jocului finit repetat este repetarea în
fiecare etapă a echilibrului Nash al jocului etapă.
Cum să ajungem la cooperare ?
• Contracte, transferuri…
• → ieșim din cadrul non-cooperant
• Jocuri repetate
• Ex. Dilema prisonierului reiterată
• Poate cooperarea să apară spontan între indivizi
"egoiști", guvernați exclusiv de raționalitatea
economică?
ÎNCERCAȚI!
Dilema prisonierului
• Raționalitatea individuală conduce la o situație
colectivă irațională.
• În cadrul unor interacțiuni repetate - acțiunile curente
afectează interacțiunile viitoare.
• Pot oare strategiile elaborate în funcție de istoricul
interacțiunilor precedente să permită cooperarea ?
… DEPINDE !
Presupunem că interacțiunile intre jucători sunt
limitate la un număr T de perioade
Utilizăm meoda inducției recursive
Jocuri finit repetate
• În perioada T (ultima) : nu există incitații de a juca cooperant
• Riscul pedepsei (represaliilor) lipsește
• În perioada precedentă (T-1): nu există incitații de a juca
cooperant
• În perioada viitoare nu se prevede nici un fel de
cooperare,
• deci nu sunt costuri de oportunitate de a trișa în perioada
T-1
• Etc. până în perioada 1
Jocuri repetate finite
•… cooperarea este imposibilă (nu reprezintă un
echilibru) deoarece numărul de repetări a jocului este
predeterminat și cunoscut
• Cum explicăm atunci existența cooperării în practică
(viața reală) chiar dacă speranța de viață a indivizilor
este limitată ??
• Ex. Concesiuni în cadrul unui cuplu (familiei)
Jocuri infinit repetate
• Nu avem ultima perioadă, deci nu avem inducție
recursivă
• Jucătorii utilizează strategii care sunt funcție de
istoria interacțiunilor (jocului)
• Avem diferite tipuri de strategii utilizate
• Aleatoare
• Echilibrul (trișare sistematică)
• « Trigger strategy » sau strategie de declanșare :
• Începem jocul prin cooperare
• Atâta timp cât cellalt jucător nu deviază de la strategie
continuăm să jucăm cooperare
• La prima deviere il « pedepsim» jucând non-cooperant un
număr de perioade date.
Două exemple de « trigger strategies »:
• Strategie răzbunătoare
• Idem (la fel)
• Când unul se dezice (deviază) de la strategia de cooperare
se joaca definitiv strategia non-cooperativă
• Tit-for-tat (dinte pentru dinte)
• Dacă in perioada precedenta jucătorul (adversarul) a jucat
cooperare se joacă cooperare
• Și se joacă non cooperant dacă el a jucat non cooperant
Strategie de declanșare (trigger strategies)
razbunătoare
• 2 firme concurente
• Strategie cooperantă : să mențină P ridicat
• Strategie non cooperantă : Să scadă P
• În o perioadă t firma se confruntă cu două situații (istorii) a jocului :
• Nimeni nu a trișat până în prezent
→ ea practică P ridicate
• La o perioadă anumită(etapă a jocului) cel puțin una din firme a trișat
→ începând cu acea perioadă ea practică P joase pe toata perioada
jocului:
echilibrul Nash {preț jos, preț jos}
Ce strategie să jucăm în DP repetată ?
• Depinde impotriva cui jucăm…
• Simulări au fost făcute și se mai fac pentru diferite
strategii
• Strategia « câștigătoare » (max. profit) : tit-for-tat
(dinte pentru dinte)
• Indulgentă, ușoară, clară, credibilă
Unele concluzii
• Nu prea de insistat asupra strategiei dinte pentru
dinte ( tit-for-tat) (nu tot timpul lucrează)
• Să nu fii invidios
• Să nu fii primul care trișază
• Să reacționezi la comportamentul adversarului
(cooperarea ca defecțiune, ești privit ca dezertor)
Indicații

Anunțând o strategie punitivă :


•Pedepsiți suficient pentru a
descuraja adversarul
• Moderați pedeapsa pentru a
rămâne credibili

S-ar putea să vă placă și