Sunteți pe pagina 1din 21

CAPITOLUL 3

Jocuri dinamice n informaie complet




3.1. Jocuri dinamice n informaie complet i perfect
3.1.1. Introducere
Un joc dinamic este acel joc n care alegerile juctorilor sunt efectuate la diverse momente
de timp.
Un exemplu clasic pentru asemenea jocuri este aa numitul joc al grenadei. Iat n ce
const acesta: un individ care are n mn o grenad i spune unui al doilea: daca nu mi dai 1
milion de USD voi detona grenada i vom muri mpreun. n aceste condiii celalalt juctor poate
fie s-i dea banii, fie s nu i dea, riscnd ca cellalt s detoneze grenada.
n acest joc vedem c exist trei momente n care se fac alegerile juctorilor, i anume:
ameninarea primului juctor, apoi decizia celui de-al doilea de a da sau de a nu da banii i n sfrit
decizia celui cu grenada de a o detona sau nu.

Definiia 3.1. Vom numi istorie a jocului la momentul t+1 (sau n etapa t+1) secvena
de decizie pe care au luat-o juctorii n cele t etape anterioare ale jocului.
1 + t
h
) , , , (
1 0 1 t t
s s s h K =
+

n aceste condiii vom defini mulimea aciunilor posibile pentru juctorul i ca fiind:

Definiia 3.2. Vom numi aciune fezabil a juctorului i la momentul (etapa) t+1 acea
aciune ce poate fi aleas de juctorul i din mulimea aciunilor pe care le are la dispoziie. Vom
nota mulimea aciunilor posibile (fezabile) a juctorului i la momentul t+1 cu . ) (
1 + t
i
h A

Definiie 3.3. Vom numi strategie pur a juctorului i un plan al aciunilor pe care le va juca
juctorul n fiecare etapa t.

Dac vom nota cu H
t
mulimea istoriilor jocului la momentul t, atunci ( )
U
t t
H h
t
i
t
i
h A H A

= ) ( .
Definiia 3.4. Vom numi funcie de ctig a juctorului i aplicaia

R H U
t
i i

+1
: ,
( ) R H s s u
t
i i i i

+

1
: , .

Definiia 3.5. Un echilibru Nash n strategii pure pentru jocul dinamic G va fi
acea strategie care respect condiia
(
i i i
u , S = )
( ) ( )
i i i i i i i i
S s s s u s s u

' '
, , (cu alte cuvinte cea mai bun
alegere posibil a juctorului i indiferent de alegerile celorlali juctori).

Definiie 3.6. Vom numi joc sub form extins acel joc dinamic n care se cunosc:
a) mulimea juctorilor;
b) mulimea strategiilor fiecrui juctor;
c) ordinea n care juctorii iau deciziile;

Jocuri dinamice n informaie complet

d) funciile de ctig ale juctorilor.

Reprezentarea grafic a juctorilor sub forma extins se face sub forma unui graf de tip
arbore.
n acest graf vom avea urmtoarele elemente:
- nodurile grafului sunt momentele la care juctorii aleg o strategie posibil;
- arcele grafului reprezint aciunile alese ale juctorilor;
- nodul iniial reprezint momentul de nceput al jocului;
- nodurile finale indic sfritul jocului i n dreptul lor sunt specificate ctigurile
juctorilor.

De exemplu, reprezentnd sub forma extins jocul grenadei obinem:











Figura 3.1
|
|
.
|

\
|

3
3
|
|
.
|

\
|
1
1
|
|
.
|

\
|

2
2
|
|
.
|

\
|
1
0

1 1
ND D ND D
NP P
2

Observaie Vom presupune c graful ce descrie forma extins a jocului nu conine cicluri i
duble precedene, cu alte cuvinte se poate defini o relaie de ordine parial pe acest graf: x
y care nseamn nodul lui x este naintea nodului y.

Definiia 3.7. Vom numi cale a jocului mulimea nodurilor i arcelor ce conduc din nodul
iniial ntr-un nod final.

Observaie O cale a jocului poate fi identificat cu istoria final a acestuia.

Definiia 3.8. Vom numi joc n informaie perfect acel joc n care toi juctorii tiu la orice
moment t ce decizii s-au luat n etapa anterioar (la momentul t-1).

Definiia 3.9. Vom numi joc cu memorie perfect (perfect recall) acel joc n care toi
juctorii tiu istoria jocului de la momentul 0 pn la momentul t.

Definiia 3.10. Vom numi echilibru perfect n subjoc (subgame perfect equilibrium) o
strategie s care, pentru orice istorie h
t
, ( )
t
h S din ( )
t
h G este un echilibru Nash al lui ( )
t
h G .


3.1.2. Determinarea echilibrului prin algoritmul induciei recursive (backward
induction).

Fie un joc dinamic cu doi juctori, dou etape, iar mulimile strategiilor juctorilor sunt S
1
i
S
2
, iar funciile de ctig sunt U
1
i U
2
.
34

Jocuri dinamice n informaie complet

Desfurarea jocului este urmtoarea:
Juctorul 1 alege aciunea a
1
din S
1
n prima etap. n etapa a doua juctorul 2 observ
alegerea juctorului 1, deci pe a
1
i alege aciunea sa a
2
din S
2
, dup care jocul ia sfrit. n acest
moment ctigurile juctorilor vor fi u
1
(a
1
,a
2
) respectiv u
2
(a
1
,a
2
).
Pentru jocul descris anterior vom formula algoritmul induciei recursive. Acest algoritm
pornete de la principiul c, la ultima etap a jocului, juctorul care urmeaz s decid tie deja care
au fost strategiile alese de ceilali deci n consecin va alege acea aciune care s i maximizeze
ctigul.

Etapa 1. Juctorul 2, observa alegerea juctorului 1 i caut aciunea care s i maximizeze
ctigul:
( ) ( )
2 1 2 1 2
2 2
a , a u max arg a R
S a
=
Aceasta constituie funcia de reacie (funcia celui mai bun rspuns) a juctorului 2 n raport
cu aciunea aleas de juctorul 1.

Etapa 2. Juctorul 1 tie c juctorul 2 va juca ( )
1 2
a R i prin urmare va caut s-i
maximizeze ctigul prin alegerea strategiei:

( ) ( )
1 2 1 2 1
1 1
a R , a u max arg a
S a
*

=

3.1.3. Duopolul Stackelberg
Pe piaa unui produs exist doi productori, firma 1 i respectiv firma 2. Strategiile posibile
pentru cele dou firme sunt cantitile produse, q
1
respectiv q
2
, pozitive. Funciile de ctig sunt
date de profiturile firmelor. Desfurarea jocului este urmtoarea: firma 1 alege cantitatea pe care o
produce i o trimite pe piaa. Firma 2 observ cantitatea produs de firma 1 i i stabilete la rndul
ei producia q
2
cutnd s maximizeze profitul.
Ambele firme au costuri marginale (i medii) egale, de valoare c. Funcia de cerere invers
este:
Q a Q P = ) ( , unde Q
2 1
q q + = .
Se cere s se determine echilibrul acestui joc.

Rezolvare
Sub forma extins, jocul are urmtoarea descriere:
1. firma 1 alege cantitatea produs q (aciunea a ). 0
1

1
2. firma 2 observ cantitatea produs de firma 1, i alege cantitatea produs
(aciunea a ).
0
2
q
2
3. jocul ia sfrit, funciile de ctig ale celor 2 firme fiind nivelurile profiturilor,
( ) ( ) ( ) 2 , 1 , , = = i c Q P q q q
i j i i
cu Q a Q P = ) ( , unde
2 1
q q Q + = .

Determinm echilibrul prin inducie recursiv:

Etapa 1 n ultima etap a jocului, firma 2 observ cantitatea q
1
aleas de prima firma i i
va alege producia q
2
astfel nct s rezolve problema:

( ) ( ) ( ) ( ) c q q P q q q q R
q
+ = =
2
*
1 2 2
*
1 2
*
1 2
, max arg
2
.
35

Jocuri dinamice n informaie complet

De aici obinem ( ) ( ) *
2 2
*
1 *
1 2
*
2
q c a
q R q

= = .

Etapa 2 Firma 1 tie c funcia de reacie a firmei 2 este cea din relaia (*) i alege
cantitatea produs astfel nct s-i maximizeze profitul:
*
1
q
( )
*
1
*
1 *
2 1 1
*
1
2 2
max arg , max arg
1 1
q c
q c a
a q q q
q q
(

|
|
.
|

\
|

= =
4

2
*
2
*
1
c a
q
c a
q

=

= .

Deci echilibrul jocului dinamic determinat prin inducie recursiv este:
( )
|
.
|

\
|
=
4
,
2
,
*
2
*
1
c a c a
q q .
Nivelul ctigurilor ce corespund acestor strategii sunt:
( )
( ) ( )
|
|
.
|

\
|

=
16
,
8
,
2 2
*
2
*
1
c a c a
.

Cu alte cuvinte, firma care alege prima strategie va fi avantajat, ea obinnd un profit dublu
fa de cea de-a doua firm.
n acest caz suplimentul de informaie pe care ce-a de-a doua firm l are (prin faptul c tie
cantitatea aleas de prima) se traduce printr-o pierdere de profit (de la
( ) ( )
16
la
9
2 2
c a c a
s c

=

= ). Dac firma 2 nu ar avea acea informaie, atunci jocul s-ar desfura


ca un joc staic, i de aici profituri egale pentru cele dou firme:
( )
9
2
c a
i

= .

3.1.4 Reprezentarea jocurilor dinamice sub form normal

Jocurile dinamice pot fi reprezentate sub form normal, prin intermediul formei matriceale,
dac se va construi un plan complet de aciune n raport cu strategiile care pot fi jucate de ctre
ceilali juctori. Acest plan este construit ex-ante, adic nainte de nceputul jocului. Dup ce jocul
ncepe vom discuta de istoria jocului.

Exemplu: Se consider urmtorul joc descris sub forma extins:











|
|
.
|

\
|
1
2
|
|
.
|

\
|
0
0
|
|
.
|

\
|
1
1
|
|
.
|

\
|
2
3
2 2
D S D S
D S
1
Figura 3.2

36

Jocuri dinamice n informaie complet

Pornind de la forma extins vom construi forma normal echivalent :

2
(S,S) (S,D) (D,S) (D,D)
S 2, 1 2, 1 0, 0 0, 0 1
D -1, 1 3, 2 -1, 1 3, 2
Figura 3.3

Aceasta form normal se construiete ca un plan complet de aciune posibil n raport cu
alegerile juctorilor. (De exemplu, dac juctorul 1 alege strategia stnga (S), atunci juctorul 2
poate alege S sau D, dar netiind ce a ales juctorul 1, se gndete la 4 variante de ctig posibile,
n raport cu ce ar fi putut juca primul juctor).

Pentru aceast form putem determina echilibrul prin algoritmii descrii n capitolul
anterior. Astfel, jocul descris n figura 3.3 are un unic echilibru n strategii pure, i anume (D,D).
Acelai echilibru rezult i n cazul n care aplicm algoritmul induciei recursive.


3.2. Jocuri dinamice n informaie imperfect

3.2.1. jocuri dinamice n informaie imperfect
Jocurile dinamice n informaie imperfect sunt acele jocuri n care juctorii (unul sau mai
muli) nu cunosc istoria jocului (sau o etapa a acesteia).
S relum jocul de la exemplul anterior, de acest dat n informaie imperfect. (figura 3.4)

|
|
.
|

\
|
1
2
|
|
.
|

\
|
0
0
|
|
.
|

\
|
1
1
|
|
.
|

\
|
2
3

2 2
D S D S
D S
1










Figura 3.4

Observaie Linia punctat din dreptul juctorului 2 indic faptul c juctorul 2 nu tie care a
fost strategia aleas de juctorul 1 (S sau D) n prima etap a jocului. Aceasta situaie poate fi
considerat echivalent cu faptul c juctorul 2 alege simultan cu primul juctor strategia.
n acest caz putem reprezenta sub form normal jocul n informaie imperfect, respectiv
sub form matriceal, ca n figura 3.5:

2
S D
S 2,1 0,0 1
D -1,1 3,2
Figura 3.5

37

Jocuri dinamice n informaie complet

n acest caz jocul are dou echilibre, i anume (S, S), respectiv (D,D). Totui, echilibrul
(S,S) nu este credibil deoarece (D,D) aduce ctiguri mai mari ambilor juctori.

3.2.2 Echivalena strategiilor pure cu cele mixte

Definiia 3.11 Dou strategii pure s
i
i s
i
sunt echivalente dac au aceeai distribuie de
probabilitate oricare ar fi strategiile pure ale adversarilor.

Exemplu Se consider jocul sub form extins :

b a
1
1 1
d c d c
B A
2

Pentru juctorul 1, strategiile (b,c) i respectiv (b,d) sunt
echivalente deoarece probabilitatea de a fi jucate este zero.






Figura 3.6


Definiia 3.12 Vom numi forma strategic redus (sau forma normal redus) a unui joc
sub forma extins acel joc n care s-au pstrat doar clasele de strategii echivalente (se pstreaz doar
un singur membru al fiecrei clase de echivalen).

Analog modului n care am definit strategiile mixte pentru jocurile statice, le vom defini i
pentru jocurile dinamice.
Luce i Raiffa (1987) au fcut urmtoarea analogie pentru a explica relaiile dintre strategiile
mixte i cele pure (sau de comportament): o strategie pur este o carte de instruciuni, n aceast
carte se specific la fiecare pagin modul n care se va juca dac avem anumite informaii. Spaiul
strategiilor este mulimea crilor din bibliotec.
O strategie mixt este o distribuie de probabilitate asupra crilor din bibliotec, adic un
mod aleator de a selecta o carte.

n condiiile unor jocuri n informaie perfect (perfect recall) strategiile mixte i cele pure
(comportamentale) sunt echivalente.

Vom demonstra c orice strategie mixt p
i
a unei forme strategice genereaz o strategie pur
unic s
i
astfel :
Fie R
i
(h
i
) mulimea strategiilor pure ale juctorului i ce preced h
i
, atunci ( ) ( )
i i i
h R s
exist un profil s
-i
de strategii asociate h
i
.
Vom avea : ( ) ( )
( )
( )
( )
( )


=

=
i i i
i i i
i i i
h R s
i i
a a s
h R a
i i i i i
s P s P h a s .
Dac p
i
asociaz probabilitatea 0 (zero) pentru ( ) ( )
i i i
h R s atunci:
( ) ( )
( ) { }

=
=
i i i
a h s
i i i i i
s P h a s .
38

Jocuri dinamice n informaie complet

Cum (
i
s ) este nenegativ, atunci ( )
( )
1 =

i
h S a
i i i
h a s deoarece fiecare s
i
indic aciune
pentru juctorul i.

Exemplu Fie jocul sub forma extins din figura 3.7:

i istoriile : h
0
: (S)
D S
1
d s
2
h
1
: (D,d)





Figura 3.7

Fie , condiionat de faptul c se cunoate istoria h ( ) ( ) ( d , D / ; s , S / p 2 1 2 1
1
= )
1
.
Aceasta strategie mixt este echivalent cu strategia (D,d), deoarece strategia jucat n cazul
istoriei h
1
va fi d cu probabilitatea 1, adic ( ) ( )
'
1 1
, h R d s .

Ceea ce am artat pn aici este sintetizat de urmtoarea teorem:

Teorema Kuhn
ntr-un joc dinamic n informaie perfect strategiile mixte i strategiile pure sunt
echivalente (sau altfel spus, fiecare strategie mixt are echivalent o unic strategie pur, sau fiecare
strategie pur este echivalent cu fiecare strategie mixt generat de aceasta).

Observaie Mai multe strategii mixte pot genera aceeai strategie pur.

Exemplu Se consider jocul sub forma extins:

Z
4
Z
3
Z
2
Z
1
h h 2
D C B A
D S
1








Figura 3.8

Fie S
2
={A,B,C,D} mulimea strategiilor juctorului 2 i

S
2
= (A,C)
S
2
= (A,D)
S
2
= (B,C)
S
2
= (B,D)
- strategii pure

Fie strategiile mixte s
3
=( , , , ) i s
4
=( , 0 , 0 , )

39

Jocuri dinamice n informaie complet

Atunci:
p
2
(A/h)= p
2
(B/h)=
P
2
(C/h)= P
2
(D/h)= .
Deci, s
3
i s
4
sunt echivalente.


3.2.3. Dominan strict i echilibru Nash n jocurile dinamice

Se consider jocul sub forma extins, n care:
S
1
={A,B}
S
2
={C,D}









(0, 0) (3, 1)
(2, 2)
B A
1
D C
Figura 3.9

Reprezentarea acestui joc sub forma normal este:

2
C D
A 2, 2 2, 2
1
B 3, 1 0, 0

Figura 3.10

Observm c pentru juctorul 2 strategia C nu domin strict strategia D (2,1) (2,0). De aici
apare pentru juctorul 2 posibilitatea de ameninare: dac 1 nu joaca A, atunci 2 va juca D.
f
Acest joc, observm c are dou echilibre n strategii pure, i anume (A,D) respectiv (B,C).
Pentru a determina echilibrele unui joc dinamic vom utiliza teorema Zermelo Kuhn:


Teorema Zermelo Kuhn
Un joc finit n informaie perfect are un echilibru Nash n strategii pure.

Demonstraia acestei teoreme se face pe baza algoritmului lui Zermelo care este o
generalizare a induciei recursive cu mai muli juctori (pe baza programrii dinamice).
Cum jocul este finit, exist o mulime de noduri penultime, adic anterioare nodurilor
terminale. n aceste noduri se determin ctigurile maxime pe care le pot avea juctorii ce trebuie
s joace n acel moment.
De aici vom avansa n sens invers n cadrul arborelui pn la nodul iniial, pentru care vom
determina strategia de echilibru. Se verific uor c aceast strategie este un echilibru Nash al
jocului dinamic.
40

Jocuri dinamice n informaie complet

Observaie Dac vom slbi condiiile teoremei, atunci algoritmul lui Zermelo nu mai este
eficient. De exemplu, pentru jocurile infinite sau pentru jocurile cu strategii nestrict dominate nu se
poate determina echilibrul pornind de la acest algoritm.

3.2.4. Echilibrul perfect n subjoc

Definiia 3.13 Vom numi subjoc propriu G al unui joc sub form extins T secvena de
noduri i arce ce ncep dintr-un nod unic i se continu cu toi succesorii acelui nod (un subarbore al
arborelui iniial).

Definiie 3.14 Vom numi echilibru perfect n subjoc acea strategie p a jocului G care este
echilibru Nash al oricrui subjoc propriu al lui G.

Observaii
1. Cum orice joc poate fi privit ca propriul sau subjoc, un echilibru perfect al
subjocului este n mod necesar un echilibru Nash.
2. Echilibru perfect al subjocului este n cazul jocurilor finite acelai cu cel
determinat prin algoritmul induciei recursive.


Critici la adresa induciei recursive

Exemplu 1 Se consider jocul cu n juctori descris sub forma extins n figura 3.11:






O
3 2 C C
O
n
(2,2,,2)
C
O
( 1/n , 1/n ... ..1/n ) ( , ,, ) ( 1, 1,, 1 )
O
1
Figura 3.11

Strategia C nseamn continuare din partea fiecrui juctor i, iar O strategia de oprire a
jocului.
Fie p probabilitatea ca fiecare juctor s joace strategia C.
Aplicnd algoritmul induciei recursive obinem soluia (C,C,,C).
Totui, probabilitatea cu care privete juctorul 1 sau 2 posibilitatea ca jocul s continue prin
continuarea pn la sfrit este p
n-1
respectiv p
n-2
. Cum p(0,1), p
n-1
0, adic probabilitatea cu care
crede juctorul 1 c se va ajunge la sfritul jocului tinde la zero, deci apare credina c un alt
juctor poate opri jocul nainte de final cu o probabilitate tinznd la 1.

Exemplu 2 Centipedul lui Rosenthal
Se consider jocul sub forma extins (n 100 etape ) descris n figura de mai jos, n care
strategiile sunt C = continu, O = oprete jocul.

( 98,98 )
2 c c
O
( 97,99 ) ( 99,97)
O
1 2 c
( 3,1 )
O
1 c
O
( 1,3 ) ( 2,0 )
O
1 2 c c
O
( 0,1 ) ( 1,0)
O
1




Figura 3.12

41

Jocuri dinamice n informaie complet

42
Prin inducie recursiv rezult c echilibrul acestui joc va fi oprirea jocului de la prima
etap.
Aceast ipotez apare n realitate puin probabil, deoarece pentru orice nivel de ateptare (i
ncredere) suplimentare fiecare din cei doi juctori va ctiga mai mult.

Exemplu 3 Fie un joc sub forma extins descris n figura 3.13.


(6,0,6)
(8,6,8)
(0,0,0) (7,10,7) (7,10,7) (0,0,0)
D
3
C
A
1
1 1
H G H G
F E
2
B












Figura 3.13

Acest joc are trei echilibre n strategii pure, respectiv (B,D,E,H) ; (B,D,F,G) i un echilibru
n strategii mixte ( (B,D,E,H); (B,D,F,G)).

Aceast situaie nu poate fi rezolvat prin intermediul algoritmului induciei recursive sau
prin teorema Zermelo, deoarece echilibrul perfect n subjoc nu poate fi definit n strategii mixte.


3.3. Jocuri repetate

3.3.1. Introducere
O categorie special o reprezint jocurile repetate.

Definiia 3.15 Vom numi joc-etap acea secven de decizii (static sau dinamic) ce se
repet de un numr T de ori (T eventual infinit).

Jocurile pot fi finit sau infinit repetate, n raport cu orizontul T n care se desfoar jocul.
n continuare vom defini elementele fundamentale ale acestor tipuri de jocuri:

Vom nota cu G jocul-etap i ) ,U A (x
i
=

i
spaiul distribuiilor de probabilitate asupra aciunilor A
i
ale juctorului i;

Jocurile se desfoar n informaie perfect i complet, respectiv la sfritul fiecrei etape
orice juctor tie istoria jocului i ctigurile obinute.



Jocuri dinamice n informaie complet

Vom nota cu aciunile alese de cei n juctori la momentul t, i atunci
istoria jocului va fi .
) ,..... , (
2 1
t
n
t t t
a a a a =
,....a a , (a h
1 0 t
= )
1 t
O strategie pur n jocurile repetate este reprezentat de o secven de strategii pure ale jocului-
etap, de la nceput pn la sfritul jocului.
O strategie mixt P
i
va fi descris de o secven de strategii mixte
i i
.
Funciile de ctig vor fi descrise prin:

- pentru jocuri infinit repetate

=
=
0
)) ( ( ) 1 (
t
t t
i
t
p i
h p u E U

)) ( (
1
1
0
1
t t
i
T
t
t
T
p i
h p u E U

=
+

- pentru jocuri finit repetate, unde:



E
p
= ctigul ateptat de strategia p;
= factor de actualizare intertemporal (factor de discont);
= 0 reprezint juctorii ce nu au rbdare s continue jocul i se opresc dup prima
etap;
= 1 reprezint juctorii perfect rbdtori, pentru care ctigurile fiecrei perioade
sunt echivalente.

Criteriul urmat de juctori n alegerea strategiilor este maximizarea ctigului mediu (ateptat)
pe unitatea de timp, respectiv:

=

T
t
t t
i
T
h p u
T
E
0
)) ( ( )
1
( inf lim max


Pentru jocurile finit repetate soluia poate fi determinat prin algoritmul induciei recursive,
iar acest algoritm arat faptul c echilibrul Nash al jocului finit repetat este repetarea n fiecare
etap a echilibrului Nash al jocului etap.


3.3.2. Modelul de negociere Rubinstein Stahl

n 1982 Rubinstein i Stahl au propus urmtorul joc:
Doi juctori doresc s mpart suma de 1 milion de dolari. Jocul este dinamic, infinit repetat
i se desfoar astfel:
n perioadele pare, juctorul 1 propune o mprire a sumei n proporia x, respectiv 1-x
pentru juctorul 2;
n perioadele impare, juctorul 2 primete propunerea juctorului 1, o analizeaz, i fie o
accept fie o respinge. n cazul n care o va respinge, atunci va face la rndul su o
propunere de mprire a sumei (x, 1-x).

n cazul acestui joc dinamic avem informaie perfect deoarece juctorii tiu istoria jocului
n fiecare moment. Ctigurile juctorilor vor fi la momentul t, n cazul n care jocul ia sfrit,
de ( . )) 1 ( , ;
2
x x
t t



43

Jocuri dinamice n informaie complet

Echilibrul perfect n subjoc

Observm c avem un numr mare de echilibre Nash n acest joc. De exemplu strategia:
juctorul 1 cere x = 1 i refuz orice alt mprire, respectiv juctorul 2 ofer x=1 i accept
orice ofert este un echilibru Nash.
Totui, acest echilibru Nash nu este un echilibru perfect n subjoc. Dac juctorul 2 refuz
oferta juctorului 1 n a doua etap, i ofer la rndul su x > , atunci juctorul 1 trebuie s o
accepte deoarece este cel mai bun ctig posibil, deoarece refuznd aceast ofert, n etapa
urmtoare va primi (chiar dac 2 accept mprirea (1,0) doar , care este mai mic dect
2
1

1
).
Un echilibru perfect n subjoc va fi urmtorul: juctorul i va cere proporia
j i
j

1
) 1 (

atunci cnd i face oferta i va accepta orice proporie mai mare sau egal cu
j i
j i


1
) 1 (
, respectiv
va refuza orice proporie mai mic.

Demonstraie:
Fie
1
v respectiv
1
v ctigurile cele mai mici, respectiv cele mai mari pe care le poate obine
juctorul 1 dac va continua jocul pentru orice echilibru perfect n subjoc dac ncepe acesta, i n
mod analog definim aceste ctiguri pentru juctorul 2, (dac ncepe juctorul 1)
2
v respectiv
2
v .
Vom avea
1
w ,
1
w ctigurile minime, respectiv maxime de continuare a jocului pentru juctorul 1
dac va ncepe juctorul 2, i
2
w ,
2
w ctigurile minime (maxime) de continuare pentru juctorul 2
dac ncepe el jocul.
Dac ncepe juctorul 1, atunci 2 va accepta orice ofert x astfel nct oferta va depi
2 2
v ,
deoarece 2 nu poate atepta mai mult de
2
v din continuarea jocului. Deci avem
2 2 1
1 v v .
Simetric, juctorul 1 va accepta orice ofert
1 1
v i
1 1 2
1 v v .
Dac 2 nu va oferi niciodat mai mult de
1 1
v , atunci ctigurile juctorului 1 dac va
continua jocul, atunci cnd 2 face prima ofert respectiv
1
w , este cel mult
1 1
v .
Cum 2 poate obine cel puin
2
v din continuare - prin a refuza oferta lui 1, atunci 2 va
refuza orice ofert x astfel nct
2 2
v x 1 .
De aici, pentru juctorul 1 avem: ) v , v max( ) w , , v max( v
1
2
1 2 2 1 1 2 2 1
1 1 =
Dar:
2 2 1
2
1 2 2
1 1 v ) v , v max( =
deoarece dac
0
1 1
2
1 1
= v v v , dar
1
2
1 2 2
1 v v >
deoarece nici
2
nici
2
v nu pot fi mai mici ca 1, deci

2 2 1
1 v v .


44

Jocuri dinamice n informaie complet

Simetric,
1 12 2
1 v v .
Din inegalitile anterioare avem:
) 1 ( 1 1
1 1 2 2 2 1
v v v sau
2 1
2
1
1
1

v
i ) 1 ( 1
1 1 2 1
v v sau
2 1
2
1
1
1

v
.

Cum
2 1
2
1 1 1 1
1
1

= = v v v v .
n mod analog
2 1
2
2 2
1
1

= = v v iar
2 1
2 1
1 1
1
) 1 (


= = w w

respectiv
2 1
2 2
2 2
1
) 1 (


= = w w .

De aici rezult c echilibrul perfect n subjoc este unic.

Observaie
n condiiile n care juctorul 1 va muta primul, atunci acesta este n avantaj. De
exemplu, dac
1
=

2
, atunci
2
1
1
1
1
1
2
1
>
+
=

v
, deci 1 poate obine mai mult de
jumtate din ctig.

Totui, acest avantaj va dispare dac perioada n care se joac jocul va fi relativ mic,
deoarece depinde mult de rbdarea juctorilor. De exemplu, pentru cu t durata
jocului i , r
t r t r
e e
2 1
2 1
,

= =
0 t
1
1
i r
2
fiind indicatori ai rbdrii juctorilor, atunci
i
este aproximativ
iar converge ctre t r
i
1 v
2 1
2
r r
r
+
. Deci pentru r
1
= r
2
prile mprite de cei 2 juctori vor fi
egale.


3.3.3. Jocuri finit repetate

Vom considera urmtorul exemplu: fie jocul-etap G dilema prizonierului i este repetat
de un numr T de ori, finit. Jocul finit repetat va fi G(T).

Juctor 2
A N
A -8,-8 -10,0 Juctor 1
N 0,-10 -2,-2

Determinnd echilibrul prin inducie recursiv obinem: la ultima etap, ambii juctori vor
acuza deoarece nu au ncredere c jocul ar putea avea o desfurare cooperativ (adopt echilibrul
Nash). La penultima etap, deja se cunoate (anticipat) rezultatul ultimei etape, deci juctorii vor

45

Jocuri dinamice n informaie complet

adopta acelai comportament, respectiv se vor acuza reciproc. Continund raionamentul, atingem
etapa iniial a jocului prin determinarea la echilibru n fiecare etap a echilibrului Nash pentru
jocul-etap. Deci echilibrul jocului finit repetat este repetare de T ori a strategiei (A, A).

Propoziie Dac jocul-etap G are un echilibru Nash unic, atunci pentru orice joc finit
repetat G(T) exist un echilibru perfect n subjoc unic: repetarea echilibrului Nash asociat jocului-
etap.

Demonstraie Prin algoritmul induciei recursive, plecnd de la ultima etap se poate atinge
pentru orice subjoc propriu repetarea echilibrului Nash al jocului-etap, aa cum a fost artat
anterior.


Critici la echilibrul perfect n subjoc

Una dintre problemele care apare la interpretarea acestui rezultat este c acest echilibru nu
este credibil. De exemplu, dac dilema prizonierului se va repeta de trei ori (T=3), atunci avem
urmtoarele: la ultima etap juctorii vor alege strategia (A, A), dar pn atunci, cel puin o etap,
este mai bine pentru ei s aleag o strategie de cooperare, respectiv (N, N). n cazul n care
echilibrul jocului este repetarea strategiei (A, A) de trei ori (determinat prin inducie recursiv),
atunci ctigul total al juctorului i va fi
i
i
i i i i i
A A A A A A v

= + + = + + =
1
1
) 8 ( ) 1 )( 8 ( ) 8 ( ) 8 ( ) 8 ( )) , ( ), , ( ), , ((
3
2 2

Dac cel puin prima etap juctorii vor coopera, respectiv vor alege strategia de a nega
amndoi (N,N), atunci ctigurile vor fi:
) 8 ( ) 8 ( ) 2 ( )) , ( ), , ( ), , ((
2 '
+ + =
i i i
A A A A N N v

Evident v , cu alte cuvinte pentru cel puin o perioad juctorii vor alege s
coopereze, chiar dac jocul este necooperativ, deoarece ctigul adus de aceast strategie este mai
mare dect cel de necooperare. Acest rezultat a fost sintetizat de Benoit i Krishna (1985) n
urmtoarea teorem:
2 , 1 ) ( ,
'
= < i v
i i

Teorema Benoit-Krishna
Fie un joc finit repetat G(T), pentru care este un echilibru, i fie o alt strategie astfel
nct . Atunci exist un T<T, pentru T suficient de mare, astfel nct pentru T
perioade echilibrul jocului finit repetat este repetarea lui , iar pentru urmtoarele T-T perioade
repetarea lui .
*
s s
) ( ) (
*
s u s u >
*
s
s

Demonstraie
Pentru demonstraia acestei teoreme vom apela la principiul raionalitii juctorilor, care
vor dori maximizarea ctigului pentru tot jocul.
Astfel, dac juctorii vor adopta strategia la fiecare etap a jocului, atunci ctigul lor
mediu va fi:
*
s

=
+

=
T
t
t
i
t
i
T
i
i
i
s u s v
0
*
1
*
) (
1
1
) (



46

Jocuri dinamice n informaie complet

Dac pentru T etape vor adopta strategia , iar pentru restul de T-T etape strategia ,
atunci ctigul va fi:
s
*
s
|
.
|

\
|
+

=

= + =
+
'
0 1 '
*
1
'
) ( ) (
1
1
) (
T
t
T
T t
t
i
t
i
t
i
t
i
T
i
i
i
s u s u s v

cu ) ,.... , ,... , (
* 1 ' ' 2 1 ' T T T
s s s s s s
+
=

Cum , adic juctorul i, fie i ) ( ) (
*
s u s u > ) ( ), ( ) (
*
> s u s u
i i
1
juctorul pentru care se
atinge
)) ( ) ( min(
*
s u s u .
Atunci, pentru juctorul i
1
vom avea:

=

|
.
|

\
|
+

=

=
+
= + =
+
T
t
t
i
t
i
T
i
i
T
t
T
T t
t
i
t
i
t
i
t
i
T
i
i
i i
s u s u s u s v s u
0
*
1
'
0 1 '
*
1
*
) (
1
1
) ( ) (
1
1
) ( ) ' (
1 1
1
1
1 1 1 1
1
1
1


0 ) ( ) (
1
1
*
'
0
1 1 1 1
1
1
> |
.
|

\
|

=
+
t
i
T
t
t
i
t
i
T
i
i
s u s u

=



Deci pentru juctorul i
1
este strict mai bine s aleag s joace n T etape strategia de
cooperare, deoarece va ctiga strict mai bine.
Urmtoarea ntrebare care se pune este ct timp s se desfoare jocul astfel nct juctorii
s coopereze cel puin o perioad. Aceast problem se rezolv n urma adoptrii unei strategii de
pedepsire (trigger strategy). Aceast strategie presupune urmtoarea desfurare: juctorul i va
adopta un comportament cooperativ n prima etap i va continua acest comportament atta timp
ct i ceilali juctori adopt un comportament similar. n momentul n care unul din juctori
deviaz de la acest comportament, atunci pn la sfritul jocului se va adopta un comportament
de pedepsire, adic vor fi penalizai prin revenirea la comportamentul necooperativ .
Acest comportament se bazeaz pe existena unui ctig de rezerv, sau ctig minmax.
Astfel vom defini:

Definiia 3.16 Vom numi ctig de rezerv
i
u pentru juctorul i, ctigul minim ce l poate
obine n cele mai proaste condiii pentru el, sau altfel spus )] , ( max [ min
i i
s
i
s
i
s s u
i
i

u =

Fie m
-i
strategiile celorlali juctori pentru care se realizeaz
i
u , adic profilul minmax al
strategiilor celorlali juctori. Atunci
i i i i
u m m u =

) , ( .

Exemplul 3.1 Pentru dilema prizonierului, ctigul minmax este atins pentru strategiile (A,
A) i va coincide cu echilibrul Nash.

Juctor 2
A N
A -8,-8 -10,0 Juctor 1
N 0,-10 -2,-2


{ } { }
8 ) 0 , 8 min( )] , ( max [ min
2 1 1
, ,
1
1 2
= = =

s s u u
N A s N A s


47

Jocuri dinamice n informaie complet



Exemplu 3.2 Se consider jocul-etap static descris n figura 3.14

Juctor 2
D E
A -2, 2 1, -2
B 1, -2 -2, 2 Juctor 1
C 0,1 0, 1

Figura 3. 14

Observm c acest joc nu are un echilibru n strategii pure. Pentru juctorul 2, echilibrul n
strategii mixte este
)
2
1
,
2
1
(
, cu alte cuvinte, juctorul 2 este indiferent pe care dintre strategii o
adopt, D sau E. pentru juctorul 1 n schimb, cum nu tie care va fi comportamentul juctorului 2,
atunci el poate ctiga:


0 0
2
1
0
2
1
,.) (
5 , 0 ) 2 (
2
1
1
2
1
,.) (
5 , 0 )
2
1
( 1 ) 2 (
2
1
,.) (
1
1
1
= + =
= + =
= + =
C u
B u
A u


Deci ctigul minmax al juctorului 1 este 0, pentru strategia C (cel mai mic ctig pe care l
poate obine el cutnd s-i maximizeze ctigul, indiferent de ceea ce ar juca ceilali juctori).


3.3.4. Jocuri infinit repetate

Dac jocurile considerate sunt infinit repetate, atunci nu mai poate fi aplicat algoritmul
induciei recursive pentru c nu exist o etap final a jocului de la care s pornim n sens invers. n
aceste condiii echilibrul se va determina prin intermediul rezultatelor expuse de teorema folk
(popular):

Teorema folk Dat fiind jocul-etap G i jocul infinit repetat G() i
i
u ctigul minmax al
juctorului i, atunci pentru orice vector al ctigurilor cu v i u v
i i
) ( , > , exist 1 < , astfel nct
) 1 , ( ) ( exist un echilibru Nash al jocului G() dat de repetarea strategiilor care asigur
ctigul v .

Demonstraie
Presupunem c exist o strategie pur a astfel nct v a u = ) ( (cu u v > ) i fie pentru fiecare
juctor i urmtoarea strategie: voi juca a
i
n perioada 0 i voi continua s joc a
i
atta timp ct n
perioada anterioar s-a jucat a. Dac nu, atunci se va juca m
i
(strategiile corespunztoare
ctigului minmax) pentru restul jocului.
Este posibil ca juctorul i s ctige prin deviere de la aceast strategie?


48

Jocuri dinamice n informaie complet

n perioada n care deviaz el va ctiga , iar dup va ctiga ) ( max a u
i
a
i
u , respectiv
ctigul adus de strategia minmax, deci pn la sfritul jocului va ctiga
i
u n fiecare etap.
n concluzie, ctigul adus de devierea n etapa t va fi:


i
t
a
i
t
i
t
i D
u a u u u
1
) ( max ) 1 ( ) 1 (
+
+ + =

Observaie ntre ctiguri exist urmtoarea relaie:


i i
a
i
u u a u > > ) ( max
Acest ctig este mai mic dect u
i
ct timp se depete nivelul este
i
, definit prin:


i i i
a
i i
v u a u = + ) ( max ) 1 ( (*)

Cum
i i
u v > , atunci soluia
i
a ecuaiei (*) este mai mic dect 1.
Fie
i
i
max = , deci exist astfel nct > ) ( , echilibrul jocului este dat de
strategiile care asigur ctigul v . q.e.d.

Observaii
Dac optimul nu este atins pentru o strategie pur, atunci el se poate realiza pentru o
strategie mixt, iar demonstraia va rmne aceeai.
n demonstraie am considerat faptul c ntr-o etap a jocului deviaz doar un singur juctor.
Altfel spus, dac > atunci un juctor nu va fi tentat s devieze deoarece ctigul din
deviere nu acoper pierderile ulterioare.

M. Friedman (1971) a demonstrat aceast teorem n condiii slbite:

Teorema Friedman Fie un echilibru al jocului-etap cu ctigul c. Atunci oricare ar fi
cu
*

U u ) ( , ) ( , > i c u
i i
astfel nct > ) ( strategia asociat lui u s fie un echilibru
perfect n subjoc.

Exemplul 3.3 Revenind la dilema prizonierului infinit repetat, s determinm care este
pragul pentru care juctorii vor adopta un comportament cooperativ n cadrul jocului.


Juctor 2
A N
A -8,-8 -10,0 Juctor 1
N 0,-10 -2,-2

Pentru acest joc ctigul minmax este asigurat de strategia (A, A) cu ) 8 , 8 ( ) , ( = A A u .
Ctigul de cooperare este v N N u = ) , ( deoarece (-2, -2)>(-8, -8).

49

Jocuri dinamice n informaie complet

Ctigul adus de deviere pentru juctorul 1 va fi
{ }
0 ) (., max
,
1
= =

N u
i
N A a
u .

Observm c ) 8 2 0 ( ,
1 1 1
> > > > u v u - analog pentru juctorul 2.

De aici obinem ctigul mediu de deviere al juctorului 1 pentru jocul infinit repetat:


1 1 1 1 1 1 1 1 1
) 1 ( ) ( max ) 1 ( u u u a u u
a
D
+ = + = .

Ctigul mediu de cooperare va fi:

- deoarece ctig la fiecare etap , deci i n medie .
1 1
v u
C
=
1
v
1
v
De aici rezult:

1 1
1 1
1 1 1 1 1 1 1 1
) 1 (
u v
u v
v u u u u
C D

= = + = sau
25 , 0
8
2
) 8 ( 0
) 2 ( 0
1 1
1 1
1
= =


=

=
v u
v u


Cu alte cuvinte pragul de la care juctorii vor adopta un comportament cooperativ va fi
25 , 0 = , respectiv pentru orice ) 1 , 25 . 0 ( juctorii vor coopera.
Observaie Jocul fiind simetric obinem 25 , 0
2 1
= = .


3.3.5. Strategia de pedepsire i jocurile finit repetate

n cazul jocurilor finit repetate strategia de a se repeta echilibrul Nash al jocului-etap pare a
fi echilibrul jocului dinamic. Totui, am vzut c aceast strategie nu este credibil. n acest context
apare ntrebarea dac putem adopta comportamentul de pedepsire astfel nct s fie determinai
juctorii s adopte un comportament cooperativ chiar i n cadrul jocurilor finit repetate. Rspunsul
la aceast ntrebare este afirmativ, cu observaia c n acest caz soluia depinde att de nivelul
pragului dat de factorul de actualizare , ct i de durata jocului, respectiv de numrul de etape
jucate T.

Astfel avem teorema:
Teorem Dat fiind jocul-etap G i jocul finit repetat G(T),
i
u ctigul minmax al
juctorului i, atunci pentru orice vector al ctigurilor , cu v 1 ) ( , ) ( , < > i u v
i i
, pentru T
suficient de mare, astfel nct 0 ' ) ( ), 1 ( ) > ( T astfel nct repetarea de T ori a strategiilor ce
asigur ctigul constituie echilibrul Nash al jocului repetat pentru T etape. v

Demonstraie
Demonstraia se poate face analog cu cea a teoremei folk. Dac strategia adoptat este una
de pedepsire, atunci exist un prag al rbdrii i un numr minim de etape T n care trebuie

50

Jocuri dinamice n informaie complet

s se desfoare jocul pentru ca cel puin T etape juctorii vor adopta un comportament cooperativ
adoptnd strategia care aduce ctigul . v
T

i u (

u
v
Fie
i
u = ctigul minmax al juctorului i;

i i
u v > - ctigul de cooperare al juctorului i;
) ( max a u u
a
i = - ctigul de deviere al juctorului i.

n cazul n care deviaz, ctigul juctorului i este:

|
.
|

\
|
+ +

= + =
+
1 '
0 1 '
'
1
1
1
) ' (
T
t
T
T t
i
t
i
i
t
T
i
i D
i
u u v s u



cu T numrul de etape n care juctorul i coopereaz, T<T.

Ctigul de cooperare pe ntreaga perioad va fi :

=
+

=
T
t
i
t
T
i
i C
i
v u
0
1
1
1



Pragul de la care juctorul i nu este tentat s devieze este dat de inegalitatea

D
i
C
i
u u |
.
|

\
|
+ +



= + =
+
=
+
1 '
0 1 '
'
1
0
1
1
1
1
1
T
t
T
T t
i
t
i
T
i
t
T
i
i
T
t
i
t
T
i
i
u u v v


i
i
i i
T T
T T T
i i i
T
i
T
T t
i
t
i
i
T
v u
u v
u v v u v v u

+ =

'
' '
'
1 '
'
1
) 1 (
1
1
) ( ) ) ( ) (

(*)

Dat fiind numrul de etape T ce se doresc a fi cooperative i un prag de semnificaie , se
poate obine T, respectiv numrul de etape pe care le are jocul finit repetat ca juctorii s coopereze
T perioade. Vom avea:

|
|
.
|

\
|

+
i i
i
i
T T T T
i i
i
i
T
u v
v u
T
v
u
' 2 ' ' 2
) 1 ( log ) 1 (

Dac se d n schimb T i T atunci se poate determina , nivelul minim al factorului de actualizare
pentru care juctorii vor coopera, din relaia (*).


3.3.6. Aplicaii

1. Investiia strategic i duopolul

Pe piaa unui produs exist doi productori, firma 1 i firma 2, pentru care costul mediu este
acelai, c=3 u.m. pe unitatea de produs. Firma 1 poate s instaleze o nou tehnologie care i va
reduce costul la c
1
=1 u.m. pe unitatea de produs, dar costul acestei tehnologii este f. Firma 2
observ decizia de investiii a primei firme i apoi alege nivelul outputului simultan cu prima firm.
Funcia de cerere invers pe pia este P(Q) = a Q, cu Q = q
1
+q
2
.

51

Jocuri dinamice n informaie complet


Funciile de ctig sunt date de profiturile firmelor, respectiv pentru firma 1 avem:



=
q q c a
q c a
q q
1 1
2 1
2 1 1
(
(
) , (
f q
1 2
)

q q
1
)
- dac nu investete
- dac investete
2 2 1 2 1 2
) ( ) , ( q q q c a q q =
Se cere s se determine echilibrul acestui joc. Date numerice a=15, f parametru.
Rezolvare Dac firma 1 nu investete, atunci costurile medii pe unitatea de produs vor fi
identice pentru cele dou firme, care se vor afla n competiie de tip Cournot.
Funciile de reacie sunt: ,
2 2
) (
j
j i
q
c a
q R

= iar echilibrul jocului este


*
2
*
1
3
q
c a
q =

= ,
iar nivelurile profiturilor vor fi
9
) (
2
*
2
*
1
c a
= = .
Pentru datele numerice avem:
) 16 , 16 ( ) , (
) 4 , 4 ( ) , (
*
2
*
1
*
2
*
1
=
=

q q

Dac firma 1 investete n schimb, atunci funciile de reacie se obin din problemele:

2 2 1 2 1 2
1 2 1 1 2 1 1
) ( max ) , ( max
) ( max ) , ( max
2 2
1 1
q q q c a q q
f q q q c a q q
q q
q q
=
=

De aici:
2 2
) ( ,
2 2
) (
2 1
2 1
1
1 2
q c a
q R
q c a
q R

=

De aici, nivelul de echilibru rezult din rezolvarea sistemului:

+
=
+
=

= +
= +

=
3
2
3
2
2
2
2 2
2 2
1 *
2
1 *
1
1 2 1
2 1
2 1
1
1
2
c c a
q
c c a
q
c a q q
c a q q
q c a
q
q c a
q
I
I


cu ctigurile

|
|
.
|

\
|
|
.
|

\
| +
|
.
|

\
| +
=
2
1
2
1 *
2
*
1
3
2
;
3
2
) , (
c c a
f
c c a
I I

Deci firma 1 va alege s investeasc doar dac , adic
1
*
1
>
I
f
c c a c a

+
<

9
) 2 (
9
) (
2
1
2
, adic dac
9
) (
9
) 2 (
2 2
1
c a c c a
f

+
< .

Numeric obinem
)
9
100
,
9
256
( ) , (
)
3
10
,
3
16
( ) , (
*
2
*
1
*
2
*
1
f
q q
I I
I I
=
=



52

Jocuri dinamice n informaie complet


53

Deci prima firm va investii doar dac pentru ea costul tehnologic, 16
9
256
9
112
= < f .