Jogos Repetidos

Jogos Repetidos Infinitas Vezes Nash Folk Folk Perfeito Jogos Repetidos Finitas Vezes
Jogos Repetidos
Prof. Leandro Chaves Rêgo

Programa de Pós-Graduação em Estatística - UFPE
Programa de Pós-Graduação em Engenharia de Produção - UFPE
Recife, 21 de Outubro de 2014

Jogos Repetidos
Introdução
Agentes podem se comportar de maneira diferente em relação a outros agentes
com os quais eles esperam interagir novamente em comparação a outros
agentes com os quais eles esperam nunca mais interagir. Para entender como o
comportamento racional e inteligente pode ser afetado pela estrutura de
futuras interações entre os agentes, estudam-se jogos repetidos.
Em geral, temos duas classes de modelos para jogos repetidos: o horizonte

pode ser finito ou infinito. Veremos que os resultados podem ser diferentes
quando analisamos um ou outro tipo de modelo. Um modelo com um horizonte
infinito é apropriado se após cada período de interação os agentes acreditam
que o jogo continuará, enquanto um modelo com horizonte finito é apropriado
se os agentes claramente percebem um período final de interação para o jogo.
Jogos Repetidos Infinitas Vezes
O modelo para jogos repetidos infinitas vezes captura uma situação na qual
agentes interagem repetidas vezes em um jogo em forma normal G .
Assumiremos que G = (N, (Ai )i ∈N , (ui )i ∈N ), onde Ai é compacto e ui é uma
função contínua e limitada em A = ×j∈N Aj .
A repetição infinita de um jogo G é um jogo em forma extensiva com
informação perfeita e movimentos simultâneos (N, H, P, (ui∗ )i ∈N ), onde
t
H = {∅} ∪ (∪∞ t=1 A ) ∪ A , onde ∅ é a história inicial e A é o conjunto
∞ ∞
t ∞
de todas as seqüências infinitas (a )t=1 de perfis de estratégias de G .
P(h) = N para toda história não terminal, de forma que todos os
jogadores se movem após cada repetição do jogo G .
Jogos Repetidos Infinitas Vezes
ui∗ é uma função utilidade em A∞ que estende a função utilidade ui no

sentido que ela satisfaz a seguinte condição de separabilidade fraca: se
(at ) ∈ A∞ , a ∈ A, a′ ∈ A, e ui (a) ≥ ui (a′ ), então
ui∗ (a1 , . . . , at−1 , a, at+1 , . . .)

≥ ui∗ (a1 , . . . , at−1 , a′ , at+1 , . . .),
para todos os valores de t.

Uma história é terminal se, e somente se, ela for infinita. Após qualquer
história não terminal, cada jogador escolhe uma ação em Ai . Portanto, uma
estratégia para o jogador i é uma função que associa uma ação em Ai para
cada seqüência finita de perfis de estratégias de G .
Função Utilidade
Podemos impor outras condições nas funções utilidades dos agentes além da
separabilidade fraca. Primeiro, podemos assumir que a função utilidade ui∗ do
jogo repetido é baseada somente na função utilidade do jogo G , isto é,
assumimos que ui∗ ((at )∞ t ∞
t=1 ) ≥ ui ((b )t=1 ) depende apenas da relação entre as
∗
correspondentes seqüência de utilidades ui (at ) e ui (b t ) de G . Consideraremos

três possíveis condições na forma da função utilidade, a primeira é definida a
seguir:
Critério do Desconto
Existe algum número δ ∈ (0, 1), chamado de fator de desconto, tal que a
seqüência de números
P reais vit é pelo menos tão boa quanto a seqüência wit se,
t−1
e somente se, ∞ δ
P∞ t−1
i =1 (vit − wit ) ≥ 0. Como assumimos que vit é limitada,
temos que a série i δ vit é convergente e representa como o agente i
avalia a seqüência (vit ) de utilidades. Quando a função utilidade
P det−1 todos os
agentes tomam esta forma, nos referimos ao perfil ((1 − δ) ∞ t=1 δ vit )i ∈N
como o perfil de utilidades no jogo repetido associado com a seqüência (v t ) de
perfil de utilidades do jogo G .
Note que utilidades que satisfazem este critério do desconto tratam os períodos
de forma diferente, pois o valor de um ganho diminui com o tempo. As outras
condições tratam os períodos de forma simétrica.
Critério do Limite das Médias
No segundo critério os jogadores avaliam uma PTseqüência (vit ) essencialmente

t
pelo limite de sua média aritmética limT T1 v
t=1 i , contudo como este limite
pode não existir o critério se torna o seguinte:
De acordo com este critério, a seqüência de números reais (vit ) é melhor que a
seqüência (wit ) se, e somente se,
1 X t
T
lim inf (vi − wit ) > 0.
T T t=1
Quando a função utilidade de PTtodos os agentes tomam esta forma, nos

t
referimos ao perfil (limT T1 t=1 vi )i ∈N , se ele existe, como o perfil de
utilidades no jogo repetido associado com a seqüência (v t ) de perfil de
utilidades do jogo G .
Observação
Note que ao contrário do caso do desconto onde a mudança de utilidade em

apenas um único período pode alterar a preferência entre seqüências, no caso
do critério do limite de médias, qualquer mudança em um número finito de
períodos não altera como a seqüência é avaliada. Portanto, este critério é útil
para modelar situações onde os agentes põe toda importância no longo prazo
mesmo que isso signifique prejuízos consideráveis no curto prazo.
Critério da Ultrapassagem
O terceiro e último critério trata os períodos simetricamente, coloca ênfase no

longo prazo, mas ao mesmo tempo é sensível a uma mudança de utilidade em
um único período.
De acordo com este critério, a seqüência de números reais (vit ) é melhor que a
seqüência (wit ) se, e somente se,
X
T
lim inf (vit − wit ) > 0.
T
t=1
Observação 1.1
Quando utilizamos este critério, não pode-se definir um perfil de utilidades
t
P det utilidades v do jogo G , pois
do jogo repetido associado a uma seqüência
na grande maioria dos casos de interesse t vi é uma série divergente.
Exemplos
Os seguintes exemplos ilustram algumas diferenças entre esses três critérios.

A seqüência (1, −1, 0, 0, . . .) é melhor para qualquer δ ∈ (0, 1) pelo
critério do desconto que a seqüência (0, 0, . . .), mas de acordo com os
outros dois critérios as seqüências são indiferentes.
A seqüência (−1, 2, 0, 0, . . .) é melhor que a seqüência (0, 0, . . .) segundo
o critério da ultrapassagem, mas as duas são indiferentes segundo o
critério do limite das médias.
A seqüência (0, . . . , 0, 1, 1, . . .) na qual M zeros são seguidos por uma
seqüência constante de 1’s é melhor pelo critério do limite das médias que
a seqüência (1, 0, 0, . . .) para qualquer valor de M, mas para qualquer δ
existe um M ∗ grande o suficiente tal que para todo M > M ∗ , esta última
seqüência é melhor que a anterior pelo critério do desconto para este
valor de δ.
Perfil de Utilidades Possível
Denotaremos por u(a) o perfil (ui (a))i ∈N . Um vetor v ∈ IR N é um perfil de

utilidades de (N, (Ai ), (ui )) se existe um perfil de estratégias a ∈ A para o qual
v = u(a). Nos referimos a um vetor v ∈ IR N como um perfil de utilidades
possível de (N, (Ai ), (ui ))Pse ele for uma combinação convexa de perfis de
utilidades, isto é, se v = a∈A αa u(a)P para alguma coleção (αa )a∈A de
números racionais não-negativos com a∈A αa = 1.a
Note que um perfil de utilidades possível de (N, (Ai ), (ui )) não é
necessariamente um perfil de utilidades de (N, (Ai ), (ui )).
a
Seguimos a restrição de requerer que αa seja racional sugerida por Osborne
e Rubistein (1994), esta restrição pode ser retirada complicando argumentos
que veremos a seguir.
Estratégias como Máquinas
Vamos agora apresentar uma linguagem para descrever convenientemente as

estratégias utilizadas por jogadores em jogos repetidos. Começamos definindo o
que é uma máquina, que é uma abstração do processo utilizado por um jogador
para implementar uma estratégia. Uma máquina para o jogador i de um jogo
G = (N, (Ai ), (ui )) repetido infinitas vezes têm as seguintes componentes:
Um conjunto de estados Qi .
Um estado inicial qi0 ∈ Qi .
Uma função de saída fi : Qi → Ai que especifica uma estratégia do jogo
G para cada estado.
Uma função de transição τi : Qi × A → Qi que associa um estado a cada
par de estado e perfil de estratégias do jogo G .
Exemplos
Para ilustrar este conceito de máquina considere os seguintes exemplos de

máquinas para um jogador no Dilema do Prisioneiro representado na tabela a
seguir repetido infinitas vezes.
C D
C 3,3 0,4
D 4,0 1,1
Máquina 1
A máquina (Qi , qi0 , fi , τi ) definida a seguir é a mais simples que implementa a

estratégia que escolhe C enquanto ambos jogadores tenham sempre escolhido
C no passado, e escolhe D no caso contrário.
Qi = {C , D}.
qi0 = C .
fi (C ) = C e fi (D) = D.
τi (C , (C , C )) = C e τi (X , (Y , Z )) = D se (X , (Y , Z )) 6= (C , (C , C )).
Máquina 2
A seguinte máquina implementa a estratégia para o jogador 1 escolha C

enquanto 2 escolhe C , se o jogador 2 escolhe D quando o jogador 1 escolhe C ,
o jogador 1 jogará D por três períodos seguidos e retornará a escolher C após
esses três períodos independente das escolhas de 2 nestes três períodos, ou
seja, 1 pune 2 por três períodos e depois perdoa 2.
Q1 = {P0 , P1 , P2 , P3 }.
q10 = P0 .
f1 (P0 ) = C e f1 (P) = D se P 6= P0 .
τ1 (P0 , (·, C )) = P0 , τ1 (P0 , (·, D)) = P1 , τ1 (P1 , (·, ·)) = P2 ,
τ1 (P2 , (·, ·)) = P3 , e τ1 (P3 , (·, ·)) = P0 .
Máquina 3
A seguinte máquina implementa a estratégia para o jogador 2, comece jogando

C e continue se o jogador 1 escolhe D. Se o jogador 1 escolher C , então
escolha D, continue a jogar D até que o jogador 1 escolha D novamente,
quando 2 deverá escolher C , e assim por diante.
Q2 = {R0 , R1 }.
q20 = R0 .
f2 (R0 ) = C e f2 (R1 ) = D.
τ2 (R0 , (D, ·)) = R0 , τ2 (R0 , (C , ·)) = R1 , τ2 (R1 , (C , ·)) = R1 , e
τ2 (R1 , (D, ·)) = R0 .
Estratégias Gatilho: Teoremas de Nash Folk
Estudamos agora o conjunto de equilíbrios de Nash de um jogo repetido

infinitas vezes. Mostramos que este conjunto inclui perfis de estratégias que
não são repetições de equilíbrios de Nash do jogo que se repete a cada período.
Para justificar este perfil, cada jogador deve ser impedido de desviar através de
uma punição. Esta punição pode tomar várias formas. Uma possibilidade é que
cada jogador use uma estratégia gatilho: qualquer desvio dos outros jogadores
leva o jogador a realizar uma estratégia punitiva que dura para sempre. Nesta
seção estudaremos equilíbrios em que os jogadores utilizam tais tipos de
estratégias.
Utilidade Minimax
Dado um jogo G = (N, (Ai ), (ui )), uma utilidade minimax para o jogador i,
denotada por vi , é a menor utilidade que os demais jogadores podem forçar
jogador i receber:
vi = min max ui (a−i , ai ).
a−i ∈A−i ai ∈Ai
Um perfil de utilidades w para o qual temos wi ≥ vi para todo i ∈ N é

chamado individualmente racional; se wi > vi para todo i ∈ N, então w é
individualmente racional estrito. Se a ∈ A é um perfil de estratégias de G para
o qual u(a) é individualmente racional (estrito), então nos referimos a a como
um perfil de estratégias individualmente racional (estrito) de G . Seja p−i ∈ A−i
uma das soluções do problema de minimização acima. A coleção de estratégias
p−i é a punição mais severa que os demais jogadores podem impor ao jogador i.
Mostraremos que existe uma relação entre o conjunto de perfis de utilidade dos
equilíbrios de Nash de um jogo repetido infinitas vezes e o conjunto de perfis de
utilidade possíveis e individualmente racionais do jogo G , quando utilizamos ou
o critério do desconto ou o critério do limite das médias.
Equilíbrio de Nash de Jogo Repetido Infinitas

Vezes
Teorema 2.1
Todo perfil de utilidades de um equilíbrio de Nash do jogo G = (N, (Ai ), (ui ))
repetido infinitas vezes quando se utiliza os critérios do limite das médias ou do
desconto para qualquer fator de desconto δ ∈ (0, 1) é um perfil de utilidades
individualmente racional de G .
Prova
Suponha que w é um perfil de utilidades do jogo que não é individualmente

racional em G . Então, existe i ∈ N tal que wi < vi . w não pode ser um perfil
de utilidades de um equilíbrio de Nash do jogo repetido infinitas vezes quando
se utiliza os critérios do limite das médias ou do desconto para qualquer fator
de desconto δ ∈ (0, 1), pois para qualquer perfil de estratégias do jogo repetido
s, a estratégia si′ do jogador i que é uma melhor resposta a s−i (h) para cada
história h garante ao jogador i utilidade de pelo menos vi em cada período.
Portanto, utilizando qualquer um desses dois critérios, temos que é vantajoso
para o jogador i mudar de estratégias quando estamos considerando qualquer
perfil de estratégias que dá ao jogador i utilidade menor que vi . Logo, tais
perfis não podem ser equilíbrios de Nash do jogo repetido.
Nash Folk para Limite das Médias
O próximo teorema prova a recíproca para o caso do critério do limite das

médias.
Teorema 2.2
Teorema de Nash Folk para o Critério do Limite das Médias. Todo perfil de
utilidades possível e individualmente racional de um jogo G = (N, (Ai ), (ui )) é
um perfil de utilidades de um equilíbrio de Nash do jogo G repetido infinitas
vezes quando utilizamos o critério do limite das médias.
Prova
P
Seja w = a∈A ( βγa )u(a) um perfil de utilidades P possível e individualmente
racional, onde βa é um número inteiro e γ = a∈A βa . (Note que é sempre
possível escrever um perfil de utilidades possível e individualmente racional
desta forma pois assumimos que αa é um número racional na definição de um
perfil de utilidades possível.) Seja (at ) uma seqüência cíclica de perfis de
estratégia do jogo G onde o ciclo de comprimento γ possui βa repetições do
perfil de estratégias a para todo a ∈ A. Seja si a estratégia para o jogo repetido
do jogador i que escolhe ait em cada período t exceto quando existir algum
período anterior t ′ onde um único jogador diferente de i desviou da estratégia
′
especificada pelo perfil at , neste caso, se j foi o primeiro jogador a desviar em
um tal período t ′ , temos que i jogará a estratégia (p−j )i em todos os períodos
subseqüentes a t ′ independente do que os demais jogadores façam no futuro.
Prova
O perfil de estratégias s é um equilíbrio de Nash do jogo repetido visto que um

jogador j que desvia da estratégia sj recebe no máximo sua utilidade minimax
vj em todo período subseqüente ao primeiro desvio, portanto segundo o critério
do limite das médias a utilidade desta outra estratégia é menor ou igual a vj .
Mas de acordo com o perfil s, a utilidade de j é igual a wj ≥ vj segundo este
critério, portanto nenhum jogador tem incentivo a desviar da estratégia
determinada pelo perfil s.
Nash Folk para Desconto
O próximo teorema é o resultado análogo para o critério do desconto.
Teorema 2.3
Seja w um perfil de utilidades possível e individualmente racional estrito de um
jogo G = (N, (Ai ), (ui )). Para todo ǫ > 0, existe δ ′ < 1 tal que se 1 > δ > δ ′ ,
então o jogo G repetido infinitas vezes quando se utiliza o critério do desconto
com fator de desconto δ possui um equilíbrio de Nash com perfil de utilidades
w ′ satisfaz |w ′ − w | < ǫ.
Prova: Exercício.
Exemplo
Para ilustrar equilíbrios de Nash nos quais jogadores utilizam estratégias

gatilho, considere dois jogos repetidos infinitas vezes. O primeiro G1 é o Dilema
do Prisioneiro descrito na tabela a seguir:
C D
C 3,3 0,4
D 4,0 1,1
Exemplo
O segundo G2 é o jogo descrito na tabela a seguir:
C D
C 2,3 1,5
D 0,1 0,1
Exemplo
Em G1 e G2 temos que a utilidade minimax para ambos os jogadores é 1 e

jogando D cada jogador garante que o outro não pode conseguir uma utilidade
maior que este valor (p−1 = p−2 = D). Em ambos os casos, a estratégia
gatilho utilizada na prova do Teorema Nash Folk para o limite das médias
envolve os jogadores mudarem para utilizar D em resposta a algum desvio das
estratégias de equilíbrio. Em G1 como D domina C , então esta ameaça é
justificável. Por outro lado, em G2 como a estratégia C domina a estratégia D
para o jogador 1, o jogador 1 sofre com a punição que ele impõe ao jogador 2.
Portanto, esta ameaça no jogo G2 parece inacreditável.
Observação 2.4
Este exemplo nos leva a necessidade de analisar equilíbrios de subjogo
perfeito, pois neste caso todos os jogadores têm que agir otimamente após
cada história.
Punindo por Tempo Limitado: Um Teorema de

Folk Perfeito para o Critério do Limite das Médias
As estratégias gatilho utilizadas na prova do Teorema de Nash Folk punem os

jogadores que desviam da estratégia de equilíbrio indefinidamente. Esta
punição pode ser desnecessariamente severa, só é necessário manter a utilidade
do jogador que desvia da estratégia prescrita no nível minimax por uma
quantidade de períodos suficientemente grande para que o desvio não seja
lucrativo; deste modo, inibindo tal comportamento. Se as preferências dos
jogadores obedecem o critério do limite das médias, então esta estratégia que
retorna a trajetória de equilíbrio tem a vantagem que ela proporciona a mesma
utilidade que a trajetória de equilíbrio, visto que elas diferem em apenas um
número finito de períodos. Portanto, esta estratégia não causa nenhum
prejuízo ao jogador que precisa impor uma punição a algum oponente.
Veremos que tal estratégia constitui um equilíbrio de subjogo perfeito do jogo
repetido infinitas vezes quando o critério do limite das médias é utilizado.
Folk Perfeito para Limite das Médias
Teorema 3.1
Todo perfil de utilidades possível e individualmente racional estrito de um jogo
G = (N, (Ai ), (ui )) é um perfil de utilidades de um equilíbrio de subjogo
perfeito do jogo G repetido infinitas vezes quando consideramos o critério do
limite das médias.
Prova
P
Seja w = a∈A ( βγa )u(a) um perfil de utilidades possível P e individualmente
racional estrito, onde βa é um número inteiro e γ = a∈A βa . Seja ainda
(ak )γk=1 uma seqüência de perfis de estratégia de G que consiste de βa
repetições de a para cada a ∈ A.
Vamos construir um perfil de estratégias para o jogo repetido que gera uma
seqüência de perfis de estratégias de G que consiste de infinitas repetições do
ciclo (ak )γk=1 . Cada jogador pune um desvio dos demais por um período
limitado de tempo, que por conveniência assumiremos que só inicia após o fim
de um ciclo (ak )γk=1 . Após o período de punição todos os jogadores retomam
as repetições de (ak )γk=1 . Se houverem desvios simultâneos de jogadores esses
são ignorados e não são punidos. Como estamos considerando o critério do
limite das médias, se todos os jogadores, seguem este tipo de estratégia temos
que qualquer trajetória têm perfil de utilidade w .
Formalmente, seja g ∗ = maxi ∈N,a′ ∈Ai ,a∈A ui (a−i , ai′ ) − ui (a), isto é, g ∗ é o
i
maior ganho que qualquer jogador pode ter desviando de qualquer perfil de
estratégias. Como wi > vi , existe um inteiro m∗ grande o suficiente tal que
m∗ (wi − vi ) ≥ γg ∗ para todo i ∈ N. A estratégia de qualquer jogador i pune
qualquer jogador que desvie por m∗ períodos e é descrita pela seguinte
máquina:
Prova
Qi = {(Normk , d ): ou k = 1 e d = 0, ou 2 ≤ k ≤ γ e
d ∈ {0} ∪ N} ∪ {P(j, t) : j ∈ N e 1 ≤ t ≤ m∗ }.
O estado (Normk , 0) significa que estamos no k-ésimo período

de um ciclo e nenhum jogador merece punição.
O estado (Normk , j) significa que estamos no k-ésimo período
de um ciclo e o jogador j merece punição.
O estado P(j, t) significa que o jogador j está sendo punido e
ainda restam t períodos de punição.
qi0 = (Norm1 , 0).
Prova
fi ((Normk , d )) = aik , fi (P(j, t)) = (p−j )i se j 6= i e fi (P(i, t)) = bi (p−i ),

onde bi (p−i ) é uma melhor resposta para p−i em G .
De P(j, t) mude para P(j, t − 1) se 2 ≤ t ≤ m∗ , de P(j, 1) mude para
(Norm1 , 0).
De (Normk , d ) mude para (Normk+1(mod γ) , d ), exceto quando
d = 0 e apenas o jogador j desviou de ak , neste caso, de
(Normk , 0) mude para (Normk+1 , j) se k 6= γ e de (Normγ , 0)
mude para P(j, m∗ ).
d 6= 0 e k = γ, neste caso de (Normγ , d) mude para P(d, m∗ ).
Prova
Vamos agora verificar que este perfil de estratégias constitui um equilíbrio de

subjogo perfeito do jogo repetido quando usamos o critério do limite das
médias. Primeiro, após qualquer história na qual nenhum jogador tenha
desviado ainda, nenhum jogador pode desviar da estratégia de equilíbrio e obter
ganhos, pois o maior ganho possível por ciclo é γg ∗ e a perda que o jogador i
sofrerá pela punição dos demais é m∗ (wi − vi ) por ciclo, que é maior ou igual a
γg ∗ para todo i ∈ N.
Suponha agora que estamos em qualquer história na qual o jogador j merece
ser punido ou está sendo punido. Note que após o ciclo de punição para o
jogador j, segundo as estratégias de equilíbrio, o jogo retornará ao estado
inicial, e já provamos que deste ponto em diante não é vantajoso para nenhum
jogador desviar da estratégia de equilíbrio. Portanto, como até o fim do ciclo
da punição temos uma quantidade finita de no máximo (γ + m∗ ) períodos,
segundo o critério do limite das médias nenhum jogador pode desviar com
vantagem.
Exemplo
Considere novamente o jogo da tabela a seguir repetido infinitas vezes.
C D
C 2,3 1,5
D 0,1 0,1
Exemplo
Neste jogo, temos v1 = v2 = 1. Considere o perfil de estratégias do jogo

repetido definido na prova do Teorema 3.1 que suporta a seqüência de perfis de
estratégia (at ), onde at = (C , C ) que toma a seguinte forma: cada jogador
escolhe C em todo período a não ser que os outros jogadores desviaram no
período anterior, neste caso o jogador escolhe D por 2 períodos e depois
retorna a escolher C .Observe que após qualquer história onde não houve desvio
ou onde já terminou o período de punição, o jogador 1 não incentivo a desviar
pois C é uma estratégia dominante para ele. O jogador 2, após qualquer
história onde não houve desvio ou onde já terminou o período de punição,
também não tem incentivo para desviar pois se desviar receberá (5, 1, 1) por
cada ciclo de desvio e punição, enquanto se não desviar receberá (3, 3, 3).
Imediatamente após um desvio do jogador 2, o jogador 2 pode tomar qualquer
ação nos dois períodos de punição que teremos um equilíbrio de subjogo
perfeito, enquanto o jogador 1 se seguir a estratégia de equilíbrio receberá
(0, 0, 2, 2, 2, 2, 2, . . .) e se resolver não punir jogador 2 receberá
(2, 2, 2, 2, 2, . . .). Como pelo critério do limite das médias essas sequências são
indiferentes, então o jogador 1 irá punir o jogador 2.
Exemplo
Apesar desta estratégia ser um equilíbrio de subjogo perfeito quando

considera-se o critério do limite das médias, ela não é um equilíbrio de
considerarmos ou a regra da ultrapassagem ou a regra do desconto. Note que
após um desvio do jogador 2, o jogador 1 deve escolher D por 2 períodos antes
de retornar a C . Contudo, jogador 1 estaria melhor escolhendo C que punindo
o jogador 2, pois a seqüência de utilidades (2, 2, 2, 2, 2, . . .) é melhor segundo
os critérios de ultrapassagem e do desconto que a seqüência (0, 0, 2, 2, 2, . . .).
Para justificar uma trajetória de equilíbrio na qual o perfil de estratégias (C , C )
é utilizado em todo período, jogador 2 precisa punir o jogador 1 se este não
punir o jogador 2. Além disso, jogador 2 tem que ser punido se ele não punir
jogador 1 por não punir o jogador 2, e assim por diante. A seguir usaremos
estratégias que satisfazem este critério para provar Teoremas Perfeitos de Folk
para os critérios de ultrapassagem e desconto.
Punindo quem não Pune: Um Teorema de Folk

Perfeito para o Critério da Ultrapassagem
O próximo teorema utiliza estratégias que punem quem não punir para provar
um teorema de Folk Perfeito para o critério da ultrapassagem. Por
simplicidade, construiremos uma estratégia apenas para o caso onde a
trajetória de equilíbrio consiste de repetições de um único perfil de estratégia
individualmente racional estrito.
Teorema 3.2
Para todo perfil de estratégias individualmente racional estrito a∗ de um jogo
G = (N, (Ai ), (ui )), existe um um equilíbrio de subjogo perfeito do jogo G
repetido infinitas vezes quando consideramos o critério da ultrapassagem que
gera a trajetória (at ), onde at = a∗ , ∀t.
Prova
Seja M o máximo de ui (a) para todo i ∈ N e a ∈ A. Considere o perfil de

estratégias onde o jogador i utiliza a estratégia descrita pela seguinte máquina:
Qi = {Norm} ∪ {P(j, t) : j ∈ N e t ∈ IN }.
No estado Norm ninguém necessita ser punido.

No estado P(j, t) jogador j necessita ser punido por t períodos.
qi0 = Norm.
Prova
fi (Norm) = ai∗ , fi (P(j, t)) = (p−j )i se j 6= i e fi (P(i, t)) = bi (p−i ), onde

bi (p−i ) é uma melhor resposta para p−i em G .
Em resposta a um perfil de estratégia a:
De Norm fique em Norm exceto quando aj 6= aj∗ para um e
somente um j, neste caso mude para P(j, t), onde t é o menor
inteiro tal que M + tvj < (t + 1)uj (a∗ ). (Lembre que como a∗
é individualmente racional estrito uj (a∗ ) > vj ∀j ∈ N.)
Prova
De P(j, t):
se a−j = p−j ou al 6= (p−j )l para pelo menos dois jogadores
diferentes de j, ou seja, ou todos punem j ou pelo menos dois
não punem, mude para P(j, t − 1) se t ≥ 2, e para Norm se
t = 1.
se al 6= (p−j )l para um e somente um jogador l , então mude
para P(l , T (j, t)), onde T (j, t) é um inteiro grande o
suficiente tal que a soma da utilidade de l no estado P(j, t) e
nos T (j, t) períodos seguintes se l não desviar é maior ou
igual sua utilidade no estado P(j, t) quando ele desvia mais
T (j, t)vl . (Este número T (j, t) existe pois após t períodos os
jogadores retornariam ao perfil de equilíbrio a∗ e ul (a∗ ) > vl ).
Com este perfil de estratégias, qualquer tentativa de algum jogador de
aumentar sua utilidade desviando sozinho após qualquer história, incluindo
histórias após a qual punição deve ocorrer, não é vantajosa devido a punição
imposta pelos outros jogadores. Um argumento similar ao do Teorema 3.1
prova que este perfil é realmente um equilíbrio de subjogo perfeito. Verifique!
Recompensando quem Pune: Um Teorema de

Folk Perfeito para o Critério do Desconto
Como na estratégia utilizada na seção anterior um jogador, que não pune um
outro jogador j que deveria ser punido no período t, deve ser penalizado
durante T (j, t) períodos no futuro, temos que estes períodos de penalização
podem ser cada vez maiores, portanto não importa quão próximo de 1 seja o
fator de desconto pode ser que seja impossível que a pena futura seja maior
que o ganho presente do jogador quando utilizamos o critério do desconto.
Para estabelecer um resultado análogo para o caso do critério do desconto,
para tanto usaremos estratégias segundo as quais jogadores que punem
jogadores que desviam da estratégia de equilíbrio são recompensados no futuro
tornando o ato de punir vantajoso para tais jogadores. Como anteriormente,
por simplicidade, construiremos uma estratégia apenas para o caso onde a
trajetória de equilíbrio consiste de repetições de um único perfil de estratégia
individualmente racional estrito. Neste, teorema precisamos restringir a classe
de jogos G . Dizemos que um jogo G = (N, (Ai ), (ui )) tem dimensionalidade
completa em relação a um perfil de estratégias a∗ individualmente racional e
estrito se existe uma coleção (a(i))i ∈N de perfis de estratégias individualmente
racionais e estritos de G de forma que para todo i ∈ N, temos a∗ ≻i a(i) e
a(j) ≻i a(i) para todo j ∈ N − {i}.
Folk Perfeito para Desconto
Teorema 3.3
Seja a∗ um perfil de estratégias individualmente racional e estrito de um jogo
G = (N, (Ai ), (ui )) com dimensionalidade completa em relação a a∗ . Então,
existe δ < 1 tal que para todo δ > δ existe um equilíbrio de subjogo perfeito do
jogo G repetido infinitas vezes quando utilizamos o critério do desconto com
fator de desconto δ que gera a trajetória (at ) na qual at = a∗ para todo t.
Prova
Iremos descrever as estratégias utilizadas pelos jogadores neste tipo de

equilíbrio de subjogo perfeito utilizando uma máquina com três tipos de
estados. No estado C (0) o perfil de estratégias de G escolhido pelos jogadores
é a∗ . Para cada j ∈ N o estado C (j) é um estado de “reconciliação” que ocorre
após uma punição ao jogador j ser completada, neste estado o perfil de
estratégias escolhido é a(j). Para cada jogador j e período t entre 1 e L, que
especificaremos depois, o estado P(j, t) é um no qual ainda restam t períodos
para o jogador j ser punido, neste estado todo jogador i exceto j escolhe a
estratégia (p−j )i , e o jogador j escolhe uma melhor resposta para p−j . Se um
único jogador i se desviar da trajetória de equilíbrio ocorre uma transição para
o estado P(i, L). Se em nenhum dos L períodos houver um desvio por um
único jogador diferente de i o estado se torna C (i). Note que o conjunto de
estados {C (i)} serve como um sistema que pune jogadores que desviam
durante a fase de punição: se algum jogador i não pune jogador j como ele
deveria fazer, então após a fase de punição ao invés do estado se tornar C (j) se
tornará C (i), então o perfil de estratégias escolhido será pior para o jogador i,
pois a(j) ≻i a(i). Formalmente, assumindo que a(0) = a∗ , temos
Prova
Qi = {C (j) : j ∈ {0} ∪ N} ∪ {P(j, t) : j ∈ N e 1 ≤ t ≤ L}.

qi0 = C (0).
fi (C (j)) = (a(j))i , fi (P(j, t)) = (p−j )i se j 6= i e fi (P(i, t)) = bi (p−i ),
onde bi (p−i ) é uma melhor resposta para p−i em G .
Prova
Em resposta a um perfil de estratégia a:

De C (j) fique em C (j) exceto quando ak 6= (a(j))k para um e
somente um k, neste caso mude para P(k, L).
De P(j, t):
se a−j = p−j ou ak 6= (p−j )k para pelo menos dois jogadores
diferentes de j, ou seja, ou todos punem j ou pelo menos dois
não punem, mude para P(j, t − 1) se t ≥ 2, e para C (j) se
t = 1.
se ak 6= (p−j )k para um e somente um jogador k 6= j, então
mude para P(k, L).
Prova
Resta-nos agora especificar os valores de δ e L. Seja M o máximo de ui (a) para

todo i ∈ N e a ∈ A. Devemos escolher δ e L grandes o suficiente para que
qualquer desvio não seja vantajoso. Considere que estamos em um estado
C (j), então a utilidade esperada para qualquer jogador i desviar da estratégia
de equilíbrio é no máximo igual a:
X
L X
∞
M+ δ k vi + δ k ui (a(i)).
k=1 k=L+1
Por outro lado se i não desviar, sua utilidade esperada é:
X
L X
∞
ui (a(j)) + δ k ui (a(j)) + δ k ui (a(j)).
k=1 k=L+1
Prova
Note que or suposição temos que ui (a(j)) > ui (a(i)). Como ui (a(j)) > vi para
todo i, podemos escolher L tal que M − ui (a(j)) < L(ui (a(j)) − vi ) para todo
i ∈ N e j ∈ {0} ∪ N. Podemos ainda escolher δ ∗ próximo o suficiente de 1 tal
que para todo δ > δ ∗ , i ∈ N e j ∈ {0} ∪ N, temos
X
L X
L
M+ δ k vi < ui (a(j)) + δ k ui (a(j)).
k=1 k=1
Portanto, para tais escolha de L e δ não é vantajoso para nenhum jogador i

∗
desviar em um estado C (j). Suponha agora que estamos em um estado P(j, t),
então a utilidade esperada para qualquer jogador i 6= j desviar da estratégia de
equilíbrio é no máximo igual a:
X
L X
∞
M+ δ k vi + δ k ui (a(i)).
k=1 k=L+1
Prova
Por outro lado se i não desviar, sua utilidade esperada é:
X
t−1 X
∞
δ k ui (p−j , bj (p−j )) + δ k ui (a(j)).
k=0 k=t
Como t < L + 1 e ui (a(j)) > ui (a(i)), podemos escolher δ > δ ∗ próximo o

suficiente de 1 tal que para todo δ > δ, i ∈ N e j ∈ {0} ∪ N, temos
X
L X
t−1
M+ δ k vi − δ k ui (p−j , bj (p−j ))
k=1 k=0
X
∞ X
∞
< δ k ui (a(j)) − δ k ui (a(i)).
k=t k=L+1
Portanto, temos que não é vantajoso para um jogador i desviar em um estado

P(j, t). Como j utiliza uma melhor resposta em um estado P(j, t) não é
vantajoso para ele desviar desta estratégia.
Jogos Repetidos Finitas Vezes
Vamos agora estudar jogos repetidos finitas vezes. Seja

G = (N, (Ai )i ∈N , (ui )i ∈N ), onde Ai é compacto e ui é uma função contínua e
limitada em A = ×j∈N Aj .
Definição 4.1
A repetição finita de um jogo G é um jogo em forma extensiva com
informação perfeita e movimentos simultâneos (N, H, P, (ui∗ )i ∈N ), onde
H = {∅} ∪ (∪T t
t=1 A ), onde ∅ é a história inicial.
P(h) = N para toda história não terminal, de forma que todos os

jogadores se movem após cada repetição do jogo G .
ui∗ é uma função utilidade em AT que estende a função utilidade ui .
Vamos nos restringir ao casoPdo critério do limite das médias, ou seja,
T t 1 2 T
assumiremos que ui∗ (a) = T1 t=1 ui (a ), onde a = (a , a , . . . , a ).
Jogos Repetidos Finitas Vezes
Uma história a é terminal se, e somente se, a ∈ AT . Após qualquer história não
terminal, cada jogador i escolhe uma ação em Ai . Portanto, como no caso
infinito uma estratégia para o jogador i é uma função que associa uma ação em
Ai para cada seqüência finita de perfis de estratégias de G . Este jogo é
conhecido como a repetição do jogo G durante T períodos.
Equilíbrio de Nash
O argumento intuitivo por trás dos Teoremas de Folk para jogos repetidos
infinitas vezes é que qualquer perfil de utilidades que seja desejável por todos
os jogadores pode ser um equilíbrio de Nash se todos acreditam que quando se
desviarem da trajetória de equilíbrio serão punidos pelos demais jogadores. No
caso de jogos finitos, este argumento não pode ser aplicado em todos os casos,
pois sempre teremos que os jogadores devem jogar um equilíbrio de Nash no
último período de repetição T . Portanto, quando analisamos o período anterior
T − 1 as ameaças de punição podem se tornar inacreditáveis. O próximo
teorema mostra que no caso especial em que todos os equilíbrios de Nash o
perfil de utilidades é igual ao perfil de utilidades minimax de G (como no caso
do Dilema do Prisioneiro), então em qualquer período os jogadores deverão
utilizar um equilíbrio de Nash de G .
Equilíbrio de Nash para Jogos Repetidos Finitas

Vezes
Teorema 4.2
Se o perfil de utilidades em qualquer equilíbrio de Nash de um jogo em forma
normal G é o perfil (vi )i ∈N de utilidades minimax de G , então para qualquer
valor de T , todo equilíbrio de Nash do jogo G repetido T vezes gera uma
trajetória de perfis de estratégias (a1 , . . . , aT ) do jogo G com a propriedade
que at é um equilíbrio de Nash de G , para todo t = 1, 2, . . . , T .
Prova
Seja s o perfil de estratégias do jogo repetido que gera a trajetória de equilíbrio

a = (a1 , . . . , aT ). Suponha que exista um período t tal que at não seja um
t
equilíbrio de Nash de G . Então, existe i ∈ N tal que ui (a−i , ai ) > ui (at ).
Considere a estratégia si do jogador i que difere de si apenas no fato que após
′
a história (a1 , a2 , . . . , at−1 ) ela escolhe ai , e após qualquer história h que se

segue, ela escolhe uma ação melhor resposta para s−i (h), obtendo portanto
uma utilidade pelo menos igual a utilidade minimax vi . A trajetória gerada por
(s−i , si′ ) é uma história terminal b ∈ AT que é idêntica a a até o período t − 1,
ui (b t ) > ui (at ), e ui (b r ) ≥ vi = ui (ar ) para todo r ≥ t + 1. Portanto, jogador
i prefere b a a, contradizendo a suposição que s é um equilíbrio de Nash do
jogo repetido.
Observação
Este resultado se aplica a uma classe muito pequena de jogos. Por exemplo, se
o jogo G possuir um equilíbrio de Nash a∗ no qual a utilidade de algum jogador
excede sua utilidade minimax, então este jogador pode ser punido no último
período se ele tiver desviado no penúltimo período e a estratégia que seria
utilizada no último período fosse igual a a∗ . Se esta punição não for suficiente,
então existe L grande o suficiente tal que se a∗ for a estratégia a ser jogada nos
últimos L períodos, então qualquer desvio antes destas últimas L jogadas pode
ser punido impondo um pagamento minimax ao jogador que desviar até o fim
do jogo. O valor de L é independente da duração do jogo T . Portanto, para T
grande o suficiente, podemos obter como média das utilidades em um equilíbrio
de Nash do jogo repetido T vezes qualquer perfil de utilidades possível e
individualmente racional estrito. O próximo teorema ilustra este fato.
Folk Nash Finito
Teorema 4.3
Se G = (N, (Ai ), (ui )) tem um equilíbrio de Nash a′ no qual a utilidade de
qualquer jogador i excede sua utilidade minimax vi , então para qualquer perfil
de estratégia a∗ de G individualmente racional estrito e qualquer ǫ > 0, existe
um inteiro T ∗ tal que se T > T ∗ o jogo G repetido T vezes tem um equilíbrio
de Nash no qual o pagamento de cada jogador i difere de ui (a∗ ) por menos que
ǫ.
Prova
Considere a estratégia do jogador i descrita pela seguinte máquina.

Qi = {Normt : 1 ≤ t ≤ T − L} ∪ {P(j) : j ∈ N} ∪ {Nash}.
qi0 = Norm1 .
fi (Normt ) = ai∗ , fi (Nash) = ai′ , fi (P(j)) = (p−j )i se j 6= i e
fi (P(i)) = bi (p−i ), onde bi (p−i ) é uma melhor resposta para p−i em G .
De Normt mude para Normt+1 exceto quando t = T − L, neste caso
mude para Nash, ou quando apenas um jogador j desviou de a∗ , neste
caso mude para P(j).
De P(j) permaneça em P(j) para todo j ∈ N, e de Nash permaneça em
Nash.
Prova
Resta-nos especificar L. Um desvio só pode ser vantajoso em um dos estados

Normt . Para impedir tal desvio requeremos que L seja grande o suficiente tal
que maxai ∈Ai ui (a−i
∗
, ai ) − ui (a∗ ) ≤ L(ui (a′ ) − vi ) para todo i ∈ N. Finalmente,
para obter um perfil de utilidades que difere de ui (a∗ ) por menos de ǫ,
escolhemos T ∗ de forma que
(T ∗ − L)ui (a∗ ) + Lui (a′ )
| − ui (a∗ )| < ǫ, ∀i ∈ N.
T∗
Equilíbrio de Subjogo Perfeito
Em qualquer equilíbrio de subjogo perfeito de um jogo repetido finitas vezes, o

perfil de estratégias utilizado no último período após qualquer história (não
apenas após a história que ocorre se os jogadores seguem suas estratégias)
deve ser um equilíbrio de Nash de G . Portanto, a estratégia utilizada no
teorema anterior não constitui um equilíbrio de subjogo perfeito. Na verdade
nenhuma punição é possível se G tem um único equilíbrio de Nash.
Teorema 4.4
Se todos os equilíbrios de Nash de um jogo em forma normal G possuem um
único perfil de utilidades, então para qualquer valor de T o perfil de estratégias
escolhido após qualquer história em qualquer equilíbrio de subjogo perfeito do
jogo G repetido T vezes é um equilíbrio de Nash de G .
Prova
O perfil de estratégias utilizado em qualquer subjogo que começa no período T

em qualquer equilíbrio de subjogo perfeito do jogo repetido T vezes deve ser
um equilíbrio de Nash de G . Portanto, a utilidade de qualquer jogador no
último período é independente da história. Conseqüentemente, em qualquer
subjogo que comece no período T − 1 temos que em qualquer equilíbrio de
subjogo perfeito o perfil de estratégias utilizado em T − 1 deve ser um
equilíbrio de Nash de G . O restante da prova segue por indução.
Exemplo
No caso em que o jogo G possua mais de um equilíbrio de Nash que produzam

diferentes perfis de utilidades, então podemos realizar punição em um equilíbrio
de subjogo perfeito. Considere o seguinte exemplo:
Considere o jogo em forma normal a seguir:
C D E
C 3,3 0,4 0,0
D 4,0 1,1 0,0
E 0,0 0,0 0,0
Exemplo
Existe um equilíbrio de subjogo perfeito deste jogo repetido T vezes no qual o

perfil de estratégias (C , C ) é utilizado em todos exceto nos últimos 3 períodos,
nos quais o perfil utilizado é (D, D). No equilíbrio ambos jogadores utilizam a
seguinte estratégia, escolha C em qualquer período até o período T − 3 a não
ser que D já tenha sido usada no passado, neste caso escolha E até o fim do
jogo. Se C for utilizada por ambos até o período T − 3, escolha D nos últimos
3 períodos. Um jogador que desviar para D até o período T − 3 após uma
história que consiste somente de perfis (C , C ) nos períodos anteriores ganhará
1 em utilidade neste período e perderá pelo menos 3 em utilidade já que o
outro jogador escolherá E nos períodos seguintes. Observe que esta punição é
justificada pois, (E , E ) também é um equilíbrio de Nash de G . É interessante
ressaltar que este jogo difere de um Dilema do Prisioneiro apenas pela inclusão
de uma ação fracamente dominada para cada jogador.
Folk Perfeito Finito
O próximo teorema caracteriza o conjunto de perfis de utilidade que podem ser

obtidos através de um equilíbrio de subjogo perfeito do jogo G repetido
infinitas vezes para uma grande classe de jogos G .
Teorema 4.5
Seja a∗ um perfil de estratégias individualmente racionais estrito de
G = (N, (Ai ), (ui )). Assuma que (a) para cada i ∈ N existem dois equilíbrios
de Nash de G que diferem na utilidade do jogador i e (b) existe uma coleção
(a(i))i ∈N de perfis de estratégias individualmente racionais estritos de G tal
que para todo jogador i ∈ N, temos a∗ ≻i a(i) e a(j) ≻i a(i) para todo
j ∈ N − {i}. Então, para todo ǫ > 0, existe um inteiro T ∗ tal que se T > T ∗ o
jogo G repetido T vezes tem um equilíbrio de subjogo perfeito no qual a
utilidade do jogador i difere de ui (a∗ ) por menos de ǫ para todo i ∈ N.
Prova
A prova formal é omitida, mas intuitivamente, o perfil de estratégias do jogo

repetido infinitas vezes tem o seguinte formato. Existem três etapas. Durante
as duas primeiras etapas os jogadores escolhem a∗ enquanto nenhum jogador
desviar. Caso não haja desvios nas duas primeiras etapas, na terceira etapa os
jogadores implementam uma seqüência de equilíbrios de Nash do jogo G para o
qual a utilidade média de cada jogador é maior que a pior utilidade do jogador
em algum equilíbrio de Nash do jogo G . Desvios são punidos da seguinte
maneira. Um desvio na primeira etapa é punido com os demais jogadores
forçando a utilidade minimax no jogador que desviou por um longo período e
depois entrando em uma fase de reconciliação como no caso de teorema de
Folk Perfeito para o critério do desconto. Um desvio na segunda etapa é
punido com os jogadores implementando no início da terceira etapa o pior
equilíbrio de Nash para o jogador que desviou. Como na terceira etapa, os
jogadores só implementam equilíbrios de Nash não há incentivo a desvios.

Jogos Repetidos

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Jogos Repetidos

Încărcat de

Drepturi de autor:

Formate disponibile

Jogos Repetidos Infinitas Vezes Nash Folk Folk Perfeito Jogos Repetidos Finitas Vezes

Prof. Leandro Chaves Rêgo

Recife, 21 de Outubro de 2014

Em geral, temos duas classes de modelos para jogos repetidos: o horizonte

Jogos Repetidos Infinitas Vezes

Jogos Repetidos Infinitas Vezes

ui∗ é uma função utilidade em A∞ que estende a função utilidade ui no

ui∗ (a1 , . . . , at−1 , a, at+1 , . . .)

para todos os valores de t.

correspondentes seqüência de utilidades ui (at ) e ui (b t ) de G . Consideraremos

Critério do Limite das Médias

No segundo critério os jogadores avaliam uma PTseqüência (vit ) essencialmente

Quando a função utilidade de PTtodos os agentes tomam esta forma, nos

Note que ao contrário do caso do desconto onde a mudança de utilidade em

O terceiro e último critério trata os períodos simetricamente, coloca ênfase no

Os seguintes exemplos ilustram algumas diferenças entre esses três critérios.

Perfil de Utilidades Possível

Denotaremos por u(a) o perfil (ui (a))i ∈N . Um vetor v ∈ IR N é um perfil de

Estratégias como Máquinas

Vamos agora apresentar uma linguagem para descrever convenientemente as

Para ilustrar este conceito de máquina considere os seguintes exemplos de

A máquina (Qi , qi0 , fi , τi ) definida a seguir é a mais simples que implementa a

A seguinte máquina implementa a estratégia para o jogador 1 escolha C

A seguinte máquina implementa a estratégia para o jogador 2, comece jogando

Estratégias Gatilho: Teoremas de Nash Folk

Estudamos agora o conjunto de equilíbrios de Nash de um jogo repetido

Um perfil de utilidades w para o qual temos wi ≥ vi para todo i ∈ N é

Equilíbrio de Nash de Jogo Repetido Infinitas

Suponha que w é um perfil de utilidades do jogo que não é individualmente

Nash Folk para Limite das Médias

O próximo teorema prova a recíproca para o caso do critério do limite das

O perfil de estratégias s é um equilíbrio de Nash do jogo repetido visto que um

Nash Folk para Desconto

O próximo teorema é o resultado análogo para o critério do desconto.

Para ilustrar equilíbrios de Nash nos quais jogadores utilizam estratégias

O segundo G2 é o jogo descrito na tabela a seguir:

Em G1 e G2 temos que a utilidade minimax para ambos os jogadores é 1 e

Punindo por Tempo Limitado: Um Teorema de

As estratégias gatilho utilizadas na prova do Teorema de Nash Folk punem os

Folk Perfeito para Limite das Médias

O estado (Normk , 0) significa que estamos no k-ésimo período

fi ((Normk , d )) = aik , fi (P(j, t)) = (p−j )i se j 6= i e fi (P(i, t)) = bi (p−i ),

Vamos agora verificar que este perfil de estratégias constitui um equilíbrio de

Considere novamente o jogo da tabela a seguir repetido infinitas vezes.

Neste jogo, temos v1 = v2 = 1. Considere o perfil de estratégias do jogo

Apesar desta estratégia ser um equilíbrio de subjogo perfeito quando

Punindo quem não Pune: Um Teorema de Folk

Seja M o máximo de ui (a) para todo i ∈ N e a ∈ A. Considere o perfil de

No estado Norm ninguém necessita ser punido.

fi (Norm) = ai∗ , fi (P(j, t)) = (p−j )i se j 6= i e fi (P(i, t)) = bi (p−i ), onde

Recompensando quem Pune: Um Teorema de

Folk Perfeito para Desconto

Iremos descrever as estratégias utilizadas pelos jogadores neste tipo de

Qi = {C (j) : j ∈ {0} ∪ N} ∪ {P(j, t) : j ∈ N e 1 ≤ t ≤ L}.

Em resposta a um perfil de estratégia a:

Resta-nos agora especificar os valores de δ e L. Seja M o máximo de ui (a) para

Por outro lado se i não desviar, sua utilidade esperada é:

Portanto, para tais escolha de L e δ não é vantajoso para nenhum jogador i

Por outro lado se i não desviar, sua utilidade esperada é:

Como t < L + 1 e ui (a(j)) > ui (a(i)), podemos escolher δ > δ ∗ próximo o

Portanto, temos que não é vantajoso para um jogador i desviar em um estado

Jogos Repetidos Finitas Vezes

Vamos agora estudar jogos repetidos finitas vezes. Seja

P(h) = N para toda história não terminal, de forma que todos os