Documente Academic
Documente Profesional
Documente Cultură
on de Markov
Aprendizaje por Refuerzo
Definici
on de Aprendizaje por Refuerzo
Procesos de Decisi
on de Markov
Programaci
on Din
amica
Aprendizaje Automatico
Ingeniera Informatica
27 de febrero de 2009
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
En Esta Seccion:
10
Programacion Dinamica
11
Ejemplos de Aplicaci
on
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Introduccion
Problema de Aprendizaje por Refuerzo (definido como un
MDP):
Conjunto de todos los posibles
estados, S,
Entorno
T(s,a)
R(s,a)
a
Agente
(s)
Funci
on de refuerzo desconocida,
R : S A <.
Aprendizaje Autom
atico
s
r
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Q-Learning
(Watkins, 1989)
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Funciones de Actualizacion
Funcion de actualizaci
on determinista:
Q(s, a) r + maxa0 Q(s 0 , a0 )
Funcion de actualizaci
on no determinista:
Q(s, a) (1 )Q(s, a) + [r + maxa0 Q(s 0 , a0 )]
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Ejemplo
Suponer el siguiente MDP determinista
a1
s2
s1
a2
a1
a3
a2
a2
s3
a3
Q(s,a)
s1
s2
s3
s4
a1
0
0
0
0
a2
0
0
0
0
s4
Tabla Q Inicial:
Fernando Fern
andez y Daniel Borrajo
a3
0
0
0
0
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Ejemplo
El agente ejecuta el siguiente episodio o secuencia de
acciones: s1 a1 s2 a3 s3 a3 s4
Actualizaciones en la tabla Q:
Q(s1 , a1 ) = R(s1 , a1 ) + arga max Q(s2 , a) = 0 + 0 = 0
Q(s2 , a3 ) = R(s2 , a3 ) + arga max Q(s3 , a) = 0 + 0 = 0
Q(s3 , a3 ) = R(s3 , a3 ) + arga max Q(s4 , a) = 1 + 0 = 1
Tabla Q resultante:
Q(s,a)
s1
s2
s3
s4
Fernando Fern
andez y Daniel Borrajo
a1
0
0
0
0
a2
0
0
0
0
a3
0
0
1
0
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Ejemplo
Segundo episodio de aprendizaje: s1 a2 s3 a2 s2 a2 s4
Actualizaciones en la tabla Q:
Q(s1 , a2 ) = R(s1 , a2 ) + arga max Q(s3 , a) =
0 + max(0, 0, 1) = = 0,5
Q(s3 , a2 ) = R(s3 , a2 ) + arga max Q(s2 , a) = 0 + 0 = 0
Q(s2 , a2 ) = R(s2 , a2 ) + arga max Q(s4 , a) = 1 + 0 = 1
Tabla Q resultante:
Q(s,a)
s1
s2
s3
s4
Fernando Fern
andez y Daniel Borrajo
a1
0
0
0
0
a2
0,5
1
0
0
a3
0
0
1
0
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Ejemplo
Tabla Q optima:
Q (s, a)
s1
s2
s3
s4
a1
0,5
0,25
0,5
0
a2
0,5
1
0.5
0
a3
0,25
0,5
1
0
Poltica optima:
(s3 ) = arga max Q(s3 , a) = a3
(s2 ) = a2
(s1 ) = a1
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
P(ai ) = P
Inicializaci
on de la funci
on Q
Sesgar la selecci
on de acciones con conocimiento del dominio
adicional
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Q Table:
Q(s,a)
...
...
Q(s,a L)
...
...
Q(s,a 1 )
Arg
Max
ai
ai
Fernando Fern
andez y Daniel Borrajo
Aproximaciones ad-hoc
basadas en conocimiento del
dominio
Discretizacion del espacio de
estados
Aproximacion de funciones
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
States
Actions
...
...
State Space
Representation:
D(s)
Q Table:
Q(D(s),a)
Problema:
...
...
Q(D(s), a1)
...
Max
ai
...
ai
Discretizaciones erroneas
pueden romper facilmente la
propiedad de Markov
Cuantas regiones necesitamos
para discretizar el espacio de
estados?
Q(D(s), aL )
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Ejemplo
Dominio de navegaci
on de un robot:
Espacio de estados continuo de tama
no 5 5
Acciones: Norte, Sur, Este, Oeste, de tama
no 1
0
Goal
V=12.5
V=25
V=6.25 V=12.5
V=50
V=100
V=0
V=25
V=50
V=100
V=25
V=50
V=1.6
V=0.8
V=1.6
Discretizaci
on
optima de tama
no 5 5
Fernando Fern
andez y Daniel Borrajo
V=25
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
5
Goal Area
0000
1111
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
Nondeterminism Introduced:
0000
1111
0000
1111
Same action from same state
0000
1111
0000
1111
produces different immediate
0000
1111
rewards
0
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Keepaway
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Funcion de transici
on de estados desconocida
Funcion de refuerzo desconocida
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Level 1
20
dist(k2,C)
Level 2
15
Level 3
10
Level 3
5
Level 5
0
1000
2000
Fernando Fern
andez y Daniel Borrajo
3000
example
4000
5000
6000
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
25
dist(k3,C)
20
15
10
10
15
20
dist(k2,C)
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
25
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
CMAC
(Albus, 81)
Tile #1
25
Tile #2
dist(k3,C)
20
15
10
10
15
20
25
dist(k2,C)
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
(Munos
en la funci
on de valor
en la poltica
...
30
25
20
dist(k3,C)
...
...
15
10
10
15
dist(k2,C)
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
20
25
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Aproximacion de Funciones
Utilizar un aproximador de funciones para representar la
funcion Q:
NN 1
NN 1
^
Q(s, a 1)
^
Qa (s)
1
a1
NN 2
NN 1
^
Q(s, a )
^
Qa (s)
Arg a
NN 3
Q^ a (s)
ai
a2
s
Max
^ a )
Q(s,
ai
Max
a3
Arg a
NN 1
NN L
Q^ a (s)
a (s))
L aproximadores (Q
i
Fernando Fern
andez y Daniel Borrajo
aL
a))
1 aproximador (Q(s,
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Entradas:
1
2
3
Un espacio de estados X
Un conjunto de L acciones, A = {a1 , . . . , aL }
Una colecci
on T de N tuplas de experiencia del tipo
< s, ai , s 0 , r >, donde s X es un estado desde donde la
acci
on ai es ejecutada y s 0 es el estado resultante
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
s7
3
s9
s 12
s 13
s8
4
s 25
s5
s6
s 10
s 23
s 11
s24
3
s4
s 21
s 22
2
s2
s3
1
s 20
s1
0
T 0 ={(s
1 , norte, 0),
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Goal
(Q=0)
r max
Goal
(Q=0)
Q=0
Q=0
r max
3
Q=0
Q=0
Fernando Fern
andez y Daniel Borrajo
Goal
(Q=0)
4
Goal
(Q=0)
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Goal
(Q=0)
r max
r max
Goal
(Q=0)
r max
3
Q=0
Q=0
r max
3
Q=0
r max
Q=0
Fernando Fern
andez y Daniel Borrajo
Goal
(Q=0)
4
max
Goal
(Q=0)
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Goal
(Q=0)
r max
rmax r max
Goal
2 rmax (Q=0)
2 rmax
r max
rmax
3
rmax
Q=0
Q=0
1
2
rmax r max
2 rmax
3
rmax r max
Q=0
2
rmax
1
Fernando Fern
andez y Daniel Borrajo
Goal
2 rmax (Q=0)
r max
Q=0
Goal
(Q=0)
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Goal
(Q=0)
r max
Goal
3
2
rmax rmax rmax rmax (Q=0)
5
3
2
6 rmax 5 rmax 4 rmax rmax rmax
r max
rmax
4 rmax 3 r
max
3
3
6
5
4
7
rmax rmax rmax rmax rmax
rmax
3 rmax
6
5
4
8
7
rmax rmax rmax rmax rmax
7
6 rmax 5 rmax
9 rmax 8 r
max rmax
4 rmax
3
4 rmax rmax 2 rmax r max
Goal
Goal
(Q=0)
4
3
2
5 rmax 4 rmax rmax rmax (Q=0)
4
3
2
5
6 rmax rmax 4 rmax rmax rmax
r max
3
3
6
5
4
7 rmax rmax rmax rmax rmax
4
5
rmax r max
rmax rmax 3 r
max
2
6
5
4
8
7
rmax rmax rmax rmax rmax
rmax
6 rmax 5 rmax 4 rmax 3 r
max
1
7
6 rmax 5 rmax
9 rmax 8 r
max rmax
5
6
3
7 rmax rmax rmax 4 r
max rmax
0
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
TD-Gammon
Juego del backgammon
34 piezas y 24 posiciones posibles: espacio
de estados enorme!!!
20 posibles movimientos por cada tirada de
dado
Perfecto concimiento de espacios de estado,
acci
on, y transiciones de estado
Refuerzo cuando se gana la partida
V(s) evalua la probabilidad de ganar desde
el estado s
Uso de una red de neuronas para aproximar
V(s)
Aprendizaje mediante una versi
on no lineal
de TD()
Aprendizaje de los pesos mediante descenso
de gradiente
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Goal
1
Elbow
2
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Fernando Fern
andez y Daniel Borrajo
Domain
Knowledge
Aprendizaje Autom
atico
Browser
Navegador
Tema 1
Definicin
Def11
.....
Subtemas
SubT
.....
.....
Def n1.1
E jemplos
........
P ro blemas
.......................
Defn1
Subtema 1.1
Def
Def11.1
Ejercicios
Ejer11
.....
........
Ejern
Tests
.....
.
Subtema 1.n
.........
T
...
Def
....
SubT
........
.....
...
1.n
T1
Client
T n1.n
Domain
Module
Interface
Module
Student
Module
Pedagogical
Module
Student
Knowledge
Pedagogical
Knowledge
Class A
students
Student 1
Server
I
n
t
e
r
n
e
t
.
.
.
.
Student 1
Browser
Navegador
Client
Student n
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Definition
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Otras Aplicaciones
Adaptive Cognitive Orthotics: Combining Reinforcement Learning and
Constraint-Based Temporal Reasoning by Matthew Rudary, Satinder Singh and
Martha Pollack. In Proceedings of the Twenty-First International Conference on
Machine Learning (ICML), pages 719-726, 2004.
Cobot: A Social Reinforcement Learning Agent by Charles Isbell, Christian
Shelton, Michael Kearns, Satinder Singh and Peter Stone. In Advances in Neural
Information Processing Systems 14 (NIPS) pages 1393-1400, 2002.
Empirical Evaluation of a Reinforcement Learning Spoken Dialogue System by
Satinder Singh, Michael Kearns, Diane Litman, and Marilyn Walker. In
Proceedings of the Seventeenth National Conference on Artificial Intelligence
(AAAI), pages 645-651, 2000
Mori, T., Nakamura, Y., Sato, M., and Ishii, S. (2004). Reinforcement learning
for CPG-driven biped robot. Nineteenth National Conference on Artificial
Intelligence (AAAI), pp.623-630.
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Resumen
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Bibliografa
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico