Refuerzo PDF

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo
Definici
on de Aprendizaje por Refuerzo
Procesos de Decisi
on de Markov
Programaci
on Din
amica
Aprendizaje Automatico
Ingeniera Informatica
Fernando Fernandez Rebollo y Daniel Borrajo Millan

Grupo de Planificaci
on y Aprendizaje (PLG)
Departamento de Inform
atica
Escuela Polit
ecnica Superior
Universidad Carlos III de Madrid
27 de febrero de 2009
Fernando Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Aprendizaje Por Refuerzo

Generalizaci
on
Ejemplos de Aplicaci
on
En Esta Seccion:
10
Procesos de Decision de Markov

Definicion de Aprendizaje por Refuerzo
Procesos de Decisi
on de Markov
Definici
on de un MDP
Polticas y Optimalidad
Programacion Dinamica
11

Aproximaciones Libres de Modelo
Metodos Basados en el Modelo
Representaci
on de la funci
on Q
Generalizacion en Aprendizaje por Refuerzo

Discretizaci
on del Espacio de Estados
Aproximaci
on de Funciones
on
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Introduccion
Problema de Aprendizaje por Refuerzo (definido como un
MDP):
Conjunto de todos los posibles
estados, S,
Entorno
T(s,a)
R(s,a)
Conjunto de todas las posibles

acciones, A,
Funci
on de transici
on de estados
desconocida,
T :S AS <
a
Agente
(s)
Funci
on de refuerzo desconocida,
R : S A <.
Objetivo: aprender la poltica de acci

on : S A que
maximice el refuerzo medio esparado.
Fernando Fern
Aprendizaje Autom
atico
s
r
Procesos de Decisi
on de Markov
Q-Learning

Generalizaci
on
on
(Watkins, 1989)
No se conocen las funciones de transici

on de estado ni de
refuerzo
Aprendizaje por prueba y error
Q-Learning (, ).
Inicializar Q(s, a), s S, a A
Repetir (para cada episodio)
Inicializa el estado inicial, s, aleatoriamente.
Repetir (para cada paso del episodio)
Selecciona una acci
on a y ejec
utala
Recibe el estado actual s 0 , y el refuerzo, r
Q(s, a) (1 )Q(s, a) + [r + maxa0 Q(s 0 , a0 )]
Asigna s s 0
Devuelve Q(s, a)
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Funciones de Actualizacion
Funcion de actualizaci
on determinista:
Q(s, a) r + maxa0 Q(s 0 , a0 )
Funcion de actualizaci
on no determinista:
Q(s, a) (1 )Q(s, a) + [r + maxa0 Q(s 0 , a0 )]
Fernando Fern
Aprendizaje Autom
atico

Generalizaci
on
on
Procesos de Decisi
on de Markov
Ejemplo
Suponer el siguiente MDP determinista
a1
s2
s1
a2
a1
a3
a2
a2
s3
a3
Q(s,a)
s1
s2
s3
s4
a1
0
0
0
0
a2
0
0
0
0
s4
Tabla Q Inicial:
Fernando Fern
a3
0
0
0
0
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Ejemplo
El agente ejecuta el siguiente episodio o secuencia de
acciones: s1 a1 s2 a3 s3 a3 s4
Actualizaciones en la tabla Q:
Q(s1 , a1 ) = R(s1 , a1 ) + arga max Q(s2 , a) = 0 + 0 = 0
Tabla Q resultante:
Q(s,a)
s1
s2
s3
s4
Fernando Fern
a1
0
0
0
0
a2
0
0
0
0
a3
0
0
1
0
Aprendizaje Autom
atico

Generalizaci
on
on
Procesos de Decisi
on de Markov
Ejemplo
Segundo episodio de aprendizaje: s1 a2 s3 a2 s2 a2 s4
Actualizaciones en la tabla Q:
Q(s1 , a2 ) = R(s1 , a2 ) + arga max Q(s3 , a) =
0 + max(0, 0, 1) = = 0,5
Tabla Q resultante:
Q(s,a)
s1
s2
s3
s4
Fernando Fern
a1
0
0
0
0
a2
0,5
1
0
0
a3
0
0
1
0
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Ejemplo
Tabla Q optima:
Q (s, a)
s1
s2
s3
s4
a1
0,5
0,25
0,5
0
a2
0,5
1
0.5
0
a3
0,25
0,5
1
0
Poltica optima:
(s3 ) = arga max Q(s3 , a) = a3
(s2 ) = a2
(s1 ) = a1
Otra poltica optima: igual que la anterior pero con

(s1 ) = a2
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Exploracion vs. Explotacion

Metodos de balancear la exploraci
on/explotacion
Estrategias de selecci
on de acciones:
-greedy:
Ejecuta arga m
ax Q(s, a) con probabilidad
Ejecuta una acci
on aleatoria con probabilidad 1
Softmax:
e Q(s,ai )/
Q(s,aj )/
aj A e
P(ai ) = P
Inicializaci
on de la funci
on Q
Sesgar la selecci
on de acciones con conocimiento del dominio
adicional
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Metodos Basados en el Modelo para Resolver MDPs
Si no se conoce el modelo: aprenderlo

Ejemplo: Dyna-Q
Similar a Q-Learning
En cada paso, tambien actualiza su conocimiento del modelo
El modelo es utilizado para realizar nuevas actualizactiones de
Q
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Metodos Basados en el Modelo: Dyna-Q

Algoritmo Dyna-Q
Inicializar Q(s, a) y Modelo(s, a) arbitrariamente
Repetir para siempre
Inicializar s
Seleccionar una acci
on a a partir de s usando una poltica
derivada de Q
Q(s, a) Q(s, a) + [r + maxa0 Q(s 0 , a0 ) Q(s, a)]
Modelo(s, a) s 0 , r
s s0
Repetir N veces
s estado visitado anteriormente y elegido aleatoriamente
a acci
on aleatoria ejecutada anteriormente desde s
s 0 , r Modelo(s, a)
Q(s, a) Q(s, a) + [r + m
axa0 Q(s 0 , a0 ) Q(s, a)]
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Representacion Tabular de la Funcion Q

Actions {a 1 , ..., a L }
States
...
{s 1 , ...,s N }
...
Problema: espacio de estados

continuo o de gran tama
no
Soluci
on: metodos de
generalizacion
Q Table:
Q(s,a)
... ... ... ...
...
...
Q(s,a L)
...
...
Q(s,a 1 )
Arg
Max
ai
ai
Fernando Fern
Aproximaciones ad-hoc
basadas en conocimiento del
dominio
Discretizacion del espacio de
estados
Aproximacion de funciones
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Discretizacion del Espacio de Estados
States
Actions
...
...
... ... ... ...

... ... ... ...
State Space
Representation:
D(s)
Q Table:
Q(D(s),a)
Problema:
...
...
Q(D(s), a1)
...
Max
ai
...
ai
Discretizaciones erroneas
pueden romper facilmente la
propiedad de Markov
Cuantas regiones necesitamos
para discretizar el espacio de
estados?
Q(D(s), aL )
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Ejemplo
Dominio de navegaci
on de un robot:
Espacio de estados continuo de tama
no 5 5
Acciones: Norte, Sur, Este, Oeste, de tama
no 1
0
Goal
V=12.5
V=25
V=6.25 V=12.5
V=50
V=100
V=0
V=25
V=50
V=100
V=25
V=50
V=3.12 V=6.25 V=12.5
V=1.6
V=3.12 V=6.25 V=12.5
V=0.8
V=1.6
V=3.12 V=6.25 V=12.5
Discretizaci
on
optima de tama
no 5 5
Fernando Fern
V=25
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Perdida de la Propiedad de Markov

0
5
5
Goal Area
0000
1111
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
Nondeterminism Introduced:
0000
1111
0000
1111
Same action from same state
0000
1111
0000
1111
produces different immediate
0000
1111
rewards
Limits of the Regions

(6 x 6 discretization)
Value Function Limits

1
0
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov
Keepaway

Generalizaci
on
on
(Stone, Sutton and Kuhlmann, 05)
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Ejemplo: la Tarea Keepaway

Espacio de estados: 19 atributos continuos (Los keepers y los
takers se ordenan tomando en cuenta su distancia al jugador)
dist(k1 , C ), . . . , dist(k4 , C )
dist(t1 , C ), . . . , dist(t3 , C )
dist(k1 , t1 ), . . . , dist(k1 , t3 )
Min(dist(k2 , t1 ), dist(k2 , t2 ), dist(k2 , t3 ))
etc. . .
Espacio de estados discreto: 4 acciones

Mantener la pelota
Pasar a k2, Pasar a k3, Pasar a k4
Funcion de transici
on de estados desconocida
Funcion de refuerzo desconocida
Fernando Fern
Aprendizaje Autom
atico

Generalizaci
on
on
Procesos de Decisi
on de Markov
Discretizacion uniforme del espacio de estados

Discretizar cada atributo en un n
umero dado de niveles de
discretizacion o regiones
En Keepaway:
d=5 niveles de discretizaci
on
f=19 atributos
d f = 1,907348e + 13 regiones/estados
Ejemplo para la caracterstica 2 (dist(k2 , C )):

25
Level 1
20
dist(k2,C)
Level 2
15
Level 3
10
Level 3
5
Level 5
0
1000
2000
Fernando Fern
3000
example
4000
5000
6000
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Regiones Generadas por la Discretizacion Uniforme
Proyeccion del espacio de estados sobre los atributos 2 y 3:

30
25
dist(k3,C)
20
15
10
10
15
20
dist(k2,C)
Fernando Fern
Aprendizaje Autom
atico
25

Generalizaci
on
on
Procesos de Decisi
on de Markov
CMAC
(Albus, 81)
Superponer varias discretizaciones:

Tile #3
30
Tile #1
25
Tile #2
dist(k3,C)
20
15
10
10
15
20
25
dist(k2,C)
Cada celda mantiene su propia aproximaci

on de la funcon Q:
Celda #i aproxima Qi (s, a)
Q(s, a) = f (Q1 (s, a), Q2 (s, a), Q3 (s, a))
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Discretizacion de Resolucion Variable: Arboles

KD
(Munos
and Moore, 02)
Los nodos y hojas del arbol

representan regiones del
espacio de estados
en la funci
on de valor
en la poltica
...
30
25
20
dist(k3,C)
En cada nodo del arbol, una

region se divide en dos:
Los criterios para partir un
nodo son diversos, y buscan
diferencias dentro de la
region:
...
...
15
10
10
15
dist(k2,C)
Fernando Fern
Aprendizaje Autom
atico
20
25
Procesos de Decisi
on de Markov

Generalizaci
on
on
Aproximacion de Funciones
Utilizar un aproximador de funciones para representar la
funcion Q:
NN 1
NN 1
^
Q(s, a 1)
^
Qa (s)
1
a1
NN 2
NN 1
^
Q(s, a )
^
Qa (s)
Arg a
NN 3
Q^ a (s)
ai
a2
s
Max
^ a )
Q(s,
ai
Max
a3
... ... ... ... ...

... ... ... ... ...
Arg a
NN 1
NN L
... ... ... ... ...

... ... ... ... ...
NN 1
^
Q(s, a )
Q^ a (s)
a (s))
L aproximadores (Q
i
Fernando Fern
aL
a))
1 aproximador (Q(s,
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Batch Q-Learning (1/2)
Entradas:
1
2
3
Un espacio de estados X
Un conjunto de L acciones, A = {a1 , . . . , aL }
Una colecci
on T de N tuplas de experiencia del tipo
< s, ai , s 0 , r >, donde s X es un estado desde donde la
acci
on ai es ejecutada y s 0 es el estado resultante
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Batch Q-Learning (2/2)

0 (s, a) = 0
Sea Q
iter = 0
Repetir
Inicializar los conjuntos de aprendizaje T iter =
Desde j=1 hasta N, utilizando la j esima tupla < sj , aj , sj0 , rj >
hacer
iter 1 (sj0 , a)
cj = rj + m
axaA Q
iter
iter
T
= T {< sj , aj , cj >}
iter (s, a) para aproximar el conjunto de aprendizaje

Entrenar Q
iter
T
iter = iter + 1
Hasta que el vector cj no cambie

Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Generar Tuplas de Experiencia

0
5
s7
3
s9
s 12
s 13
s8
4
s 25
s5
s6
s 10
s 23
s 11
s24
3
s4
s 21
s 22
2
s2
s3
1
s 20
s1
0
T 0 ={(s
1 , norte, 0),
(s2 , este, 0), (s3 , norte, 0), (s4 , norte, 0),

. . . , (s12 , este, rmax ), . . . , (s20 , norte, 0), (s21 , este, 0), . . . ,
(s24 , norte, rmax ), . . . }
Fernando Fern
Aprendizaje Autom
atico

Generalizaci
on
on
Procesos de Decisi
on de Markov
Batch Q-Learning: Iter. 1

Q 1 (s, a):
Action "Go East"

0
Action "Go West"

4
Goal
(Q=0)
r max
Goal
(Q=0)
Q=0
Q=0
Action "Go South"
Action "Go North"

0
r max
3
Q=0
Q=0
Fernando Fern
Goal
(Q=0)
4
Goal
(Q=0)
Aprendizaje Autom
atico

Generalizaci
on
on
Procesos de Decisi
on de Markov

Q 2 (s, a):
Action "Go East"

0
Action "Go West"

4
Goal
(Q=0)
r max
r max
Goal
(Q=0)
r max
3
Q=0
Q=0
Action "Go South"
Action "Go North"

0
r max
3
Q=0
r max
Q=0
Fernando Fern
Goal
(Q=0)
4
max
Goal
(Q=0)
Aprendizaje Autom
atico

Generalizaci
on
on
Procesos de Decisi
on de Markov

Q 3 (s, a):
Action "Go East"

0
Action "Go West"

4
Goal
(Q=0)
r max
rmax r max
Goal
2 rmax (Q=0)
2 rmax
r max
rmax
3
rmax
Q=0
Q=0
1
Action "Go South"
Action "Go North"

0
2
rmax r max
2 rmax
3
rmax r max
Q=0
2
rmax
1
Fernando Fern
Goal
2 rmax (Q=0)
r max
Q=0
Goal
(Q=0)
Aprendizaje Autom
atico

Generalizaci
on
on
Procesos de Decisi
on de Markov
Ejecucion de Batch Q-Learning: Iteracion 9

Q 9 (s, a):
Action "Go East"

0
Action "Go West"

4
Goal
(Q=0)
r max
rmax rmax r max
Goal
3
2
rmax rmax rmax rmax (Q=0)
5
3
2
6 rmax 5 rmax 4 rmax rmax rmax
r max
rmax
4 rmax 3 r
max
3
rmax 4 rmax 3 rmax
3
6
5
4
7
rmax rmax rmax rmax rmax
rmax
3 rmax
rmax rmax rmax
6
5
4
8
7
7 rmax 6 rmax 5 rmax
7
6 rmax 5 rmax
9 rmax 8 r
max rmax
4 rmax
Action "Go South"
Action "Go North"

0
3
4 rmax rmax 2 rmax r max
Goal
Goal
(Q=0)
4
3
2
5 rmax 4 rmax rmax rmax (Q=0)
4
3
2
5
6 rmax rmax 4 rmax rmax rmax
r max
3
3
6
5
4
7 rmax rmax rmax rmax rmax
4
5
rmax r max
rmax rmax 3 r
max
2
6
5
4
8
7
rmax
6 rmax 5 rmax 4 rmax 3 r
max
1
7
6 rmax 5 rmax
9 rmax 8 r
max rmax
5
6
3
7 rmax rmax rmax 4 r
max rmax
0
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Aprendizaje con Aproximacion de Funciones

Problemas en la aplicaci
on de aprendizaje supervisado en
aprendizaje por refuerzo:
Las etiquetas de los datos (valor Q) son desconocidos a priori
Los refuerzos positivos pueden ser escasos comparados con
refuerzos nulos (problema de clasificaci
on de conjuntos no
balanceados)
Los distintos pasos del aprendizaje pueden tener distintas
caractersticas de aprendizaje
Las estimaciones son calculadas sobre estimaciones:
propagaci
on de errores:
Buena convergencia: se obtienen la funci
on de valor y poltica
o
ptimas
Convergencia por casualidad: la funci
on de valor calculada es
sub
optima pero genera una poltica o
ptima
Mala convergencia: tanto la funci
on de valor como la poltica
son sub
optimas
Divergencia: no se converge ni a una funci
on de valor ni a una
pol
tica
Fernando
Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
TD-Gammon
Juego del backgammon
34 piezas y 24 posiciones posibles: espacio
de estados enorme!!!
20 posibles movimientos por cada tirada de
dado
Perfecto concimiento de espacios de estado,
acci
on, y transiciones de estado
Refuerzo cuando se gana la partida
V(s) evalua la probabilidad de ganar desde
el estado s
Uso de una red de neuronas para aproximar
V(s)
Aprendizaje mediante una versi
on no lineal
de TD()
Aprendizaje de los pesos mediante descenso
de gradiente
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Problemas de control: Acrobot

Acrobot
Espacio de estados continuo: 2 angulos y 2
velocidades
Espacio de acciones discreto: 2 acciones:
empujar el codo en una direcci
on y otra
Objetivo: colocar el brazo en posicion
vertical invertida
Perfecto concimiento de espacios de estado,
acci
on, y transiciones de estado
Diversas aproximaciones para
generalizaci
on: Variable Resolution
Discretization, redes de neuronas, arboles
de decisi
on, etc.
Fernando Fern
Aprendizaje Autom
atico
Goal
1
Elbow
2
Procesos de Decisi
on de Markov

Generalizaci
on
on
Modulo Pedagogico en Tutores Inteligentes

RLATES:
Estado: conocimiento que dispone el
alumno sobre el contenido del tutor
Acci
on: mostrar un contenido al
alumno
Percepci
on realizada mediante tests
Objetivo: obtener una poltica
pedag
ogica
Simplificaci
on a un espacio de
estados con caractersticas binarias
Difcil percepci
on/modelizaci
on del
estado: POMDP
Fernando Fern
Domain
Knowledge
Aprendizaje Autom
atico
Browser
Navegador
Tema 1
Definicin
Def11
.....
Subtemas
SubT
.....
.....
Def n1.1
E jemplos
........
P ro blemas
.......................
Defn1
Subtema 1.1
Def
Def11.1
Ejercicios
Ejer11
.....
........
Ejern
Tests
.....
.
Subtema 1.n
.........
T
...
Def
....
SubT
........
.....
...
1.n
T1
Client
T n1.n
Domain
Module
Interface
Module
Student
Module
Pedagogical
Module
Student
Knowledge
Pedagogical
Knowledge
Class A
students
Student 1
Server
I
n
t
e
r
n
e
t
.
.
.
.
Student 1
Browser
Navegador
Client
Student n
Procesos de Decisi
on de Markov

Generalizaci
on
on
Modulo Pedagogico en Tutores Inteligentes
Definition
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Otras Aplicaciones
Adaptive Cognitive Orthotics: Combining Reinforcement Learning and
Constraint-Based Temporal Reasoning by Matthew Rudary, Satinder Singh and
Martha Pollack. In Proceedings of the Twenty-First International Conference on
Machine Learning (ICML), pages 719-726, 2004.
Cobot: A Social Reinforcement Learning Agent by Charles Isbell, Christian
Shelton, Michael Kearns, Satinder Singh and Peter Stone. In Advances in Neural
Information Processing Systems 14 (NIPS) pages 1393-1400, 2002.
Empirical Evaluation of a Reinforcement Learning Spoken Dialogue System by
Satinder Singh, Michael Kearns, Diane Litman, and Marilyn Walker. In
Proceedings of the Seventeenth National Conference on Artificial Intelligence
(AAAI), pages 645-651, 2000
Mori, T., Nakamura, Y., Sato, M., and Ishii, S. (2004). Reinforcement learning
for CPG-driven biped robot. Nineteenth National Conference on Artificial
Intelligence (AAAI), pp.623-630.
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Resumen
Diferencias entre Programaci

on Dinamica, metodos libres de
modelo y basados en el modelo
Planificacion en Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo:
Algoritmo Q-Learning
Importancia de la representaci
on de los estados, las acciones y
las funciones de valor
Discretizaciones incorrectas pueden romper la propiedad de
Markov
Divergencia de los metodos de aproximaci
on de las funciones
de valor
Fernando Fern
Aprendizaje Autom
atico
Procesos de Decisi
on de Markov

Generalizaci
on
on
Bibliografa
Machine Learning, Tom Mitchell. Captulo 13.

Reinforcement Learning: An Introduction. Richard Sutton y
Andrew Barto. MIT Press. 1998
Reinforcement Learning Repository:
http://www-anw.cs.umass.edu/rlr/
Aprendizaje Automatico: conceptos basicos y avanzados.
Basilio Sierra Araujo. Pearson Prentice Hall. 2006
Fernando Fern
Aprendizaje Autom
atico

Refuerzo PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Refuerzo PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Procesos de Decisi

Aprendizaje por Refuerzo

Fernando Fernandez Rebollo y Daniel Borrajo Millan

Aprendizaje Por Refuerzo

Procesos de Decision de Markov

Aprendizaje por Refuerzo

Generalizacion en Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo

Conjunto de todas las posibles

Objetivo: aprender la poltica de acci

Aprendizaje Por Refuerzo

No se conocen las funciones de transici

Aprendizaje Por Refuerzo

Aprendizaje Por Refuerzo

Aprendizaje Por Refuerzo

Aprendizaje Por Refuerzo

Aprendizaje Por Refuerzo

Otra poltica optima: igual que la anterior pero con

Aprendizaje Por Refuerzo

Exploracion vs. Explotacion

Aprendizaje Por Refuerzo

Metodos Basados en el Modelo para Resolver MDPs

Si no se conoce el modelo: aprenderlo

Aprendizaje Por Refuerzo

Metodos Basados en el Modelo: Dyna-Q

Aprendizaje Por Refuerzo

Representacion Tabular de la Funcion Q

Problema: espacio de estados

... ... ... ...

Aprendizaje Por Refuerzo

Discretizacion del Espacio de Estados

... ... ... ...

Aprendizaje Por Refuerzo

V=3.12 V=6.25 V=12.5

V=3.12 V=6.25 V=12.5

V=3.12 V=6.25 V=12.5

Aprendizaje Por Refuerzo

Perdida de la Propiedad de Markov

Limits of the Regions

Value Function Limits

Aprendizaje Por Refuerzo

(Stone, Sutton and Kuhlmann, 05)

Aprendizaje Por Refuerzo

Ejemplo: la Tarea Keepaway

Espacio de estados discreto: 4 acciones

Aprendizaje Por Refuerzo

Discretizacion uniforme del espacio de estados

Ejemplo para la caracterstica 2 (dist(k2 , C )):

Aprendizaje Por Refuerzo

Regiones Generadas por la Discretizacion Uniforme

Proyeccion del espacio de estados sobre los atributos 2 y 3:

Aprendizaje Por Refuerzo

Superponer varias discretizaciones:

Cada celda mantiene su propia aproximaci

Aprendizaje Por Refuerzo

Discretizacion de Resolucion Variable: Arboles

and Moore, 02)

Los nodos y hojas del arbol

En cada nodo del arbol, una

Aprendizaje Por Refuerzo

... ... ... ... ...

... ... ... ... ...

Aprendizaje Por Refuerzo