Sunteți pe pagina 1din 38

Procesos de Decisi

on de Markov
Aprendizaje por Refuerzo

Definici
on de Aprendizaje por Refuerzo
Procesos de Decisi
on de Markov
Programaci
on Din
amica

Aprendizaje por Refuerzo

Aprendizaje Automatico
Ingeniera Informatica

Fernando Fernandez Rebollo y Daniel Borrajo Millan


Grupo de Planificaci
on y Aprendizaje (PLG)
Departamento de Inform
atica
Escuela Polit
ecnica Superior
Universidad Carlos III de Madrid

27 de febrero de 2009
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

En Esta Seccion:
10

Procesos de Decision de Markov


Definicion de Aprendizaje por Refuerzo
Procesos de Decisi
on de Markov
Definici
on de un MDP
Polticas y Optimalidad

Programacion Dinamica
11

Aprendizaje por Refuerzo


Aprendizaje Por Refuerzo
Aproximaciones Libres de Modelo
Metodos Basados en el Modelo
Representaci
on de la funci
on Q

Generalizacion en Aprendizaje por Refuerzo


Discretizaci
on del Espacio de Estados
Aproximaci
on de Funciones

Ejemplos de Aplicaci
on
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Introduccion
Problema de Aprendizaje por Refuerzo (definido como un
MDP):
Conjunto de todos los posibles
estados, S,
Entorno
T(s,a)
R(s,a)

Conjunto de todas las posibles


acciones, A,
Funci
on de transici
on de estados
desconocida,
T :S AS <

a
Agente
(s)

Funci
on de refuerzo desconocida,
R : S A <.

Objetivo: aprender la poltica de acci


on : S A que
maximice el refuerzo medio esparado.
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

s
r

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Q-Learning

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

(Watkins, 1989)

No se conocen las funciones de transici


on de estado ni de
refuerzo
Aprendizaje por prueba y error
Q-Learning (, ).
Inicializar Q(s, a), s S, a A
Repetir (para cada episodio)
Inicializa el estado inicial, s, aleatoriamente.
Repetir (para cada paso del episodio)
Selecciona una acci
on a y ejec
utala
Recibe el estado actual s 0 , y el refuerzo, r
Q(s, a) (1 )Q(s, a) + [r + maxa0 Q(s 0 , a0 )]
Asigna s s 0
Devuelve Q(s, a)
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Funciones de Actualizacion

Funcion de actualizaci
on determinista:
Q(s, a) r + maxa0 Q(s 0 , a0 )
Funcion de actualizaci
on no determinista:
Q(s, a) (1 )Q(s, a) + [r + maxa0 Q(s 0 , a0 )]

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Ejemplo
Suponer el siguiente MDP determinista
a1
s2

s1

a2
a1

a3

a2
a2

s3

a3

Q(s,a)
s1
s2
s3
s4

a1
0
0
0
0

a2
0
0
0
0

s4

Tabla Q Inicial:

Fernando Fern
andez y Daniel Borrajo

a3
0
0
0
0

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Ejemplo
El agente ejecuta el siguiente episodio o secuencia de
acciones: s1 a1 s2 a3 s3 a3 s4
Actualizaciones en la tabla Q:
Q(s1 , a1 ) = R(s1 , a1 ) + arga max Q(s2 , a) = 0 + 0 = 0
Q(s2 , a3 ) = R(s2 , a3 ) + arga max Q(s3 , a) = 0 + 0 = 0
Q(s3 , a3 ) = R(s3 , a3 ) + arga max Q(s4 , a) = 1 + 0 = 1

Tabla Q resultante:
Q(s,a)
s1
s2
s3
s4
Fernando Fern
andez y Daniel Borrajo

a1
0
0
0
0

a2
0
0
0
0

a3
0
0
1
0

Aprendizaje Autom
atico

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Ejemplo
Segundo episodio de aprendizaje: s1 a2 s3 a2 s2 a2 s4
Actualizaciones en la tabla Q:
Q(s1 , a2 ) = R(s1 , a2 ) + arga max Q(s3 , a) =
0 + max(0, 0, 1) = = 0,5
Q(s3 , a2 ) = R(s3 , a2 ) + arga max Q(s2 , a) = 0 + 0 = 0
Q(s2 , a2 ) = R(s2 , a2 ) + arga max Q(s4 , a) = 1 + 0 = 1

Tabla Q resultante:
Q(s,a)
s1
s2
s3
s4
Fernando Fern
andez y Daniel Borrajo

a1
0
0
0
0

a2
0,5
1
0
0

a3
0
0
1
0

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Ejemplo
Tabla Q optima:
Q (s, a)
s1
s2
s3
s4

a1
0,5
0,25
0,5
0

a2
0,5
1
0.5
0

a3
0,25
0,5
1
0

Poltica optima:
(s3 ) = arga max Q(s3 , a) = a3
(s2 ) = a2
(s1 ) = a1

Otra poltica optima: igual que la anterior pero con


(s1 ) = a2
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Exploracion vs. Explotacion


Metodos de balancear la exploraci
on/explotacion
Estrategias de selecci
on de acciones:
-greedy:
Ejecuta arga m
ax Q(s, a) con probabilidad 
Ejecuta una acci
on aleatoria con probabilidad 1 
Softmax:
e Q(s,ai )/
Q(s,aj )/
aj A e

P(ai ) = P

Inicializaci
on de la funci
on Q
Sesgar la selecci
on de acciones con conocimiento del dominio
adicional

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Metodos Basados en el Modelo para Resolver MDPs

Si no se conoce el modelo: aprenderlo


Ejemplo: Dyna-Q
Similar a Q-Learning
En cada paso, tambien actualiza su conocimiento del modelo
El modelo es utilizado para realizar nuevas actualizactiones de
Q

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Metodos Basados en el Modelo: Dyna-Q


Algoritmo Dyna-Q
Inicializar Q(s, a) y Modelo(s, a) arbitrariamente
Repetir para siempre
Inicializar s
Seleccionar una acci
on a a partir de s usando una poltica
derivada de Q
Q(s, a) Q(s, a) + [r + maxa0 Q(s 0 , a0 ) Q(s, a)]
Modelo(s, a) s 0 , r
s s0
Repetir N veces
s estado visitado anteriormente y elegido aleatoriamente
a acci
on aleatoria ejecutada anteriormente desde s
s 0 , r Modelo(s, a)
Q(s, a) Q(s, a) + [r + m
axa0 Q(s 0 , a0 ) Q(s, a)]
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Representacion Tabular de la Funcion Q


Actions {a 1 , ..., a L }
States
...
{s 1 , ...,s N }
...

Problema: espacio de estados


continuo o de gran tama
no
Soluci
on: metodos de
generalizacion

Q Table:
Q(s,a)

... ... ... ...

...
...

Q(s,a L)
...
...
Q(s,a 1 )

Arg
Max
ai

ai

Fernando Fern
andez y Daniel Borrajo

Aproximaciones ad-hoc
basadas en conocimiento del
dominio
Discretizacion del espacio de
estados
Aproximacion de funciones

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Discretizacion del Espacio de Estados

States

Actions
...
...

... ... ... ...


... ... ... ...

State Space
Representation:
D(s)

Q Table:
Q(D(s),a)

Problema:

...
...

Q(D(s), a1)
...

Max
ai

...

ai

Discretizaciones erroneas
pueden romper facilmente la
propiedad de Markov
Cuantas regiones necesitamos
para discretizar el espacio de
estados?

Q(D(s), aL )

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Ejemplo
Dominio de navegaci
on de un robot:
Espacio de estados continuo de tama
no 5 5
Acciones: Norte, Sur, Este, Oeste, de tama
no 1
0

Goal

V=12.5

V=25

V=6.25 V=12.5

V=50

V=100

V=0

V=25

V=50

V=100

V=25

V=50

V=3.12 V=6.25 V=12.5

V=1.6

V=3.12 V=6.25 V=12.5

V=0.8

V=1.6

V=3.12 V=6.25 V=12.5

Discretizaci
on
optima de tama
no 5 5
Fernando Fern
andez y Daniel Borrajo

V=25

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Perdida de la Propiedad de Markov


0
5

5
Goal Area
0000
1111
1111
0000
0000
1111
0000
1111
0000
1111
0000
1111
Nondeterminism Introduced:
0000
1111
0000
1111
Same action from same state
0000
1111
0000
1111
produces different immediate
0000
1111

rewards

Limits of the Regions


(6 x 6 discretization)

Value Function Limits


1

0
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Keepaway

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

(Stone, Sutton and Kuhlmann, 05)

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Ejemplo: la Tarea Keepaway


Espacio de estados: 19 atributos continuos (Los keepers y los
takers se ordenan tomando en cuenta su distancia al jugador)
dist(k1 , C ), . . . , dist(k4 , C )
dist(t1 , C ), . . . , dist(t3 , C )
dist(k1 , t1 ), . . . , dist(k1 , t3 )
Min(dist(k2 , t1 ), dist(k2 , t2 ), dist(k2 , t3 ))
etc. . .

Espacio de estados discreto: 4 acciones


Mantener la pelota
Pasar a k2, Pasar a k3, Pasar a k4

Funcion de transici
on de estados desconocida
Funcion de refuerzo desconocida
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Discretizacion uniforme del espacio de estados


Discretizar cada atributo en un n
umero dado de niveles de
discretizacion o regiones
En Keepaway:
d=5 niveles de discretizaci
on
f=19 atributos
d f = 1,907348e + 13 regiones/estados

Ejemplo para la caracterstica 2 (dist(k2 , C )):


25

Level 1
20

dist(k2,C)

Level 2
15

Level 3
10

Level 3
5

Level 5
0

1000

2000

Fernando Fern
andez y Daniel Borrajo

3000
example

4000

5000

6000

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Regiones Generadas por la Discretizacion Uniforme

Proyeccion del espacio de estados sobre los atributos 2 y 3:


30

25

dist(k3,C)

20

15

10

10

15

20

dist(k2,C)

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

25

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

CMAC

(Albus, 81)

Superponer varias discretizaciones:


Tile #3
30

Tile #1
25

Tile #2

dist(k3,C)

20

15

10

10

15

20

25

dist(k2,C)

Cada celda mantiene su propia aproximaci


on de la funcon Q:
Celda #i aproxima Qi (s, a)
Q(s, a) = f (Q1 (s, a), Q2 (s, a), Q3 (s, a))
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Discretizacion de Resolucion Variable: Arboles


KD

(Munos

and Moore, 02)

Los nodos y hojas del arbol


representan regiones del
espacio de estados

en la funci
on de valor
en la poltica
...

30

25

20
dist(k3,C)

En cada nodo del arbol, una


region se divide en dos:
Los criterios para partir un
nodo son diversos, y buscan
diferencias dentro de la
region:

...
...

15

10

10

15
dist(k2,C)

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

20

25

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Aproximacion de Funciones
Utilizar un aproximador de funciones para representar la
funcion Q:
NN 1

NN 1
^
Q(s, a 1)

^
Qa (s)
1

a1
NN 2

NN 1
^
Q(s, a )

^
Qa (s)

Arg a

NN 3
Q^ a (s)

ai

a2
s

Max

^ a )
Q(s,

ai

Max

a3

... ... ... ... ...


... ... ... ... ...

Arg a

NN 1

NN L

... ... ... ... ...


... ... ... ... ...
NN 1
^
Q(s, a )

Q^ a (s)

a (s))
L aproximadores (Q
i
Fernando Fern
andez y Daniel Borrajo

aL

a))
1 aproximador (Q(s,
Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Batch Q-Learning (1/2)

Entradas:
1
2
3

Un espacio de estados X
Un conjunto de L acciones, A = {a1 , . . . , aL }
Una colecci
on T de N tuplas de experiencia del tipo
< s, ai , s 0 , r >, donde s X es un estado desde donde la
acci
on ai es ejecutada y s 0 es el estado resultante

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Batch Q-Learning (2/2)


0 (s, a) = 0
Sea Q
iter = 0
Repetir
Inicializar los conjuntos de aprendizaje T iter =
Desde j=1 hasta N, utilizando la j esima tupla < sj , aj , sj0 , rj >
hacer
iter 1 (sj0 , a)
cj = rj + m
axaA Q
iter
iter
T
= T {< sj , aj , cj >}

iter (s, a) para aproximar el conjunto de aprendizaje


Entrenar Q
iter
T
iter = iter + 1

Hasta que el vector cj no cambie


Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Generar Tuplas de Experiencia


0
5

s7

3
s9

s 12

s 13

s8
4

s 25
s5

s6

s 10

s 23

s 11
s24

3
s4

s 21
s 22

2
s2
s3
1

s 20

s1
0

T 0 ={(s

1 , norte, 0),

(s2 , este, 0), (s3 , norte, 0), (s4 , norte, 0),


. . . , (s12 , este, rmax ), . . . , (s20 , norte, 0), (s21 , este, 0), . . . ,
(s24 , norte, rmax ), . . . }
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Batch Q-Learning: Iter. 1


Q 1 (s, a):

Action "Go East"


0

Action "Go West"


4

Goal
(Q=0)

r max

Goal
(Q=0)

Q=0

Q=0

Action "Go South"

Action "Go North"


0

r max
3

Q=0

Q=0

Fernando Fern
andez y Daniel Borrajo

Goal
(Q=0)
4

Goal
(Q=0)

Aprendizaje Autom
atico

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Batch Q-Learning: Iter. 2


Q 2 (s, a):

Action "Go East"


0

Action "Go West"


4

Goal
(Q=0)

r max

r max

Goal
(Q=0)

r max
3

Q=0

Q=0

Action "Go South"

Action "Go North"


0

r max
3

Q=0

r max

Q=0

Fernando Fern
andez y Daniel Borrajo

Goal
(Q=0)
4

max

Goal
(Q=0)

Aprendizaje Autom
atico

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Batch Q-Learning: Iter. 3


Q 3 (s, a):

Action "Go East"


0

Action "Go West"


4

Goal
(Q=0)

r max

rmax r max

Goal

2 rmax (Q=0)

2 rmax

r max

rmax
3

rmax

Q=0

Q=0
1

Action "Go South"

Action "Go North"


0

2
rmax r max

2 rmax
3

rmax r max

Q=0
2

rmax
1

Fernando Fern
andez y Daniel Borrajo

Goal

2 rmax (Q=0)

r max

Q=0

Goal
(Q=0)

Aprendizaje Autom
atico

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Ejecucion de Batch Q-Learning: Iteracion 9


Q 9 (s, a):

Action "Go East"


0

Action "Go West"


4

Goal
(Q=0)

r max

rmax rmax r max

Goal

3
2
rmax rmax rmax rmax (Q=0)
5

3
2
6 rmax 5 rmax 4 rmax rmax rmax

r max

rmax
4 rmax 3 r
max
3

rmax 4 rmax 3 rmax

3
6
5
4
7
rmax rmax rmax rmax rmax

rmax

3 rmax

rmax rmax rmax

6
5
4
8
7
rmax rmax rmax rmax rmax

7 rmax 6 rmax 5 rmax

7
6 rmax 5 rmax
9 rmax 8 r
max rmax

4 rmax

Action "Go South"

Action "Go North"


0

3
4 rmax rmax 2 rmax r max

Goal

Goal
(Q=0)
4

3
2
5 rmax 4 rmax rmax rmax (Q=0)
4

3
2
5
6 rmax rmax 4 rmax rmax rmax

r max
3

3
6
5
4
7 rmax rmax rmax rmax rmax

4
5
rmax r max
rmax rmax 3 r
max
2

6
5
4
8
7
rmax rmax rmax rmax rmax

rmax
6 rmax 5 rmax 4 rmax 3 r
max
1

7
6 rmax 5 rmax
9 rmax 8 r
max rmax

5
6
3
7 rmax rmax rmax 4 r
max rmax
0

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Aprendizaje con Aproximacion de Funciones


Problemas en la aplicaci
on de aprendizaje supervisado en
aprendizaje por refuerzo:
Las etiquetas de los datos (valor Q) son desconocidos a priori
Los refuerzos positivos pueden ser escasos comparados con
refuerzos nulos (problema de clasificaci
on de conjuntos no
balanceados)
Los distintos pasos del aprendizaje pueden tener distintas
caractersticas de aprendizaje
Las estimaciones son calculadas sobre estimaciones:
propagaci
on de errores:
Buena convergencia: se obtienen la funci
on de valor y poltica
o
ptimas
Convergencia por casualidad: la funci
on de valor calculada es
sub
optima pero genera una poltica o
ptima
Mala convergencia: tanto la funci
on de valor como la poltica
son sub
optimas
Divergencia: no se converge ni a una funci
on de valor ni a una
pol
tica
Fernando
Fern
andez y Daniel Borrajo
Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

TD-Gammon
Juego del backgammon
34 piezas y 24 posiciones posibles: espacio
de estados enorme!!!
20 posibles movimientos por cada tirada de
dado
Perfecto concimiento de espacios de estado,
acci
on, y transiciones de estado
Refuerzo cuando se gana la partida
V(s) evalua la probabilidad de ganar desde
el estado s
Uso de una red de neuronas para aproximar
V(s)
Aprendizaje mediante una versi
on no lineal
de TD()
Aprendizaje de los pesos mediante descenso
de gradiente
Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Problemas de control: Acrobot


Acrobot
Espacio de estados continuo: 2 angulos y 2
velocidades
Espacio de acciones discreto: 2 acciones:
empujar el codo en una direcci
on y otra
Objetivo: colocar el brazo en posicion
vertical invertida
Perfecto concimiento de espacios de estado,
acci
on, y transiciones de estado
Diversas aproximaciones para
generalizaci
on: Variable Resolution
Discretization, redes de neuronas, arboles
de decisi
on, etc.

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Goal
1
Elbow
2

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Modulo Pedagogico en Tutores Inteligentes


RLATES:
Estado: conocimiento que dispone el
alumno sobre el contenido del tutor
Acci
on: mostrar un contenido al
alumno
Percepci
on realizada mediante tests
Objetivo: obtener una poltica
pedag
ogica
Simplificaci
on a un espacio de
estados con caractersticas binarias
Difcil percepci
on/modelizaci
on del
estado: POMDP

Fernando Fern
andez y Daniel Borrajo

Domain
Knowledge

Aprendizaje Autom
atico

Browser
Navegador

Tema 1
Definicin

Def11

.....

Subtemas

SubT

.....
.....

Def n1.1

E jemplos

........

P ro blemas

.......................

Defn1

Subtema 1.1
Def

Def11.1

Ejercicios

Ejer11

.....

........

Ejern

Tests

.....
.

Subtema 1.n

.........
T

...

Def

....

SubT

........

.....

...
1.n

T1

Client

T n1.n

Domain
Module

Interface
Module

Student
Module

Pedagogical
Module

Student
Knowledge

Pedagogical
Knowledge
Class A
students

Student 1

Server

I
n
t
e
r
n
e
t

.
.
.
.

Student 1

Browser
Navegador
Client
Student n

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Modulo Pedagogico en Tutores Inteligentes

Definition

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Otras Aplicaciones
Adaptive Cognitive Orthotics: Combining Reinforcement Learning and
Constraint-Based Temporal Reasoning by Matthew Rudary, Satinder Singh and
Martha Pollack. In Proceedings of the Twenty-First International Conference on
Machine Learning (ICML), pages 719-726, 2004.
Cobot: A Social Reinforcement Learning Agent by Charles Isbell, Christian
Shelton, Michael Kearns, Satinder Singh and Peter Stone. In Advances in Neural
Information Processing Systems 14 (NIPS) pages 1393-1400, 2002.
Empirical Evaluation of a Reinforcement Learning Spoken Dialogue System by
Satinder Singh, Michael Kearns, Diane Litman, and Marilyn Walker. In
Proceedings of the Seventeenth National Conference on Artificial Intelligence
(AAAI), pages 645-651, 2000
Mori, T., Nakamura, Y., Sato, M., and Ishii, S. (2004). Reinforcement learning
for CPG-driven biped robot. Nineteenth National Conference on Artificial
Intelligence (AAAI), pp.623-630.

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Resumen

Diferencias entre Programaci


on Dinamica, metodos libres de
modelo y basados en el modelo
Planificacion en Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo:
Algoritmo Q-Learning
Importancia de la representaci
on de los estados, las acciones y
las funciones de valor
Discretizaciones incorrectas pueden romper la propiedad de
Markov
Divergencia de los metodos de aproximaci
on de las funciones
de valor

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

Procesos de Decisi
on de Markov
Aprendizaje por Refuerzo

Aprendizaje Por Refuerzo


Generalizaci
on
Ejemplos de Aplicaci
on

Bibliografa

Machine Learning, Tom Mitchell. Captulo 13.


Reinforcement Learning: An Introduction. Richard Sutton y
Andrew Barto. MIT Press. 1998
Reinforcement Learning Repository:
http://www-anw.cs.umass.edu/rlr/
Aprendizaje Automatico: conceptos basicos y avanzados.
Basilio Sierra Araujo. Pearson Prentice Hall. 2006

Fernando Fern
andez y Daniel Borrajo

Aprendizaje Autom
atico

S-ar putea să vă placă și