Sunteți pe pagina 1din 12

ISSN: 1697-7912. Vol. 7, Nm. 4, Octubre 2010, pp.

5-16
www. revista-riai.org

Toma de Decisiones en Robtica


Miguel A. Salichs, Mara Malfaz, Javi F. Gorostiza

Robotics Lab, Departamento de Ingeniera de Sistemas y Automtica, Universidad


Carlos III de Madrid, Avenida de la Universidad, 30, 28911, Legans, Madrid,
Espaa (e-mail: salichs@ing.uc3m.es; mmalfaz@ing.uc3m.es;
jgorosti@ing.uc3m.es)

Resumen: En este artculo se presenta, en forma de tutorial, una visin de conjunto de la situacin
actual del problema de la toma de decisiones en robtica. El estudio se plantea de forma amplia e
integradora y, por tanto, intentando no entrar en detallar soluciones concretas para problemas tambin
concretos. El artculo est centrado sobre todo en las decisiones de alto nivel que debe tomar un robot,
y no en problemas de ms bajo nivel, que se solucionan empleando tcnicas tradicionales de control o
mediante algoritmos muy especficos. Nos referimos a toma de decisiones de un robot en el sentido
amplio de determinar las actividades a realizar por el robot. Es decir, sin hacer ninguna exclusin a
priori, basada en cuestiones tales como la estrategia de toma de decisiones empleada, el tipo de robot,
las tareas que puede realizar, etc. El artculo est estructurado en una serie de secciones, en las que se
tratan diversos temas de inters en robtica, desde la perspectiva de la toma de decisiones: autonoma,
inteligencia, objetivos, decisiones de alto nivel, estrategias de toma de decisiones, arquitecturas de
control, percepcin, interaccin humano-robot, aprendizaje y emociones. Copyright 2010 CEA.
Palabras Clave: Robtica, toma de decisiones, arquitecturas de control, autonoma, inteligencia,
interaccin humano-robot, aprendizaje, emociones.

1. INTRODUCCIN En ciencias de la naturaleza suele plantearse una cuestin


semejante a la que hemos planteado respecto a los robots: Por
Una caracterstica esencial de cualquier robot es su capacidad de qu en cada momento un ser vivo hace lo que hace y por qu no
actuacin. Dicho de otra forma, todos los robots son capaces de hace algo distinto? La respuesta a esta pregunta ha recibido
hacer diversas cosas, pero entonces surge la pregunta, qu debe mltiples respuestas y ha dado lugar a multitud de estudios por
hacer el robot en cada instante? La respuesta es simple y, de parte de diversas disciplinas cientficas. Segn nos encontramos
hecho, normalmente ni se plantea la pregunta si nos encontramos con organismos ms evolucionados, la respuesta a esta pregunta
con robots con poca o nula autonoma. Robots que reciben se hace cada vez ms difcil. Esta pregunta guarda relacin con
rdenes de un operador o que su actuacin consiste en la el problema tcnico de la toma de decisiones en robtica.
realizacin de movimientos repetitivos y preprogramados, como Aunque el problema cientfico es muy diferente del problema
suele ser corriente, por ejemplo, en los robots industriales. Sin tcnico, un mejor conocimiento de las soluciones que ha
embargo, segn aumenta la autonoma de los robots, la variedad encontrado la naturaleza puede sernos de gran ayuda a la hora de
y complejidad de tareas realizables, y la variabilidad de los resolver el problema tcnico. En este artculo, cuando sea
entornos de trabajo, la respuesta a la pregunta no es obvia. posible, intentaremos establecer analogas con la forma en que la
naturaleza ha resuelto el problema de toma de decisiones, a fin
El problema de la toma de decisiones est presente en muchas de que nos pueda servir de referencia e inspiracin para el
reas de la robtica, desde el control de movimientos de robots desarrollo en sistemas artificiales, como los robots.
hasta la robtica cognitiva, pero su tratamiento casi nunca se
aborda de forma integrada. El estudio y, por tanto, las Nos referiremos a toma de decisiones de un robot en el sentido
soluciones, suelen particularizarse para situaciones muy amplio de determinar las actividades a realizar por el robot. Es
concretas. Por ejemplo, el tratamiento que se da al problema de decir, sin hacer ninguna exclusin a priori, basada en cuestiones
cmo un robot mvil puede evitar obstculos, tpicamente no tales como la estrategia de toma de decisiones empleada, el tipo
tiene nada que ver con el de cmo un robot recepcionista debe de robot, las tareas que puede realizar, etc.
comportarse en presencia de un visitante. En este artculo se
presenta, de forma resumida, una visin de conjunto de la El artculo est estructurado en una serie de secciones, en las que
situacin actual del problema de la toma de decisiones en se tratan aspectos especficos del problema de toma de
robtica. El estudio se plantea de forma amplia e integradora y, decisiones en robtica. La seccin II est dedicada a estudiar
por tanto, intentando no entrar en detallar soluciones concretas quin es el sujeto que toma en ltima instancia las decisiones, y
para problemas tambin concretos. cul es el grado de autonoma con que cuenta un robot para
tomar sus propias decisiones. En la seccin III se analiza qu se
Nos centraremos sobre todo en las decisiones de alto nivel que entiende por inteligencia de un robot, desde el punto de vista de
debe tomar un robot, y no en problemas de ms bajo nivel que se la toma de decisiones. La seccin IV est dedicada a analizar
solucionan empleando tcnicas tradicionales de control o cules son las metas hacia las que van orientadas las decisiones
mediante algoritmos muy especficos (p. ej. el control del paso de un robot y cmo se establecen dichas metas. En las secciones
de un robot humanoide). V y VI se detalla cmo se toman las decisiones. En la primera se

3XEOLFDGRHOHFWUyQLFDPHQWH
'2,5,$,
6 Toma de Decisiones en Robtica

profundiza en los mecanismos empleados y, en la segunda, en ocasiones-, o razones operativas, como sucede en algunas
cmo se organizan dentro de las arquitecturas de control. El aplicaciones militares.
comportamiento general del robot viene fijado por las decisiones
de ms alto nivel, que se comentan en la seccin VII. En la Hay que tener cuidado en no vincular el hecho de que el robot
seccin VIII se describe la influencia de los sistemas de interaccione con seres humanos a su grado de autonoma. Si la
percepcin del robot en sus decisiones, y como las carencias en relacin de los humanos con el robot es de tipo maestro esclavo,
la percepcin afectan a la toma de decisiones. En los robots en y el papel de los humanos es dar rdenes y el del robot
los que hay una interaccin bidireccional de alto nivel existe obedecerlas, entonces s cabe hablar de una limitacin de la
tambin un problema de toma de decisiones ligado a esa autonoma del robot. Pero si la interaccin de los humanos con el
interaccin, ya que el robot debe decidir en todo momento que robot es de igual a igual, entonces su presencia no tiene por qu
actos comunicativos debe realizar. Este problema se estudia en la estar asociada a restricciones para que el robot pueda tomar sus
seccin IX. En la seccin X se comenta como los sistemas de propias decisiones. Pensemos por ejemplo en un robot
decisin del robot pueden evolucionar y mejorar mediante recepcionista o un robot gua de museo. En este caso, los
aprendizaje. Finalmente en la seccin XI se trata un tema que humanos estn vinculados a la tarea que realiza el robot. En caso
despierta un inters creciente en los sistemas bioinspirados: de que un humano le d una orden directa al robot, es factible
tratar de emular en los robots el papel que juegan las emociones que este no la obedezca, porque el robot haya decidido hacer
en los animales. algo distinto. Este planteamiento diferente del papel del ser
humano suele afectar tambin a la arquitectura de control del
2. AUTONOMA Y TOMA DE DECISIONES
robot. Cuando el humano realiza el papel de maestro y el robot
Un aspecto esencial a la hora de estudiar la toma de decisiones el de esclavo, la interfaz del humano con el sistema de control
en un robot es analizar quin es el que toma las decisiones. En la del robot se realiza normalmente en los niveles superiores de la
actualidad, los robots comerciales que realizan tareas arquitectura de control; mientras que cuando la interaccin es de
relativamente sencillas, como por ejemplo los robots industriales igual a igual la interfaz puede efectuarse en los niveles inferiores
o los robots aspiradora, son capaces de trabajar durante largos de control.
periodos de tiempo sin requerir la presencia de un operador. Es
decir, podemos considerarlos como robots con un alto grado de Un ejemplo en el que se asume que la relacin humano robot se
autonoma. Sin embargo, no cabe decir lo mismo de robots ms basa en un esquema maestro esclavo lo encontramos en (Huang
avanzados que, normalmente, no estn comercializados y que en et al, 2004). En este artculo, los autores presentan una mtrica
muchos casos tan slo existen a nivel de prototipo en para medir la autonoma de un robot. La mtrica depende de tres
laboratorios de investigacin. Muchos de estos robots reciben factores: complejidad de la misin, dificultad del entorno e
rdenes de alto nivel por parte de operadores humanos, mientras interaccin humano-robot. Se considera que cuanto mayores
que las decisiones que toman ellos mismos son de ms bajo sean las dos primeras, mayor es la autonoma del robot; mientras
nivel. Esto no quiere decir que las decisiones que toma el robot que la tercera acta en sentido inverso. Es decir, cuanto mayor es
sean sencillas, quiere decir tan slo que se requiere la presencia la interaccin humano-robot, menor es la autonoma del robot.
de un operador externo y que, por tanto, la autonoma del robot Como ya hemos indicado, esto es cierto cuando el papel del
es limitada. Por ejemplo, muchos de los robots humanoides operador es tan slo el de ayudar al robot a que realice su
actuales, cuando se mueven en entornos complejos, lo hacen de misin, pero no es as cuando, por ejemplo, el ser humano pasa a
forma teleoperada. El operador tan slo indica haca donde debe ser parte de la misin, establecindose una relacin de igual a
desplazarse el robot, mientras que es el propio robot el que se igual.
encarga de controlar el movimiento de sus articulaciones para
conseguir andar manteniendo el equilibrio, algo ya de por s muy Otra cuestin importante que se plantea cuando se rompe la
complejo y difcil. Adems, no hay que pensar tan slo en robots relacin maestro esclavo es la siguiente: en ese caso qu debe
teleoperados, muchos robots mviles, capaces de elegir su hacer el robot cuando recibe una orden? Si el robot es realmente
camino y evitar obstculos de forma autnoma, dependen de un autnomo, todo depender de cmo se haya diseado el sistema
operador humano para que les indique a donde tienen que ir. En de toma de decisiones de nivel superior del robot. Supongamos
algunos casos, podemos encontrar tambin robots muy que el robot funciona con un sistema de toma de decisiones
avanzados capaces de trabajar de forma totalmente autnoma, orientado a la consecucin de unos objetivos prefijados. En ese
pero, normalmente, slo en entornos controlados o nicamente caso, lo ms prioritario para el robot ser cumplir los objetivos
durante breves periodos de tiempo. sealados, y puede suceder que las rdenes recibidas entren en
conflicto con esos objetivos. Imaginemos un robot que tiene un
La palabra autonoma debe usarse con cuidado, ya que puede nivel bajo de batera y que recibe una orden cuyo cumplimiento
drsele distintos significados en funcin del contexto o la puede hacer que el robot no tenga energa suficiente para llegar a
disciplina acadmica en que se utilice. Por ejemplo, en filosofa la estacin de carga. Qu debe hacer en ese caso? Si el objetivo
el concepto autonoma se suele ligar a libertad para elegir prioritario es mantenerse activo -es decir, con las bateras
objetivos, mientras que en robtica la autonoma se relaciona cargadas- entonces no obedecer la orden recibida, pero si el
con la capacidad de actuar de forma independiente, es decir, no objetivo prioritario es obedecer, entonces har lo que se le diga,
supervisada. (Haselager, 2005). aun a riesgo de agotar la energa de que dispone.

Conseguir robots capaces de operar en situaciones complejas, de En algunos robots, el hecho de que el robot no obedezca algunas
forma desatendida y durante largos periodos de tiempo es uno de rdenes puede incluso llegar a considerarse como algo positivo.
los retos a los que se enfrenta la robtica actual. No slo por Supongamos que el robot debe mostrar un comportamiento
razones tcnicas, sino tambin por razones econmicas -el coste semejante al de un animal (ej. robot mascota). En ese caso puede
de un operador ayudando al robot no es asumible en muchas asumirse como algo natural el hecho de que el robot
desobedezca ciertas rdenes, en la misma forma que lo hara un
M. A. Salichs, M. Malfaz, J. F. Gorostiza 7

animal real. se enfrentan a situaciones ms complejas no es siempre sencillo


determinar el grado de acierto de sus decisiones. En la
3. INTELIGENCIA Y TOMA DE DECISIONES
actualidad, un tema de gran inters entre los investigadores en
Hay mltiples definiciones de inteligencia. De hecho, hay robtica es el establecimiento de mtricas que permitan
multitud de libros y artculos dedicados a estudiar qu se cuantificar los avances en este campo y poder comparar las
entiende por inteligencia. Muchas de estas definiciones se capacidades de robots diferentes (Steinfeld et al, 2006). No es
focalizan en los procesos cognitivos asociados a la inteligencia: nada fcil conseguirlo, entre otras cosas, porque una de las
memoria, aprendizaje, pensamiento abstracto, etc. Sin embargo, cuestiones que ms hay que valorar es la capacidad del robot
desde la perspectiva de la toma de las decisiones, vamos a para hacer frente a situaciones inesperadas. Esto hace que las
centrarnos en el resultado de la inteligencia en los seres vivos, medidas no puedan realizarse en unas condiciones de prueba
que es la consecucin de objetivos, siguiendo la orientacin de totalmente definidas a priori, ya que en ese caso el robot podra
(Sternberg y Salter, 1982), que definen la inteligencia como disearse para comportarse perfectamente en esas condiciones y
comportamiento adaptativo orientado a objetivos. obtener unos resultados excelentes, que no necesariamente se
repetiran si las condiciones de prueba se modificaran. Por esta
Cuando un robot toma una decisin, esa decisin puede ser ms razn, algunos investigadores son partidarios de medidas
o menos acertada. De acuerdo con lo que hemos indicado antes, basadas en los resultados de competiciones entre robots, como
en lo que sigue, vincularemos la inteligencia del robot al grado ocurre por ejemplo en el mundo del ajedrez, donde el ndice que
de acierto en sus decisiones. Lo normal es que el grado de mide la calidad de un ajedrecista, el Elo (Elo, 1978), se establece
acierto vare segn cul sea el problema al que se enfrenta el a partir de los resultados en las competiciones. Esto es posible
robot, y puede ser muy alto para ciertos problemas y serlo muy hacerlo tambin en algunos robots, como por ejemplo los robots
bajo para otros. As pues, al igual que en psicologa (Gardner, que participan en competiciones de ftbol robtico, pero no es
1993), tambin en robtica podemos hablar de inteligencias extensible a todos los robots.
mltiples. Un robot, como una persona, puede ser muy
4. OBJETIVO DE LAS DECISIONES
inteligente en un determinado tipo de problemas y, sin embargo,
ser incapaz de dar respuestas acertadas en otro tipo de Tal como hemos indicado, la inteligencia de un robot puede
problemas. Esto es particularmente aplicable a casi todos los considerarse como una medida del grado en que sus decisiones
robots actuales, ya que han sido normalmente diseados para son acertadas, en el sentido de que le lleven a conseguir unos
cubrir slo aplicaciones muy concretas. El acierto en las determinados objetivos. Ahora bien cules son los objetivos de
respuestas tambin depender, como es lgico, de la dificultad un robot? Lo habitual es que nos encontremos con robots
de los problemas planteados. No es raro encontrarnos, por diseados para realizar tareas especficas y, por tanto, el objetivo
ejemplo, con robots que toman decisiones adecuadas cuando se es simplemente la correcta realizacin de dichas tareas.
encuentran en el entorno controlado y simplificado de un Asimismo, si nos encontramos con un robot que acta siguiendo
laboratorio, pero son incapaces de hacer lo mismo en un entorno en todo momento las ordenes de un operador, la respuesta es
real mucho ms complejo. tambin simple: el objetivo del robot es obedecer. Pero en la
medida en que los robots evolucionen y sean cada vez ms
El concepto de inteligencia que estamos usando aqu es autnomos y capaces de realizar mltiples actividades, no ser
independiente de los mecanismos empleados en la toma de tan fcil fijar cual es el objetivo u objetivos que debe cumplir un
decisiones. Esto no siempre ha sido considerado as. En algunas robot; y lo que es todava ms complicado: si el robot debe
escuelas, desde una perspectiva antropocntrica, la inteligencia compaginar mltiples objetivos, qu debe hacer en situaciones
se ha considerado ntimamente ligada a los procesos mentales en las que esos objetivos entran en conflicto.
deliberativos que permiten el razonamiento en los seres
humanos, algo que no existe en otros seres vivos menos En muchas ocasiones, los robots no trabajan con unos objetivos
evolucionados que nosotros. Hoy en da, esta visin est bastante explcitos. Los objetivos puede que existieran en la mente del
superada (Brooks, 1991), y se reconoce que, incluso en los seres diseador o del programador del robot, pero no se explicitan en
humanos, una gran parte de las decisiones inteligentes no estn el propio robot. Por ejemplo, el objetivo de un determinado
necesariamente asociadas a procesos de anlisis racional. robot industrial puede ser unir con puntos de soldadura dos
piezas de la carrocera de un coche; pero esa informacin no es
Hemos vinculado inteligencia al grado de acierto en las relevante para el robot, que lo nico que tiene que hacer es
decisiones del robot, pero qu se entiende por acierto? La ejecutar de forma repetitiva un programa establecido a priori.
respuesta depender de cuales sean los objetivos del robot. Si se Esto puede hacerse si el programador puede predecir todas las
trata de un robot aspiradora, podemos considerar que el acierto circunstancias a las que va a enfrentarse el robot y preprogramar
est relacionado con el grado de limpieza que logre el robot y que es lo que debe hacer el robot en cada caso. Cuando esto no
con el tiempo que tarde en hacer la limpieza. En este caso, el es as, ser el robot el que deba tomar las decisiones en cada
hecho de que el robot choque con los objetos del entorno no situacin y, para ello, es til explicitar los objetivos en el propio
tiene porqu considerarse como algo negativo -siempre y cuando robot. Por ejemplo, si queremos que un robot mvil vaya de un
no rompa nada-, mientras que para otros robots el evitar lugar a otro podemos abordar el problema de dos formas muy
obstculos puede considerarse como un fin y, por tanto, diferentes. La primera sera dar a priori al robot las indicaciones
consideraremos como decisiones incorrectas del robot aquellas de los movimientos que debe hacer para llegar al punto de
que lo lleven a colisionar con otros objetos. destino. La segunda sera dar al robot el punto de destino, y que
l directamente determine la ruta a seguir para llegar hasta all.
En robots que realizan tareas sencillas no plantea grandes En el primer caso, el objetivo -el punto al que debe llegar el
dificultades determinar si las decisiones del robot son ms o robot- slo lo conoce el programador, mientras que en el
menos correctas, pero en la medida que evolucionan los robots y segundo se le especifica explcitamente al robot, y es l quien
8 Toma de Decisiones en Robtica

debe escoger la estrategia adecuada para conseguirlo. motivaciones internas del robot. En este caso, lo que se establece
a priori son las necesidades del robot y su dinmica; es decir,
Cuando existen objetivos explcitos, es importante tener en cmo crecen y se satisfacen dichas necesidades. Por ejemplo,
cuenta quin fija dichos objetivos. Es bastante corriente que en dado que los autores estaban interesados en aplicar su sistema a
sistemas de control jerrquicos los objetivos de un nivel los fije un robot social, y deseaban que el robot se viera impulsado a
un nivel superior, pero quin fija los objetivos del nivel de interaccionar con seres humanos, definieron entre otras una
mayor rango? Como ya hemos indicado al hablar de autonoma, necesidad social. Esta necesidad se satisfaca, es decir se
una opcin es que esos objetivos los fije el operador. Por reduca, cuando el robot realizaba alguna actividad en
ejemplo, un robot mvil cuya principal actividad es ir de un sitio cooperacin con seres humanos, y aumentaba cuando el robot
a otro, puede recibir de un operador los lugares a los que debe ir. estaba slo o cuando la interaccin con los seres humanos tena
Otra opcin es que los objetivos de mayor nivel sean fijos y no un carcter negativo (ej. el robot era penalizado por un persona).
se puedan cambiar.
En el sistema propuesto, las necesidades, cuando exceden un
Si el robot ha sido diseado para realizar una tarea concreta, los determinado lmite, dan lugar a motivaciones, que son las que
objetivos de alto nivel estarn vinculados a dicha tarea, aunque impulsan al robot a realizar acciones que permitan disminuir de
insistimos en que lo ms comn en la actualidad es que no se nuevo las necesidades. Es decir, el sistema motivacional acta
hayan explicitado en el robot. Por ejemplo, en la mayora de como un sistema de control, en el que las necesidades hacen el
robots aspiradora la estrategia que debe seguir el robot para papel de seal de error. En los seres vivos, las motivaciones no
conseguir limpiar adecuadamente est preprogramada. No es slo estn vinculadas a las necesidades, sino que pueden
normal encontrar robots en que est definido claramente el activarse tambin como consecuencia de un estmulo externo.
objetivo de limpiar, y que el robot cuente con un cierto grado de Pensemos en una persona que en un momento dado no tiene
autonoma a la hora de establecer la estrategia adecuada para necesidad de comida y, por tanto, su motivacin ligada a
lograr ese objetivo. satisfacer esa necesidad hambre- no est activa. Sin embargo, si
en ese momento le mostramos una bandeja con unos apetitosos
Una solucin alternativa y novedosa, inspirada en la naturaleza, dulces, es muy posible que se sienta motivado a comer.
es dotar al robot de un sistema motivacional en el que se
establezcan a priori las necesidades del robot, y el objetivo sea De acuerdo con lo anterior, las motivaciones se calculan de la
satisfacer dichas necesidades. El cambio, respecto a fijar siguiente forma:
objetivos relacionados con las tareas a realizar, es muy grande.
En un caso, el objetivo se concreta en trminos de actividades o Si Di < Ld entonces M i = 0
estado del mundo exterior al robot, mientras que en el otro se (1)
Si Di Ld entonces M i = Di + wi
establece en funcin del estado del propio robot. Ambas
perspectivas pueden estar relacionadas y en ciertos casos pueden
llevar al mismo resultado, pero son muy diferentes. Imaginemos En donde Di representa el valor de la necesidad (drive) i, Mi el
un robot que juega al futbol, en ese caso puede establecerse valor de la motivacin i, wi el valor del estmulo adicional sobre
directamente que el objetivo es ganar el partido. Otra opcin la motivacin i -en caso de que el estmulo este presente-, y Ld el
sera establecer en el robot una necesidad vinculada a un estado umbral de la necesidad que activa la motivacin
interno, que podramos llamar por ejemplo autoestima. Si la correspondiente. En el sistema propuesto, las decisiones se
autoestima se satisface ganando partidos, entonces los dos toman en funcin del entorno del robot, lo que se denomina
planteamientos nos llevarn a los mismos resultados. En ese estado externo, y de la motivacin dominante en el robot, lo que
caso, establecer un sistema motivacional basado en necesidades se denomina estado interno:
internas, como la autoestima, puede parecer muy rebuscado, ya
que se obtiene el mismo resultado estableciendo directamente Decisin = f ( Estado _ int,Estado _ ext ) (2)
que el objetivo es ganar partidos. Eso es cierto si el robot lo
nico que hace es jugar al futbol, como sucede con los robots Las decisiones a tomar para satisfacer diversas necesidades
que actualmente participan en las competiciones de futbol pueden ser contradictorias. Para solucionarlo, se establece una
robtico. Pero pensemos en un robot que fuera capaz de hacer competicin entre motivaciones y se considera de forma
ms cosas, adems de jugar al futbol. En esa situacin, hay que prioritaria la motivacin dominante. Pero esto no es suficiente.
fusionar el objetivo de ganar partidos con otros objetivos ligados Se propone tambin ajustar la funcin f, usando tcnicas de
al resto de actividades del robot, y se puede plantear el problema aprendizaje por refuerzo, en aras de conseguir un objetivo global
de compaginar objetivos muy diversos. Supongamos que para en el que se ponderen las diversas necesidades. Para ello se
intentar ganar un determinado partido, que se va perdiendo, el define como objetivo global el valor de bienestar Wb, de la
robot debe de hacer un gasto extra de energa, y eso implica estar siguiente forma:
inmovilizado en la estacin de carga durante ms tiempo, sin
poder realizar ninguna otra actividad mientras tanto. En ese caso
vale la pena intentar ganar el partido o es mejor darlo por
Wb = Wbideal
i
i Di (3)
perdido y ahorrar energa? Estos planteamientos pueden sonar a
En donde Wbideal representa el mximo valor del bienestar. Como
ciencia ficcin, dado el estado actual de la robtica, pero en la
puede verse, segn esta definicin, el bienestar va asociado a la
medida en que se desarrollen robots cada vez ms autnomos y
satisfaccin de necesidades, y se considera que toma un valor
verstiles, las situaciones en las que se produzcan este tipo de
mximo cuando el valor de todas las necesidades es cero. Los
conflictos pueden ser habituales.
pesos i sirven para ponderar el valor que se da a cada una de las
diferentes necesidades.
En (Malfaz y Salichs, 2009) se presenta un sistema de toma de
decisiones inspirado en la naturaleza, basado en necesidades y
M. A. Salichs, M. Malfaz, J. F. Gorostiza 9

5. ESTRATEGIAS DE TOMA DE DECISIONES mundo, ya que son un elemento esencial para que puedan
llevarse a cabo las actividades deliberativas. Por ejemplo, para
En la naturaleza nos encontramos dos procedimientos muy
planificar acciones futuras, es imprescindible contar con algn
diferentes a la hora de tomar decisiones (Shiffrin y Schneider,
modelo sobre el que poder predecir el resultado de tomar
1997). En prcticamente todos los seres vivos las acciones a
distintas decisiones. Si no se tiene ningn modelo sobre el que
realizar se determinan automticamente, a partir tan slo de
predecir los pros y contras de las decisiones, no es factible
informacin relacionada con el estado del individuo y del mundo
planificar las acciones futuras. El problema radica en que, en
exterior. Esto es aplicable tanto a los seres vivos ms sencillos
general, la obtencin de esos modelos no es nada sencilla. De
(ej. fototropismo en las plantas), como a animales ms
hecho, como comentaremos en el siguiente epgrafe, en algunos
evolucionados (ej. comportamiento condicionado de un animal).
periodos de la evolucin de la robtica se ha intentado prescindir
Pero en los seres humanos existe un procedimiento adicional
de los procesos deliberativos, sobre todo por la dificultad de
para tomar decisiones: la deliberacin. Los seres humanos
obtener unos modelos suficientemente precisos. En la actualidad,
podemos, por ejemplo, evaluar mentalmente cul sera el
no hay grandes problemas para obtener modelos que permitan
resultado previsible de distintas acciones y decidir qu hacer en
evaluar algunas acciones concretas. Por ejemplo, no hay grandes
funcin de esas previsiones. Este mecanismo no existe en otros
problemas para obtener mapas del entorno, que puedan ser
animales y es el gran avance evolutivo de los seres humanos. Es
usados como modelos para planificar las trayectorias del robot.
un mecanismo cognitivo que permite introducir un horizonte
Pero no ocurre lo mismo en otros mbitos de decisin de los
temporal en el proceso de decisin -un perro no se plantea que es
robots. En la interaccin humano robot, por ejemplo, no resulta
lo que va a hacer maana-.
fcil obtener un modelo que pueda ser utilizado por el robot para
decidir qu acciones llevar a cabo en relacin a dicha
Aunque es muy potente, la toma de decisiones de forma
interaccin.
deliberativa tiene, sin embargo, un gran inconveniente: es lenta.
Por esta razn, incluso en los seres humanos, casi todas las
Aunque pueda parecer que los procesos de toma de decisiones
decisiones se toman de forma automtica. Pensemos por ejemplo
automticos y deliberativos se basan en principios muy distintos,
en las acciones que, para mantener el equilibrio, ejecuta una
y que por tanto no pueden mezclarse, esto no es as. Hemos
persona mientras va montada en bicicleta. Si tuviera que decidir
dicho que en la planificacin se evalan los pros y contras de las
estas acciones en forma deliberativa, evaluando los pros y
diferentes alternativas y que, para su valoracin, se emplean
contras de las distintas acciones que puede realizar, es posible
modelos. Pero la toma en consideracin de todas las posibles
que decidiera la accin correcta, pero cuando ya est rodando
alternativas es algo computacionalmente muy costoso. Para
por el suelo, porque la decisin se ha tomado demasiado tarde.
evitarlo, normalmente los humanos cuando planificamos
En este caso, los movimientos a realizar para mantener el
empezamos por preseleccionar unos pocos candidatos de entre
equilibrio deben decidirse en dcimas de segundo, algo que es
todos los posibles, haciendo uso de procesos de decisin
incompatible con nuestro sistema de toma de decisiones
automticos; y la evaluacin deliberativa se hace sobre un
deliberativo.
conjunto restringido de alternativas, en lugar de hacerlo sobre
todas las posibles. Es decir, usamos procesos automticos para
Otra diferencia entre procesos automticos y procesos
podar el rbol de bsqueda. Adems, para valorar de forma
deliberativos es el grado de paralelismo en su ejecucin. Varios
rpida las situaciones a las que nos llevan las distintas
procesos automticos pueden ejecutarse simultneamente.
alternativas, podemos emplear tambin procesos automticos,
Nosotros, si estamos dando un paseo acompaados de otra
que, aunque normalmente menos precisos que los deliberativos,
persona, podemos, por ejemplo, mover nuestras piernas, al
son, sin embargo, mucho ms rpidos. Pensemos en un jugador
mismo tiempo que fumamos un cigarrillo y que verbalizamos lo
de ajedrez. A la hora de evaluar las posibles jugadas, no toma en
que estamos diciendo a nuestro acompaante. Todos estos
consideracin todas las alternativas tcnicamente posibles, sino
procesos automticos se realizan sin ningn problema de forma
tan slo evala aquellas alternativas que intuye que son las
concurrente.
adecuadas. Esa intuicin es precisamente el proceso
automtico a que nos referamos antes, y que consiguen
Sin embargo, no ocurre lo mismo con los procesos deliberativos.
desarrollar los grandes maestros con miles de horas de
Nosotros no somos capaces de pensar en dos cosas
entrenamiento. Adems, esa intuicin le permite, no slo
simultneamente. En los humanos, los procesos mentales
preseleccionar automticamente las mejores jugadas, sino que le
deliberativos se ejecutan de forma secuencial. No est claro si
permite tambin valorar automticamente una posicin del
este hecho es algo que viene impuesto por algn tipo de
tablero.
limitacin en nuestro cerebro, y no aporta ningn beneficio al
individuo; o si es consecuencia de un desarrollo evolutivo, y
En robtica tambin se usan ambos procedimientos de toma de
aporta claras ventajas (ej. mantener la consciencia de un nico
decisiones -automticos y deliberativos-, pero no hay un
yo). Al no estar claro si este carcter secuencial de los procesos
consenso en cmo y cundo debe emplearse cada uno de ellos.
deliberativos en los seres humanos es algo positivo, tampoco
De hecho, esto es algo que ha sufrido grandes cambios en la
est claro si es algo que debe ser imitado en los robots. Lo
corta historia de la robtica, como comentaremos a continuacin.
normal es que los diseadores de arquitecturas de control para
robots no impongan ningn tipo de limitacin a la posible 6. ARQUITECTURAS DE CONTROL
concurrencia en la ejecucin de procesos deliberativos Aunque,
Normalmente, las decisiones que controlan la actividad de un
en otros casos, s se ha mantenido esta restriccin, tratando de
robot se toman en varios niveles. En el nivel inferior se toman
copiar a la naturaleza (Barber y Salichs, 2002).
las decisiones vinculadas directamente al control de los
elementos fsicos del robot: ruedas, articulaciones, luces, voz,
Una dificultad, a la hora de desarrollar procesos deliberativos en
etc. Los sistemas de control que actan en este nivel trabajan con
un robot, es la necesidad de contar con modelos adecuados del
10 Toma de Decisiones en Robtica

tiempos de ciclo bajos y con informacin muy concreta. Segn resultados muy positivos, ya que los comportamientos obtenidos
se van aadiendo ms niveles, estos trabajan con tiempos de en el robot se adaptaban con mucha facilidad al entorno. Sin
ciclo cada vez ms elevados y con un mayor grado de embargo, los sistemas totalmente reactivos no estn ausentes de
abstraccin en la informacin que manejan (Albus et al, 1985). problemas. Dado que con ellos las decisiones de los robots estn
La organizacin por niveles ha existido desde el comienzo de la basadas tan slo en la informacin obtenida instantneamente
robtica. Sin embargo, la forma en que se estructuran los niveles por los sensores, es decir informacin local, es complicado
y cmo debe trabajar cada uno de ellos es algo que ha suscitado tomar decisiones globales.
bastantes controversias. Como consecuencia, las soluciones
adoptadas han ido evolucionando con el tiempo, y en la corta En los aos 90 comenzaron a aparecer las denominadas
historia de la robtica ha habido importantes cambios en la arquitecturas de control hbridas, en las que se conjugaban la
visin mayoritariamente aceptada sobre cmo debe ser la toma de decisiones reactivas y las decisiones planificadas (Gat,
arquitectura de control de un robot. 1998). Como hemos indicado, en las arquitecturas primitivas la
informacin del entorno slo se emplea para hacer modelos,
Una opcin, empleada en algunos robots, es que los sistemas de sobre los que hacer planes; y en las arquitecturas reactivas slo
control de bajo nivel trabajen tan slo con informacin interna se usa para realimentar los sistemas de control. Sin embargo, en
del robot (ej. posicin de las articulaciones) y no manejen las arquitecturas hbridas se usa de las dos formas.
ninguna informacin externa al propio robot. En este caso, la
informacin del entorno o es directamente inexistente o, cuando Tanto en las arquitecturas hbridas, como en las arquitecturas
se emplea, es solo para crear modelos del entorno (ej. mapas), primitivas coexisten actividades automticas y actividades
con los que se toman decisiones (ej. planificacin de deliberativas de toma de decisiones. Pero las decisiones que se
trayectorias) que ms tarde se ejecutan en bucle abierto respecto toman con cada uno de los dos procedimientos son muy
al entorno. diferentes. En las arquitecturas primitivas las decisiones
deliberativas contenan un gran nivel de detalle y dejaban muy
La falta de informacin del entorno no presenta problemas para poca libertad a los sistemas de control de bajo nivel para su
llevar a cabo algunas tareas, como por ejemplo las que suelen ejecucin. Sin embargo, en las arquitecturas hbridas las
realizar muchos robots industriales. Aqu no es necesaria decisiones deliberativas no tienen por qu ser muy detalladas, ya
ninguna informacin del entorno, porque este no cambia. Esto que se deja bastante ms libertad a los niveles reactivos
sucede, por ejemplo, con las piezas de un coche que debe soldar inferiores para su cumplimiento. Por ejemplo, un planificador de
un robot. Tpicamente estn posicionadas siempre en el mismo trayectorias tradicional debe calcular con detalle las coordenadas
sitio y, por tanto, el robot puede hacer perfectamente su trabajo que ha de seguir el robot, mientras que un planificador de
sin ninguna realimentacin exterior. trayectorias de un sistema hbrido es suficiente con que indique
las zonas por las que debe ir el robot. En este ltimo caso, la
Esta forma de trabajo, en la que se prima la planificacin como trayectoria concreta se decidir mas tarde de forma reactiva,
forma de adaptarse al entorno, era dominante en los primeros mientras el robot se va moviendo.
aos de desarrollo de la robtica. Sin embargo, hay muchas
7. DECISIONES DE ALTO NIVEL
aplicaciones de los robots en las que los resultados obtenidos
con esta estrategia no son admisibles. Por ejemplo, imaginemos Como hemos visto antes, lo habitual en los robots actuales es
un robot mvil que, para ir de un lugar a otro, primero planifica tener varios niveles de toma de decisiones. En los niveles
en detalle una trayectoria libre de obstculos -usando un mapa inferiores se toman decisiones ms especficas y detalladas,
del entorno obtenido por el propio robot-, y que luego trata de mientras que en los superiores se usa un mayor grado de
seguir fielmente esa trayectoria, ya sin ninguna informacin del abstraccin y se toman decisiones que no necesariamente
entorno. No sera nada raro que el robot acabe colisionando con implican un alto grado de detalle. Pero, cmo deben tomarse las
algn obstculo, debido a que: decisiones de ms alto nivel? Ya hemos comentado que, en
bastantes robots, incuso en robots que no se consideran
El mapa del entorno no es totalmente exacto, por la teleoperados, estas decisiones las toma un operador humano. Por
imprecisin de los sistemas de percepcin del robot. ejemplo, un robot dedicado al transporte de objetos dentro de un
El mapa puede estar obsoleto, porque en el entorno hay hospital, lo normal es que reciba rdenes de un operador
elementos que pueden cambiar de ubicacin (ej. personas en humano, indicndole a donde debe llevar las mercancas en cada
movimiento). caso.
El robot no puede seguir con precisin la trayectoria
planificada, por errores de localizacin. En robots con ms autonoma, lo ms habitual es que las
decisiones de mayor nivel vengan fijadas por un programa, que
Los malos resultados con este tipo de arquitecturas llevaron a un acta como un guin que debe seguir el robot. El guin puede
cambio radical a mediados de los aos 80: el desarrollo de los ser fijo y haberse establecido por el fabricante del robot, o puede
sistemas reactivos (Brooks, 1986). Los problemas de la ser modificable por parte del usuario del robot. Un ejemplo de lo
estrategia anterior se achacaron a que las decisiones se tomaban primero son los robots aspiradora actuales, que funcionan con un
sobre modelos y, para evitarlos, se opt por prescindir de dichos programa fijo, mientras que un ejemplo de lo segundo podra ser
modelos Como consecuencia, en la prctica tambin se un robot industrial, en el que el programa lo introduce el usuario.
prescindi de la planificacin. En los sistemas reactivos se prima Independientemente de si el guin lo ha establecido el fabricante
la toma de decisiones basada en informacin obtenida por los o el usuario, el guin debe tener en cuenta todas las posibles
sensores exteroceptivos del robot, por lo que los sistemas de circunstancias que vayan a acontecer al robot y predeterminar
control, incluso los de muy bajo nivel, pasan a trabajar con qu es lo que debe hacer el robot en cada caso. Esto no tiene que
realimentacin del exterior. Esto dio como consecuencia hacerse especificando en detalle las acciones del robot.
M. A. Salichs, M. Malfaz, J. F. Gorostiza 11

Recordemos que los niveles superiores trabajan con un alto quien elija cmo actuar, a fin de alcanzar sus objetivos.
grado de abstraccin, y de los detalles pueden encargarse los
8. PERCEPCIN Y TOMA DE DECISIONES
niveles ms inferiores. Si, por ejemplo, un robot bpedo debe
moverse, es suficiente con que en el guin se indique a donde Alguien ajeno al mundo de la robtica puede pensar que las
debe ir. Los detalles de por dnde debe ir, qu debe hacer si limitaciones en las decisiones que toman los robots actuales
encuentra algn obstculo o cmo debe articular el movimiento estn esencialmente vinculadas a los algoritmos empleados en la
de las piernas son asuntos que se pueden encargar de resolver propia toma de decisiones. Sin embargo, esto no es cierto. Hay
otros sistemas de toma de decisiones, ubicados en niveles que recordar que, salvo en algunos casos excepcionales, las
inferiores de la arquitectura de control. La opcin de dotar al decisiones se toman en bucle cerrado, es decir las decisiones se
robot de un guin preestablecido es factible cuando las toman a partir de la informacin obtenida por los sistemas de
circunstancias que pueden acontecer al robot son predecibles, y percepcin del robot. De nada sirve tener complejos sistemas de
por tanto, puede anticiparse, en dicho guin, qu es lo que hay toma de decisiones, si la informacin con que trabajan es
que hacer en cada situacin. En la prctica totalidad de robots manifiestamente insuficiente. Uno de los principales obstculos
actuales esto es as, porque realizan tareas relativamente simples, en el desarrollo de la robtica se encuentra precisamente ah. La
el repertorio de actividades que pueden llevar a cabo es bastante informacin que tienen los robots actuales del mundo que les
limitado, y trabajan en entornos bastante controlados y poco rodea es muy limitada. Eso es particularmente cierto cuando los
variables. Pero en la medida en que esto vaya cambiando, y las robots trabajan en entornos reales, y que no han sido
actividades de los robots y sus entornos de trabajo sean cada vez simplificados artificialmente para facilitar la actuacin del robot,
ms complejos, no ser fcil predecir todo lo que le puede llegar como ocurre con bastante frecuencia en experimentos de
a ocurrir al robot. laboratorio.

En algunos robots existe otra razn que hace que no sea deseable En bastantes robots actuales, la informacin del entorno se limita
un sistema de toma de decisiones de alto nivel basado en un a un mapa de distancias a los objetos que rodean el robot y, en la
guin. Es cuando queremos que el comportamiento del robot se mayora de los casos, este mapa es tan slo un mapa
asemeje al de un ser vivo. Esto sucede en muchas aplicaciones bidimensional y no tridimensional. Comparemos eso con la
de los robots sociales, es decir, robots cuyo fin principal es la riqueza de informacin sobre el entorno que nos rodea, que
relacin con seres humanos. La semejanza del comportamiento tenemos los seres humanos. Nosotros somos capaces, por
del robot con el de un ser vivo hace ms fcil la relacin con el ejemplo, de identificar que objetos hay en torno nuestro y saber
robot, ya que facilita el establecimiento de vnculos afectivos. cul es su ubicacin. Adems, si estamos junto a otros seres
Pensemos, por ejemplo, en robots para entretenimiento y humanos, somos tambin capaces de percibir que estn
educacin de nios. Los sistemas de toma de decisiones basados haciendo. Es decir, la informacin que recibimos tiene tambin
en un guin generan comportamientos repetitivos y por tanto un carcter dinmico.
poco naturales. Esto es algo positivo en determinados robots,
como por ejemplo los robots industriales, pero no sucede lo Estas carencias afectan al robot de dos formas. Cuando est
mismo en un robot que tiene que mantener la atencin de un ejecutando una actividad, de forma reactiva, la percepcin del
nio. En este caso, es deseable que el comportamiento no sea entorno es necesaria como realimentacin de los sistemas de
siempre predecible, y que el nio pueda verse incluso control. Adems hemos comentado que los sistemas de toma de
sorprendido en algunas ocasiones por el comportamiento del decisiones deliberativos hacen uso de modelos y esos modelos,
robot. Una de las razones del poco xito comercial de los robots salvo que vengan dados a priori, deben ser construidos por el
mascota, que han aparecido hasta la fecha, es que su robot en base a la informacin que es capaz de obtener con sus
comportamiento se aleja mucho del comportamiento del animal sistemas de percepcin. Las limitaciones en los sistemas de
al que pretenden imitar. percepcin afectan, por tanto, tanto a las actividades reactivas
como a las deliberativas.
Una alternativa para tomar las decisiones de ms alto nivel es
establecer nicamente objetivos de alto nivel, y dejar que el Para limitar el efecto de estas carencias, las estrategias que se
robot tome las decisiones que estime oportunas para lograr esos adoptan en los robots actuales para tratar algunos problemas son
objetivos. Como hemos indicado antes, los objetivos pueden ir muy diferentes de las soluciones naturales. Por ejemplo,
ligados directamente a las tareas que debe realizar el robot o actualmente la mayora de robots abordan los problemas de
pueden ir ligados a estados internos del robot. Los mecanismos navegacin en base a informacin mtrica; mientras que en la
que utilice el robot para decidir las acciones ms adecuadas para naturaleza los mismos problemas de navegacin se abordan
conseguir esos objetivos pueden ser muy variados, y dependern, usando esencialmente informacin relativa a objetos del entorno
entre otras cosas, de la naturaleza de tales objetivos. Las una persona puede estar perfectamente localizada, y sin
posibilidades van desde la utilizacin de un sistema reactivo embargo no tener ni idea de cules son sus coordenadas-. Para
sencillo, hasta mecanismos de toma de decisiones deliberativos. reducir el problema derivado de la falta de informacin sobre el
entorno, se han desarrollado tambin otras soluciones
Las diferencias entre las dos formas de plantear la toma de artificiales, como, por ejemplo, incorporar tarjetas RFID a los
decisiones de alto nivel de un robot autnomo guiones y objetos, para facilitar su reconocimiento.
objetivos- son conceptualmente muy significativas. Cuando se
opta por fijar tan solo los objetivos, se le est indicando al robot En resumen, hay que ser conscientes de las serias limitaciones
qu es lo que debe conseguir, mientras que, cuando se le fija que conllevan los sistemas de percepcin que actualmente se
un guin preestablecido, se le est indicando al robot cmo utilizan en los robots. En la medida que avancen estos sistemas
debe conseguirlo. Cabe tambin la posibilidad de unir ambas de percepcin, veremos tambin avances muy importantes en
opciones. Es decir, que ciertas decisiones estn preprogramadas, otros campos de la robtica.
mientras que otras se dejen abiertas para que sea el propio robot
12 Toma de Decisiones en Robtica

9. INTERACCIN HUMANO-ROBOT Y TOMA DE sistemas que controlan otras decisiones de alto nivel del robot.
DECISIONES Es decir, hay un sistema nico de control en el que todas las
decisiones de alto nivel estn preprogramadas, incluidas las
La interaccin humano-robot se ha planteado tpicamente en
comunicativas.
robtica de forma unidireccional el operador da instrucciones al
robot-, y si se plantea de forma bidireccional suele usarse tan
Estos sistemas, al tener un guin preprogramado, tienen el
slo una realimentacin de seales de bajo nivel, como por
inconveniente que ya hemos mencionado antes cuando nos
ejemplo en los controles hpticos. En estos casos, en el robot no
hemos referido a esta tcnica de toma de decisiones: el
hay ningn tipo de toma de decisiones ligado directamente a la
programador que ha desarrollado el guin debe prever todas las
interaccin humano-robot, ya que el nico que tiene que tomar
alternativas que puedan acontecer en el dilogo. Esto no suele
decisiones en el proceso de interaccin es el operador.
ser nada fcil ya que en un dilogo pueden intercambiarse
multitud de mensajes y producirse multitud de situaciones
Sin embargo, en robtica cada vez adquiere ms inters la
diferentes.
posibilidad de establecer una comunicacin bidireccional entre
humano y robot, que se parezca lo ms posible a la interaccin
Adems, hay que tener en cuenta que la informacin que
natural entre humanos. La interaccin en estos casos toma la
transmiten los humanos al robot no siempre se expresa de la
forma de dilogos, en los que humano y robot intercambian
misma forma. En muchas ocasiones la informacin se transmite
informacin, que puede ser multimodal, implicando voz, gestos,
de forma incompleta y, por si lo anterior fuera poco, la
tacto, etc. Adems, puede interesar que la iniciativa la puedan
informacin puede recibirse de forma inexacta.
tomar ambas partes, e incluso que la intervencin de ambos
participantes en el dilogo no mantenga necesariamente un orden
Imaginemos, por ejemplo, que alguien quiere pedir a un robot
riguroso, y que quepa la posibilidad de introducir interrupciones.
humanoide que levante el brazo derecho. Puede hacerlo de
mltiples formas:
El problema de las decisiones vinculadas a la interaccin natural
entre un humano y un robot puede establecerse mediante tres
Sube el brazo derecho
sencillas preguntas: qu comunicar, cundo comunicarlo y
Alza la mano
cmo. De este modo, el acto comunicativo queda dividido en
Haz esto (al mismo tiempo que el operador sube su
tres niveles. El primero establece su contenido, el segundo est
propio brazo derecho)
relacionado con su articulacin en el tiempo, y el tercero con su
forma.
La informacin puede ser incompleta:
Asimismo, en todo acto comunicativo, los participantes
Sube el brazo (no se sabe si el derecho o el izquierdo)
establecen una relacin: se presentan a s mismos hacia los
dems, y proponen un rol. A la vez pueden aceptar, o no, la
Y, debido sobre todo a problemas en el sistema de
presentacin que los dems hacen de s mismos y sus roles
reconocimiento de voz, la informacin puede recibirse de forma
propuestos (Watzlawick et al, 1993). Una comunicacin
inexacta:
eficiente debe poner a los participantes de acuerdo, tanto a nivel
de contenido -el relacionado con la informacin propiamente
Sube el mazo derecho
dicha-, como a nivel relacional.
Por tanto, en un proceso de comunicacin natural es habitual que
En estos casos, el robot debe decidir en todo momento que actos
aparezcan malentendidos. Por ende, el enunciado verbal natural
comunicativos realizar. El control de los dilogos suele llevarse
suele ser incompleto, llevar repeticiones, falsos comienzos,
a cabo en un mdulo denominado gestor de dilogos. En la
sonidos de relleno, referencias cruzadas o a gestos no verbales -
actualidad, no hay todava grandes desarrollos en la gestin de
uso de pronombres implcitos o explcitos, elipsis, deixis, etc.- ,
dilogos aplicada a robtica, y tampoco hay muchos robots
todo ello en un entorno con ruido o varias voces simultneas.
capaces de mantener dilogos de propsito general. Sin
embargo, la tcnica de dilogos verbales se ha desarrollado
Una solucin adoptada para facilitar que robot y usuario puedan
mucho para una aplicacin muy concreta: los sistemas de
intercambiar informacin mediante interaccin, es la utilizada en
atencin telefnica automatizados. Son sistemas que permiten
sistemas gestores basados en huecos de informacin. En un
realizar hoy en da, de forma totalmente automtica, multitud de
sistema de este tipo, se establecen a priori ciertos huecos de
gestiones telefnicas: desde la reserva de un billete de avin,
informacin que estn directamente relacionados con la
hasta solicitar informacin sobre la maleta que nos han perdido
informacin concreta que es relevante para el robot, y que debe
ms tarde en el viaje.
ser completada mediante interaccin. De este modo, en el
ejemplo anterior -levantar el brazo derecho- la informacin
La mayora de los sistemas de gestin de dilogos actuales
relevante se resume en dos huecos de informacin: qu accin se
corresponden a uno de los siguientes tipos:
realiza levantar- y qu parte del cuerpo est involucrada brazo
derecho-.
Sistemas que ejecutan un guin.
Sistemas orientados a rellenar huecos de informacin. Cada hueco de informacin est asociado a ciertos actos
Sistemas planificados. comunicativos que el robot debe expresar para provocar en el
usuario una respuesta que le permita completar el hueco. El
Un ejemplo del primero es el robot Robovie (Ishiguro et al, usuario con un solo acto comunicativo puede completar ms de
2001), que realiza dilogos preprogramados. En este caso, la un hueco de informacin simultneamente. Estos huecos se
toma de decisiones comunicativas est incorporada a los suelen establecer en cierto orden, de modo que un algoritmo los
M. A. Salichs, M. Malfaz, J. F. Gorostiza 13

va recorriendo uno por uno y va comprobando cules quedan por 10. APRENDIZAJE Y TOMA DE DECISIONES
completar. Por ejemplo, si el hueco de informacin que el robot
Hasta ahora hemos considerado que los sistemas de toma de
necesita rellenar se refiere a la parte del cuerpo involucrada en la
decisiones del robot responden siempre de igual forma ante las
accin levantar, el robot podr preguntar simplemente Qu
mismas circunstancias, pero cabe la posibilidad de que el robot
parte del cuerpo quieres que levante?.
sea capaz de aprender y, por tanto, sea capaz de ir mejorando sus
decisiones. Es posible aplicar tcnicas de aprendizaje en muy
Una vez que un hueco de informacin ha sido completado, el
diversos campos de la robtica. Por ejemplo, pueden aplicarse en
sistema ejecuta ciertas operaciones relacionadas con el valor
percepcin, y hacer que el robot aprenda a reconocer personas.
concreto obtenido: movimientos en el dilogo, asignaciones a
En lo que sigue nos limitaremos tan slo a describir
otros huecos de informacin, operaciones de comunicacin con
sucintamente como puede usarse aprendizaje en la toma de
otras partes de la arquitectura de control del robot, etc. As, por
decisiones.
ejemplo, el sistema puede pasar a un subdilogo de confirmacin
ante un malentendido o ante un resultado en el reconocimiento
Existen muchos tipos de aprendizaje, pero podemos dividirlos en
de voz con un bajo valor de confianza. Todo esto permite que el
dos grandes grupos, en funcin de cul sea el objeto del
dilogo no sea del todo determinista, aumentando su naturalidad.
aprendizaje: aprendizaje de cmo actuar en cada circunstancia
conocimiento procedimental- y aprendizaje de informacin
Por ejemplo, en (Dominey et al, 2007) se presenta un sistema de
conocimiento declarativo-. El primero est vinculado
gestin del dilogo basado en huecos de informacin
directamente a la toma de decisiones reactivas. El segundo es
denominado RAD (Rapid Application Development), mediante
necesario en los procesos deliberativos, cuando lo que se
el cual el robot humanoide HRP-2 aprende ciertas tareas a partir
aprende es el modelo del sistema. Aunque los dos pueden usarse
de las instrucciones verbales del usuario. Pero quizs, los
en la toma de decisiones, son sin embargo muy diferentes. Un
sistemas de gestin de este tipo ms usados son los basados en el
ejemplo del primero sera que un robot aprenda a coordinar el
estndar voiceXML. Una descripcin en etiquetas permite al
movimiento de sus patas, y un ejemplo del segundo sera
robot decidir qu comunicar, cundo y cmo en funcin de la
aprender el mapa del entorno en que se mueve el robot.
informacin relevante obtenida y/o por obtener.
En el proceso de aprendizaje, pueden intervenir seres humanos o
El aspecto del dilogo relacionado con el cundo comunicar, no
el robot puede aprender por s slo. Esto ltimo es relativamente
slo implica realizar preguntas relacionadas con los huecos de
fcil cuando se trata de adquirir un conocimiento declarativo p.
informacin no completados. El sistema ha de gestionar tambin
ej., un robot puede aprender por s solo un mapa del entorno-,
el intercambio de turnos y las interrupciones que el usuario
pero no es tan sencillo si debe adquirir un conocimiento
pueda realizar. El dilogo es de iniciativa mixta, es decir, que a
procedimental. Por ello, hay muchos desarrollos dirigidos a
veces es el usuario quien realiza las preguntas al robot y otras es
facilitar el aprendizaje procedimental con intervencin de
el robot quien toma la iniciativa.
agentes externos. Esto incluye aprendizaje por interaccin,
imitacin y demostracin.
El cmo comunicar implica decidir qu modo comunicativo va a
utilizarse, ya que un mismo mensaje puede articularse de
Una tcnica, empleada para que los robots adquieran habilidades
diversas formas. Por ejemplo, una negacin puede expresarse
procedimentales por s solos, es la de aprendizaje por refuerzo
diciendo no, con un movimiento de la cabeza, con un
(Sutton y Barto, 1998). En este caso, el aprendizaje se logra por
movimiento del dedo ndice, etc.
prueba y error. El robot slo recibe como informacin premios y
castigos, lo que se denominan refuerzos, que le indican si sus
Esto requiere una extensin del sistema gestor del dilogo hacia
acciones son positivas o negativas. Si los refuerzos
la multimodalidad. En (Gorostiza y Salichs, 2010) se presenta un
correspondieran a la valoracin de la ltima accin realizada, el
sistema de gestin del dilogo con dicha ampliacin, lo cual
aprendizaje sera relativamente sencillo, pero normalmente los
permite gestionar la informacin comunicacional de distintos
premios y castigos se deben no slo a la ltima accin, sino
modos, tanto para percepcin como para expresin. As por
tambin a las anteriores. Por ejemplo, un robot que juega al
ejemplo, el usuario puede decir por igual levanta el brazo
futbol, puede recibir un premio -refuerzo positivo- cada vez que
derecho o levanta este brazo y tocar el brazo derecho del
su equipo marca un gol, y un castigo -refuerzo negativo- cada
robot. Los huecos de informacin en este sistema pueden ser
vez que lo hace el equipo contrario. Evidentemente, en ese caso
completados por otros modos aparte de la voz.
el mrito o el demrito no es achacable tan slo a la ltima
decisin del robot, sino tambin a todas las anteriores; y lo que
Los sistemas que usan planificacin suelen estar basados en
complica todava ms el problema: el resultado no depende slo
procesos de decisin de Markov (MDP). Es decir, el dilogo se
de las propias acciones, sino tambin de las acciones de los otros
modela como una red de Markov, normalmente preprogramada,
jugadores. El gran problema de este mtodo es que requiere que
y se establecen una serie de recompensas, tpicamente asociadas
el robot pase por un gran nmero de experiencias, para poder
a que el robot adquiera correctamente y en el menor tiempo la
aprender qu debe hacer en cada circunstancia. Esto no es una
informacin adecuada. A partir de ah, se utilizan tcnicas de
dificultad si se trabaja con un robot simulado, que puede
decisin sobre redes de Markov, como planificacin o
someterse a miles de experiencias en poco tiempo, pero hace que
aprendizaje por refuerzo, para establecer la poltica de acciones
sea muy difcil aplicarlo directamente en un robot real.
que maximiza el retorno (Lemon et al, 2001). Para gestionar
mejor la incertidumbre asociada a la comunicacin, hay autores
Una alternativa es no abordar directamente el problema del
que han propuesto sustituir los MDP por procesos de decisin de
aprendizaje procedimental. En lugar de aprender directamente a
Markov parcialmente observables (POMDP) u otras alternativas
actuar, el robot puede empezar por aprender cual es el efecto de
semejantes, en las que se considere tambin la incertidumbre en
sus acciones. Desde una perspectiva de control, esto sera
las observaciones (Roy et al, 2000).
14 Toma de Decisiones en Robtica

equivalente a aprender un modelo del sistema a controlar. A implementar en sus sistemas, con el fin de mejorar el
partir de esta informacin, es posible calcular posteriormente comportamiento de un robot autnomo. Este es el caso de
una poltica adecuada de toma de decisiones. Gadanho (Gadanho, 1999), (Gadanho y Hallam, 2001) donde las
emociones influyen de dos formas distintas en su proceso de
11. EMOCIONES Y TOMA DE DECISIONES
toma de decisiones. De manera resumida, el robot se adapta a su
Durante muchos aos se ha credo que las emociones eran una entorno utilizando un algoritmo de aprendizaje por refuerzo.
mera distraccin a la hora de tomar buenas decisiones. Sin Segn los autores, ya que se asume frecuentemente que la toma
embargo, en los ltimos aos han surgido muchas voces que de decisiones humanas consiste en la maximizacin de
destacan el papel positivo de las emociones en la toma de emociones positivas y la minimizacin de las negativas, la
decisiones en los seres humanos. De hecho, existen mltiples funcin de refuerzo fue ideada de manera que extrae el valor de
estudios que ponen en evidencia que las emociones influyen en juicio del sistema emocional considerando la intensidad de la
muchos mecanismos cognitivos como la memoria, la atencin, la emocin dominante, y si es positiva o negativa.
percepcin y el razonamiento (Damasio, 1994), (Lewis, 2004),
(Rolls, 2005). Entre estos estudios, cabe destacar los realizados Por otro lado, las emociones tienen un papel asociado a procesos
por Antonio Damasio, quien encontr evidencias de que el dao de interrupcin de comportamientos para tratar nuevas e
producido sobre el sistema emocional del cerebro causaba que la inesperadas situaciones que necesitan ser atendidas. Gadanho
persona tomase decisiones incorrectas a pesar de tener intactas toma como inspiracin este papel para explorar su utilidad en
las habilidades del razonamiento lgico. Damasio demostr que determinar las transiciones de estado en el sistema de
personas cuyos centros emocionales estaban daados podran aprendizaje por refuerzo. De esta manera, el controlador slo
tener las facultades del razonamiento tradicional intactos, pero toma una nueva decisin si existe un cambio de emocin
que no podan tomar decisiones apropiadas (Damasio, 1994). dominante, si la intensidad de dicha emocin dominante sufre un
Esta prueba convenci a un gran nmero de investigadores de la cambio brusco, o si se llega a un lmite de tiempo. Si esto ocurre,
robtica e inteligencia artificial para explorar el posible papel de el controlador hace una evaluacin del comportamiento previo
las emociones en sus sistemas de toma de decisiones. basado en el estado emocional actual y se seleccionar un nuevo
comportamiento acorde con la nueva situacin. Si no, el
Existen varios puntos de vista en relacin a la funcin de las comportamiento actual se seguir ejecutando.
emociones en los sistemas de toma de decisiones, Qu papel
deben tener? Cmo influyen en la toma de decisiones? En los Como se ha comentado previamente, fueron los trabajos de
sistemas en los que las emociones estn implementadas hoy en Damasio los que inspiraron a varios investigadores a introducir
da, esta es, quizs, la gran diferencia entre ellas. emociones en sus sistemas. Damasio sugiere que el cerebro tiene
``marcas somticas'', que son cambios fisiolgicos producidos
En algunos casos, las emociones implementadas trabajan como por una emocin, que asocian ciertas decisiones con
mecanismos de monitorizacin para enfrentarse con situaciones sentimientos positivos o negativos. Estos sentimientos
importantes relacionadas con la supervivencia. Este es el caso, recortaran la bsqueda mental dirigiendo a la persona lejos de
por ejemplo, de los trabajos realizados por Lola Caamero las alternativas asociadas a los malos sentimientos. Estas marcas
(Caamero, 1997), (Caamero, 2003), donde la toma de son lo que llamamos pensamientos subjetivos, corazonadas o
decisiones se basa en un sistema motivacional. Aqu las intuicin. Basndose en esta teora, Velsquez (Velasquez,
motivaciones tienen un valor que ser funcin del valor de la 1997), (Velasquez, 1998) introdujo en su modelo memorias
necesidad que deben satisfacer y un estmulo incentivo. Una vez emocionales. Estas memorias forman parte del proceso de toma
calculados todos los valores, la motivacin ms alta se activa y de decisiones. Por lo tanto, si el agente/robot se encuentra con un
organiza el comportamiento de manera que se satisfaga la estmulo ''marcado'', como por ejemplo una comida que no le
necesidad ms urgente -comportamiento motivacional-. Las gust, la memoria asociada ser revivida reproduciendo el estado
emociones influyen en la toma de decisiones de dos formas. emocional que se experiment previamente, influyendo as en la
Primero, pueden modificar la intensidad de la motivacin actual, toma de decisiones. En el modelo de Velsquez, se vuelven a
y como consecuencia, la intensidad del comportamiento. Incluso, utilizar los conceptos de drives y motivaciones, sin embargo, es
en casos extremos pueden evitar la ejecucin de un el sistema emocional el que constituye la principal motivacin
comportamiento. Segundo, modifican la lectura de los sensores del agente. El sistema de drives incluso explota la influencia de
que monitorizan las variables que las emociones pueden afectar, las emociones para seleccionar un comportamiento especfico.
por lo que alteran la percepcin del estado corporal. Por ejemplo, el Hambre y el Sufrimiento causado por ello
motiva al agente/robot a obtener comida.
Por lo tanto, en este caso se considera a las emociones como un
controlador de comportamiento de ''segundo nivel''. Este Por otro lado, tambin existen otros mecanismos de toma de
controlador corre en paralelo, y por encima del control de las decisiones los cuales estn basados exclusivamente en el estado
motivaciones permitiendo continuamente a las emociones emocional. Es decir, no existen comportamientos no
monitorizar el entorno -tanto interno como externo-, en emocionales. Este es el caso, por ejemplo, de Hollinger et al
situaciones en las que la relacin del robot con el entorno tiene (Hollinger et al, 2007). En sus trabajos se presentan unos
alguna importancia relacionada con los objetivos del robot. Las mecanismos basados en la escala Mehrabian PAD, que
emociones afectan a la seleccin de comportamientos de forma determina las emociones usando un espacio emocional de tres
indirecta, mediante la modificacin de los efectos del sistema dimensiones con los ejes representando placer, emergencia, y
motivacional. dominancia. El estado del robot en este estado emocional es
traducido a un conjunto particular de respuestas de movimientos
Otras aproximaciones aprovechan algunas funciones atribuidas a y sonidos. El estado emocional del robot vara de acuerdo con su
las emociones en el comportamiento humano y las tratan de interaccin con la gente. De hecho, en este caso, se modifica
cuando el robot ve diferentes colores de camisas.
M. A. Salichs, M. Malfaz, J. F. Gorostiza 15

Finalmente, otra aproximacin distinta a las anteriores es Barber, R. and Salichs, M.A. (2002). A new human based
utilizada en (Malfaz y Salichs, 2009). Tal y como se present architecture for intelligent autonomous robots. IFAC
brevemente en la seccin IV, este sistema de toma de decisiones Symposium on Intelligent Autonomous Vehicles. Sapporo.
est basado en drives y motivaciones, pero tambin en Japan.
emociones y auto-aprendizaje. El objetivo del agente es aprender Brooks, R.A. (1986). A robust layered control system for a
a comportarse a travs de la interaccin con el entorno, mobile robot. IEEE Journal of Robotics and Automation, 2, N1,
utilizando aprendizaje por refuerzo, y maximizando su bienestar. 1423.
La diferencia con los trabajos anteriores, es que el papel de las Brooks, R.A. (1991). Intelligence without representation.
emociones en este sistema no est definido de manera global Artificial Intelligence, 47(1-3), 139-159.
sino que cada emocin implementada tiene un papel distinto. De Caamero, L (1997). Modeling motivations and emotions as a
esta manera, hay emociones -la felicidad y tristeza- que son basis for intelligent behavior. In First International
utilizadas como funcin de refuerzo, positivo y negativo Symposium on Autonomous Agents (Agents97), 148-155.
respectivamente, en el proceso de aprendizaje. Por lo tanto, el New York, NY: The ACM Press.
comportamiento no se ver influido directamente por estas Caamero, L, (2003). Emotions in Humans and Artifacts. ch.
emociones. Por otro lado, la emocin del miedo se implementa Designing emotions for activity selection in autonomous
en este sistema como una motivacin ms. Por lo que, en el caso agents. MIT Press
de que esta resulte la motivacin dominante, ser la que Damasio, A. (1994). Descartes Error - Emotion, reason and
determine el estado interno del agente. Esto va a provocar que el human brain. Picador, London.
comportamiento est orientado a enfrentarse con la situacin que Dominey, P.F., Mallet, A. and Yoshida E. (2007). Progress in
ha provocado dicha emocin, por lo que tendramos un Programming the HRP-2 Humanoid Using Spoken
comportamiento emocional. Language. International Conference on Robotics and
Automation (ICRA07). Roma. Italia.
12. CONCLUSIN
Elo, A.E. (1978). The rating of chessplayers, past and present.
El problema de la toma de decisiones despierta un inters BT Batsford Limited.
creciente en robtica, ya que previsiblemente los robots sern Gadanho, S. (1999). Reinforcement learning in autonomous
cada vez ms autnomos y se enfrentarn a situaciones cada vez robots: An empirical investigation of the role of emotions.
ms complejas. Este problema se puede abordar desde muy Ph.D. dissertation. University of Edinburgh.
diversos puntos de vista. Tradicionalmente, lo normal es Gadanho, S and Hallam, J. (2001). Emotion- triggered learning
estudiarlo tan solo desde una perspectiva concreta. Sin embargo in autonomous robot control, Cybernetics and Systems, vol.
en este artculo hemos tratado de dar una visin de conjunto, ya 32(5), pp. 53159.
que las diversas perspectivas estn claramente relacionadas. Gardner, H. (1993). Frames of mind: The theory of multiple
Tambin hemos intentado transmitir la idea de que hay todava intelligences. Basic books.
muchas cuestiones pendientes de solucin, y que por tanto este Gat, E. (1998). Artificial intelligence and mobile robots: case
es un tema que requiere todava un gran esfuerzo de studies of successful robot systems, chapter Three-layer
investigacin. architectures. MIT Press, Cambridge, MA.
Gorostiza, J. F. y Salichs, M. A. (2010) Natural Programming of
En nuestra opinin, la tendencia es desarrollar robots que a Social Robot by Dialogs. Dialog with Robots AAAI 2010
Fall Symposium. Virgina. USA.
sean ms autnomos, Haselager, W.F.G. (2005). Robotics, philosophy and the
cuenten con una elevada inteligencia, problems of autonomy. Pragmatics & Cognition, 13(3),
tengan sus propios objetivos, 515-532.
puedan aprender de los seres humanos y de sus propias Hirth, J., Braun, T. and Berns, K. (2007). KI 2007: Advances in
experiencias, Artificial Intelligence. ch. Emotion Based Control
puedan relacionarse de forma natural con los seres Architecture for Robotics Applications, pp. 464467.
humanos, Hollinger, G., Georgiev, Y., Manfredi, A., Maxwell, B.,
Pezzementi, Z. and Mitchell, B. (2006). Design of a social
imiten algunas soluciones naturales, como por ejemplo los
mobile robot using emotion-based decision mechanisms. In
sistemas motivacionales y las emociones.
IEEE/RSJ International Conference on Intelligent Robots
and Systems.
Todas estas cuestiones estn claramente relacionadas con los
Huang, H., Messina, E., Wade, R., English, R., Novak, B. and
sistemas de toma de decisiones.
Albus, J. (2004). Autonomy measures for robots.
AGRADECIMIENTOS Proceedings of the 2004 ASME International Mechanical
Engineering Congress, Anaheim, California.
Este trabajo ha sido realizado parcialmente gracias al apoyo Ishiguro, H. Ono, T. Imai M. Maeda, T. Kanda, T Nakatsu, R.
econmico del Gobierno de Espaa a travs del proyecto (2001) Robovie: an interactive humanoid robot. Industrial
Interaccin igual a igual humano-robot (R2H), del Ministerio Robotics, 28, 498503.
de Educacin y Ciencia, y del proyecto Una nueva Lemon, O., Bracy, A., Gruenstein, A., and Peters, S. (2001).
aproximacin a los robots sociales (AROS), del Ministerio de Information states in a multimodal dialogue system for
Ciencia e Innovacin. human-robot conversation. 5th Workshop on Formal
REFERENCIAS Semantics and Pragmatics of Dialogue (Bi-Dialog 2001),
5767.
Albus, S., McLean, C.R., Barbera, A.J. and Fizgerald, M.L. Lewis, S. C. (2004). Computational Models of Emotion and
(1985) Hierarchical control for robots and teleoperatrors. Affect. PhD thesis, University of Hull
Proceedings of the Workshop on Intelligent Control.
16 Toma de Decisiones en Robtica

Lisetti, C.L. and Marpaung, A. (2007). KI 2006: Advances in


Artificial Intelligence. ch. Affective Cognitive Modeling for
Autonomous Agents Based on Scherers Emotion Theory,
pp. 1932.
Malfaz, M., and Salichs, M.A. (2009). The Use of Emotions in
an Autonomous Agent's Decision Making Process. Ninth
International Conference on Epigenetic Robotics: Modeling
Cognitive Development in Robotic Systems. Venice. Italy.
Rolls, E. (2005). Emotion Explained. Oxford University Press.
Roy, N., Pineau, J., and Thrun, S. (2000). Spoken dialog
management for robots. Proceedings of the Association for
Computational Linguistics.
Shiffrin, R.M. and Schneider, W. (1997). Controlled and
automatic human information processing: In perceptual
learning, automatic attending and a general theory.
Psicological Review, 127190.
Steinfeld, A., Fong, T., Kaber, D., Lewis, M., Scholtz, J.,
Schultz, A., et al. (2006). Common metrics for human-robot
interaction. Proceedings of the 1st ACM SIGCHI/SIGART
Conference on Human-Robot Interaction.
Sternberg, R.J., y Salter, W. (1982). Chapter 1: Conceptions of
intelligence. Handbook of Human Intelligence, Cambridge
Univ Press.
Sutton, S. and Barto, A.G. (1998) Reinforcement Learning: An
Introduction. MIT Press, Cambridge, MA.
Velsquez, J. (1997). Modeling emotions and other motivations
in synthetic agents. in Fourteenth National Conf. Artificial
Intelligence.
Velsquez, J. (1998). Modelling emotion-based decision-
making. In 1998 AAAI Fall Symposium Emotional and
Intelligent: The Tangled Knot of Cognition.
Watzlawick, P., Beavin, J.H. and Jackson, D.D. (1993).
Pragmatics of Human Communication. A study of
Interactional patterns, pathologies and paradoxes. W. W.
Norton & Co.

S-ar putea să vă placă și