Ledezma Espino

U NIVERSIDAD C ARLOS III DE M ADRID
Escuela Polit cnica Superior e
A PRENDIZAJE AUTOM ATICO EN C ONJUNTOS DE C LASIFICADORES H ETEROG E NEOS Y M ODELADO DE AGENTES
T ESIS D OCTORAL
Agapito Ismael Ledezma Espino Legan s, 2004 e
Departamento de Inform tica a
Escuela Polit cnica Superior e Universidad Carlos III de Madrid
A PRENDIZAJE AUTOM ATICO EN C ONJUNTOS DE C LASIFICADORES H ETEROG E NEOS Y M ODELADO DE AGENTES
AUTOR: Agapito Ismael Ledezma Espino DIRECTORES: Ricardo Aler Mur Araceli Sanchis de Miguel
Tribunal nombrado por el Mgfco. y Excmo. Sr. Rector de la Universidad Carlos III de Madrid, el da ......... de ............................ de 2004.
Presidente: D. ................................................................ Vocal: D. ................................................................ Vocal: D. ................................................................ Vocal: D. ................................................................ Secretario: D. ................................................................
Realizado el acto de defensa y lectura de la Tesis el da ......... de ......................... de 2004 en ..............................
Calicaci n: ................................. o
EL PRESIDENTE
LOS VOCALES
EL SECRETARIO
A mi esposa, Yolanda A mi to, Vctor
Agradecimientos
Odisea, esa es la palabra con la cual podra describir lo que ha sido para m la culminaci n de este trabajo. Nadie me dijo hace a os, en aquel peque o pas llao n n mado Panam , lo que era una tesis doctoral. Quiz s, si en aquel momento en que a a decid salir del pas hubiese sabido lo que ello implicaba, me lo hubiera pensado dos veces, ... creo que no. As como Ulises no hizo su recorrido solo, tampoco yo lo he realizado solo. Ahora es cuando tengo que agradecer a las personas que de alguna forma me han ayudado a terminar lo que en estas p ginas se reeja. a En primer lugar a mis directores de tesis, Araceli Sanchis y Ricardo Aler, por el tiempo que me han dedicado, por los consejos que me han dado y, porque no decirlo, por soportar mi constante autocrtica que en algunas ocasiones rozaba el pesimismo m s puro y por haberme ayudado a superarlo y de esa forma concluir a este trabajo. A Daniel, por sus consejos y por el valioso tiempo que me ha dedicado desde que decid hacer la tesis doctoral en el Grupo de Sistemas Complejos Adaptativos. A mis compa eros de SCALAB por su apoyo. A mis amigos de dentro y fuera n del Departamento de Inform tica de la Universidad Carlos III, por hacerme sentir a como en casa, aun cuando me encontraba tan lejos. A la Agencia Espa ola de Cooperaci n Internacional, por haber nanciado, n o aunque fuese en parte, mis estudios de doctorado, d ndole as el toque tr gico de a a que toda buena odisea hace alarde. Al Departamento de Inform tica de la Univera sidad Carlos III de Madrid, por permitirme formar parte de el y gracias a cuyos medios, experiencia y soporte ha sido posible la nalizaci n de esta investigaci n. o o A mi mama Lety y mi viejo, que a pesar de la distancia siempre han estado a mi lado, y porque s lo que esto signica para ellos. A mi hermano, Leo, por ser e como es. A mi to Vctor y a mi ta May, por ser mis segundos padres y por sus consejos y soporte a lo largo de todos estos a os tan lejos de casa. n Al resto de mi familia, por estar ah los das que llam , y por hacerme sentir e m s cerca de casa. a Por ultimo, mi agradecimiento m s profundo y sabiendo que con palabras no a puedo expresar lo que siento, a Yolanda. Gracias por haber credo en m desde siempre, por querer ser parte de mi proyecto de vida, y por haber dejado todo en Panam para apoyarme. A ella debo en gran medida el concluir esta tesis y espero a tenerla siempre conmigo para poder compensarla por todo lo que ha hecho por m.
I
Resumen
Una de las areas que m s auge ha tenido en los ultimos a os dentro del aprena n dizaje autom tico es aqu lla en donde se combinan las decisiones de clasicadores a e individuales con la nalidad de que la decisi n nal de a qu clase pertenece un o e ejemplo sea realizada por un conjunto de clasicadores. Existen diversas t cnicas e para generar conjuntos de clasicadores, desde la manipulaci n de los datos de o entrada a la utilizaci n de meta-aprendizaje. Una de las maneras en las que se clao sican estas t cnicas es por el n mero de algoritmos de aprendizaje diferentes que e u utilizan con el n de generar los miembros del conjunto. Aquellas t cnicas que e utilizan un unico algoritmo para generar todos los miembros del conjunto se dice que generan un conjunto homog neo. Por otra parte, aquellas t cnicas que utilie e zan m s de un algoritmo para generar los clasicadores se considera que generan a un conjunto de clasicadores heterog neo. Entre los algoritmos de generaci n de e o conjuntos heterog neos se encuentra Stacking, el cual, adem s de generar los clae a sicadores del conjunto a partir de distintos algoritmos de aprendizaje, utiliza dos niveles de aprendizaje. El primer nivel de aprendizaje o nivel-0 utiliza los datos del dominio de manera directa, mientras que el meta-nivel o nivel-1 utiliza datos generados a partir de los clasicadores del nivel-0. Un problema inherente a Stacking es determinar la conguraci n de los par meo a tros de aprendizaje del algoritmo, entre ellos, qu y cu ntos algoritmos deben ser e a utilizados en la generaci n de los clasicadores del conjunto. Trabajo previos han o determinado que no hay un n mero exacto de algoritmos a utilizar que sea el optiu mo para todos los dominios. Tampoco est perfectamente denido qu algoritmos a e se deberan utilizar, aunque existen trabajos que utilizan algoritmos representativos de cada tipo. Uno de los objetivos de esta tesis doctoral es la utilizaci n de algoritmos gen tio e cos como t cnica de optimizaci n para determinar los algoritmos que deben ser e o utilizados para generar el conjunto de clasicadores, al igual que la conguraci n o de los par metros de aprendizaje de estos. De esta manera el m todo que se propoa e ne es independiente del dominio, mientras que la conguraci n de los par metros o a de Stacking encontrada, depender del dominio. a El crecimiento del comercio electr nico y las aplicaciones en la World-Wideo Web ha motivado el incremento de los entornos en donde intervienen agentes. Estos entornos incluyen situaciones competitivas y/o colaborativas en donde el conocimiento que se posea sobre los individuos involucrados en el entorno, proporciona
II
III
una clara ventaja a la hora de tomar una decisi n sobre qu acci n llevar a cabo. o e o Existen diversas formas de adquirir este conocimiento. Una de ellas es a trav s del e modelado del comportamiento de los agentes. A su vez, existen diversas formas de construir el modelo de un agente. Algunas t cnicas utilizan modelos previamente construidos y su objetivo es intentar empae rejar el comportamiento observado con un modelo existente. Otras t cnicas asumen e un comportamiento optimo del agente a modelar con el n de crear un modelo de su comportamiento. Un segundo objetivo de esta tesis doctoral es la creaci n de un marco general o para el modelado de agentes bas ndose en la observaci n del comportamiento del a o agente a modelar. Para ello se propone la utilizaci n de t cnicas de aprendizaje o e autom tico con el prop sito de llevar a cabo la tarea de modelado bas ndose en la a o a relaci n existente entre la entrada y la salida del agente. o
Abstract
In the last years, one of the most active research areas in Machine Learning is that of ensembles of classiers. Their purpose is to combine the decisions of individual classiers so that all classiers in the ensemble are taken into account in order to classify new instances. There are many techniques that generate such ensembles. Some manipulate the input data, while others use meta-learning. In general, ensembles can be homogeneous or heterogeneous. Homogeneous ensembles consist of several classiers generated by the same learning technique, whereas heterogeneous ensembles contain classiers generated by different algorithms. A well-known approach to generate heterogeneous ensembles is Stacking. Stacking uses two levels of learning. The rst learning level or level-0 uses direct data from the domain, whereas the meta-level or level-1 uses data generated by classiers from level-0. An inherent problem to Stacking is to determine the right conguration of the learning parameters, like how many classiers, and which learning algorithms, must be used in the generation of the ensemble of classiers. Previous work have shown that there is no optimal decision for all the domains, although there are works that use representative algorithms from each type. One goal of this thesis is to use Genetic Algorithms as an optimization technique in order to determine the type and number of algorithms to be used to generate the ensemble of classiers, as well as the conguration of the learning parameters of these algorithms. The proposed method is domain independent, and the Genetic Algorithm will be able to adapt to particular domains. The growth of the e-commerce and applications over the World-Wide-Web has motivated the increase of environments where agents can interact. These environment include competitive and/or colaborative situations where the knowledge about other individuals involved in the environment, provides a clear advantage when making decision about actions to perform. There are several ways to acquire this knowledge. One of them is by modeling the behavior of other agents. There are several ways to construct an agents model. Some techniques use previously constructed models and its goal to match the observed behavior with an existing model. Other techniques assume that the agent to model carries out an optimal strategy in order to create a model of its behavior. In this thesis, a second approach to model agents will be used based on the observation of other agents behavior. In order to do this, a general framework that uses machine learning techniques for agent modeling is proposed.
IV
S lo los que construyen sobre ideas, construyen para la eternidad o

- Emerson -
Indice general
I Introducci n o 1
2 3 4 5
1. Introducci n o 1.1. GA-Stacking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Modelado de Agentes mediante Aprendizaje Autom tico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 1.3. Objetivos de la Tesis . . . . . . . . . . . . . . . . . . . . . . . .
II
GA-Stacking
7
8 10 10 11 12 12 13 13 14 16 18 18 20 25 25 28 28 29 30 30 33 34
2. Introducci n o 3. Estado del Arte 3.1. Aprendizaje Autom tico . . . . . . . . . . . . . . . . . . . a 3.1.1. Aprendizaje Supervisado . . . . . . . . . . . . . . . 3.1.2. Aprendizaje No Supervisado . . . . . . . . . . . . . 3.1.3. Aprendizaje por Refuerzo . . . . . . . . . . . . . . 3.1.4. Taxonoma Basada en Otros Criterios . . . . . . . . 3.2. Conjuntos de Clasicadores . . . . . . . . . . . . . . . . . 3.2.1. Por qu Funcionan los Conjuntos de Clasicadores? e 3.2.2. Construcci n de Conjuntos de Clasicadores . . . . o 3.3. Stacked Generalization . . . . . . . . . . . . . . . . . . . . 3.3.1. Denici n . . . . . . . . . . . . . . . . . . . . . . . o 3.3.2. Trabajos Relacionados . . . . . . . . . . . . . . . . 3.4. Algoritmos Gen ticos . . . . . . . . . . . . . . . . . . . . . e 3.4.1. Denici n . . . . . . . . . . . . . . . . . . . . . . . o 3.4.2. Optimizaci n mediante AGs . . . . . . . . . . . . . o 3.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . 4. GA-Stacking 4.1. Marco General: GA-Stacking . 4.2. Codicaci n de las Soluciones o 4.3. Evaluaci n del Fitness . . . . o 4.4. Otros Par metros de los AGs . a
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
VI
INDICE GENERAL 5. Evaluaci n o 5.1. Viabilidad de GA-Stacking . . . . . . . . . . . . . . . . . . . . 5.1.1. Resultados Preliminares . . . . . . . . . . . . . . . . . 5.1.2. Evitando la Sobreadaptaci n . . . . . . . . . . . . . . . o 5.2. Par metros de GA-Stacking . . . . . . . . . . . . . . . . . . . . a 5.2.1. Algoritmos de Aprendizaje . . . . . . . . . . . . . . . . 5.2.2. Par metros de Aprendizaje de los Algoritmos Utilizados a 5.2.3. Otros Par metros . . . . . . . . . . . . . . . . . . . . . a 5.2.4. Conguraci n Experimental . . . . . . . . . . . . . . . o 5.2.5. Resultados Experimentales . . . . . . . . . . . . . . . . 5.3. Rendimiento de GA-Stacking . . . . . . . . . . . . . . . . . . . 5.3.1. Conguraci n Experimental . . . . . . . . . . . . . . . o 5.3.2. Resultados Experimentales . . . . . . . . . . . . . . . .
VII
. . . . . . . . . . . .
35 35 36 40 43 47 48 50 56 59 60 61 63 71 72 73 73
6. Conclusiones y Trabajos Futuros 6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Lneas de Investigaci n Futuras . . . . . . . . . . . . . . . . . . . o
III
Modelado de Agentes mediante Aprendizaje Autom tico a
75
76 78 78 79 79 81 82 84 87 88 89 90 92 93 94
7. Introducci n o 8. Estado del Arte 8.1. Qu es un Agente? . . . . . . . . . . . . . . . . e 8.2. Modelado de Agentes . . . . . . . . . . . . . . . 8.2.1. Enfoque cl sico - Teora de Juegos . . . . a 8.2.2. Modelos de Usuarios . . . . . . . . . . . 8.2.3. Reconocimiento de Planes . . . . . . . . 8.2.4. Otros Enfoques en Sistemas Multiagentes 8.3. Conclusiones . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
9. Modelado de Agentes 9.1. Modelado de Agentes Basado en Trazas (MABT) . . 9.2. Modelado de Agentes Basado en la Observaci n o (MABO) . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1. M dulo de Etiquetado de Acciones (MEA) . . o 9.2.2. M dulo de Construcci n del Modelo (MCM ) o o 9.2.3. M dulo de Razonamiento (MRA ) . . . . . . o
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10. Evaluaci n: MABT o 96 10.1. Modelado de Agentes en Dominios Est ticos . . . . . . . . . . . 96 a 10.1.1. Conguraci n Experimental . . . . . . . . . . . . . . . . 96 o 10.1.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . 100
INDICE GENERAL 10.2. Utilizaci n del Modelo Generado . . o 10.2.1. Conguraci n Experimental o 10.2.2. Resultados . . . . . . . . . 10.3. Modelado en Entornos Din micos . a 10.3.1. Modelado Simple . . . . . . 10.3.2. Modelado Jer rquico . . . . a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
VIII
100 101 103 107 109 112 114 114 115 116 117 117 119
11. Evaluaci n: MABO o 11.1. Conguraci n Experimental . . . . . . . . o 11.2. M dulo de Etiquetado de Acciones . . . . . o 11.3. M dulo de Construcci n del Modelo . . . . o o 11.4. M dulo de Razonamiento . . . . . . . . . . o 11.4.1. Utilizaci n del Modelo . . . . . . . o 11.4.2. Utilizaci n Autom tica del Modelo o a
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
12. Conclusiones y Trabajos Futuros 122 12.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 12.2. Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 12.3. Lneas de Trabajo Futuro . . . . . . . . . . . . . . . . . . . . . . 124
IV
Conclusiones Generales
126
13. Conclusiones Generales 127 13.1. Sumario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 13.2. Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 A. Algoritmos de Generaci n de Conjuntos de Clasicadores o B. Conguraciones de GA-Stacking C. Detalles de la Evaluaci n del MABO o 142 145 157
Indice de guras
3.1. Probabilidad de que exactamente l (de 21) hip tesis cometan un o error, asumiendo que cada hip tesis tiene una tasa de error de 0,3 o y comenten sus errores independientemente de las dem s hip tea o sis [30]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Razones fundamentales por las que un conjunto de clasicadores puede funcionar [31]. . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Funcionamiento general de Stacking. . . . . . . . . . . . . . . . . 3.4. Proceso de generaci n del conjunto mediante Stacking. . . . . . . o 3.5. Proceso de clasicaci n de una nueva instancia en un conjunto geo nerado mediante Stacking. . . . . . . . . . . . . . . . . . . . . . 3.6. Algoritmos Gen ticos: sobrecruzamiento de uno (a) y dos puntos (b). e 3.7. Proceso general de los Algoritmos Gen ticos. . . . . . . . . . . . e 4.1. 4.2. 4.3. 4.4. Esquema General de GA-Stacking. . . . . . . . . . . Marco Propuesto: GA-Stacking. . . . . . . . . . . . Descripci n de la codicaci n binaria del individuo. . o o Evaluaci n del tness en GA-Stacking. . . . . . . . . o . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14 15 19 21 22 26 27 30 31 32 33 40
5.1. Evoluci n del tness en el dominio dermatology (mejor individuo o y promedio de los tres mejores individuos en cada generaci n). . . o 5.2. Comparaci n de la evoluci n del tness utilizando el mismo cono o junto de datos para entrenar y calcular el tness (a) o distintos conjuntos (b) en el dominio Dermatology. . . . . . . . . . . . . . . . 5.3. Evoluci n del tness de las soluciones comparado con la precisi n o o sobre el conjunto de entrenamiento y el conjunto de test para los dominios de dermatology, ionosphere y heart. . . . . . . . . . . . 5.4. Evoluci n del tness de las soluciones comparado con la precisi n o o sobre el conjunto de entrenamiento y el conjunto de test para los dominios de sonar, musk y DNA splice. . . . . . . . . . . . . . . 5.5. Codicaci n binaria de la conguraci n G A S5 SP I. . . . . . . . . o o 5.6. Codicaci n binaria de la conguraci n G A S5 SP II. . . . . . . . . o o 5.7. Codicaci n binaria de un clasicador dentro de la conguraci n o o G A S5 CP I. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
45
46 52 52 53
IX
INDICE DE FIGURAS 5.8. Codicaci n binaria de un clasicador dentro de la conguraci n o o G A S5 CP II. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9. Ejemplo de la representaci n de C 4.5 y sus par metros de apreno a dizaje mediante una codicaci n binaria. . . . . . . . . . . . . . . o 5.10. C lculo del tness mediante una validaci n cruzada de 2 carpetas. a o 5.11. N mero de carpetas (seis o m s) en la validaci n cruzada en la que u a o se utilizan los algoritmos para generar los clasicadores de nivelbase en cada uno de los dominios utilizados. . . . . . . . . . . . . 5.12. N mero de carpetas en la validaci n cruzada en la que se utilizan u o los algoritmos para generar el clasicador del meta-nivel en cada uno de los dominios utilizados. . . . . . . . . . . . . . . . . . . . 5.13. Evoluci n del tness en los dominios utilizados. . . . . . . . . . . o
53 54 58
67
68 69
9.1. Marco general del Modelado de Agentes Basado en Trazas (MABT). 89 9.2. Marco general del Modelado de Agentes Basado en la Observaci n o (MABO). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 9.3. Creaci n del M dulo de Etiquetado de Acciones. . . . . . . . . . 92 o o 10.1. 10.2. 10.3. 10.4. 10.5. Registro de trazas y construcci n del modelo del AGENTE A. . . . 98 o Validaci n del modelo obtenido por el AGENTE B. . . . . . . . . 98 o Descripci n del robot utilizado en SimDai. . . . . . . . . . . . . . 102 o Mundo Bi-dimensional utilizado en SimDai. . . . . . . . . . . . . 104 Distancia recorrida por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4.5) antes de alcanzar el objetivo.106 10.6. Tiempo consumido por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4.5) en alcanzar el objetivo. . 107 10.7. Marcas o banderas del campo de f tbol dentro del simulador de la u RoboCup. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 10.8. Arquitectura del aprendizaje jer rquico. . . . . . . . . . . . . . . 112 a 11.1. Situaci n simulada para estimar la utilidad del modelo del portero o adquirido por el atacante. . . . . . . . . . . . . . . . . . . . . . . 118 A.1. Algoritmo de generaci n de conjuntos homog neos Bootstrap Ago e gregating (Bagging). . . . . . . . . . . . . . . . . . . . . . . . . 143 A.2. Algoritmo de generaci n de conjuntos homog neos AdaBoostM1 o e (Boosting). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
Indice de tablas
5.1. Par metros de los algoritmos gen ticos. . . . . . . . . . . . . . . a e 5.2. Resultados preliminares de la evaluaci n de GA-Stacking. . . . . . o 5.3. Descripci n de los dominios utilizados en la evaluaci n de GAo o Stacking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Tasa de precisi n de los algoritmos individuales. . . . . . . . . . . o 5.5. Tasa de precisi n de los algoritmos de generaci n de conjuntos. . o o 5.6. Mejora relativa en precisi n (en %) de las hip tesis encontradas o o por GA-Stacking compar ndolas con los distintos clasicadores ina dividuales y las t cnicas de clasicaci n de conjuntos homog neos e o e Bagging y Boosting y su signicaci n estadstica (+/ es meo jor/peor, . es no signicativa.) . . . . . . . . . . . . . . . . . . . 5.7. Par metros de aprendizaje los algoritmos utilizados por GA-Stacking a para generar el conjunto de clasicadores. . . . . . . . . . . . . . 5.8. Correspondencia entre los par metros de aprendizaje de los algorita mos utilizados por GA-Stacking y el gen que los representa dentro de la codicaci n binaria. . . . . . . . . . . . . . . . . . . . . . . o 5.9. Descripci n de dominios utilizados. . . . . . . . . . . . . . . . . o 5.10. Par metros de los algoritmos gen ticos. . . . . . . . . . . . . . . a e 5.11. Resultados de la validaci n cruzada de 10 carpetas de las cono guraciones de Stacking encontradas por las distintas versiones de GA-Stacking. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.12. Mejora relativa de las soluciones encontradas por las distintas conguraciones de GA-Stacking. Las entrenadas en la la X y columna Y muestran la mejora relativa de X sobre Y en % y en n mero u de ganados:perdidos (de acuerdo a un 1 10 t-test). . . . . . . . . 5.13. Tasa de acierto (en %) de los m todos de construcci n de conjuntos e o y combinaci n de clasicadores. . . . . . . . . . . . . . . . . . . o 5.14. Mejora relativa en la precisi n (en %) de GA-Stacking al compararo lo con los otros m todos de generaci n y combinaci n de clasicae o o dores. (+/ signica mejor/peor,. signica que no hay diferencia signicativa). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.15. N mero medio de clasicadores base en las soluciones encontradas u por GA-Stacking. . . . . . . . . . . . . . . . . . . . . . . . . . .
XI
36 39 41 42 42
43 48
55 56 57
59
60 65
65 66
INDICE DE TABLAS
XII
10.1. Dominios utilizados para evaluaci n del MABT en situaciones est tio a cas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 10.2. Tasa de aciertos (en %) del AGENTE A y del modelo de este gene3 y la tasa de rado por el AGENTE B sobre el conjunto de datos T aciertos del modelo sobre el conjunto de datos T 3 . . . . . . . . . . 100 10.3. Intervalos de velocidad de la rueda dos (v2 ) y su equivalencia en clases discretas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 10.4. Resultados de la aplicaci n de M 5. . . . . . . . . . . . . . . . . . 104 o 10.5. Reglas del arbol de regresi n generado por M 5. . . . . . . . . . . 105 o 10.6. Modelos lineales generados por M 5. . . . . . . . . . . . . . . . . 105 10.7. Tasa de aciertos (en %) de C 4.5 y C 4.5- RULES en el proceso de generaci n del modelo. . . . . . . . . . . . . . . . . . . . . . . . 106 o 10.8. Ejemplo de reglas generadas por C 4.5- RULES. . . . . . . . . . . . 106 10.9. Resultados obtenidos en el proceso de generaci n del modelo del o AGENTE A. * sin valores desconocidos. . . . . . . . . . . . . . . 111 10.10. asa de acierto (en % y coeciente de correlaci n - C.C.) obtenidas T o por las distintas t cnicas de aprendizaje autom ticos utilizadas en e a la generaci n del modelo. Clase C indica clase continua. . . . . . 113 o 11.1. Resultados de la creaci n de los clasicadores que forman el n cleo o u del MEA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. Resultados de la creaci n de los clasicadores que forman parte o del modelo del AGENTE A llevado a cabo por el MCM. . . . . . . 11.3. Resultados de comparativos de la utilizaci n del modelo. . . . . . o 11.4. Atributos utilizados en la creaci n del CAu . . . . . . . . . . . . . o 11.5. Resultados comparativos de la utilizaci n autom tica del modelo. o a B.1. Evoluci n del tness en los distintos dominios con cada una de las o conguraciones de GA-Stacking. El valor reejado es el promedio de las tres ejecuciones del algoritmo sobre el conjunto de datos. . B.2. Comparaci n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 S PI con el resto de los individuos encontrados con las dem s conguraciones de GA-Stacking y su signia caci n estadstica (+/ es mejor/peor signicativamente). . . . . o B.3. Comparaci n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 S PII con el resto de los individuos encontrados con las dem s conguraciones de GA-Stacking y su siga nicaci n estadstica (+/ es mejor/peor signicativamente). . . o B.4. Comparaci n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 C PI con el resto de los individuos encontrados con las dem s conguraciones de GA-Stacking y su signia caci n estadstica (+/ es mejor/peor signicativamente). . . . . o 115 117 119 120 121
146
154
154
155
INDICE DE TABLAS
XIII
B.5. Comparaci n de los resultados obtenidos por los individuos seleco cionados mediante G A S5 C PII con el resto de los individuos encontrados con las dem s conguraciones de GA-Stacking y su siga nicaci n estadstica (+/ es mejor/peor signicativamente). . . 155 o B.6. Comparaci n de los resultados obtenidos por los individuos seleco cionados mediante G A S11 S P con el resto de los individuos encontrados con las dem s conguraciones de GA-Stacking y su signia caci n estadstica (+/ es mejor/peor signicativamente). . . . . 156 o B.7. Comparaci n de los resultados obtenidos por los individuos seleco cionados mediante G A S11 C P con el resto de los individuos encontrados con las dem s conguraciones de GA-Stacking y su signia caci n estadstica (+/ es mejor/peor signicativamente). . . . . 156 o C.1. Atributos utilizados en el proceso de construcci n de los clasicao dores que son el n cleo del MEA dentro de MABO. . . . . . . . . 158 u
Parte I
Introducci n o
Captulo 1
Introducci n o
La aplicaci n de la Inteligencia Articial a la resoluci n de problemas es algo o o muy com n en la actualidad en la mayor parte de los sectores, aunque puede esu tar oculto bajo otros t rminos como Data Mining, Business Intelligence o incluso e Rob tica. Hoy en da estas incursiones de la Inteligencia Articial varan desde las o aplicaciones industriales hasta las aplicaciones en el mundo de los negocios, pasando por el mundo acad mico y de investigaci n. Cabe se alar que la Inteligencia e o n Articial incluye una diversa gama de t cnicas capaces de resolver problemas en e entornos complejos y din micos. Es en estos entornos en donde los resolvedores de a 1 tienen que ser capaces de encontrar una soluci n a la situaci n planproblemas o o teada ya sea individualmente o mediante la colaboraci n con otros resolvedores o de problemas. En la primera parte de esta tesis doctoral se busca denir formas de combinar las soluciones propuestas por diferentes resolvedores de problemas. Por otro lado, en la segunda parte se abordan situaciones en donde los resolvedores de problemas poseen la caracterstica de ser aut nomos y pueden competir y/o o colaborar con otros resolvedores de problemas, raz n por la cual la posesi n de o o informaci n acerca de los individuos presentes en el entorno es una ventaja con o vistas a resolver la tarea asignada. El primero de los temas que aborda esta tesis doctoral se concentra en un tipo concreto de resolvedores de problemas como los son los conjuntos de clasicadores. En m s detalle, el objetivo perseguido en esta parte de la tesis doctoral es la a obtenci n de la conguraci n optima de los par metros del algoritmo de generao o a ci n de conjuntos conocido como Stacked Generalization, o Stacking. En Stacking o se genera un conjunto de clasicadores a partir de distintos algoritmos de aprendizaje, por lo que se puede decir que es un conjunto de clasicadores heterog neo. e Adem s de generar el conjunto de clasicadores a partir de distintos algoritmos, a Stacking utiliza el concepto de meta-aprendizaje; es decir, el objetivo es aprender a
Se ha elegido el nombre resolvedores de problemas como traducci n del t rmino ingl s problem o e e solvers.
1
CAPITULO 1. INTRODUCCION
combinar las predicciones dadas por los clasicadores (resolvedores de problemas) para un ejemplo dado (problema). Un problema inherente a Stacking es determinar la conguraci n optima de los par metros que intervienen en la generaci n del o a o conjunto de clasicadores; entre ellos, el n mero y tipo de algoritmos que han de u utilizarse en los dos niveles de aprendizaje que posee Stacking. En esta tesis se propone una soluci n a este problema mediante la utilizaci n de algoritmos gen ticos. o o e El segundo tema de la tesis se enmarca dentro de los sistemas de agentes, m s a concretamente en la tarea de adquisici n de informaci n sobre los dem s agentes o o a presentes en el entorno de acci n de un determinado agente. Uno de los dominios o elegidos para validar la propuesta de modelado de agentes en esta tesis doctoral es el simulador de f tbol de la RoboCup, utilizado ampliamente como entorno de u prueba para el desarrollo de software multiagente. Se asume que cada agente puede ser visto como un sistema entrada/salida que puede ser modelado mediante t cnicas de aprendizaje autom tico. As, un agente e a cuyo rol es el de delantero de un equipo de f tbol, puede obtener el modelo de un u agente que act a como portero del equipo contrario bas ndose en observaciones de u a su comportamiento. Comportamiento que es descrito a trav s de la relaci n exise o tente entre las entradas y salidas del agente a modelar. Posteriormente, el delantero puede utilizar el modelo adquirido con el prop sito de predecir las acciones del o portero y anticiparse a estas. En este documento se describen, para ambos temas, el estado de la cuesti n, o la propuesta para resolver el problema planteado y los resultados obtenidos. En la Parte II se detalla la aplicaci n de algoritmos gen ticos para encontrar la combinao e ci n optima de par metros de Stacking (GA-Stacking). En la Parte III se presenta o a una propuesta para llevar a cabo la tarea del modelado de agentes mediante t cnicas e de aprendizaje autom tico (MABT y MABO). a A continuaci n se describen en m s detalle ambos temas para una mejor como a prensi n del resto del documento. o
1.1.
GA-Stacking
Una de las areas de investigaci n dentro del aprendizaje autom tico que m s se o a a ha desarrollado en los ultimos a os son los conjuntos de clasicadores. Un conjunn to de clasicadores es un grupo de clasicadores cuyas decisiones individuales son combinadas de alguna manera para clasicar nuevos ejemplos [30]. El prop sito o de combinar clasicadores es mejorar la precisi n que se puede obtener utilizando o un unico clasicador. Existen muchas maneras de construir un conjunto de clasicadores, pero las m s utilizadas son Bagging [12], Boosting [116] y Stacking [145]. Bagging consa truye un grupo de clasicadores por submuestreo de los ejemplos de entrenamien-
to para generar diferentes hip tesis. Despu s de que las diferentes hip tesis son o e o generadas, estas son combinadas mediante votos. Boosting tambi n utiliza un sise tema de votos para combinar los clasicadores pero en lugar de submuestrear los ejemplos de entrenamiento, genera las hip tesis dando un peso a cada instancia de o entrenamiento y ajustando este peso de acuerdo a su importancia. De esta manera, en cada repetici n se genera un clasicador enfocado en las instancias que han o sido tratadas incorrectamente por el clasicador previo. Ambos, Bagging y Boosting generan clasicadores homog neos, es decir, clasicadores generados a partir e del mismo algoritmo de aprendizaje. Por otra parte, Stacking genera clasicadores a partir de diferentes algoritmos de aprendizaje siguiendo un proceso similar a la validaci n cruzada y utiliza un clasicador en un nivel superior (alto nivel) para o combinar los clasicadores generados (bajo nivel). El conjunto de clasicadores formado por clasicadores heterog neos en dos niveles, es el que lleva a cabo la e clasicaci n de un nuevo ejemplo. o Se sabe que no existe un algoritmo de aprendizaje que sea el mejor en todas las tareas de aprendizaje. El enfoque utilizado por Stacking est basado en la teora de a que diferentes algoritmos de aprendizaje aplican diferentes heursticas llevando a cabo b squedas en distintas areas del espacio de hip tesis para obtener resultados u o diversos. Uno de los problemas de Stacking, es determinar la conguraci n de los par meo a tros de aprendizaje que utiliza este, como por ejemplo, qu algoritmo puede ser e utilizado para generar el clasicador de alto nivel y cu les utilizar para los de bajo a nivel. En el enfoque presentado en esta tesis doctoral se plantea esta tarea como un problema de optimizaci n para la cual se propone la aplicaci n de algoritmos o o gen ticos con la nalidad de obtener la conguraci n ideal de los par metros de e o a aprendizaje de Stacking.
1.2.
El desarrollo de software basado en agentes sufre problemas an logos a otras a metodologas de desarrollo de software o paradigmas. En concreto, esta tesis doc toral se centra en el proceso de adquisici n de conocimiento; esto es, d nde y c mo o o o extraer conocimiento para construir un sistema. En el caso de la tecnologa basada en agentes, existen muchos tipos de conocimientos que podran ser adquiridos con el prop sito de construir tales sistemas, como el modelo interno, modelo de otros o agentes, estrategias de comunicaci n, o heursticas de razonamiento. Una manera o de resolver este problema es adquirir dicho conocimiento manualmente a partir de expertos u otras fuentes de conocimiento. Por otra parte, otras aproximaciones consisten en el aprendizaje autom tico de estos modelos mediante el an lisis de casos a a pasados [85], experimentaci n con el entorno [15, 123], observaci n del comporo o
tamiento de otros agentes [138], o compartiendo el conocimiento adquirido entre los agentes [51, 129]. En esta tesis doctoral se propone un esquema para la adquisici n de uno de o los tipos de conocimiento que se ha mencionado con anterioridad: la descripci n o y codicaci n del modelo de otros agentes. Seg n Kitano et al. [81] el modelado o u de agentes se puede denir como el modelado y razonamiento acerca de las metas, planes, conocimientos, capacidades o emociones de otro agente. El enfoque propuesto se basa en el aprendizaje de estos modelos a partir de la observaci n del comportamiento de otros agentes sin conocimiento de su estructura o interna. Como primera aproximaci n, se han seleccionado tareas de razonamiento o de un-paso. En estas tareas, el proceso de razonamiento puede ser complicado, pero la soluci n (salida) dada para unos valores dados correspondientes a un grupo o de atributos (entradas) es una unica alternativa de un conjunto predeterminado de alternativas. Por ejemplo, tareas de clasicaci n, tareas de predicci n, juegos de o o dos oponentes de suma-cero con conocimiento perfecto (e.g. ajedrez o damas) o tareas de diagn stico. o
1.3.
Objetivos de la Tesis
Tal y como se plante en la secci n anterior, esta tesis doctoral abarca dos areas o o de evidente inter s dentro del aprendizaje autom tico. Por esta raz n se detallan los e a o objetivos relacionados con cada uno de los temas por separado. Stacking es uno de los algoritmos de generaci n de conjuntos de clasicadoo res heterog neos m s utilizados. Este algoritmo combina clasicadores generados e a a partir de distintos algoritmos de aprendizaje con la nalidad de aprovechar las heursticas de cada algoritmo al buscar en el espacio de hip tesis. Por otra parte, o los algoritmos gen ticos han demostrado su utilidad como t cnica de optimizaci n e e o en una amplia gama de dominios. Uno de los objetivos generales que persigue esta tesis es dise ar un m todo n e capaz de determinar la conguraci n ideal de los par metros de aprendizaje invoo a lucrados en la utilizaci n de Stacking mediante algoritmos gen ticos. Para lograr o e este objetivo general, se citan a continuaci n los objetivos especcos que se deben o cumplir: Desarrollo de una codicaci n del problema para la aplicaci n de los algoo o ritmos gen ticos. e Determinaci n de una funci n de evaluaci n de las soluciones generadas por o o o los algoritmos gen ticos. e Evaluaci n de la utilizaci n de algoritmos gen ticos en la conguraci n de o o e o los par metros de Stacking. a
La capacidad de poder crear un modelo del agente o agentes con los que se est interactuando proporciona informaci n que resulta de mucha importancia a la a o hora de tomar una decisi n sobre que acci n llevar a cabo. Por otra parte, las t cnio o e cas de aprendizaje autom tico son ampliamente utilizadas en entornos en donde a intervienen agentes. El objetivo general, en cuanto al modelado de agentes se reere, es el desarrollo de un marco que permita a un agente tomar decisiones en presencia de otros agentes, utilizando para ello, entre otras cosas, el modelo del comportamiento de otro agente. La adquisici n de este modelo est basada en la observaci n de las o a o acciones que realiza el agente que es objeto del modelado. Para ello se propone la utilizaci n de t cnicas de aprendizaje autom tico, tanto en el proceso realizado o e a para adquirir el modelo, como en la fase de utilizaci n del mismo. o Con el prop sito de alcanzar el objetivo general propuesto, se plantean una o serie de objetivos especcos que se detallan a continuaci n: o Desarrollo de un marco conceptual que permita llevar a cabo la tarea del modelado de un agente y la utilizaci n de este modelo en el proceso de toma o de decisiones. Desarrollo de un m todo de adquisici n de datos para el modelado de agene o tes en entornos din micos. Estos datos son necesarios para construir el moa delo propiamente dicho. Los subobjetivos de este objetivo son: Denici n de t cnicas para la adquisici n de datos relacionados con o e o las acciones llevadas a cabo por los agentes a modelar. Denici n de t cnicas de preprocesado de los datos. o e Denici n de t cnicas de almacenamiento de los datos. o e Desarrollo de un marco basado en aprendizaje autom tico para crear un moa delo de otros agentes basado en la informaci n obtenida por el m todo de o e adquisici n de datos. Los subobjetivos son: o Denici n de las distintas t cnicas de aprendizaje autom tico y par meo e a a tros que se utilizar n para la construcci n del modelo de otros agentes. a o Denici n de t cnicas de representaci n y almacenamiento de los moo e o delos adquiridos de tal forma que puedan ser utilizados con posterioridad. Denici n de un m todo de razonamiento que utilice los modelos de los o e agentes adquiridos para tomar una decisi n sobre qu acci n realizar. Para o e o ello, se deber n denir t cnicas capaces de utilizar la salida dada por los a e modelos de los agentes. Sin estas t cnicas la decisi n habra que tomarla sin e o tener en cuenta la predicci n sobre lo que va a hacer el otro agente. o
Parte II
GA-Stacking
Captulo 2
Introducci n o
En una reuni n de la junta de una gran empresa directiva se debe tomar una de o las decisiones m s importantes de los ultimos a os para la empresa: se est debaa n a tiendo la posible ampliaci n de capital de acuerdo a los ultimos datos de mercado o y al comportamiento de la economa global. Es necesario que esta decisi n sea me o ditada lo suciente porque una decisi n err nea conllevara importantes p rdidas. o o e Dada la importancia de esta medida, la decisi n no puede recaer s lo en el presio o dente de la empresa, sino que es importante que todos los miembros de la junta directiva, bas ndose en su experiencia y area de trabajo, den su opini n al respeca o to, con el prop sito de tomar en conjunto la decisi n adecuada. Este ejemplo hila o o con la necesidad que surge dentro del aprendizaje autom tico de sistemas que sean a capaces de tomar decisiones en conjunto valorando la aportaci n de distintos siso temas de aprendizaje, incluso decidiendo cu l de ellos resulta m s adecuado para a a cada caso. As una de las areas que despierta mayor inter s dentro del aprendiza e je autom tico es la combinaci n de clasicadores con la nalidad de incrementar a o la precisi n en la clasicaci n [30]. Este enfoque es conocido como conjuntos de o o clasicadores. La idea principal detr s de los conjuntos, es que a menudo, estos a son mucho m s precisos que cualquiera de los clasicadores que forman parte de a este. La mayora de las investigaciones dentro del area de conjunto de clasicadores se centra, generalmente, en la generaci n de clasicadores a partir de la aplicaci n o o de un unico algoritmo de aprendizaje [31]. Estos clasicadores son denominados clasicadores homog neos. Existen varios m todos utilizados en la generaci n de e e o los clasicadores homog neos que forman el conjunto. Estos m todos se pueden e e agrupar en aqu llos que llevan a cabo un submuestreo de los ejemplos de entree namiento (e.g. Bagging [12] y Boosting [48]), los que manipulan los atributos de entrada para generar distintos datos de entrenamiento [20], los que manipulan la salida esperada (e.g. ECOC [33]) y aqu llos que mediante la incorporaci n de e o aleatoriedad en el algoritmo de aprendizaje [84] generan los clasicadores del conjunto. Una vez que han sido generados los clasicadores, estos son combinados, en 8
la mayora de los casos por un mecanismo de voto mayoritario o mediante votos con peso asignado. Otras investigaciones dentro del area de conjuntos de clasicadores aplican diferentes algoritmos de aprendizaje sobre el conjunto de datos para generar los clasicadores (heterog neos) que forman parte del conjunto. Un ejemplo repree sentativo de este tipo de t cnicas es la conocida como Stacked Generalization o e Stacking [145]. Una vez que han sido generados los clasicadores del conjunto a partir de algoritmos de aprendizaje distintos, Stacking utiliza lo que se conoce como meta-aprendizaje para combinar las decisiones de estos. En otras palabras, Stacking plantea una tarea de aprendizaje de nivel superior, en donde se utiliza un algoritmo para aprender de qu manera combinar las salidas de los clasicadores e de nivel base. El trabajo realizado en esta tesis doctoral se centra en este m todo e de generaci n de conjuntos. o Uno de los problemas inherentes a Stacking es la obtenci n de la combinaci n o o adecuada de los par metros del algoritmo (i.e. los clasicadores de nivel-base, tipo a de datos del meta-nivel y el meta-clasicador) dado a un conjunto de datos espec co. Si el n mero de clasicadores y algoritmos que se pueden utilizar para generar u estos es peque o, este problema se puede resolver por un m todo simple en tiemn e po razonable (i.e. b squeda exhaustiva). Pero, cuando el espacio de b squeda es u u grande, la b squeda de la conguraci n optima de Stacking puede resultar difcil. u o En el enfoque que se presenta en esta tesis doctoral, se plantea este problema como una tarea de optimizaci n. Se propone la utilizaci n de t cnicas de optimizaci n o o e o basadas en b squeda heurstica para resolverla. M s precisamente, se propone la u a aplicaci n de algoritmos gen ticos [63] para obtener autom ticamente la conguo e a raci n ideal de los par metros de Stacking. o a Con la nalidad de dar una visi n general del tema que se trata en esta tesis o doctoral, en el captulo 3 se da una panor mica general del estado del arte. En el a captulo 4 se presenta la propuesta de esta tesis doctoral en lo referente a los con juntos de clasicadores. En el captulo 5 se muestra la evaluaci n de la propuesta o presentada. Finalmente, en el captulo 6 se presentan las conclusiones y trabajos futuros.
Captulo 3
Estado del Arte

El objetivo de este captulo es brindar una visi n general del area en la cual se o enmarca esta parte de la tesis doctoral. En primera instancia y a manera de introducci n en la secci n 3.1 se hace una breve descripci n del concepto de Aprendio o o zaje Autom tico y su taxonoma. Posteriormente, en la secci n 3.2 se desarrolla el a o concepto de conjuntos de clasicadores tomando en cuenta aspectos como la denici n, razones de su eciencia y las t cnicas de construcci n. En la secci n 3.3 o e o o se presenta la t cnica de generaci n de conjuntos heterog neos conocida como e o e Stacked Generalization o Stacking la cual sirve de base del enfoque propuesto en esta tesis doctoral. Adem s, se muestran los ultimos avances relacionados con esta a t cnica. En la secci n 3.4 se presentan los algoritmos gen ticos, t cnica de optimie o e e zaci n utilizada en el planteamiento propuesto en esta tesis doctoral. Por ultimo, en o la secci n 3.5, se presentan algunas conclusiones derivada de los puntos abordados. o
3.1.
Aprendizaje Autom tico a
En general, el aprendizaje autom tico trata de la construcci n de programas a o que, utilizando la experiencia sean capaces de mejorar autom ticamente su rena dimiento. Este campo ha recibido la inuencia de otros muchos campos como la estadstica, la inteligencia articial, la biologa y la teora de la informaci n, entre o otros. Mitchell [97] se ala que un programa de ordenador se dice que aprende de n la experiencia E con respecto a una cierta clase de tarea T y medida de funcionamiento P , si su funcionamiento en la tarea T seg n lo medido por P , mejora con u la experiencia E. Debido a la amplitud y variedad de este campo de investigaci n, en esta teo sis doctoral no se pretenden detallar todas las t cnicas y enfoques que abarca. En e cambio, se da una idea general de las t cnicas utilizadas. Dependiendo del tipo de e 10
CAPITULO 3. ESTADO DEL ARTE
11
realimentaci n, se puede clasicar el tipo de aprendizaje en tres grupos: aprendio zaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo.
3.1.1.
Aprendizaje Supervisado
El aprendizaje supervisado consiste en un tipo de aprendizaje autom tico en a donde al algoritmo que se utiliza se le proporcionan una serie de ejemplos con sus correspondientes etiquetas, es decir, que todos los ejemplos han sido clasicados a priori. De esta forma en el proceso de aprendizaje, el algoritmo compara su salida actual con la etiqueta del ejemplo para luego realizar los cambios que sean necesarios. En el caso del aprendizaje supervisado cada ejemplo (a menudo llamado instancia) dentro del conjunto de aprendizaje se puede expresar mediante la forma atributo-valor o mediante relaciones. Cuando a un programa de aprendizaje se le pasan un conjunto de ejemplos {(x1 , ym ), . . . , (xm , ym )} para descubrir una funci n desconocida y = f (x), los valores de xi son vectores de la forma o (xi ,1 , xi ,2 , . . . , xi ,n ) donde (xi ,j ) se reere a cada caracterstica (atributo) de (xi ) y n es el n mero u total de atributos de la instancia. Los atributos que forman parte de la instancia pueden ser categ ricos o nominales y num ricos. Por ejemplo, el atributo Sexo es o e categ rico con sus posible valores (Masculino o Femenino). Por otro lado, los valoo res de los atributos Tama o, Peso y Edad pueden ser num ricos y, en consecuencia, n e pueden ser llamados continuos. Los valores de y pueden ser tambi n nominales o continuos. Si estos valores e pertenecen a un n mero denido de clases {1, . . . , K} se dice que es una tarea de u clasicaci n y si el valor de y es continuo la tarea es una regresi n. o o El conjunto de todos los posibles valores que pueden tomar los atributos de x se conoce como espacio de instancias o espacio de entrada. El conjunto de los posibles valores de y se conoce como espacio de salida. Generalmente, cuando se lleva a cabo una tarea de clasicaci n o de regresi n, o o se utiliza un conjunto de instancias para que el algoritmo de aprendizaje construya un clasicador. Este conjunto de ejemplos es llamado conjunto de entrenamiento o aprendizaje. Un clasicador es una hip tesis sobre la funci n real f . Para validar o o este clasicador, generalmente, se utiliza un conjunto de instancias que no se ha utilizado para construir el clasicador. Este conjunto recibe el nombre de conjunto de prueba o test. Ejemplos de una tarea de clasicaci n pueden ser: predecir si un paciente pueo de tener c ncer o no, predecir el tiempo, secuencias en la cadena de ADN, etc. a A la hora de evaluar la precisi n de un clasicador se utiliza el conjunto de test o sobre el cual se obtiene una precisi n de clasicaci n que es calculada bas ndose o o a
12
en los ejemplos del conjunto de test que el clasicador ha clasicado correctamente. Al medir la precisi n de un clasicador se puede utilizar tambi n la tasa de o e error que es el complemento de la precisi n de clasicaci n. o o La tarea de clasicaci n se puede denir como tomar como entrada un ejemplo o nuevo, con clase desconocida, y utilizar un clasicador o m todo para obtener la e clase de dicho ejemplo. Dentro del aprendizaje supervisado, de acuerdo al tipo de representaci n de los o datos de entrada, se puede hacer una clasicaci n en dos grupos: los representados o en la forma atributo-valor y los que est n representados en forma de relaciones a (utilizan l gica de primer orden). o Dentro del grupo de algoritmos que utilizan la representaci n de atributo-valor o existen a su vez dos grupos: algoritmos simb licos y subsimb licos. Entre los alo o goritmos simb licos se pueden destacar los arboles de decisi n (e.g. ID 3 [105], o o C 4.5 [110]), y los sistemas basados en reglas (AQ [94] y PART [47]). Ejemplos de aprendizaje subsimb lico son las redes de neuronas [62] y los algoritmos gen tio e cos [63] (cuando estos se utilizan como t cnica de clasicaci n). Adem s de los e o a ejemplos mencionados anteriormente existen algoritmos del tipo num rico, como e los basados en regresi n (M5 [106]) y en probabilidades (Naive Bayes [77]). o FOIL [109] y PROGOL [98] son ejemplos de sistemas que utilizan la representaci n relacional. o
3.1.2.
Aprendizaje No Supervisado
A diferencia del aprendizaje supervisado en este tipo de aprendizaje no se conoce a priori el atributo dependiente. Ejemplos de este tipo de aprendizaje son los algoritmos de agrupamiento o clustering entre los que se pueden se alar COBn WEB [45], EM [28], K-Medias [91] y los Sistemas Clasicadores [89].
3.1.3.
Aprendizaje por Refuerzo
En el aprendizaje por refuerzo, el algoritmo utilizado recibe las entradas y una evaluaci n (en forma de recompensa, que puede venir retardada en el tiempo) de o tal manera que el algoritmo debe aprender qu acci n es la que brinda mayor rene o dimiento a largo plazo. Entre los algoritmos de aprendizaje por refuerzo se pueden mencionar Q-learning [140, 141] y ARTDP (Adaptative Real Time Dynamic Programming) [3].
13
3.1.4.
Taxonoma Basada en Otros Criterios
Otro tipo de clasicaci n de las t cnicas de aprendizaje autom tico es la que o e a clasica dicho aprendizaje como aprendizaje inductivo y aprendizaje deductivo. La idea principal del aprendizaje inductivo es que a partir de un n mero elevado u de ejemplos, asumiendo que existe un concepto o conceptos en los que se encuadran dichos ejemplos, se puede construir una representaci n de dichos conceptos. o Una vez construida la representaci n, esta puede ser utilizada para realizar predico ciones sobre nuevas instancias, utilizando esencialmente el conocimiento obtenido a partir de los ejemplos disponibles. Algoritmos que se clasican como inductivos son los que se han mencionado hasta este punto dentro de la clasicaci n de o aprendizaje autom tico. a Por el contrario, el aprendizaje deductivo utiliza, principalmente, conocimiento del dominio y alg n ejemplo, de tal forma que su objetivo principal es hacer u operativo el conocimiento que posee el sistema y no generar conocimiento nuevo. El tipo de aprendizaje deductivo m s estudiado es el Aprendizaje Basado en la a Explicaci n (EBL) [95] o Existen otro grupo de algoritmos capaces de combinar el aprendizaje inductivo con el deductivo como son KBANN [134] y HAMLET [8].
3.2.
Conjuntos de Clasicadores
En este punto se presentan los sistemas en los que se enmarca parte de la presente tesis doctoral. Cabe se alar que Stacking se apartado especco. n Seg n Dietterich [30], un conjunto de clasicadores es un grupo de clasicau dores cuyas decisiones individuales se combinan de alguna manera (generalmente mediante votos) con la nalidad de clasicar nuevos ejemplos. Son diversos y nu merosos los estudios realizados en el area, que demuestran que, habitualmente, los conjuntos de clasicadores mejoran la precisi n de cualquiera de los clasicadores o individuales que forme parte de este [4, 12, 32, 49, 108]. Para que un conjunto de clasicadores mejore la precisi n de cualquiera de los o miembros que lo componen, es una condici n necesaria y suciente que los clasio cadores sean a su vez precisos y diversos [61]. Se considera que un clasicador es preciso si el error que comete es menor que el que se podra obtener eligiendo aleatoriamente una clase de entre las clases disponibles. Por otra parte, se considera que dos clasicadores son diversos, si los errores que cometen sobre los datos de entrada no est n correlados, es decir, que no cometen los mismos errores. a Con el prop sito de apreciar la necesidad de que los clasicadores que formen o parte del conjunto sean precisos y diversos, consid rese un ejemplo en donde se e tienen tres clasicadores: h1 , h2 , h3 y una nueva instancia a clasicar x. En una
14
situaci n en la que los tres clasicadores no sean diversos, es decir, sean id nticos, o e se da el caso de que si h1 (x) es err neo, h2 (x) y h3 (x) tambi n estar n errados. o e a Por otra parte, si los errores que cometen los clasicadores no est n correlados, a en el caso que h1 (x) est errado, h2 (x) y h3 (x) podran ser correctos, en cuyo e caso utilizando el voto mayoritario, la instancia x sera clasicada correctamente. Precisando m s, si la tasa de error de L hip tesis hl son todas iguales a p < 1/2 a o y los errores que comenten son independientes, la probabilidad de que utilizando el voto mayoritario para combinar las decisiones de los clasicadores est errada, e viene dada por el area bajo la curva de una distribuci n binomial en donde m s o a de L/2 hip tesis est n erradas. En la Figura 3.1 se muestra un hipot tico conjunto o e e formado por 21 hip tesis, cada una de ellas con una tasa de error del 0.3. El area o bajo la curva en donde 11 o m s hip tesis est n simult neamente erradas es 0.026, a o e a que es mucho menor que la tasa de error individual de las hip tesis [30]. o
0.20 0.18 0.16 0.14 probabilidad 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0 5 10 clasificadores errados 15 20
Figura 3.1: Probabilidad de que exactamente l (de 21) hip tesis cometan un error, asumieno do que cada hip tesis tiene una tasa de error de 0,3 y comenten sus errores independienteo mente de las dem s hip tesis [30]. a o
3.2.1.
Por qu Funcionan los Conjuntos de Clasicadores? e
Existen, seg n Dietterich [31], tres razones fundamentales por las cuales se u pueden encontrar buenos conjuntos de clasicadores. Estas razones son: Estadstica: un algoritmo de aprendizaje se puede ver como una b squeda en u un espacio de hip tesis, H, con la nalidad de identicar la mejor hip tesis o o en dicho espacio. Si el conjunto de datos que se posee es demasiado peque o n en comparaci n con el espacio de hip tesis, surge el problema estadstico. Si o o los datos disponibles no son sucientes, el algoritmo de aprendizaje puede
15
encontrar una gran cantidad hip tesis dentro de H con igual precisi n soo o bre los datos disponibles. Si estos clasicadores se combinan, disminuye el riesgo de seleccionar un clasicador que devuelva una hip tesis err nea. En o o la gura 3.2 (parte superior izquierda) se representa gr camente esta situaa ci n. El espacio de hip tesis est representado por la curva exterior, la curva o o a interior representa las hip tesis con una precisi n buena, y f representa la o o hip tesis real. Como se puede apreciar, si se promedian las hip tesis dentro o o de la curva interior, se puede obtener una buena aproximaci n de f . o
Estadstica
H
h2
Computacional
h1
f h4
h3
h1
f h2
h3
Representacional
h1 h2 f h3
Figura 3.2: Razones fundamentales por las que un conjunto de clasicadores puede funcionar [31].
Computacional: en los casos en los que los datos de entrenamiento son sucientes, y por ende no existe el problema estadstico, se puede presentar otro problema de tipo computacional. Este problema se da debido a que muchos algoritmos de aprendizaje funcionan llevando a cabo b squedas locales que u pueden quedar atrapadas en m ximos locales. Por esta raz n puede ser coma o putacionalmente difcil que el algoritmo encuentre la mejor hip tesis para un o conjunto de datos dado. Por ejemplo, el entrenamiento optimo para las redes de neuronas y los arboles de decisi n es un problema NP-completo [7, 71]. o Si se llevan a cabo una serie de b squedas locales con puntos de partida diu ferentes para obtener hip tesis que luego se combinan, se puede obtener una o mejor aproximaci n a la hip tesis real, en vez de utilizar cualquiera de las o o hip tesis generadas (Figura 3.2 parte superior derecha). o
16
Representacional: en la mayora de las aplicaciones de aprendizaje autom ti a co la funci n real, f , puede no ser representada por ninguna de las hip tesis o o en H. Al combinar varias hip tesis, es posible que se aumente el espacio o de posibles funciones representables y con ellas las hip tesis que se pueden o representar y, de esta manera se podra aproximar mejor la funci n real (f ) o (Figura 3.2 parte inferior).
3.2.2.
Construcci n de Conjuntos de Clasicadores o
En la actualidad existen muchos m todos para generar conjuntos de clasicae dores. Tomando en consideraci n aquellos m todos que se pueden aplicar a una o e gran cantidad de algoritmos, Dietterich [31] los clasica en: Voto bayesiano: enumeraci n de hip tesis. Bas ndose en el teorema de Bao o a yes se consideran todas las hip tesis en H como parte del conjunto, cada o una de estas con un peso asignado equivalente a su probabilidad posterior. Este m todo es aplicable en tareas de aprendizaje en donde se pueden enue merar todas las hip tesis hl y calcular su probabilidad a posteriori. El voto o bayesiano trata sobre todo el componente estadstico de conjuntos. Manipulaci n de los ejemplos de entrenamiento. Una manera de generar o conjuntos de clasicadores es a partir de la manipulaci n de los ejemplos o de entrenamiento con la nalidad de obtener diferentes hip tesis. El algoo ritmo de aprendizaje, cualquiera que sea, se ejecuta repetidamente utilizando un conjunto distinto de instancias de entrenamiento cada vez, generando as los clasicadores que forman parte del conjunto. Esta t cnica funciona e mejor con algoritmos de aprendizaje inestables, es decir aquellos cuyo modelo resultante puede variar mucho al cambiar en menor grado los ejemplos de entrenamiento. Por ejemplo, los arboles de decisi n, las redes de neuronas o articiales y los algoritmos de inducci n de reglas, son algoritmos inestables. o En cambio, los m todos de regresi n lineal y el vecino m s cercano, suelen e o a ser muy estables. Dentro de los m todos que manipulan los ejemplos de entrenamiento para e generar los clasicadores, el m s sencillo es conocido como Bagging (deria vado de bootstrap aggregation) [12]. Esta t cnica se basa en el submuestreo e con reemplazo del conjunto de entrenamiento para generar un grupo diferente de hip tesis, utilizando cada muestra obtenida como conjunto de entrenao miento. Cada una de las muestras (bootstrap replicates) contiene el mismo n mero de instancias que el conjunto original. Adem s poseen, en promeu a dio, un 63.2 % de las instancias del conjunto original de las cuales existen instancias que se repiten m ltiples veces. Bagging combina las decisiones de u los clasicadores en una sola predicci n por medio del mecanismo de voto o
17
mayoritario (la clase que obtiene m s votos por parte de los clasicadores, a es la clase ganadora). En el Anexo A se detalla el algoritmo Bagging. Otro m todo que se basa en la manipulaci n de los ejemplos de entrenae o miento es conocido como Boosting [116]. Existen diferentes versiones de este m todo, siendo el m s representativo el algoritmo AdaBoost (Adaptative e a Boosting) [48, 49]. AdaBoost genera los clasicadores de manera secuencial, d ndole m s importancia a los ejemplos que fueron clasicados de manera a a err nea por el clasicador anterior mediante la asignaci n de un peso a cada o o instancia del conjunto de entrenamiento. Este peso es actualizado en cada interacci n. Una vez generados los clasicadores, las decisiones de estos se o combinan mediante un mecanismo de voto con peso. El peso correspondien te a cada clasicador vara de acuerdo a la precisi n de este sobre el conjunto o de entrenamiento (con instancias con peso) utilizado para construirlo. En el Anexo A se muestra el algoritmo AdaBoost.M1. Existen otros m todos que manipulan los ejemplos de entrenamiento para e generar los clasicadores. Entre estos m todos se pueden se alar los crosse n validated committees [102] que siguen un proceso similar a la validaci n o cruzada para generar los clasicadores. Manipulaci n de los atributos de entrada. Una tercera t cnica general para o e generar conjuntos, seg n Dietterich, es mediante la manipulaci n de los atriu o butos de entrada disponibles a la hora de utilizar el algoritmo de aprendizaje. Un ejemplo de este tipo de t cnica es el aplicado por Cherkauer [20] en done de lleva a cabo diferentes agrupaciones de los atributos de entrada para generar los clasicadores que forman parte del conjunto. Tumer y Ghosh [135] aplican una t cnica similar a una base de datos de sonar. Una debilidad de ese ta t cnica es que s lo funciona cuando los atributos de entrada son altamente e o redundantes. Manipulaci n de las salidas. Otra t cnica para generar conjuntos de clasio e cadores es la manipulaci n de la salida esperada, es decir, la clase de la o instancia (y). Un m todo representativo de estas t cnicas es conocido como e e ECOC (error correcting output code) [33]. ECOC asume que el n mero de u clases, K, es grande. De esta forma se crean nuevas tareas de aprendizaje dividiendo aleatoriamente las K clases en dos subconjuntos A y B . Los datos de entrada son entonces re-etiquetados de forma tal que todas la instancias en el conjunto A de cualquiera de las clases originales son re-etiquetadas con 0 y todas las instancias de cualquier clase en B son re-etiquetadas con 1. Con estos datos re-etiquetados se entrena el algoritmo de aprendizaje, generando as un clasicador h . Al repetir este proceso L veces se obtiene un conjunto formado por L clasicadores (h1 , ..., h ). Una vez creado el conjunto, ECOC clasica una nueva instancia x aplicando cada clasicador h a esta. Si h (x) = 0 , entonces cada clase en A recibe un voto, si h (x) = 1, cada clase en B recibe un voto. Una vez que los L
18
clasicadores han votado, la clase con el mayor n mero de votos ser selecu a cionada como la predicci n del conjunto. o Introducci n de aleatoriedad. La incorporaci n de aleatoriedad dentro del o o algoritmo de aprendizaje es otra t cnica utilizada para la generaci n de cone o juntos. Por ejemplo, Kolen & Pollack [84] muestran que entrenando una red de neuronas con el mismo conjunto de entrenamiento, pero con diferentes pesos iniciales aleatoriamente seleccionados, se pueden obtener clasicadores bastante distintos. El algoritmo de generaci n de arboles de decisi n, C 4.5, ha sido utilizado o o para generar conjuntos introduciendo aleatoriedad a la hora de evaluar la ganancia de los atributos [32, 87]. Ali y Pazzani [2] incorporan aleatoriedad en el algoritmo de generaci n de reglas estilo Prolog, FOIL, para generar o conjuntos. La clasicaci n propuesta por Dietterich [31] s lo considera los conjuntos de o o clasicadores que se forman a partir de un unico algoritmo de aprendizaje, es decir que los clasicadores generados son homog neos. Existe otra manera de generar e conjuntos de clasicadores mediante la aplicaci n de distintos algoritmos de apreno dizaje al momento de generar los miembros del conjunto. De esta forma, el conjunto que se genera est formado por clasicadores heterog neos, aprovechando a e as los distintos bias de los algoritmos utilizados. Entre estos m todos de genera e ci n de conjuntos heterog neos destaca el conocido como Stacking [145]. Adem s o e a de utilizar distintos algoritmos de aprendizaje para generar los clasicadores que forman parte del conjunto, Stacking utiliza lo que se conoce como meta-aprendizaje en la etapa de combinaci n de las predicciones de los clasicadores generados. En o otras palabras Stacking utiliza un algoritmo de aprendizaje para generar un clasicador que combine las predicciones de los dem s clasicadores. En la secci n 3.3 a o se detallar n m s aspectos de este m todo. a a e
3.3.
3.3.1.
Stacked Generalization
Denici n o
Stacking es quiz s, junto con Bagging y Boosting la t cnica de generaci n de a e o conjuntos de clasicadores m s utilizada. Stacking es la abreviaci n de Stacked Gea o neralization [145]. A diferencia de otras t cnicas de generaci n de conjuntos como e o Bagging y Boosting, Stacking utiliza diferentes algoritmos de aprendizaje para generar el conjunto de clasicadores. La idea principal que subyace tras Stacking, es la combinaci n de clasicadores generados a partir de diferentes algoritmos de o aprendizaje como son: los arboles de decisi n, los algoritmos basados en instano cias, las redes de neuronas, etc. Puesto que cada uno de estos algoritmos utiliza
19
maneras diferentes de representar el conocimiento y diferentes bias o sesgos de aprendizaje, el espacio de hip tesis ser explorado de manera distinta, generando o a as clasicadores diferentes. De este modo, se espera que los clasicadores gene rados no est n correlados. e Una vez que los clasicadores han sido generados, estos han de ser combinados. Stacking a diferencia de Bagging y Boosting, no utiliza un mecanismo de votos porque, por ejemplo, si la mayora de los clasicadores llevan a cabo malas predic ciones, esto conducira a una clasicaci n nal err nea. Para tratar este problema, o o Stacking utiliza el concepto de meta-clasicador. El meta-clasicador (o modelo de nivel-1) generado utilizando un algoritmo de aprendizaje, intenta modelizar el c mo se deben combinar las decisiones de los clasicadores base (o modelos de o nivel-0). En la Figura 3.3 se muestra el funcionamiento general de Stacking.
algoritmo 1 algoritmo 2
Algoritmos para el Nivel0
algoritmo 3
algoritmo n
clase del ejemplo
conjunto datos
Stacked Generalization C1
M C2 ... Cm
algoritmo
Algoritmo para el Nivel1
nuevo ejemplo
Figura 3.3: Funcionamiento general de Stacking.
Formalmente, dado un conjunto de datos S, Stacking genera, en primer lugar, un subgrupo de conjuntos de entrenamiento S1 , ...ST para luego seguir un proceso similar al de la validaci n cruzada: se deja uno de los subconjuntos fuera (e.g. Sj ) o para utilizarlo posteriormente. El resto de las instancias S (j) = S Sj son utilizadas para generar los clasicadores de nivel-0 mediante la aplicaci n de K algorito mos de aprendizaje distintos, k = 1, ..., K, para obtener K clasicadores. Despu s e de que los modelos de nivel-0 han sido generados, el conjunto Sj es utilizado para entrenar el meta-clasicador (clasicador de nivel-1). Los datos de entrenamiento de nivel-1 se forman a partir de las predicciones de los modelos de nivel-0 sobre las instancias en Sj , las cuales han sido reservadas para este prop sito (Figura 3.4 o a). Los datos de nivel-1 tienen K atributos cuyos valores son las predicciones de cada uno de los K clasicadores de nivel-0 para cada instancia en Sj . De este mo-
20
do, una instancia de entrenamiento de nivel-1 est constituida por K atributos (las a K predicciones) y la clase objetivo, la cual es la clase real para cada instancia en particular en Sj . Una vez que los datos de nivel-1 han sido construidos a partir de todas la instancias en Sj , cualquier algoritmo de aprendizaje puede ser utilizado para generar el modelo de nivel-1 (Figura 3.4 b). Para completar el proceso, los modelos de nivel-0 son regenerados a partir del conjunto S completo (de esta manera se espera que los clasicadores sean ligeramente m s precisos) (Figura 3.4 a c). En la Figura 3.4 d se muestra la estructura nal del conjunto de clasicadores generados mediante Stacking. Para clasicar una nueva instancia, los modelos de nivel-0 producen un vector de predicciones que es la entrada al modelo de nivel-1, el cual genera la predicci n nal del conjunto (Figura 3.5). o
3.3.2.
Trabajos Relacionados
Dentro del grupo de t cnicas capaces de construir conjuntos utilizando el Metae Aprendizaje existen las que se centran en la predicci n del algoritmo adecuado para o un problema especco, bas ndose en las cualidades del conjunto de datos [11] o a basados en el rendimiento de otro algoritmos de aprendizaje m s simples [103]. a Sin embargo el prop sito de esta secci n es dar una visi n general de los trabajos o o o realizados bas ndose en Stacking u otros algoritmos similares relacionados con a este. Los trabajos basados en Stacking, o que mantienen similitudes con este, se pueden agrupar en dos grupos: aqu llos que abordan la selecci n de par metros e o a de Stacking y aqu llos que de alguna manera son o se pueden considerar variantes e de Stacking. A continuaci n se considerar n los trabajos relevantes de estos dos o a grupos. Selecci n de Par metros y Enfoques Relacionados o a Como se alara inicialmente Wolpert [145], algunos aspectos en Stacking, con mo la selecci n de los clasicadores base, el tipo de meta-datos y el clasicador o que se debe utilizar en el nivel-1 son considerados como magia negra (del ingl s: e black art). Algunos trabajos que tratan sobre la conguraci n de estos par metros o a y otros temas relacionados se detallan a continuaci n. o Skalak [120] presenta una perspectiva general sobre los m todos de construce ci n de conjuntos. Otra contribuci n signicativa del trabajo de Skalak es el estuo o dio de los conjuntos de clasicadores basados en Stacking, en donde se considera la utilizaci n de clasicadores basados-en-instancias (almacenando solo unos poo cos prototipos por clase) como clasicadores de nivel-base (nivel-0) y como meta clasicador (nivel-1) un arbol de decisi n. o Fan et al. [42] proponen determinar la precisi n total del conjunto generado o
21
(a)
X veces
ex
Algoritmo 1 Clasificador Base 1 x
p1x
tx ex
Datos Algoritmo 2 Clasificador Base 2 x
p2x
Metadatos
tx
cx
e : datos de entrenamiento t : datos de prueba c : clase real de ejemplos en t p : predicciones sobre t
ex
Algoritmo n
Clasificador Base n x
p3x
(b)
tx
Metadatos
Algoritmo
Meta Clasificador (M)
(d) (c)
Algoritmo 1 Clasificador Base 1 (C 1 )
Conjunto Final M: metaclasificador C: clasificador base
Datos
Algoritmo 2
Clasificador Base 2 (C 2 )
Algoritmo n
Clasificador Base n (C n )
C1
C2
...
Cn
Figura 3.4: Proceso de generaci n del conjunto mediante Stacking. o

prediccin del conjunto
22
metadatos
predicciones de los clasificadores de nivel0
M : metaclasificador (nivel1) C : clasificador (nivel0)
C1
C2
...
Cn
instancia
Figura 3.5: Proceso de clasicaci n de una nueva instancia en un conjunto generado meo diante Stacking.
mediante Stacking utilizando una estimaci n de la precisi n basada-en-conicto. o o Los clasicadores de nivel-base utilizados son dos basados en arboles y uno basado en reglas; en cuanto al meta-clasicador utilizan un arbol de decisi n sin podar. o Esta conguraci n es evaluada utilizado cuatro conjuntos de datos (dos de ellos o articiales). A pesar de que los autores arman que la medida que proponen es mejor que cualquiera de las otras medidas propuestas previamente, no queda claro en sus resultados que se pueda generalizar esta estimaci n a un n mero mayor de o u conjuntos de datos o en la aplicaci n de otros meta-clasicadores. o Ting y Witten [132], abordan dos problemas de conguraci n de Stacking: el tio po de clasicador que se debe utilizar en el nivel-1 y el tipo de datos del meta-nivel. Proponen que las salidas de los clasicadores de nivel-0 no sean la predicci n de o la clase dada por el clasicador, sino una distribuci n de probabilidad de clase. De o esta manera, los atributos del meta-nivel est n formados por la concatenaci n de a o las distribuciones de probabilidad de todos los clasicadores de nivel-0 seguidas del valor real de la clase. Los autores argumentan que utilizando distribuciones de probabilidad como meta-datos, son utilizados, tanto la predicci n, como la cono anza de los clasicadores de nivel-base. En cuanto al tipo de meta-clasicador que se debe utilizar, los autores concluyen que una t cnica de regresi n lineal de e o multi-respuesta (MLR por sus siglas en ingl s multi-response linear regression) ree sulta la m s adecuada como algoritmo de meta-nivel, al menos cuando se utiliza a distribuciones de probabilidad. Por otra parte, Ting y Witten investigan la necesidad de utilizar restricciones no-negativas en los pesos de los atributos dentro de los modelos lineales, ya que tanto Breiman [13] como LeBlanc y Tibshirani [90]
23
informan de la necesidad de utilizar las restricciones no-negativas al utilizar Stacking en una tarea de regresi n. Ting y Witten [132] concluyen que las restricciones o no-negativas no son necesarias en Stacking cuando se est llevando a cabo una a tarea de clasicaci n y, en el momento de buscar una mejora en la precisi n del o o conjunto. Sin embargo, estas resultan utiles si se desea mejorar la interpretabilidad del modelo de nivel-1. Basado en el trabajo de Ting y Witten [132], Seewald [117] propone que MLR utilice un grupo distinto de atributos en el meta-nivel, con el prop sito de superar o una debilidad de Stacking con MLR en dominios de m s de dos clases, debilidad a que no estaba presente en la versi n original de Stacking. Seewald argumenta que o la dimensionalidad de los meta-datos puede ser la causa probable de esta debilidad. Este m todo, conocido como StackingC, propone utilizar s lo la probabilidad de e o la clase con la m s alta probabilidad dentro de todas la posibles clases, reduciendo a as la dimensionalidad de los atributos del meta-nivel en un factor correspondiente al n mero de clases. Los resultados de esta investigaci n muestran una mejora sou o bre Stacking con MLR con el conjunto completo de distribuciones de probabilidad. Adicionalmente, el autor argumenta que la mejora observada no solo se debe a la reducci n de la dimensionalidad de los atributos del meta-nivel, sino tambi n a la o e alta diversidad de los modelos lineales de clase generados en el meta-nivel. Esta diversidad es notable al comparar StackingC con Stacking con MLR, en donde todos los modelos lineales est n basados, exactamente, en los mismos atributos del a meta-nivel. Recientemente D eroski y Zenko [41] proponen dos nuevas versiones de Stacz king. La primera de estas versiones aborda el problema del tipo de datos del metanivel. En su trabajo proponen extender el conjunto de atributos del meta-nivel incluyendo la distribuci n de probabilidad multiplicada por la probabilidad m xima o a y las entropas de las distribuciones de probabilidad. Por otra parte, proponen otra extensi n de Stacking en donde utilizan un modelo de inducci n de arboles en vez o o de una regresi n lineal como algoritmo del meta-nivel. Este m todo es llamado o e Stacking con modelo de arboles multi-respuesta (del ingl s: Stacking with multie response model trees). Una de las principales conclusiones de su trabajo es que, al comparar Stacking con MLR como meta-clasicador es, en el mejor de los casos, competitivo con la selecci n del mejor clasicador por validaci n cruzada (X-val) o o y no es signicativamente mejor como se alan algunos trabajos. Por otra parte, n D eroski y Zenko llevan a cabo una amplia comparaci n de enfoques relativos al z o estado del arte en cuanto a Stacking se reere. En su trabajo, comparan Stacking con meta arboles-de-decisi n [133], Stacking con MLR [132], StackingC [117], o Stacking con un n mero ampliado de atributos en el meta-nivel y Stacking con mou delo de arboles multi-respuesta. Adem s utilizan como base otros enfoques como a X-val (selecci n del mejor clasicador mediante validaci n cruzada) y un sisteo o ma simple de selecci n por votos. Derivado de esta comparaci n, concluyen que o o Stacking con modelo de arboles multi-respuesta posee un rendimiento mejor que cualquiera de los enfoques de Stacking existentes, incluyendo StackingC y la se-
CAPITULO 3. ESTADO DEL ARTE lecci n del mejor clasicador del conjunto por validaci n cruzada (X-val). o o Variantes de Stacking y Esquemas Alternativos
24
Existe una serie de trabajos relacionados con Stacking que se pueden considerar implementaciones basadas en este enfoque o bien mantienen muchas similitudes con este. Chan y Stolfo [18] formulan un algoritmo muy similar a Stacking al cual llaman combinador. Adem s proponen una variante de este a la que llaman combinadora de-atributos, en el cual, los atributos del meta-nivel est n formados, no solo por las a predicciones de clase sino que mantienen tambi n los atributos originales de la inse tancia. Como muestran los resultados presentados por Schaffer [115] en su estudio del bi-nivel de Stacking, esto puede llevar a un peor rendimiento del conjunto. Por otra parte Chan y Stolfo [18] proponen un enfoque que utiliza lo que de nominan un rbitro. El arbitro es un clasicador individual independiente del a resto de los clasicadores base, que es entrenado sobre un subconjunto del conjunto original de datos. Este subconjunto est formado por las instancias en las que los a clasicadores base est n en desacuerdo. El prop sito de un arbitro es brindar una a o predicci n alternativa y m s elaborada cuando los clasicadores base presentan o a contradicciones. Adicionalmente, Chan y Stolfo proponen lo que llaman rbola arbitro en el cual los arbitros que se especializan en resolver conictos entre pares de clasicadores son organizados en un arbol de decisi n binario. Para llevar a cabo o la clasicaci n de una instancia se parte de los nodos hoja formados por los clasio cadores base y se va subiendo por el arbol hasta llegar al nodo raz que proporciona la clasicaci n nal. o Ting [131] propone la utilizaci n de las predicciones de los clasicadores base o para aprender una funci n que reeje la medida interna de conanza del algoritmo o en una estimaci n de su precisi n sobre la salida. Esta funci n puede ser utilizada o o o para combinar los conocimientos del clasicador. Una condici n necesaria para crear un buen conjunto de clasicadores es que o los errores de los clasicadores de nivel-base no est n correlados [61]. Partiendo e de este hecho, Merz [93] propone una variante de Stacking que utiliza an lisis de a correspondencia con el prop sito de detectar correlaciones entre los clasicadoo res de nivel-base. Una vez que las dependencias del espacio original de datos del meta-nivel se hayan eliminado, un m todo del vecino m s cercano (algoritmo de e a meta-nivel) se aplica sobre el espacio de atributos resultante. De acuerdo a sus resultados sobre datos sint ticos, su enfoque, denominado SCANN, es equivalente al e voto plural si los modelos cometen errores no-correlados. Gama y Brazdil [50] propone un m todo muy relacionado con Stacking al que e denominan Cascade Generalization. En este m todo los clasicadores son aplie cados secuencialmente y no existe un meta-clasicador como tal. Cuando cada
25
clasicador base es aplicado sobre los datos, este incrementa el conjunto de datos a adiendo su distribuci n de probabilidad de clase. Este nuevo conjunto de datos es n o utilizado por el siguiente clasicador, de esta manera, el orden en que se empleen los clasicadores se convierte en un factor a tener en cuenta. Una variante de Stacking que predice qu clasicador es el m s indicado dado e a un ejemplo especco, es descrita por Todorovski y D eroski [133]. Esta variante z utiliza un nuevo m todo de aprendizaje en el meta-nivel. Este m todo, conocido coe e mo meta arboles de decisi n (MDT por sus siglas en ingl s - meta decision trees), o e sustituye las predicciones clase-valor en sus nodos hoja por los clasicadores de nivel-base. Los meta-datos est n compuestos de propiedades de las distribucioa nes de probabilidades que reejan la conanza de los clasicadores de nivel-base, como la entropa y la probabilidad m xima, en vez de las propias distribuciones. a Basados en estas propiedades, se generan peque os MDTs. n Seewald y F rnkranz [118] proponen el esquema conocido como Grading. Este u esquema crea un clasicador de meta-nivel por cada clasicador de nivel-0. La tarea de aprendizaje para cada clasicador de nivel-1 es predecir si la predicci n o del clasicador de nivel-0 es incorrecta. Los meta-datos est n compuestos por los a atributos de nivel-base y los valores de la clase (i.e. correcto o incorrecto). Un mecanismo de votos con pesos sobre las predicciones de los clasicadores base produce como resultado la predicci n nal de la clase. El peso asignado al voto o de cada clasicador base es la conanza en que su predicci n sea correcta. Este o peso es estimado por el meta-clasicador asociado al clasicador base. Este trabajo mantiene algunas similitudes con el trabajo realizado por Ting [130].
3.4.
3.4.1.
Algoritmos Gen ticos e

Denici n o
Los Algoritmos Gen ticos (AGs) son procedimientos de b squeda muy ligae u dos a la teora de la evoluci n mediante la selecci n articial [63]. En t rminos de o o e b squeda cl sica, los AGs se pueden ver como un tipo de b squeda en haz [36]. u a u Los tres principales componentes son: El haz, denominado poblaci n en este tipo de t cnica. Contiene el conjuno e to de puntos (soluciones candidatas llamadas individuos) en el espacio de b squeda que el algoritmo est actualmente explorando. Todos los puntos u a son representados usualmente mediante cadenas de bits. Esta representaci n, o independiente del dominio de las posibles soluciones, hace que los AGs sean muy exibles. Operadores de b squeda. Estos transforman las soluciones candidatas actuau les en nuevas soluciones candidatas. Su principal caracterstica es que, como
26
00110000100 11100100010 00100100010 11110000100

(a)
00110000100 11100100010 00100100100 11110000010

(b)
Figura 3.6: Algoritmos Gen ticos: sobrecruzamiento de uno (a) y dos puntos (b). e
operan sobre cadenas de bits, son independientes del dominio. Los operadores de los AGs est n tambi n basados en analogas biol gicas [63, 64]. Los a e o tres operadores m s utilizados son: a Reproducci n: copia una soluci n candidata sin modicaci n. o o o Cruzamiento: toma dos soluciones candidatas, las mezcla y genera dos nuevas soluciones candidatas. Existen muchas variaciones de este operador (principalmente, de un punto y de dos puntos). Ver gura 3.6. Mutaci n: invierte un bit de una soluci n candidata (puede mutar de 0 o o a 1 o de 1 a 0). El bit mutado es seleccionado aleatoriamente de entre los bits del individuo, con una cierta probabilidad que es par metro del a m todo, aunque en la bibliografa son habituales tasas de mutaci n del e o 1 %. La funci n heurstica (o funci n de tness). Esta funci n mide el valor de una o o o soluci n candidata. La meta de un AG es encontrar soluciones candidatas o que maximicen esta funci n. o Los AGs parten de una poblaci n creada aleatoriamente. A continuaci n se o o aplican los operadores gen ticos para evaluar las soluciones candidatas (de acuerdo e con la funci n heurstica) hasta que es obtenida una nueva poblaci n (nueva geneo o raci n). Un AG contin a produciendo nuevas generaciones hasta que se encuentra o u un individuo que se considera lo sucientemente bueno, o cuando el algoritmo llega a un punto donde es incapaz de encontrar mejores individuos (o hasta que el n mero de generaciones llega a un limite predenido). u Los AGs se basan en el siguiente pseudoc digo: o 1. Generaci n aleatoria de poblaci n inicial G(0). o o
CAPITULO 3. ESTADO DEL ARTE 2. 3. Evaluaci n de los individuos en G(0) con la funci n heurstica. o o Repetir hasta que se encuentre una soluci n o la poblaci n converja: o o 3.1 Aplicar selecci n-reproducci n: G(i) Ga (0) o o 3.2 Aplicar sobrecruzamiento: Ga (i) Gb (i) 3.3 Aplicar mutaci n: Gb (i) Gc (i) o 3.4 Obtener una nueva generaci n G(i + 1) = Gc (i) o 3.5 Evaluar la nueva generaci n G(i + 1) o 3.6 i = i + 1
27
La producci n de una nueva generaci n G(i + 1) a partir de G(i) (pasos o o 3.1, 3.2, 3.3) se describe a continuaci n. Primero, una nueva poblaci n Ga (i), tamo o bi n denominada poblaci n auxiliar, es generada por medio de la selecci n. Con e o o el prop sito de completar la poblaci n de n individuos para Ga (0), las soluciones o o candidatas son estoc sticamente seleccionadas con reemplazo de G(i) n veces. La a probabilidad de seleccionar un individuo es, en la mayora de los casos, el cociente entre su tness y el tness total de la poblaci n. Esto quiere decir que habr vao a rias copias de individuos muy buenos en Ga (0), mientras que probablemente no se encuentren individuos cuya funci n de tness sea pobre. Sin embargo, debido o a la aleatoriedad, a n los malos individuos tienen una probabilidad de aparecer en u Ga (0). Este m todo es conocido como selecci n proporcional al tness, pero e o existen otros varios m todos m s, como el torneo y el ranking [59, 96]. e a Para obtener Gb (i) se aplica el sobrecruzamiento a un porcentaje jo, pc , de individuos seleccionados aleatoriamente en Ga (i). Como en cada sobrecruzamiento se toman dos padres y se producen dos descendientes, el sobrecruzamiento se lleva a cabo pc /2 veces. De igual forma, Gc (i) es generada a partir de Gb (0) aplicando la mutaci n a un porcentaje pm de los individuos. o
1 GENERACIN 2 GENERACIN
...
seleccin aplicacin de operadores
Figura 3.7: Proceso general de los Algoritmos Gen ticos. e
En la Figura 3.7 se muestra gr camente el proceso seguido por los Algoritmos a Gen ticos. e
28
3.4.2.
Optimizaci n mediante AGs o
En los ultimos a os han ido apareciendo un conjunto de t cnicas que comparn e ten un principio com n, el de emular los principios de la evoluci n natural, para la u o optimizaci n de problemas. De todas estas t cnicas, que han mostrado ser utiles y o e potentes, las m s asentadas y aceptadas por la comunidad cientca son los Algoa ritmos Gen ticos, AGs. Esta mayor aceptaci n se traduce en que son las t cnicas e o e m s empleadas en la industria: dise o de circuitos, distribuci n de componentes a n o en la supercie de una antena, optimizaci n del recorrido de tuberas en un edio cio, etc, proporcionando resultados tan buenos, que han sorprendido a los propios expertos. Desde el punto de vista m s formal, son la unica de estas t cnicas que posee a e una base matem tica, que aunque ha sido discutida en numerosas ocasiones, no ha a sido rebatida y es aceptada por todos [64]. Se trata del problema conocido como two-armed-bandit, descrito ampliamente en [64] y [59]. Desde el punto de vista de la utilidad de los AGs en problemas de optimiza ci n, han sido empleados tambi n con exito en la optimizaci n de funciones con o e o restricciones, abordado por una parte, mediante el dise o de operadores gen ticos n e que incorporaban esas restricciones, por ejemplo en la resoluci n del problema del o TSP con AGs, o para evitar la p rdida de generalidad en el m todo que esto supoe e ne, mediante la transformaci n en un problema sin restricciones, donde se produce o la penalizaci n de las soluciones que incumplen la restricci n, incluy ndolo en la o o e funci n de tness. o En cuanto a la utilizaci n de AGs en la optimizaci n de conjuntos de clasio o cadores, recientemente Zhou et al. [150] determinan el n mero correcto clasiu cadores que forman parte del conjunto utilizando AGs. Es importante se alar que n todos los clasicadores son homog neos puesto que todos son redes de neuronas. e
3.5.
Conclusiones
Una de las principales conclusiones de todos los trabajos vistos sobre Stacking es que existen resultados contradictorios en la literatura y que no existe un consenso sobre cu l conguraci n de clasicadores es la mejor. a o Adem s, de todas ellas emana la sensaci n de que es necesario un conocimiena o to muy profundo del sistema y del problema para la determinaci n de los valores o de cada uno de los par metros de Stacking. a Por ello, se propone emplear una t cnica de optimizaci n que ha sido ampliae o mente probada en otros campos, los AGs, a la optimizaci n de conguraciones de o Stacking.
Captulo 4
GA-Stacking
Dado que un conjunto de clasicadores generado a partir de Stacking est coma puesto por un grupo de modelos creados a partir de distintos algoritmos de aprendizaje, surge la pregunta: Qu algoritmos deben ser utilizados para generar los moe delos de nivel-0 y que algoritmo debe utilizarse para generar el modelo de nivel-1?. Wolpert [145] originalmente se ala que muchos aspectos sobre los par metros de n a Stacking, incluidos los algoritmos que generan los clasicadores, se pueden considerar como magia negra. En principio, cualquier algoritmo puede ser utilizado para generar los clasicadores de ambos niveles. En el captulo anterior se han mostrado una serie de trabajos encaminados a dar respuestas a estas preguntas. Por ejemplo, Ting y Witten [130] mostraron que un modelo lineal es util para generar el clasicador de nivel-1 cuando se utilizan salidas probabilsticas de los modelos de nivel-0, Seewald [117] propone una variaci n en el espacio de atributos del nivelo 1, D eroski y Zenko [41] proponen la utilizaci n de un arbol de regresi n como z o o meta-clasicador en vez del modelo lineal propuesto por Ting y Witten [130]. Tomando como base la idea de utilizar de distribuciones de probabilidades de clase como datos del meta-nivel propuesta por Ting y Witten [130], en este captulo se describe un nuevo enfoque, basado en algoritmos gen ticos, que busca obtener la e conguraci n optima de los par metros de Stacking para un problema dado. En la o a secci n 4.1 se describe el marco general propuesto en donde se aplican algoritmos o gen ticos en la b squeda de la conguraci n optima de Stacking. En la secci n 4.2 e u o o se presenta la codicaci n propuesta para la utilizaci n de los AGs. Por ultimo o o en la secci n 4.3 se detalla el m todo de evaluaci n de las posibles soluciones o e o encontradas por los AGs.
29
CAPITULO 4. GA-STACKING
30
4.1.
Marco General: GA-Stacking
El t rmino GA-Stacking es el acr nimo en ingl s de Genetic Algorithms for e o e Stacking. GA-Stacking plantea las respuestas a las preguntas de, qu y cu ntos e a algoritmos de aprendizaje utilizar para generar los clasicadores de nivel-base? y qu algoritmo utilizar para genera el clasicador del meta-nivel?, como un problee ma de optimizaci n, el cual puede ser resuelto mediante la aplicaci n de algoritmos o o gen ticos. e En la Figura 4.1 se muestra el esquema propuesto, en donde se puede apreciar que, tomando como entrada los datos del dominio de aplicaci n, se aplican o los algoritmos gen ticos con la nalidad de obtener como salida del sistema la e conguraci n optima de los par metros de Stacking. o a
101001010110110101 111101010010100111 101001011010110101 111101010010100111 Algoritmos 101001010010110101 Genticos 111101011110100111 101001010010110101 111101011010100111
Datos
parmetros de Stacking
Figura 4.1: Esquema General de GA-Stacking.
La aplicaci n de los algoritmos gen ticos a un problema de optimizaci n dado o e o requiere, principalmente, el estudio de dos aspectos: la especicaci n de la codio caci n de las soluciones y la denici n de la funci n de tness. El proceso de o o o codicaci n de las soluciones se produce en lo que se puede considerar una fao se previa (Figura 4.2, Fase I) a la ejecuci n de los algoritmos gen ticos en s. En o e cuanto a la evaluaci n del tness, es un proceso iterativo que se lleva a cabo en o cada generaci n de los algoritmos gen ticos (Figura 4.2, Fase II) sobre todos los o e individuos (p) de la poblaci n (P ). La fase de codicaci n de las soluciones se o o detalla en la secci n 4.2. La evaluaci n de la funci n de tness de cada individuo o o o se detalla en la secci n 4.3 o
4.2.
Codicaci n de las Soluciones o
Existen diversas maneras de representar las soluciones de un problema para que este pueda ser tratado mediante la aplicaci n de algoritmos gen ticos (e.g. o e codicaci n binaria, decimal, hexadecimal, etc). Para representar las posibles soo luciones o individuos en el enfoque que se propone, se ha optado por una repre sentaci n binaria ya que esta permite el empleo de los AGs can nicos. Son eso o tos AGs la forma original propuesta por Holland [63, 64], donde los operadores gen ticos tienen un car cter completamente general y la base matem tica es m s e a a a
Algoritmos
31
A1 A2 A3 A4 An
posibles algoritmos
Codificacin
parmetros de Stacking REPRESENTACIN GENTICA C1
M C2 ... Cm
Fase I
Inicio
Fase II
CROMOSOMAS Generacin Poblacin Inicial 1010101010101010 1010101010101010 1010101010101010
EVALUACIN
p Nueva Poblacin Evaluacin del Fitness
datos
DECODIFICACIN 1010101010101010 A1 A2 A3 A4 An Stacked Generalization C1 C2 ... Cm M
Mutacin
Sobre cruzamiento Reproduccin/ Seleccin
No
Condicin de finalizacin cumplida?
Si
Mejores Individuos
Fin
Figura 4.2: Marco Propuesto: GA-Stacking.
rigurosa. Adem s, existe un amplio estudio de la capacidad de barrido del espacio a de b squeda (hip tesis de los bloques constructivos [59, 96]) que no est contrasu o a tado cuando la base de codicaci n deja de ser binaria. Sin embargo, esquemas o de codicaci n no binarias, con sus correspondientes modicaciones en los operao dores gen ticos, han sido muy empleadas. Una interesante recopilaci n se puede e o encontrar en [36]. Adem s, en este caso concreto, el empleo de codicaciones en a bases distintas de la binaria, no seran imprescindibles, aunque pudieran reducir la longitud del cromosoma en alg n caso. u En cuanto al tama o del cromosoma que representa al individuo, este est dado n a en funci n de dos factores: o el n mero de algoritmos, m, que pueden ser seleccionados para generar los u clasicadores, tanto los del nivel-base como el del meta-nivel.
32
el n mero m ximo de clasicadores de nivel-base, n, que pueden formar u a parte del conjunto. Si en la codicaci n de los individuos s lo se considera el nombre del algorito o mo que se utiliza para generar un clasicador, el tama o del gen que representa al n algoritmo depender del n mero de algoritmos disponibles. Por ejemplo, si existen a u 7 algoritmos de aprendizaje que se pueden seleccionar para generar los clasicadores del conjunto, se puede utilizar un gen con una longitud de tres bits para representar cualquiera de los algoritmos de aprendizaje posibles y representar tambi n e la opci n de no seleccionar ninguno de estos. o En la Figura 4.3 se muestra la codicaci n de un individuo en donde los primeo ros cuatro genes del cromosoma representan los cuatros algoritmos de aprendizaje a partir de los cuales se construir n los clasicadores de nivel-0 y el ultimo gen a representa el algoritmo a partir del cual se construir el clasicador de nivel-1. La a longitud de cada gen es de tres bits, raz n por la cual se pueden seleccionar de o entre 7 algoritmos de aprendizaje y la no presencia de ninguno.
nivel1
0 1 0 1 1 1 0 0 0 1 1 0
nivel0
0 0 1
Figura 4.3: Descripci n de la codicaci n binaria del individuo. o o
Por otra parte, si se considera que los par metros de aprendizaje de los algoa ritmos deben formar parte de la tarea de optimizaci n, se utilizan, adem s del gen o a que representa el nombre del algoritmo, una serie de genes que representan los par metros de aprendizaje de este. El tama o de cada uno de estos genes depende a n de los par metros de aprendizaje que representen. a De esta manera, el tama o del cromosoma depender del n mero de genes n a u que se utilicen para representar un algoritmo (G). En otras palabras, el tama o del n cromosoma en genes, Tc , est dado por: a Tc = G(n + 1) La longitud en bits del cromosoma se deriva del n mero y tama o de los genes u n utilizados para representar los algoritmos capaces de generar un clasicador. En otras palabras la longitud en bits, Tb , del cromosoma est dada por: a
G
Tb = (n + 1)
i=1
xi
en donde xi representa el n mero de bits utilizados para codicar el gen i. En el u caso del ejemplo mostrado en la Figura 4.3, G = 1 y xi = 3.
33
4.3.
Evaluaci n del Fitness o
El proceso de evaluaci n u obtenci n del tness de los individuos que conforo o man la poblaci n se lleva a cabo en dos etapas. La primera de estas (Figura 4.4 o [a]) implica la decodicaci n del individuo y, bas ndose en esta representaci n, o a o la selecci n de los algoritmos que ser n utilizados para generar los clasicadores o a del conjunto. Una vez que los clasicadores han sido seleccionados, se procede a la generaci n del conjunto de clasicadores, utilizando una parte del conjunto de o datos disponibles (datos de entrenamiento). Al nalizar esta etapa, se tiene como resultado el conjunto de clasicadores. La segunda etapa (Figura 4.4 [b]) en el proceso de evaluaci n del tness de los o individuos consiste en estimar la precisi n del conjunto de clasicadores sobre un o conjunto de datos que no ha sido utilizado en la construcci n del conjunto (datos de o validaci n). De esta forma, el tness de cada individuo es el porcentaje de aciertos o que obtenga el conjunto de clasicadores sobre las instancias del conjunto de datos de validaci n. o
p
P
conjunto
[a] M C2 ... Cm
1010101010101010 Stacked Generalization
C1
A1 A2
A3
A4
An
datos entrenamiento
Decodificacin y Construccin del Conjunto [b]

conjunto datos validacin
M C2 ... Cm % de aciertos (fitness)
C1
Evaluacin del Fitness
Figura 4.4: Evaluaci n del tness en GA-Stacking. o
Una alternativa a dividir el conjunto de datos en entrenamiento y validaci n o una unica vez, es realizar una validaci n cruzada. De esta manera, el tness es la o media del porcentaje de aciertos de la validaci n cruzada, realizando as, una mejor o
CAPITULO 4. GA-STACKING estimaci n de la precisi n de la soluci n. o o o
34
4.4.
Otros Par metros de los AGs a
Adem s del tipo de codicaci n y del n mero de genes que componen el croa o u mosoma, los AGs poseen una serie de par metros que deben ser congurados a antes para llevar a cabo la b squeda en el espacio de hip tesis. Par metros de tiu o a po estructural, como el tama o de la poblaci n, y par metros de ejecuci n como n o a o la tasa y el tipo de mutaci n, tipo de selecci n, etc, han de ser congurados para o o ejecutar los AGs. Sin embargo, se han empleado los valores utilizados con mayor frecuencia en estos sistemas [59] Los valores asociados a estos par metros se detallan en el captulo de evaluaa ci n (captulo 5). o
Captulo 5
Evaluaci n o
Hasta este punto se ha presentado el sistema GA-Stacking para la obtenci n de o la conguraci n optima del algoritmo de generaci n de conjuntos, Stacking. C mo o o o cualquier otro sistema de aprendizaje, este debe ser evaluado con la nalidad de comprobar si la conguraci n obtenida es la adecuada. Con el prop sito de llevar o o a cabo esta evaluaci n, se han realizado una serie de experimentos que van desde o los realizados con la nalidad de evaluar la viabilidad de la propuesta hasta los experimentos comparativos con los enfoques m s actuales en cuanto a conjunto de a clasicadores se reere. En la secci n 5.1 se reejan los resultados obtenidos en la primera fase de o formulaci n de la propuesta. En la secci n 5.2 se muestran los experimentos reao o lizados con el prop sito de evaluar los diferentes par metros involucrados en GAo a Stacking. Una comparativa de los resultados obtenidos mediante GA-Stacking con los bien conocidos m todos de generaci n de conjuntos de clasicadores, Bagging e o y Boosting, al igual que con los m s recientes m todos de generaci n de conjuntos a e o de clasicadores basados en Stacking, se presenta en la secci n 5.3. o
5.1.
Viabilidad de GA-Stacking
En esta secci n se muestran los resultados obtenidos en el proceso de evaluao ci n de la viabilidad de utilizar GA-Stacking con el prop sito de obtener la cono o guraci n optima de los par metros de Stacking. Para llevar a cabo esta evaluaci n o a o se han utilizado dominios del conocido repositorio de datos del UCI [6]. En una primera serie de experimentos, se obtienen resultados prometedores, pero al llevar a cabo un an lisis de los mismos, se muestran ciertos signos de sobreadaptaci n a o de los AGs a los datos utilizados para obtener el tness de los individuos. Con el prop sito de evitar esta sobreadaptaci n observada en los primeros experimentos, o o se lleva a cabo una segunda serie de experimentos en donde vara la forma de eva
35
CAPITULO 5. EVALUACION
36
luar al individuo, de esta manera el c lculo del tness de los individuos es distinto a al m todo utilizado en los experimentos preliminares. e Para la realizaci n de los experimentos que se muestran en esta secci n, se o o han utilizado las implementaciones de los distintos algoritmos de aprendizaje que est n disponibles en la herramienta conocida como W EKA [144] (versi n 3.1.7). a o Esta herramienta incluye todos los algoritmos de aprendizaje utilizados, desde los algoritmos individuales hasta los algoritmos de construcci n de conjuntos utilizao dos (i.e. Bagging, Boosting y Stacking). La implementaci n de GA-Stacking combina dos partes: la primera de estas o se basa en los algoritmos de aprendizaje implementados en W EKA mientras que la implementaci n de los Algoritmos Gen ticos esta basada en la librera G AJIT o e (Genetic Algorithm Java Implementation Toolkit) [43].
5.1.1.
Resultados Preliminares
Los resultados que se muestran en esta secci n corresponden a la evaluaci n o o inicial de GA-Stacking llevada a cabo sobre dos dominios (ionosphere y dermatology) del conocido repositorio de datos del UCI. En la Tabla 5.1 se muestran los valores de los par metros de los AGs utilizados a en estos experimentos.
Tabla 5.1: Par metros de los algoritmos gen ticos. a e
Par metros a Poblaci n o Generaciones Tasa de elite Tasa de desecho Tasa de mutaci n o
Valores 10 10 0.10 0.40 0.067
Tanto el tama o de la poblaci n como el n mero de generaciones utilizados en n o u estos experimentos, se conguraron bas ndose en el tama o del espacio de b squea n u da de los AGs. El espacio de b squeda est determinado por el n mero de posibles u a u combinaciones de algoritmos a partir de los cuales se generar n los miembros del a conjunto siguiendo el algoritmo Stacking. Existen 490 posibles combinaciones de algoritmos si se considera que un algoritmo dado s lo puede aparecer una vez en o cada combinaci n. Por otra parte, si se permite que un algoritmo pueda aparecer o una o m s veces dentro de una combinaci n, existe 2310 combinaciones posibles. a o En estos experimentos, el espacio de b squeda utilizado es el que contempla la u posibilidad de la presencia de un algoritmo una o m s veces dentro de una combia naci n. En cuanto a las tasas de elite, desecho y mutaci n, se utilizaron los valores o o
CAPITULO 5. EVALUACION que aparecen en los ejemplos de funcionamiento que proporciona G AJIT.
37
Ocho algoritmos de aprendizaje forman el grupo de algoritmos que pueden ser utilizados para generar, tanto los clasicadores de nivel-0 como el clasicador de nivel-1, dentro del conjunto de clasicadores generado mediante Stacking. A continuaci n se detallan los algoritmos de aprendizaje utilizados: o
C 4.5
[110]. Genera arboles de decisi n - (C 4.5). o
Un clasicador Naive Bayes probabilstico [76] - (N B). I B 1 [1]. Este es un algoritmo basado en instancias - (I B 1). PART [47]. Forma listas de decisi n a partir de arboles de decisi n parcialo o mente podados, generados utilizando la heurstica de C 4.5 - (PART). Decision Table [83]. Es un clasicador simple que utiliza la clase mayoritaria. - (D T). Decision Stump [72]. Genera arboles de decisi n de un solo nivel - (D S). o I Bk [1]. Algoritmo de K-vecinos m s cercanos - (I Bk). a Un clasicador Naive Bayes simple en donde los atributos num ricos son e modelados por una distribuci n normal [35] - (N BS). o Es importante se alar que en I Bk por defecto el valor de K es 1, por esta raz n n o su comportamiento es similar a I B 1. De igual forma, los resultados que obtiene N BS son similares a N B y, en algunos dominios, por su forma de generar el cla sicador, no es capaz de construir este. No obstante, cabe mencionar que estos algoritmos han sido utilizado con el n de redondear el n mero de algoritmos disu ponibles a ocho con la nalidad de poder representar los mismos mediante un gen de tres bits. Por estas razones, en estos experimentos, se hace referencia s lo a los o resultados obtenidos por I B 1 y N B. Por otra parte, se han utilizado dos m todos de generaci n de conjuntos con la e o nalidad de comparar los resultados obtenidos mediante GA-Stacking. Estos m toe dos son: Bagging: M todo de construcci n de conjuntos homog neos basado en el e o e submuestreo del conjunto de datos. (ver secci n 3.2.2). En este caso el algoo ritmo base utilizado es C 4.5. Boosting: M todo de construcci n de conjunto homog neos basado en la e o e asignaci n de pesos a las instancias del conjunto de datos (ver secci n 3.2.2). o o La implementaci n utilizada es la del algoritmo AdaBoostM1. El algoritmo o base utilizado es C 4.5.
38
Para evaluar el conjunto de clasicadores generado a partir de la conguraci n o de Stacking encontrada por GA-Stacking, se realiz el proceso que se detalla a o continuaci n: o cada conjunto de datos fue dividido aleatoriamente en dos partes, A y B la parte A, que posee alrededor de un 85 % del total de instancias disponibles en el dominio, fue utilizada como conjunto de entrenamiento y a su vez como conjunto de evaluaci n de la funci n de tness. o o para calcular el tness de cada individuo de la poblaci n, se genera un cono junto de clasicadores mediante Stacking. Los par metros de Stacking (en a este caso los algoritmos de aprendizaje) est n codicados en el individuo. a Una vez generado el conjunto de clasicadores, se utiliza como funci n de o tness la precisi n del conjunto de clasicadores a la hora de clasicar las o instancias que forman el conjunto de datos A el conjunto de datos B es utilizado como conjunto de test para estimar la precisi n de las hip tesis obtenidas mediante GA-Stacking sobre un conjunto o o de datos que no ha sido utilizado en su construcci n. Cabe se alar que por la o n condici n de preliminares de estos experimentos, la evaluaci n del tness no o o se lleva a cabo como se detalla en la secci n 4.3, en donde se propone dividir o el conjunto de entrenamiento en dos o realizar una validaci n cruzada. o En esta serie de experimentos se seleccionaron dos dominios del repositorio de datos del UCI, ionosphere y dermatology. Estos dominios han sido ampliamente utilizados en estudios previos en cuanto a conjunto de clasicadores se reere. Los resultados obtenidos en esta serie de experimentos se reejan en la Tabla 5.2. Las columnas dos y cuatro muestran la precisi n en la tarea de clasicaci n o o del conjunto de clasicadores sobre el conjunto de entrenamiento en los dominios de ionosphere y dermatology respectivamente. Por otro lado, las columnas tres y cinco reejan los resultados obtenidos sobre los conjuntos de test. La parte superior de la tabla muestra los resultados obtenidos utilizando individualmente los algoritmos de aprendizaje disponibles. En la parte central de la tabla se reeja los resultados obtenidos por los algoritmos de generaci n de conjuntos o homog neos, Bagging y Boosting, y por la hip tesis encontrada por GA-Stacking. e o La hip tesis evaluada corresponde al mejor individuo de la ultima generaci n de o o los AGs. Esta hip tesis obtiene un 100 % de precisi n sobre el conjunto de eno o trenamiento en ambos dominios, igualado unicamente por IB 11 . Sin embargo, los resultados sobre los conjuntos de test (85.71 % en ionosphere y 95.45 % en dermatology) reejan un rendimiento inferior sobre los datos que no han sido utilizados
Dado que las instancias de test se eval an bas ndose en las instancias de entrenamiento almaceu a nadas
1
39
en la fase de entrenamiento. En el dominio de ionosphere el resultado obtenido mediante GA-Stacking es superado por PART (88.57 %), la tabla de decisi n (88.57 %) o y Boosting (91.43 %), siendo este ultimo el mejor de todos de los algoritmos utilizados. En tanto que en el dominio dermatology, el resultado sobre el conjunto de test obtenido por la hip tesis encontrada por GA-Stacking es superada por los o clasicadores generados a partir de Naive Bayes y Boosting, obteniendo ambos los mejores resultados en este dominio (96.97 %). Sin embargo, si se analiza la evoluci n de los individuos, se pueden encontrar o hip tesis en generaciones previas de los AGs que obtienen mejores resultados que o cualquiera de los clasicadores individuales y los de generaci n de conjuntos, soo bre los conjuntos de test de ambos dominios (parte inferior de la Tabla 5.2). Estos resultados y el hecho de que en ambos dominios el porcentaje de acierto sobre el conjunto de entrenamiento es del 100 %, indican que GA-Stacking se est sobreaa daptando a los datos de entrenamiento a medida que pasa cada generaci n. o
Tabla 5.2: Resultados preliminares de la evaluaci n de GA-Stacking. o
Algoritmo Individuales C 4.5 Naive Bayes PART IB1 Decision Stump Decision Table Conjuntos Bagging con C 4.5 Boosting con C 4.5 GA-Stacking Generaciones previas (AGs) GA-Stacking Ionosphere Entrenamiento Test 98.42 85.13 98.73 100.00 84.18 94.94 97.78 100.00 100.00 82.86 82.86 88.57 82.86 80.00 88.57 85.71 91.43 85.71 Dermatology Entrenamiento Test 96.67 98.67 96.67 100.00 51.33 96.67 97.00 100.00 100.00 92.42 96.97 93.94 92.42 45.45 87.88 93.94 96.97 95.45
97.78
94.29
98.67
98.48
En la Figura 5.1 se muestra la evoluci n del tness en el dominio dermatology. o Como se puede apreciar en la tercera generaci n existe un individuo que obtiene o el m ximo tness (100 % de acierto), pero los resultados sobre el conjunto de test a empeoran a partir de esta generaci n. Por otra parte, tambi n se encuentran reejao e das la media de aciertos de los tres mejores individuos de cada generaci n, tanto en o entrenamiento/tness como los resultados sobre el conjunto de test. Cabe destacar que el tness promedio llega a alcanzar el 100 % de acierto en la sexta generaci n, o generaci n hasta la cual el porcentaje de acierto sobre el conjunto de test ha ido o decrement ndose generaci n tras generaci n. a o o
40
100 99 98 Precisin 97 96 95 94 93 0 1 2 3 4 5 6 Generaciones 7 8 9
fitness test
media/fitness media/test
Figura 5.1: Evoluci n del tness en el dominio dermatology (mejor individuo y promedio o de los tres mejores individuos en cada generaci n). o
5.1.2.
Evitando la Sobreadaptaci n o
En los experimentos preliminares de la secci n anterior, los individuos se soo breadaptan porque el valor de la funci n de tness se obtiene a partir de las miso mas instancias de entrenamiento que fueron utilizadas para construir el conjunto de clasicadores mediante la conguraci n de Stacking asociada al individuo. Obo viamente, la precisi n del individuo sobre las instancias que fueron utilizadas en su o construcci n es alta. Por esta raz n, con el prop sito de evitar la sobreadaptaci n, o o o o en esta nueva serie de experimentos, el valor de la funci n de tness fue calculada o a partir de un conjunto de datos denominado conjunto de validaci n. En otras palao bras, el conjunto de instancias de entrenamiento se dividi , a su vez, en dos partes o aleatoriamente. El 80 % de las instancias de entrenamiento se utilizan para construir el conjunto de clasicadores a partir de la conguraci n de Stacking asociada o a cada individuo, y el restante 20 % - el conjunto de validaci n - se utiliza para dar o una estimaci n sin sesgo de la precisi n del individuo. Es decir, el segundo cono o junto se utiliza para evaluar el tness del individuo. Cabe destacar que al utilizar un 20 % del conjunto de entrenamiento como conjunto de evaluaci n del tness, el o conjunto de clasicadores se genera a partir de menos instancias de entrenamiento que en los experimentos previos.
41
Con vistas a evaluar experimentalmente GA-Stacking con un n mero mayor de u dominios que en los experimentos anteriores, se ampli la cantidad de dominios o utilizados a seis. Todos los dominios han sido utilizados previamente en otros estudios relacionados con conjuntos de clasicadores y est n disponibles en el repoa sitorio de bases de datos para aprendizaje autom tico del UCI. Las caractersticas a de estos conjuntos de datos se describen en la Tabla 5.3.
Tabla 5.3: Descripci n de los dominios utilizados en la evaluaci n de GA-Stacking. o o
Dominio dermatology dna-splice heart ionosphere musk sonar
Atributos 34 60 13 34 166 60
Tipo de Atributos num rico-nominal e nominal num rico-nominal e num rico e num rico e num rico e
Instancias 366 3190 303 351 476 208
Clases 6 3 2 2 2 2
Los par metros de los AGs utilizados en estos experimentos son los mismos a que se utilizaron en la primera serie de pruebas y que se muestran en la Tabla 5.1. Con el prop sito de estimar la tasa de acierto de los algoritmos evaluados, se reao liz una validaci n cruzada de 5 carpetas (del ingl s: folders). Por razones expeo o e rimentales GA-Stacking fue ejecutado una unica vez en cada ciclo de la validaci n o cruzada. Es decir, se explor el espacio de b squeda partiendo de un unico punto o u con cada conjunto de datos. La precisi n de clasicaci n de cada clasicador/conjunto, C, para un dominio o o dado es estimada mediante la media de la validaci n cruzada realizada, denominao da prec(C). Para comparaciones entre dos algoritmos de aprendizaje, se calculan las mejoras relativas y t-test pareados, como se describe a continuaci n. o Para medir la mejora en la tarea de clasicaci n en un dominio dado utilizano do un clasicador/conjunto C1 en comparaci n a utilizar C2 se calcula la mejora o relativa mediante: 1 error(C1 )/error(C2 ). El error de un clasicador/conjunto C viene dado por 1 prec(C). La media de la mejora relativa (MMR) sobre todos los dominios es calculada utilizando la media geom trica de la reducci n del error e o en dominios individuales: 1 media geomtrica(error(C1 )/error(C2 )) [41]. e La signicaci n estadstica de la diferencia en el rendimiento de los algoritmos o es llevada a cabo mediante un t-test pareado (C1 y C2 utilizan exactamente los mismos conjuntos de datos) con un nivel de signicaci n del 95 %: +/ a la derecha o de un dato en la tablas que reejan los resultados de los clasicadores indican que C1 es signicativamente mejor/peor que C2 . La Tabla 5.4 muestra los resultados de los clasicadores individuales sobre
42
los dominios de prueba y en la Tabla 5.5 se muestra la precisi n obtenida por los o tres m todos de construcci n de conjuntos, incluyendo la hip tesis encontrada por e o o GA-Stacking. Los mejores resultados est n resaltados. a
Tabla 5.4: Tasa de precisi n de los algoritmos individuales. o
C 4.5
94.33 94.12 74.00 90.14 83.33 72.38
PART 94.59 92.11 82.00 89.30 85.21 73.81
NB 97.03 95.63 83.00 82.82 74.38 67.62
IB1 94.59 75.62 78.00 87.61 86.46 79.52
DT 87.83 92.49 76.33 89.30 82.08 71.90
DS 50.40 62.42 70.67 82.82 71.46 73.93
Tabla 5.5: Tasa de precisi n de los algoritmos de generaci n de conjuntos. o o
Bagging 94.59 94.56 76.33 92.11 87.29 80.00
Boosting 97.03 94.43 79.67 91.83 88.96 79.05
GA-Stacking 97.30 95.72 80.67 90.42 83.96 80.48
A excepci n de un dominio (heart), los algoritmos de generaci n de conjuntos o o obtienen mayor precisi n que cualquiera de los clasicadores individuales. El cono junto de clasicadores generado a partir de la conguraci n de los par metros de o a Stacking encontrada por los algoritmos gen ticos obtiene mayor precisi n en tres e o de los seis dominios utilizados en los experimentos en comparaci n con los otras o t cnicas de generaci n de conjuntos. e o En la Tabla 5.6 se muestra la comparaci n de los conjuntos de clasicadores o generados a partir de la conguraci n de Stacking encontrada por GA-Stacking con o los clasicadores individuales y las otras t cnicas de generaci n de conjuntos. Coe o mo se puede apreciar, las soluciones generadas a partir de GA-Stacking mejoran, en promedio, a todos los clasicadores individuales y a Bagging, no as a Boos ting. Sin embargo, si se analiza la signicaci n estadstica de los resultados, las o soluciones de GA-Stacking no son signicativamente peores que ninguno de los clasicadores individuales ni que ninguno los m todos de generaci n de conjuntos e o en ninguno de los dominios. Por otra parte, GA-Stacking es mejor, signicativamente, que cualquiera de los clasicadores individuales o las t cnicas de generae ci n de conjuntos al menos una vez, como se puede apreciar en la ultima la de la o
43
Tabla 5.6: Mejora relativa en precisi n (en %) de las hip tesis encontradas por GA-Stacking o o compar ndolas con los distintos clasicadores individuales y las t cnicas de clasicaci n a e o de conjuntos homog neos Bagging y Boosting y su signicaci n estadstica (+/ es mee o jor/peor, . es no signicativa.)
Dominio heart sonar musk ionosphere dermatology DNA splice Promedio Gana/pierde
C 4.5 25.64 . 29.31 . 3.75 . 5.77 . 52.39 . 27.27 + 25.94 1+/0-
PART -7.41 . 25.45 . -8.45 . 7.92 . 50.01 + 45.82 + 22.51 2+/0-
NB -13.73 . 39.71 + 37.40 + 42.64 + 9.12 . 2.16 . 22.37 3+/0-
IB1 12.12 . 4.65 . -18.46 . 20.48 . 50.01 + 82.45 + 35.92 2+/0-
DT 18.31 . 30.51 . 10.47 . 7.92 . 77.78 + 43.10 + 37.58 2+/0-
DS 34.09 + 26.79 . 43.80 + 42.64 + 94.54 + 88.62 + 68.55 5+/0-
Bagging 18.31 + 2.38 . -26.23 . -24.96 . 50.01 . 21.39 + 11.08 2+/0-
Boosting 4.92 . 6.82 . -45.28 . -20.65 . 9.11 . 23.16 + -1.36 1+/0-
Tabla 5.6. En cuanto a la evoluci n del tness, en la Figura 5.2 se muestra una comparao tiva entre la utilizaci n de un mismo conjunto de datos, tanto como para generar o el conjunto de clasicadores como para evaluar la funci n de tness (a), y la utio lizaci n de un conjunto de datos de validaci n reservados para evaluar la funci n o o o de tness (b). Como se puede apreciar, al utilizar dos conjuntos de datos en el proceso de obtenci n del conjunto de clasicadores, el porcentaje de aciertos sobre el o conjunto de datos de test es superior al obtenido al utilizar un unico conjunto para entrenamiento y tness. Por otra parte, si se analiza la evoluci n de las curvas que o reejan el tness, es evidente que la utilizaci n de dos conjuntos de datos evita, en o cierta medida, la sobreadaptaci n de las soluciones. o En las Figuras 5.3 y 5.4 se muestra la evoluci n del tness y la evoluci n de la o o precisi n sobre los conjuntos de entrenamiento y test para los distintos dominios o utilizados en estos experimentos. En ninguno de los dominios se alcanza un 100 % de acierto sobre el conjunto de entrenamiento o sobre el conjunto de tness. Por otro lado los resultados sobre el conjunto de test, a pesar que en algunos dominios experimenta un leve decremento, se pueden considerar como buenos. A partir de este an lisis se puede se alar que el utilizar conjuntos distintos para entrenamiento a n y tness es adecuado para prevenir la sobreadaptaci n. o
5.2.
Par metros de GA-Stacking a
Una vez establecida la viabilidad de la aplicaci n de AGs a la tarea de cono guraci n de Stacking, se han llevado a cabo una serie de experimentos con la o nalidad de determinar la conguraci n adecuada de los par metros asociados a o a GA-Stacking. Estos par metros van, desde los algoritmos de aprendizaje que puea den ser utilizados por GA-Stacking, hasta la conguraci n de los par metros de o a aprendizaje de cada uno de estos algoritmos. En las secciones 5.2.1, 5.2.2 y 5.2.3,
44
Dermatology 100 99 98 Precisin 97 96 95 94 93 1 2 3 4 5 6 7 Generaciones 8 9 10
Fitness
Test
(a)
Dermatology 100 99 98 Precisin 97 96 95 94 93 1 2 3 4 5 6 7 Generaciones 8 9 10
Fitness
Test
(b)
Figura 5.2: Comparaci n de la evoluci n del tness utilizando el mismo conjunto de datos o o para entrenar y calcular el tness (a) o distintos conjuntos (b) en el dominio Dermatology.
45
Dermatology 100 99 Precisin 98 97 96 95 1 2 3 4 5 6 7 8 9 10 Generaciones Entrenamiento Fitness Test
Ionosphere 98 Precisin 96 94 92 90 1 2 3 4 5 6 7 Generaciones 8 9 10
Entrenamiento Fitness
Test
Heart 92 90 Precisin 88 86 84 82 80 1 2 3 4 5 6 7 Generaciones 8 9 10
Test
Figura 5.3: Evoluci n del tness de las soluciones comparado con la precisi n sobre el cono o junto de entrenamiento y el conjunto de test para los dominios de dermatology, ionosphere y heart.
46
Sonar
95 Precisin 90 85 80 75 1 2 3 4 5 6 7 8 9 10 Generaciones Entrenamiento Fitness Test
Musk 100 98 96 94 92 90 88 86 84 82 1 2 3 4 5 6 7 Generaciones 8 9 10
Precisin
Test
DNA Splice 97.5 97 96.5 96 95.5 1 2 3 4 5 6 7 Generaciones 8 9 10
Precisin
Test
Figura 5.4: Evoluci n del tness de las soluciones comparado con la precisi n sobre el o o conjunto de entrenamiento y el conjunto de test para los dominios de sonar, musk y DNA splice.
47
se detallan los par metros involucrados en la conguraci n de GA-Stacking. En la a o secci n 5.2.4 se explica la conguraci n de los experimentos realizados. Por ultio o mo en la secci n 5.2.5 se muestran los resultados obtenidos en la comparaci n de o o las diferentes conguraciones.
5.2.1.
Algoritmos de Aprendizaje
Con el prop sito de ampliar el espacio de conguraciones en el cual los AGs o llevan a cabo la b squeda de la conguraci n optima de los par metros de Stacu o a king, se ampli el n mero de posibles algoritmos de aprendizaje que pueden ser o u utilizados para generar los miembros del conjunto. Estos algoritmos pueden ser utilizados para generar tanto los clasicadores base como el meta clasicador. En adici n a los algoritmos utilizados en los primeros experimentos, C 4.5, o Naive Bayes, I Bk, PART, Decision Stump y Decision Table, se han incorporado los siguientes algoritmos: Random Forest [14]. Este algoritmo construye un Bosque Aleatorio que se forma combinando una gran cantidad de arboles de decisi n no podados o (R F). Random Tree [144]. Este algoritmo construye un arbol que considera K atributos al azar en cada nodo. No lleva a cabo ninguna poda - (RT). MLR [132]. Una regresi n lineal de multirespuesta (multi-response linear o regression - (MLR). MRMT [40]. Un arbol de regresi n multirespuesta (multi-response model o tree) - ( MRMT). K* [22]. Este es un algoritmo basado en instancias que utiliza una medida de la distancia basada en la entropa - (K*). VFI [27]. Es un algoritmo que genera un clasicador que lleva a cabo la tarea de clasicaci n mediante votos, basado en intervalos de valores de los o atributos. - (VFI) Conjunctive Rule. Es un algoritmo que genera un clasicador simple de reglas conjuntivas - (C R). JRip [25]. Un algoritmo de generaci n de reglas proposicionales - (JR IP). o Nnge [92]. Algoritmo del tipo vecino m s cercano el cual utiliza ejemplos a generalizados no jerarquizados - (N NGE). Hyper Pipes [144]. Genera un clasicador que construye un Hyper Pipe para cada categora, el cual contiene todos los puntos de esa categora - (H P).
48
Para utilizar los clasicadores MLR y MRMT se utiliza un m todo de clasie caci n denominado clasicaci n por regresi n (C P R) implementado en W EKA. o o o De esta forma, la selecci n de MLR o MRMT es un par metro de aprendizaje del o a m todo mencionado. Por omisi n, el algoritmo utilizado es MLR. e o
5.2.2.
Par metros de Aprendizaje de los Algoritmos Utilizados a
En los todos los trabajos relacionados con la conguraci n de Stacking, los alo goritmos que se utilizan tanto, para construir los clasicadores de nivel-0 como el clasicador de nivel-1, se utilizan los par metros de aprendizaje por omisi n. Dado a o que estos par metros pueden inuir en los resultados que obtiene cada clasicador, a GA-Stacking adem s de seleccionar entre los algoritmos de aprendizaje disponia bles, puede realizar una b squeda en el espacio de par metros de cada uno de los u a algoritmos utilizados. En la Tabla 5.7 se detallan los par metros de aprendizaje de a los algoritmos utilizados que han sido seleccionados para ampliar el espacio de b squeda. u
Tabla 5.7: Par metros de aprendizaje los algoritmos utilizados por GAa Stacking para generar el conjunto de clasicadores.
Algoritmo Naive Bayes
Opci n o -K
PART
-B -C
C 4.5
-R -U -B -S -C
-A
Descripci n o Utilizar estimaci n del n cleo para o u atributos num ricos en vez de una sime ple distribuci n normal. o Utilizar divisi n binaria para atributos o nominales. Establece el umbral de conanza para llevar a cabo la poda (por omisi n: o 0.25). Utiliza la poda para reducir el error. No se desarrolla ning n sub- rbol. u a Utiliza arbol sin podar. Utilizar divisi n binaria para atributos o nominales. No desarrollar sub- rboles. a Establece el umbral de conanzar para llevar a cabo la poda (por omisi n: o 0.25). Si est jado, se utiliza un suavizado a Laplace para la predicci n de probabio lidades.
Contin a ... u
CAPITULO 5. EVALUACION Algoritmo I Bk Opci n o -F
49 Descripci n o Se asigna un peso a los vecinos equivalente su similitud cuando se vota (por omisi n: igual peso). o Se asigna un peso a los vecinos equivalente al inverso de su distancia cuando se vota (por omisi n: igual peso). o No se utiliza normalizaci n. o cuando K es seleccionado por validaci n cruzada para atributos num rio e cos, minimiza el error cuadr tico mea dio (por omisi n: error medio absoluo to). Fija el n mero de los vecinos m s ceru a canos que se utilizar n para llevar a caa bo la predicci n (por omisi n: 1). o o No posee par metros congurables. a Utiliza el vecino m s cercano en vez de a mayora global de la tabla. Especica el nombre del algoritmo de predicci n num rica que ser utilizado o e a como base del clasicador. Fija la semilla para el generador de n meros aleatorios (por omisi n:1). u o Fija el n mero de atributos a tener en u cuenta en cada nodo. Fija el n mero mnimo de instancias u por nodo. Fija el n mero de arboles en el bosque u (por omisi n: 10). o Fija el n mero de atributos a consideu rar. (por omisi n: logM + 1. M es el o n mero de entradas. u Fija la semilla para el generador de n mero aleatorios (por omisi n:1). u o Fija la mezcla global (por omisi n:20). o Establece si se utiliza mezcla entr pica o autom tica. a Establece el m todo para manejar vae lores desconocidos (por omisi n: curva o media de la entropa de la columna). Fija el bias exponencial hacia intervalos condentes (por omisi n: 1.0). o
-D
-N -S
-K
Decision Stump Decision Table Clasicaci n por Regresi n o o
-I -W
Random Tree
-S -K -M
Random Forest
-I -K
-S K* -B -E -M
VFI Contin a ... u
-B
CAPITULO 5. EVALUACION Algoritmo Opci n o -C -S -R -E -N
50 Descripci n o No pesa los intervalos de votaci n por o conanza. Fija la semilla para la aleatorizaci n o (por omisi n:1). o Fija si no se usa aleatorizaci n. o Fija si se considera expresiones exclusivas para atributos nominales. Fija el n mero de carpetas. Una carpeta u es utilizado para llevar a cabo la poda (por omisi n: 3). o Fija los pesos mnimos de las instancias en el proceso de divisi n (por omisi n: o o 2.0). Fija el n mero de ejecuciones en el u proceso de optimizaci n (por omisi n: o o 2). Si no se utiliza poda. Si no se verica que la tasa error >= 0,5 dentro del criterio de parada (por omisi n: vericar). o Fija el n mero de carpetas. Una carpeta u es utilizada para llevar a cabo la poda (por omisi n: 3). o Fija los pesos mnimos de las instancias en el proceso de divisi n (por omisi n: o o 2.0). Fija el n mero de intentos de la geneu ralizaci n (por omisi n: 5). o o Fija el n mero de carpetas para calcular u la informaci n mutua. o No posee par metros congurables. a
Conjunctive Rule
-M
JR IP
-O
-P -E
-F
-N
N NGE
-G -I
Hyper Pipes
Es importante se alar que en algunos casos no se han utilizado todos los par men a tros congurables de un algoritmo dado, puesto que se han utilizado los que se consideran de mayor relevancia en la construcci n del clasicador. o
5.2.3.
Otros Par metros a
Adem s de los algoritmos de aprendizaje y sus par metros congurables, exisa a ten otros aspectos ligados a GA-Stacking, como son el tama o del conjunto de n
51
clasicadores, la representaci n de las soluciones y los par metros ligados a los o a AGs. En esta secci n se abordan en detalle estos par metros. o a Tamano del Conjunto de Clasicadores El n mero de algoritmos que deben ser utilizados para generar los clasicadou res de nivel-0 vara de un estudio a otro seg n la literatura. Por ejemplo, Ting y u Witten [132] utilizan tres algoritmos, mientras que Seewald [117] utiliza seis al goritmos. Recientemente D eroski y Zenko [41] utilizan tres y siete clasicadores z base para llevar a cabo la comparaci n entre los distintos m todos de construcci n o e o de conjuntos. Como se puede apreciar no hay un consenso en cuanto al n mero de clasicau dores base que deben formar parte del conjunto de clasicadores. En vista de tal situaci n, se estableci como par metro de GA-Stacking la determinaci n del tao o a o ma o del conjunto en donde s lo se ja el n mero m ximo de posibles clasicadon o u a res base. Para que el n mero de clasicadores base fuese variable, se consider la u o posibilidad de no utilizar ning n algoritmo de aprendizaje como una alternativa u m s a los algoritmos disponibles. De esta manera se reduce el n mero de clasia u cadores base generados. Es decir, dado un n mero m ximo de clasicadores base, u a n, y el n mero de algoritmos disponibles, m, la probabilidad de que un algoritmo u o la ausencia de algoritmos se encuentre codicada en la soluci n encontrada por o GA-Stacking, E, est dada por: a C
m+1 n
p(E) =
C
m+1 n
m n
en donde C es la combinaci n de m elementos en grupos de n elementos. o Para llevar a cabo un estudio detallado de la inuencia del n mero de clau sicadores base que forma el conjunto de clasicadores, el n mero m ximo de u a clasicadores base se ha jado en cuatro y diez clasicadores. De esta forma, se incluyen el n mero de clasicadores utilizado por los estudios previos reejados u en la literatura. Representaci n de las Soluciones o Como se detalla en la secci n 4.2, la codicaci n binaria es la codicaci n utio o o lizada para representar las soluciones dentro de GA-Stacking. La representaci n de o las soluciones depende esencialmente de tres factores previamente mencionados: el n mero de algoritmos disponibles, la utilizaci n de los par metros de aprendiu o a zaje de dichos algoritmos y el n mero m ximo de clasicadores base dentro del u a conjunto de clasicadores. Tomando en cuenta estos factores, se han desarrollado
52
nivel1
0 1 0 1 1 1 0 0 0 1 1 0
nivel0
0 0 1
Figura 5.5: Codicaci n binaria de la conguraci n G A S5 SP I. o o
nivel1
0 1 0 0 1 1 1 1 0 0 0 1 1 1 0 1
nivel0
0 0 1 1
Figura 5.6: Codicaci n binaria de la conguraci n G A S5 SP II. o o
seis conguraciones de GA-Stacking con la nalidad de determinar la mejor de estas. A continuaci n se detallan las codicaciones utilizadas para cada una de las o conguraciones. G A S5 SP I2 . La primera de las conguraciones de GA-Stacking en estos experimentos es similar a la utilizada en los experimentos previos (secci n 5.1). o La unica diferencia es que en estos experimentos se considera la no presencia de algoritmos en una posici n dada del cromosoma. El n mero m ximo o u a de posibles clasicadores base es cuatro (n = 4) y no se incluyen en la soluci n los par metros de aprendizaje de los algoritmos. El n mero de alo a u goritmos disponibles es siete (m = 7). En la Figura 5.5 se puede apreciar la codicaci n de las soluciones utilizada en estos experimentos. o El n mero de genes del cromosoma es Tc = 5 y el tama o en bits es Tb = 15. u n G A S5 SP II. Esta conguraci n es similar a la anterior, con la unica diferencia o de que, en este caso, el n mero de algoritmos disponibles es 15 (m = 15). u En la Figura 5.6 se puede apreciar la codicaci n de las soluciones utilizada o en estos experimentos. El n mero de genes del cromosoma es Tc = 5 y el tama o en bits es Tb = 20. u n G A S5 CP I. En esta conguraci n de GA-Stacking se incorpora a la tarea de o optimizaci n la b squeda de los par metros de aprendizaje de cada uno de o u a los algoritmos con la nalidad de encontrar la combinaci n adecuada para un o dominio dado. En estos experimentos m = 7 y n = 5. Debido a la cantidad
2 El nombre de las conguraciones de GA-Stacking deriva de, GA-Stacking, G A S, el n mero u de clasicadores que pueden formar el conjunto, 5 y 11 (incluyendo el meta-clasicador), la utilizaci n o no de los par metros de aprendizaje de los algoritmos, CP y SP, y la versi n del o a o experimento dependiendo del n mero de algoritmos disponibles, I o II (7 y 15 respectivamente). u
53
nombre
0 1 1
0 1 0 0 1 1 1 1 0
parmetros a
... n
Figura 5.7: Codicaci n binaria de un clasicador dentro de la conguraci n G A S5 CP I. o o

nombre
0 0 1 1
0 1 0 0 1 1 1 1 0
parmetros a
... n
Figura 5.8: Codicaci n binaria de un clasicador dentro de la conguraci n G A S5 CP II. o o
de algoritmos que se pueden utilizar y la diversidad de sus par metros de a aprendizaje, se opt por crear una representaci n general que incorporase la o o mayora de los par metros disponibles. En la Tabla 5.8 se puede apreciar la a relaci n de los par metros de aprendizaje de cada algoritmo y el gen que los o a representa. Dado que el n mero y tipo de par metros de aprendizaje vara u a de un algoritmo a otro y, que para un mismo algoritmo existen par metros a mutuamente excluyentes, se dise o una codicaci n lo m s general posible, n o a aunque esto implique que en algunos casos los genes no representen ning n u par metro debido al algoritmo de aprendizaje. a En la Figura 5.7 se muestra la codicaci n de un clasicador dentro del croo mosoma que representa las soluciones en estos experimentos. Como se puede apreciar, se utilizan seis genes para representar un clasicador, uno para el nombre y cinco para codicar los par metros de aprendizaje del mismo. a El n mero de genes del cromosoma es Tc = 30 y el tama o en bits es Tb = u n 60. G A S5 CP II. En esta conguraci n el valor de m = 15. Por esta raz n el o o tama o en bits del cromosoma es Tb = 65 mientras que el n mero de genes n u del cromosoma sigue siendo Tc = 30. En la Figura 5.8 se puede observar la codicaci n utilizada. Por otra parte, en la Figura 5.9 se muestra un ejemplo o de la codicaci n de un clasicador que se generar a partir de C 4.5. o a G A S11 SP. En esta conguraci n de GA-Stacking se amplia el n mero m xio u a mo de clasicadores base que pueden formar parte del conjunto. En este caso m = 10 y la codicaci n es similar a la utilizada por G A S5 SP II. En cuanto o a la longitud del cromosoma, esta est dada por Tc = 11 y Tb = 44. a G A S11 CP. En la ultima de las conguraciones de GA-Stacking evaluadas el n mero m ximo de clasicadores base que pueden formar parte del conjunto u a
54
gen 1=3
gen 3=0
gen 5=5
0 0 1 1
0 1
gen 2=1 Gen 1 2 3 4 5 6
0
gen 4=0
0 1 0 1
1
gen 6=1
Valor 3 1 0 0 5 1
Opci n o c4.5 -R -C 0.35 -A
Figura 5.9: Ejemplo de la representaci n de C 4.5 y sus par metros de aprendizaje mediante o a una codicaci n binaria. o
es 10 al igual que la conguraci n anterior, pero en este caso se incluyen o los par metros de aprendizaje de los algoritmos. Para estos experimentos la a codicaci n es similar a la utilizada por G A S5 CP II, tomando en cuenta el o nuevo valor de m. En cuanto a la longitud del cromosoma, esta est dada por a Tc = 66 y su longitud en bits, Tb = 143.
Tabla 5.8: Correspondencia entre los par metros de aprendizaje de los algoritmos utilizados por GA-Stacking y el gen que los representa dentro de la a codicaci n binaria. o
C 4.5
```
Genes
Algoritmo3 ``` ``` `
Gen # 2
Gen # 3
Gen # 4
Gen # 5
Gen # 6
Valor 0 1 2 3 0 1 0 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 1
NA4 0 NB 1 -K 3 -R -U -B -S -C 0.10 -C 0.15 -C 0.20 -C 0.25 -C 0.30 -C 0.35 -C 0.40 -C 0.45 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -A PART 2 -B -C 0.10 -C 0.15 -C 0.20 -C 0.25 -C 0.30 -C 0.35 -C 0.40 -C 0.45 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 -C 0.50 I Bk 4 -F -D -N -S -K 1 -K 2 -K 3 -K 4 -K 5 -K 6 -K 7 -K 8 -K 9 -K 10 -K 11 -K 12 -K 13 -K 14 -K 15 -K 16 DS 5 DT 6 -I RT 8 -S 1 -S 2 -S 3 -K 10 -K 5 -K 10 -K 15 -K 20 -K 25 -K 30 -K 35 -K 40 -K 45 -K 50 -K 55 -K 60 -K 65 -K 70 -K 75 -M 5 RF 9 -S 1 -S 2 -S 3 -K 10 -I 2 -I 4 -I 6 -I 8 -I 10 -I 12 -I 14 -I 16 -I 18 -I 20 -I 22 -I 24 -I 26 -I 28 -I 30 K* 10 -B 10 -B 30 -B 40 -E -M m -M n -M a -M d VFI 11 -B 2.0 -B 3.0 -B 4.0 -C CR 12 -S 2 -S 3 -S 4 -R -E -N 4 -N 5 -N 6 -N 7 -N 8 -N 9 -N 10 -M 3 JR IP 13 -O 3 -O 4 -O 5 -P -E -F 4 -F 5 -F 6 -F 7 -F 8 -F 9 -F 10 -N 3
C P R5 7 -W A -W B -
N NGE 14 -G 2 -G 3 -G 4 -I 2 -I 3 -I 4 -I 5 -I 6 -I 7 -I 8 -I 9 -I 10 -
HP 15 -
55
Es representado por el Gen #1. Ning n Algoritmo. u 5 Las opciones A y B del gen #3 corresponden a utilizar MLR y MRMT respectivamente.
56
5.2.4.
Conguraci n Experimental o
En esta secci n se describe en detalle la conguraci n de los experimentos o o llevados a cabo con la nalidad de evaluar las diferentes versiones de GA-Stacking. Dominios Para la prueba experimental de las distintas conguraciones de GA-Stacking se han utilizado 18 dominios del repositorio del UCI. Estos dominios han sido ampliamente utilizados en otros estudios sobre Stacking. Con el prop sito de evaluar o GA-Stacking con un grupo de instancias distintas a las que utiliza como conjunto de entrenamiento, se ha dividido cada dominio en dos partes: la parte A utilizada para evaluar las conguraciones encontradas por cada una de las versiones de GA-Stacking, y la parte B que es utilizada como conjunto de entrenamiento para encontrar la conguraci n optima. En la Tabla 5.9 se muestran las caractersticas o de los dominios utilizados.
Tabla 5.9: Descripci n de dominios utilizados. o
Dominio australian balance breast-w car chess diabetes echo german glass heart hepatitis hypo image ionosphere iris soya vote wine
Atributos 14 4 9 6 36 8 6 20 9 13 19 25 19 34 4 35 16 13
Instancias 690 625 699 1728 3196 768 132 1000 214 270 155 3163 2310 351 150 683 435 178
Parte A 345 312 349 1382 2876 384 66 500 100 135 77 2846 1848 175 75 341 217 89
Parte B 345 313 350 346 320 384 66 500 100 135 78 317 462 176 75 342 218 89
Clases 2 3 2 4 2 2 2 2 6 2 2 2 7 2 3 19 2 3
CAPITULO 5. EVALUACION Par metros de los AGs a
57
En vista que el espacio de b squeda de conguraciones se ve incrementado con u la incorporaci n de m s algoritmos y los par metros de aprendizaje de estos, se o a a increment el n mero de individuos de la poblaci n y el n mero de generaciones. o u o u Otra diferencia con respecto a los primeros experimentos (secci n 5.1) es la tasa o de mutaci n que se vio incrementada con la nalidad de generar cambios en los o individuos en menos generaciones. Los valores de los par metros de los AGs para a estos experimentos se muestran en la Tabla 5.10.
Tabla 5.10: Par metros de los algoritmos gen ticos. a e
Par metro a Poblaci n o Generaciones Tasa de elite Tasa de desecho Tasa de mutaci n o
Valores 50 50 0.10 0.40 0.10
Comparaci n de las Versiones de GA-Stacking o Con el prop sito de evaluar las distintas versiones de GA-Stacking, cada una de o las conguraciones de GA-Stacking fue ejecutada tres veces en cada dominio con el conjunto de datos B. El mejor individuo de estas ejecuciones es tomado como la conguraci n optima de Stacking encontrada por una versi n dada de GA-Stacking. o o Este individuo no es un conjunto de clasicadores construido a partir de Stacking, sino una conguraci n de los algoritmos que se deben utilizar para generar los o clasicadores nivel-base y el clasicador del meta-nivel. Todas las conguraciones encontradas por las versiones de GA-Stacking son comparadas entre s mediante una validaci n cruzada estraticada de 10 carpetas sobre el conjunto de datos A. o Un t-test pareado se utiliza para medir la signicaci n estadstica con un nivel del o 95 %. Con el prop sito de calcular la mejora relativa obtenida por las conguraciones o de Stacking encontradas por una versi n de GA-Stacking dada sobre el resto de o versiones, se calcula la mejora relativa media (MRM) sobre todos los dominios utilizados.
CAPITULO 5. EVALUACION Otros
58
Tanto las implementaciones de los algoritmos de aprendizaje utilizados, como la prueba estadstica utilizada (t-test), corresponden a la versi n 3.4 de W EKA. o Analizando los resultados obtenidos en los experimentos para evitar la sobreadaptaci n a los datos de entrenamiento (secci n 5.1.2) se puede apreciar que se o o evita que los AGs se sobreadapten tanto a los datos de tness como a los datos de entrenamiento. Sin embargo, Stacking cuenta con menos datos para generar los clasicadores que formar n parte del conjunto. Adem s puede existir alg n sesgo a a u hacia el conjunto de tness. Por esta raz n la funci n de tness en estos experimeno o tos se calcula mediante un proceso de validaci n cruzada de 2 carpetas. Es decir, el o conjunto de datos disponibles se divide en dos partes, primero se entrena con una de ellas y se obtiene el porcentaje de aciertos sobre la otra parte y viceversa. El valor del tness es el promedio de aciertos de la validaci n cruzada. En la Figura 5.10 o se muestra el proceso llevado a cabo para obtener el tness de todos los individuos de la poblaci n. o
carpeta 1
datos
entrenamiento
datos validacin
conjunto
M C2 ... Cm
1010101010101010 A1 A2 A3 A4 An
C1
% de aciertos (fitness_1)
datos disponibles
A B
carpeta 2
datos
datos
entrenamiento
validacin
conjunto
M C2 ... Cm
% de aciertos (fitness_2)
C1
fitness(p) = (fitness_1 + fitness_2)/2
Figura 5.10: C lculo del tness mediante una validaci n cruzada de 2 carpetas. a o
Por otra parte, Stacking lleva a cabo un proceso de validaci n cruzada interna o para construir los datos del meta-nivel. El n mero de carpetas utilizadas en este u proceso, por omisi n, es 10 y al igual que en los experimentos previos, no se ha o incluido como par metro en la evoluci n de las soluciones. a o
59
5.2.5.
Resultados Experimentales
En esta secci n se muestran los resultados obtenidos en la evaluaci n de las o o diferentes conguraciones de GA-Stacking. El porcentaje de aciertos de los conjuntos de clasicadores formados a partir de las conguraciones de Stacking encontradas por las distintas versiones de GAStacking se muestran en la Tabla 5.116 . Sin embargo, con la nalidad de comparar el rendimiento de las soluciones encontradas por las distintas versiones de GAStacking, la Tabla 5.12 es m s interesante: esta tabla reeja la mejora relativa media a de X sobre Y para cada par de soluciones X e Y , al igual que el n mero de u ganados:perdidos calculado a partir de un t-test realizado sobre los resultados de una validaci n cruzada de 10 carpetas (1 10 t-test). o
Tabla 5.11: Resultados de la validaci n cruzada de 10 carpetas de las conguraciones de o Stacking encontradas por las distintas versiones de GA-Stacking.
Dominios australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine
G A S5 SP I 86.93 90.08 95.42 96.02 99.27 73.41 86.67 74.00 62.45 82.75 80.89 99.30 97.94 89.02 93.57 97.18 95.87 94.44
G A S5 SP II 87.21 94.23 95.71 95.15 99.17 73.93 84.17 75.40 63.45 83.57 80.89 99.12 97.89 90.23 92.32 94.27 93.07 96.67
G A S5 CP I 88.11 94.54 97.14 97.03 99.23 75.24 87.50 71.00 67.27 82.03 79.64 99.26 97.56 91.93 93.57 91.36 95.84 98.89
G A S5 CP II 87.22 92.95 95.99 97.18 99.24 73.93 90.00 75.00 76.00 82.80 78.57 98.98 98.16 89.61 92.32 93.36 95.87 97.78
G A S11 SP 88.09 94.22 96.57 95.88 99.34 74.99 84.17 71.00 66.27 75.44 80.71 98.95 97.62 90.26 94.82 97.18 91.75 94.31
G A S11 CP 88.08 94.23 96.28 97.47 99.27 75.24 90.00 73.60 74.55 82.75 79.64 99.23 98.10 90.23 97.32 95.27 94.00 92.22
Examinando en detalle la Tabla 5.12 se puede ver que la diferencia en la media de la mejora relativa en todos los dominios entre la distintas conguraciones de Stacking es baja (entre -1.86 % y 1.82 %). Sin embargo, si se analiza la ultima columna de la tabla en donde se reeja la cantidad de veces en que las soluciones encontradas por las versiones de GA-Stacking son signicativamente mejores o peores, en diferencia global, las versiones GA-Stacking que incorporan los par metros a de aprendizaje de los algoritmos utilizados, est n por encima de las que no incora
6 En el Ap ndice B se muestran las comparaciones individuales de cada una de las versiones de e GA-Stacking con el resto.
60
Tabla 5.12: Mejora relativa de las soluciones encontradas por las distintas conguraciones de GA-Stacking. Las entrenadas en la la X y columna Y muestran la mejora relativa de X sobre Y en % y en n mero de ganados:perdidos (de acuerdo a un 1 10 t-test). u
G A S5 SP I G A S5 SP I G A S5 SP II G A S5 CP I G A S5 CP II G A S11 SP G A S11 CP -0.14 -0.81 -1.48 0.22 -1.63 1:1 3:1 3:2 1:3 3:1 G A S5 SP II 0.12 1:1 -0.67 -1.35 0.36 -1.49 2:0 2:0 0:2 2:0 G A S5 CP I 0.80 1:3 0.66 0:2 -0.67 0:2 1.02 1:4 -0.82 1:0 G A S5 CP II 1.46 2:3 1.33 0:2 -0.67 2:0 1.68 1:4 -0.14 1:2 G A S11 SP -0.22 3:1 -0.36 2:0 -1.03 4:1 -1.71 4:1 -1.86 3:0 G A S11 CP 1.60 1:3 1.47 0:2 0.81 0:1 0.14 2:1 1.82 0:3 Total 8:11 3:7 11:3 11:6 3:16 10:3
poran estos. En otras palabras, G A S5 CP I (+8)7 , G A S11 CP (+7) y G A S5 CP II (+5), est n por encima de G A S5 SP I (-3), G A S5 SP II (-4) y G A S11 SP (-13). a Como se puede apreciar, la utilizaci n de los par metros de aprendizaje de los o a algoritmos con el prop sito de ampliar el espacio de b squeda de los AGs obtienen o u mejores resultados en comparaci n a no utilizarlos. Sin embargo, el incremento o del n mero de algoritmos disponibles y el n mero de posibles clasicadores en el u u conjunto no parece que mejoren el tness de las soluciones por s solos. Esto puede deberse a que el espacio de b squeda se incrementa signicativamente y dado que u se llevan a cabo 50 generaciones de 50 individuos, el n mero de conguraciones u exploradas es relativamente peque o en comparaci n con el espacio de b squeda. n o u Por otra parte, si se combinan la utilizaci n de los par metros de aprendizaje de los o a algoritmos, con el incremento del n mero de algoritmos y el n mero m ximo de u u a miembros del conjunto (G A S11 CP), los resultados son comparables con la mejor de las versiones de GA-Stacking. En otras palabras, si se compara G A S5 CP I y G A S11 CP, ambos son tres veces signicativamente peores que otra conguraci n o de GA-Stacking, sin embargo G A S5 CP I es, en un caso m s, signicativamente a mejor que otra conguraci n de GA-Stacking. Pero, si se comparan las diferencias o signicativas entre uno y otro, G A S11 CP es la mejor de las dos versiones (+1). En cuanto a la evoluci n del tness, en todas las versiones de GA-Stacking o se nota un incremento constante en casi todos los dominios (ver Ap ndice B) a e excepci n de los dominios echo y sonar en donde se alcanza el tness m ximo en o a la primera generaci n. o
5.3.
Rendimiento de GA-Stacking
Con la nalidad de medir el rendimiento de GA-Stacking, se ha llevado a cabo una comparativa de los resultados obtenidos mediante la aplicaci n de GA-Stacking o
7
El n mero entre par ntesis indica la diferencia absoluta entre ganados y perdidos u e
61
(versi n G A S11 CP) y los resultados obtenidos aplicando los conocidos algoritmos o de generaci n de conjuntos homog neos, Boosting y Bagging, adem s de otros o e a algoritmos de generaci n de conjuntos heterog neos basados en Stacking. o e
5.3.1.
En esta secci n se muestran en detalle la conguraci n de los experimentos o o llevados a cabo con la nalidad de comparar GA-Stacking con otros m todos de e generaci n de conjuntos y combinaci n de clasicadores. o o Dominios Con el prop sito de comparar GA-Stacking con los diferentes m todos de geo e neraci n de conjuntos, se ha utilizado un subconjunto de los dominios utilizados o en la evaluaci n de las diferentes versiones de GA-Stacking (secci n 5.2.4). La o o selecci n de estos dominios se llev a cabo tomando en cuenta el n mero de clao o u ses, instancias y atributos con la nalidad de utilizar dominios representativos. Los dominios seleccionados son: australian, balance, car, diabetes y glass. Par metros de los AGs a Como se ha mencionado al principio de esta secci n, la conguraci n de GAo o Stacking utilizada para comparar el rendimiento de este m todo con el resto de ale goritmos de generaci n de conjuntos es G A S11 CP. Esta versi n tiene como m xio o a mo 10 clasicadores base e incluye la conguraci n de los par metros de aprendio a zaje de cada uno de los algoritmos utilizados para generar, tanto los clasicadores base como el clasicador del meta-nivel. Los par metros de los AGs utilizados a son los mismos utilizados en los experimentos de comparaci n de las distintas o conguraciones de GA-Stacking y que est n reejados en la Tabla 5.10. a Algoritmos de Aprendizaje Dentro de los algoritmos utilizados en estos experimentos existen dos categoras. La primera de estas categoras incluye los algoritmos de generaci n de cla o sicadores individuales. Estos algoritmos son los utilizados por GA-Stacking y los otros sistemas de construcci n de conjuntos basados en Stacking para generar los o miembros del conjunto. La otra categora incluye los algoritmos de generaci n de o conjuntos y m todos de combinaci n de clasicadores. e o Los algoritmos de generaci n de clasicadores individuales utilizados son los o que aparecen detallados en los experimentos de comparaci n de las distintas vero siones de GA-Stacking (secci n 5.2.1). Por otra parte, los algoritmos de generaci n o o
62
de conjuntos y combinaci n de clasicadores utilizados se describen a continuao ci n: o VOTO: Sistema de combinaci n de predicciones mediante votos. o M EJOR CV: Sistema que selecciona al mejor clasicador basado en una validaci n cruzada del conjunto de entrenamiento. o Bagging. El algoritmo base utilizado es C 4.5. Boosting (AdaBoostM1) El algoritmo base utilizado es C 4.5. S MRMT: Stacking con modelo de arboles multi-respuesta como se describe en la secci n 3.3.2. Dado que un estudio reciente utiliza grupos de tres y o siete algoritmos para generar los clasicadores base [41], se han utilizado dos versiones de este algoritmo con dos grupos de clasicadores base. El primer grupo esta compuesto por C 4.5, I Bk y Naive Bayes, mientras que en el segundo grupo se agregan K*, Decision Table, MLR y Kernel Density. S CMLR (StackingC): Stacking con un n mero reducido de atributos del metau nivel como se describe en la secci n 3.3.2. Se han utilizado tres grupos de o algoritmos para generar los clasicadores del nivel-base. En primera instancia, se ha usado el grupo utilizado por Seewald [117] (Decision Table, C 4.5, Naive Bayes, Kernel Density, MLR y K*). Adem s, se han utilizado los grua pos de tres y siete algoritmos utilizados por D eroski y Zenko [41] descritos z en el punto anterior. S MLR: Stacking con regresi n lineal multi-respuesta (MLR) propuesta por o Ting y Witten [132]. Ver secci n 3.3.2. Al igual que en los otros algoritmos o basado en Stacking, se han utilizado los grupos de tres y siete algoritmos descritos anteriormente. En un estudio reciente realizado por D eroski y Zenko [41] se lleva a cabo z una comparativa entre los m todos de construcci n de conjuntos basados en Stace o king. En este estudio se concluye que S MRMT tiene un mayor rendimiento que cualquiera de los otros m todos de construcci n de conjuntos basados en Stacking. e o Comparaci n de los Resultados o Con el prop sito de estimar la tasa de precisi n de los algoritmos usados se o o ha utilizado una validaci n cruzada estraticada de 10 carpetas. A n de comparar o los resultados obtenidos por GA-Stacking con cada uno de los algoritmos utilizados, se ha llevado a cabo el calculo de la mejora relativa que obtiene GA-Stacking sobre otro algoritmo en cada dominio. Adem s, se ha llevado a cabo un t-test paa reado (1 10) con la nalidad de estimar si la mejora obtenida por GA-Stacking es estadsticamente signicativa.
63
5.3.2.
Resultados Experimentales
El porcentaje de aciertos que obtienen los diferentes algoritmos utilizados en estos experimentos se encuentra reejado en la Tabla 5.13. Como se puede apreciar los resultados obtenidos por GA-Stacking son mejor en 4 de los 5 dominios utilizados. Por otra parte, con el prop sito de comparar el rendimiento de GA-Stacking o con cada uno de los algoritmos utilizados, en la Tabla 5.14 se muestra la mejora relativa en porcentaje que obtiene GA-Stacking al compararlo con los otros algoritmos de combinaci n y su signicaci n estadstica basado en un t-test de 1 10. o o Los resultados ser n analizados en m s detalle a continuaci n. a a o Comparaciones En primera instancia se analizar n los resultados de GA-Stacking en comparaa ci n con los m todos de construcci n de conjuntos homog neos Bagging y Booso e o e ting. Como se puede apreciar en la Tabla 5.14, en cuatro de los cinco dominios utilizados, GA-Stacking es signicativamente mejor que Boosting. En el caso de Bagging, GA-Stacking es mejor signicativamente en tres de los cinco dominios. Por otra parte, la mejora relativa en ambos casos, supera el 58 %. Al comparar GA-Stacking con los m todos de combinaci n por votos (VOTO) e o y la selecci n del mejor por validaci n cruzada (M EJOR CV), se obtienen resultao o dos distintos. Es decir, si se compara GA-Stacking con M EJOR CV, en los cinco dominios utilizados, este es mejor signicativamente en todos los dominios, con una mejora relativa que ronda el 60 %. Sin embargo, al compararlo con el esquema de votaci n, las mejoras signicativas se reducen a dos de los cinco dominios, pero o la mejora relativa media sigue estando por arriba del 52 %. Una vez analizados los resultados comparativos de los m todos de construce ci n de conjuntos homog neos y otros m todos de combinaci n de clasicadores, o e e o se compara GA-Stacking con los otros m todos de construcci n de conjuntos bae o sados en Stacking (S MRMT, S CMLR, S MLR). En primera instancia, al comparar GA-Stacking con las dos versiones de S MRMT (tres y siete clasicadores base), se observa que el n mero de veces en que GA-Stacking es signicativamente mejor u vara de acuerdo al n mero de clasicadores base que formen el conjunto de cla u sicadores generados por S MRMT. GA-Stacking es signicativamente mejor en un dominio m s si compara con S MRMT 7 en lugar de con S MRMT 3. Por otra parte, la a mejora relativa en comparaci n con ambas versiones ronda el 29 %. En cuanto a las o comparaciones con las tres versiones de S CMLR (tres, cinco y siete clasicadores base), los dominios en que GA-Stacking es mejor signicativamente, es similar en las versiones S CMLR 5 y S CMLR 7 (2+). Sin embargo, el n mero de dominios en u que GA-Stacking es signicativamente mejor se ve duplicado si se compara con la versi n de s lo tres clasicadores base. Por otra parte, la mejora relativa media en o o todos los casos es superior al 50 %.
64
Por otra parte, si se comparan los resultados de GA-Stacking con los obtenidos por S MLR en sus dos versiones (tres y siete clasicadores base) la mejora relativa media al igual que en los resultados de S CMLR es superior al 50 %, pero adem s a en tres de los cinco dominios utilizados, GA-Stacking es signicativamente mejor que S MLR. Estos resultados demuestran que el n mero de clasicadores base que formen u parte del conjunto inuye en el error que puede cometer este al igual que el tipo de meta-clasicador que se utilice. Cabe se alar, como se aprecia en la ultima la de la Tabla 5.14, que en ningun no de los dominios GA-Stacking es signicativamente peor que cualquiera de los algoritmos con los que se compara.
Tabla 5.13: Tasa de acierto (en %) de los m todos de construcci n de conjuntos y combinaci n de clasicadores. e o o
Bagging 85.80 82.25 93.29 76.30 72.90 M EJOR CV 82.32 86.88 93.75 70.94 70.50 VOTO 86.96 86.88 94.85 76.56 76.62 S MRMT 3 85.65 92.97 99.13 76.02 68.18 S MRMT 7 85.80 92.50 98.96 76.29 73.74 S CMLR 5 85.94 89.92 95.02 77.07 76.08 S CMLR 3 85.51 90.56 93.92 76.15 70.11 S CMLR 7 85.65 89.92 95.02 76.94 76.56 S MLR 3 85,94 89,92 94,73 76,16 66,75 S MLR 7 85,51 89,28 95,49 76,94 76,06
Dominio australian balance car diabetes glass
G A S11 CP 87.10 96.96 99.42 75.25 78.94
Boosting 83.91 79.21 96.18 71.87 73.33
Tabla 5.14: Mejora relativa en la precisi n (en %) de GA-Stacking al compararlo con los otros m todos de generaci n y combinaci n de clasicadores. o e o o (+/ signica mejor/peor,. signica que no hay diferencia signicativa).
M EJOR CV 27.05 + 76.85 + 90.74 + 14.82 + 28.61 + 60.58 5 + /0 VOTO 1.11 . 76.86 + 88.76 + -5.58 . 9.91 . 52.39 2 + /0 S MRMT 3 10.10 . 56.83 + 33.35 . -3.22 . 33.81 + 29.29 2 + /0 S MRMT 7 9.18 + 59.51 + 44.45 . -4.37 . 19.80 + 29.76 3 + /0 S CMLR 5 8.25 . 69.88 + 88.37 + -7.95 . 11.95 . 50.22 2 + /0 S CMLR 3 11.00 + 67.82 + 90.47 + -3.77 . 29.54 + 54.29 4 + 0 S CMLR 7 10.10 . 69.88 + 88.37 + -7.31 . 10.16 . 50.28 2 + /0 S MLR 3 8.25 . 69.87 + 89.01 + -3.80 . 36.65 + 54.28 3 + /0 S MLR 7 11.00 + 71.67 + 87.17 + -7.34 . 12.03 . 50.23 3 + /0
Dominio Boosting australian 19.82 + balance 85.40 + car 84.84 + diabetes 12.00 + glass 21.02 . MRM 58.48 gana/pierde 4 + /0
Bagging 9.18 . 82.90 + 91.38 + -4.43 . 22.28 + 59.52 3 + /0
65
66
Tabla 5.15: N mero medio de clasicadores base en las soluciones encontradas por GAu Stacking. Dominio # de bases australian 9.3 balance 9.4 car 9.5 diabetes 9.4 glass 9.6
Descripci n de las Soluciones (Individuos) o Con la nalidad de observar la estructura de las conguraciones de Stacking obtenidas mediante GA-Stacking, se han analizados los mejores individuos de cada una de las carpetas de la validaci n cruzada estraticada. Es decir, de las tres ejecuo ciones de GA-Stacking llevadas a cabo en cada una de las carpetas de la validaci n o cruzada, se ha analizado el mejor de los individuos de la ejecuci n con mayor valor o en la funci n de tness. o En la Tabla 5.15 se muestra la media del n mero de clasicadores base que u poseen las soluciones. Como se puede ver, el n mero de clasicadores est entre u a 9 y 10 clasicadores base que es el n mero m ximo que permite la conguraci n u a o G A S11 CP de GA-Stacking. En cuanto a los algoritmos utilizados para generar los clasicadores base, en la Figura 5.11 se muestran el n mero de carpetas (superiores a seis) en las que u aparece un algoritmo. Como se puede ver, en cada dominio existen entre tres y cuatro algoritmos que est n presentes por lo menos en 7 de las 10 carpetas de la a validaci n cruzada. o Por otra parte, en cuanto al clasicador del meta-nivel, en la Figura 5.12 se muestran los algoritmos utilizados para generar los clasicadores del meta-nivel en cada uno de los dominios utilizados. Como se puede apreciar, los mejores individuos de cada carpeta, tienden a utilizar el mismo algoritmo para generar el clasicador de nivel-1. Por ejemplo, tanto en el dominio de balance como en el de car, el algoritmo utilizado para generar el clasicador del meta-nivel en todas las carpetas es Random Forest. Esto indica que de acuerdo al dominio, la b squeda u realizada por los AGs tiende a converger en un mismo algoritmo para generar el clasicador de nivel-1. Otros investigadores se alan que utilizar MLR [132, 117] o MRMT [40] para n generar el clasicador del meta-nivel proporciona buenos resultados sin importar los clasicadores base. Sin embargo, los algoritmos utilizados por GA-Stacking para generar el clasicador del meta-nivel varan de acuerdo al dominio. Por ejemplo, Naive Bayes (8/10) para australian, Random Forest (10/10) para los dominios car y balance, MLR (8/10) en diabetes y I Bk (7/10) en glass. Estos resultados muestran
67
10
glass diabetes 6 Naive Bayes Part car c4.5 IBk Decision Stump Decision Table MRMT Random Tree balance VFI Conjunctive Rule JRip Nnge Hyper Pipes australian
Random Forest
K*
Figura 5.11: N mero de carpetas (seis o m s) en la validaci n cruzada en la que se utilizan u a o los algoritmos para generar los clasicadores de nivel-base en cada uno de los dominios utilizados.
que adem s de las soluciones propuestas por otros investigadores, existen alternaa tivas a los algoritmos propuestos, para el meta-nivel, que dependen del dominio. Evoluci n del Fitness o Otro aspecto a tomar en cuenta en estos experimentos es el comportamiento de la funci n de tness. En la Figura 5.13 se puede apreciar la evoluci n de la funci n o o o de tness para cada uno de los dominios utilizados. Los datos utilizados corresponden a la media del tness observado en la validaci n cruzada. El tness de cada o carpeta es el promedio de las tres ejecuciones llevadas a cabo en dicha carpeta. El comportamiento del tness es muy parecido en todos los dominios: se produce el mayor incremento en las primeras generaciones y luego se mantiene en constante crecimiento, incluso al llegar a la ultima generaci n. Esto indica que existe una o evoluci n en las soluciones encontradas por GA-Stacking. Adem s, dado el conso a tante incremento del tness, es viable incrementar el n mero de generaciones con u la nalidad de encontrar mejores individuos.
MLR
68
10
2 glass 1 car 0 Naive Bayes Part c4.5 IBk Decision Stump Decision Table MRMT Random Tree Random Forest K* balance australian VFI Conjunctive Rule JRip Nnge Hyper Pipes MLR diabetes
Figura 5.12: N mero de carpetas en la validaci n cruzada en la que se utilizan los algoritu o mos para generar el clasicador del meta-nivel en cada uno de los dominios utilizados.
Discusi n de los Resultados o Al igual que los algoritmos basados en Stacking utilizados son variantes de S MLR, GA-Stacking est basado en Stacking con distribuciones de probabilidades a como datos del meta-nivel, lo mismo que S MLR. Seewald [117] presenta resultados experimentales en donde argumenta que S MLR se comporta peor en dominios multiclase (si se compara con dominios de dos clases). Seewald argumenta que este decremento puede ser causado por la dimensionalidad de los datos del meta-nivel y sugiere como mejora la reducci n de esta dimensionalidad (lo que lleva a cabo o S CMLR). Recientemente, D eroski y Zenko [41], argumentan que en situaciones con z pocos clasicadores base, la utilizaci n de la certeza de las predicciones prevaleo ce. Esto es llevado a cabo mediante un algoritmo denominado S MLRE (ver sec ci n 3.3.2). En sus resultados D eroski y Zenko muestran que al incrementar el o z n mero de clasicadores base, la ventaja comparativa de S MLRE sobre S MLR, se u ve reducida. Por ultimo, y basado en el trabajo de Frank et al. [46] sobre la clasi caci n por regresi n, se alan que Stacking con arboles de decisi n multi-respuesta o o n o (S MRMT) presenta un mejor rendimiento que Stacking con regresi n lineal multio respuesta dado el uso de distribuciones de probabilidades en el meta-nivel.
69
australian 88.8 88.6 88.4 88.2 88 87.8 87.6 87.4 87.2 87 86.8 0 5 10 15 20 25 30 35 Generaciones resumen 40 45 50 96.5 96 95.5 95 94.5 94 93.5 93 92.5 92 0 5 10 15
balance
Precisin
Precisin
20 25 30 35 Generaciones resumen
40
45
50
car 98 97.8 97.6 Precisin 97.4 97.2 97 96.8 96.6 96.4 0 5 10 15 20 25 30 35 Generaciones resumen 40 45 50 Precisin 79 78.8 78.6 78.4 78.2 78 77.8 77.6 77.4 77.2 77 0 5 10 15
diabetes
20 25 30 35 Generaciones resumen
40
45
50
glass 80 79 78 77 76 75 74 73 72 71 0 5 10 15 20 25 30 Generaciones resumen 35 40 45 50
Precisin
Figura 5.13: Evoluci n del tness en los dominios utilizados. o
D eroski y Zenko [41] concluyen que S MRMT posee un mejor rendimiento z que S MLR y que S CMLR. Se alan que la ventaja de S CMLR sobre S MLR es la n reducci n de la dimensionalidad de los datos del meta-nivel, pero que se deja a o un lado informaci n importante. Por esta raz n, argumentan que, aparentemente, o o S MRMT es capaz de manejar el problema de la dimensionalidad sin dejar datos a un lado y haciendo uso de estos. Como se ha visto en las secciones anteriores, GA-Stacking es capaz de encontrar conguraciones de Stacking con distribuciones de probabilidades en el metanivel, que en el 80 % de los dominios utilizados logra una mejora relativa sobre todos los m todos de construcci n de conjuntos y combinaci n de clasicadores e o o superior al 29 %. Y en un 40 % de los dominios la mejora es signicativamente mejor si se compara con S CMLR y S MRMT. En ninguno de los dominios utiliza-
70
dos, cualquiera de los m todos utilizados son signicativamente mejores que las e soluciones encontradas por GA-Stacking. Por otra parte, las soluciones propuestas por GA-Stacking tienden a converger en un mismo algoritmo para generar el clasicador del meta-nivel el cual puede variar de acuerdo al dominio. En resumen, qu y cu ntos algoritmos tienen que ser e a utilizados para generar el conjunto de clasicadores depende en gran medida de los datos del dominio, por lo que jar una conguraci n a priori puede llevar a o obtener conjuntos de clasicadores sub- ptimos. o
Captulo 6
Conclusiones y Trabajos Futuros

En esta primera parte de la tesis se ha presentado un m todo que combina e algoritmos gen ticos y un algoritmo de generaci n de conjuntos de clasicadores e o heterog neos con la nalidad de obtener la mejor conguraci n de clasicadores e o para un dominio dado (GA-Stacking). Como se ha visto, Stacking es una t cnica e de generaci n de conjuntos de clasicadores heterog neos que utiliza dos niveles o e de aprendizaje. En el primer nivel de aprendizaje o nivel base se utilizan datos del dominio como entrada. Por otra parte, en el segundo nivel o meta-nivel, los datos son generados a partir de las predicciones de los clasicadores del nivel base. Al utilizar el conjunto generado por Stacking para clasicar un nuevo ejemplo, este es dado a los clasicadores del nivel base y bas ndose en las predicciones a de estos, el clasicador del meta-nivel determina la clase a la que pertenece el ejemplo. Un problema inherente a Stacking es determinar cu les algoritmos deben a ser utilizados para generar los clasicadores del primer nivel y qu algoritmo debe e ser utilizado para generar el clasicador del segundo nivel. A pesar de que existen diversos estudios relacionados con la conguraci n de estos par metros, no existe o a un consenso sobre los valores que deben tomar los mismos. En esta tesis se propone un m todo basado en algoritmos gen ticos para dee e terminar la conguraci n optima de los par metros de Stacking para un dominio o a dado. Bas ndose en la variante de Stacking que utiliza distribuciones de probabia lidades como datos del segundo nivel, GA-Stacking lleva a cabo una b squeda en u el espacio de combinaciones de algoritmos y sus par metros de aprendizaje, con a el prop sito de determinar la conguraci n optima de Stacking para un dominio o o dado. A n de estimar la inuencia de los par metros de aprendizaje asociados al a m todo propuesto, se han realizado experimentos en dieciocho dominios con el n e de determinar la mejor conguraci n de estos par metros. o a Con el prop sito de validar el m todo propuesto, se han llevado a cabo experio e mentos utilizando cinco dominios para medir su rendimiento frente a variantes de 71
CAPITULO 6. CONCLUSIONES Y TRABAJOS FUTUROS Stacking y otros m todos de generaci n de conjuntos. e o
72
6.1.
Conclusiones
Las principales conclusiones que se extraen al analizar los resultados obtenidos en la evaluaci n del m todo propuesto se exponen a continuaci n. o e o GA-Stacking posee, adem s de los par metros inherentes a los algoritmos gen tia a e cos, tres par metros adicionales: el n mero m ximo de posibles clasicadores baa u a se, el n mero de algoritmos de aprendizaje disponibles y la opci n de incluir los u o par metros de aprendizaje de estos algoritmos en el proceso de b squeda. Coma u binando estos par metros se han evaluado seis conguraciones de GA-Stacking. a Analizando los resultados obtenidos por las conguraciones evaluadas se demuestra que el ampliar el espacio de b squeda, no implica que se obtendr una mejora u a signicativa en las soluciones encontradas. Por ejemplo, si s lo se incrementa el o n mero de posibles clasicadores base, los resultados muestran que, a igual n meu u ro de generaciones, se pueden obtener resultados inferiores a los obtenidos por conguraciones de GA-Stacking con menos clasicadores. Sin embargo, si adem s a de incrementar el n mero de clasicadores, se incluyen los par metros de aprendiu a zaje de los algoritmos que los generan, los resultados mejoran signicativamente. Con el prop sito de comparar GA-Stacking con otros algoritmos de generao ci n de conjuntos, incluyendo las variantes m s recientes de Stacking, se utiliz la o a o versi n de GA-Stacking cuyo espacio de b squeda es mayor. o u Los resultados empricos demuestran que las soluciones que encuentra GA Stacking generan conjuntos de clasicadores que al ser comparados con los m toe dos de generaci n de conjuntos homog neos, Bagging y Boosting, muestran meo e jores resultados. De igual forma, si se compara con el mejor de los clasicadores generados por los algoritmos disponibles seleccionado por validaci n cruzada o o con la combinaci n estos a trav s de votos, los resultados de GA-Stacking siguen o e siendo mejores. Por otro lado, al comparar los resultados de GA-Stacking con las variantes de Stacking m s recientes, los resultados varan de acuerdo a la conguraci n propia a o de cada algoritmo. Pero, en cualquier caso, GA-Stacking obtiene mejores resultados en la mayora de los dominios utilizados. Las principales diferencias de GA-Stacking con respecto a los trabajos previos relacionados con Stacking es que en este no se seleccionan a priori algunos de los par metros de Stacking. Por ejemplo, no se determinan con anterioridad a la consa trucci n del conjunto de clasicadores par metros como: qu algoritmo debe ser o a e utilizado para generar el clasicador del meta-nivel, los par metros de aprendizaje a de este algoritmo, el n mero de clasicadores base, cu les de los algoritmos dispou a nibles utilizar para generar los clasicadores base, ni los par metros de aprendizaje a
CAPITULO 6. CONCLUSIONES Y TRABAJOS FUTUROS de estos algoritmos.
73
La principal ventaja de GA-Stacking es su exibilidad y el no jar a priori de los par metros de aprendizaje de Stacking. Este sistema es muy extensible. a GA-Stacking se puede beneciar de nuevos algoritmos de aprendizaje puesto que estos pueden ser f cilmente incorporados en el grupo de algoritmos disponibles, a al igual que sus par metros de aprendizaje, con cambios leves en la codicaci n a o del cromosoma. Otra ventaja de GA-Stacking es que las soluciones que encuentra son dependientes del dominio en el cual se aplica, como se puede ver en el an lia sis de las soluciones encontradas. De esta manera, GA-Stacking se adapta a los bias y atributos del dominio, mientras de los otros enfoques establecen la misma conguraci n, independientemente del dominio en el que se apliquen. o
6.2.
Limitaciones
La principal limitaci n de GA-Stacking es el recurso computacional que reo quiere para encontrar la conguraci n optima de Stacking si se compara con el o resto de los algoritmos que utilizan una conguraci n ja. Sin embargo, es imporo tante se alar que, una vez encontrada la conguraci n y construido el conjunto de n o clasicadores, la eciencia de este es id ntica a la de un conjunto de clasicadores e construido por otro m todo de generaci n de conjuntos de clasicadores, depene o diendo, evidentemente, del n mero de clasicadores que formen parte del mismo. u
6.3.
Lneas de Investigaci n Futuras o
El trabajo desarrollado en esta parte de la tesis plantea lneas de investigaci n o que pueden ser estudiadas y desarrolladas en un futuro. Entre estas lneas se pro ponen las siguientes: Al incrementar la cantidad de algoritmos disponibles e incluir los par metros a de aprendizaje de estos, el espacio de b squeda se incrementa de manera u notable. Al llevar a cabo la comparaci n de las diferentes conguraciones o de GA-Stacking, se opt por seleccionar la versi n que llevaba a cabo la o o b squeda en el espacio m s amplio. Los resultados demuestran que el valor u a de la funci n de tness mantiene un constante crecimiento incluso al llegar o al lmite de generaciones jado. Es necesario llevar a cabo un estudio con la nalidad de determinar el n mero adecuado de generaciones necesarias u para lograr la convergencia de las soluciones en las distintas versiones de GA-Stacking. Otro factor a tomar en cuenta en futuros trabajos, es la inuencia de la codicaci n de las soluciones utilizadas. Se plantea la utilizaci n de una codio o
CAPITULO 6. CONCLUSIONES Y TRABAJOS FUTUROS
74
caci n diploide en donde se codiquen por separado los algoritmos y sus o par metros de aprendizaje, con una tabla de dominancias, con el n de hacer a m s exible el proceso de aprendizaje. a Dos de las variantes de Stacking estudiadas, S MRLE y S CMLR, llevan a cabo una ampliaci n o reducci n de los datos del meta-nivel respectivamente. o o Estas variaciones pueden ser incluidas en GA-Stacking con la nalidad de determinar el tipo de datos de meta-nivel m s adecuado a un dominio o cona guraci n de Stacking dada. o Al evaluar la funci n de tness, GA-Stacking s lo toma en cuenta la precisi n o o o de un conjunto de clasicadores generado a partir de Stacking. Sin embargo, si dos conjuntos poseen la misma precisi n, ambos tienen el mismo tness, o pero siguiendo el principio de la navaja de Occam, debera primar la solu ci n m s simple. Por esta raz n se plantea modicar la funci n de tness con o a o o la nalidad de encontrar conguraciones simples y precisas. Adem s de Stacking, existen otras t cnicas de generaci n de conjuntos de a e o clasicadores heterog neos. Dados los resultados obtenidos al utilizar AGs e en el proceso de optimizaci n de los par metros de Stacking, se plantea la o a posible aplicaci n de estos a otras t cnicas de generaci n de conjuntos. o e o
Parte III
75
Captulo 7
Introducci n o
Un equipo de f tbol vuelve a jugar con un antiguo rival, aquel rival al que no ha u podido ganar en los ultimos a os, pero esta vez el nuevo entrenador emplea la tecn nologa como parte del entrenamiento de su equipo y hace que sus jugadores obser ven una y otra vez una serie de vdeos de partidos anteriores del equipo contrario. Los defensas observan detalladamente las jugadas ensayadas de los delanteros rivales y los delanteros hacen lo propio con relaci n a la posici n y distribuci n de la o o o defensa rival. Lo que el entrenador busca es que su equipo aprenda de lo sucedido en el pasado, de tal forma que pueda utilizar este conocimiento en busca de mejor rendimiento. Una vez llegado el gran da, el equipo est preparado y da comienzo a el partido pero el equipo contrario est alineando delanteros no habituales y que a no juegan como juegan los habituales, pero la defensa del equipo est preparada a y observa cuidadosamente el comportamiento del rival y utiliza esta informaci n o para evitar que los delanteros profundicen por las bandas y puedan penetrar en su area. Un comando de elite del ejercito est realizando un reconocimiento a reo del a e area enemiga y el comandante en jefe da la orden de silencio absoluto, no puede haber ninguna comunicaci n entre los miembros del equipo para evitar ser deteco tados por el enemigo. La experiencia y los conocimientos de los miembros del equipo pasan a ser de vital importancia para llevar a cabo la misi n. Cada uno de o los miembros del equipo puede utilizar la informaci n de su radar para detectar o los movimientos de los dem s miembros del equipo y es capaz de interpretar los a mismos de tal manera que se lleve a cabo una estrategia colectiva y el area enemiga sea reconocida sin ninguna baja. Los ejemplos que se han mencionado pueden corresponder a situaciones de la vida real en donde el conocimiento que se posea de los miembros del equipo contrario, en el caso de situaciones competitivas, o de los otros miembros del equipo del que forma parte, en caso de situaci n colaborativa, proporcionan informaci n o o util a la hora de tomar una decisi n y de llevar a cabo una acci n. o o 76
77
El incremento en la investigaci n en la ultima d cada en lo referente a los o e agentes y sistemas multiagentes ha propiciado que existan ambientes simulados en donde los agentes se enfrentan a situaciones de la vida real como las descritas con anterioridad. Recientemente, una de las areas de investigaci n que m s auge o a ha tenido en cuanto a lo que agentes se reere, es la capacidad de un agente de obtener informaci n del oponente o de un compa ero e intentar saber cu l es el o n a comportamiento que est llevando a cabo, es decir, modelar a los otros agentes. a Seg n Kitano et al. [81] el modelado de agentes se puede denir como el mou delado y razonamiento acerca de las metas, planes, conocimientos, capacidades o emociones de otro agente. Con tal n se han utilizado una variedad de t cnicas e para obtener el modelo de un agente, entre las que se pueden mencionar las que han utilizado t cnicas recursivas [55, 58], aut matas nitos [17] y t cnicas probae o e bilsticas [126], entre otras. Otra manera de modelar el comportamiento de un agente es considerarlo como una caja negra e intentar modelar su comportamiento en t rminos de la relaci n e o existente entre sus entradas y salidas. Este tipo de t cnicas denominadas IOAM (del e ingl s Input-Output Agent Modeling), han sido utilizadas con exito en el modelado e de usuarios, campo relacionado con el modelado de agentes. En esta tesis doctoral se utiliza el enfoque que plantean las t cnicas IOAM. e Es decir, que los agentes se pueden modelar a partir de sus entradas y salidas. En primera instancia, se plantea la utilizaci n de t cnicas de aprendizaje autom tico o e a con la nalidad de construir modelos de los agentes que interact an con el agente u que construye el modelo. A diferencia de otros enfoques IOAM utilizados en el area de modelado de usuarios, se pretende aplicar el enfoque propuesto a dominios din micos y complejos con la nalidad de identicar el tipo de t cnicas necesarias a e para construir el modelo del agente. Por otro lado, en la mayora de los entornos en donde intervienen agentes no se puede tener acceso directo a las entradas y salidas del agente a modelar. Esta situaci n plantea un problema al enfoque basado en las entradas y salidas del agente. o Por esta raz n, se propone un nuevo enfoque que utiliza t cnicas de aprendizaje o e autom tico para superar esta dicultad. Adem s, se propone utilizar t cnicas de a a e aprendizaje autom tico en la fase de utilizaci n del modelo. a o A n de introducir al lector en el tema tratado en esta segunda parte de la tesis doctoral, en el captulo 8 se da una panor mica general del estado del arte en a cuanto a modelado de agentes se reere. La propuesta para llevar a cabo la tarea de modelar un agente utilizando t cnicas de aprendizaje autom tico se describe e a en el captulo 9. En el captulo 10 muestran los resultados obtenidos al evaluar la propuesta presentada. Finalmente, en el captulo 12 se presentan las conclusiones y trabajos futuros.
Captulo 8
Estado del Arte

En este captulo se da una perspectiva global de las investigaciones relaciona das con el segundo tema abordado en esta tesis doctoral, el modelado de agentes. La revisi n de la literatura comienza con la denici n del concepto de agente. o o A continuaci n se presentan las investigaciones relacionadas con el area de moo delado de agentes, desde el enfoque cl sico, representado por la teora de juegos a hasta el reconocimiento de planes.
8.1.
Qu es un Agente? e
A pesar del creciente n mero de investigaciones que se han realizado y se est n u a realizando dentro del area de agentes en los ultimos a os, no existe una denici n n o aceptada por todos los implicados en lo referente al t rmino agente. Existe una e gran cantidad de deniciones de lo que es un agente, y en lo que todas estas deniciones parecen estar de acuerdo es en el concepto de autonoma (i.e. que puede actuar independiente de otros). Las dem s cualidades que debe tener un agente dea penden del entorno en donde se dena el concepto. Una de las deniciones m s a aceptadas es la de Wooldridge [146] en donde establece como requisitos fundamentales que debe poseer el agente, su autonoma, sociabilidad, capacidad para reaccionar y para tomar la iniciativa. Adem s, agrega otras caractersticas menos a convencionales a los agentes como movilidad, benevolencia, veracidad y racionalidad. En [70, 147], se puede encontrar un compendio de deniciones y teoras de agentes.
78
79
8.2.
Modelado de Agentes
En dominios competitivos, el conocer datos acerca del conocimiento que posee un oponente u oponentes proporciona una clara ventaja, dado que se puede utilizar esta informaci n para predecir, de alguna manera, lo que va a hacer el oponente o y actuar en funci n de dicha predicci n [137]. De igual forma, en dominios coo o laborativos, el poseer informaci n acerca de un compa ero adquirida mediante la o n observaci n del comportamiento del mismo, sin tener que recurrir a una comunicao ci n explcita, conlleva un ahorro de recursos y permite utilizar los conocimientos o adquiridos en el momento de tomar una decisi n de c mo actuar [127]. o o La tarea de modelar un agente se puede denir como el modelado y razonamiento acerca de las metas, planes, conocimientos, capacidades o emociones de otro agente [81]. Recientemente, las investigaciones sobre modelado de agente se han visto incrementadas especialmente desde el punto de vista de los Sistemas Multiagentes [122, 78] y la Interacci n Hombre-M quina debido sobre todo a la utilidad de poo a seer un modelo de los agentes con que se interact a (agente o humano) [9]. u La utilizaci n de un modelo del oponente no es algo nuevo. Por ejemplo, en o Teora de Juegos, el objetivo es poder jugar optimamente contra un oponente. En un principio los enfoques se centraban en la mec nica del juego pero despu s se a e comprendi que la utilizaci n del conocimiento acerca del oponente poda increo o mentar la ecacia del sistema. Es por eso que se puede considerar a la Teora de Juegos como la base del modelado de agentes. Otros conceptos que se asocian con el modelado de agentes son: el reconocimiento de planes, reconocimiento de comportamiento, modelado de usuario, monitorizaci n de agentes, seguimiento de o agentes y coordinaci n basada en observaci n. o o Las investigaciones dentro del area de modelado de agentes se han desarrollado en una gran variedad de dominios tales como modelado de oponentes en situaciones competitivas, detecci n de fallos, monitorizaci n de aplicaciones distribuidas o o y modelado de usuario, entre otras. Tambi n son muchas las t cnicas que se han e e utilizado para abordar este tema como son el aprendizaje autom tico, razonamiena to bayesiano, diagn stico, etc. En las siguientes secciones se hace una revisi n de o o los distintos modos de abordar este problema.
8.2.1.
Enfoque cl sico - Teora de Juegos a
En t rminos generales, la Teora de Juegos examina el comportamiento ese trat gico para la toma de decisiones por parte de los participantes en situaciones de e conicto. La Teora de Juegos, desde el punto de vista cl sico, se basa en la construcci n a o
80
de una matriz que permite entender el conicto entre las partes involucradas y sus posibles soluciones. En el enfoque cl sico, se asume que un jugador posee un a conjunto de las posibles acciones que puede realizar y que en cada jugada conoce dicho conjunto, al igual que conoce el conjunto de acciones que puede realizar el oponente. De la misma manera se asume que el jugador conoce la utilidad propia y la del contrario, que pueden recibir al llevar a cabo una jugada. Tambi n se asume e que los jugadores son racionales, es decir, que buscan el m ximo benecio propio a (utilidad). Un ejemplo de t cnicas utilizadas en Teora de Juegos para juegos con opoe nentes es el algoritmo de b squeda minimax. Minimax asume que se conocen las u posibles acciones que puede llevar a cabo el oponente al igual que se supone que dicho contrincante est actuando de manera optima. En otras palabras, se asume a que el oponente (AGENTE A) act a para maximizar sus benecios lo cual, probau blemente, sea lo peor para el modelador (AGENTE B). Sin embargo, minimax es un algoritmo dise ado para dominios con contrinn cantes (por turno), informaci n completa y acciones discretas. Por el contrario, el o objetivo de esta tesis doctoral es la creaci n de un marco que permita el modelado o de agentes en entornos con informaci n incompleta, ruidosa, con un espacio cono tinuo de acciones y en donde no hay turnos. Por otra parte, seg n [74] en juegos u complejos un agente puede actuar de manera sub- ptima puesto que es muy difcil o o imposible encontrar una estrategia optima. Otra de las suposiciones que se encuentran detr s del algoritmo minimax es a que no se posee informaci n acerca del proceso de toma de decisiones del opoo nente. Por esta raz n Carmel y Markovitch [16] proponen una generalizaci n del o o mismo para que incorpore modelos de oponentes en la b squeda. En dicho trabajo u se asume que existe un conjunto jo de modelos que abarcan a todos los posibles oponentes. Carmel y Markovitch denen el modelo del oponente como una estructura recursiva que est formada por la funci n de evaluaci n del oponente y su a o o modelo de jugador. Al seleccionar una acci n que llevar a cabo, el algoritmo M o genera los sucesores del estado actual, luego aplica el modelo del oponente sobre cada sucesor para obtener la respuesta del oponente. Por ultimo, eval a cada una de u estas respuestas aplicando el algoritmo de manera recursiva (con una profundidad denida). Al igual que el minimax, este algoritmo est dise ado para juegos de turnos y a n no se pueden aplicar directamente a sistemas multiagente en donde se interact e u por turnos. Por otra parte, la utilizaci n de este algoritmo en sistemas en donde el o n mero de acciones posibles a realizar no sea discreto, hace que la comprobaci n u o recursiva de todos los posibles estados no sea factible. Por otra parte, puede resultar difcil la creaci n de una funci n de evaluaci n eciente y precisa. o o o En un trabajo posterior [17], Carmel y Markovitch presentan un m todo donde e el modelo del oponente es inferido bas ndose en su comportamiento previo (ena
81
trada/salidas). Este modelo es representado como un aut mata nito determinista o (AFD). Una vez que se posee el modelo, se utiliza este (predicciones) para dise ar n la estrategia que maximice la recompensa del agente modelador en un entorno de juego repetitivo de dos jugadores. Puesto que el AFD utiliza una tabla de observaciones para mantener un modelo consistente con el comportamiento del oponente, este enfoque se ve limitado a dominios discretos. De igual forma posee una alta sensibilidad al ruido. Carmel y Markovitch limitan las estrategias del oponente a estrategias que puedan ser modeladas con un AFD.
8.2.2.
Modelos de Usuarios
Otra area de estudio relacionada con el modelado de agentes es el modelado de usuario o user modeling. En principio este campo era designado con el nombre de modelado de estudiantes, pero debido al el incremento del comercio electr nico o y las aplicaciones en la world-wide-web, las investigaciones dentro del area de recuperaci n de la informaci n se han visto incrementadas, lo que ha provocado el o o cambio de denominaci n [143]. o Se dene modelo de estudiante como una aproximaci n, posiblemente paro cial, de una representaci n cualitativa del conocimiento del estudiante sobre un o dominio, tema o caracterstica del dominio particular, teniendo en cuenta total o parcialmente los aspectos especcos del comportamiento del estudiante [119]. Entre los distintos enfoques utilizados para encarar el problema del modelado de usuarios se encuentra el aprendizaje autom tico. Seg n Webb [143], dependiena u do del prop sito para el cual se desee adquirir el modelo del usuario, este vara en o su formaci n. Seg n Webb, los modelos de usuarios pueden buscar describir: o u los procesos cognitivos detr s de las acciones del usuario a las diferencias entre las habilidades del usuario y las habilidades del experto los patrones de comportamiento del usuario o preferencias del usuario, o caractersticas del usuario. La mayor parte de las aplicaciones del aprendizaje autom tico al modelado a de usuarios se centran en los dos primeros puntos. Sin embargo en [142] Webb presenta un paradigma para el modelado basado-en-caracterstica (Feature-Based Modeling- FBM) que se centra en la adquisici n de patrones de comportamiento o del usuario y no en intentar modelar el proceso cognitivo subyacente. El trabajo de Webb es un ejemplo del tipo de t cnicas denominadas IOAM (Input-Output e Agent Modeling). Este tipo de t cnicas han sido utilizadas con exito en el modelado e de estudiantes. Por ejemplo el modelado basado en la relaci n (Relational Based o Modeling - RBM) [86], el FBM y el C4.5-IOAM [21] han demostrado una alta
82
precisi n en la predicci n en el dominio de la resta elemental. Tanto el FBM como o o el RBM utilizan m todos de inducci n dise ados para esta tarea, mientras que e o n C4.5-IOAM utiliza C 4.5 [110] como mecanismo de inducci n. o En esta tesis se utilizan t cnicas de aprendizaje autom tico, entre ellas C 4.5, e a con representaci n atributo-valor, en donde los atributos son las caractersticas de o las acciones y del contexto de las tareas. Es decir, el modelo adquirido posee relaciones del tipo X a, en donde X es un conjunto de caractersticas del entorno y a es una acci n simple. El presente trabajo utiliza este enfoque a la hora de adquio rir el modelo de otro agente, aunque se aplica a otro tipo de dominios (din micos, a continuos, ruidosos, etc).
8.2.3.
Reconocimiento de Planes
El reconocimiento de planes, como su nombre indica, mantiene una relaci n o con la planicaci n tradicional en Inteligencia Articial. Sin embargo, a diferencia o de la planicaci n tradicional, en la cual la tarea principal es la generaci n de una o o serie de pasos a seguir para llegar a una meta y la ejecuci n de dicho plan consiste o en la aplicaci n secuencial de las acciones planicadas, en el reconocimiento de o planes la tarea principal es la inferencia del plan o planes que est siguiendo un a agente a partir de la observaci n de sus acciones. o Existe una gran cantidad de investigaciones realizadas en el area de recono cimiento de planes en las ultimas dos d cadas. Por ejemplo, a principios de los e a os 80 Cohen et al. [24] distinguen entre dos clases de reconocimiento de planes, n los denominados Key hole y los intencionados. Kautz y Allen [80] denen el reconocimiento de planes como el problema de identicar un conjunto mnimo de acciones de alto nivel sucientes para explicar el conjunto de acciones observadas. Esta investigaci n es considerada como la base de una gran parte de los trabajos de o reconocimiento de planes [60]. Pollack [104] hace una formalizaci n l gica del reconocimiento de planes en o o situaciones en donde los agentes pueden construir planes inv lidos. Adem s, argua a menta que un plan puede ser visto, no como una f rmula est tica que determina o a una acci n, sino como actitudes mentales complejas. o En [136] van Beek y Cohen estudian el reconocimiento de planes en sistemas pregunta-respuesta, de tal forma que este reconocimiento del plan, detr s de las a preguntas del usuario, permita generar una respuesta apropiada. Plantean la necesidad de resolver o no la ambig edad utilizando la comunicaci n con el usuario. u o Charniak y Goldman [19] proponen un enfoque probabilstico general para el reconocimiento de planes que puede explcitamente razonar sobre la incertidum bre en sistemas multiagente. Este trabajo est relacionado con [68], en donde Hua ber et al. describen m todos que trasladan los posibles planes que puede ejecutar e otro agente generados por un planicador a redes de creencias probabilsticas para
83
respaldar la tarea de reconocimiento de planes. En [67], Huber utiliza el enfoque anterior aplic ndolo a la monitorizaci n del trabajo de equipos en un dominio mia o litar de reconocimiento, incentivado, sobre todo, por lo poco able y costoso de las comunicaciones en este dominio. En [69], Huber estudia el uso del reconocimiento probabilstico de planes aplicados a la coordinaci n por observaci n en el o o 1 . Huber demuestra que los agentes que utilizan el reconocimiento dominio Netrek de planes para coordinarse superan a los agentes que utilizan comunicaci n para o coordinarse. Devaney y Ram [29] realizan una combinaci n de reconocimiento de patroo nes, reconocimiento de planes y seguimiento de objetos para el reconocimiento de t cticas militares durante batallas de entrenamiento. De igual forma, Intille y a Bobick [73] presentan un marco probabilstico para reconocer jugadas de f tbol u americano. Las jugadas est n descritas en forma de metas para los agentes y lia mitadas por restricciones temporales entre las acciones. Al igual que Charniak y Goldman [19] y Huber [68], utilizan redes de creencias para incorporar las observaciones. Ambas investigaciones utilizan datos generados a partir de agentes humanos. Washington [139] propone una variante del reconocimiento de planes en la coordinaci n con otros agentes o procesos representados como Procesos de Decio si n de Markov Parcialmente Observables (POMDP). Washington se enfoca sobre o todo en hacer este proceso computacionalmente tratable. Cabe se alar que en esn te trabajo el agente que monitoriza no ejerce ninguna inuencia sobre el agente monitorizado. Recientemente Goldman et al. [60] presentaron un marco probabilstico para el reconocimiento de planes basado en la ejecuci n de los planes y no en la concepo ci n de los planes como objeto formal. o Tambe [128] presenta un algoritmo para el seguimiento de agentes en entornos exibles y reactivos (RESC: REal-time Situated Commitments). Mediante RESC un agente puede llevar a cabo el seguimiento de otro agente inriendo una jerarqua de operadores (del agente modelado) aprovechando su propia arquitec tura. De esta forma ejecuta el modelo del otro agente y compara las predicciones generadas por el modelo con las acciones del otro agente para vericar posibles fallos. Adem s, RESC utiliza una t cnica de retroceso para recuperarse de los fallos a e que se puedan dar por la presencia de ambig edades. Los agentes se desarrollan u utilizando la arquitectura SOAR [88]. Esta t cnica est basada en lo que se conoe a ce como reconocimiento de planes reactivos y elaborado para funcionar en tiempo real y con aplicaci n pr ctica en dominios militares con informaci n parcialmente o a o observable. Algunos autores no consideran esta investigaci n dentro del area de o reconocimiento de planes porque no se ci e estrictamente a la denici n dada por n o Kautz y Allen [80]. En cambio otros autores la consideran como reconocimiento
1
Netrek es un juego de simulaci n de batalla multijugador basado en Start Trek o
CAPITULO 8. ESTADO DEL ARTE de planes reactivos.
84
En [127] Tambe ampla el trabajo realizado en [128] con el n de recono cer planes ejecutados por equipos, como equipos y no como agentes individuales. RESCteam est basado en RESC, pero incluye mejoras para afrontar la tarea de a formaci n de sub-equipos, asignaci n de roles y desviaci n de sub-equipos. Los o o o modelos de equipo que utiliza est n basados en el Marco de Intenciones Conjuna tas [23]. RESCteam se enfoca explcitamente en la explotaci n del razonamiento o del trabajo en equipo. Kaminka et al. [79], desarrollan un algoritmo de reconocimiento de planes reactivos llamado RESL (REal-time Situated Least-commitment). La representaci n que utiliza RESL es similar a la que utiliza RESCteam con la difeo rencia de que cuando RESCteam se utiliza en entornos no colaborativos utiliza una heurstica del peor-coste. De esta forma s lo razona sobre las hip tesis que impli o o can el mayor costo para el agente que realiza la monitorizaci n. En cambio, RESL o permite la representaci n de varias hip tesis y la utilizaci n de distintos m todos o o o e de eliminar la ambig edad. u Las investigaciones sobre reconocimiento de planes citadas hasta este punto asumen que el agente modelador posee cierto conocimiento acerca de los planes que puede ejecutar el agente modelado, i.e. librera de planes. La tarea del agente entonces es identicar cu l de estos planes es el que est siguiendo el otro agente. a a Por otra parte, Kaminka et al. [78], proponen t cnicas para convertir entradas e din micas, complejas, continuas y multivariadas correspondientes a los estados del a mundo, en series temporales de comportamientos at micos reconocidos que luego o son analizados para encontrar subsecuencias repetidas de eventos que caractericen el comportamiento de un equipo. Para llevar a cabo esto, se utilizan reconocedores que interpretan las entradas de los sensores en busca de eventos. Una vez almacenados los eventos en un trie [82] utiliza t cnicas estadsticas que permitan e realizar un an lisis estadstico de los eventos en busca de secuencias de comportaa miento.
8.2.4.
Otros Enfoques en Sistemas Multiagentes
Adem s de los m todos utilizados para el modelado de agentes que se han a e mencionado, basados en la teora de juegos y el reconocimiento de planes, existen otro grupo de trabajos relacionados con el modelado de agentes propiamente dicho. Entre estos m todos se puede se alar el M todo de Modelado Recursivo (Ree n e cursive Modeling Method - RMM) [38, 39, 55, 56, 57, 58, 101] muy relacionado con la teora de juegos. Mediante RMM, un agente puede representar y utilizar el conocimiento que posee sobre sus pagos esperados al realizar una acci n y el pago o que reciben los dem s mediante las matrices de pago. De esta manera un agente a puede modelar el estado interno de otro agente y sus estrategias a la hora de llevar a cabo una acci n. Este m todo es recursivo porque un agente A puede modelar a o e
85
otro agente B y este a su vez modelar al agente A y el agente A a su vez modelar lo que cree que el agente B sabe de el y as sucesivamente (modelos anidados). S lo se deja de modelar cuando se alcanza el conocimiento cero, es decir cuano do no se posee informaci n del agente que est siendo modelado. Esta estrategia o a puede llegar a conducir a jerarquas (matrices de pago) muy profundas y costosas de analizar. Vidal y Durfee [137] y Durfee [37] proponen t cnicas para limitar la e profundidad de la jerarqua de matrices. Un problema del enfoque del RMM es que asume que conoce el estado interno de los otros agentes, al igual que sus posibles acciones con el n de construir la matriz de pago. Esta suposici n es poco realista puesto que en entornos reales se o tiene poca o ninguna informaci n del estado interno de los otros agentes, problema o que se busca abordar en esta tesis doctoral. A pesar de que las matrices de pago utilizadas en RMM resumen la informaci n contenida en los diagrama de inuencia [101], Suryadi y Gmytrasiewicz [126] o utilizan estos para representar los modelos de los agentes indicando que los diagramas de inuencia [65] brindan una mejor percepci n del problema de aprendizaje. o Mediante estos modelos un agente puede interactuar con otros agentes y predecir su comportamiento. Presentan un marco para crear modelos de agentes basados en sus capacidades, creencias y preferencias. Parten de modelos previos, representados como diagramas de inuencia, y de un historial del comportamiento de un agente. Se pueden construir nuevos modelos ajustando los par metros del diagrama a de inuencia que representa el modelo. Hu y Wellman [66] llevan a cabo una serie de experimentos en donde crean modelos de otros agentes utilizando m todos de regresi n. Realizan las predicciones e o de dos maneras. Mediante la primera s lo se toma en cuenta el comportamiento o previo del otro agente y se modela este utilizando series temporales sin intentar modelar el proceso de decisi n del agente. En el segundo caso, se asume que el o otro agente est intentando maximizar su recompensa, de tal forma que existe una a relaci n funcional entre las acciones de los agentes y sus estados internos. Este o m todo posee niveles de recursividad atendiendo al tipo de forma funcional que se e asuma. Este trabajo considera la versi n on-line del modelado de agentes y utilio za como dominio de prueba un sistema de subastas (doble). Hu y Wellman asumen que todos los estados del otro agente son observables y que cada agente conoce su funci n de pago. o Garrido et al. [53] llevan a cabo un estudio emprico cuyo n es cuanticar los benecios que puede obtener un agente al modelar a otro. Para esto utilizan como dominio de aplicaci n el Juego de Asignaci n de Reuniones (Meeting Scheduling o o Game) [52]. Utilizan distintos tipos de estrategias, desde una estrategia aleatoria en donde el agente no utiliza informaci n acerca de los otros agentes, hasta eso trategia de or culo en donde el agente supone correctamente toda la informaci n a o acerca del otro agente. Adicionalmente, crean estrategias que van decrementando el conocimiento que posee el agente acerca del otro agente e incrementan la capa-
86
cidad de modelado utilizando modelos probabilsticos. En [54] amplan el trabajo arriba mencionado e introducen un agente capaz de modelar a otros agentes utilizando modelos probabilsticos y capaz de actualizar dichos modelos de manera incremental e iterativa mediante un mecanismo bayesiano. Quiz s uno de los dominios de prueba m s utilizados, en cuanto a agentes se a a reere, es el simulador de f tbol de la RoboCup [81]. Dentro de las competiciones u que se llevan a cabo en la RoboCup, existen categoras que incluyen agentes fsicos y otras que se desarrollan en entornos simulados. Uno de estos entornos simulados est basado en un sistema cliente/servidor denominado Soccer Server System [100]. a Basados en este servidor, existen actualmente tres competiciones, la liga 2D, la liga 3D y la competici n de entrenadores (coach). Las ligas 2D y 3D son partidos de o f tbol simulados en donde interact an 22 agentes, 11 por equipo, simulando un u u partido de f tbol en dos y tres dimensiones respectivamente. Por otra parte, en u la liga de coach, los 22 agentes que interact an son est ndar y la competici n u a o consiste en crear un agente entrenador que d consejos al equipo que entrena con e la nalidad de aprovechar la visi n del partido que este posee. Dado que en los o ultimos a os las ligas de simulaci n se han convertido en un conocido testbed en n o el area de agentes, han sido desarrolladas una serie de investigaciones relacionadas con el modelado de agentes en estos dominios. Cabe destacar que la mayora de los trabajos relacionados con el modelado de agentes dentro de la liga de simulaci n o se basan en la utilizaci n del agente coach o entrenador. Ejemplos de estos trabajos o se detallan a continuaci n. o Stone et al., [124] proponen IMBBOP (Ideal Model Based Behavior Outcome Prediction). Esta t cnica predice las acciones de otro agente (compa ero u oponene n te) en relaci n con el comportamiento ideal del agente en una situaci n dada. Es o o decir, IMBBOP no asume que el agente est llevando a cabo las acciones denidas e como ptimas para el agente, sino que describe su comportamiento esperado coo mo una desviaci n de este optimo. Este comportamiento ideal es independiente del o agente. De esta forma, este puede ser calculado bas ndose s lo en un modelo de la a o din mica del entorno (dominio). A excepci n de los trabajos que se detallan posa o teriormente, Stone lleva a cabo un modelado de bajo-nivel (agente-agente). Cabe se alar que asumir que el contrario est actuando de manera optima podra llevar a n a conclusiones err neas. o En [34], Druecker et al. utilizan una red de neuronas articiales para clasicar los posibles tipos de formaci n del equipo contrario con el n de comunicar a los o agentes una contra-formaci n. En esta tesis doctoral se busca realizar un modelao do a bajo nivel (agente-agente) y no reconocer formaciones del oponente, aunque esta informaci n pueda servir como informaci n adicional a la hora de resolver o o ambig edades. u En [112], Riley asume que se conocen a priori un n mero de clases de u adversarios e intenta clasicar el comportamiento del equipo oponente bas ndose a en la equiparaci n de los datos de los sensores con las clases predenidas. o
87
Recientemente, Riley y Veloso [113], presentaron ATAC (Adaptive Team - Adversarial Coaching) en donde el agente coach (entrenador) genera planes on-line en forma de Redes Temporales Simples [26] basadas en el reconocimiento de los planes del oponente y luego los comunica a sus compa eros de equipo para que n lleven a cabo el plan de manera distribuida. El agente coach posee a priori un conjunto de modelos del oponente los cuales son representaciones probabilsticas de las posiciones de los oponentes. A la hora de seleccionar un modelo utilizan Naive Bayes [77]. Bas ndose en [112], Steffens [122] presenta un marco llamado FBDOM (Feaa ture Based Declarative Opponent Modeling) para el modelado de oponentes en sistemas multiagente. Este sistema asume que un agente puede identicar ciertas caractersticas en el oponente que describen su comportamiento. Dicho comporta miento puede ser formalizado utilizando una extensi n del lenguaje que utiliza el o agente entrenador para comunicarse con el resto de los jugadores en el simulador. De esta forma, cuando se observa el comportamiento de un equipo, se busca emparejar este comportamiento con alguno de los modelos de oponentes que se poseen a priori.
8.3.
Conclusiones
Se ha presentado una serie de investigaciones relacionadas con el modelado de agentes aplicadas a una amplia gama de dominios. Algunos de estos trabajos asumen la existencia de informaci n completa o alguna suposici n de conocimiento o o interno de los otros agentes. En esta tesis doctoral se busca la creaci n del modelo o de otros agentes bas ndose s lo en la observaci n de su comportamiento. En cuana o o to a las investigaciones que han utilizado como dominio de prueba el simulador de f tbol de la RoboCup, uno de los dominios de prueba de esta tesis, una gran parte u de estas se centra en el modelado a alto-nivel (equipos). Esta tesis doctoral tiene por objetivo el modelado de agentes a bajo-nivel, es decir, de agente a agente. Por ejemplo, un delantero podra aprender a predecir si el portero va a salir en busca o no de la pelota, y de esta manera actuar en consecuencia.
Captulo 9
Modelado de Agentes
Se supone que el comportamiento de un agente puede ser descrito en t rminos e de sus entradas y salidas. Si se piensa en todas las posibles entradas, estas pueden ser representadas como un grupo de par metros de entrada. Por lo tanto, hay una a clara analoga con la tarea de clasicaci n en la cual cada par metro de entrada o a del agente puede ser representado como un atributo que puede tener tantos valores como el correspondiente par metro. En relaci n con la salida, puesto que se han a o seleccionado un grupo de tareas que poseen la caracterstica de generar decisiones en un paso (soluciones que no requieren de un conjunto de pasos, como en plani caci n), se puede pensar en estas como salidas at micas. En t rminos de una tarea o o e de clasicaci n, esto permite denir una clase por cada posible salida. De esta mao nera, la tarea de modelado se convierte en una tarea de clasicaci n. Por ejemplo, o en el simulador de f tbol (sistema cliente-servidor) de la RoboCup, uno de los dou minios seleccionados para probar la viabilidad de esta propuesta, las entradas del agente son los datos que recibe a trav s de sus sensores de cuerpo, auditivo y de e visi n (enviados por el servidor) y la salida son las posibles acciones que puede o llevar a cabo (envi ndolas al servidor). a Una vez se ha determinado la tarea de clasicaci n, cualquier t cnica de clao e sicaci n puede ser empleada para resolver esta tarea: aprendizaje basado en inso tancias [1], arboles de decisi n [105], aprendizaje de reglas [94, 107], o redes de o neuronas [114]. Sin embargo, adem s de obtener el modelo de un agente, se quiere a que este modelo sea relativamente f cil de entender y depurar para lo cual se necea sita utilizar algoritmos que utilicen una representaci n declarativa. Por esta raz n, o o se propone utilizar t cnicas de aprendizaje autom tico como arboles de decisi n o e a o generadores de reglas. En la realizaci n de esta tesis doctoral se han tomando dos vertientes. En la o primera, a la cual se le ha denominado Modelado de Agentes Basado en Trazas (MABT), se presupone que el agente modelador tiene acceso directo a las entradas y salidas del agente a modelar, mas no as a su estructura interna. Es decir, se 88
CAPITULO 9. MODELADO DE AGENTES
89
poseen datos del comportamiento del agente a modelar generados en interacciones previas. La segunda de las vertientes desarrolladas en esta tesis, aborda la tarea de modelado en situaciones m s complejas, en donde el agente modelador no tiene a acceso directo a las entradas y salidas del agente a modelar. Por esta raz n, el o modelado debe realizarse en dos fases, la observaci n y recolecci n de datos y, el o o modelado en s. El esquema propuesto para resolver esta tarea ha sido denominado Modelado de Agentes Basado en la Observaci n (MABO). o
9.1.
Modelado de Agentes Basado en Trazas (MABT)
Una suposici n inherente a MABT es el acceso directo a las entradas y salidas o del agente a modelar. Es decir, el agente modelador, AGENTE B, tiene acceso a los pares entrada/salida generados por el AGENTE A en situaciones pasadas. En la Figura 9.1 se muestra el marco general del Modelado de Agentes Basado en Trazas. Como se puede apreciar, el proceso de modelado requiere una etapa previa en donde se registran las interacciones del AGENTE A con el entorno y con el propio AGENTE B. En esta etapa se forman los pares entrada/salida en donde la entradas son los datos recibidos por los sensores del AGENTE A y la salida es la acci n llevada a cabo por este. o
Registro de Trazas
Entradas
Modelado
Razonamiento
Entradas
Agente A
salidas Agente A
mdulo de construccin del modelo
m:modelo del Agente A
mdulo de razonamiento
Registro de Datos
traza del Agente A
Agente B
salidas Agente B
Entorno
Figura 9.1: Marco general del Modelado de Agentes Basado en Trazas (MABT).
En cuanto al AGENTE B o agente modelador, MABT propone la incorporaci n o de dos m dulos a la arquitectura del agente con la nalidad de llevar a cabo la tarea o
90
de modelado del AGENTE A. El primero de estos m dulos, denominado M dulo o o de Construcci n del Modelo (MCM), es el encargado, como su nombre indica, de o llevar a cabo la construcci n del modelo del AGENTE A. El otro m dulo propuesto o o dentro de MABT se denomina M dulo de Razonamiento, (MRA), cuya funci n o o principal es utilizar el modelo del AGENTE A en el proceso de tomar la decisi n o sobre qu acci n llevar a cabo. e o El n cleo del MCM son una o varias t cnicas de aprendizaje autom tico capau e a ces de generar el modelo del AGENTE A, m, bas ndose en los datos adquiridos en a la etapa del registro de trazas. Por otra parte, la arquitectura del MRA puede ser desde el modelo del AGENTE A, en el caso m s simple, hasta procesos de razonaa miento complejos que incorporen parte de la arquitectura original del AGENTE B con t cnicas de aprendizaje autom tico con el n de determinar la mejor acci n en e a o un momento dado. La tarea de modelado llevada a cabo en este enfoque, entra dentro de las t cnie cas conocidas como IOAM (Input/Ouput Agent Modelling). Los enfoques IOAM asumen que se puede modelar a un agentes a partir de sus entradas y salidas. Un enfoque similar al utilizado en MABT es el modelado basado-en-caractersticas (Feature Based Modelling - FMB) [142]. FMB es aplicado al modelado de estudiantes. Los dominios de aplicaci n del MABT van m s alla del modelado de o a estudiantes. El objetivo de este esquema es conocer el lmite superior que se puede alcanzar en el modelado de otros agentes, puesto que en la pr ctica en la gran mayora a de los dominios en donde intervienen agentes, no se tiene acceso directo a las entradas/salidas del agente a modelar.
9.2.
Modelado de Agentes Basado en la Observaci n o (MABO)
En MABT se dispone de antemano de un conjunto de datos que representan las entradas y salidas del agente a modelar. Este enfoque se puede aplicar en dominios est ticos en donde se disponga de los datos a priori y se desee obtener a un modelo del AGENTE A. Sin embargo, en gran parte de los dominios en donde intervienen agentes no se puede contar a priori con este conjunto de datos. Por esta raz n, se extendi el marco propuesto anteriormente a un nuevo enfoque que o o incluye un m dulo para la obtenci n de estos datos. Por ejemplo, en uno de los o o dominios utilizados para la evaluaci n de esta propuesta, el simulador de f tbol o u de la RoboCup, un equipo o en este caso un jugador, no tiene acceso directo a las entradas del oponente (o compa ero) en tiempo real, es decir, a lo que realmente n est observando para tomar decisiones de que acciones ejecutar. Tampoco conoce a qu acci n ha realizado. Por esta raz n el agente modelador tiene que obtener datos e o o sobre el oponente desde su punto de vista e inferir la acci n que ha llevado a cabo. o
91
En otras palabras, el agente que lleva a cabo la tarea de modelado debe ser capaz de inferir las acciones que ha realizado el agente a modelar en instantes anteriores a partir de sus propias entradas. Dada la necesidad de adquirir los datos para llevar a cabo la tarea de modelado MABO lleva a cabo en dos fases. La primera de estas fases es la creaci n de un o m dulo gen rico capaz de etiquetar la ultima acci n llevada a cabo por el AGENTE o e o A basado en la observaci n del comportamiento de este (M dulo de Etiquetado de o o Acciones - MEA). La necesidad de utilizar MEA surge al querer modelar el comportamiento de otros agentes en dominios din micos en donde no se tiene acceso a directo a las entradas y salidas de los dem s agentes que interact an en el entorno a u (lo que exactamente est percibiendo el otro agente a trav s de sus sensores y la a e acci n que lleva a cabo en un momento dado). La segunda fase dentro de MABO o es la creaci n del modelo del otro agente basado en los datos generados por MEA. o Esta tarea es llevada a cabo por el M dulo de Creaci n del Modelo(MCM). Dado o o que el poseer el modelo del agente con que se est interactuando proporciona una a ventaja comparativa s lo si este es utilizado, en MABO se propone la incorporao ci n de un m dulo adicional denominado M dulo de Razonamiento (MRA), cuya o o o nalidad es la de utilizar el modelo generado en la etapa previa. La Figura 9.2, se muestra el marco general del Modelado de Agentes Basado en la Observaci n. o
Fase I caractersticas acerca del Agente A + caractersticas entorno acciones del Agente A datos de interacciones previas traza del Agente B traza del Agente A
modelado de acciones
modelos de acciones caractersticas del Agente A + Agente A sensores del Agente B (entradas) caractersticas entorno
Mdulo de Etiquetado de Acciones
acciones etiquetadas del Agente A
Mdulo de Construccin del Modelo

Fase II
Modulo de Razonamiento
Agente B Accin del Agente B
Entorno
Figura 9.2: Marco general del Modelado de Agentes Basado en la Observaci n (MABO). o
92
9.2.1.
M dulo de Etiquetado de Acciones (MEA) o
Con el prop sito de predecir el comportamiento del agente a modelar (AGEN o TE A), es necesario obtener un n mero suciente de instancias de la forma entrau da/salida, de tal forma que estas puedan ser utilizadas para aprender. Sin embargo, en la mayora de los dominios en donde intervienen agentes, las entradas y sali das del AGENTE A no son accesibles directamente por parte del agente modelador (AGENTE B). O, mejor dicho, las acciones del AGENTE A deben ser inferidas por el AGENTE B mediante la observaci n del comportamiento de este. o El prop sito del MEA es clasicar las acciones llevadas a cabo por el AGENTE o A bas ndose en las observaciones de este realizadas por el AGENTE B. Esto puede a ser visto como una tarea de clasicaci n. En este caso, se necesitan instancias de o la forma datos del agente A, acci n del agente A en donde los datos del AGENTE o A son generados por el AGENTE B, tal y como este lo percibe cuando realiza la acci n. o Una descripci n general del m dulo de etiquetado de acciones se muestra en o o la Figura 9.3
datos de interacciones previas Agente B Sensores (entradas) 1, F, E, X 2, F, E, X . . . n, F, E, X
registros
F, E
registros
conjunto de entrenamiento F2 , E 2 , F1 , E 1 , C 1 , V , C 2 . . . Fn , E n , Fn1, E n1, C n1,V , C n
Agente A Sensores (entradas) 1, C, X 2, C, X . . . n, C, X

registros
1, F, E, C 2, F, E, C . . . n, F, E, C
generacin de instancias
C (accin)
instancias
Proceso de aprendizaje modelos Mdulo de Etiquetado de Acciones
F: caractersticas sobre el Agente A E: variables del entorno C: accin del Agente A V: atributos calculados X: otras variables
Figura 9.3: Creaci n del M dulo de Etiquetado de Acciones. o o
Dependiendo del dominio, existe una serie de acciones gen ricas que se ejee
93
cutan de la misma manera independientemente del agente que la ejecute. Por esta raz n, el MEA es independiente del AGENTE A, y puede ser utilizado para inferir o las acciones de cualquier agente. Dada la generalidad del clasicador, este s lo se o construye una vez. A continuaci n se detallan los pasos llevados a cabo en la construcci n del o o
MEA :
1.
El AGENTE A y el AGENTE B interact an un n mero determinado de veces. u u En cada instante, algunas variables relacionadas con el AGENTE A, variables relacionadas con el entorno obtenidas por el AGENTE B, y las acciones del AGENTE A son registradas para producir una traza del comportamiento del AGENTE A desde el punto de vista del AGENTE B. Cada ejemplo I en la traza est compuesto por tres partes: un grupo de atria butos relacionados con el AGENTE A, F , algunas variables relacionadas con el entorno, E, y la acci n llevada a cabo por el AGENTE A, C, en un inso tante de tiempo dado, t. En otras palabras It = Ft + Et + Ct . A partir de esta traza es f cil obtener una serie de ejemplos, D, basado en los cuales el a AGENTE B puede inferir mediante la aplicaci n de t cnicas de aprendizaje o e autom tico, la acci n llevada a cabo por el AGENTE A, utilizando ejemplos a o de dos instantes de tiempos consecutivos. Sea D el conjunto completo de los ejemplos disponibles de la traza del AGENTE A. Cada ejemplo di D est compuesto por dos partes: un veca tor n-dimensional que representa los atributos, a(di ) y el valor de c(di ) que representan la clase a la que pertenece el ejemplo. En m s detalle, a(di ) = a Ft , Et , Ft1 , Et1 , Ct1 , V y c(di ) = Ct . V representan una serie de atributos calculados bas ndose en la comparaci n de las diferencias de variables a o entre los instantes de tiempo. Una vez que el clasicador o los clasicadores han sido construidos, estos son utilizados con la nalidad de etiquetar la acci n llevada a cabo por el o AGENTE A. Este clasicador o grupo de clasicadores, constituyen el n cleo u del MEA.
2.
3.
4.
9.2.2.
M dulo de Construcci n del Modelo (MCM ) o o
Una vez construido e incorporado MEA en la arquitectura del AGENTE B, el siguiente paso consiste en crear un modelo capaz de predecir el comportamiento del AGENTE A basado en las observaciones realizadas desde el punto de vista del AGENTE B. Para llevar a cabo esta tarea, se debe partir de ejemplos de la forma Ft , Et , Cmeat registradas durante las interacciones del AGENTE A con el AGENTE B, en donde Cmeat es la acci n etiquetada por MEA a partir de las observaciones o en t y t 1.
94
En m s detalle, los datos consisten en tuplas, I s, con caractersticas acerca a del AGENTE A, algunas variables relacionadas con el entorno, y la acci n que o el AGENTE B inere que ha llevado a cabo el AGENTE A. En vez de considerar utilizar s lo un instante de tiempo, se consideran varios instantes de tiempo en una o misma instancia de aprendizaje. Adem s, las tuplas de aprendizaje son de la forma a It , It1 , ...It(w1) , en donde w es el tama o de la ventana de tiempo considerada. n Al igual que en MEA se han utilizado atributos calculados, V . Los pasos llevados a cabo para obtener el modelo del AGENTE A son los siguientes: 1. 2. MEA se incorpora a la arquitectura del AGENTE B. De esta manera, este puede etiquetar (inferir) las acciones del AGENTE A. El AGENTE A y el AGENTE B interact an en diferentes situaciones. En cada u instante de tiempo, el AGENTE B obtiene informaci n acerca del AGENTE o A al igual que la acci n llevada a cabo, la cual es etiquetada por el MEA. o Toda esta informaci n es registrada con la nalidad de producir una traza o del comportamiento del AGENTE A. Al igual que en la construcci n del MEA, cada ejemplo, I, en la traza est como a puesto por tres partes: un grupo de atributos relacionados con el AGENTE A, F , algunas variables relacionadas con el entorno, E, y la acci n llevada a o cabo por el AGENTE A, C (etiquetada por el MEA), en un instante de tiempo dado, t. En otras palabras It = Ft + Et + Ct . En este caso se quiere predecir la acci n que lleva a cabo el AGENTE A en un instante de tiempo dado o y se necesita informaci n acerca de este de unos instantes de tiempo atr s. o a El n mero de instantes de tiempo utilizados para llevar a cabo la tarea de u modelado es denominada w. Sea D el conjunto completo de los ejemplos disponibles en un instante de tiempo dado. Cada ejemplo di D esta compuesto por dos partes: un vector n-dimensional que representa los atributos, a(di ) y el valor de c(di ) que representan la clase a la que pertenece el ejemplo. En m s detalle, a(di ) = a Ft , Et , Ft1 , Et1 , Ct1 , ...Ft(w1) , Et(w1) , V y c(di ) = Ct . En donde V representa una serie de atributos calculados bas ndose en la comparaci n a o de las diferencias de variables entre los instantes de tiempo. A partir de D se crea al clasicador capaz de predecir la acci n que lleva a o cabo el AGENTE A en un instante de tiempo dado.
3.
4.
5.
9.2.3.
M dulo de Razonamiento (MRA ) o
Predecir las acciones de un agente no es suciente. Las predicciones se deben utilizar de manera tal que el agente modelador se pueda anticipar y reaccionar a las
95
acciones del oponente en situaciones competitivas, o colaborar con el compa ero n en situaciones colaborativas. Al igual que en el MEA y el MCM, en este m dulo se pueden aplicar t cnicas o e de aprendizaje autom tico con la nalidad de aprovechar el modelo que se posee a del agente o agentes con los cuales se interact a. En el m s simple de los casos, el u a n cleo de este m dulo puede ser hecho a mano aprovechando la arquitectura del u o agente que utiliza MABO.
Captulo 10
Evaluaci n: MABT o
En el captulo anterior se han descrito dos propuestas para llevar a cabo la tarea de modelar el comportamiento de un agente. En este captulo se muestran los resultados obtenidos en la evaluaci n del primero de los enfoques propuestos, el o Modelado de Agentes Basado en Trazas ( MABT). Con la nalidad de llevar a cabo la evaluaci n del MABT, se ha realizado una o serie de experimentos que van desde aqu llos en donde se pretende demostrar la e viabilidad de la propuesta (secci n 10.1), hasta la evaluaci n del MABT en domio o nios complejos (secci n 10.3), pasando por la aplicaci n del enfoque con vistas a o o utilizar el modelo generado (secci n 10.2). o
10.1.
Modelado de Agentes en Dominios Est ticos a
Con vistas a determinar la viabilidad del MABT, como primera aproximaci n, o se ha simulado la interacci n del agente modelador y el agente a modelar en situao ciones denominadas est ticas. Es decir, se han utilizado dominios de clasicaci n a o a partir de los cuales se ha generado el comportamiento del agente a modelar o AGENTE A, para posteriormente generar el modelo de este, partiendo de sus entradas y salidas.
10.1.1.
Para determinar si el conocimiento generado por el AGENTE B es capaz de modelar el comportamiento del AGENTE A, considerado como una caja negra, se ha llevado a cabo una serie de pasos que se detallan a continuaci n. A efectos de o la experimentaci n, se considera que el AGENTE A est basado en un clasicador o a generado a partir de un algoritmo de aprendizaje. Por esta raz n, antes de registrar o el comportamiento del AGENTE A, el n cleo de este, debe ser generado. En la u 96
CAPITULO 10. EVALUACION: MABT
97
Figura 10.1 se muestra el proceso llevado a cabo para generar el clasicador que sirve de base al AGENTE A. Se asumen que se dispone de ejemplos para poder generar al n cleo del AGENTE A. Igualmente se muestra el proceso de generaci n u o del modelo. El proceso de generaci n del n cleo del AGENTE A y la posterior generaci n o u o del modelo de este por parte del AGENTE B, se detallan a continuaci n: o 1. Sea T el conjunto completo de las instancias disponibles. Cada ejemplo ti T consta de dos partes: un vector n-dimensional que representa los atributos a(ti ) y un valor c(ti ) que representa la clase a la cual pertenece. El conjunto T se divide aleatoriamente en tres partes distintas, llamadas T 1 , T 2 y T 3 . T 1 es utilizado para generar el clasicador que ser la base del AGENTE A. a Las entradas que recibe el AGENTE A son los atributos de los ejemplos y la salida que produce este es la clase a la que el clasicador generado determina que pertenecen estos ejemplos. A continuaci n, los atributos de cada ejemplo, a(t2 ), en T 2 son utilizados o i como entrada al AGENTE A, el cual genera una predicci n de clase de t2 . o i Esta clase se denomina c(t2 ). Despu s, un nuevo conjunto de ejemplos T2 es i e creado a partir de cada par a(t2 ), c(t2 ). i i El nuevo conjunto T 2 es utilizado como entrada al MCM del AGENTE B, el cual genera un modelo del AGENTE A. Como la clase de los ejemplos en T 2 son las salidas del AGENTE A, las reglas obtenidas (modelo) deben ser capaces de modelar el comportamiento del AGENTE A. Esto quiere decir que el conocimiento adquirido por el AGENTE B debera ser capaz de predecir la salida del AGENTE A, sin importar si las predicciones que el AGENTE A realiza son correctas o no.
2.
3.
4.
Para determinar la capacidad de modelado del AGENTE B sobre el comportamiento del AGENTE A se lleva a cabo el siguiente proceso: 1. 2. El conjunto de datos T 3 es utilizado como entrada para ambos, AGENTE A y AGENTE B, como se muestra en la Figura 10.2. Las salidas producidas tanto por el AGENTE A como por el AGENTE B se comparan. Esta comparaci n se mide como el n mero de ejemplos en que la o u clase que predice el modelo en el AGENTE B diere de la dada por el AGEN TE A supuestos los mismos atributos de entrada. Por razones experimentales, estas diferencias se miden a partir de un conjunto de datos llamado T 3 cuyo vector de atributos corresponde a los atributos que posee T 3 y la clase a la que corresponden estos atributos es la predicci n que realiza el AGENTE A. o De esta forma, la precisi n que logre el AGENTE B sobre este conjunto de o datos brinda una estimaci n de la precisi n del modelo. o o

Datos disponibles Construccin del ncleo del Agente A
clasificador
98
T1
instancias
prediccin
^2 T
Agente B mdulo de construccin del modelo
T2
a(T2 )
2 c(T )
Agente A
a(T2 )
^ 2 c(T )
instancias
atributos
T3
mdulo de razonamiento
Figura 10.1: Registro de trazas y construcci n del modelo del AGENTE A. o

Agente A
prediccin
T3
instancias
comparacin Agente B
MRA prediccin
diferencias
Figura 10.2: Validaci n del modelo obtenido por el AGENTE B. o
Para la comprobaci n experimental de este enfoque, se ha utilizado como n cleo o u del AGENTE A una red de neuronas generada mediante el algoritmo de retropropagaci n y, como t cnica de aprendizaje autom tico base del MCM del AGENTE B, se o e a ha utilizado el algoritmo de generaci n de arboles de decisi n C 4.5 [107]. El Stutto o gart Neural Network Simulator (SNNS) [149] ha sido utilizado como herramienta para la generaci n de la red de neuronas del AGENTE A. o En cuanto a los datos de prueba utilizados, se han utilizado tres dominios del conocido repositorio de datos del UCI [6]. La selecci n de estos dominios se ha o llevado a cabo tomando en consideraci n la tarea de aprendizaje de cada uno de o estos, considerando que estos dominios son ejemplos tpicos en donde un modelado entrada/salida a partir de la interacci n de dos agentes resulta de gran importancia. o A continuaci n se detalla la tarea de clasicaci n en cada dominio y el posible uso o o del proceso de modelado. Datos de registros de votos del Congreso de los Estados Unidos de Am rica. e Este es un ejemplo de un posible agente de negociaci n. En este caso, el o modelo del otro agente generado por el AGENTE B, puede ayudar a decidir
99
c mo negociar con el otro agente observando y categorizando los rasgos o polticos de un tercer agente. Datos Tic-Tac-Toe (Endgame). Este dominio es un ejemplo de dominios en donde poseer informaci n sobre el comportamiento de los otros agentes es o de mucha importancia. Si se posee un modelo del comportamiento del oponente en cualquier juego de conocimiento completo de suma-cero, se puede utilizar este en la b squeda de la mejor jugada dada una situaci n de juego. u o En estos casos, una b squeda alfa-beta puede ser transformada en un tipo u de t cnica de b squeda del mejor-primero, permitiendo una b squeda m s e u u a profunda en ramicaciones de inter s. Cuando la b squeda alfa-beta tiene e u que expandir el grupo de posibles movimientos del oponente a un n mero u impar de niveles del arbol, el modelo aprendido del oponente puede ser utilizado para predecir la salida del otro agente. Esto permite podar el resto de las ramas, convirtiendo un arbol minimax en un arbol max (el movimiento seleccionado es aqu l cuyas ramas llevan al nodo hoja con el m ximo valor e a de la funci n heurstica). o Datos de C ncer de Senos. El modelo obtenido en este dominio podra ser a un ejemplo de cu n util puede ser este enfoque cuando los datos utilizados a para construir el AGENTE A no est n disponibles y alg n tipo de conocia u miento sobre este agente es necesario, como en las t cnicas de envoltura e (wrappers) para el desarrollo de agentes [75]. Por ejemplo, en este caso, un hospital podra haber creado, en el pasado, un sistema de diagn stico ba o sado en agentes cuyo motor de inferencia son redes de neuronas, y puede no poseer los datos originales con el que fue creado. Registrando su comportamiento, y utilizando el esquema propuesto, se podra tener acceso a un conjunto de reglas que declarativamente pueden describir este conocimiento. La caractersticas de los dominios utilizados se reejan en la Tabla 10.1. Para obtener una estimaci n apropiada de la capacidad de modelado del AGENTE B, o los resultados que se muestran son el promedio de una validaci n cruzada de diez o 1 , T 2 y T 3 . Por otra carpetas. Es decir, se han generado diez grupos diferentes de T parte, las redes de neuronas, que son el n cleo del AGENTE A, se obtienen a partir u del entrenamiento del algoritmo de aprendizaje hasta alcanzar la convergencia.
Tabla 10.1: Dominios utilizados para evaluaci n del MABT en situaciones est ticas. o a Dominio Registros de votos Tic-Tac-Toe C ncer de Senos a Atributos 16 9 30 Clases 2 2 2 Instancias 435 958 569
100
10.1.2.
Resultados
En la Tabla 10.2 se muestran los resultados obtenidos en el proceso de evaluaci n del modelo generado por el AGENTE B. La segunda columna muestra la o tasa de aciertos obtenida por el AGENTE A (basado en redes de neuronas) sobre el conjunto de datos T 3 . En la segunda columna se muestra la precisi n del modeo lo generado por el MCM del AGENTE B sobre el mismo conjunto de prueba. Sin embargo, los resultados m s interesantes son los que se muestran en la ultima coa lumna, en donde se reeja la precisi n del modelo creado por el MCM del AGENTE o B sobre el conjunto de datos a partir de T 3 . En otras palabras, esta columna reeja las diferencias entre la salida del AGENTE A y la predicci n realizada por el o 3. AGENTE B sobre T
Tabla 10.2: Tasa de aciertos (en %) del AGENTE A y del modelo de este generado por el AGENTE B sobre el conjunto de datos T 3 y la tasa de aciertos del modelo sobre el conjunto de datos T 3 . Dominio Votos Tic-Tac-Toe C ncer a AGENTE A/T 3 95.6 97.9 97.4 AGENTE B/T 3 94.6 90.2 94.0 AGENTE B/ T 3 96.4 90.7 94.5
En los tres dominios utilizados, el modelo del AGENTE A generado por el AGENTE B basado en el algoritmo de aprendizaje C 4.5, obtiene una tasa de precisi n superior al 90 % sobre el conjunto de datos T 3 , lo que indica que el modelo o generado reproduce de forma aproximadamente correcta la misma salida que el AGENTE A.
10.2.
Utilizaci n del Modelo Generado o
Una vez determinada la viabilidad de la construcci n de modelos de agentes o mediante la aplicaci n del MABT en el caso de dominios de clasicaci n, denoo o minados dominios est ticos, se plantea la necesidad de aplicar MABT a dominios a en donde la tarea de aprendizaje sea distinta. Por otra parte, el poseer un modelo del agente con el cual se est , o pretende, interactuar puede proporcionar una a ventaja s lo si este modelo es utilizado en el proceso de razonamiento del agente o que los posee. Por esta raz n, adem s de utilizar MABT en dominios con tareas o a de aprendizaje distintas a las denominadas tareas de clasicaci n, en esta serie de o experimentos se utiliza el modelo adquirido por el agente modelador mediante el MCM como reemplazo del motor de inferencia del AGENTE B ( MRA ). El objetivo es comprobar si el comportamiento original del AGENTE A y el comportamiento generado por el modelo son similares.
101
10.2.1.
El dominio seleccionado para evaluar el MABT en este caso es el Simulador Distribuido de Agentes Aut nomos - SimDai [121]. SimDai permite la simulaci n o o de robots aut nomos equipados con una serie de sensores y distintas arquitecturas o de control. La situaci n simulada es el movimiento de un robot en un entorno bidimeno sional en el cual se encuentran presentes obst culos con diversidad de formas. El a objetivo del robot es moverse, de manera eciente, hasta un punto marcado como meta. La Figura 10.3 muestra la descripci n del robot. El mismo posee cinco sensoo res. Tres de ellos informan al robot sobre cu n cerca est n los obst culos (sensores a a a de proximidad). Los otros dos miden cu n lejos se encuentra el robot de la posia ci n nal y cu l es el angulo a ese punto de destino. El robot posee dos ruedas o a que se pueden mover a distintas velocidades v1 y v2 1 . De esta manera, el robot puede llevar a cabo giros. Sin embargo, por razones experimentales, la velocidad de la rueda 1, v1 , se considera constante. En otras palabras, las dos ruedas est n en a movimiento, pero la direcci n del robot se controla mediante v2 . o Con vistas a aplicar MABT, el robot es considerado como el agente a modelar, es decir, el AGENTE A. El control de este agente est basado en el esquema de a Braitenberg [10] en donde las relaciones entre los sensores y los actuadores son denidas por una red de neuronas obtenida mediante Coevoluci n Uniforme [5]. o Como se ha mencionado, la velocidad de una de las ruedas del robot, v1 , se considera constante, y por esta raz n, el objetivo de la red de neuronas es controlar la o velocidad de la rueda dos, es decir, v2 . En cuanto al AGENTE B o agente modelador, este se considera como un robot id ntico al AGENTE A con la salvedad de que es controlado por el modelo adquirie do del AGENTE A. Es decir, el MCM construye off-line el modelo del AGENTE A, m, basado en la traza del comportamiento de este. Posteriormente, m pasa a ser el MRA del AGENTE B. El MCM del AGENTE B utiliza como t cnica de aprendizaje autom tico un e a algoritmo de generaci n de arboles de regresi n y un algoritmo de generaci n de o o o arboles de decisi n, dependiendo de la tarea de aprendizaje, tal y como se describe o m s adelante. a En todos los experimentos realizados en este dominio para estimar la precisi n o en la tarea de generaci n del modelo del AGENTE A, se ha utilizado una validaci n o o cruzada de diez carpetas.
1
La velocidad se encuentra en el rango [-1.0, 1.0].

s1 , s2 , s3 : Sensor de proximidad s4 : Angulo a la meta s5 : Distancia a la meta v1 ,v2 : Velocidad de las ruedas Wij : Pesos entre los sensores y las ruedas
102
Entradas sensoriales:
s5 s1 s3
Wij
s4 s2
v1
Figura 10.3: Descripci n del robot utilizado en SimDai. o
Modelo Basado en Arboles de Regresi n o En la fase del registro de trazas, se han obtenido los datos correspondientes a seis simulaciones del AGENTE A. El n mero total de instancias es de 976 y el valor u a predecir es la velocidad de la rueda dos, v2 , del robot. Para generar el arbol de regresi n se ha aplicado el algoritmo M 5 [111]. La versi n de M 5 utilizada es la o o implementada en W EKA (versi n 3.1.7) [144]. o Modelo Basado en Arboles de Decisi n o Adem s de demostrar la viabilidad de aplicar el MABT a este tipo de domia nios, otro objetivo de estos experimentos es obtener un modelo del AGENTE A m s a f cil de entender si se compara con una red de neuronas. A pesar de que los arboles a de regresi n son relativamente m s f ciles de entender que una red de neuronas, o a a los modelos lineales asociados a cada clase disminuyen en cierta medida su comprensibilidad. Con vistas a superar este problema, se ha aplicado el algoritmo de generaci n de arboles de decisi n C 4.5. Dado que C 4.5 s lo puede trabajar con o o o clases discretas, es necesario transformar los datos correspondientes a la velocidad de la rueda dos, v2 , en datos discretos. Esta discretizaci n ha sido realizada manualo mente tomando en consideraci n la distribuci n de los datos. Se han considerado o o un total de 11 clases que se muestran en la Tabla 10.3. El n mero de instancias utilizadas en estos experimentos es igual que en la u generaci n de arboles de decisi n del punto anterior (976 instancias). o o Una vez que el modelo del AGENTE A, m, ha sido generado, se utiliza este como si fuese el MRA del AGENTE B. Cabe se alar que m es capaz de predecir n valores discretos y la velocidad v2 tiene que ser continua. Por esta raz n, para pao sar de clases discretas a continuas, se reemplaza la predicci n de m por un valor o correspondiente a la media de los datos incluidos en el intervalo discretizado uti-
v2
103
Tabla 10.3: Intervalos de velocidad de la rueda dos (v2 ) y su equivalencia en clases discretas. intervalo -1.0000 -0.7501 a -0.9999 -0.5001 a -0.7500 -0.2501 a -0.5000 -0.0001 a -0.2500 0.0000 0.0001 a 0.2500 0.2501 a 0.5000 0.5001 a 0.7500 0.7501 a 0.9999 1.0000 clase discreta mnima baja medio baja poco baja cerca 0 negativo nula cerca 0 positivo poco alta media alta alta m xima a instancias 158 60 101 58 94 6 102 81 158 145 13
lizado para entrenar. Por ejemplo, para el intervalo comprendido entre 0,5001 y 0,7500 correspondiente a la etiqueta poco baja el valor asignado es 0, 6206 equivalente a la media del valor de la clase de las instancias incluidas en dicho intervalo. Una vez congurado el AGENTE B, se utiliza el simulador para crear situaciones con el n de comparar al AGENTE A con el AGENTE B. Concretamente, se realizaron 50 ejecuciones (simulaciones de b squeda de blancos) tanto para el u AGENTE A como para el AGENTE B, cuyo MRA es m. Cada ejecuci n comienza o desde un punto distinto en un mundo bi-dimensional (Figura 10.4) y consiste en alcanzar la meta de manera eciente. Para comparar el comportamiento del AGENTE B con el comportamiento del agente modelado, AGENTE A, se han utilizado las variables distancia recorrida y tiempo utilizado. La distancia recorrida se reere a la distancia que recorre el robot desde el punto de partida al punto en donde se encuentra el objetivo. De igual forma, el tiempo utilizado representa al tiempo que consume el robot en alcanzar el objetivo. Por razones experimentales el tiempo m ximo est jado a 2000 ciclos. a a
10.2.2.
Resultados
En esta secci n de muestran los resultados obtenidos en el proceso de generao ci n del modelo del AGENTE A por parte del AGENTE B. Adem s, se muestran o a los resultados del proceso de utilizaci n del modelo por parte del AGENTE B. o
104
Figura 10.4: Mundo Bi-dimensional utilizado en SimDai.
Arboles de Regresi n o En la Tabla 10.4 se muestran los resultados que obtiene M 5 en el proceso de generaci n del modelo del AGENTE A. Como se puede apreciar, se obtiene un o coeciente de correlaci n cercano al 1, lo que indica que el modelo adquirido por o el AGENTE B es muy similar al comportamiento del AGENTE A. Por otra parte, en la Tabla 10.5 se muestra el resumen del arbol de regresi n generado por M 5. o Cada nodo hoja del arbol tiene asociado un modelo lineal (Tabla 10.6) que estima el valor de la clase (velocidad de la rueda 2 del robot).
Tabla 10.4: Resultados de la aplicaci n de M 5. o Coeciente de Correlaci n o Media del Error Absoluto Raz Media Error Cuadr tico a 0.9954 0.0342 0.0641
Arboles de Decisi n o En la Tabla 10.7 se muestran los resultados obtenidos al utilizar C 4.5 como t cnica de aprendizaje autom tico dentro del MCM del AGENTE B. Como se puede e a apreciar, tanto C 4.5 como C 4.5- RULES, generan un modelo que, en alrededor del 84 % de los casos, genera la misma salida que el AGENTE A para los mismos
105
Tabla 10.5: Reglas del arbol de regresi n generado por M 5. o
Sensor 1 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 0.0333 > 0.0333 and 0.22 >0.22 and 0.587 >0.22 and 0.587 >0.587 0.193 0.193 0.193 >0.193
Sensor 2 -
Sensor 3 0.233 0.233 0.233 0.233 0.233 0.233 0.233 0.233 > 0.233 0.213 >0.213 -
Sensor 4 -0.841 > -0.841 and -0.743 > -0.743 -0.59 -0.59 -0.59 >-0.59 and -0.453 >-0.453 -0.161 -0.161 -0.161 -0.161 -0.161 >-0.161 and 0.134 >0.134 and 0.711 >0.711 >-0.161
Sensor 5 0.29 0.29 0.29 >0.29 and 0.761 >0.761 and 0.975 >0.975 -
Modelo LM1 LM2 LM3 LM4 LM5 LM6 LM7 LM8 LM9 LM10 LM11 LM12 LM13 LM14 LM15 LM16 LM16
Tabla 10.6: Modelos lineales generados por M 5.

Modelo LM1: LM2: LM3: LM4: LM5: LM6: LM7: LM8: LM9: LM10: LM11: LM12: LM13: LM14: LM15: LM16: LM17: Predicci n o clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = clase = Factor 0.36 0.358 0.0201 0.201 0.886 0.933 0.0814 -0.0041 -0.00956 -0.073 -0.149 -0.427 -0.719 -0.0313 -0.0435 -0.408 -0.839 Sensor 1 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -0.0936 -2.6 -2.23 -1.33 -0.62 -2.87 -2.25 -0.757 -0.126 Sensor 2 +0.0711 +0.129 +0.0288 +0.0751 +0.0365 +0.0365 +0.0257 +0.0202 +0.0155 +0.0441 +0.0065 +0.0065 +0.0065 +0.0897 +0.0879 +0.0364 +0.013 Sensor 3 -0.895 -1.25 -1.2 -1.29 -1.11 -1.11 -0.312 -1.22 -1.14 -0.964 -0.407 -0.424 -0.226 -1.14 -1.11 -0.38 -0.129 Sensor 4 -0.723 -0.668 -1.15 -0.969 -0.427 -0.427 -1 -1.2 -1.12 -1.03 -0.895 -0.488 -0.305 -1.13 -1.11 -0.652 -0.135 Sensor 5 - 0.276 -0.35 -0.423 -0.531 -0.859 -0.943 -0.134 -0.453 -0.166 -0.264 -0.0413 -0.0413 -0.0413 -0.33 -0.329
valores de los atributos de entrada. Estos resultados dan una idea de la precisi n del o modelo, pero no permiten estimar su utilidad en una situaci n real. Por esta raz n o o el modelo, m, se utiliza como si fuese el MRA del AGENTE B como se explic en o la conguraci n experimental. o Como se puede ver en la Figura 10.5, la distancia cubierta por el AGENTE A y el AGENTE B es muy similar. De igual manera, el tiempo consumido en alcanzar la meta, (Figura 10.6) es similar. El AGENTE A no alcanza la meta en una ocasi n o (tiempo > 2000) mientras que el AGENTE B controlado por m, no alcanza la meta
106
Tabla 10.7: Tasa de aciertos (en %) de C 4.5 y C 4.5- RULES en el proceso de generaci n del o modelo. Aciertos/C 4.5 84.44 % 3.8624 Aciertos/C 4.5Rules 84.02 % 4.2424
Promedio Desviaci n o
Tabla 10.8: Ejemplo de reglas generadas por C 4.5- RULES.

Rule 13: sensor5 Rule 1: sensor1 sensor3 sensor4 sensor5 Rule 73: sensor1 sensor2 sensor5 Rule 80: sensor1 Rule 69: sensor1 sensor4 > class = class = > class = > class = > > class = 0.940451 null [79.4 %] 0.08 AND 0.426667 AND -0.863739 AND 0.298303 very-high [89.9 %] 0.346667 AND 0.16 AND 0.141961 AND very-low [98.1 %] 0.573333 super-low [98.0 %] 0.28 AND -0.039041 super-low [97.1 %] ...
1600 1400 1200 distancia cubierta 1000 800 600 400 200 0 0 5 10 15 20 25 30 ejecucin 35 Agente B 40 45 50
Agente A
Figura 10.5: Distancia recorrida por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4.5) antes de alcanzar el objetivo.

2200 2000 1800 1600 1400 tiempo 1200 1000 800 600 400 200 0 0 5 10 15 20 25 30 ejecucin 35 Agente B 40 45 50
107
Agente A
Figura 10.6: Tiempo consumido por el AGENTE A y el AGENTE B (controlado por el modelo generado utilizando C 4.5) en alcanzar el objetivo.
en dos ocasiones. Estos resultados indican que a pesar de que la precisi n en la o construcci n del modelo no sobrepasa el 85 %, el conocimiento reejado en el o modelo captura en gran medida el comportamiento del AGENTE A.
10.3.
Modelado en Entornos Din micos a
La Robot World Cup Initiative (RoboCup) [81] es una iniciativa internacional que busca promover la investigaci n en Inteligencia Articial y Rob tica propoo o niendo un problema est ndar donde un amplio rango de tecnologas pueden ser a integradas y estudiadas. La RoboCup ha seleccionado el f tbol como t pico cenu o tral de la investigaci n, teniendo como objetivo innovaciones que puedan ser aplio cadas en problemas sociales signicativos y de la industria. La ultima meta del proyecto de la RoboCup es que para el a o 2050 se haya desarrollado un equipo n de robots humanoides totalmente aut nomos que pueda ganar en un partido contra o el campe n del mundo de f tbol de humanos. Entre las tecnologas que pueden ser o u integradas en un equipo de robots est n el dise o de agentes aut nomos, colaboraa n o ci n multiagente, adquisici n de estrategias, razonamiento en tiempo real, rob tica o o o y fusi n de sensores. o A pesar de que el objetivo nal de la RoboCup contempla el desarrollo de robots , actualmente existen simuladores que permiten el desarrollo de investigaciones enfocadas, sobretodo, en la adquisici n de estrategias y el comportamiento o de los agentes y no en las caractersticas fsicas de estos. La liga o categora de f tbol simulada se basa en el Soccer Server System [100]. Este es un sistema que u permite que dos equipos de 11 agentes, implementados en diversos lenguajes de programaci n, jueguen un partido de f tbol. o u
108
Para ello, se utiliza una arquitectura cliente-servidor. El servidor, proporciona un campo virtual y simula los movimientos de los jugadores y el bal n. La comunio caci n entre el servidor y los clientes se realiza va sockets UDP/IP. As, los clientes o pueden ser implementados en cualquier arquitectura que permita comunicaciones de este tipo. Los clientes denen el comportamiento de los jugadores, controlando sus movimientos de forma que cada uno de ellos dirige a un jugador. Mediante la conexi n o UDP/IP, recibe informaci n sensorial (visual, auditiva y sobre el estado de su cuero po) desde el servidor, y tambi n a trav s de dicha conexi n enva sus ordenes, o lo e e o que es lo mismo, las acciones que quiere ejecutar sobre el entorno. La informaci n visual que los agentes reciben del entorno es variada. Pueden o recibir informaci n sobre la posici n del bal n, de los jugadores, y sobre marcas o o o situadas por el campo (ver Figura 10.7) que dan idea a los jugadores de d nde o est n situados los diversos elementos del entorno (como las porteras y el centro a del campo). Toda esta informaci n que reciben los agentes es subjetiva, es decir, o relativa a su propia posici n. Esto signica que un agente no recibe nunca un meno saje visual de que, por ejemplo, el bal n est en la posici n x e y del campo, sino o a o que el bal n est a una distancia d de el, y que lo est viendo con un angulo a. o a a Si se a ade a esto que la informaci n que se recibe del simulador, se recibe con un n o ruido proporcional a la distancia de los objetos, se comprende una de las principales dicultades del dominio consistente en obtener una representaci n completa de o la realidad.
(flag t l 50) (flag t l 40) (flag l t 30) (flag l t) (line l) (flag l t 20) (flag p l t) (flag p r t) (flag t l 30) (flag t l 20) (line t) (flag c t) (line r) (flag r t 20) (flag t l 10) (flag t 0) (flag t r 10) (flag t r 20) (flag t r 30) (flag t r 40) (flag r t) (flag r t 30) (flag t r 50)
(flag l t 10) (flag g l t) (flag l 0) (goal l) (flag g l b) (flag p l c) (flag c) (flag p r c) (flag g r t) (goal r) (flag g r b)
(flag r t 10)
(flag r 0)
(flag l b 10)
(flag r b 10)
(flag l b 20)
(flag p l b)
(flag p r b)
(flag r b 20)
(flag l b 30)
(line b) (flag l b) (flag b l 40) (flag b l 20) (flag b l 30) (flag b l 10) (flag b 0) (flag b r 10) (flag c b) (flag b r 20) (flag b r 30) (flag r b) (flag b r 40) (flag b r 50)
(flag r b 30)
Lmite fsico
(flag b l 50)
Figura 10.7: Marcas o banderas del campo de f tbol dentro del simulador de la RoboCup. u
109
El simulador de f tbol ha sido seleccionado como dominio de prueba del MABT u con vistas a determinar su aplicabilidad en entornos din micos. a Para determinar que el conocimiento generado por el agente, o J UGADOR B es capaz de modelar el comportamiento del agente o J UGADOR A, considerado como una caja negra, se han llevado a cabo dos etapas, la generaci n de trazas y el o proceso de modelado. El proceso de generaci n de trazas se detalla a continuaci n: o o 1. Selecci n de un jugador de un equipo situado entre los mejores de las ultimas o competiciones como J UGADOR A. Al seleccionar un jugador de un equipo situado entre los mejores, se asegura que el comportamiento de este sea correcto en una situaci n dada. Es estos experimentos se ha utilizado un jugao dor del equipo TsinghuAeolus [148], equipo campe n de la competici n del o o a o 2001. n El J UGADOR A es utilizado en una situaci n en donde no tiene contrarios o ni compa eros en el terreno de juego, puesto que se desea determinar si n se puede obtener un modelo correcto del oponente en el caso m s sencillo a posible. Su objetivo es dirigir el bal n hacia la portera contraria y disparar o el bal n con el n de marcar gol. o
2.
Una vez que ha sido adquirida la traza del J UGADOR A, se procede a obtener el conocimiento que intenta modelar el comportamiento de este. El detalle de la fase de construcci n del modelo se detalla a continuaci n: o o 1. Por razones experimentales la experimentaci n relacionada con el J UGADOR o B se limita a la generaci n del modelo del J UGADOR A mediante el m dulo o o de construcci n del modelo (MCM). Es decir, el J UGADOR B no llega a ser o implementado en el simulador. Se han dise ado dos tareas de aprendizaje: modelado simple y el moden lado jer rquico. En el modelado simple, se utiliza C 4.5 como t cnica de a e aprendizaje autom tico para generar el modelo, mientras que en el modelaa do jer rquico se utilizan C 4.5 y M 5. Ambos algoritmos de aprendizaje est n a a implementados en W EKA [144].
2.
10.3.1.
Modelado Simple
Como primera aproximaci n al problema, se ha aplicado el enfoque utilizado o en las secciones anteriores con el n de obtener el modelo del J UGADOR A. En este caso, s lo se ha utilizado un conjunto de entrenamiento con 291 instancias o correspondientes a medio tiempo de un partido de f tbol simulado. u
110
La informaci n que se ha utilizado para generar el modelo del J UGADOR A o corresponde a la informaci n en bruto que recibe este a trav s de sus sensores. o e Se han utilizado 120 atributos con informaci n sobre la posici n relativa del J U o o GADOR A con respecto a las banderas de localizaci n y lneas del terreno de juego o (distancia y direcci n a cada punto y lnea en un instante de tiempo dado). Adem s, o a cuatro atributos relativos a la posici n del bal n (distancia, direcci n, cambio de o o o radio, cambio de angulo). Al igual que los atributos relacionados con el terreno de juego, los atributos relacionados con el bal n son recibidos a partir del sensor de o visi n. Por otra parte, la informaci n sobre el sensor del cuerpo est compuesta o o a por 16 atributos (el tiempo de simulaci n, dos atributos relacionados con la fuerza, o dos atributos relacionados con el tipo de visi n, dos atributos relacionados con la o velocidad, el angulo de la cabeza, y ocho contadores de acciones realizadas). En resumen, se ha utilizado un total de 140 atributos. Un jugador puede llevar a cabo entre 6 y 7 acciones distintas dependiendo del tipo de jugador (i.e. catch, dash, kick, move, say, turn y turnneck). Algunas de estas acciones se pueden llevar a cabo en el mismo instante de tiempo. Adem s, la maa yora de estas acciones tiene asociado uno o varios par metros num ricos. En estos a e experimentos la clase de cada instancia es la combinaci n de las acciones que se o pueden ejecutar en el mismo ciclo (e.g. dash turn neck) con el correspondiente valor num rico si este es el caso (e.g. dash100 turn neck103,13). Estos valores e num ricos son obtenidos discretizando los valores originales con una variante del e algoritmo de Lloyd generalizado [44]. Los resultados de este experimento est n etiquetados como ejecuci n 01 en a o la Tabla 10.9. El MCM del J UGADOR B obtiene m s de un 45 % de precisi n en a o la predicci n de la acci n que va a ejecutar el oponente asociada con el par metro o o a discretizado. Si se considera que existen 51 clases y que se utiliza como entrada 140 atributos, los resultados se pueden catalogar como regulares. Todos los resultados reejados en la Tabla 10.9 han sido obtenidos mediante una validaci n cruzada de o diez carpetas. Con el prop sito de mejorar los resultados anteriores, se increment el n meo o u ro de instancias aumentando la duraci n del partido. Adicionalmente se a adieron o n dos nuevos atributos: las coordenadas X e Y dadas por la arquitectura del J UGA DOR A mediante un pre-procesado de los datos en bruto recibidos a trav s de los e sensores. De esta manera, se a ade informaci n sobre la posici n del J UGADOR A n o o en lugar de que el modelo intente deducirla mediante los atributos de banderas del campo. Como consecuencia de la introducci n de estos nuevos atributos, el n meo u ro de total de atributos se reduce de manera dr stica al eliminar la mayora de los a que est n relacionados con las banderas de campo (s lo se conservan los atributos a o relacionados con el centro del campo y los relacionados con el centro de ambas porteras). En esta ejecuci n el n mero de clases se incrementa debido a la exis o u tencia de un mayor n mero de instancias, y el rango num rico tambi n crece. Se u e e aplic nuevamente la variante del algoritmo de Lloyd generalizado para discretizar o
111
las clases continuas. Los resultados de este experimento se pueden apreciar en la Tabla 10.9 etiquetados como ejecuci n 02. En este caso se logra un 55.72 % de o precisi n, a pesar del incremento en el n mero de clases. o u En el an lisis del modelo obtenido en este experimento, se observ que atria o butos con un gran n mero de valores desconocidos generaban un modelo muy u difcil de entender. Por lo tanto, se sustituyeron los valores desconocidos por valo res num ricos muy elevados para representar objetos que se encontraban fuera del e campo de visi n del J UGADOR A (por ejemplo, una bandera que se encuentra muy o lejos para ser vista). Llevando a cabo este reemplazo, la precisi n en la predicci n o o permaneca casi sin variaci n (55.57 %) pero el modelo obtenido tena m s senti o a do. Los resultados de esta ejecuci n se muestran en la Tabla 10.9 etiquetados como o ejecuci n 03. o Al analizar la matriz de confusi n de la ejecuci n 03, se observ que muo o o chas clases solo estaban instanciadas en pocos casos, con lo cual se haca muy difcil obtener reglas para la clasicaci n de estas instancias. Por esta raz n se o o decidi realizar pruebas limitando la tarea de aprendizaje a la predicci n de la o o acci n, sin incluir el par metro correspondiente, lo que provoca una gran disminuo a ci n en el n mero de clases. Por ejemplo, todas las instancias con clase del tipo o u dash100 turn neck103,13 son compactadas a dash turn neck, para con posterioridad, llevar a cabo el aprendizaje de los par metros. El n mero de clases a u es de 7: narrowhigh-turn-turnneck, wide-high, dash, dash-turnneck, kick, turn, y turnneck. La clase dash-turnneck quiere decir que las acciones se llevan a cabo de manera concurrente. Como en la ejecuci n anterior, se llev a cabo la experimentao o ci n reemplazando los valores desconocidos. La precisi n en la predicci n mejora o o o hasta el 69.66 % (ejecuci n 04, con valores desconocidos) y 72.82 % (ejecuci n o o 05, sin valores desconocidos), como se muestra en la Tabla 10.9. Esta precisi n en o la predicci n es razonable dado el nivel de ruido que existe en el simulador. o
Tabla 10.9: Resultados obtenidos en el proceso de generaci n del modelo del AGENTE A. o * sin valores desconocidos.
Ejecuci n o 01 02 03* 04 05*
Instancias 291 2595 2595 2595 2595
Atributos 140 32 32 32 32
Clases 51 69 69 7 7
Precisi n o 45.36 % 55.72 % 55.57 % 69.66 % 72.82 %

entrada de sensores
112
Modelos
^ T T (traza) Aprendizaje de Reglas Modelador de Acciones
^ Tdash ^ T turn
acciones Aprendizaje de Parmetros
...
estimador de parmetro para la accin DASH
estimador de parmetro para la accin TURN
...
dash + parmetro
turn + parmetro
Modulo de Razonamiento
accin a realizar
Figura 10.8: Arquitectura del aprendizaje jer rquico. a
10.3.2.
Modelado Jer rquico a
Una vez analizados los resultados obtenidos, se decidi realizar un aprendizaje o de las acciones y los par metros por separado. A este tipo de aprendizaje secuencial a se le ha llamado aprendizaje jer rquico. En la Figura 10.8 se muestra la arquitectura a general del modelado jer rquico. a Conjuntamente, se decidi aprender s lo las acciones principales (view, dash, o o kick y turn) que son mutuamente excluyentes ya que son las m s relevantes a la a hora de utilizar el modelo aprendido. En estos experimentos se han utilizado 32 atributos (las banderas de campo principales e informaci n del sensor de cuerpo), o al igual que en las ejecuciones 02,03,04 y 05 reejadas en la Tabla 10.9. Primero, se utiliza el conjunto completo de instancias de entrenamiento para obtener el modelo que es capaz de predecir la acci n del oponente utilizando para o ello C 4.5. Los resultados de esta experimentaci n est n reejados en la Tabla 10.10 o a etiquetados como ejecuci n 01. Se obtiene un 72.74 % de precisi n, resultado simio o lar las ejecuciones 04 y 05 mostradas en la Tabla 10.9. Despu s, para cada acci n e o se genera un arbol de regresi n utilizando el algoritmo M 5, con el n de modelar o los par metros (con valores continuos). Estos par metros son: Turn-Angle (TA), a a Dash-Power (DP), Kick-Power (KP) y Kick-Direction (KD). Los resultados son mostrados en la Tabla 10.10, etiquetados como ejecuciones 02 a la 05. Los resultados para Dash-Power (DP) y Kick-Power (KP) se pueden considerar como buenos (0.98 C.C. y 0.83 C.C., respectivamente). Pero en los par metros rea
113
Tabla 10.10: Tasa de acierto (en % y coeciente de correlaci n - C.C.) obtenidas por las o distintas t cnicas de aprendizaje autom ticos utilizadas en la generaci n del modelo. Clase e a o C indica clase continua.
Ejecuci n o 01 02 03 04 05 06 07 08 09 Predicci n o acci n o principal TA DP KP KD KD TA KD TA Algoritmo C 4.5
M5 M5 M5 M5 C 4.5 C 4.5
Instancias 2594 321 1331 929 929 929 321 929 321
Clases 4 C C C C 5 5 5 5
Precisi n o 72.74 % 0.52 C.C. 0.94 C.C. 0.83 C.C. 0.58 C.C. 62.10 % 62.30 % 45.64 % 48.91 %
NB NB
lacionados con angulos, Turn-Angle (TA) y Kick-Direction (KD), los coecientes de correlaci n son peores (0.52 C.C. y 0.58 C.C., respectivamente). Por esta raz n, o o se han discretizado, tomando en cuenta la distribuci n de los datos, los valores de o estos par metros y se ha aplicado sobre estos datos dos algoritmos (C 4.5 y Naive a Bayes - N B) que trabajan con clases discretas. Despu s de la discretizaci n, ree o o a -50o ), centro-izquierda (50o a 100o ), centro-derecha sultan 5 clases: centro (50 (-50o a -100o ), izquierda (100o a 180o ), y derecha (-100o a -180o ). Se trata de discretizar de la mejor manera estos angulos en donde la predicci n del comportao miento del oponente es m s util. Por ejemplo, se considera que es mas util predecir a la direcci n del movimiento (o la direcci n de un disparo) cuando el oponente se o o dirige hacia adelante que cuando va hacia atr s. Los resultados son denominados a ejecuciones 06, 07, 08, y 09 en la Tabla 10.10. Estos muestran que utilizando C 4.5 se obtienen mejores resultados (62.10 % KD y 62.30 % TA) que con Naive Bayes (45 % KD y 48.91 % TA). Tambi n se quieren comparar los resultados sobre e el conjunto de datos discretizados con los resultados obtenidos sin la discretizaci n. Esta tarea resulta difcil, dado que los resultados sobre datos discretizados o obtenidos utilizando C 4.5 son menos precisos que los valores dados por el modelo generado por M 5, y por lo tanto la predicci n sobre el comportamiento del opoo nente posee m s incertidumbre. Pero asumiendo que las 5 clases discretas (centro, a centro-derecha, etc) son todo lo que se necesita a la hora de utilizar el modelo, entonces M 5 y C 4.5 pueden ser comparados discretizando la salida de M 5 en 5 clases y calculando el porcentaje de precisi n. Para llevar a cabo esta comparaci n, se ha o o dividido aleatoriamente las instancias en conjunto de entrenamiento y conjunto de prueba (80 %/20 %). En relaci n al Turn-Angle, C 4.5 obtiene 64 % mientras que o M 5 da un 54 % de precisi n. Resultados similares se han obtenidos en la predico ci n de Kick-Direction: 61 % para C 4.5 y 44 % para M 5. De esta manera, y si se o considera que una salida discreta es lo que hace falta a la hora de la utilizaci n del o modelo obtenido, C 4.5 es la mejor opci n. o
Captulo 11
Evaluaci n: MABO o
Es evidente que en dominios como el simulador de f tbol de la RoboCup, en u donde el agente modelador no tiene acceso directo a las entradas y las salidas del agente a modelar, MABT solo puede ser aplicado con prop sitos experimentales. o Dado que esta situaci n es com n a la gran mayora de los dominios en donde o u interact an agentes, es necesaria la utilizaci n de MABO con la nalidad de llevar u o a cabo la tarea de modelado en este tipo de dominios. En este captulo se muestran los resultados obtenidos en las diferentes etapas de la aplicaci n de MABO al dominio del simulador de f tbol. o u
11.1.
El MABO consta de tres m dulos: m dulo de etiquetado de acciones, m dulo o o o de construcci n del modelo y el m dulo de razonamiento. Dado que cada uno de o o estos m dulos involucra una serie de experimentos, se ha creado una situaci n o o simulada com n con el n de determinar la utilidad de MABO en este dominio. u A diferencia de los experimentos realizados sobre el dominio del simulador de f tbol aplicando el MABT, en este caso, las entradas que son consideradas no son u las entradas directas que recibe el agente a trav s de los sensores. En este caso, tanto e en la creaci n del MEA como en el MCM y el MRA, se aprovecha la arquitectura del o agente modelador el cual realiza un procesado de las entradas de los sensores con la nalidad de utilizar informaci n de m s alto nivel. o a El AGENTE A utilizado en estos experimentos es un portero del equipo ORCA [99] y el AGENTE B o agente modelador es un delantero basado en el c digo o del equipo CMUnited-99 [125]. El objetivo del AGENTE B es conducir la pelota hacia la portera que deende el AGENTE A con el n de marcar un gol. Por el contrario, el AGENTE A debe evitar que el AGENTE B marque goles.
114
CAPITULO 11. EVALUACION: MABO
115
11.2.
M dulo de Etiquetado de Acciones o
Los datos utilizados para la creaci n del MEA son una combinaci n de la pero o cepci n acerca del AGENTE A que posee el AGENTE B y la acci n real llevada o o a cabo por el AGENTE A basada en registros de interacciones previas (partidos anteriores). Para generar los datos necesarios para la construcci n del MEA, se o simul una situaci n en donde interviene un atacante (AGENTE B y un portero o o AGENTE A. Mientras ambos agentes est n interactuando, se lleva a cabo un regisa tro del comportamiento de estos. A partir de la traza generada por el AGENTE B, se genera un conjunto de entrenamiento con un total de 68 atributos (ver Ap ndice C). e De estos atributos, 44 son datos acerca del AGENTE A y del entorno en dos instancias de tiempo consecutivas, t y t 1. El resto de los atributos, 24, son atributos calculados mediante la comparaci n de los atributos relacionados con el AGENTE o A y el entorno. Por otra parte, la clase asociada a cada instancia es tomada de la traza del comportamiento del AGENTE A. Los valores de la clase puede ser turn, kick, dash y none. Adem s existe otra clase denominada desconocida que es asiga nada a una instancia para la cual no se posee la clase real por motivos del ruido existente en el dominio. Una vez que se han generado los datos, se procede a generar los clasicadores capaces de deducir las acciones realizadas por el oponente. Cabe mencionar que para la creaci n MEA se ha seguido el enfoque jer rquico o a descrito en la secci n 10.3. Para generar el clasicador que etiqueta la clase prino cipal se ha utilizado PART mientras que los par metros num ricos son etiquetados a e por un clasicador generado por M 5. Los resultados obtenidos en la generaci n de o estos clasicadores se detallan en la Tabla 11.1.
Tabla 11.1: Resultados de la creaci n de los clasicadores que forman el n cleo del MEA. o u
Tarea Instancias Atributos Principal 5095 69 Turn 913 69 Dash 3711 69 C.C.: coeciente de correlaci n o
Clases 5 continua continua
Precisi n o 70.81 % 0.007 C.C. 0.21 C.C.
Existen tres las en la Tabla 11.1. La primera de estas reeja la predicci n de o la acci n del AGENTE A, mientras que las otras dos las muestran la predicci n o o de los par metros num ricos de dos acciones, turn y dash. Dado que el AGEN a e TE A es un portero, por razones experimentales, s lo se consideran relevantes los o par metros de estas acciones y no se consideran los par metros num ricos asociaa a e dos a la acci n kick. Las columnas representan el n mero de instancias utilizadas o u en la tarea de aprendizaje, el n mero de atributos utilizados y el n mero de clases u u (continua para clases num ricas). En la ultima columna se muestra la precisi n obe o
116
tenida en la predicci n. Para los par metros num ricos, se muestra el coeciente de o a e correlaci n. Estos resultados han sido obtenidos utilizando una validaci n cruzada o o estraticada de 10 carpetas. El clasicador generado para etiquetar las acciones del AGENTE A y que forma parte del MEA, obtiene un 70 % de precisi n, lo cual es un resultado aceptable si o se considera que el simulador a ade ruido a la ya incierta tarea del etiquetado de la n acci n. Por otro lado, los resultados obtenidos en la predicci n de los par metros o o a num ricos asociados a las acciones son pobres. Quiz s las t cnicas utilizadas para e a e construir los modelos num ricos no son las m s apropiadas, o quiz s se pueden e a a obtener mejores resultados discretizando los valores continuos de la clase. Generalmente no es necesario predecir los valores num ricos con gran precisi n; una e o estimaci n aproximada es suciente si se busca tomar ventaja de la predicci n. Por o o ejemplo, puede ser suciente predecir si el portero va a girar hacia la derecha o a la izquierda en vez de predecir el angulo exacto en que va a girar. En estos experimentos se utilizar solo la predicci n de la acci n principal con la nalidad de a o o llevar a cabo una acci n en una situaci n dada. o o
11.3.
M dulo de Construcci n del Modelo o o
Una vez que han sido generados los clasicadores que son el n cleo del MEA, u se incorpora este a la arquitectura del agente con el n de generar informaci n o sobre el oponente. La situaci n simulada es la misma que la utilizada en la conso trucci n del MEA. De igual forma, se han utilizado los mismos atributos que al o construir el MEA con la unica salvedad de que esta vez se incluyen los atributos correspondientes a la clasicaci n de la acci n llevada a cabo por el oponente. Un o o total de tres atributos por cada uno de los dos instantes de tiempo tomados en consideraci n son a adidos. En cada instante de tiempo se incluyen la acci n realizada o n o por el oponente y sus dos par metros num ricos asociados. Por otra parte, se sua e prime el atributo OpponentNumber por considerarlo de poca utilidad en la tarea de aprendizaje. En tanto que el n mero de clase se ve incrementado en uno ya que se u a ade la clase no hay que se asigna a las instancias a las cuales el MEA no puede n clasicar. Al igual que en el proceso de creaci n del MEA se ha utilizado PART y M 5 para o construir los modelos. Los resultados obtenidos a la hora de crear estos modelos se encuentran reejados en la Tabla 11.2. Como se puede apreciar, el clasicador que genera el MCM con la nalidad de predecir la acci n que llevar a cabo el AGENTE o a A, obtiene una precisi n por encima del 80 % lo cual es un resultado aceptable o en esta tarea. Por otra parte, los clasicadores generados por el MCM para llevar a cabo la predicci n de los par metros num ricos asociados a las acciones turn y o a e dash obtienen resultados mejorables.
117
Tabla 11.2: Resultados de la creaci n de los clasicadores que forman parte del modelo o del AGENTE A llevado a cabo por el MCM.
Tarea Instancias Atributos Principal 5352 73 Turn 836 73 Dash 4261 73 C.C.: coeciente de correlaci n o
Clases 6 C C
Precisi n o 81.13 % 0.67 C.C. 0.41 C.C.
11.4.
11.4.1.
M dulo de Razonamiento o
Utilizaci n del Modelo o
Una vez que el J UGADOR B ha adquirido el modelo, m, del J UGADOR A y ha sido incorporado a su arquitectura (probablemente dentro de un m dulo de razoo ste puede ser utilizado para predecir las acciones del oponente en una namiento), e situaci n dada. La tarea seleccionada para probar el modelo adquirido es cuando o disparar [124]. Cuando el jugador atacante se aproxima a la portera, este tiene que decidir si dispara a la portera o si sigue avanzando con el bal n. En este caso, el o AGENTE B (el atacante) tomar esa decisi n basado en el modelo del comportaa o miento del portero (AGENTE A). Cuando decide disparar, el AGENTE B primero selecciona un punto dentro de la portera como el blanco del lanzamiento. En este caso, un punto a cada lado la portera. El agente entonces considera su propia posici n y la posici n del portero o o para seleccionar que punto ser el blanco del lanzamiento. Una vez que el agente a esta cerca de la portera, utiliza el modelo del portero construido por el MCM con el prop sito de predecir la reacci n del portero y decide si disparar o no en un instante o o de tiempo dado. Por ejemplo, si se predice que el portero permanecer quieto, el a atacante avanza con el bal n hacia la portera. o Con el prop sito de estimar la efectividad del MABO en un partido de f tbol o u simulado, se han realizado 100 simulaciones en donde solo dos jugadores est n a presentes en el terreno de juego. Para cada simulaci n, el atacante (AGENTE B) y o el bal n son colocados en 30 posiciones diferentes del campo seleccionadas aleatoo riamente. Esto hace un total de 3000 oportunidades de ataque. El portero se coloca cerca de la portera. La tarea del atacante es marcar gol mientras que la del portero es evitarlo. Para probar la utilidad del modelo se compara a un atacante que utiliza el modelo del portero con un atacante que no utiliza dicho modelo. En todas las situaciones, el atacante conduce el bal n hacia la portera hasta que decide cu ndo disparar. El o a delantero que no utiliza el modelo decide cu ndo disparar bas ndose s lo en la disa a o
118
tancia hasta la portera, mientras que el atacante que utiliza el modelo, considera la distancia a la portera y la predicci n de la acci n del portero. o o En la Figura 11.1 se muestra la situaci n simulada. La distancia a la cual el o atacante toma de decisi n de disparar es de 25 metros. Por otra parte el blanco de o lanzamiento depender de la posici n del portero. Si el angulo que hace el portero a o con el blanco de lanzamiento m s cercano al delantero es inferior a 20o , el disparo a se dirige a ese punto en concreto. En caso contrario se elegir como blanco de a lanzamiento el lado opuesto de la portera. En el caso del atacante que utiliza el modelo, adem s de la distancia, utiliza la predicci n de la acci n que llevar a a o o a cabo el portero. Es decir, si el atacante se encuentra dentro del area que comprende los 25 metros desde el centro de la portera, y el modelo predice que el portero avanzar hacia su posici n (realizar un dash suponiendo que la direcci n es hacia a o a o el bal n), el atacante llevar a cabo el disparo, en caso contrario seguir avanzando o a a con el bal n. Adicionalmente, se ha jado un area de 15 metros desde el centro o de la portera en donde el atacante disparar siempre que est en ella, ya que se a e encuentra muy cerca del portero el cual puede evitar que siga avanzando.
25 m.
15 m.
blanco de lanzamiento portero atacante baln
Figura 11.1: Situaci n simulada para estimar la utilidad del modelo del portero adquirido o por el atacante.
Los resultados obtenidos en la realizaci n de estos experimentos se muestran o en la Tabla 11.3. Como muestran los resultados, la media de goles utilizando el modelo es superior a la media de goles sin utilizar el modelo. Estos resultados pueden ser resumidos como que, de cada 30 disparos, un gol extra es marcado si se utiliza el modelo. Adem s, los tiros dirigidos hacia fuera de la portera se reducen si se utia
119
Tabla 11.3: Resultados de comparativos de la utilizaci n del modelo. o
Delantero sin modelo con modelo
Media de Goles 4.65 5.88
Media de tiros fuera 11.18 10.47
liza el modelo. Se ha realizado un prueba t-test para determinar si estas diferencias son signicativas con un = 0,05. Los resultados demuestran que s existe di ferencia signicativa entre utilizar el modelo o no. A pesar de que el AGENTE B utiliza de una manera muy simple el modelo del AGENTE A, se obtiene una mejora signicativa.
11.4.2.
Utilizaci n Autom tica del Modelo o a
En el apartado anterior se utiliz el modelo del AGENTE A para ayudar al o AGENTE B a decidir que acci n ejecutar. Pero la estrategia era ja y programada o a mano. En este apartado se quiere generar de manera autom tica dicha estrategia a mediante la utilizaci n de t cnicas de aprendizaje autom tico. As pues, con vistas o e a a utilizar de forma autom tica el modelo del AGENTE A adquirido por el AGENTE a B, se llev a cabo un nuevo experimento en donde la decisi n de disparar a poro o tera o seguir avanzando se realiza de manera autom tica mediante un clasicador a (CAu ). Al igual que en la secci n anterior, el modelo del AGENTE A y CAu son s lo o o una parte del MRA ya que este se basa, en gran medida, en la arquitectura del agente modelador. Para construir CAu es necesario generar una gran cantidad de datos. El proceso llevado a cabo con vistas a generar los datos necesarios para la construcci n de o CAu se detalla a continuaci n: o La situaci n simulada para generar los datos es la misma que se utiliz en o o la secci n 11.4.1. Un atacante (agente modelador) y un portero (agente a o modelar) interact an un n mero elevado de veces. u u Una vez que el AGENTE B se encuentra en el area de 25 metros, decide aleatoriamente si disparar o no. Si al disparar a portera, el AGENTE B marca gol, el ejemplo es considerado como positivo. En caso contrario se considera negativo. Cada ejemplo est formado por 18 atributos (ver Tabla 11.4) que correspona den a los valores de algunas variables del entorno adem s de las predicciones a
120
Tabla 11.4: Atributos utilizados en la creaci n del CAu . o

Nombre BallKickable OpponentX OpponentY OpponentDistance BallX BallY MyX MyY Distance RM Their Goal Distance RM LF Flag Distance RM RF Flag AngleFromBody RM Their GR Flag LastAction LastAngle LastPower OpponentActionPrediction OAPrediction OPPrediction class Descripci n o se puede disparar el bal n? o coordenada X del oponente coordenada Y del oponente distancia al oponente coordenada X del bal n o coordenada Y del bal n o coordenada X del agente modelador coordenada Y del agente modelador distancia hasta la portera distancia al poste izquierdo de la portera distancia al poste derecho de la portera angulo a la portera ultima acci n realizada o angulo de la ultima acci n o fuerza de la ultima acci n o predicci n de la acci n del oponente o o predicci n de el angulo de la acci n del oponente o o predicci n de la fuerza de la acci n del oponente o o positivo si se marca gol, negativo en caso contrario
llevadas a cabo por el modelo del AGENTE A en el instante de tiempo en que realiza el disparo. Adem s de estos atributos, cada instancia es etiquetada a positivo o negativo seg n sea el caso. u Una vez generado los datos, se utiliza un algoritmo de aprendizaje generar el CAu . En este caso se ha utilizado el algoritmo de generaci n de reglas o PART [47]. Por ultimo, se incorpora el CAu generado a la arquitectura del AGENTE B para decidir cu ndo disparar. a Puesto que se quiere determinar la inuencia de las predicciones realizadas por el modelo del AGENTE A incorporado en la arquitectura del AGENTE B, se han realizado experimentos en donde no se incluyen estas. De esta manera, el clasicador es generado a partir de 15 atributos y la clase. La distribuci n original de los datos generados en el proceso de simulaci n o o posee 7414 casos negativos y 2082 casos positivos. Al aplicar PART, se lograba un porcentaje de aciertos del 77.85 %. Pero al analizar la matriz de confusi n, esta o revela que la practica totalidad de los ejemplos eran clasicados como negativos. Por esta raz n, se decidi incrementar el n mero de instancias positivas cuadrio o u plicando las existentes para hacer un total de 8328 instancias positivas. El nuevo conjunto de datos posee 15742 instancias y el n mero de atributos es 19 cuando se u utilizan las predicciones del modelo y de 16 cuando no se utilizan. PART obtiene un 63.49 % de aciertos sobre el conjunto de datos que no incorpora las predicciones del modelo y un 68.06 % sobre el conjunto de datos que si las incorpora. Estos
121
resultados y el an lisis del conjunto de reglas generados, indican que la utilizaci n a o de las predicciones inuye positivamente a la hora de generar el CAu . Los resultados obtenidos en la generaci n del CAu muestran que la utilizaci n o o del modelo del AGENTE A incrementa el porcentaje de aciertos en el proceso de decisi n de si disparar o no (positivo y negativo respectivamente). Pero como se o quiere determinar si este clasicador es util con esa precisi n, se incorpora este a o la arquitectura del AGENTE B. Una vez que el CAu es parte de la arquitectura del AGENTE B, se utiliza este en el simulador con las mismas condiciones en las cuales se evaluaron el delantero sin modelo y con modelo cuyos resultados se reejan en la secci n anterior. En la Tabla 11.5 se muestran los resultados obtenidos por el o delantero sin modelo, el delantero con modelo y el delantero con modelo y el CAu , el cual determina la acci n a llevar a cabo. o
Tabla 11.5: Resultados comparativos de la utilizaci n autom tica del modelo. o a
Delantero sin modelo con modelo con modelo + CAu
Media de Goles 4.65 5.88 5.97
Media de tiros fuera 11.18 10.47 9.61
Como se puede apreciar, el AGENTE B que utiliza autom ticamente el modea lo mediante el CAu obtiene un media superior de goles. Sin embargo al aplicar un t-test con una signicaci n del 95 %, no existe diferencia signicativa con el o AGENTE B que utiliza el modelo mediante una programaci n realizada a mano. o Por otra parte, la utilizaci n del modelo con CAu por parte del AGENTE B es sigo nicativamente mejor que no utilizar modelo. En cuanto a la media de tiros fuera, el agente que utiliza el modelo y el CAu reduce de manera signicativa estos si se compara con cualquiera de los otros dos agentes. Estos resultados indican que la utilizaci n del CAu por parte del AGENTE B, obtiene resultados, al menos, como parables a la utilizaci n del modelo mediante la programaci n del comportamiento o o realizado por un experto.
Captulo 12
Conclusiones y Trabajos Futuros

En esta parte de la tesis se han presentado dos enfoques para la obtenci n del o modelo de un agente basado en la observaci n de su comportamiento. En entornos o en donde intervienen agentes, el conocimiento que se posea sobre estos proporciona una clara ventaja al agente que es capaz de adquirir dicho conocimiento. Existen diversas formas de obtener el modelo de un agente. Algunas de ellas equiparan las observaciones realizadas sobre el comportamiento del agente con modelos previa mente construidos. Otras, asumen que el agente se comporta de manera optima y parten de esta suposici n para construir un modelo. Una manera de modelar el o comportamiento de un agente es considerar a este como una caja negra y realizar el modelado intentando inferir la relaci n existente entre las sus entradas y salio das. Este tipo de modelado, conocido como modelado de agentes entrada/salida (IOAM por sus siglas en ingl s), ha sido aplicado con exito en el area de modelado e de usuarios. En esta tesis se presentan dos esquemas para el modelado de agentes los cu les a entran dentro de las t cnicas IOAM. Estos esquemas aplican t cnicas de aprene e dizaje autom tico con la nalidad de construir el modelo del agente. En primer a lugar se propone un esquema denominado Modelado de Agentes Basado en Trazas (MABT) en donde se asume que el agente modelador tiene acceso a los datos de entrada y salida del agente a modelar. MABT est compuesto esencialmente a por dos m dulos, el m dulo de construcci n del modelo (MCM) y el m dulo de o o o o razonamiento (MRA). Adem s, se extiende el esquema anterior con la nalidad de poder utilizarlo en a dominios en donde no se tiene acceso directo a las entradas y salidas del agente a modelar. Esto da origen al esquema denominado Modelado de Agentes Basado en la Observaci n (MABO). Este nuevo esquema incorpora un m dulo encargao o do de inferir las acciones llevadas a cabo por el agente a modelar bas ndose en a informaci n de interacciones previas (m dulo de etiquetado de acciones - MEA). o o Con la nalidad de evaluar el MABT se han llevado a cabo experimentos tanto 122
123
en dominios est ticos como din micos. Por otra parte se quiere determinar el lmite a a superior al que se puede llegar utilizando las entradas y salidas del agente a modelar como base del proceso de modelado. Para validar MABO, en el cu l asume que no se tiene acceso directo a las ena tradas y salidas del agente a modelar, se han realizado experimentos en el conocido dominio del simulador de f tbol de la RoboCup. u
12.1.
Conclusiones
Las principales conclusiones que se extraen de la evaluaci n de los resultados o del MABT se exponen a continuaci n. o En la evaluaci n del MCM de MABT se ha observado que la utilizaci n de o o t cnicas de aprendizaje autom tico con el prop sito de generar el modelo de un e a o agente han demostrado una alta precisi n. Adem s, en uno de los dominios de o a prueba, al utilizar el modelo generado como n cleo del MRA, el agente modelador u se comporta de manera muy similar al agente modelado. Sin embargo, en un dominio en donde las entradas son complejas y las acciones realizadas por el agente a modelar involucran una combinaci n de par metros, se o a hace necesaria la utilizaci n de un enfoque de aprendizaje autom tico jerarquizado o a como n cleo del MCM. Los resultados obtenidos en el proceso de construcci n del u o modelo en este dominio, reejan que la complejidad de las entradas tiende a limitar la calidad del modelo adquirido. En cuanto al proceso de evaluaci n del MABO se pueden extraer las siguientes o conclusiones. Al aplicar el aprendizaje jer rquico con la nalidad de construir el n cleo del a u se obtienen resultados diversos. Es decir, de acuerdo a la tarea de aprendizaje que est n llevando a cabo las t cnicas de aprendizaje autom tico utilizadas, e e a se obtienen resultados muy distintos. A pesar de esto, se puede considerar que los resultados son aceptables para el uso que se pretende dar al modelo.
MEA
En cuanto a los resultados obtenidos en la creaci n del modelo (MCM) se puede o considerar que el aprendizaje jer rquico obtiene resultado aceptables. Pero quiz s a a los resultados m s interesantes son los obtenidos en la evaluaci n del MRA. A pesar a o de que el agente que incorpora MABO dentro de su arquitectura utiliza el modelo de una forma simple, este obtiene mejores resultados que un agente que no utiliza MABO.
124
12.2.
Limitaciones
Una de las principales limitaciones de MABT es que este asume que puede tener acceso directo a las entradas/salidas del agente a modelar. Sin embargo, MABT se puede utilizar en dominios en donde esto sea cierto. Por otra parte, dependiendo de la complejidad de las entradas y/o salidas en un dominio dado, MABT puede ver limitado su rendimiento. En cuanto a las limitaciones de MABO, quiz s la m s importante puede ser a a el tiempo necesario para construir el modelo del agente si este se utiliza en un dominio en donde el tiempo es un factor determinante. Sin embargo, dependiendo del dominio se pueden establecer estrategias para limitar el tiempo de construcci n o y actualizaci n de los modelos generados. Otra limitaci n de MABO, en dominios o o como el simulador de f tbol de la RoboCup es la cantidad de datos necesarios para u construir el modelo.
12.3.
Lneas de Trabajo Futuro
La realizaci n de este trabajo plantea lneas de investigaci n que pueden ser o o estudiadas, desarrolladas y evaluadas en un futuro. A continuaci n se detallan alo gunas de estas lneas. En las evaluaciones de MABT realizadas hasta ahora, el uso de t cnicas de e aprendizaje autom tico se limita a la creaci n del modelo del agente. Sin ema o bargo existen situaciones donde no basta con reemplazar el n cleo del MRA u por el modelo adquirido. Para este tipo de situaciones se propone la utilizaci n de t cnicas de aprendizaje autom tico con la nalidad automatizar la o e a utilizaci n del modelo. o La calidad del modelo generado depende en gran medida de la calidad de los datos etiquetados por el MEA. Por esta raz n se propone la utilizaci n de o o otras t cnicas de aprendizaje y/o estadsticas con la nalidad de incrementar e la calidad de los datos etiquetados por el MEA. Se propone la utilizaci n del modelo adquirido en comportamientos m s o a complejos. Puesto que el MRA utiliza de una forma simple el modelo ad quirido por el agente, se propone que se utilice este en comportamientos en donde se vean involucrados m s de dos agentes. Por ejemplo, en el simulador a de f tbol de la RoboCup se podran crear situaciones en donde el agente mou delador tenga que utiliza el modelo en una situaci n que involucre oponentes o y/o compa eros. n Utilizaci n de otras t cnicas de aprendizaje autom tico en el MRA que pueo e a dan aprovechar a n m s el modelo adquirido. Un ejemplo de estas t cnicas u a e
CAPITULO 12. CONCLUSIONES Y TRABAJOS FUTUROS sera el aprendizaje por refuerzo.
125
El proceso de modelado realizado en el simulador de f tbol de la RoboCup u es un modelado agente-agente, considerado de bajo nivel. Por esta raz n o se propone modelar series de acciones y no una acci n en especico para o intentar eliminar las ambig edades presentes en este tipo de dominios. u Evaluaci n de MABT y MABO en otros dominios. Tomando en considerao ci n las restricciones de MABT, este puede ser utilizado en otros dominios o en donde intervienen agentes. Por otra parte, MABO podra ser utilizado en entornos multiagentes como el dominio de subastas electr nicas o el de la o competici n de agentes entrenadores dentro del propio simulador de f tbol o u de la RoboCup.
Parte IV
126
Captulo 13
13.1. Sumario
Como se ha mencionado en la introducci n de esta memoria, existen distintas o maneras de resolver un problema mediante la aplicaci n de t cnicas que implican o e la utilizaci n de la Inteligencia Articial. o Existen entornos en donde t cnicas o resolvedores de problemas deben colaboe rar con la nalidad de cumplimentar la tarea asignada. Dentro de estos entornos se encuentran los conocidos conjuntos de clasicadores, los cuales combinan las decisiones de un grupo de clasicadores (resolvedores de problemas) con la nalidad de llevar a cabo la tarea de asignada. Uno de los objetivos de esta tesis ha consistido en el desarrollo y experimentaci n de un m todo capaz de encontrar, bas ndose o e a en un algoritmo de generaci n de conjuntos, un grupo optimo de resolvedores de o problemas para un problema especco. Este m todo, denominado GA-Stacking, e utiliza algoritmos gen ticos con el prop sito de encontrar la conguraci n optima e o o de los par metros del algoritmo de generaci n de conjuntos heterog neos conocido a o e como Stacking. Para conseguir este objetivo ha sido necesario el dise o y desarrollo de las codin caciones de las soluciones, la funci n de tness necesaria para la utilizaci n de los o o AGs al igual que la evaluaci n del m todo propuesto. Finalmente, la experimentao e ci n ha permitido determinar la conguraci n adecuada del m todo propuesto con o o e la nalidad de resolver una tarea asignada. En otros entornos en donde los resolvedores de problemas no s lo cooperan o con otros resolvedores de problemas, sino que pueden llegar a competir con estos, cualquier informaci n que se posea sobre los dem s individuos que interact an en o a u el entorno resulta de mucha utilidad. En este tipo de entornos, los resolvedores de problemas poseen cierto grado de autonoma. El objetivo de este trabajo, relaciona do con este tipo de resolvedores de problemas, ha sido desarrollar un esquema ge127
CAPITULO 13. CONCLUSIONES GENERALES
128
neral que permita adquirir el modelo de un agente bas ndose en el comportamiento a de este. Cabe se alar que en realidad se han desarrollado dos esquemas cuyo n es n el modelado del comportamiento de otros agentes, el Modelado de Agentes Basado en Trazas (MABT) y el Modelado Basado en la Observaci n (MABO). Ambos o han sido evaluados experimentalmente. Con el prop sito de conseguir este objetivo, ha sido necesaria la conceptualio zaci n y desarrollo de los m dulos que se incorporan a la arquitectura del agente o o modelador. Adem s, fue necesario determinar las relaciones existente entre estos a m dulos. Por otra parte, ha sido necesario el desarrollo de un esquema experimeno tal que permitiese evaluar los m todos propuestos. Este marco experimental ha e permitido validar el correcto funcionamiento de los m todos propuestos. e
13.2.
Publicaciones
En esta secci n se enumeran las publicaciones a las que ha dado origen la o elaboraci n de esta tesis doctoral. o
Ttulo: Autores: Congreso: Publicaci n: o Lugar de publicaci n: o A o: n Ttulo: Autores: Congreso: Publicaci n: o Lugar de publicaci n: o A o: n Ttulo: Autores: Congreso: Publicaci n: o Lugar de publicaci n: o A o: n Empirical Evaluation of Optimized Stacking Congurations Agapito Ledezma, Ricardo Aler, Araceli Sanchis, y Daniel Borrajo The 16th IEEE International Conference on Tools with Articial Intelligence por publicar 2004 Predicting Opponent Actions by Observation Agapito Ledezma, Ricardo Aler, Araceli Sanchis y Daniel Borrajo RoboCup 2004 Symposium por publicar 2004 From Continuous Behaviour to Discrete Knowledge Agapito Ledezma, Fernando Fern ndez, Ricardo Aler a 7th International Work-Conference on Articial and Natural Neural Networks Proceedings of IWANN 2003 Espa a n 2003
CAPITULO 13. CONCLUSIONES GENERALES
129
Ttulo: Autores: Congreso: Publicaci n: o Lugar de publicaci n: o A o: n
Predicting Opponent actions in the RoboSoccer Agapito Ledezma, Ricardo Aler, Araceli Sanchis y Daniel Borrajo 2002 IEEE International Conference on Systems, Man and Cybernetics Proceedings of the SMC 02 T nez u 2002
Ttulo: Autores: Libro: Editorial: P ginas: a Lugar de publicaci n: o A o: n
Heuristic Search-Based Stacking of Classiers Agapito Ledezma, Ricardo Aler y Daniel Borrajo Heuristic and Optimization for Knowledge Discovery Idea Group Publishing 54-67 Reino Unido 2001
Ttulo: Autores: Congreso: Publicaci n: o P ginas: a Lugar de publicaci n: o A o: n
Automatic Symbolic Modelling of Co-evolutionarily Learned Robot Skills Agapito Ledezma, Antonio Berlanga y Ricardo Aler 6th International Work-Conference on Articial and Natural Neural Networks Proceedings of IWANN 2001 799-806 Espa a n 2001
Extracting Knowledge from Reactive Robot Behavior Agapito Ledezma, Antonio Berlanga y Ricardo Aler AGENTS-01 Workshop on Learning Agents Proceeding of the AGENTS-01 Workshop on Learning Agents 7-12 Canad a 2001
Learning Models of Other Agents Agapito Ledezma, Ricardo Aler, Daniel Borrajo e In s Galv n e a AGENTS-00/ECML-00 - Workshop on Learning Agents Proceeding of the AGENTS-00/ECML-00 Workshop on Learning Agents 1-5 Espa a n 2000
Bibliografa
[1] D. W. Aha, D. Kibler, and M. K. Albert. Instance-based learning algorithms. Machine Learning, 6(1):3766, jan 1991. [2] K. M. Ali and M. J. Pazzani. Error reduction through learning multiple descriptions. Machine Learning, 24(3):173202, 1996. [3] A. G. Barto, S. J. Bradtke, and S. P. Singh. Learning to act using real-time dynamic programming. Articial Intelligence, 1(72):81138, 1995. [4] E. Bauer and R. Kohavi. An empirical comparison of voting classication algorithms: bagging, boosting, and variants. Machine Learning, 36(1):105 139, 1999. [5] A. Berlanga, A. Sanchis, P. Isasi, and J. M. Molina. A general coevolution method to generalize autonomous robot navigation behavior. In Proceedings of the Congress on Evolutionary Computation, pages 769776, La Jolla, San Diego (CA) USA, July 2000. IEEE Press. [6] C. Blake and C. Merz. UCI repository of machine learning databases. databases http://www.ics.uci.edu/mlearn/MLRepository.html, 1998. [7] A. Blum and R. Rivest. Training a 3-node neural network is NP-complete (extended abstract). In In Proceedings of th 1988 Workshop on Computational Learning Theory, pages 918, San Francisco, CA, 1988. Morgan Kaufmann. [8] D. Borrajo and M. Veloso. Lazy incremental learning of control knowledge for efciently obtaining quality plans. AI Review Journal. Special Issue on Lazy Learning, 11(1-5):371405, February 1997. [9] J. G. Boticario and E. Gaudioso. A multiagent architecture for a web-based adaptive educational system. In S. Rogers and W. Iba, editors, Adaptive User Interfaces, Papers from the 2000 AAAI Spring Symposium, pages 24 27, Standford, CA, March 2000. AAAI Press. [10] V. Braitenberg. Vehicles: experiments on synthetic psychology. MIT Press, Massachusets, 1984. 130
BIBLIOGRAFIA
131
[11] P. Brazdil, J. Gama, and B. Henery. Characterizing the applicability of classication algorithms using meta-level learning. In Proceedings of the 7th European Conference on Machine Learning (ECML-94), pages 83102, Cagliari, Italy, 1994. Springer-Verlag. [12] L. Breiman. Bagging predictors. Machine Learning, 24(2):123140, 1996. [13] L. Breiman. Stacked regressions. Machine Learning, 1(24):4964, 1996. [14] L. Breiman. Random forests. Machine Learning, 45(1):532, 2001. [15] J. Carbonell and Y. Gil. Learning by experimentation: The operator renement method. In Y. Kodratoff and R. S. Michalski, editors, Machine Learning: An Articial Intelligence Approach (Volume III), pages 191213. Kaufmann, San Mateo, CA, 1990. [16] D. Carmel and S. Markovitch. Incorporating opponent models into adversary search. In Proceedings of the Thirteenth National Conference on Artial Intelligence (AAAI), Portland, Oregon, 1996. AAAI Press. [17] D. Carmel and S. Markovitch. Learning models of intelligent agents. In Proccedings of Thirteenth National Conference on Articial Intelligence (AAAI96), pages 6567, Portland, Oregon, 1996. [18] P. Chan and S. Stolfo. A comparative evaluation of voting and meta-learning on partitioned data. In M. Kaufmann, editor, Proceedings of Twelfth International Conference on Machine Learning, pages 9098, 1995. [19] E. Charniak and R. Goldman. A bayesian model of plan recognition. Articial Intelligence, 64(1):5379, 1993. [20] K. Cherkauer. Human expert-level performance on a scientic image analysis task by a system using combined articial neural networks. In Working Notes of the AAAI Workshop on Integrating Multiple Learned Models, pages 1521, 1996. [21] B. C. Chiu and G. I. Webb. Using C4.5 as an induction engine for agent modelling: An experiment of optimisation. In Proceedings of the User Modelling Conference UM97, 1997. [22] J. G. Cleary and L. E. Trigg. K*: an instance-based learner using an entropic distance measure. In Proceedings of the 12th International Conference on Machine Learning, pages 108114, 1995. [23] P. Cohen and H. Levesque. Teamwork. Nous, 35, 1991. [24] P. Cohen, C. Perrault, and J. Allen. Strategies for Natural Language Processing, chapter Beyond Question Answering, pages 245274. Lawrence Erlbaum Associates, 1981.
BIBLIOGRAFIA
132
[25] W. W. Cohen. Fast effective rule induction. In Machine Learning: Proceedings of the Twelfth International Conference, 1995. [26] R. Dechter, I. Meiri, and J. Pearl. Temporal constraint networks. Articial Intelligence, 49(1-3):6195, 1991. [27] G. Demiroz and H. A. Guvenir. Classication by voting feature intervals. In Proceedings of the 9th European Conference on Machine Learning, pages 8592, 1997. [28] A. P. Dempster, N. M. Laird, and D. B. Rubin. Maximum likelihood from incomplete data via the EM algorithm (with discussion). Journal of the Royal Statistical Society B, 1(38):138, 1977. [29] M. Devaney and A. Ram. Needles in a haystack: Plan recognition in large spatial domains involving multiple agents. In Proceedings of the Fithteenth National Conference on Articial Intelligence (AAA1-98), pages 942947, Madison, WI, 1998. [30] T. G. Dietterich. Machine-learning research:four current directions. AI Magazine, 18(4):97136, 1997. [31] T. G. Dietterich. Ensemble methods in machine learning. In J. Kittler and F. Roli, editors, Multiple Classiers Systems: rst international workshop; proceedings /MCS 2000, volume 1857 of Lecture Notes in Computer Science, pages 115, Cagliari, Italy, June 2000. Springer. [32] T. G. Dietterich. An experimental comparison of three methods for constructing ensembles of decisions trees: Bagging, boosting and randomization. Machine Learning, 40(2):139157, August 2000. [33] T. G. Dietterich and G. Bakiri. Solving multiclass learning problems via error-correcting output codes. Journal of Articial Intelligence Research, 2:263286, 1995. [34] C. Druecker, C. Duddeck, S. Huebner, H. Neumann, E. Schmidt, U. Visser, and H.-G. Weland. Virtualweder: Using the online-coach to change team formations. Technical report, TZI-Center for Computing Technologies, University of Bremen, 2000. [35] R. Duda and P. Hart. Pattern Classication and Scene Analysis. AddisonWesley, 1973. [36] D. Dumitrescu, B. Lazzerini, L. C. Jain, and A. Dumitrescu. Evolutionary Computation. CRC Press, 2000. [37] E. H. Durfee. Blissful ignorance: Knowing just enough to coordinate well. In V. Lesser and L. Gasser, editors, Proceedings of the First International
BIBLIOGRAFIA
133
Conference on Multi-Agent Systems (ICMAS-95), pages 406413, Menlo Park, CA, 1995. AAAI Press. [38] E. H. Durfee, P. J. Gmytrasiewicz, and J. S. Rosenschein. The utility of embedded communications: Toward the emergence of protocols. In Proceedings of the Thirteenth International Distributed Articial Intelligence Workshop, pages 8593, 1994. [39] E. H. Durfee, J. Lee, and P. J. Gmytrasiewicz. Overeager reciprocal rationality and mixed strategy equilibria. In Proceedings of the 11th National Conference on Articial Intelligence, pages 225230, Washington, DC, USA, 1993. The AAAI Press/The MIT Press. [40] S. Dzeroski and B. Zenko. Stacking with multi-response model trees. In J. K. Fabio Roli, editor, Proceedings of Multiple Classier Systems, Third International Workshop, MCS 2002, Lecture Notes in Computer Science, Cagliari, Italy, 2002. Springer. [41] S. Dzeroski and B. Zenko. Is combining classiers better than selecting the best one? Machine Learning, 54(3):255273, 2004. [42] D. Fan, S. Stolfo, and P. Chan. Using conicts among multiple base classiers to measure the performance of stacking. In Proceedings of the ICML99 Workshop on Recent Advances in Meta-Learning and Future Work, pages 1017, 1999. [43] M. Faupel. http://www.micropraxis.com/gajit/index.html, 1998. [44] F. Fern ndez and D. Borrajo. VQQL. Applying vector quantization to reina forcement learning. In RoboCup-99: Robot Soccer World Cup III, number 1856 in Lecture Notes in Articial Intelligence, pages 292303. Springer Verlag, 2000. [45] D. H. Fisher. Knowledge acquisition via incremental conceptual clustering. Machine Learning, 2(2):139172, 1987. [46] E. Frank, Y. Wang, S. Inglis, G. Holmes, and I. Witten. Using model trees for classication. Machine Learning, 32(1):6376, 1998. [47] E. Frank and I. Witten. Generating accurate rule sets without global optimization. In Proceedings of the Fifteenth International Conference on Machine Learning, pages 144151. Morgan Kaufmann, 1998. [48] Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. In Springer-Verlag, editor, Proceedings of the Second European Conference on Computational Learning Theory, pages 2337, 1995.
BIBLIOGRAFIA
134
[49] Y. Freund and R. Schapire. Experiment with a new boosting algorithm. In M. Kaufmann, editor, Proceedings of the Thirteenth International Conference on Machine Learning, pages 148156, 1996. [50] J. Gama and P. Brazdil. Cascade generalization. Machine Learning, 41(3), 2000. [51] R. Garca-Martnez and D. Borrajo. An integrated approach of learning, planning, and execution. Journal of Intelligent and Robotic Systems, 29(1):4778, September 2000. [52] L. Garrido and R. Brena. The meeting scheduling game: a multiagent testbed. Technical report, Center for Articial Intelligence ITESM-Campus Monterrey, Monterrey, M xico, 1998. e [53] L. Garrido, R. Brena, and K. Sycara. Towards modeling other agents: A simulation-based study. Multi-Agent Systems and Agent-Based Simulation, LNAI Series, 1534, 1998. [54] L. Garrido, K. Sycara, and R. Brena. Quantifying the utility of building agents models: An experimental study. In Proceedings of the Learning Agents Workshop at the Fourth International Conference on Autonomous Agents (Agents 2000), 2000. [55] P. J. Gmytrasiewicz. A Decision-Theoretic Model of Coordination and Communication in Autonomous Systems (Reasoning Systems). PhD thesis, University of Michigan, 1992. [56] P. J. Gmytrasiewicz. An approach to user modeling in decision support systems. In Proceedings of the Fifth International Conference on User Modeling, pages 121128, 1996. [57] P. J. Gmytrasiewicz and E. H. Durfee. A rigorous, operational formalization of recursive modeling. In V. Lesser and L. Gasser, editors, Proceedings of the First International Conference on Multi-Agent Systems (ICMAS-95), pages 125132, Menlo Park, CA, 1995. AAAI Press. [58] P. J. Gmytrasiewicz, E. H. Durfee, and D. K. Wehe. A decision-theoretic approach to coordinating multi-agent interactions. In R. R. John Mylopoulos, editor, Proceedings of the 12th International Joint Conference on Articial Intelligence, pages 6268, Sydney, Australia, 1991. Morgan Kaufmann. [59] D. E. Goldberg. Genetic Algorithms in search, optimization, and machine learning. Addison-Wesley, 1989. [60] R. Goldman, C. Geib, and C. Miller. A new model of plan recognition. In K. B. Laskey and H. Prade, editors, Proceedings of the Fifteenth Conference on Uncertainty in Articial Intelligence. Morgan Kaufmann Publishers, 1999.
BIBLIOGRAFIA
135
[61] L. Hansen and P. Salamon. Neural network emsembles. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(10):9931001, 1990. [62] S. Haykin. Neural networks: a comprehensive foundation. Prentice Hall, 2nd edition, 1999. [63] J. H. Holland. Adaptation in Natural and Articial Systems. The University of Michigan Press, 1975. [64] J. H. Holland. Adaptation in Natural and Articial Systems. MIT Press, 2a edition, 1992. [65] R. Howard and J. Matheson. Readings on the Principles and Applications of Decision Analysis, volume 2, chapter Inuence diagrams, pages 719762. Strategic Decisions Group, Menlo Park, 1984. [66] J. Hu and M. P. Wellman. Online learning about other agents in a dynamic multiagent system. In Proceedings of the second International Conference on Autonomous Agents (Agents-98), pages 239246, 1998. [67] M. Huber and E. H. Durfee. On acting together: Without communication. In Working Notes of the AAAI Spring Symposium on Representing Mental States and Mechanisms, pages 6071, Stanford, CA, 1995. American Association for Articial Intelligence. [68] M. Huber, E. H. Durfee, and M. P. Wellman. The automated mapping of plans for plan recognition. In R. L. de Mantaras and D. Poole, editors, Proceedings of the 10th Conference on Uncertainty in Articial Intelligence, pages 344351, San Francisco, CA, USA, 1994. Morgan Kaufmann Publishers. [69] M. Huber and T. Hadley. Multiple roles, multiple teams, dynamic environment: Autonomous netrek agents. In Proceedings of the First International Conference on Autonomous Agents (Agents97), pages 332339, Marina del Rey, CA, 1997. ACM Press. [70] M. N. Huhns and M. P. Singh, editors. Readings in Agents. Morgan Kaufmann, 1998. [71] L. Hyal and R. Rivest. Constructing optimal binary decision trees is NPcomplete. Infomation Processing Letters, 5(1):1517, 1976. [72] W. Iba and P. Langley. Induction of one-level decision trees. In Proceedings of the Ninth International Conference on Machine Learning, pages 233 240. Morgan Kaufmann, 1992.
BIBLIOGRAFIA
136
[73] S. S. Intille and A. F. Bobick. A framework for recognizing multi-agent action from visual evidence. In Proceedings of the Sixteenth National Conference on Articial Intelligence (AAAI-99), pages 518525. AAAI Press, 1999. [74] P. Jansen. Computers, Chess and Cognition, chapter Problematic Positions and Speculative Play, pages 169182. Springer, New York, 1990. [75] N. Jennings, L. Varga, R. Aarnts, J. Fuchs, and P. Skarek. Transforming standalone expert systems into a community of cooperating agents. Engineering Applications of Articial Intelligence, 6(4):317331, 1993. [76] G. John and P. Langley. Estimating continuous distribution in bayesian classiers. In M. Kaufmann, editor, Proceedings of the Eleventh Conference on Uncertainty in Articial Intelligence, pages 338345, 1995. [77] G. John and P. Langley. Estimating continuous distributions in Bayesian classiers. In Proceedings of the Eleventh Conference on Uncertainty in Articial Intelligence, pages 338345, 1995. [78] G. Kaminka, M. Fidanboylu, A. Chang, and M. Veloso. Learning the sequential behavior of teams from observations. In Proeedings of the 2002 RoboCup Symposium, 2002. [79] G. A. Kaminka, M. Tambe, and C. M. Hopper. The role of agent-modeling in agent robustness. In Working Notes of AI Meets the Real-World: Lessons Learned (AIMTRW-98), 1998. [80] A. Kautz and J. Allen. Generalized plan recognition. In Proceedings of the Fifth National Conference on Articial Intelligence (AAAI), pages 3237, Menlo Park, CA, 1986. AAAI Press. [81] H. Kitano, M. Tambe, P. Stone, M. Veloso, S. Coradeschi, E. Osawa, H. Matsubara, I. Noda, and M. Asada. The robocup synthetic agent challenge. In Proceedings of the Fifteenth International Joint Conference on Articial Intelligence (IJCAI97), pages 2449, San Francisco, CA, 1997. [82] D. Knuth. Sorting and Searching. Volume 3 of The Art of Computer Programming. Addison-Wesley, 1973. [83] R. Kohavi. The power of decision tables. In Proceedings of the Eighth European Conference on Machine Learning, 1995. [84] J. F. Kolen and J. B. Pollack. Back propagation is sensitive to initial conditions. In Advances in Neural Information Processing Systems, pages 860 867, 1991. [85] J. Kolodner. Case-Based Reasoning. Morgan Kaufmann, 1993.
BIBLIOGRAFIA
137
[86] M. Kuzmycz. A dynamic vocabulary for student modelling. In Proceedings of the Fourth International Conference on User Modeling, pages 185190, 1994. [87] S. W. Kwok and C. Carter. Multiple decision trees. In Uncertainty in Articial Intelligence 4, pages 327335. North-Holland, Amsterdam, 1990. [88] J. E. Laird, A. Newell, and P. Rosenbloom. SOAR: An architecture for general intelligence. Articial Intelligence, 33:164, 1987. [89] P. Lanzi, W. Stolzmann, and S. Wilson, editors. Learning Classier Systems From Foundations to Applications, volume 1813 of Lecture Notes in Computer Science. Springer Verlag, 2000. [90] M. LeBlanc and R. Tibshirani. Combining estimates in regression and classication. In Technical Report 9318. Deparment of Statistic, Univesity of Toronto, 1993. [91] S. P. Lloyd. Least squares quantization in PCM. In IEEE Transactions on Information Theory, number 28 in IT, pages 127135, March 1982. [92] B. Martin. Instance-based learning : Nearest neighbor with generalization. Masters thesis, University of Waikato, 1995. [93] C. J. Merz. Using correspondence analysis to combine classiers. Machine Learning, 36(1-2):3358, 1999. [94] R. S. Michalski. A theory and methodology of inductive learning. Articial Intelligence, 20, 1983. [95] S. Minton, J. Carbonell, C. Knoblock, O. Etzioni, and Y. Gil. ExplanationBased Learning: A problem-solving perspective. Articial Intelligence, 40, 1989. [96] T. M. Mitchell. An Introduction to Genetic Algorithms. MIT Press, 1996. [97] T. M. Mitchell. Machine Learning. McGraw-Hill, 1997. [98] S. Muggleton. Inverse entailment and Progol. New Generation Computing, Special issue on Inductive Logic Programming, 13(3-4):245286, 1995. [99] A. G. Nie, A. Honemann, A. Pegam, C. Rogowski, L. Hennig, M. Diedrich, P. Hugelmeyer, S. Buttinger, and T. Steffens. The osnabrueck robocup agents project. Technical report, Institute of Cognitive Science, Osnabrueck, 2001. [100] I. Noda, H. Matsubara, K. Hiraki, and I. Frank. Soccer server: A tool for research on multi-agent systems. Applied Articial Intelligence, 12(2-3):233 250, 1998.
BIBLIOGRAFIA
138
[101] S. Noh and P. J. Gmytrasiewicz. Agent modeling in antiair defense. In Proceedings of the Sixth International Conference on User Modeling, pages 389400, 1997. [102] B. Parmanto, P. Munro, and H. Doyle. Improving committe diagnosis with resampling techniques. In D. S. Touretzky, M. Mozer, and M. E. Hasselmo, editors, Advances in Neural Information Processing Systems, volume 8, pages 882888. MIT Press, 1996. [103] B. Pfahringer, H. Bensusan, and C. G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms. In Proceedings of the 17th International Conference on Machine Learning, Stanford, CA, 2000. [104] M. E. Pollack. Intention in Communication, chapter Plans as Complex Mental Attitudes. MIT Press, 1990. [105] J. Quinlan. Induction of decision trees. Machine Learning, 1(1):81106, 1986. [106] J. Quinlan. Learning with continuous classes. In Proceedings of the fth Australian Joint Conference on Articial Intelligence, pages 343348, Singapore, 1992. World Scientic. [107] J. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993. [108] J. Quinlan. Bagging, boosting, and C4.5. In A. Press and the MIT Press, editors, Proceedings of the Thirteenth National Conference on Articial Intelligence, pages 725730, 1996. [109] J. R. Quinlan. Learning logical denitions from relations. Machine Learning, 5(3):239266, 1990. [110] J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA, 1993. [111] J. R. Quinlan. Combining instance-based and model-based learning. In Proceedings of the Tenth International Conference on Machine Learning, pages 236243, Amherst, MA, June 1993. Morgan Kaufmann. [112] P. Riley and M. Veloso. Distributed Autonomous Robotic Systems, volume 4, chapter On Behavior Classication in Adversarial Environments, pages 371380. Springer-Verlag, 2000. [113] P. Riley and M. Veloso. Planning for distributed execution through use of probabilistic opponent models. In Proceedings of the Sixth International Conference on AI Planning and Scheduling (AIPS-2002), 2002.
BIBLIOGRAFIA
139
[114] D. Rummelhart, J. McClelland, and the PDP Research Group. Parallel Distributed Processing Foundations. The MIT Press, Cambridge, MA, 1986. [115] C. Schaffer. Cross-validation, stacking and bi-level stacking: Methods for classication learning. In P. Cheeseman and W. Oldford, editors, Selecting models from data: Articial Intelligence and Statistics IV, pages 5159. Springer-Verlag, 1994. [116] R. E. Schapire. The strength of weak learnability. Machine Learning, 5:197 227, 1990. [117] A. K. Seewald. How to make stacking better and faster while also taking care of an unknown weakness. In A. G. H. Claude Sammut, editor, Proceedings of the Nineteenth International Conference on Machine Learning (ICML 2002), Sidney, Australia, July 2002. Morgan Kaufmann. [118] A. K. Seewald and J. F rnkranz. An evaluation of grading classiers. In u F. Hoffmann, D. J. Hand, N. M. Adams, D. H. Fisher, and G. Guimar es, a editors, Advances in Intelligent Data Analysis, 4th International Conference, IDA 2001, Proceedings, Lecture Notes in Computer Science, pages 115 124, 2001. [119] R. Sison and M. Shimura. Student modelling and machine learning. International Journal of Articial Intelligence in Education, 9:128158, 1998. [120] D. B. Skalak. Prototype Selection for Composite Nearest Neighbor Classiers. PhD thesis, University of Massachusetts Amherst, 1997. [121] L. Sommaruga, I. Merino, V. Matell n, and J. Molina. A distributed simulaa tor for intelligent autonomous robots. In In Proccedings of Fourth International Symposium on Intelligent Robotic Systems, pages 393399, 1996. [122] T. Steffens. Feature-based declarative opponent-modelling in multi-agent systems. Masters thesis, Institute of Cognitive Science Osnabr ck, 2002. u [123] P. Stone. Layered Learning in Multi-Agent Systems. PhD thesis, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, 1999. [124] P. Stone, P. Riley, and M. Veloso. Dening and using ideal teammate and opponent agent models. In Proceedings of the Twelfth Innovative Applications of Articial Intelligence Conference (IAAI-2000), 2000. [125] P. Stone, M. Veloso, and P. Riley. The CMUnited-98 champion simulator team. Lecture Notes in Computer Science, 1604:6176, 1999. [126] D. Suryadi and P. J. Gmytrasiewicz. Learning models of other agents using inuence diagrams. In Proceedings of the Seventh International Conference on User Modeling, pages 223232, Banf, CA, 1999.
BIBLIOGRAFIA
140
[127] M. Tambe. Tracking dynamic team activity. In Proceedings of the Thirteenth National Conference on Articial Intelligence and Eighth Innovative Applications of Articial Intelligence Conference , AAAI 96, IAAI 96, pages 8087, Portland, Oregon, 1996. The MIT Press. [128] M. Tambe and P. Rosenbloom. RESC: An approach for real-time, dynamic agent tracking. In Proceedings of the Fourteenth International Joint Conference on Articial Intelligence, (IJCAI 95), pages 103111, Montr al, e Qu bec, Canada, 1995. Morgan Kaufmann. e [129] M. Tan. Multi-agent reinforcement learning: Independent vs. cooperative agents. In Proceedings of the Tenth International Conference on Machine Learning, pages 330337, Amherst, MA, June 1993. Morgan Kaufman. [130] K. Ting and I. Witten. Stacked generalization: when does it work? In Proceedings of the International Joint Conference on Articial Intelligence, 1997. [131] K. M. Ting. Decision combination based on the characterisation of predictive accuracy. Intelligent Data Analysis, 1(1-4):181205, 1997. [132] K. M. Ting and I. Witten. Issues in stacked generalization. Journal of Articial Intelligence Research, 10:271289, 1999. [133] L. Todorovski and S. Dzeroski. Combining multiple models with meta decision trees. In Proceedings of the 4th European Conference on Principles of Data Mining and Knowledge Discovery, pages 5464, 2000. [134] G. G. Towell, J. W. Shavlik, and M. O. Noordenier. Renement of approximate domain theories by knowledge based neural network. In Proceedings of the 8th National Conference on AI (AAAI-90), volume 2, pages 861866, 1990. [135] K. Tumer and J. Ghosh. Error correlation and error reduction in ensemble classiers. Connection Science, 8(3-4):385403, 1996. [136] P. van Beek and R. Cohen. Resolving plan ambiguity for cooperative response generation. In Proceedings of the International Joint Conference on Articial Intelligence (IJAIT-91), pages 938944, Sidney, Australia, 1991. [137] J. M. Vidal and E. H. Durfee. Recursive agent modeling using limited rationality. In V. Lesser and L. Gasser, editors, Proceedings of the First International Conference on Multi-Agent Systems (ICMAS-95), pages 376383, Menlo Park, CA, 1995. AAAI Press. [138] X. Wang. Learning planning operators by observation and practice. In Articial Intelligence Planning Systems, pages 335340, 1994.
BIBLIOGRAFIA
141
[139] R. Washington. Markov tracking for agent coordination. In Proceedings of the Second International Conference on Autonomous Agents (Agents-98), pages 7077. ACM Press, 1998. [140] C. Watkins. Learning from Delayed Rewards. PhD thesis, Kings College, Cambridge, UK, 1989. [141] C. Watkins and P. Dayan. Q-Learning. Machine Learning, 8:279292, 1992. [142] G. Webb and M. Kuzmycz. Feature based modelling: A methodology for producing coherent, consistent, dynamically changing models of agentss competencies. User Modeling and User Assisted Interaction, 5(2):117150, 1996. [143] G. Webb, M. Pazzani, and D. Billsus. Machine learning for user modeling. User Modeling and User-Adapted Interaction, 11(19-20), 2001. [144] I. Witten and E. Frank. Data mining: practical machine learning tools and techniques with Java implementations. Morgan Kaufmann, 2000. [145] D. Wolpert. Stacked generalization. Neural Networks, 5:241259, 1992. [146] M. J. Wooldridge and N. R. Jennings. Agent theories, architectures, and languages: A survey. In M. Wooldridge and N. R. Jennings, editors, Intelligent Agents ECAI-94 Workshop on Agent Theories, Architectures, and Languages. Proceedings, number 890 in Lecture Notes in Computer Science, pages 139. Springer, 1995. [147] M. J. Wooldridge and N. R. Jennings. Intelligent agents: Theory and practice. Knowledge Engineering Review, 2(10), 1995. [148] C. Yunpeng, C. Jiang, Y. Jinyi, and L. Shi. Global planning from local perspective: An implementation of observation-based plan coordination in robocup simulation games. In A. Birk, S. Coradeschi, and S. Tadokoro, editors, RoboCup-2001: The Fifth RoboCup Competitions and Conferences. Springer-Verlag, 2002. [149] A. Zell, N. Mache, R. Huebner, M. Schmalzl, T. Sommer, and T. Korb. Snns: Stuttgart neural network simulator. Technical report, University of Stuttgart, Stuttgart, 1992. [150] Z. H. Zhou, J. Wu, and W. Tang. Ensembling neural networks: Many could be better than al. Articial Intelligence, 137(1-2), 2002.
Ap ndice A e
Algoritmos de Generaci n de o Conjuntos de Clasicadores

En este ap ndice se detallan los algoritmos de construcci n de conjuntos hoe o mog neos m s utilizados. En la Figura A.1 se muestra el algoritmo de generaci n e a o de conjuntos de clasicadores homog neos denominado Bootstrap Aggregating o e Bagging. Por otro lado, en la Figura A.2 se detalla el algoritmo AdaBoostM1 conocido algunas veces como Boosting.
142
APENDICE A. ALGORITMOS
Algoritmo Bagging Entradas Conjunto de entrenamiento, S Algoritmo de aprendizaje base, B N mero de muestras bootstrap, T u Procedimiento Para i = 1 hasta T { S = muestra bootstrap de S(S es una muestra con reemplazo de S) C = B(S ) (crea un nuevo clasicador a partir de S ) X } C (x) = arg max 1(etiqueta y mayoritaria)
yY iCi (x)=y
143
Salida Clasicador C
Figura A.1: Algoritmo de generaci n de conjuntos homog neos Bootstrap Aggregating o e (Bagging).
APENDICE A. ALGORITMOS
Algoritmo AdaBoostM1. La f rmula [[E]] es 1 cuando es E es cierto y 0 de otra forma o Entradas Conjunto de entrenamiento S, de instancias etiquetadas: S {(xi , yi ), i = 1, 2, ..., m} Clases yi Y = {1, ..., K} Algoritmo de aprendizaje base (clasicador d bil) B e N mero de iteraciones T u Procedimiento Inicializar para todo i : w1 (i) = 1/m Para t = 1 a T { P para i : pt (i) = wt (i)/( i wt (i)) Ct = B(pt ) P t = i pt (i)[[Ct (xi ) = yi ]] si t > 1/2 entonces T =t1 termina bucle t = t /(1 t ) 1[ t (xi )=yi ] [C ] Para todo i : wt+1 (i) = wt (i)t } Salida Clasif icador C = arg max
yY T X 1 [[Ct (xi ) = yi ]] t t=1
144
Asigna el mismo peso a todas las instancias Normaliza el peso de las instancias Aplica el algoritmo base con los pesos normalizados Calcula el error de Ct
c lculo de nuevos pesos a
Figura A.2: Algoritmo de generaci n de conjuntos homog neos AdaBoostM1 (Boosting). o e
Ap ndice B e
Conguraciones de GA-Stacking
En este ap ndice se muestran los resultados obtenidos en el proceso de evaluae ci n de las diferentes conguraciones de GA-Stacking. En la Tabla B.1 se puede o apreciar la evoluci n del tness en los dominios utilizados de las diferentes cono guraciones de GA-Stacking. Las gr cas correspondientes a los dominios de echo a y sonar no se muestran pues en la primera generaci n se alcanzaba el tness m xio a mo. Por otro lado, en las Tablas B.2, B.3, B.4, B.5, B.6, B.7 se muestran los resultados de la comparaci n de los individuos encontrados por las diferentes conguo raciones de GA-Stacking.
145
APENDICE B. CONFIGURACIONES DE GA-STACKING

Tabla B.1: Evoluci n del tness en los distintos dominios con cada una o de las conguraciones de GA-Stacking. El valor reejado es el promedio de las tres ejecuciones del algoritmo sobre el conjunto de datos.
146
australian 88.5 88 Precisin 87.5 87 86.5 86 85.5 85 0 5 10 15 20 25 30 35 Generaciones 40 45 50
GaS5sinPI GaS5sinPII GaS5conPI
GaS5conPII GaS11sinP GaS11conP
balance 93 92.5 92 91.5 91 90.5 90 89.5 89 88.5 88 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
(Contin a en la siguiente p gina) u a
APENDICE B. CONFIGURACIONES DE GA-STACKING Tabla B.1. (Continuaci n) o
147
breastw 98.5 98.4 98.3 98.2 98.1 98 97.9 97.8 97.7 97.6 97.5 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
car 93 92 Precisin 91 90 89 88 87 86 0 5 10 15 20 25 30 Generaciones 35 40 45 50
148
chess 97.4 97.2 97 96.8 96.6 96.4 96.2 96 95.8 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
diabetes 80.5 80 Precisin 79.5 79 78.5 78 77.5 77 0 5 10 15 20 25 30 35 Generaciones 40 45 50
149
german 77 76.5 76 75.5 75 74.5 74 73.5 73 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
glass 76 74 Precisin 72 70 68 66 64 62 0 5 10 15 20 25 30 Generaciones 35 40 45 50
150
heart 90.5 90 89.5 89 88.5 88 87.5 87 86.5 86 85.5 85 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
hepatitis 92 91 Precisin 90 89 88 87 86 85 0 5 10 15 20 25 30 Generaciones 35 40 45 50
151
hypo 99.4 99.2 Precisin 99 98.8 98.6 98.4 98.2 98 0 5 10 15 20 25 30 35 Generaciones 40 45 50
ionosphere 97.5 97 96.5 96 95.5 95 94.5 94 93.5 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
152
image 96.5 96 Precisin 95.5 95 94.5 94 93.5 93 0 5 10 15 20 25 30 35 Generaciones 40 45 50
iris 100 99.5 99 98.5 98 97.5 97 96.5 96 95.5 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
153
vote 97.6 97.4 97.2 97 96.8 96.6 96.4 96.2 96 95.8 95.6 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
wine 100 99.8 99.6 99.4 99.2 99 98.8 98.6 98.4 98.2 98 0 5 10 15 20 25 30 35 Generaciones 40 45 50
Precisin
154
Tabla B.2: Comparaci n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 S PI con el resto de los individuos encontrados con las dem s conguraciones a de GA-Stacking y su signicaci n estadstica (+/ es mejor/peor signicativamente). o
Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 S PI 86.30 90.80 95.20 96.20 99.70 73.10 86.70 74.00 62.50 82.50 80.90 99.30 97.40 89.20 93.70 97.80 95.70 94.40 G A S5 S PII 87.10 94.30 + 95.10 95.50 99.70 73.30 84.70 75.40 63.50 83.70 80.90 99.20 97.90 90.30 92.20 94.70 93.70 96.70 G A S5 C PI 88.10 94.40 + 97.40 97.30 + 99.30 75.40 + 87.50 71.00 67.70 82.30 79.40 99.60 97.60 91.30 93.70 91.60 95.40 98.90 G A S5 C PII 87.20 92.50 + 95.90 97.80 + 99.40 73.30 90.00 75.00 76.00 + 82.80 78.70 98.80 98.60 89.10 92.20 93.60 95.70 97.80 G A S11 S P 88.90 94.20 + 96.70 95.80 99.40 74.90 84.70 71.00 66.70 75.40 80.10 98.50 97.20 90.60 94.20 97.80 91.50 94.10 G A S11 C P 88.80 94.30 + 96.80 97.70 + 99.70 75.40 90.00 73.60 74.50 + 82.50 79.40 99.30 98.10 90.30 97.20 95.70 94.00 92.20
Tabla B.3: Comparaci n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 S PII con el resto de los individuos encontrados con las dem s conguraciones a de GA-Stacking y su signicaci n estadstica (+/ es mejor/peor signicativamente). o
Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 S PII 87.10 94.30 95.10 95.50 99.70 73.30 84.70 75.40 63.50 83.70 80.90 99.20 97.90 90.30 92.20 94.70 93.70 96.70 G A S5 S PI 86.30 90.80 95.20 96.20 99.70 73.10 86.70 74.00 62.50 82.50 80.90 99.30 97.40 89.20 93.70 97.80 95.70 + 94.40 G A S5 C PI 88.10 94.40 97.40 + 97.30 + 99.30 75.40 87.50 71.00 67.70 82.30 79.40 99.60 97.60 91.30 93.70 91.60 95.40 98.90 G A S5 C PII 87.20 92.50 95.90 97.80 + 99.40 73.30 90.00 75.00 76.00 82.80 78.70 98.80 98.60 89.10 92.20 93.60 95.70 + 97.80 G A S11 S P 88.90 94.20 96.70 95.80 99.40 74.90 84.70 71.00 66.70 75.40 80.10 98.50 97.20 90.60 94.20 97.80 91.50 94.10 G A S11 C P 88.80 94.30 96.80 97.70 + 99.70 75.40 90.00 73.60 74.50 + 82.50 79.40 99.30 98.10 90.30 97.20 95.70 94.00 92.20
155
Tabla B.4: Comparaci n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 C PI con el resto de los individuos encontrados con las dem s conguraciones a de GA-Stacking y su signicaci n estadstica (+/ es mejor/peor signicativamente). o
Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 C PI 88.10 94.40 97.40 97.30 99.30 75.40 87.50 71.00 67.70 82.30 79.40 99.60 97.60 91.30 93.70 91.60 95.40 98.90 G A S5 S PI 86.30 90.80 95.20 96.20 99.70 73.10 86.70 74.00 62.50 82.50 80.90 99.30 97.40 89.20 93.70 97.80 + 95.70 94.40 G A S5 S PII 87.10 94.30 95.10 95.50 99.70 73.30 84.70 75.40 63.50 83.70 80.90 99.20 97.90 90.30 92.20 94.70 93.70 96.70 G A S5 C PII 87.20 92.50 95.90 97.80 99.40 73.30 90.00 75.00 76.00 82.80 78.70 98.80 98.60 89.10 92.20 93.60 95.70 97.80 G A S11 S P 88.90 94.20 96.70 95.80 99.40 74.90 84.70 71.00 66.70 75.40 80.10 98.50 97.20 90.60 94.20 97.80 + 91.50 94.10 G A S11 C P 88.80 94.30 96.80 97.70 99.70 75.40 90.00 73.60 74.50 82.50 79.40 99.30 98.10 90.30 97.20 95.70 + 94.00 92.20
Tabla B.5: Comparaci n de los resultados obtenidos por los individuos seleccionados meo diante G A S5 C PII con el resto de los individuos encontrados con las dem s conguraciones a de GA-Stacking y su signicaci n estadstica (+/ es mejor/peor signicativamente). o
Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S5 C PII 87.20 92.50 95.90 97.80 99.40 73.30 90.00 75.00 76.00 82.80 78.70 98.80 98.60 89.10 92.20 93.60 95.70 97.80 G A S5 S PI 86.30 90.80 95.20 96.20 99.70 73.10 86.70 74.00 62.50 82.50 80.90 99.30 + 97.40 89.20 93.70 97.80 + 95.70 94.40 G A S5 S PII 87.10 94.30 95.10 95.50 99.70 73.30 84.70 75.40 63.50 83.70 80.90 99.20 97.90 90.30 92.20 94.70 93.70 96.70 G A S5 C PI 88.10 94.40 97.40 97.30 99.30 75.40 87.50 71.00 67.70 82.30 79.40 99.60 + 97.60 91.30 + 93.70 91.60 95.40 98.90 G A S11 S P 88.90 94.20 96.70 95.80 99.40 74.90 84.70 71.00 66.70 75.40 80.10 98.50 97.20 90.60 94.20 97.80 + 91.50 94.10 G A S11 C P 88.80 94.30 96.80 97.70 99.70 75.40 90.00 73.60 74.50 82.50 79.40 99.30 + 98.10 90.30 97.20 95.70 94.00 92.20
156
Tabla B.6: Comparaci n de los resultados obtenidos por los individuos seleccionados meo diante G A S11 S P con el resto de los individuos encontrados con las dem s conguraciones a de GA-Stacking y su signicaci n estadstica (+/ es mejor/peor signicativamente). o
Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S11 S P 88.90 94.20 96.70 95.80 99.40 74.90 84.70 71.00 66.70 75.40 80.10 98.50 97.20 90.60 94.20 97.80 91.50 94.10 G A S5 S PI 86.30 90.80 95.20 96.20 99.70 73.10 86.70 74.00 62.50 82.50 + 80.90 99.30 + 97.40 89.20 93.70 97.80 95.70 + 94.40 G A S5 S PII 87.10 94.30 95.10 95.50 99.70 73.30 84.70 75.40 + 63.50 83.70 + 80.90 99.20 97.90 90.30 92.20 94.70 93.70 96.70 G A S5 C PI 88.10 94.40 97.40 97.30 + 99.30 75.40 87.50 71.00 67.70 82.30 + 79.40 99.60 97.60 91.30 93.70 91.60 95.40 + 98.90 + G A S5 C PII 87.20 92.50 95.90 97.80 + 99.40 73.30 90.00 75.00 + 76.00 82.80 + 78.70 98.80 98.60 89.10 92.20 93.60 95.70 + 97.80 G A S11 C P 88.80 94.30 96.80 97.70 + 99.70 75.40 90.00 73.60 74.50 82.50 + 79.40 99.30 + 98.10 90.30 97.20 95.70 94.00 92.20
Tabla B.7: Comparaci n de los resultados obtenidos por los individuos seleccionados meo diante G A S11 C P con el resto de los individuos encontrados con las dem s conguraciones a de GA-Stacking y su signicaci n estadstica (+/ es mejor/peor signicativamente). o
Dominio australian balance breast car chess diabetes echo german glass heart hepatitis hypho images ionosphere iris sonar vote wine G A S11 C P 88.80 94.30 96.80 97.70 99.70 75.40 90.00 73.60 74.50 82.50 79.40 99.30 98.10 90.30 97.20 95.70 94.00 92.20 G A S5 S PI 86.30 90.80 95.20 96.20 99.70 73.10 86.70 74.00 62.50 82.50 80.90 99.30 97.40 89.20 93.70 97.80 95.70 + 94.40 G A S5 S PII 87.10 94.30 95.10 95.50 99.70 73.30 84.70 75.40 63.50 83.70 80.90 99.20 97.90 90.30 92.20 94.70 93.70 96.70 G A S5 C PI 88.10 94.40 97.40 97.30 99.30 75.40 87.50 71.00 67.70 82.30 79.40 99.60 97.60 91.30 93.70 91.60 95.40 98.90 G A S5 C PII 87.20 92.50 95.90 97.80 99.40 73.30 90.00 75.00 76.00 82.80 78.70 98.80 98.60 89.10 92.20 93.60 95.70 + 97.80 + G A S11 S P 88.90 94.20 96.70 95.80 99.40 74.90 84.70 71.00 66.70 75.40 80.10 98.50 97.20 90.60 94.20 97.80 91.50 94.10
Ap ndice C e
Detalles de la Evaluaci n del o MABO

En este ap ndice se muestran en detalle las caractersticas de los datos utilizae dos con el prop sito de evaluar el proceso de generaci n del m dulo de etiquetado o o o de acciones. En la Tabla C.1 se muestran los atributos del conjunto de datos utilizados y la descripci n de los mismos. o
157
APENDICE C. DETALLES DE LA EVALUACION DEL MABO
158
Tabla C.1: Atributos utilizados en el proceso de construcci n de los clasicadores que son o el n cleo del MEA dentro de MABO. u
Nombre SeeOpponent OpponenteNumber BallKickableForOpponent CanFaceOpponentWithNeck CanSeeOpponentWithNeck BallMoving BallKickable OpponentPositionValid OpponentDistance OpponentSpeed OpponentAngleFromBody OpponentAngleFromNeck BallPositionValid BallSpeed BallDistance BallAngleFromBody BallAngleFromNeck MyBodyAng MySpeed MyAction MyActionAngle MyActionPower Iguales a los anteriores DIF-BKFO DIF-CFOWN DIF-CSOWN DIF-BM DIF-BK DIF-OX DIF-OY DESP-O DIF-OD DIF-OS DIF-OAFB DIF-OAFN DIF-BX DIF-BY DESP-Ball DIF-BS DIF-BD DIF-BAFB DIF-BAFN DIF-MyX DIF-MyY DESP-My DIF-MyBA DIF-MyS CLASS
Descripci n o ATRIBUTOS DEL INSTANTE t puedo ver al oponente? n mero del oponente u puede el oponente disparar el bal n? o puedo encarar al oponente girando el cuello? puedo ver al oponente girando el cuello? el bal n se esta moviendo? o puedo disparar el bal n? o grado de certeza sobre la posici n del oponente o distancia al oponente velocidad del oponente angulo del oponente desde mi cuerpo angulo del oponente desde mi cuello grado de certeza sobre la posici n del bal n o o velocidad del bal n o distancia del bal n o angulo del bal n desde mi cuerpo o angulo del bal n desde mi cuello o angulo de mi cuerpo mi velocidad mi acci n o el angulo asociado a mi acci n o el poder asociado a mi acci n o ATRIBUTOS DEL INSTANTE t 1 se utilizan los mismos que en el instante t ATRIBUTOS CALCULADOS diferencia en dos instantes de tiempo del atributo BallKickableForOpponent diferencia en dos instantes de tiempo del atributo CanFaceOpponentWithNeck diferencia en dos instantes de tiempo del atributo CanSeeOpponentWithNeck diferencia en dos instantes de tiempo del atributo BallMoving diferencia en dos instantes de tiempo del atributo BallKickable diferencia en dos instantes de tiempo de la coordenada X del oponente diferencia en dos instantes de tiempo de la coordenada Y del oponente desplazamiento del oponente de un instante de tiempo a otro diferencia en dos instantes de tiempo del atributo OpponentDistance diferencia en dos instantes de tiempo del atributo OpponentSpeed diferencia en dos instantes de tiempo del atributo OpponentAngleFromBody diferencia en dos instantes de tiempo del atributo OpponentAngleFromNeck diferencia en dos instantes de tiempo de la coordenada X del bal n o diferencia en dos instantes de tiempo de la coordenada Y del bal n o desplazamiento del bal n de un instante a otro o diferencia en dos instantes de tiempo del atributo BallSpeed diferencia en dos instantes de tiempo del atributo BallDistance diferencia en dos instantes de tiempo del atributo BallAngleFromBody diferencia en dos instantes de tiempo del atributo BallAngleFromNeck diferencia en dos instantes de tiempo de mi coordenada X diferencia en dos instantes de tiempo de mi coordenada Y mi desplazamiento de un instante a otro diferencia en dos instantes de tiempo del atributo MyBodyAng diferencia en dos instantes de tiempo del atributo MySpeed acci n llevado a cabo por el agente a modelar en el instante t 1 o

Ledezma Espino

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Ledezma Espino

Încărcat de

Drepturi de autor:

Formate disponibile

U NIVERSIDAD C ARLOS III DE M ADRID

Escuela Polit cnica Superior e

A PRENDIZAJE AUTOM ATICO EN C ONJUNTOS DE C LASIFICADORES H ETEROG E NEOS Y M ODELADO DE AGENTES

Agapito Ismael Ledezma Espino Legan s, 2004 e

Departamento de Inform tica a

Escuela Polit cnica Superior e Universidad Carlos III de Madrid

A PRENDIZAJE AUTOM ATICO EN C ONJUNTOS DE C LASIFICADORES H ETEROG E NEOS Y M ODELADO DE AGENTES

Realizado el acto de defensa y lectura de la Tesis el da ......... de ......................... de 2004 en ..............................

A mi esposa, Yolanda A mi to, Vctor

S lo los que construyen sobre ideas, construyen para la eternidad o

Modelado de Agentes mediante Aprendizaje Autom tico a

Modelado de Agentes mediante Aprendizaje Autom tico a

Estado del Arte

Aprendizaje Autom tico a

CAPITULO 3. ESTADO DEL ARTE

CAPITULO 3. ESTADO DEL ARTE

Aprendizaje por Refuerzo

CAPITULO 3. ESTADO DEL ARTE

Taxonoma Basada en Otros Criterios

CAPITULO 3. ESTADO DEL ARTE

Por qu Funcionan los Conjuntos de Clasicadores? e

CAPITULO 3. ESTADO DEL ARTE

CAPITULO 3. ESTADO DEL ARTE

Construcci n de Conjuntos de Clasicadores o

CAPITULO 3. ESTADO DEL ARTE

CAPITULO 3. ESTADO DEL ARTE

CAPITULO 3. ESTADO DEL ARTE

Algoritmos para el Nivel0

clase del ejemplo

Algoritmo para el Nivel1

Figura 3.3: Funcionamiento general de Stacking.

CAPITULO 3. ESTADO DEL ARTE

CAPITULO 3. ESTADO DEL ARTE

Meta Clasificador (M)

Conjunto Final M: metaclasificador C: clasificador base

Figura 3.4: Proceso de generaci n del conjunto mediante Stacking. o

CAPITULO 3. ESTADO DEL ARTE

M : metaclasificador (nivel1) C : clasificador (nivel0)

CAPITULO 3. ESTADO DEL ARTE

CAPITULO 3. ESTADO DEL ARTE

Algoritmos Gen ticos e

CAPITULO 3. ESTADO DEL ARTE

00110000100 11100100010 00100100010 11110000100

00110000100 11100100010 00100100100 11110000010

Figura 3.7: Proceso general de los Algoritmos Gen ticos. e

CAPITULO 3. ESTADO DEL ARTE

Optimizaci n mediante AGs o

Marco General: GA-Stacking

Figura 4.1: Esquema General de GA-Stacking.

Codicaci n de las Soluciones o

parmetros de Stacking REPRESENTACIN GENTICA C1

CROMOSOMAS Generacin Poblacin Inicial 1010101010101010 1010101010101010 1010101010101010

p Nueva Poblacin Evaluacin del Fitness

DECODIFICACIN 1010101010101010 A1 A2 A3 A4 An Stacked Generalization C1 C2 ... Cm M

Sobre cruzamiento Reproduccin/ Seleccin

Condicin de finalizacin cumplida?

Figura 4.2: Marco Propuesto: GA-Stacking.

Figura 4.3: Descripci n de la codicaci n binaria del individuo. o o

Evaluaci n del Fitness o

1010101010101010 Stacked Generalization

Decodificacin y Construccin del Conjunto [b]

M C2 ... Cm % de aciertos (fitness)

Evaluacin del Fitness