Documente Academic
Documente Profesional
Documente Cultură
Bloque II
APRENDIZAJE INDUCTIVO
ndice
n n
Conceptos bsicos.
n
rboles de decisin.
n n
n n
CONCEPTOS BSICOS
Objetivo
n
El objetivo es general un modelo (general) a partir de ejemplos (especficos). El conjunto de ejemplos usado se llama conjunto de entrenamiento. Cuatro elementos fundamentales: conceptos, instancias, atributos y clases.
4
Definiciones
n
Concepto: el modelo a inferir a partir de los ejemplos (tambin llamado hiptesis). n Instancia: cada uno de los ejemplos. n Atributo: cada una de las medidas de un ejemplo. n Clase: el atributo que debe ser deducido a partir de los dems.
5
Ejemplo
Ejemplo: modelado de la probabilidad de fallo de una mquina. n Clases: la mquina fallar / la mquina no fallar. n Atributos: conjunto de medidas:
n n n n
n n
Instancias: ejemplos pasados (situaciones conocidas). Concepto: relacin entre las medidas y la probabilidad de fallo:
n
Atributos
n n
Mltiples tipos de atributos: Real: puede tomar cualquier valor dentro de un cierto rango.
n
Conceptos
n
rboles de decisin Listas de reglas Redes neuronales Modelos bayesianos o probabilsticos Etc.
Los rboles de decisin son uno de los modelos ms usados en aprendizaje automtico.
8
RBOLES DE DECISIN
temperatura
ALTA BAJA
no fallar
fallar
<1000
horas funcionam.
>1000
no fallar
< 1 MES
meses revisin
> 1 MES
no fallar
fallar
10
Representan funciones lgicas (if-then). Compuestos de nodos y ramas. Nodos internos = atributos (medidas). Nodos hoja = clases. Nodo raz = nodo superior del rbol. Objetivo en aprendizaje automtico: inferir un rbol de decisin a partir de un conjunto de instancias o ejemplos.
11
12
Trivial: se crea una ruta del rbol por cada instancia de entrenamiento.
rboles excesivamente grandes. No funcionan bien con instancias nuevas.
Pseudo-optimo (heurstico): seleccin del atributo en cada nivel del rbol en funcin de la calidad de la divisin que produce.
Los principales programas de generacin de rboles utilizan procedimientos similares (C4.5, CART, etc).
13
Temperatura
no fallar
15
16
temperatura
ALTA BAJA
no fallar
(3,0)
fallar
? (1,1)
(0,2) n
18
temperatura
ALTA BAJA
no fallar
(3,0)
fallar
horas funcion.
<1000 >1000
(0,2)
no fallar
fallar
(1,0)
(0,1)
19
OTROS MODELOS
20
Otros modelos
n
Los rboles de decisin son slo uno de los posibles modelos. En los prximos apartados se explican otras posibilidades. Dependiendo de la aplicacin, se deber elegir un modelo u otro. A continuacin se indican algunos criterios para elegir modelos.
21
CRITERIOS DE SELECCIN
22
El tipo de modelo (rboles de decisin, redes neuronales, modelos probabilsticos, etc). El algoritmo usado para construir o ajustar el modelo a partir de las instancias de entrenamiento.
Por ejemplo, hay mltiples formas de construir un rbol de decisin a partir de ejemplos; algo similar sucede con las redes neuronales o el resto de modelos.
23
Capacidad de expresar mltiples conceptos diferentes. Relacionado con el tipo de fronteras de decisin que se pueden crear. Frontera de decisin: frontera entre clases distintas de acuerdo con el modelo. Las fronteras de decisin que crea cada modelo (rboles de deisin, redes neuronales, etc.) son diferentes.
24
temp.
fallar
no
temp. > 95 ?
vibr. > 70 ?
70
120
vibracin
25
temp. fallar
95 no fall.
fallar
fallar
50
no fall.
70
120
vibracin
26
Capacidad de ser leido e interpretado por un humano. rboles de decisin: fciles de entender e intepretar: los niveles altos del rbol indican los atributos ms importantes. Redes neuronales: difciles (o imposibles) de interpretar: mltiples conexiones entre neuronas con pesos diferentes. Un modelo legible puede ofrecer informacin sobre el problema que se estudia (ej. indicar qu atributos afectan a la probabilidad de fallo de una mquina, y cmo). Un modelo no legible slo puede ser usado como un clasifcador (ej. Permite predecir si una mquina fallar o no aplicando el modelo).
27
rboles de decisin: tiempo necesario para recorrer el rbol, evaluando las funciones lgicas de cada nodo. Mtodos probabilsticos: tiempo necesario para calcular probabilidades o funciones de densidad de probabilidad. Redes neuronales: tiempo necesario para realizar las operaciones (sumas, productos, sigmoides) incluidas en la red. Etc.
28
Este tiempo se consume cada vez que se debe clasificar una nueva instancia. Algunas aplicaciones requieren clasificar miles de instancias.
Ejemplo: clasificacin de cada uno de los pixels de una imagen aerea como tierra de cultivo, ro, carretera, edificios, etc. Es necesario clasificar millones de pixels. El tiempo de cmputo es muy importante.
29
Tiempo necesario para construir o ajustar el modelo a partir de los ejemplos de entrenamiento.
rboles de decisin: tiempo necesario para elegr la estructura del rbol y los atributos a situar en cada uno de los nodos. Redes neuronales: tiempo necesario para ajustar los pesos de las conexiones (se estudiar ms adelante). Etc.
Ejemplo: un rbol de decisin se puede generar utilizando diferentes algoritmos. El tiempo empleado por cada algoritmo puede ser diferente.
30
Slo se consume una vez, cuando se han recopilado todos los ejemplos de entrenamiento y se genera el modelo con ellos. Dependiendo de la aplicacin, no es un problema que el tiempo de cmputo on-line sea elevado (es aceptable tener un ordenador procesando durante un da entero para obtener el resultado).
31
Algoritmo ideal: no dispone de parmetros para ajustar o es muy poco sensible a la modificacin de los parmetros: es fcil generar el modelo (ejemplo: algoritmos de generacin de rboles de decisin). Mal algoritmo: muchos prmetros para ajustar y gran sensibilidad a sus modificaciones: es difcil ajustar el modelo para obtener resultados ptimos (ejemplo: entrenamiento de redes neuronales).
32
Instancia de entrenamiento ruidosa: etiquetada incorrectamente (ejemplo: una mquina que no fall etiquetada incorrectamente como mquina que s fall). Algunos algoritmos pueden funcionar adecuadamente aunque haya instancias ruidosas en el conjunto de entrenamiento (ejemplo: rboles de decisin, redes neuronales). Otros algoritmos no ofrecen buenos resultados (ejemplo: vecino ms cercano).
33
Problema muy comn. El modelo est demasiado ajustado a las instancias de entrenamiento, y no funciona adecuadamente con nuevas instancias. El modelo no es capaz de generalizar. Normalmente, fronteras de decisin muy complejas producen sobreajuste.
n n
34
fallar no fallar
vibracin
vibracin
35
Resumen
Seleccin del modelo:
1. 2. 3.
4.
Tiempo de cmputo offline. Dificultad de ajuste de parmetros. Robustez ante ejemplos de entrenamiento ruidosos. Sobreajuste.
Algunos de los criterios anteriores estn relacionados (ej. sobreajuste, robustez ante ejemplos de entrenamiento ruidosos).
36