Sunteți pe pagina 1din 39

UNIVERSIDAD DE SANTIAGO DE CHILE

FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Análisis de Redes Neuronales para la Base


de Datos ZOO Utilizando la Herramienta de
Software “WEKA”

Inteligencia Computacional, Magister en Informática

AUTOR:

LUIS ORELLANA ALTAMIRANO

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 0
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

1 Resumen

Este trabajo de investigación consiste en estudiar e interpretar mediante redes neuronales


(Perceptrón Multicapa), las clasificaciones y relaciones con el etiquetado originales (atributo
experto) de los datos correspondientes a la base de datos ZOO. Inicialmente, se describen los
objetivos generales y específicos de este trabajo de investigación. Luego, se describe la
motivación que inspira este trabajo, el dominio del problema y la descripción del problema
a resolver. A continuación, se presenta una descripción de la solución propuesta indicando
las características, propósitos, alcances y limitaciones de la solución a implementar. Luego,
en la metodología, herramientas y experimentación se describe el marco teórico, la base de
datos ZOO, su normalización y la presentación de las técnicas aplicadas al análisis de la
función Perceptrón Multicapa descrito por Sankar K. & Sushmita M. (1992), haciendo uso
del software “WEKA” V3.8.1. A continuación, se muestran tablas y gráficos resultantes y su
respectivo análisis detallado. Y finalmente, se entregan las conclusiones respecto al problema
presentado.

Palabras clave: árboles de decisión, redes neuronales, WEKA, perceptrón multicapa

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 1
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

2 Objetivos

2.1 Objetivos Generales

El objetivo general de este trabajo de investigación es por medio de las redes


neuronales se busca clasificar a animales por medio de sus características morfológicas y de
esta forma contrastar tales clasificaciones predictivas con las reales clasificaciones del
muestreo de animales. Además, de extraer el conocimiento de la base de datos ZOO,
utilizando redes neuronales y su el análisis respectivo mediante el software WEKA. Luego
se debe comparar con los resultados obtenidos por el método de Arboles de decisión del
laboratorio anterior, y ver si se sustenta el conocimiento obtenido.

2.1 Objetivos Específicos

Los objetivos específicos planteados para este trabajo de investigación son:

● Analizar y normalizar la base de datos ZOO.

● Investigar y estudiar el concepto de perceptrón multicapa para confeccionar redes


neuronales haciendo uso de la función Multilayer Perceptron y su implementación con el
software “WEKA”.

● Realizar análisis deductivo a partir de los resultados de la red neuronal obtenida, de


esta forma contrastar tal análisis con las hipótesis y/o problema planteado a solucionar en el
desarrollo del estudio, además de la comparación en relación a los resultados del árbol, de
decisión visto en el laboratorio 4.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 2
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

3 Descripción del Problema

3.1 Motivación

El reino animal, con su infinidad de formas, características y cualidades es un área


que ha sido de gran interés para diferentes ciencias durante la historia de la humanidad. Sin
embargo es a la vez un lugar al cual queda mucho por conocer. Por tal motivo, por medio de
este laboratorio se intentara realizar clasificaciones de animales que van más allá de lo obvio
y banal. Así pues, se busca clasificar animales por características que por medio de análisis
no estadísticos sería una tarea muy compleja, sino infructuosa. A través de las redes
neuronales se pretende lograr obtención de información no banal, es decir, características de
animales las cuales tienen en común una o varias especies de forma transversal, las cuales
serán analizadas a fondo a medida que el informe prosigue.

3.2 Literatura Relevante

Tal como se ha mencionado anteriormente, para la obtención de conocimiento


relevante relacionada al dataset “Zoo”, se empleara el método de perceptrón de Rosemblatt
(1958) y que posteriormente fue mejorado por el Perceptrón Multicapa de Rumelhart y otros
autores (1986), que presentan la "Regla Delta Generalizada" para adaptar los pesos
propagando los errores hacia atrás, es decir, propagar los errores hacia las capas ocultas
inferiores.

Por otro lado respecto a artículos relacionados con redes neuronales y la base de datos
ZOO destaca el trabajo de investigación de Karabulut E., Özel S. & Ibrikci (2012) sobre el
efecto de la selección de características de precisión de NaïveBayes, Red Neural Artificial
como el Perceptrón Multicapa, y el clasificador de árboles de decisión J48, en donde ambos
clasificadores son comparados. También, destaca lo hecho por Jiang, Y. & Zhou, Z.(2004)
en donde proponen utilizar un conjunto de redes neurales para editar los datos de

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 3
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

entrenamiento para los clasificadores kNN, así pues sus experimentos demuestran que su
enfoque es mejor que los enfoques derivados de la depuración

3.3 Definición del Problema

Este laboratorio se centra en abalar la hipótesis de clasificación de animales por medio


de las características morfológicas de las especies. Ante esto cabe destacar que el problema
en cuestión radica en encontrar y demostrar un modelo óptimo para realizar tal clasificación.
Por otra parte, el conocimiento que se recupere del dataset “Zoo” debe ser consecuente con
la información bibliográfica que se ha encontrado. Para el caso de este laboratorio, se hará
uso del algoritmo de perceptron multicapa, sin embargo es necesario variar los parámetros
de manera de obtener de la manera más asertiva, las características más relevantes de
clasificación de especies.

Así pues, sería de mucho interés responder algunas preguntas como:


• ¿Cuáles son las características principales que permiten clasificar un animal dentro
de una determinada especie u otra?

• ¿Cuáles son las reglas más representativas para avalar y probar la hipótesis?

• ¿Los parámetros escogidos para el algoritmo perceptron multicapa son los óptimos
para encontrar morfologías relevantes?

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 4
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

4 Descripción de la Solución Propuesta

Con la finalidad de dar solución al problema propuesto, se ha establecido la


utilización de redes neuronales obtenidas del algoritmo perceptrón multicapa, empleando
para ello el software WEKA y la función algoritmo “Multilayer Perceptron”

Para la utilización de este algoritmo, se ha utilizado el software WEKA y “Multilayer


Perceptron“, los cuales permiten crear modelos de redes neuronales, validar el modelo por
medio de la bondad visualizada en matriz de confusión y la visualización gráfica tanto las
redes como reportes estadísticos de las clasificaciones.

4.1 Características de la Solución.

La solución contempla el uso del algoritmo perceptrón multicapa y la


experimentación de las medidas de parámetros relacionados con este algoritmo (tales como
el porcentaje de datos contenidos en el grupo de prueba y el de entrenamiento, la cantidad de
iteraciones de cálculo de información y ganancia de atributos) para luego medir la bondad
del modelo por medio de matriz de confusión. Debido a que la muestra de animales para el
dataset “Zoo” no es grande, se ha escogido la validación cruzada de k iteraciones. De esta
forma, se pretende cubrir el problema planteado y por consiguiente extraer conocimiento que
no es posible inferir o extraer de forma natural.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 5
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

4.2 Propósitos de la Solución.

Al termino del trabajo de investigación y una vez analizados los resultados obtenidos
de cada experimento se espera encontrar los atributos más relevantes del dataset para
caracterizar dentro de la base de datos ZOO y así determinar patrones entre las especies de
animales y sus agrupaciones según sus características morfológicas, y también poder realizar
un comparativo con las conclusiones dadas en el laboratorio 4 referentes a los árboles de
decisión y contrastarlas con los resultados obtenidos de las redes neuronales.

4.3 Alcances y Limitaciones de la Solución.

Este laboratorio contempla sólo el análisis y extracción de conocimiento la red


neuronal como también el análisis de la bondad del modelo para la base de datos ZOO
utilizando la herramienta de software “WEKA” y su función “Multilayer Perceptron” con
sus métodos integrados. El laboratorio no contempla realizar análisis a la base de dato ZOO
con otros métodos de análisis de datos y/o minería de datos.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 6
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

5 Metodología, Herramientas y Experimentación

5.1 Marco Teórico

Conforme a lo mostrado por Sankar K. & Sushmita M. (1992) y Le Cun, Y.,


Touresky, D., Hinton, G., & Sejnowski, T. (1998). Se tiene los siguientes conceptos.

REDES NEURONALES

La Redes Neuronales Artificiales son masivamente interconexiones paralelas de las


neuronas simples que funcionan como un sistema colectivo. Se ha observado que muchos
problemas en el reconocimiento de patrones son resueltos más fácilmente por los seres
humanos que por ordenadores, tal vez por la arquitectura básica y mecanismo de
funcionamiento de sus cerebros. Las redes neurales son Diseñado para imitar el cerebro
humano con el fin de Emulan el funcionamiento humano y funcionan así de manera
inteligente.
Estas redes pueden clasificarse ampliamente en dos tipos:
Aquellos que aprenden de forma adaptativa, actualizando su conexión y pesos durante
el entrenamiento; aquellos cuyos parámetros son invariantes en el tiempo, es decir, cuyos
pesos se fijan inicialmente y no se produce ninguna actualización eventual.

PERCEPTRON MULTICAPA
Este tipo de redes se caracterizan por su facilidad de implementación. Su aprendizaje
se basa en la retro propagación: se parte de unos pesos iniciales en las conexiones inter
neuronales. Para un conjunto de entradas se obtiene una cierta salida. Basándose en que se
conoce la salida que deberíamos haber obtenido (patrón catalogado – aprendizaje
supervisado), calculamos el error. A partir de este error se modifican los pesos siguiendo el
sentido inverso al de evolución de la Red (se parte de la salida hasta llegar a la entrada). De
la misma manera se opera con el resto de entradas de entrenamiento. Se puede observar que
el error irá disminuyendo a medida que se aplique el algoritmo.
Sin embargo un entrenamiento reiterado con las mismas entradas acaba provocando
un sobre-entrenamiento a la Red Neuronal, memorizando características de un conjunto,

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 7
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

impidiendo así que aprenda a generalizar. Por eso tras cada iteración hay que evaluar:
introducir nuevos valores distintos a los de entrenamiento y calcular el error de salida. De
esta manera se obtiene una función (error de evaluación) de la que nos interesa hallar su
mínimo absoluto (puede haber mínimos locales). Determinando el número de iteraciones con
que se alcanza dicho valor, nos aseguramos, en cierta forma, obtener un bajo error para
cualquier conjunto de datos de entrada. Después, se puede aplicar un test con un conjunto
nuevo de entradas que nos dará una medida de la capacidad de discriminación de la Red.
Perceptrón
De acuerdo a lo definido por Rosenblatt, F. (1958), un perceptrón es una estructura
neuronal más una regla de aprendizaje. Como se explicaba anteriormente, una neurona se
compone de un conjunto de entradas, cada una con un peso, que se introducen en el cuerpo
de la misma para su procesamiento. Ese procesamiento puede consistir en:
- Combinación lineal:
y    i xi  
i

- Distancia euclídeana:
y   x  
2
i i
i

Este resultado se introduce posteriormente en un bloque caracterizado por una de las


siguientes funciones:
Tabla 1. Tabla de las posibles funciones de salida del perceptrón

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 8
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

La función que representa el comportamiento ideal de una neurona es la función


escalón: dependiendo de la entrada se activa la conexión entre neuronas (salida = 1) o no
(salida = 0). Esta decisión puede depender de un cierto umbral (que la salida sea capaz de
superarlo), representado en las expresiones anteriores por q: introducir este término negativo
equivale a considerar que la función vale uno a partir de q y no a partir de cero como se
representa en la tabla.
Aunque éste sea el comportamiento ideal, en la práctica se suele utilizar la función
sigmoidea. Esto se debe a que es una función muy parecida al escalón y derivable en el
entorno de cualquier punto del eje x. Como se verá, esto es necesario en el algoritmo de retro
propagación ya que está basado en la minimización del error con respecto al valor de los
pesos, por lo que hay que derivar e igualar a cero.
El algoritmo de aprendizaje para un perceptrón aislado es el siguiente:


Wk 1  Wk    X t y d  y 

Dónde:
W = vector de pesos
k = iteración actual
h = factor de aprendizaje
X = vector de entradas
yd = salida deseada
y = salida obtenida en la iteración k
Una propiedad muy importante de este algoritmo es la convergencia en presencia de
solución y la posibilidad de implementar ciclos límite en ausencia de la misma.
El factor de aprendizaje h determina la rapidez del algoritmo pero también su
exactitud. Cuanto mayor sea, necesitaremos menos iteraciones (antes alcanzaremos las
cercanías del mínimo error de evaluación) pero el aprendizaje es muy grosero (es más
probable que nos quedemos oscilando en las cercanías del mínimo error de evaluación que
lo alcancemos realmente). Cuanto menor sea, más lento es pero más fino en el aprendizaje.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 9
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

BACKPROPAGATION
Conforme a lo indicado se desarrolla el algoritmo Backpropagation como un
mecanismo de aprendizaje para el perceptrón multicapa. De alta popularidad para la
solución de problemas de clasificación y pronóstico.
Es un método de entrenamiento general para redes multicapas, requiriendo la
diferencia en la capa de salida. Es decir la función debe ser diferenciable (sigmoide). En la
siguiente figura podemos observar una neurona básica en backpropagation, con sus capas de
entrada, oculta y de salida. La de salida activada con una función sigmoidal que describe
valores de z entre 0 y 1.

Así se tiene que:


1. Las neuronas transforman una entrada no- restringida en una señal limitada z
2. La función sigmoidal restringe el rango de z entre 0 y 1.
3. Es diferenciable. Hay que tener presente que la no linealidad es una característica resaltante
de este algoritmo.
4. Las entradas a la unidad de procesamiento son ejemplos de entrada o salidas de la capa
previa

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 10
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

En backpropagation, el método general de entrenamiento se resume a cuatro pasos:


Pasos hacia delante:
1. Selecciona un vector de entrada desde el conjunto de entrenamiento
2. Aplica esta entrada a la red y calcula la salida
Pasos hacia atrás:
3. Calcular el error entre la salida calculada y la salida deseada de la entrada usada.
4. Ajustar los pesos para que el error cometido entre la salida calculada y la salida deseada
sea disminuido.
5. Repetir los pasos 1 al 5 para todas las entradas del conjunto de entrenamiento, hasta que
el error global sea aceptablemente bajo.
Validación Cruzada

La validación cruzada o cross-validation es una técnica utilizada para evaluar los


resultados de un análisis estadístico y garantizar que son independientes de la partición entre
datos de entrenamiento y prueba. Consiste en repetir y calcular la media aritmética obtenida
de las medidas de evaluación sobre diferentes particiones. Se utiliza en entornos donde el
objetivo principal es la predicción y se quiere estimar cómo de preciso es un modelo que se
llevará a cabo a la práctica. Es una técnica muy utilizada en proyectos de inteligencia
artificial para validar modelos generados.

Validación Cruzada de K Iteraciones

En la validación cruzada de K iteraciones o K-fold cross-validation los datos de


muestra se dividen en K subconjuntos. Tal como se muestra en ilustración 1, uno de los
subconjuntos se utiliza como datos de prueba y el resto (K-1) como datos de entrenamiento.
El proceso de validación cruzada es repetido durante k iteraciones, con cada uno de los

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 11
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

posibles subconjuntos de datos de prueba. Finalmente se realiza la media aritmética de los


resultados de cada iteración para obtener un único resultado. Este método es muy preciso
puesto que evaluamos a partir de K combinaciones de datos de entrenamiento y de prueba,
pero aun así tiene una desventaja, y es que, a diferencia del método de retención, es lento
desde el punto de vista computacional. En la práctica, la elección del número de iteraciones
depende de la medida del conjunto de datos.

Ilustración 1. Método de validación cruzada para k iteraciones.

Los errores del modelo se calculando según la ponderación de la media aritmética de las
sumas de los errores de cada iteración, tal que:
𝑛
1
E = ∑ 𝐸𝑖
𝐾
𝑘=1

Matriz de Confusión

Es una herramienta que permite la visualización del desempeño de un algoritmo que


se emplea en aprendizaje supervisado. Cada columna de la matriz representa el número de

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 12
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

predicciones de cada clase, mientras que cada fila representa a las instancias en la clase real.
Uno de los beneficios de las matrices de confusión es que facilitan ver si el sistema está
confundiendo dos clases.

Si en los datos de entrada el número de muestras de clases diferentes cambia mucho la tasa
de error del clasificador no es representativa de lo bien que realiza la tarea el clasificador. Si
por ejemplo hay 990 muestras de la clase 1 y sólo 10 de la clase 2, el clasificador puede tener
fácilmente un sesgo hacia la clase 1. Si el clasificador clasifica todas las muestras como clase
1 su precisión será del 99%. Esto no significa que sea un buen clasificador, pues tuvo un
100% de error en la clasificación de las muestras de la clase 2.

5.2 Descripción de la Base de Datos ZOO (Dataset ZOO)

El Dataset ZOO cuenta con 101 animales extraídos desde una colección Zoológica.
Hay 23 variables con una serie de rasgos que describen a los animales. Se definen 7 Tipos de
Clases: Mamíferos, Aves, Reptiles, Peces, Anfibios, Insectos (voladores) e Invertebrados.
Originalmente, las características disponibles para esta dataset era un conjunto de 16
morfologías, las cuales son dicotómicas, excepto la cantidad de patas las que pueden ir desde
0 hasta 8 patas. Sin embargo, con el propósito de poder disponer de datos normalizados, se
ha llevado esta variable a nominal.
Con la finalidad de disponer del contenido del Dataset ZOO, y hacer más fácil su
análisis en interpretación de estos, se dispone del siguiente archivo, el cual se detalla a
continuación:
zoo.arff: Corresponde a una muestra de 101 animales. Por otro lado, este archivo comienza
por el encabezado, el cual corresponde a las características más relevantes de cada especie,
pues cobra sentido al momento de agrupar y clasificar cada animal según sus especies por
medio de estas características morfológicas.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 13
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Las características morfológicas disponibles para cada animal presente en el dataset


se presentan a continuación:

• hair ∈ {‘0’, ‘1’}: Posee pelaje (si, no)

• feathers ∈ {‘0’, ‘1’}: Posee plumas (si, no).

• eggs ∈ {‘0’, ‘1’}: Nace por medio de huevos (si, no)

• milk ∈ {‘0’, ‘1’}: Capacidad de amamantar (si, no)

• airborne ∈ {‘0’, ‘1’}: Capacidad de volar (si, no).

• aquatic ∈ {‘0’, ‘1’}: Vive en medio acuático (si, no)

• predator ∈ {‘0’, ‘1’}: Es depredador (si, no)

• toothed ∈ {‘0’, ‘1’}: Posee dentadura (si, no)

• backbone ∈ {‘0’, ‘1’}: Posee columna vertebral (si, no)

• breathes ∈ {‘0’, ‘1’}: Es pulmonado (si, no)

• venomous ∈ {‘0’, ‘1’}: Es venenoso (si, no)

• fins ∈ {‘0’, ‘1’}: Posee aletas natatorias (si, no)

• legs ∈ {‘0-4’, ‘5-8’}: No posee patas (si, no)

• tail ∈ {‘0’, ‘1’}: Posee cola (si, no)

• domestic ∈ {‘0’, ‘1’}: Puede ser domesticado (si, no)

• catsize ∈ {‘0’, ‘1’}: Posee el tamaño de un gato doméstico (si, no)

• class_type ∈ {1, 2, 3, 4, 5, 6, 7}: Clasificación del animal, donde:

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 14
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

o 1 = Mamífero

o 2 = Ave

o 3 = Reptil

o 4 = Pez

o 5 = Anfibio

o 6 = Insecto (volador)

o 7 = Invertebrado

5.2 Metodología y Herramientas.


La herramienta de software utilizada para realizar los experimentos presentados en
este documento es “Weka” versión (3.8.1). Weka (entorno para análisis del conocimiento de
la Universidad de Waikato) es una plataforma de software para el aprendizaje automático y
la minería de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka
es software libre distribuido bajo la licencia GNU-GPL.
Una de las funcionalidades que provee este software es el diseño e implementación
de una red neuronal de tipo perceptrón multicapa, el cual precisamente será utilizado en este
laboratorio.
Como metodología se seguirán los pasos indicados en las buenas prácticas de diseño
e implementación del perceptrón multicapa, las cuales son:
• Análisis del sistema.
• Pre Procesamiento de datos.
• Diseño del modelo neuronal.
• Entrenamiento.
• Generalización (esta etapa no podrá ser aplicada debido a la baja cantidad de datos
con las que se dispone).

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 15
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

5.3 Experimentación.
En esta sección se verán principalmente las funcionalidades que son abordadas en la
herramienta con la finalidad de realizar el laboratorio.
Cada una de las funcionalidades será mostrada por medio de imágenes las cuales
representan el proceso que se siguió para extraer el conocimiento:

Ilustración 1. Inicio de la aplicación

En la ilustración 1 se muestra la pantalla inicial de la aplicación donde se deberá pulsar


el botón “Explorer”

Ilustración 2. Formulario inicial

En la Ilustracion 2 se muestra la pantalla inicial donde se importara el dataset.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 16
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Ilustración 3. Importación del datase

Una vez se hayan encontrado los parámetros correctos para diseñar la red neuronal,
por medio de la pantalla que se muestra en la ilustración 3, se eliminaran las variables
que menos influyan en la clasificación de especies.

Ilustración 4. Diseñar red neuronal

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 17
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

En la pantalla que se muestra en la ilustración 4 se debe seleccionar el clasificador, en


este caso es “Multilayer Perceptron”. Se debe buscar la mejor combinación entre los
parámetros marcados en rojo, los cuales son:

• Learning Rate: Las medidas van desde 0,1 a 0,5


• Momentum: Las medidas van desde 0,1 a 0,5
• Training Time: Las medidas van desde 500 a 10.000

Se ha seleccionado la validación cruzada con 4 agrupaciones. Para obtener los mejores


resultados, se debe intercambiar los parámetros anteriormente mencionados.

Ilustración 5. Disminución de variables

Una vez encontrado los parámetros adecuados, se realizara la poda de las variables
que menos influyan en la clasificación de las clases de animales. Para ello se
seleccionara en la sección “Attribute Evaluator” el método que permitirá realizar la
selección de tales variables. Para efectos de este laboratorio, se utilizara el método el
método de correlación entre variables y la clase (“CorelationAttributeEval”).

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 18
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Esto permitirá visualizar un ranquin de variables donde se ira descartando una por una
cada una de las variables hasta el momento en que el error comience a aumentar.

Extracción de conocimiento del DataSet ZOO

Normalización de los datos


Tal como se ha mencionado anteriormente, el dataset “Zoo” consta de un total de
101 animales, los cuales cuentan originalmente con 16 características morfológicas. Todas
esas características son descriptivas, es decir todos los valores disponibles son binarios,
excepto por la variable “patas” las cuales van de valores desde 0 hasta 8.
Con la finalidad de poder normalizar todos los datos de la base de datos a un tipo en
particular (binarias para este dataset), se modificara en todas las insancias, los datos de patas.
En este caso, los posibles valores serán dos los cuales son:
• ‘0-4’: Contendrá todos los valores desde 0 a 4 patas.
• ‘5-8’: Contendrá todos los valores desde 5 a 8 patas.
De esta manera si fuera el caso, no se agregaran nuevas variables al modelo, lo cual
sin duda lo haría más complejo, y de ser necesario podría ser podada fácilmente.

Selección de los parámetros óptimos.

Tal como se mencionó anteriormente, los parámetros que serán modificados son:
• Learning Rate: Son los pesos iniciales de la red neuronal. Debido a que la retro
propagación del error es abordado desde la perspectiva de la optimización, los valores
iniciales son puntos en el plano de los errores donde comenzara el descenso hasta
encontrar óptimos de mejor calidad que el valor dado en un comienzo. A este valor
inicial también se le llama óptimo inicial, el cual de forma frecuente no es un opimo
de buena calidad.
• Momentum: Hace referencia al porcentaje de amplitudes anteriores que se dan como
impulso a los siguientes pasos landa sobre el plano de los errores. Esto permite salir

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 19
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

de mínimos de mala calidad por medio de una pequeña perturbación.


• Training Time: Es la cantidad de ciclos en los cuales el método de optimización se
detendrá. En otras palabras es el criterio de término del algoritmo que convergerá
según el valor asignado a este parámetro. Es necesario usar con gran cautela este
parámetro debido a que si este valor es muy grande, el modelo se expone a los efectos
de la gran varianza o sobreajuste del modelo clasificador.

A continuación se muestra el problema combinatorial de encontrar la permutación de


parámetros óptimos. Para esto se considerara la siguiente tabla:

Tabla 2. Combinación de parámetros. Los valores entregados corresponden a (en orden


descendente): Correctamente clasificados – Incorrectamente Clasificados – Área de ROC
Learning Rate

0.1 0.2 0.3 0.4 0.5


97 97 97 97 97
0.1 4 4 4 4 4
0.994 0.987 0.986 0.985 0.985
97 97 97 97 97
0.2 4 4 4 4 4
0.987 0.987 0.985 0.985 0.985
Momentum 97 97 97 97 97
0.3 4 4 4 4 4
0.987 0.987 0.985 0.985 0.985
97 97 97 97 97
0.4 4 4 4 4 4
0.987 0.985 0.985 0.985 0.985
97 97 97 97 97
0.5
4 4 4 4 4

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 20
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

0.986 0.985 0.985 0.985 0.985

Por medio de la tabla 2, es posible observar que los mejores parámetros tanto para el
“momentum” como para “learning rate” son 0.1. Sin embargo resta por analizar el desempeño
de la red neuronal con el parámetro “training time”.
El siguiente análisis se ha efectuado con medidas del parámetro anteriormente
mencionado que van desde 500 a 10.000. Cada prueba ha sido con un intervalo de entre 2.000
de dicho parámetro.

Tabla 3. Resultados de pruebas por medio de parámetro “Training Time”


Training Correctamente Incorrectamente Área ROC
Time Clasificados Clasificados
500 97 4 0.994
2.000 97 4 0.994
4.000 97 4 0.993
8.000 97 4 0.993
10.000 97 4 0.993

Como es posible observar, no hay gran cambio en los resultados por medio de este parámetro.
El único cambio visible es el área de ROC que mejoró substancialmente en tiempos más
bajos.
En resumen, los parámetros que serán abordados para las siguientes etapas de diseño del
perceptrón multicapa son:

• Learning Rate = 0.1

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 21
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

• Momentum = 0.1
• Training Time = 500

Con lo anteriormente mencionado se procederá a la disminución de dimensiones, es decir


podar la red neuronal con respecto a sus entradas sin antes analizar la matriz de confusión
obtenida por medio de los parámetros seleccionados con la finalidad de realizar una
comparativa del modelo obtenidos hasta este punto, y el que se obtenga después de realizar
la disminución de dimensiones.

Tabla 4. Matriz de confusión para los parámetros escogidos


Clasificados Como
Mamíferos Aves Reptiles Peces Anfibios Insectos Invertebrados
Mamíferos 41
Aves 20
Reptiles 1 3 1
Peces 13
Anfibios 1 3
Insectos 8
Invertebrados 1 9

Por medio de la tabla 4 es posible observar que los cuatro animales mal clasificados que se
mencionaron anteriormente en el test de selección de parámetros corresponden a dos
animales de la clase reptil, a uno de la clase anfibio y el último de la clase insectos.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 22
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Reducción de variables

Índice de Correlación
Para realizar la reducción de variables se ha utilizado el índice de correlación el cual
representa la relación que existe entre cada una de las variables y la clase. Con este índice se
obtiene las siguientes medidas:

Tabla 5. Resultados de correlación entre variables y la clase


Ranked Variables
0.5905 milk
0.5582 eggs
0.5323 hair
0.4968 toothed
0.4268 feathers
0.3749 breathes
0.3636 airborne
0.3545 backbone
0.3281 catsize
0.2901 legs
0.2757 tail
0.2737 aquatic
0.2516 fins
0.1756 venomous
0.1008 domestic
0.0915 predator

La disminución de dimensiones se realizara quitando las variables que tengan menor


ponderación de correlación con la clase, es decir, se comenzaran a eliminar desde abajo hacia
arriba según las variables que se muestran en la tabla 5.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 23
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Este proceso se realizara hasta que el error (área de ROC y correctamente clasificados
disminuya) aumente. Al momento en que el error aumente se corroborara que las variables
que siguen son importantes en la clasificación de especies.

Tabla 6. Variables eliminadas.


Variables Correctamente Incorrectamente Área ROC
Clasificados Clasificados
predator 97 4 0.997
domestic 98 3 0.995
venomous 97 4 0.996
fins 97 4 0.998
aquatic 97 4 0,990
tail 93 8 0,985

En la tabla 6 es posible observar que solo se pueden eliminar las variables “depredador” y
“domestico” sin que aumente el error. Ante esto, se verificara el mismo proceso con el
método de reducción de variables “razón de ganancia”.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 24
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Razón de ganancia

Se utilizara este método para verificar si es posible realizar una reducción mayor a la obtenida
anteriormente. Por medio de este método se obtiene el siguiente ranking, el cual representa
cuan significante o ganancia de información al momento de considerar cada una de las
variables con respecto a la clase.

Tabla 7. Resultados de ganancia entre variables y la clase


Ranked Variables
1 backbone
1 milk
1 feathers
0.8938 toothed
0.8475 eggs
0.8332 breathes
0.8212 legs
0.8035 hair
0.6082 tail
0.5938 airborne
0.4145 aquatic
0.3332 venomous
0.3122 catsize
0.0915 domestic
0.0302 fins

Al igual que en el índice de correlación, se obtiene un ranking de las variables predominantes,


de las cuales se irán eliminando una por una desde abajo hacia arriba hasta que el error
comience a aumentar.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 25
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Con lo cual se obtiene la siguiente información.

Tabla 8. Variables eliminadas.


Variables Correctamente Incorrectamente Área ROC
Clasificados Clasificados
Fins 97 4 0.991
Domestic 97 4 0.984
Catsize 98 3 0.994
Venomous 98 3 0.996
aquatic 97 4 0. 984
airborne 97 4 0. 984
tail 91 10 0. 984

Por medio de la tabla 8 es posible observar que al eliminar las cuatro primero variables el
error disminuye, sin embargo al seguir eliminando variables tales como “acuático” y
“volador” el error aumenta. También es posible inferir que los resultados obtenidos por
medio de “razón de ganancia” han sido mejores que los obtenidos por medio de “índice de
correlación”. Sin embargo, no se prosiguiera el análisis sin antes corroborar el siguiente
método con el cual se obtuvieron sus resultados en el laboratorio 4.

Reglas de asociación obtenidas por medio de árboles de decisión

Este método no está presente en como funcionalidad de reducción de variables en Weka, sin
embargo mencionado en clases como técnica de reducción de variables al igual que clustering
y análisis de componentes principales.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 26
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Tabla 9. Reglas de asociación.


Clase a la cual aplica Regla de asociación
Mamíferas {milk = 1 => clase 1 (mamíferos) }
Aves {feathers = 1 => clase 2 (aves) }
Reptiles {feathers = 0, milk = 0, backbone = 1,fins = 0,
tail = 1 => clase 3 (Reptil) }
Paces {milk = 0, fins = 1 => clase 4 (Pez) }
Anfibios {milk = 0, backbone = 1, tail=0 => clase 5
(Anfibio) }
Insectos {feathers = 0, milk = 0, airbone=1, backbone =
0 => clase 6 (Insecto) }

Invertebrado {backbone = 0 => clase 7 (Invertebrado) }

Por medio de las reglas que se observan en la tabla 9, es posible determinar las variables que
más caracterizan a cada especie, las cuales se muestran a continuación:

Tabla 10. Variables que intervienen en reglas de asociación.


Características relevantes en la clasificación de especies
Milk
Feathers
Backbone
Fins
Tail
Airbone

Por medio de la eliminación de todas las demás variables, y tan solo incluyendo como
entradas a la red neuronal las variables presentes en la tabla 10 se obtuvieron los siguientes
resultados:

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 27
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

• Correctamente clasificados = 97
• Incorrectamente clasificados = 4
• Área ROC = 0.995

Por último, se aumentó el número de neuronas en la capa oculta de 6 (valor por defecto
ajustado al mismo número de entradas) a 7, obteniendo los siguientes resultados:

• Correctamente clasificados = 98
• Incorrectamente clasificados = 3
• Área ROC = 0.995

Cabe destacar que al aumentar el número de neuronas a más de 7 no se obtuvieron mejores


resultados, simplemente no variaron. Por otro lado, al disminuir el número de neuronas de la
capa oculta a una cantidad menor que 6, los valores de error aumentaron en gran medida.

Además se obtuvieron resultados aceptables incluso cuando se eliminaron 10 de las 16


variables disponibles lo cual sin duda está en armonía con el concepto de “la navaja de
Occam”. Con lo anteriormente mencionado se obtiene la siguiente matriz de confusión:

Tabla 11. Matriz de confusión.

Mamíferos Aves Reptiles Peces Anfibios Insectos Invertebrados

Mamíferos 41
Aves 20
Reptiles 5
Peces 13
Anfibios 1 3
Insectos 6 2
Invertebrados 10

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 28
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Por medio de la reducción de variables se obtuvo una disminución de valores que no


influían mayormente en los resultados de clasificación y por consiguiente se obtiene un
modelo más simple y acotado. Por otra parte, es posible observar que en la tabla 11 hay un
margen de error los cuales se produjeron en los anfibios (solo un ejemplar dentro clasificado
como reptil) y de manera minoritaria en los insectos (dos de ellos clasificados como
invertebrado, lo cual de cierta manera es correcto debido a que los insectos son una
subcategoría de los invertebrados).

En resumen, los parámetros óptimos escogidos son:


• Learning Rate = 0.1
• Momentum = 0.1
• Training Time = 500
• Numero de neuronas en capa oculta = 7

Y las variables que serán entradas en la red neuronal son:


• milk
• feathers
• backbone
• fins
• tail
• airborne

Por último, el modelo de red neuronal es el siguiente:

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 29
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Ilustración 6. Red neuronal generada con tan solo 6 variables que caracterizan a la clase.

Análisis general de red neuronal

Según los resultados obtenidos, se tuvo exactamente tres animales que fueron
clasificados incorrectamente. Específicamente, al visualizar los valores entregados en la
medición de la bondad del modelo se tiene que:

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 30
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Tabla 12. Área de ROC para cada una de las clases


Clase Área de ROC
Mamíferos 1.00
Aves 1.00
Reptiles 0.991
Peces 1.00
Anfibios 0.988
Insectos 0.976
Invertebrados 0.979
Total 0.995

Ilustración 7. Grafica del área de ROC para la clase anfibios (0.988).

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 31
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Ilustración 8. Grafica del área de ROC para la clase insectos (0.976).

Como se puede observar, en la tabla 12, hay tres especies que fueron correctamente
clasificadas las cuales son mamíferos, aves y peses, sin embargo como se vio anteriormente
en la matriz de confusión (tabla 11), hay exactamente tres animales que fueron clasificados
incorrectamente, los cuales perteneces al grupo de insectos y anfibios y que se ve
representado en las ilustraciones 7 y 8 en un área ROC menor que los clasificados
correctamente. Por otro lado, ya se tenía indicio en laboratorios anteriores que la clasificación
tanto de insectos como de anfibios es una tarea compleja, ya que cada uno de estos grupos
tiene cualidades morfológicas muy parecidas con otras especies. Tal es el caso de los anfibios
con los reptiles mencionado por Alibardi L. (2003), o los insectos con los invertebrados
mencionado por Baran Mandal (2012). Sin embargo es una mejora notable en la clasificación
de las redes neuronales en comparación a tanto los arboles de decisión como de la
clusterización.

En cuanto a los parámetros encontrados para obtener un modelo eficiente, “Learning


Rate” represento los pesos iniciales de cada una de las conexiones de las neuronas. Debido a
que los pesos iniciales en muchas ocasiones no serán un óptimo de buena calidad, fue
necesario probar con un rango de opciones. En este caso, la mejor solución inicial desde la
perspectiva de la optimización fue “0.1” lo cual deja entrever que cercano a ese valor había

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 32
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

un óptimo de mejor calidad que el haber escogido un valor mayor a este como solución
inicial, ya que por ejemplo al escoger el valor “0.5” no se obtuvieron grandes resultados tanto
en el área de ROC, como en los verdaderos positivos y negativos.

En cuanto al parámetro “Momentum”, el mejor valor fue “0.1”, lo cual da a entender


que la distancia entre óptimos de buena y mala calidad no es grande, debido a que si el
“Momentum” aumentaba, el óptimo obtenido no era de mejor calidad comparado a cuando
este parámetro disminuía a “0.1”. Dicho de otra manera, si la función de error se acerca a una
pendiente, la amplitud del paso landa será modificado tanto por la “Matriz Hessiana” inversa,
como por el “Momentum” el cual es una proporción de la amplitud anterior, por lo que si el
“Momentum” es muy elevado se corre el riesgo que la función salte desde un posible óptimo
de buena calidad a uno de peor calidad.

Con respecto al parámetro “Training Time” se escogió el menor valor del rango se
propuso, el cual es 500. Al aumentar este parámetro el error aumento debido a que las
iteraciones con las cuales el modelo se entrenan son demasiadas, lo cual provoca un
sobreajuste a los dato de entrenamiento. A esto se le llama “La gran varianza” lo cual provoca
que el modelo se ajuste demasiado a unos datos determinados pero luego cuando se prueba
el modelo con los datos de test el modelo no es capaz de clasificarlos debido a que esta
sobreentrenado con un conjunto de datos determinado.

Como último parámetro, la cantidad de capas ocultas por defecto en el software Weka
es del mismo número que las entradas a la neurona, es decir para el modelo de clasificación
de animales es de 6 neuronas en esta capa. A medida que la cantidad de neuronas en esta
capa disminuía, los resultados de clasificación empeoraban, sin embargo al aumentar a 7, los
valores mejoraban. Esto es posible entenderlo debido a que una de las maneras para disminuir
el sesgo o la baja capacidad de clasificar de un modelo debido a su simplicidad, es aumentar
de manera prudente el número de neuronas en la capa oculta. Es decir, el modelo era muy
simple por lo que fue necesario agregar tan solo una neurona más, de esta manera el error es

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 33
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

mejorado al proveer más pesos y una función más de procesamiento lo cual ayuda al proceso
de optimización del error cuadrático.
Por otro lado, en cuanto a la reducción de direccionalidad se produjo algo bastante
interesante, ya que después que se escogieron los parámetros se comenzó a determinar las
variables que no eran influyentes o que obstaculizaban en el proceso de clasificación de la
red neuronal, por lo cual se intentó detectar las variables con menor ranking de relación con
la clase. Por tal motivo se empleó dos principales métodos que provee el software Weka los
cuales son “índice de correlación” y “relación de ganancia”. Entre estos dos métodos, el que
entrego mejores resultados fue “relación de ganancia”, sin embargo en este punto es donde
se une el conocimiento encontrado en el laboratorio anterior, debido a que se optó por tomar
las variables (tabla 10) que componen las reglas de asociación procedentes del árbol de
decisión (tabla 9).
Esto hace referencia a que muchas de las características de los animales son distintivas
y propias de cada especie, por lo cual incluir variables al modelo para la gran mayoría de
especies seria redundante.
Un ejemplo de lo anteriormente mencionado es la especie mamíferos, el cual solo
integrantes de este grupo amamantan. También está el caso de las aves las cuales solo ellas
poseen plumas. Sin embargo hay algunas especies que tienen similitudes en común tales
como las mencionadas por Baran Mandal (2012). La especie “insecto” es una subcategoría
de invertebrados, con lo cual se entiende porque dos de los insectos fueron clasificados como
invertebrados (tabla 11 de matriz de confusión). Otra característica muy interesante que
presentan los insectos, lo cual es mencionado por James Gould (1986), es la transversalidad
de una característica que se aplica a la gran mayoría de insectos, es la capacidad de realizar
mapas marcando rutas por medo de feromonas, lo cual es una de las grandes diferencias entre
“insectos” y otros animales pertenecientes al grupo de los “invertebrados”.
Otro ejemplo que de similitudes que se ve plasmado en el error de clasificación de la
red neuronal en tan solo un animal que correspondía a los reptiles y fue clasificado como
anfibio. Una similitud muy interesante es la mencionada por Alibardi L. (2003), el cual
encontró que en la etapa embrionaria de los anfibios y reptiles tenían algunas similitudes que

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 34
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

algunas de ellas permanecían después de su desarrollo como otras no. Por ejemplo el
desarrollo de la córnea en estas dos especies permanece similar e inalterable entre estas dos
especies incluso hasta la adultez del espécimen. Por otra parte, la piel en la etapa embrionaria
es muy similar entre estas dos especies.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 35
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

Conclusiones

Al final de las experimentaciones y análisis de los resultados se pudo resolver gran


parte del problema en la búsqueda de atributos que mejor caracterizan a una clase a través de
las redes neuronales. Así pues, se pudo analizar y verifica que disminuyendo las variables de
entrada y llegando a un óptimo de neuronas en la capa oculta, se tenía una mejor clasificación
de las clases. De este modo se pudo determinar que hay tres especies que fueron
correctamente clasificadas las cuales son mamíferos, aves y peses, sin embargo tres animales
que fueron clasificados incorrectamente, los cuales perteneces al grupo de insectos y anfibios.
En lo que respecta a la comparación de los resultados tanto de los árboles de decisión
como del método de redes neuronales del perceptrón multicapa se puedo verificar que ambos
métodos permiten la resolución del problema en la búsqueda de atributos que mejor
caracterizan a una clase. Así pues, se pudo analizar y verifica que el atributo de división del
árbol de decisión más importante “es amamantar” y que es la que mejor caracteriza la clase
mamíferos, por otro lado, la variable de entrada a la red neuronal que mejor caracteriza la
clase mamíferos es también amamantar. Seguido en menor grado de importancia, y que
divide otra rama del árbol, está el atributo “posee plumas” que caracteriza mejor a las aves,
y que para el caso de la red neuronal la variable de entrada para clasificación de ave es
también poseer plumas. En tercer orden para el árbol de decisión está el atributo “posee
espina dorsal” que caracteriza mejor a los reptiles, y que es la variable de entrada que también
se utiliza en la red neuronal para clasificar a los reptiles. En cuarta posición de importancia
y dividiendo también en hojas el árbol de decisión está el atributo “poseen aletas” que
caracteriza mejor a los peces, y que también se utiliza como variable de entrada en la red
neuronal para clasificar los peces. Continuando con la división del árbol está el atributo
“poder volar” y que caracteriza mejor a los insectos, y que a su vez es la variable de entrada
utilizada en la red neuronal para clasificar a los insectos. Todos los anteriores atributos sin

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 36
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

duda caracterizan mejor a sus respectivas clases, pero por otro lado las clases anfibio e
invertebrado, en el árbol de decisión, tienen atributos que posiblemente no sean los más
representativos de su clase, así se tiene que el atributo “ser depredador” aunque es el que
mejor caracteriza a los invertebrado, está presente en muchas especies de animales distintas
a los invertebrados. Por otro lado, el atributo “posee espina dorsal” es la que mejor caracteriza
a la clase reptil, aun cuando existen muchas especies de animales que poseen espina dorsal
y no son clasificados como reptil. También, es interesante mencionar que existen 2 instancias
de ranas en la base de datos ZOO, y que una de ellas fue clasificada como reptil y la otra
como anfibio, y que la única diferencia entre ellas es que una posee cola y la otra no.

8 Referencias

1. Rosenblatt, F. (1958). The Perceptron: A probabilistic Model For Information Storage And
Organization. Cornell Aeronautical Laboratory School. Vol. 65, No. 6, 19S8

2. Karabulut E., Özel S. & Ibrikci T (2012). A comparative study of feature selection for
classification accuracy . Procedia TechnologyI , Elsevier. Vol. 2, pp. 323 – 327.

3. Jiang, Y. & Zhou, Z. H. (2004). Editing training data for kNN classifiers with neural network
ensemble. Advances in Neural Networks. ISNN 2004, 356-361.

4. Sankar K. & Sushmita M. (1992).Multilayer perceptron, fuzzy sets, and classification. IEEE
Transactions on Neural Networks. Vol. 3, No. 5.

5. Le Cun, Y., Touresky, D., Hinton, G., & Sejnowski, T. (1998). A Theoretical Framework for
Back-Propagation. In The Connectionist Models Summer School (Vol. 1, pp. 21-28).

6. Bickler P. & Buck L. (2007). Hypoxia Tolerance in Reptiles, Amphibians, and


Fishes: Life with Variable Oxygen Availability. Annual Review of Physiology.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 37
UNIVERSIDAD DE SANTIAGO DE CHILE
FACULTAD DE INGENIERIA
DEPARTAMENTO DE INGENIERIA EN INFORMATICA

7. Darwin C. (1859) The Origin of Species by Means of Natural Selection. London, p


44.

8. Randall D.J., Burggren W.W., Farrell A.P. & Haswell M.S. (1981) The Evolution
of Air Breathing in Vertebrates. Cambridge University Press, p 133.

9. Baran Mandal F. (2012) Invertebrate Zoology. Bankura, Weste: Department of


Zoology, Bankura Chistian College.

10. Gould, James L. (1986) The locale map of honey bees: do insects have cognitive
maps?. Science, vol. 232, p. 861.

UNIVERSIDAD DE SANTIAGO DE CHILE / FACULTADA DE INGENIERIA


Av. Libertador Bernardo O´Higgins nº3363 - Estación Central - Santiago – Chile
Mesa central: (+56-2) 2 718 00 00 38

S-ar putea să vă placă și