Documente Academic
Documente Profesional
Documente Cultură
Miner de Datos a
Agosto - Septiembre 2008
Ejercicios de Weka
Comentarios generales sobre los ejercicios
Asumiendo que se conocen los contenidos tericos, el tiempo estimado o para realizar los ejercicios es de 2 horas Describir las soluciones a los ejercicios de una manera lo ms formal a posible
1.
El objetivo de este ejercicio es familiarizarse con el entorno de Weka, y estudiar algunas de las funcionalidades de anlisis de datos. Estas funcionalidades incluyen anlisis estad a a stico, visualizacin, etc. Recordad que el manual o de Weka est disponible en http://www.cs.waikato.ac.nz/ml/weka/index documentation.html a
1.1.
Abrir el chero de datos con un editor, y estudiar su contenido: 1. Cuntos atributos caracterizan los datos de esta tabla de datos? a 2. Si suponemos que queremos predecir el ultimo atributo a partir de los anteriores, estar amos ante un problema de clasicacin o de regresin? o o
1.2.
Una vez cargado el conjunto de datos, en la seccin attributes se puede pinchar sobre cada atributo para obtener o informacin estad o stica de ellos. Contestad a las siguientes preguntas: 1. Cul es el rango de valores del atributo petalwitdth? a 2. Con la informacin que puedes obtener visualmente, qu atributo/s crees que son los que mejor permitirn o e a predecir el atributo class?
1.3.
Aplicacin de ltros o
1. Aplicar el ltro lters/unsupervised/attribute/normalize sobre el conjunto de datos. Qu efecto tiene este e ltro? 2. Aplicar el ltro lters/unsupervised/instance/RemovePercentage sobre el conjunto de datos. Qu efecto tiene e este ltro? 3. Grabar el conjunto de datos como iris2.ar. 4. Aplicar el ltro lters/unsupervised/attribute/Discretize sobre el conjunto de datos. Qu efecto tiene este e ltro?
1.4.
Visualizacin o
Volver a cargar el conjunto de datos iris2.ar Pulsar la pestaa Visualize. Aumentar Point Size a 5 para n visualizarlos datos mejor. 1. Aumentar el valor de Jitter: qu efecto tiene? e
2.
Clasicacin o
El objetivo de este ejercicio es familiarizarse con las primeras tcnicas de anlisis de datos. En concreto, con los e a a rboles de decisin. o
2.1.
Clasicador ZeroR
Cargar el conjunto de datos iris.ar. En la pestaa Classify, seleccionar el clasicador ZeroR. En las Test n Options seleccionar Use trainning set, y pulsar el botn de Start para que genere el clasicador. En un instante, en o la ventana de salida aparecern los datos de la clasicacin realizada. Analizar esta salida. a o 1. Qu modelo genera el clasicador ZeroR? e 2. Cuntas instancias del conjunto de entrenamiento clasica bien? a 3. Qu porcentaje de instancias clasica bien? e 4. Qu crees que indica la matriz de confusin? e o
2.2.
Clasicador J48
Cargar el conjunto de datos iris.ar. En la pestaa Classify, seleccionar el clasicador trees/j48. En las Test n Options seleccionar Use trainning set, y pulsar el botn de Start para que genere el clasicador. o 1. Cuntas hojas tiene el rbol generado con J48? a a 2. Cuntas instancias del conjunto de entrenamiento clasica bien? a 3. Qu porcentaje de instancias clasica bien? e 4. Analizar la matriz de confusin: qu ha clasicado mal? o e 5. Pulsar el botn de More Options y seleccionar la opcin de Output predictions. En qu instancias se ha o o e equivocado? 6. Elegir una instancia que J48 haya clasicado errneamente y a analizar por qu o e Adems, utiliza alguna de las herramientas de visualizacin de Weka: a o En la ventana de Result list, pulsa en el botn derecho sobre el modelo generado con J48 para desplegar las o opciones. Pulsa sobre Visualize Tree En la ventana de Result list, pulsa en el botn derecho sobre el modelo generado con J48 para desplegar las o opciones. Pulsa sobre Visualize Errors
2.3.
Clasicador ID3
Cargar el conjunto de datos iris.ar. Seleccionar el clasicador ID3 y utilizarlo para generar un rbol de decisin. a o 1. Has podido ejecutar el algoritmo ID3 sobre el conjunto de datos directamente? Por qu? e 2. Qu acciones has llevado a cabo para poder ejecutarlo? e 3. Qu porcentaje de xito sobre el conjunto de entrenamiento has obtenido? e e 4. Qu porcentaje de xito obtienes si utilizas como mecanismo de evaluacin la validacin cruzada? e e o o 5. Qu porcentaje de xito estimas que obtendrs en el futuro sobre nuevos datos con el rbol generado con e e a a ID3?
2.4.
Arboles de Regresin o
Cargar el conjunto de datos cpu.ar. Entre los algoritmos ID3, J48 y M5P, elegir uno de ellos para aproximar el atributo class sin que sea necesario tratar los datos de entrada de ninguna forma. 1. Qu algoritmo has elegido? por qu? e e 2. Qu porcentaje de error obtienes si utilizas como mecanismo de evaluacin la validacin cruzada? e o o 3. Por qu no disponemos ahora de una matriz de confusin? e o
3.
Agrupacin o
El objetivo de este ejercicio es familiarizarse con algunas tcnicas de agrupacin. Para ello, vamos a utilizar e o tambin el conjunto de datos iris.ar. e Cargar el conjunto de datos iris.ar. Eliminar el atributo class Ejecutar el algoritmo SimpleKMeans para generar 3 grupos. Qu medida de rendimiento genera Weka? e Qu valor proporciona? e Ejecutar el algoritmo SimpleKMeans para generar 5 grupos. Cmo mejora la medida de rendimiento? o Utilizar la herramienta de visualizacin de grupos para comparar los dos resultados. Puedes obtener alguna o conclusin? o Ejecutar el algoritmo EM con los parmetros por defecto. Cuntas distribuciones genera? Hay alguna a a relacin con alguno de los resultados generados con SimpleKMeans? o
4.
El Experimenter
El objetivo de este ejercicio es familiarizarse con una herramienta avanzada de anlisis de datos integrada a en Weka, denominada Experimenter. Esta herramienta permite ejecutar distintos algoritmos de miner de datos a sobre distintos conjuntos de datos, de forma que su ejecucin secuencial hace ms rpida su ejecucin, as como la o a a o evaluacin de los resultados. o Para ello, seguir los siguientes pasos: Pulsar el botn New para generar un nuevo experimento o Seleccionar los conjuntos de datos: iris.ar, soybean.ar y labor.ar Seleccionar los clasicadores: J48,IBK con K = 1, IBK con K = 3, IBK con K = 5, y SVO En el apartado Results Destination seleccionar CSV le y utilizar el botn de Browse para elegir el chero o Pulsar la pestaa Run y pulsar el botn de Start n o
Una vez nalizado el proceso, abrir una hoja de clculo, y cargar el chero CSV. a En ese chero, se muestra en cada la los datos de cada ejecucin, incluyendo el conjunto de datos, el o clasicador utilizado con sus parmetros, as como datos sobre sus resultados a Localizar la columna que mide el porcentaje de xito e Obtener la media del porcentaje de xito para cada clasicador y conjunto de datos e Una vez realizados los pasos anteriores, responder a las siguientes preguntas: Qu resultados ha obtenido cada clasicador en cada conjunto de datos? e Qu algoritmo ha obtenido mejores resultados en cada conjunto de datos? e Son los resultados del mejor algoritmo mucho mejores que los del resto?