Documente Academic
Documente Profesional
Documente Cultură
1 Introduccin
El objetivo de este laboratorio es experimentar con algunos de los mtodos de clasificacin vistos a lo largo del curso usando el programa WEKA.
2 Clasificadores a utilizar
Parmetros generales Se sugiere hacer todos los experimentos con la opcin de testeo Percentage split 66%. Esto implica dividir el conjunto de datos en dos conjuntos, uno para entrenamiento (66%) y el segundo para testeo (33%). C.1) NaiveBayesSimple: Clasificar de Bayes con caractersticas independientes Este clasificador asume que las caractersticas son independientes. Cada una de las caractersticas se modela con una gaussiana y la probabilidad de una clase se calcula como el producto de las probabilidades de cada una de las caractersticas. C.2) IBk: Clasificador de k vecinos ms cercanos (kNN) Cuando se aplique este clasificador se sugiere variar el nmero de vecinos (k) asignndole valores 1, 3, 5, 7, 11 y 13. Analice adems las opciones que ofrece el clasificador. C.3) J48: rbol de decisin que usa el algoritmo C4.5 Se sugiere en una primera instancia ejecutar el clasificador con las opciones por defecto. Una vez que se hayan obtenido los resultados de clasificacin visualice el rbol resultante (para esto debe presionar botn derecho sobre el clasificador usado en la lista de resultados). Luego puede analizar las opciones del clasificador y experimentar analizando los resultados de clasificacin.
3 Datos a utilizar
D.1) iris.arff
@RELATION iris @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE sepallength REAL sepalwidth REAL petallength REAL petalwidth REAL class {Iris-setosa,Iris-versicolor,Iris-virginica}
Es un problema supervisado con tres clases de flores y cuatro caractersticas. WEKA interpreta el atributo class como la etiqueta de clase a predecir con el clasificador.
D.2) weather.arff
@relation weather @attribute @attribute @attribute @attribute @attribute outlook {sunny, overcast, rainy} temperature real humidity real windy {TRUE, FALSE} play {yes, no}
En este caso los datos combinan datos numricos y no numricos por lo que se trata de un problema de clasificacin no mtrico. El objetivo es decidir si se puede o no jugar en funcin de las primeras cuatro caractersticas. D.3) diabetes.arff
@relation pima_diabetes @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute 'preg' real 'plas' real 'pres' real 'skin' real 'insu' real 'mass' real 'pedi' real 'age' real 'class' { tested_negative, tested_positive}
Se recomienda leer la descripcin de los datos en el encabezado del archivo diabetes.arff. All se podrn entrar las definiciones de cada una de las caractersticas utilizadas.
Para poder evaluar la performance de stos mtodos se puede usar la opcin Classes to cluster evaluation seleccionando el atributo que se quiere predecir. Al experimentar con los datos D.1 y D.3 se buscar predecir la clase. Parte 1) Aplique el mtodo EM para los datos D.1 y D.3. En una primera instancia deje que el mtodo seleccione la cantidad de clusters y en una segunda instancia ingrese el nmero de clusters esperado en funcin de la cantidad de clases. Analice los resultados obtenidos. Parte 2) Aplique el mtodo SimpleKMeans para los datos D.1 y D.3 variando la cantidad de clusters. Analice los resultados obtenidos tomando como referencia los resultados cuando el nmero de clusters coincide con el nmero de clusters. Parte 3) Estudie los efectos de eliminar alguna de las caractersticas en el proceso de clustering.
6 Entregable
El entregable del laboratorio deber contener los resultados obtenidos en cada etapa junto con una evaluacin de los mismos y los comentarios correspondientes. Para cada par datos clasificador se sugiere reportar:
1) 2) 3) 4) Correctly Classified Instances Incorrectly Classified Instances Detailed Accuracy By Class Confusion Matrix