Sunteți pe pagina 1din 3

Universidad Catlica del Uruguay Departamento de Ingeniera Elctrica Maestra en Ciencias de la Ingeniera Elctrica

Reconocimiento de Patrones Laboratorio usando WEKA

1 Introduccin
El objetivo de este laboratorio es experimentar con algunos de los mtodos de clasificacin vistos a lo largo del curso usando el programa WEKA.

2 Clasificadores a utilizar
Parmetros generales Se sugiere hacer todos los experimentos con la opcin de testeo Percentage split 66%. Esto implica dividir el conjunto de datos en dos conjuntos, uno para entrenamiento (66%) y el segundo para testeo (33%). C.1) NaiveBayesSimple: Clasificar de Bayes con caractersticas independientes Este clasificador asume que las caractersticas son independientes. Cada una de las caractersticas se modela con una gaussiana y la probabilidad de una clase se calcula como el producto de las probabilidades de cada una de las caractersticas. C.2) IBk: Clasificador de k vecinos ms cercanos (kNN) Cuando se aplique este clasificador se sugiere variar el nmero de vecinos (k) asignndole valores 1, 3, 5, 7, 11 y 13. Analice adems las opciones que ofrece el clasificador. C.3) J48: rbol de decisin que usa el algoritmo C4.5 Se sugiere en una primera instancia ejecutar el clasificador con las opciones por defecto. Una vez que se hayan obtenido los resultados de clasificacin visualice el rbol resultante (para esto debe presionar botn derecho sobre el clasificador usado en la lista de resultados). Luego puede analizar las opciones del clasificador y experimentar analizando los resultados de clasificacin.

3 Datos a utilizar
D.1) iris.arff
@RELATION iris @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE @ATTRIBUTE sepallength REAL sepalwidth REAL petallength REAL petalwidth REAL class {Iris-setosa,Iris-versicolor,Iris-virginica}

Es un problema supervisado con tres clases de flores y cuatro caractersticas. WEKA interpreta el atributo class como la etiqueta de clase a predecir con el clasificador.

D.2) weather.arff
@relation weather @attribute @attribute @attribute @attribute @attribute outlook {sunny, overcast, rainy} temperature real humidity real windy {TRUE, FALSE} play {yes, no}

En este caso los datos combinan datos numricos y no numricos por lo que se trata de un problema de clasificacin no mtrico. El objetivo es decidir si se puede o no jugar en funcin de las primeras cuatro caractersticas. D.3) diabetes.arff
@relation pima_diabetes @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute @attribute 'preg' real 'plas' real 'pres' real 'skin' real 'insu' real 'mass' real 'pedi' real 'age' real 'class' { tested_negative, tested_positive}

Se recomienda leer la descripcin de los datos en el encabezado del archivo diabetes.arff. All se podrn entrar las definiciones de cada una de las caractersticas utilizadas.

4 Experimentos de clasificacin supervisada


Para cada uno de los experimentos (para cada conjunto de datos y cada clasificador) se sugiere salvar los mismos con la opcin save buffer results. Parte 1) Segn corresponda aplique los clasificadores C.1 a C.3 a los datos D.1 a D.3. Para cada experimento guarde los resultados de la clasificacin. Para cada conjunto de datos se debern reportar los resultados de clasificacin para cada clasificador. Parte 2) En esta parte se analizarn los efectos de aplicar componentes principales antes de proceder a la clasificacin. La opcin de componentes principales se encuentra en Preprocessing/unsupervised/atribute. Para los datos D.1 y D.3 vare la cantidad de componentes y registre la performance de clasificacin para los clasificadores C.1 y C.2.

5 Experimentos de clasificacin no supervisada


El objetivo de esta parte es experimentar con los mtodos de clasificacin no supervisada EM (Expectation Maximization) y K-Means. Estos mtodos se encuentran dentro de la opcin Cluster de WEKA con los nombres EM y SimpleKMeans.

Para poder evaluar la performance de stos mtodos se puede usar la opcin Classes to cluster evaluation seleccionando el atributo que se quiere predecir. Al experimentar con los datos D.1 y D.3 se buscar predecir la clase. Parte 1) Aplique el mtodo EM para los datos D.1 y D.3. En una primera instancia deje que el mtodo seleccione la cantidad de clusters y en una segunda instancia ingrese el nmero de clusters esperado en funcin de la cantidad de clases. Analice los resultados obtenidos. Parte 2) Aplique el mtodo SimpleKMeans para los datos D.1 y D.3 variando la cantidad de clusters. Analice los resultados obtenidos tomando como referencia los resultados cuando el nmero de clusters coincide con el nmero de clusters. Parte 3) Estudie los efectos de eliminar alguna de las caractersticas en el proceso de clustering.

6 Entregable
El entregable del laboratorio deber contener los resultados obtenidos en cada etapa junto con una evaluacin de los mismos y los comentarios correspondientes. Para cada par datos clasificador se sugiere reportar:
1) 2) 3) 4) Correctly Classified Instances Incorrectly Classified Instances Detailed Accuracy By Class Confusion Matrix

En el caso de los mtodos de clustering se sugiere reportar:


1) Incorrectly clustered instances 2) Classes to Clusters

S-ar putea să vă placă și