FACULTAD DE CIENCIAS AGRARIAS Especializacin en Bioinformtica
Trabajo Final: Data Mining. Aplicacin de distintos mtodos de clasificacin
Materia: Programacin de Tareas para el Anlisis de Secuencias. Profesora: Dra. Elizabeth Tapia Alumna: Lic. Ivana Barbona ROSARIO - 2014 Materia: Data Mining Especializacin en Bioinformtica Lic. Ivana Barbona
1
Introduccin. La clasificacin automtica de textos ha tomado gran importancia en los ltimos aos debido al aumento de informacin disponible en formato electrnico. Algunas de sus aplicaciones ms importantes son, por ejemplo, filtrar spam en e-mails, organizar pginas webs en categoras jerrquicas, ordenar papers acadmicos segn el dominio al que pertenezcan, etc. Tiene como objetivo categorizar documentos dentro de una cantidad fija de categoras predefinidas en funcin de su contenido. Para poder implementar este entrenamiento del sistema se debe contar con informacin almacenada en una base de datos que se utilizar para crear la regla de clasificacin. Dicha base de datos consiste en informacin correspondiente a un conjunto de documentos preclasificados en base al conocimiento previo de expertos, de modo que el sistema pueda leer la categora de pertenencia de cada uno de los documentos. Luego, en base a estos ejemplos, hacer la asignacin a la categora automticamente evaluando las condiciones de pertenencia a cada una de las categoras. El proyecto de investigacin del cual provienen los datos que se utilizarn en el presente trabajo, se lleva a cabo en la Facultad de Ciencias Agrarias de la UNR y se denomina Modelizacin Estadstica en la Clasificacin de Textos: Cientficos y No Cientficos. En este proyecto se pretende evaluar el desempeo de las tcnicas multivariadas para clasificar/agrupar textos segn el gnero utilizando la frecuencia de aparicin de distintas clases de palabras, etc.
Objetivo. Comparar el desempeo de varios mtodos de clasificacin mediante la aplicacin de los mismos a una base de datos de textos Cientficos y No Cientficos
Materia: Data Mining Especializacin en Bioinformtica Lic. Ivana Barbona
2
Material y Mtodos. La base de datos que se utiliza, corresponde a informacin de 150 textos extrados de internet. Est compuesta por una variable de clasificacin GENERO que corresponde al tipo de texto, cuyas categoras son CIENTFICO y NO CIENTFICO. Y 12 variables que representan caractersticas de estos textos, que son las siguientes: GENERO Gnero al que pertenece el texto TEXTO Identificador del texto dentro del corpus adj cantidad de adjetivos del texto adv cantidad de adverbios del texto cl cantidad de clticos del texto cop cantidad de copulativos del texto det cantidad de determinantes del texto nom cantidad de nombres (sustantivos) del texto prep cantidad de preposiciones del texto v cantidad de verbos del texto otro cantidad de otras etiquetas del texto total_pal cantidad total de palabras del texto
Debido a que el tamao de los textos en cuanto a la cantidad de palabras es distinto se decide relativizarlos considerando la proporcin de cada clase se palabras en lugar de la cantidad. Adems, se descarta la variable otro para, de esta forma, eliminar la restriccin de que la suma de todos los valores de las variables para un texto sea igual a 1, lo cual causara problemas a la hora de aplicar algunos mtodos. Por lo tanto, la base definitiva que se utilizar estar compuesta por la variable de clasificacin GENERO Y 9 variables que caracterizan a los textos, que son la proporcin de adjetivos, adverbios, clcticos, copulativos, determinantes, sustantivos, preposiciones y verbos. Los Mtodos de clasificacin utilizados, que van a ser comparados fueron los siguientes: - Support Vector Machine: Mtodo de clasificacin lineal que encuentra un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad que puede llegar a ser infinita, mediante la utilizacin de vectores soportes. Funcin Kernel: Lineal Polinomio de segundo grado Radial Basis Function. - Sequential Minimal Optimization (SMO): Algoritmo que resuelve un problema que surge en SVM de optimizacin de una funcin cuadrtica de varias variables, pero sujetas a una restriccin lineal de esas variables. Materia: Data Mining Especializacin en Bioinformtica Lic. Ivana Barbona
3
- Regresin Logstica: Modelo que sirve para describir la relacin entre una variable respuesta categrica y un conjunto de variables explicativas, mediante el uso de la funcin de enlace logit. - Anlisis Discriminante: Tcnica Multivariada exploratoria utilizada para describir si existen diferencias entre k grupos de unidades respecto a un conjunto de p variables medidas sobre estas unidades. Adems permite obtener una regla de clasificacin basada en una funcin discriminante para clasificar futuras unidades. Lineal Cuadrtico
Todos los mtodos se implementaron con el programa WEKA, excepto el Anlisis Discriminante Lineal y Cuadrtico que fueron aplicados mediante el programa JMP. Para compararlos se considera la medida del error de mala clasificacin calculado como total de textos mal clasificados/total de textos. Resultados. En la tabla siguiente se muestran los resultados obtenidos con cada mtodo aplicado.
Materia: Data Mining Especializacin en Bioinformtica Lic. Ivana Barbona
4
Mtodo Porcentaje de Mala Clasificacin Regresin Logstica 20.67 Anlisis Discriminante Lineal 18 Cuadrtico 16.67
En las tablas anteriores se observan los resultados para los mtodos de clasificacin utilizados. Con respecto al mtodo Support Vector Machine, se consideraron varios valores del parmetro C para los kernels lineal, polinomio de grado 2 y radial basis function. Adems, se consideran distintos valores para el parmetro al utilizar el kernel RBF. Los resultados muestran que los mtodos que arrojaron porcentajes de mala clasificacin menores fueron el Anlisis Discriminante Lineal y Cuadrtico, SMO con C=5 y 10 y SVM con kernel lineal y C= 0.1 y 0.2. De todas formas, hay que tener especial cuidado con los resultados de ambos Anlisis Discriminantes, ya que stos dependen del cumplimiento de determinados supuestos, como normalidad de los datos en el caso del ADC y misma estructura de covariancias entre grupos. Por lo tanto, el mtodo ms adecuado como clasificador para este tipo de datos podra considerarse SMO.
Materia: Data Mining Especializacin en Bioinformtica Lic. Ivana Barbona
5
Conclusiones. En base a los resultados obtenidos podra decirse que el mtodo ms adecuado para clasificar textos similares a los considerados en la base que se utiliz en este trabajo es SMO con C=5 y 10. Le sigue SVM con Kernel lineal y C= 0.1 y 0.2. Cabe destacar que no presentaron casi diferencias en cuanto al tiempo de ejecucin ambos mtodos. No obstante, al comprar los mtodos observando las dems medidas de error que proporciona WEKA en sus resultados, SVM con Kernel lineal y C= 0.1 o 0.2 resulta ms adecuada como opcin. En cuanto al Anlisis Discriminante Lineal y Cuadrtico, los resultados obtenidos fueron favorables. Siendo el ADC el mejor entre ambos, quizs esto pueda deberse a que el ADL depende del cumplimiento del supuesto de estructura de covariancias iguales para los grupos, mientras que el ADC permite distintas estructuras de covariancia para los distintos grupos requiriendo solamente el cumplimiento del supuesto de normalidad multivariada. Resultara interesante seguir investigando acerca de la aplicacin de mtodos de aprendizaje de mquina como SMO y SVM, ya que demostraron mediante esta aplicacin proveer resultados favorables para el problema de clasificacin de textos planteado.