Trabajo Final Data Mining - Ivana Barbona

Materia: Data Mining
UNIVERSIDAD NACIONAL DE ROSARIO

FACULTAD DE CIENCIAS AGRARIAS
Especializacin en Bioinformtica

Trabajo Final: Data Mining. Aplicacin de distintos mtodos de clasificacin

Materia: Programacin de Tareas para el Anlisis de Secuencias.
Profesora: Dra. Elizabeth Tapia
Alumna: Lic. Ivana Barbona
ROSARIO - 2014
Lic. Ivana Barbona

1

Introduccin.
La clasificacin automtica de textos ha tomado gran importancia en los ltimos aos
debido al aumento de informacin disponible en formato electrnico.
Algunas de sus aplicaciones ms importantes son, por ejemplo, filtrar spam en e-mails,
organizar pginas webs en categoras jerrquicas, ordenar papers acadmicos segn el
dominio al que pertenezcan, etc.
Tiene como objetivo categorizar documentos dentro de una cantidad fija de categoras
predefinidas en funcin de su contenido.
Para poder implementar este entrenamiento del sistema se debe contar con informacin
almacenada en una base de datos que se utilizar para crear la regla de clasificacin.
Dicha base de datos consiste en informacin correspondiente a un conjunto de
documentos preclasificados en base al conocimiento previo de expertos, de modo que el
sistema pueda leer la categora de pertenencia de cada uno de los documentos. Luego,
en base a estos ejemplos, hacer la asignacin a la categora automticamente
evaluando las condiciones de pertenencia a cada una de las categoras.
El proyecto de investigacin del cual provienen los datos que se utilizarn en el presente
trabajo, se lleva a cabo en la Facultad de Ciencias Agrarias de la UNR y se denomina
Modelizacin Estadstica en la Clasificacin de Textos: Cientficos y No Cientficos. En
este proyecto se pretende evaluar el desempeo de las tcnicas multivariadas para
clasificar/agrupar textos segn el gnero utilizando la frecuencia de aparicin de distintas
clases de palabras, etc.

Objetivo.
Comparar el desempeo de varios mtodos de clasificacin mediante la aplicacin de
los mismos a una base de datos de textos Cientficos y No Cientficos

Lic. Ivana Barbona

2

Material y Mtodos.
La base de datos que se utiliza, corresponde a informacin de 150 textos extrados de
internet. Est compuesta por una variable de clasificacin GENERO que corresponde al
tipo de texto, cuyas categoras son CIENTFICO y NO CIENTFICO. Y 12 variables que
representan caractersticas de estos textos, que son las siguientes:
GENERO Gnero al que pertenece el texto
TEXTO Identificador del texto dentro del corpus
adj cantidad de adjetivos del texto
adv cantidad de adverbios del texto
cl cantidad de clticos del texto
cop cantidad de copulativos del texto
det cantidad de determinantes del texto
nom
cantidad de nombres (sustantivos) del
texto
prep cantidad de preposiciones del texto
v cantidad de verbos del texto
otro cantidad de otras etiquetas del texto
total_pal cantidad total de palabras del texto

Debido a que el tamao de los textos en cuanto a la cantidad de palabras es distinto se
decide relativizarlos considerando la proporcin de cada clase se palabras en lugar de
la cantidad. Adems, se descarta la variable otro para, de esta forma, eliminar la
restriccin de que la suma de todos los valores de las variables para un texto sea igual a 1,
lo cual causara problemas a la hora de aplicar algunos mtodos.
Por lo tanto, la base definitiva que se utilizar estar compuesta por la variable de
clasificacin GENERO Y 9 variables que caracterizan a los textos, que son la proporcin de
adjetivos, adverbios, clcticos, copulativos, determinantes, sustantivos, preposiciones y
verbos.
Los Mtodos de clasificacin utilizados, que van a ser comparados fueron los siguientes:
- Support Vector Machine: Mtodo de clasificacin lineal que encuentra
un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad que
puede llegar a ser infinita, mediante la utilizacin de vectores soportes.
Funcin Kernel:
Lineal
Polinomio de segundo grado
Radial Basis Function.
- Sequential Minimal Optimization (SMO): Algoritmo que resuelve un problema que
surge en SVM de optimizacin de una funcin cuadrtica de varias variables, pero
sujetas a una restriccin lineal de esas variables.
Lic. Ivana Barbona

3

- Regresin Logstica: Modelo que sirve para describir la relacin entre una variable
respuesta categrica y un conjunto de variables explicativas, mediante el uso de
la funcin de enlace logit.
- Anlisis Discriminante: Tcnica Multivariada exploratoria utilizada para describir si
existen diferencias entre k grupos de unidades respecto a un conjunto de p
variables medidas sobre estas unidades. Adems permite obtener una regla de
clasificacin basada en una funcin discriminante para clasificar futuras unidades.
Lineal
Cuadrtico

Todos los mtodos se implementaron con el programa WEKA, excepto el Anlisis
Discriminante Lineal y Cuadrtico que fueron aplicados mediante el programa JMP.
Para compararlos se considera la medida del error de mala clasificacin calculado
como total de textos mal clasificados/total de textos.
Resultados.
En la tabla siguiente se muestran los resultados obtenidos con cada mtodo aplicado.

SVM
SMO
Kernel:
Lineal
Kernel:
Polinomio
grado 2
Kernel: Radial Basis Function.
= 0.0 = 0.1 = 0.2 = 0.3 = 0.5 = 1 = 5 = 10
C
0.1
19.33 21.33 40.00 40.00 40.00 40.00 40.00 40.00 40.00 40.00 40.00
0.2 19.33 22.67 40.00 40.00 40.00 40.00 40.00 40.00 40.00 40.00 34.00
0.3
20.67 24.00 40.00 40.00 40.00 40.00 40.00 40.00 40.00 40.00 30.00
0.4
20.67 24.67 40.00 40.00 40.00 40.00 40.00 40.00 40.00 40.00 28.00
0.5
20.67 24.67 40.00 40.00 40.00 40.00 40.00 40.00 40.00 40.00 25.33
0.6
20.00 25.33 39.33 39.33 40.00 40.00 40.00 40.00 40.00 40.00 25.33
0.7
20.00 26.00 39.33 38.67 40.00 40.00 40.00 40.00 40.00 40.00 23.33
0.8
20.00 26.00 38.00 38.00 40.00 40.00 40.00 40.00 40.00 40.00 21.33
0.9
20.00 27.33 38.67 36.67 39.33 40.00 40.00 40.00 40.00 40.00 20.67
1
20.00 26.00 36.00 31.33 40.00 40.67 40.00 40.00 40.00 40.00 18.67
1.5
20.00 26.67 32.67 31.33 40.67 41.33 40.67 40.00 40.00 40.00 18.67
2
20.00 26.67 33.33 32.00 40.67 41.33 40.67 40.00 40.00 40.00 19.33
2.5
20.00 30.00 33.33 32.67 40.67 41.33 40.67 40.00 40.00 40.00 18.67
3
20.00 29.33 33.33 32.67 40.67 41.33 40.67 40.00 40.00 40.00 18.67
3.5
20.00 29.33 34.00 33.33 40.67 41.33 40.67 40.00 40.00 40.00 18.67
5
20.00 28.00 34.67 34.67 40.67 41.33 40.67 40.00 40.00 40.00 18.00
10
20.67 26.67 34.00 34.00 40.67 41.33 40.67 40.00 40.00 40.00 18.00
20
20.67 27.33 34.00 34.00 40.67 41.33 40.67 40.00 40.00 40.00 18.67

Lic. Ivana Barbona

4

Mtodo
Porcentaje de Mala
Clasificacin
Regresin Logstica 20.67
Anlisis Discriminante
Lineal 18
Cuadrtico 16.67

En las tablas anteriores se observan los resultados para los mtodos de clasificacin
utilizados. Con respecto al mtodo Support Vector Machine, se consideraron varios valores
del parmetro C para los kernels lineal, polinomio de grado 2 y radial basis function.
Adems, se consideran distintos valores para el parmetro al utilizar el kernel RBF.
Los resultados muestran que los mtodos que arrojaron porcentajes de mala clasificacin
menores fueron el Anlisis Discriminante Lineal y Cuadrtico, SMO con C=5 y 10 y SVM con
kernel lineal y C= 0.1 y 0.2.
De todas formas, hay que tener especial cuidado con los resultados de ambos Anlisis
Discriminantes, ya que stos dependen del cumplimiento de determinados supuestos,
como normalidad de los datos en el caso del ADC y misma estructura de covariancias
entre grupos.
Por lo tanto, el mtodo ms adecuado como clasificador para este tipo de datos podra
considerarse SMO.

Lic. Ivana Barbona

5

Conclusiones.
En base a los resultados obtenidos podra decirse que el mtodo ms adecuado para
clasificar textos similares a los considerados en la base que se utiliz en este trabajo es
SMO con C=5 y 10. Le sigue SVM con Kernel lineal y C= 0.1 y 0.2. Cabe destacar que no
presentaron casi diferencias en cuanto al tiempo de ejecucin ambos mtodos. No
obstante, al comprar los mtodos observando las dems medidas de error que
proporciona WEKA en sus resultados, SVM con Kernel lineal y C= 0.1 o 0.2 resulta ms
adecuada como opcin.
En cuanto al Anlisis Discriminante Lineal y Cuadrtico, los resultados obtenidos fueron
favorables. Siendo el ADC el mejor entre ambos, quizs esto pueda deberse a que el ADL
depende del cumplimiento del supuesto de estructura de covariancias iguales para los
grupos, mientras que el ADC permite distintas estructuras de covariancia para los distintos
grupos requiriendo solamente el cumplimiento del supuesto de normalidad multivariada.
Resultara interesante seguir investigando acerca de la aplicacin de mtodos de
aprendizaje de mquina como SMO y SVM, ya que demostraron mediante esta
aplicacin proveer resultados favorables para el problema de clasificacin de textos
planteado.

Trabajo Final Data Mining - Ivana Barbona

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Trabajo Final Data Mining - Ivana Barbona

Încărcat de

Drepturi de autor:

Formate disponibile

Materia: Data Mining

UNIVERSIDAD NACIONAL DE ROSARIO

S-ar putea să vă placă și