Sunteți pe pagina 1din 24

APLICACIN DE LA TCNICAS DE MINERA DE DATOS Y EVALUACIN DEL

MODELO

TATIANA SUAREZ ACELAS

UNIVERSITARIA DE INVESTIGACIN Y DESARROLLO (UDI)


FACULTAD DE INGENIERIA DE SISTEMAS
MINERIA DE DATOS
BUCARAMANGA
2015

APLICACIN DE LA TCNICAS DE MINERA DE DATOS Y EVALUACIN DEL


MODELO

TATIANA SUAREZ ACELAS

TECNICA ARBOL DE DECISIN Y CLUSTER PARA DATASET ESTUDIANTES

DOCENTE
ALEXANDRA SORAYA BELTRN CASTRO

UNIVERSITARIA DE INVESTIGACIN Y DESARROLLO (UDI)


FACULTAD DE INGENIERIA DE SISTEMAS
MINERIA DE DATOS
BUCARAMANGA
2015

CONTENIDO
INTRODUCCIN ............................................................................................................. 4
1.1.

Objetivo General ................................................................................................. 5

1.2.

Objetivos Especficos .......................................................................................... 5

2.1.

Definicin ............................................................................................................ 6

2.2.

Resea Histrica ................................................................................................. 6

2.3.

Caractersticas .................................................................................................... 7

2.4.

Usos .................................................................................................................... 8

2.5.

Tcnicas que se pueden utilizar .......................................................................... 9

3.1.

Descripcin de atributos .................................................................................... 10

4.1.

APLICACIN TECNICA ARBOL DE DECISIONES .......................................... 11

4.2.

EVALUACIN ................................................................................................... 14

5.1.

APLICACIN TECNICA CLUSTER .................................................................. 16

5.2.

EVALUACION ................................................................................................... 21

INTRODUCCIN

Teniendo en cuenta el gran avance en los sistemas de minera de datos desde el ltimo
siglo, las entidades han buscado maneras de explotar al mximo la informacin
existente en sus sistemas de informacin, esto basndose en tcnicas y software
especializados que permiten interpretacin fcil y real de los resultados.
Es as como para dar apoyo en la toma de decisiones a niveles administrativos o
gerenciales, se crean metodologas especializadas y tcnicas de extraccin adecuada
de la informacin, haciendo que el usuario final pueda ver los resultados en un solo clic
o con pocos pasos, por tanto y teniendo en cuenta lo anterior, se crea el presente
manual de usuario basado en la tecnologa de informacin y software especializado
WEKA (Waikato Environment for Knowledge Analysis) de la universidad de Waikato en
Nueva Zelanda, este utiliza tcnicas de minera de datos basndose en diferentes
reglas y tipos de clasificacin de informacin tales como rboles de decisin, reglas de
clasificacin, agrupamiento, etc.
Al contar con informacin al alcance de nuestra mano, podemos tomar mejor decisiones
en todos los procesos de una empresa u organizacin. Sin embargo a medida que va
aumentando la cantidad de informacin se hace ms tedioso el proceso de anlisis de
dichos datos almacenados por lo tanto se hace necesario usar herramientas o modelos
que permitan extraer informacin til de dicho conjunto de datos y as poder tomas
decisiones. Es en este momento que se hace uso de la Minera de datos (Data Mining)
la cual busca ayudar a procesar y analizar gran cantidades de datos con el fin de
aprovechar todo el conocimiento til que se encuentra en dichos datos.
La minera de datos es un proceso que nace de la necesidad de dar respuesta a una
pregunta o solucionar un problema por medio del anlisis de datos. Aunque el anlisis
de los datos es el ncleo de la minera de datos, tambin es de gran importancia la
ejecucin de otras etapas como la seleccin, preprocesado, seleccin de
caractersticas, extraccin del conocimiento y evaluacin.
Integrando las diferentes definiciones de la minera de datos se puede decir que esta
implica fundamentalmente el descubrimiento de nuevo conocimiento a partir de grandes
cantidades de datos almacenados, para as alcanzar una mejor comprensin y
entendimiento de los mismos con el fin de predecir su futuro comportamiento.

1. OBJETIVOS

1.1.

Objetivo General

Aplicar diferentes tcnicas de minera de datos para el anlisis de un conjunto de


datos generando una respectiva evaluacin y anlisis de resultados.
1.2.

Objetivos Especficos

Estudiar el funcionamiento de la herramienta WEKA sus caractersticas y


diferentes tcnicas que maneja.
Identificar todos los datos disponibles que se encuentran en el conjunto de
datos o Data Set escogido.
Aplicar tcnicas de aprendizaje supervisado y no supervisado para el anlisis
de datos.
Evaluacin de cada uno de los modelos generados por las tcnicas de
minera de datos usadas.
Analizar los resultados de la aplicacin de tcnicas de minera de datos en el
Dataset escogido.

2. HERRAMIENTA WEKA
2.1.

Definicin

WEKA (Gallirallus Australis) es una especie de ave gruiforme, del tamao de una
gallina, originaria de Nueva Zelanda. Fue utilizada como smbolo para el logotipo de la
herramienta de aprendizaje WEKA (Waikato Environment for Knowledge Analysis
Entorno para Anlisis del Conocimiento de Waikato), no solo por la coincidencia del
nombre sino por el origen comn, Nueva Zelanda, donde se encuentra la universidad
de Waikato. Es un software que ha sido desarrollado bajo licencia GPL4 lo cual ha
impulsado que sea una de las suites ms utilizadas en el rea en los ltimos aos; as
mismo es un software para el aprendizaje automtico o minera de datos
WEKA es una herramienta que permite la experimentacin de anlisis de datos
mediante la aplicacin, anlisis y evaluacin de las tcnicas ms relevantes de anlisis
de datos, principalmente las provenientes del aprendizaje automtico, sobre cualquier
conjunto de datos del usuario.
WEKA apoya muchas tareas de minera de datos, como el reprocesamiento de datos,
la clasificacin, clustering, regresin y funcin de seleccin entre otros. WEKA es un
entorno de trabajo que contiene una coleccin de herramientas de visualizacin y
algoritmos para el anlisis de datos y modelado predictivo, junto con las interfaces
grficas de usuario para facilitar el acceso a esta funcionalidad.
2.2.

Resea Histrica

La herramienta WEKA fue desarrollada en 1993 en la Universidad de Waikato de


Nueva Zelanda utilizando TCL/TK y C. y en el ao de 1997 se reescribi su cdigo al
lenguaje Java incluyendo implementaciones de algoritmos de modelado
La versin sin java original de WEKA fue un TCL/TK (Tool Command Language/Toolkit)
front-end (en su mayora de otros fabricantes) con modelos de algoritmos
implementados en otros lenguajes de programacin, adems del preprocesado de
datos de utilitarios en C y un sistema basado en Makefile para llevar a cabo
experimentos de aprendizaje automtico.
La versin original fue diseada principalmente como una herramienta para el anlisis
de los datos del mbito agrcola, pero la ms reciente versin completamente basada
en Java, cuyo desarrollo se inici en 1997, ahora se utiliza en diferentes reas de
aplicacin, en particular con fines educativos y de investigacin.
En el ao 2005 esta herramienta muy flexible y fcil de utilizar, recibe el galardn Data
Mining and Knowledge Discovery Service, por parte de la ACM (Asociacin for
Computing Machinery) que es la Sociedad Cientfica Para el Desarrollo de la
Computacin Educacional.

2.3.

Caractersticas

Esta es una herramienta muy verstil que soporta muchas tareas estndar de la minera
de datos en especial tareas de procesamiento de datos, regresin, clasificacin,
clustering entre otras, as mismo permite la visualizacin y la seleccin de los datos.

Diversas fuentes de datos (ASCII, JDBC).


Interfaz visual basado en procesos/flujos de datos (rutas).
Distintas herramientas de minera de datos: reglas de asociacin (a priori,
Tertius, etc), agrupacin/segmentacin/conglomerado (Cobweb, EM y k-medias),
clasificacin (redes neuronales, reglas y 4 Citado de GNU Public License.
http://www.gnu.org/copyleft/gpl.html 27 rboles de decisin, aprendizaje
Bayesiana) y regresin (Regresin lineal, SVM...).
Manipulacin de datos (pick & mix, muestreo, combinacin y separacin).
Combinacin de modelos (Bagging, Boosting, etc)
Visualizacin anterior (datos en mltiples grficas) y posterior (rboles, curvas
ROC, curvas de coste, etc).
Entorno de experimentos, con la posibilidad de realizar pruebas estadsticas (ttest).
Sistema integrado con herramientas de pre-procesado de datos, algoritmos de
aprendizaje y mtodos de evaluacin de algoritmos.
Posee interfaces grficas para comprensin y manejo del usuario.
Tiene un ambiente de comparacin entre las herramientas de aprendizaje.
Es un software de fcil acceso por los usuarios ya que est disponible libremente
bajo licencia pblica GNU-GPL. Tiene un formato especial de entrada de datos
arff. (Attribute - Relation File Format).
2.3.1. Regresin
Los modelos de regresin se ajustan al mismo patrn general. Hay un
nmero de variables independientes, que, cuando se toman juntos,
producen un resultado una variable dependiente.
El modelo de regresin se utiliza para predecir el resultado de una variable
dependiente desconocida, dados los valores de las variables
independientes.

2.3.2. Clasificacin
Tambin conocida como arboles de clasificacin o rboles de decisin, es
un algoritmo que crea una gua paso a paso sobre como determinar la
salida de una instancia de datos nuevas. El rbol que crea es
exactamente eso: un rbol donde cada nodo representa un lugar donde se
debe tomar una decisin en base a la entada y pasar al siguiente nodo y
el siguiente hasta llegar a una hoja que indica la salida predecible. Se
utiliza tambin un conjunto de entrenamiento para producir el modelo.

2.3.3. Clustering
Permite a un usuario hacer grupos de datos para determinar los patrones.
Tiene sus ventajas cuando el conjunto de datos est definido y un patrn
general tiene que ser determinado a partir de esos datos. Usted puede
crear un nmero determinado de grupos en funcin de las necesidades
del negocio.
Un beneficio del clustering sobre la clasificacin es que cada atributo en el
conjunto de datos se puede utilizar para analizar los datos. Una importante
desventaja es que se requiere que el usuario conozca de antemano el
nmero de grupos que quiere crear.
2.4.

Usos

WEKA posee un grupo de tcnicas que se pueden aplicar con xito a mltiples capos,
tales como el Marketing, manufactura, salud, energa, finanzas, medicina, entre otros,
para su aplicacin se debe de tener en cuenta el tipo de tarea que se desea realizar.
Con base a la tarea se puede implementar en para dar la solucin necesaria en cada
uno de estos campos, a continuacin se muestran una serie de tareas incluidas en
WEKA.

Mtodos de clasificacin basados en redes neuronales


Manipulacin de mtodos numricos sobre datos (Funciones estadsticas)
Mtodos de clasificacin basados en mquinas de soporte vectorial
Metaclasificadores
Mtodos de implementacin de rboles de decisin
Implementacin de clustering
Mtodos de estimacin de probabilidades
Clases para implementar clasificadores bayes

2.5.

Tcnicas que se pueden utilizar

2.5.1. Preprocesado de los Datos


WEKA permite realizar manipulaciones sobre los datos aplicando filtros.
Se pueden aplicar en dos niveles: atributos e instancias. Adems las
operaciones de filtrado pueden aplicarse en cascada, de forma que la
entrada de cada filtro es la salida de haber aplicado el anterior filtro.
2.5.2. Visualizacin
La herramienta de visualizacin de WEKA permite representar grficas 2D
que relacionan pares de atributos. Podemos visualizar en la figura 1 el
rango de calificaciones finales de los alumnos entre 1993 y 2003,
especificando como color para la grfica la convocatoria de la prueba.
2.5.3. Asociacin
Mediante algoritmos de asociacin podemos realizar la bsqueda
automtica de reglas que relacionan conjuntos de atributos entre s. Son
algoritmos no supervisados, ya que no existen relaciones conocidas a
priori con las que contrastar la validez de los resultados, sino que se
evala si esas reglas son estadsticamente significativas. El principal
algoritmo implementado en WEKA es el algoritmo A priori, el cual slo
busca reglas entre atributos simblicos, por lo cual todos los atributos
numricos deberan ser discretizados previamente
2.5.4. Agrupamiento
Los algoritmos de agrupamiento buscan grupos de instancias con
caractersticas similares, segn un criterio de comparacin entre valores
de atributos de las instancias definidos en los algoritmos.

Agrupamiento Numrico
Agrupamiento Simblico

2.5.5. Clasificacin
El problema de la clasificacin es el ms frecuente en la prctica. Una vez
aplicados los algoritmos no supervisados de agrupamiento y asociacin se
aplicara la clasificacin como un refinamiento en el anlisis. De esta
forma, construiremos un modelo que permita predecir la categora de las
instancias en funcin de una serie de atributos de entrada. La clase se
convertir en la variable objetivo a predecir.

3. DESCRIPCIN DEL DATASET SELECCIONADO


El Data Set seleccionado contiene los logros estudiantiles en la educacin secundaria
de dos escuelas portuguesas en el rea de matemticas. Los atributos de datos
incluyen las calificaciones del estudiante, datos demogrficos, caractersticas sociales y
escolares los cuales se recogieron mediante informes de la escuela y cuestionarios.
Nombre: Student Performance (Desempeo de Estudiantes)
Resumen: Predice el desempeo del estudiante en el rea de matemticas de la
escuela secundaria.
Number of Instances: 395
Number of Attributes: 18
3.1.
ATRIBUTO
SCHOOL
SEX
AGE
ADDRESS
FAMSIZE
PSTATUS
STUDYTIME
FAMSUP
ACTIVITIES
INTERNET
ROMANTIC
FAMREL
FREETIME
GOOUT
DALC
WALC
HEALTH
GRADE

Descripcin de atributos
DESCRIPCIN
Student's school ('GP' = Gabriel Pereira or 'MS' = Mousinho da
Silveira)
Student's sex ('F' = female or 'M' = male)
Student's age (from 15 to 22)
Student's home address type (Urban or Rural)
Family size ('LE3' = less or equal to 3 or 'GT3' = greater than 3)
Parent's cohabitation status
Weekly study time
Family educational support
Extra curricular activities (yes or no)
Internet access at home (yes or no)
With a romantic relationship (yes or no)
Quality of family relationships
Free time after school
Going out with friends
Workday alcohol consumption
Weekend alcohol consumption
Current health status
Final grade (from 0 to 20, output target)

4. APLICACIN TECNICA APRENDIZAJE SUPERVISADO


4.1.

APLICACIN TECNICA ARBOL DE DECISIONES


Training: 60% - Test: 40%

4.2.

EVALUACIN
Figura 1

Figura 2

El

En la Figura 1 se muestra que el 36.7089% de las instancias se han clasificado


correctamente mientras que el 63.2911% lo han hecho de forma incorrecta.

nmero

total

de

instancias

clasificadas

es

de

158.

Seguidamente se muestra el valor del ndice Kappa (-0.0348). Est ndice es una
medida de concordancia entre las categoras pronosticadas por el clasificador y las
categoras observadas, que tiene en cuenta las posibles concordancias debidas al
azar. Dnde:
o Si el valor es 1: Concordancia perfecta.
o Si el valor es 0: Concordancia debida al azar.
o Si el valor es negativo: Concordancia menor que la que cabra esperar
por azar.
Por lo tanto, en nuestro caso, tenemos un grado menor de concordancia.

El resultado de la evaluacin por medio de la tcnica de rboles de decisin arroja


una calificacin baja en general.

5. APLICACIN TECNICA APRENDIZAJE NO SUPERVISADO


5.1.

APLICACIN TECNICA CLUSTER

Training Set

Test Split

5.2.

EVALUACION

Instancias: 158

Numero de Clusters: 3

Grupo 0: Formado por la mayor cantidad de estudiantes del gnero


femenino, su mayor porcentaje viven en el rea urbana de la ciudad, pocos
de ellos poseen no tienen acceso a internet lo cual indica que la gran parte de
estudiante cuenta con dicho acceso para poder realizar sus actividades
acadmicas, y cuentan con excelente estado de salud. En general son
estudiantes malos, lo que indica que no aprovechan sus beneficios y tiempo
libre
para
mejorar
su
desempeo.

Grupo 1: Encontramos un grupo con poca presencia del gnero femenino


pero estando por encima del Grupo 2. Una tercera parte de los estudiantes no
cuenta con servicio de internet. En general mantienen buenas relaciones con
su familia y cuentan con buen tiempo libre pero lo usan probablemente gran
parte para el consumo de alcohol. En general son estudiantes regulares.

Grupo 2: Estudiantes que dedican alrededor de 8 a 9 horas de estudio diario,


realizan actividades extracurriculares, cuentan con bastante tiempo libre,
cuantan en sy mayora con buena salud pero menos que los estudiantes del
Grupo 0 y 1. Cuentan con supervisin de sus padres. En general son
estudiantes buenos.

6. ANALISIS DE RESULTADOS

En relacin a los diferentes modos de prueba, es el basado en la muestra de


entrenamiento el que ofrece mejores resultados para cada uno de los
clasificadores. Esto es lgico puesto que este clasificador se evala en el
mismo conjunto sobre el que se cre el modelo de clasificacin produciendo
una sobreestimacin de los resultados.

En un contexto educativo, las tcnicas de minera de datos y aprendizaje


automtico pueden ser aplicadas a los datos obtenidos a partir de las
interacciones de los estudiantes. La seleccin de la tcnica de aprendizaje
est relacionada con el tipo de informacin que se va a utilizar, puesto que
cada tcnica es ms adecuada en algunas situaciones que en otras.

La tcnica ms apropiada para encontrar caractersticas similares en el


comportamiento de los estudiantes, en esta investigacin fue la de clustering.

7. CONCLUSIONES

La aplicacin de la Minera de Datos y especialmente el uso del software


WEKA, permiti la modelacin de un conjunto de datos usando diferentes
algoritmos para el descubrimiento de conocimiento.

Con el uso de la herramienta WEKA se logr experimentar con varios


algoritmos, manifestndose un mejor comportamiento en el uso de los rboles
de decisin J48 y Clustering en juegos de datos aleatorios.

En resumen, data mining se presenta como una tecnologa innovadora, que


ofrece una serie de beneficios: por un lado, resulta un buen punto de
encuentro entre los investigadores y las personas de negocios; por otro,
ahorra grandes cantidades de dinero a una empresa y abre nuevas
oportunidades de negocios. Adems, no hay duda de que trabajar con esta
tecnologa implica cuidar un sin nmero de detalles debido a que el producto
final involucra toma de decisiones.

8. BIBLIOGRAFIA

P. Valdivieso Daz. Aplicacin de tcnicas de aprendizaje automtico para la


identificacin de patrones de interaccin en una experiencia virtual de
aprendizaje.
Unidad
de
Virtualizacin,
UTPL
Tomado
de:
http://reposital.cuaed.unam.mx:8080/jspui/bitstream/123456789/2702/1/priscil
a_valdiviezo_tecnicas_de_aprendizaje.pdf

R. Blzques, F. Delicado & Mc. Dominguez. Aprendizaje y Mineria de Datos.


Tomado
de:
http://www.it.uc3m.es/jvillena/irc/practicas/03-04/8.pres.pdf

A. Cravero Leal. Aplicacin de Minera de Datos para la Deteccin de


Anomalas: Un Caso de Estudio. Workshop Internacional EIG2009. Chile,
2009.
Tomado
de:
http://ceur-ws.org/Vol-558/Art_8.pdf

Programa de Doctorado Tecnologas Industriales. Aplicaciones de la


inteligencia robtica. Practica 1: Entorno de WEKA de aprendizaje automtico
y
data
mining,
pp.
6-9

Ciberconta. Sistemas de induccin de rboles de decisin: utilidad en el


anlisis
de
crisis
bancarias
Tomado
de:
http://ciberconta.unizar.es/Biblioteca/0007/arboles.html

Cursos, investigacin y recursos en inteligencia artificial. Introduccin a


tcnicas
de
Minera
de
Datos.
2008.
Tomado
de:
http://www.wiphala.net/courses/KDD_DM/20070/class/02_dt_for_classification/class_61_decision_trees.ppt

IEspaa. rboles y reglas de decisin. Espaa, 2009. Tomado de:


http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.html

S-ar putea să vă placă și