Sunteți pe pagina 1din 8

Poltica y Economa de la informacin

WEKA:
Anlisis de datos

Poltica y Economa de la informacin

Introduccin

En este informe se mostrara el uso de la Minera de Datos en Weka, con diferentes


mtodos, ya sea arboles de decisiones, clasificaciones y asociaciones, a travs de un
ejemplo en donde una cantidad de personas mujeres, con su edad y su masa corporal,
cuales tienen la mayor probabilidad de tener diabetes.
Tambin se define los conceptos importantes: Mineria de Datos ,Dataset , para que
sirve el programa Weka .
Weka es una plataforma de software para el aprendizaje automtico y la minera de datos.
Data set, o conjunto de datos, es una coleccin de datos normalmente creada en una tabla.
Y por ltimo, Mineria de Datos es un proceso en donde se intenta descubrir patrones en
grandes volmenes de conjuntos de datos

Poltica y Economa de la informacin


Antes de comenzar con nuestro informe, primero vamos a definir 3 conceptos
fundamentales que servir para el desarrollo de nuestro trabajo. Estas son Data Set, el
programa Weka y Minera de datos.
Qu es Weka?
Weka (Waikato Environment for Knowledge Analysis, en espaol entorno para anlisis del
conocimiento de la Universidad de Waikato) es una plataforma de software para el
aprendizaje automtico y la minera de datos escrito en Java y desarrollado en la
Universidad de Waikato. Weka es software libre distribuido bajo la licencia GNU-GPL.
Contiene una coleccin de herramientas de visualizacin y algoritmos para anlisis de
datos y modelado predictivo, unidos a una interfaz grfica de usuario para acceder
fcilmente a sus funcionalidades.
Los puntos fuertes de Weka son:

Est disponible libremente bajo la licencia pblica general de GNU.


Es muy portable porque est completamente implementado en Java y puede correr
en casi cualquier plataforma.
Contiene una extensa coleccin de tcnicas para preprocesamiento de datos y
modelado.
Es fcil de utilizar por un principiante gracias a su interfaz grfica de usuario.

Weka soporta varias tareas estndar de minera de datos, especialmente,


preprocesamiento de datos, clustering, clasificacin, regresin, visualizacin, y seleccin.
Todas las tcnicas de Weka se fundamentan en la asuncin de que los datos estn
disponibles en un fichero plano (flat file) o una relacin, en la que cada registro de datos
est descrito por un nmero fijo de atributos (normalmente numricos o nominales,
aunque tambin se soportan otros tipos). Weka tambin proporciona acceso a bases de
datos va SQL gracias a la conexin JDBC (Java Database Connectivity) y puede procesar
el resultado devuelto por una consulta hecha a la base de datos. No puede realizar minera
de datos multi-relacional, pero existen aplicaciones que pueden convertir una coleccin de
tablas relacionadas de una base de datos en una nica tabla que ya puede ser procesada
con Weka.

Poltica y Economa de la informacin


Qu es Data Set?
Data set, o conjunto de datos, es una coleccin de datos normalmente creada en una tabla
En general y en su versin ms simple un conjunto de datos corresponde a los contenidos
de una nica tabla de base de datos, o una nica matriz de datos estadstica, donde
cada cada de la tabla representa una variable en particular, y cada fila representa a un
miembro determinado del conjunto de datos en cuestin. Un conjunto de datos contiene
los valores para cada una de las variables, como podran ser la altura y el peso de un
objeto, que corresponden a cada miembro del conjunto de datos. Cada uno de estos
valores se conoce con el nombre de datos. El conjunto de datos puede incluir datos para
uno o ms miembros en funcin de su nmero de filas.
En este caso, nuestro Dataset es un muestro de 760 mujeres, en donde tiene 4 columnas
que son: La Edad, la masa corporal (donde la calcularemos a travs de una frmula (peso
en kg/(altura en m)^2)) , los meses de embarazo ( 0 si es que no est embarazada) y un
Test de diabetes (positivo si es diabtica y negativo no es diabtica).

Minera de Datos.
La minera de datos o exploracin de datos (es la etapa de anlisis de "Knowledge
Discovery in Databases" o KDD) es un campo de las ciencias de la computacin referido al
proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos.
Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y
sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste en
extraer informacin de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que
involucra aspectos de bases de datos y de gestin de datos, de procesamiento de datos, del
modelo y de las consideraciones de inferencia, de mtricas de Intereses, de
consideraciones de la Teora de la complejidad computacional, de post-procesamiento de
las estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.
Existen distintos mtodos en la Minera de datos estos son:

Reglas de Asociacin
rboles de Decisin
Estadstica
Agrupamiento
Anlisis de Discriminacin
Redes Neuronales
Belief Networks (Clasificador de Bayes)
Support Vector Machines

Poltica y Economa de la informacin

Objetivos
1.- Mostrar una correlacin entre los atributos del DataSet
2.- Obtener Patrones con la edad, la masa corporal de la persona y los riegos de tener
diabetes a utilizando mtodos de Minera de Datos como por ejemplo Arboles de
decisiones, Asociaciones, Clusters y Clasificaciones.
3.- Analizar los patrones obtenidos a travs de los mtodos mencionados anteriormente.
4.- Crear una hiptesis sobre cmo prevenir la diabetes en una edad determinada.

Poltica y Economa de la informacin


Para llegar a nuestra hiptesis debemos pasar por varias etapas.
Una de ellas es el preprocce en donde Weka genera estadsticas para cada categora de los
atributos.

En este caso el programa gener 4 tipo de histogramas debido a las 4 categoras: Embarazo
(preg) , masa corporal (mass) , edad(age) y class(si es diabtica o no). Tambin muestra la
frecuencia respectivamente, es decir, la cantidad de personas. El color azul representa las
personas con test negativo de diabetes y el rojo a las personas con problema de diabetes.
Como se puede apreciar existe una gran relacin entre la edad y el peso, con el problema
de diabetes. Donde se concentra la mayor concentracin de gente con diabetes entre la
edad de 24 a 51 aos y su masa corporal entre los 33.55.

Poltica y Economa de la informacin


Resultados alcanzados
En este ttulo se reflejan los principales resultados alcanzados producto del desarrollo de
la fase Pre procesamiento propuesta por WEKA. Se obtuvo un Reporte de la coleccin
inicial de los datos. En dicho reporte quedaron reflejadas las fuentes de datos que se
emplearn para los futuros anlisis, entre las que estn las siguientes: los datos colectados
reflejan una serie de caractersticas presentadas por un grupo de pacientes, los datos se
encuentran en una nica fuente: un datashet WEKA.

Los anlisis, permiten adems, identificar relaciones entre los datos, que formulan las
primeras hiptesis sobre relaciones entre ellos y posible conocimiento a obtenerse. A modo
de ejemplo se exponen algunas relaciones que se aprecian mediante la Suite para realizar
procesos de WEKA.

Al concluir esta iteracin del pre-procesado de datos, se tiene una vista minable para la
prxima etapa con los campos: Edad, peso, Embarazo, Diagnosticado Diabtico.
Con esta vista minable se debe seguir a la prxima fase en pro de concretar resultados y
obtener las primeras reglas y relaciones explicitas entre estos; producto de la aplicacin de
tcnicas y algoritmos matemticos.

Poltica y Economa de la informacin


Se considera que los resultados alcanzados son alentadores pues la calidad de los datos es
buena y se tiene un nmero considerable de atributos para el anlisis. Se pudo establecer
las primeras hiptesis sobre relaciones en los datos y tener una vista detallada de los
posibles valores por cada campo y sus distribuciones.

Conclusin
El trabajo permiti identificar los principales datos a emplear para clasificar a los pacientes
con patologas de diabetes. Se lograron identificar los atributos relevantes para la
investigacin. El anlisis exploratorio de los datos permiti conocer sus caractersticas
como distribucin, valores ms frecuentes, etc. lo que resulta de gran valor para
comprender el significado de los modelos que se obtengan posteriormente.
Se identificaron los problemas de calidad de los datos y se tomaron medidas para tratarlos
de buena forma, por ltimo se puede dar por concluida la Comprensin de los datos y
se puede seguir con las otras fases de esta metodologa.

S-ar putea să vă placă și