Documente Academic
Documente Profesional
Documente Cultură
WEKA:
Anlisis de datos
Introduccin
Minera de Datos.
La minera de datos o exploracin de datos (es la etapa de anlisis de "Knowledge
Discovery in Databases" o KDD) es un campo de las ciencias de la computacin referido al
proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos.
Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y
sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste en
extraer informacin de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que
involucra aspectos de bases de datos y de gestin de datos, de procesamiento de datos, del
modelo y de las consideraciones de inferencia, de mtricas de Intereses, de
consideraciones de la Teora de la complejidad computacional, de post-procesamiento de
las estructuras descubiertas, de la visualizacin y de la actualizacin en lnea.
Existen distintos mtodos en la Minera de datos estos son:
Reglas de Asociacin
rboles de Decisin
Estadstica
Agrupamiento
Anlisis de Discriminacin
Redes Neuronales
Belief Networks (Clasificador de Bayes)
Support Vector Machines
Objetivos
1.- Mostrar una correlacin entre los atributos del DataSet
2.- Obtener Patrones con la edad, la masa corporal de la persona y los riegos de tener
diabetes a utilizando mtodos de Minera de Datos como por ejemplo Arboles de
decisiones, Asociaciones, Clusters y Clasificaciones.
3.- Analizar los patrones obtenidos a travs de los mtodos mencionados anteriormente.
4.- Crear una hiptesis sobre cmo prevenir la diabetes en una edad determinada.
En este caso el programa gener 4 tipo de histogramas debido a las 4 categoras: Embarazo
(preg) , masa corporal (mass) , edad(age) y class(si es diabtica o no). Tambin muestra la
frecuencia respectivamente, es decir, la cantidad de personas. El color azul representa las
personas con test negativo de diabetes y el rojo a las personas con problema de diabetes.
Como se puede apreciar existe una gran relacin entre la edad y el peso, con el problema
de diabetes. Donde se concentra la mayor concentracin de gente con diabetes entre la
edad de 24 a 51 aos y su masa corporal entre los 33.55.
Los anlisis, permiten adems, identificar relaciones entre los datos, que formulan las
primeras hiptesis sobre relaciones entre ellos y posible conocimiento a obtenerse. A modo
de ejemplo se exponen algunas relaciones que se aprecian mediante la Suite para realizar
procesos de WEKA.
Al concluir esta iteracin del pre-procesado de datos, se tiene una vista minable para la
prxima etapa con los campos: Edad, peso, Embarazo, Diagnosticado Diabtico.
Con esta vista minable se debe seguir a la prxima fase en pro de concretar resultados y
obtener las primeras reglas y relaciones explicitas entre estos; producto de la aplicacin de
tcnicas y algoritmos matemticos.
Conclusin
El trabajo permiti identificar los principales datos a emplear para clasificar a los pacientes
con patologas de diabetes. Se lograron identificar los atributos relevantes para la
investigacin. El anlisis exploratorio de los datos permiti conocer sus caractersticas
como distribucin, valores ms frecuentes, etc. lo que resulta de gran valor para
comprender el significado de los modelos que se obtengan posteriormente.
Se identificaron los problemas de calidad de los datos y se tomaron medidas para tratarlos
de buena forma, por ltimo se puede dar por concluida la Comprensin de los datos y
se puede seguir con las otras fases de esta metodologa.