Documente Academic
Documente Profesional
Documente Cultură
Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:
1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de
información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos
desde la o las fuentes de datos.
2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos
desde las distintas fuentes de datos en una forma manejable, necesaria para las fases
posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en
blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura
de datos adecuada para su posterior transformación.
4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son
aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,
potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.
Las principales áreas de aplicación incluyen la comercialización de KDD, detección de fraudes, las
telecomunicaciones y la fabricación.
El proceso de KDD ha llegado a su punto más alto en los últimos 10 años. En la actualidad alberga
muchos enfoques diferentes para el descubrimiento, que incluye el aprendizaje inductivo, la
estadística bayesiana, la optimización de consultas semántica, la adquisición de conocimientos de
sistemas expertos y teoría de la información. El objetivo final es extraer el conocimiento de alto nivel a
partir de datos de bajo nivel.
4. Limpiar y datos de procesamiento previo de decidir las estrategias para manejar los campos
en blanco y alterar los datos según las necesidades.
6. metas de ajuste de KDD con métodos de minería de datos que sugieren patrones ocultos.
7. Elija algoritmos de minería de datos para descubrir patrones ocultos. Este proceso incluye
decidir qué modelos y parámetros podrían ser apropiados para el proceso global de KDD.
8. Buscar patrones de interés en una forma de representación en particular, que incluyen reglas
de clasificación o árboles de regresión, y la agrupación.
Data Mining
En este sentido un sistema Datamining es una tecnología de soporte para usuario final,
cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases
de datos de las empresas.
Los objetivos de un sistema Datamining nos permitiría analizar factores de influencia en determinados
procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems
similares, además de obtener secuencias de eventos que provocan comportamientos específicos.
Redes neuronales
Introducción de reglas
Arboles de decisión
Conjunto de reglas por clase
Soporta tambien sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones
de detección de fraude.
• Deporte profesional: determinar puntos, expulsiones/tarjetas que tiene cada jugador, tomar mejores
decisiones para siguientes temporadas.
Dependiendo del conjunto de datos a analizar y del tipo de patrones que se quiera encontrar en el
proceso a utilizar. Las técnicas de Minería de Datos pueden ser descriptivas o predictivas. Las
descriptivas caracterizan las propiedades generales de los datos en una base de datos y por el
contrario, la predictiva realiza inferencias en los datos para poder realizar predicciones.
Técnicas Descriptivas.
Descripción de clases: Hay tres formas de ver este punto, la primera se denomina Caracterización de
los datos (Data Caracterizatión), el cuál realiza un resumen de las características generales de
una clase particular de datos; los resultados suelen representarse en términos de reglas de
caracterización. La segunda es la discriminación de datos (Data Discrimination), que es una
comparación entre las características generales de los objetos de una clase respecto a las de
otro conjunto contrastante. Finalmente, también se puede aplicar una combinación de ambas.
El proceso trabaja agrupando objetos según el principio de “maximizar la similitud dentro de una clase
y minimizar la similitud entre clases”. Un cluster es una colección de objetos de datos mutuamente
similares. Clustering es el proceso de agrupamiento de objetos. El análisis de clustering, tiene una
gran variedad de aplicaciones, incluyendo procesos de imágenes, análisis.
Técnicas Predictivas.
Clasificación y predicción: Son dos tipos de análisis de datos, aquellos que pueden ser usados para
clasificar datos y los que se usan para predecir tendencias. La clasificación de datos predice clases
de etiquetas mientras la predicción de datos predice funciones de valores continuos. Aplicaciones
típicas incluyen análisis de riesgo para préstamos y predicciones de crecimiento. Algunas técnicas
para clasificación de datos incluyen: clasificación bayesianas. K-Nearest Neighbor, algoritmos gen
éticos, entre otros.
Arboles de decisión: Definen un conjunto de clases, asignando a cada dato de entra da una clase y
determina la probabilidad de que ese registro pertenezca a la clase.
Podemos distinguir dos tipos de ´arboles, el primero es el árbol de decisión de clasificación, donde
cada registro a clasificar fluye por una rama del árbol. La rama a seguir es determinada por una serie
de preguntas definidas por los nodos de la rama. Cuando el registro llega a un nodo hoja, se le asigna
a la clase del nodo hoja. El segundo es el árbol de decisión de regresión, cuando el registro llega a un
nodo hoja, a la variable de salida de ese nodo, se le asigna el promedio de los valores de la variable
de salida de los registros que cayeron en ese nodo hoja durante el proceso de entrenamiento.
Redes Neuronales: Son modelos predictivos no lineales que aprenden a través del entrenamiento.
Existen diferentes tipos de redes neuronales, las más conocidas son las simples y multicapas. Las
tareas básicas de las redes neuronales son reconocer, clasificar, agrupar, asociar, almacenar
patrones, aproximación de funciones, sistemas (predicción, control, entre otros) y optimizan. De
transacciones comerciales y reconocimiento de patrones.
- Regresión Lineal
- Regresión no lineal
- Regresión
-Clustering -Clasificación
c. Asociación
d. Asociación Secuencial
e. Análisis Estadístico
f. Análisis Estadístico
-Análisis de Dispersión
Cuando realizamos modelos predictivos hay 3 conjuntos de datos fundamentales que todo
dataminer debe manejar:
1. Muestra de Entrenamiento (TRAINING) : son los datos con los que se entrenan los modelos.
2. Muestra de Validación (VALIDATION) : selecciona el mejor de los modelos entrenados.
3. Muestra de Prueba (TEST) : Entrega el error real cometido con el modelo seleccionado.
Cuando tenemos suficientes datos, se puede subdividir los datos en estos tres conjuntos. Durante el
proceso de selección del mejor modelo, los modelos se ajustan a los datos de entrenamiento y el
error de predicción para dichos modelos es obtenido mediante el uso de los datos de validación. Este
error de predicción en los datos de validación se puede utilizar (es decir, el algoritmo los utiliza) para
decidir cuándo dar por terminado el proceso de selección o para decidir cuáles son los efectos a
incluir a medida que avanza el proceso. Finalmente, una vez que termina el proceso y se tiene
seleccionado el modelo, se pueden utilizar los datos de prueba para evaluar la manera en que el
modelo seleccionado se generaliza para los datos que no jugaron ningún papel en la selección del
mismo.
En algunos casos es posible que se desee utilizar sólo los datos de entrenamiento y prueba. Por
ejemplo, se podría utilizar un criterio de negocios para decidir cuáles efectos incluir y cuándo dar por
terminado el proceso de selección. En este caso, los datos de validación no son necesarios, sin
embargo, los datos de prueba podrían ser útiles en la evaluación del desempeño de la predicción del
modelo seleccionado. En otros casos, es posible utilizar los datos de validación durante el proceso de
selección, y renunciar a evaluar el modelo seleccionado en los datos de prueba. Hastie, Tibshirani y
Friedman en su libro The Elements of Statistical Learning (2011) [descargar 5a edición del libro en
pdf] señalan que es difícil dar una regla general sobre cuántas observaciones se deben asignar a
cada conjunto, aunque indican que una división típica puede ser de 50% para el entrenamiento y 25%
para la validación y prueba, respectivamente.
Lo que buscamos es hacer un modelo predictivo para predecir lo que pasará en Julio 2017.
De la tabla, rápidamente calculamos:
Tasa de churn durante el último mes: 2.709 / 169.215 = 1,6 %
Total muesta de activos (que llamaremos 0′s ): 169.215
Este universo hemos de dividirlo en 3 partes: La primeras dos formarán el conjunto de datos de
entrenamiento y validación. Aquí es importante realizar un sobre muestreo estratificado del número
de bajas para mejorar el entrenamiento del modelo. El estrato será: bajas (1′s) versus activos (0′s).
Como puede apreciarse en el esquema gráfico, la proporción de bajas aumentó hasta un 50%. No es
una proporción imprescindible, pero si nuestra muestra no lo permitiera, algunos expertos (y nosotros
mismos) aseguran que un 20% de casos puede ser suficiente, aunque si es posible trataremos de
buscar el 50-50 (en un árbol de decisión, por ejemplo, este sobre muestreo nos identificará las ramas
extremas). Una vez definido el conjunto de datos sobre muestreado lo separamos en entrenamiento y
validación, usando la proporción de 70-30. Aunque no es algo estricto, en la literatura también hay
otros valores tales como 57-43, 67-33, 70-30, 85-15…que podrían también probarse. Por último,
separamos el conjunto de datos de prueba, que será un subconjunto del universo inicial, y es el que
nos indicará cómo funciona el error del modelo.
Para nuestro ejemplo, y utilizando las proporciones indicadas por Hastie, Tibshirani y Friedman,
nuestros conjuntos quedarían como se muestra en el siguiente esquema gráfico:
Como comentario final, y respecto del tema de evitar la estacionalidad en en el ejemplo concreto de
las bajas de clientes, podríamos emplear como datos de prueba a todos los clientes que están en otro
mes distinto a los meses que empleamos para la creación del universo. Por ejemplo: entrenamos y
validamos con los meses N, N+2 y N+4 y probamos los resultados con N+1, N+3 y N+5.
BIBLIOGRAFIAS:
Relacionadas - Recomendadas
https://www.datsi.fi.upm.es/~jmpena/docs/phd-jmpena.pdf
http://www.webmining.cl/2011/07/entrenamiento-validacion-y-prueba/
http://mineriadatos1.blogspot.com/2013/06/tecnicas-mineria-de-datos.html
http://users.dsic.upv.es/~jorallo/cursoDWDM/dwdm-III-2.pdf