Sunteți pe pagina 1din 8

Unican – Facitec – Taller 7 – 4to. .

Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

Descubrimiento de Conocimiento en Bases de Datos (KDD)

Definición - ¿Qué Descubrimiento de Conocimiento en Bases de Datos (KDD) significa?

Descubrimiento de conocimiento en bases de datos (KDD) es el proceso de descubrimiento de


conocimiento útil a partir de una colección de datos. Esta técnica de minería de datos ampliamente
usado es un proceso que incluye la preparación de datos y selección, limpieza de datos, la
incorporación de conocimiento previo sobre los conjuntos de datos e interpretación de soluciones
exactas de los resultados observados.
KDD: “El proceso no trivial de identificar patrones válidos, nuevos, potencialmente
útiles y en última instancia comprensible en los datos” Usama Fayyad 1996

La Extracción de conocimiento está principalmente relacionado con el proceso de descubrimiento


conocido como Knowledge Discovery in Databases (KDD), que se refiere al proceso no-trivial de
descubrir conocimiento e información potencialmente útil dentro de los datos contenidos en algún
repositorio de información [1]. No es un proceso automático, es un proceso iterativo que
exhaustivamente explora volúmenes muy grandes de datos para determinar relaciones. Es un
proceso que extrae información de calidad que puede usarse para dibujar conclusiones basadas en
relaciones o modelos dentro de los datos. La siguiente figura ilustra las etapas del proceso KDD:

Como muestra la figura anterior, las etapas del proceso KDD se dividen en 5 fases y son:
1. Selección de datos. En esta etapa se determinan las fuentes de datos y el tipo de
información a utilizar. Es la etapa donde los datos relevantes para el análisis son extraídos
desde la o las fuentes de datos.
2. Preprocesamiento. Esta etapa consiste en la preparación y limpieza de los datos extraídos
desde las distintas fuentes de datos en una forma manejable, necesaria para las fases
posteriores. En esta etapa se utilizan diversas estrategias para manejar datos faltantes o en
blanco, datos inconsistentes o que están fuera de rango, obteniéndose al final una estructura
de datos adecuada para su posterior transformación.

3. Transformación. Consiste en el tratamiento preliminar de los datos, transformación y


generación de nuevas variables a partir de las ya existentes con una estructura de datos
apropiada. Aquí se realizan operaciones de agregación o normalización, consolidando los
datos de una forma necesaria para la fase siguiente.

4. Data Mining. Es la fase de modelamiento propiamente tal, en donde métodos inteligentes son
aplicados con el objetivo de extraer patrones previamente desconocidos, válidos, nuevos,
potencialmente útiles y comprensibles y que están contenidos u “ocultos” en los datos.

Prof. Ing. Maria Ester Servin Paá gina 1


Unican – Facitec – Taller 7 – 4to. . Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

5. Interpretación y Evaluación. Se identifican los patrones obtenidos y que son realmente


interesantes, basándose en algunas medidas y se realiza una evaluación de los resultados
obtenidos.

Las principales áreas de aplicación incluyen la comercialización de KDD, detección de fraudes, las
telecomunicaciones y la fabricación.

Tradicionalmente, la minería de datos y descubrimiento de conocimiento se realizó manualmente. A


medida que pasaba el tiempo, la cantidad de datos en muchos sistemas creció a más grande que el
tamaño terabyte, y ya no se podía mantener de forma manual. Por otra parte, por la existencia éxito
de cualquier negocio, el descubrimiento de patrones subyacentes en los datos que se considera
esencial. Como resultado, se han desarrollado varias herramientas de software para descubrir datos
ocultos y hacer suposiciones, que formaron parte de la inteligencia artificial.

El proceso de KDD ha llegado a su punto más alto en los últimos 10 años. En la actualidad alberga
muchos enfoques diferentes para el descubrimiento, que incluye el aprendizaje inductivo, la
estadística bayesiana, la optimización de consultas semántica, la adquisición de conocimientos de
sistemas expertos y teoría de la información. El objetivo final es extraer el conocimiento de alto nivel a
partir de datos de bajo nivel.

KDD incluye actividades multidisciplinares. Esto abarca el almacenamiento de datos y el acceso, la


ampliación algoritmos a grandes conjuntos de datos y resultados de interpretación. El proceso de
limpieza de datos y acceso a los datos incluidos en el almacenamiento de datos a facilitar el proceso
KDD. La inteligencia artificial también es compatible con KDD mediante el descubrimiento de las
leyes empíricas de la experimentación y la observación. Los patrones reconocidos en los datos deben
ser válidos en nuevos datos, y poseen algún grado de certeza. Estos patrones se consideran nuevos
conocimientos. Los pasos involucrados en todo el proceso KDD son:

1. Identificar el objetivo del proceso de KDD desde la perspectiva del cliente.


2. Entender los dominios de aplicación involucrados y el conocimiento que se requiere

3. Seleccione un conjunto de datos de destino o un subconjunto de muestras de datos en la que


se puede realizar el descubrimiento.

4. Limpiar y datos de procesamiento previo de decidir las estrategias para manejar los campos
en blanco y alterar los datos según las necesidades.

5. Simplificar los conjuntos de datos mediante la eliminación de las variables deseadas. A


continuación, analizar características útiles que pueden ser utilizados para representar los
datos, dependiendo del objetivo o tarea.

6. metas de ajuste de KDD con métodos de minería de datos que sugieren patrones ocultos.

7. Elija algoritmos de minería de datos para descubrir patrones ocultos. Este proceso incluye
decidir qué modelos y parámetros podrían ser apropiados para el proceso global de KDD.

8. Buscar patrones de interés en una forma de representación en particular, que incluyen reglas
de clasificación o árboles de regresión, y la agrupación.

Prof. Ing. Maria Ester Servin Paá gina 2


Unican – Facitec – Taller 7 – 4to. . Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

9. Interpretar los conocimientos esenciales de los patrones extraídos.

10. Utilizar el conocimiento e incorporarlo en otro sistema para la acción futura.

11. Documentar y hacer informes para las partes interesadas.

Data Mining

En este sentido un sistema Datamining es una tecnología de soporte para usuario final,
cuyo objetivo es extraer conocimiento útil y utilizable a partir de la información contenida en las bases
de datos de las empresas.

Los objetivos de un sistema Datamining nos permitiría analizar factores de influencia en determinados
procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar ítems
similares, además de obtener secuencias de eventos que provocan comportamientos específicos.

Los sistemas Datamining se desarrollan bajo lenguajes de última generación basados en


la inteligencia artificial y utilizando métodos matemáticos, tales como:

 Redes neuronales
 Introducción de reglas
 Arboles de decisión
 Conjunto de reglas por clase

Soporta tambien sofisticadas operaciones de análisis tales como los sistemas Scoring y aplicaciones
de detección de fraude.

Aplicaciones del Data Mining

• Aspectos climatológicos: predicción de tormentas, etc.

• Medicina: encontrar la probabilidad de una respuesta satisfactoria a un tratamiento médico.

• Mercadotécnia: identificar clientes susceptibles de responder a ofertas de productos y servicios por


correo, fidelidad de clientes, afinidad de productos, etc.

• Inversión en casas de bolsa y banca: análisis de clientes, aprobación de préstamos, determinación


de montos de crédito.

• Detección de fraudes y comportamientos inusuales: telefónicos, seguros, en tarjetas de crédito,


evasión fiscal, electricidad, etc.

• Análisis de canastas de mercado para mejorar la organización de tiendas, segmentación de


mercado (clustering).

• Deporte profesional: determinar puntos, expulsiones/tarjetas que tiene cada jugador, tomar mejores
decisiones para siguientes temporadas.

Técnicas minería de datos.

Prof. Ing. Maria Ester Servin Paá gina 3


Unican – Facitec – Taller 7 – 4to. . Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

¿Qué tipo de patrones puede encontrar la Minería de Datos?.

Dependiendo del conjunto de datos a analizar y del tipo de patrones que se quiera encontrar en el
proceso a utilizar. Las técnicas de Minería de Datos pueden ser descriptivas o predictivas. Las
descriptivas caracterizan las propiedades generales de los datos en una base de datos y por el
contrario, la predictiva realiza inferencias en los datos para poder realizar predicciones.

Técnicas Descriptivas.

Descripción de clases: Hay tres formas de ver este punto, la primera se denomina Caracterización de
los datos (Data Caracterizatión), el cuál realiza un resumen de las características generales de
una clase particular de datos; los resultados suelen representarse en términos de reglas de
caracterización. La segunda es la discriminación de datos (Data Discrimination), que es una
comparación entre las características generales de los objetos de una clase respecto a las de
otro conjunto contrastante. Finalmente, también se puede aplicar una combinación de ambas.

Análisis de asociación: Es el descubrimiento de reglas de asociación que muestran condiciones del


tipo atributo-valor que ocurre con frecuencia dentro de un conjunto de datos.

La minería mediante reglas de asociación es el proceso de búsqueda interesante de correlaciones


entre un conjunto grande de datos. El descubrimiento de reglas de asociación en grandes volúmenes
de transacciones de negocios, puede facilitar el proceso de toma de decisiones.

Análisis de clusters: Aquí se analizan objetos sin consultar clases conocidas.

El proceso trabaja agrupando objetos según el principio de “maximizar la similitud dentro de una clase
y minimizar la similitud entre clases”. Un cluster es una colección de objetos de datos mutuamente
similares. Clustering es el proceso de agrupamiento de objetos. El análisis de clustering, tiene una
gran variedad de aplicaciones, incluyendo procesos de imágenes, análisis.

Técnicas Predictivas.

Clasificación y predicción: Son dos tipos de análisis de datos, aquellos que pueden ser usados para
clasificar datos y los que se usan para predecir tendencias. La clasificación de datos predice clases
de etiquetas mientras la predicción de datos predice funciones de valores continuos. Aplicaciones
típicas incluyen análisis de riesgo para préstamos y predicciones de crecimiento. Algunas técnicas
para clasificación de datos incluyen: clasificación bayesianas. K-Nearest Neighbor, algoritmos gen
éticos, entre otros.

Arboles de decisión: Definen un conjunto de clases, asignando a cada dato de entra da una clase y
determina la probabilidad de que ese registro pertenezca a la clase.

Podemos distinguir dos tipos de ´arboles, el primero es el árbol de decisión de clasificación, donde
cada registro a clasificar fluye por una rama del árbol. La rama a seguir es determinada por una serie
de preguntas definidas por los nodos de la rama. Cuando el registro llega a un nodo hoja, se le asigna
a la clase del nodo hoja. El segundo es el árbol de decisión de regresión, cuando el registro llega a un
nodo hoja, a la variable de salida de ese nodo, se le asigna el promedio de los valores de la variable
de salida de los registros que cayeron en ese nodo hoja durante el proceso de entrenamiento.

Redes Neuronales: Son modelos predictivos no lineales que aprenden a través del entrenamiento.
Existen diferentes tipos de redes neuronales, las más conocidas son las simples y multicapas. Las

Prof. Ing. Maria Ester Servin Paá gina 4


Unican – Facitec – Taller 7 – 4to. . Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

tareas básicas de las redes neuronales son reconocer, clasificar, agrupar, asociar, almacenar
patrones, aproximación de funciones, sistemas (predicción, control, entre otros) y optimizan. De
transacciones comerciales y reconocimiento de patrones.

Técnicas de Minería de Datos

Métodos Descriptivos Métodos Predictivos

a. Visualización a. Regresión Estadísticas (interpolación y


predicción)

- Regresión Lineal

- Regresión no lineal

- Regresión

-Regresión Adaptativa Lineal Ponderada


Localmente

b. Aprendizaje no supervisado b. Aprendizaje Supervisado

-Clustering -Clasificación

Métodos no jerárquicos (Partición) Arboles de Decisión, ID3,

Métodos Jerárquicos (N-TREE) C4.5, CART

Métodos Paramétricos (Algoritmo EM) -Inducción de Reglas

Métodos no Paramétricos (KNN Redes Neuronales (simple, multicapa)

K-means Clustering, Centroides, - Aprendizaje Relacional y Recursivo

Redes Kohonen, Algoritmo CobWeb, IFP (Inductive Functional Programming),

Algoritmo Autoclass) IFLP (Inductive Functional Logic Programming),

Aprendizaje de Orden Superior,

Macro Average,Matrices de Coste y Confusión,

Análisis ROC (Receiver Operating Characteristic)

c. Asociación

d. Asociación Secuencial

e. Análisis Estadístico

f. Análisis Estadístico

-Estudio de la Distribución de los Datos

-Detección de Datos Anómalos

Prof. Ing. Maria Ester Servin Paá gina 5


Unican – Facitec – Taller 7 – 4to. . Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

-Análisis de Dispersión

g. Correlaciones y Estudios Factoriales

Entrenamiento, validación y prueba

Cuando realizamos modelos predictivos hay 3 conjuntos de datos fundamentales que todo
dataminer debe manejar:
1. Muestra de Entrenamiento (TRAINING) : son los datos con los que se entrenan los modelos.
2. Muestra de Validación (VALIDATION) : selecciona el mejor de los modelos entrenados.

3. Muestra de Prueba (TEST) : Entrega el error real cometido con el modelo seleccionado.

Cuando tenemos suficientes datos, se puede subdividir los datos en estos tres conjuntos. Durante el
proceso de selección del mejor modelo, los modelos se ajustan a los datos de entrenamiento y el
error de predicción para dichos modelos es obtenido mediante el uso de los datos de validación. Este
error de predicción en los datos de validación se puede utilizar (es decir, el algoritmo los utiliza) para
decidir cuándo dar por terminado el proceso de selección o para decidir cuáles son los efectos a
incluir a medida que avanza el proceso. Finalmente, una vez que termina el proceso y se tiene
seleccionado el modelo, se pueden utilizar los datos de prueba para evaluar la manera en que el
modelo seleccionado se generaliza para los datos que no jugaron ningún papel en la selección del
mismo.
En algunos casos es posible que se desee utilizar sólo los datos de entrenamiento y prueba. Por
ejemplo, se podría utilizar un criterio de negocios para decidir cuáles efectos incluir y cuándo dar por
terminado el proceso de selección. En este caso, los datos de validación no son necesarios, sin
embargo, los datos de prueba podrían ser útiles en la evaluación del desempeño de la predicción del
modelo seleccionado. En otros casos, es posible utilizar los datos de validación durante el proceso de
selección, y renunciar a evaluar el modelo seleccionado en los datos de prueba. Hastie, Tibshirani y
Friedman en su libro The Elements of Statistical Learning (2011) [descargar 5a edición del libro en
pdf] señalan que es difícil dar una regla general sobre cuántas observaciones se deben asignar a
cada conjunto, aunque indican que una división típica puede ser de 50% para el entrenamiento y 25%
para la validación y prueba, respectivamente.

Pues bien, veamos ahora un ejemplo:


Un operador de telecomunicaciones tiene una tasa de churn de 1,6% mensual y desea realizar un
modelo predictivo para determinar a cuáles clientes debe hacer una acción comercial para evitar
su baja o desconexión.
Definimos el universo de clientes como la totalidad de clientes (activos o dados de baja) a una fecha
de corte dada. La fecha de corte puede ser el último día de un mes, de tal forma que para ese día
determinamos cuántos clientes se han dado de baja y cuántos siguen activos. Si tenemos varios
meses, la fecha de corte para las bajas será el cierre de cada mes y para los clientes activos el último
mes. En este caso, utilizar varios meses podría ser recomendable para evitar efectos estacionales o
campañas agresivas de la competencia.
Imaginemos que estamos parados el 01 de julio de 2017 y la empresa de telecomunicaciones
registra 169.215 clientes activos y hace un recuento de las bajas o desconexiones que tuvo un cierto
producto los 6 meses inmediatamente anteriores, como muestra la siguiente tabla:

Prof. Ing. Maria Ester Servin Paá gina 6


Unican – Facitec – Taller 7 – 4to. . Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

Lo que buscamos es hacer un modelo predictivo para predecir lo que pasará en Julio 2017.
De la tabla, rápidamente calculamos:
 Tasa de churn durante el último mes: 2.709 / 169.215 = 1,6 %
 Total muesta de activos (que llamaremos 0′s ): 169.215

 Total muestra de bajas (que llamaremos 1′s ): 13.650

 Total universo: 169.215 + 13.650 = 182.865

Este universo hemos de dividirlo en 3 partes: La primeras dos formarán el conjunto de datos de
entrenamiento y validación. Aquí es importante realizar un sobre muestreo estratificado del número
de bajas para mejorar el entrenamiento del modelo. El estrato será: bajas (1′s) versus activos (0′s).
Como puede apreciarse en el esquema gráfico, la proporción de bajas aumentó hasta un 50%. No es
una proporción imprescindible, pero si nuestra muestra no lo permitiera, algunos expertos (y nosotros
mismos) aseguran que un 20% de casos puede ser suficiente, aunque si es posible trataremos de
buscar el 50-50 (en un árbol de decisión, por ejemplo, este sobre muestreo nos identificará las ramas
extremas). Una vez definido el conjunto de datos sobre muestreado lo separamos en entrenamiento y
validación, usando la proporción de 70-30. Aunque no es algo estricto, en la literatura también hay
otros valores tales como 57-43, 67-33, 70-30, 85-15…que podrían también probarse. Por último,
separamos el conjunto de datos de prueba, que será un subconjunto del universo inicial, y es el que
nos indicará cómo funciona el error del modelo.
Para nuestro ejemplo, y utilizando las proporciones indicadas por Hastie, Tibshirani y Friedman,
nuestros conjuntos quedarían como se muestra en el siguiente esquema gráfico:

Proporciones de las muestras para el ejemplo

Prof. Ing. Maria Ester Servin Paá gina 7


Unican – Facitec – Taller 7 – 4to. . Año Sección “A”

KNOWLEDGE DISCOVERY Y DATA MINING, Definición, procesos, agentes y Metodologías KDD.

Como comentario final, y respecto del tema de evitar la estacionalidad en en el ejemplo concreto de
las bajas de clientes, podríamos emplear como datos de prueba a todos los clientes que están en otro
mes distinto a los meses que empleamos para la creación del universo. Por ejemplo: entrenamos y
validamos con los meses N, N+2 y N+4 y probamos los resultados con N+1, N+3 y N+5.

BIBLIOGRAFIAS:

Relacionadas - Recomendadas

https://www.datsi.fi.upm.es/~jmpena/docs/phd-jmpena.pdf

http://www.webmining.cl/2011/07/entrenamiento-validacion-y-prueba/

http://mineriadatos1.blogspot.com/2013/06/tecnicas-mineria-de-datos.html

http://users.dsic.upv.es/~jorallo/cursoDWDM/dwdm-III-2.pdf

Prof. Ing. Maria Ester Servin Paá gina 8

S-ar putea să vă placă și