Documente Academic
Documente Profesional
Documente Cultură
1
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
2
1.Introducción (I)
Data Mining, es la extracción de información
oculta y predecible de grandes bases de
datos.
Trabaja buscando patrones, comportamientos,
agrupaciones, secuencias, tendencias y
asociaciones que pueden generar algún modelo
para ayudar en la toma de decisiones y a
comprender mejor el dominio.
3
1.Introducción (II)
4
1.Introducción(III)
Dos conceptos de Data Mining:
1 => Data Mining como un paso dentro del
proceso KDD (Knowledge Discovery in
Databases), o descubrimiento de conocimiento
de las bases de datos. Representa la actividad
que genera patrones y relaciones mediante la
aplicación de algoritmos, a partir de un conjunto
de datos previamente limpiados y
transformados, para una etapa posterior de
interpretación y análisis.
5
1.Introducción (IV)
=> 2. Data Mining como un Proceso
Independiente de extracción de información
oculta, que posee sus propias etapas:
Identificación del problema, selección de los
datos, preparación de los datos, construcción
del modelo, descubrimiento de patrones,
despliegue de Patrones y monitoreo del modelo.
6
1.Introducción (V)
Etapas principales :
Determinación de los objetivos: Delimitación de los
objetivos que el cliente desea.
Preprocesamiento de los datos(60%): Selección,
limpieza, enriquecimiento, reducción y transformación
de las bases de datos.
Determinación del modelo: análisis estadísticos y
visualización grafica de los datos.
Análisis de los resultados: Verifica si los resultados
son coherentes. El cliente es el que tiene la palabra
final.
7
1.Introducción (VI)
PROCEDIMIENTOS:
9
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
10
2.Características principales (I)
Predicción automatizada de tendencias y
comportamientos:
Data Mining automatiza el proceso de encontrar
información predecible en grandes bases de datos.
Permite detectar fácilmente patrones en los datos.
Preguntas que tradicionalmente requerían un intenso
análisis manual, ahora pueden ser contestadas directa y
rápidamente desde los datos.
11
2.Características principales (II)
Descubrimiento automatizado de modelos
previamente desconocidos:
Las herramientas de Data Mining barren las bases de
datos e identifican modelos previamente escondidos en
un sólo paso. Otros problemas de descubrimiento de
modelos incluye detectar transacciones fraudulentas de
tarjetas de créditos e identificar datos anormales que
pueden representar errores de tipeado en la carga de
datos.
12
2.Características principales (III)
Las bases de datos pueden ser grandes
tanto en profundidad como en ancho :
-Más columnas. Los analistas deben limitar el número
de variables a examinar cuando realizan análisis
manuales debido a limitaciones de tiempo. Sin embargo,
variables que son descartadas porque parecen sin
importancia pueden proveer información acerca de
modelos desconocidos. Un Data Mining de alto
rendimiento permite a los usuarios explorar toda la base
de datos, sin preseleccionar un subconjunto de
variables.
-Más filas. Muestras mayores producen menos errores
de estimación y desvíos, y permite a los usuarios hacer
inferencias acerca de pequeños pero importantes
segmentos de población.
13
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
14
3.Técnicas (I)
Las técnicas mas usadas en Data Mining son:
16
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
17
4.Fases (I)
Fases de un Proyecto de Minería de Datos
Los pasos a seguir para la realización de un proyecto de
minería de datos son siempre los mismos,
independientemente de la técnica de extracción de
conocimiento usada. El proceso de minería de datos
pasa por las siguientes fases:
1.Filtrado de datos
2.Selección de Variables
3.Extracción de Conocimiento
4.Interpretación y Evaluación
18
4.Fases (II)
Filtrado de datos
El formato de los datos contenidos en la fuente de datos
(base de datos, Data Warehouse...) nunca es el idóneo, y
la mayoría de las veces no es posible ni siquiera utilizar
ningún algoritmo de minería sobre los datos "en bruto".
Mediante el preprocesado, se filtran los datos (de forma
que se eliminan valores incorrectos, no válidos,
desconocidos... según las necesidades y el algoritmo a
usar), se obtienen muestras de los mismos (en busca de
una mayor velocidad de respuesta del proceso), o se
reducen el número de valores posibles (mediante
redondeo, clustering,...).
19
4.Fases (III)
Selección de variables
Aún después de haber sido preprocesados, en la
mayoría de los casos se tiene una gran cantidad de
datos. La selección de características reduce el tamaño
de los datos eligiendo las variables más influyentes en el
problema, sin apenas sacrificar la calidad del modelo de
conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son
dos:
- Los basados en la elección de los mejores
atributos del problema,
- Los que buscan variables independientes mediante
tests de sensibilidad, algoritmos de distancia o
heurísticos.
20
4.Fases (IV)
Algoritmos de Extracción de Conocimiento:
Mediante una técnica de minería de datos, se obtiene un
modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre
dichas variables. También pueden usarse varias
técnicas a la vez para generar distintos modelos,
aunque generalmente cada técnica obliga a un
preprocesado diferente de los datos.
21
4.Fases (V)
Interpretación y evaluación:
Verifica si los resultados son coherentes. El cliente es el
que tiene la palabra final.
Una vez obtenido el modelo, se debe proceder a su
validación, comprobando que las conclusiones que
arroja son válidas y suficientemente satisfactorias.
Si se obtienen varios modelos mediante el uso de
distintas técnicas, se deben comparar los modelos en
busca de aquel que se ajuste mejor al problema.
22
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
23
5.Ejemplos
Telefonía móvil.
Club AC Milán (prevenir lesiones)
FBI
24
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
25
6.Contras (I)
Momento critico de la minería de datos:
Que se requiere experiencia.
Fáciles Equivocaciones. Fácil hallar patrones
equívocos, triviales o no interesantes.
Relación coste/Beneficio improductiva.
Uso indiscriminado de datos.
Que no sea posible resolver los aspectos técnicos
de hallar patrones en tiempo o en espacio.
Que exista una reacción del publico por el uso
indiscriminado de datos personales para ejercicios
de Minería de Datos, que obligue a los
legisladores a imponer restricciones exageradas (y
tal vez absurdas) al uso de la tecnología..
26
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
27
7.Pros (I)
Extrae información táctica y estratégica almacenada en
sus Data Warehouse .
La búsqueda de patrones la realiza en forma
automatizada, generando modelos mediante la
aplicación de diferentes técnicas.
Existe gran diversidad de herramientas de Data Mining
en el mercado, lo que facilita la aplicación de este
proceso y aumenta el nivel de confianza de sus
resultados.
No requiere de personal experto en ciencias
estadísticas o altamente entrenado. Es suficiente un
especialista en análisis de datos y un experto en las
áreas de la organización, que tengan conocimientos
básicos en áreas estadísticas que les permita entender y
aplicar los resultados.
28
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones
29
8.Conclusiones (I)
Nuestra capacidad para almacenar datos ha
crecido en los últimos años a velocidades
exponenciales. En contrapartida, nuestra
capacidad para procesarlos y utilizarlos no ha
ido a la par.
=> data mining se presenta como una
tecnología de apoyo para explorar, analizar,
comprender y aplicar el conocimiento obtenido
usando grandes volúmenes de datos. Descubrir
nuevos caminos que nos ayuden en la
identificación de estructuras en los datos es una
de las tareas fundamentales en el data mining.
30