Sunteți pe pagina 1din 30

DATA MINING

1
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

2
1.Introducción (I)
Data Mining, es la extracción de información
oculta y predecible de grandes bases de
datos.
Trabaja buscando patrones, comportamientos,
agrupaciones, secuencias, tendencias y
asociaciones que pueden generar algún modelo
para ayudar en la toma de decisiones y a
comprender mejor el dominio.

3
1.Introducción (II)

Es una poderosa tecnología con potencial para


ayudar a las compañías a concentrarse en la
información más importante de sus Bases de
Información (Data Warehouse).
Las herramientas de Data Mining predicen
futuras tendencias y comportamientos,
permitiendo en los negocios tomar decisiones
proactivas .

4
1.Introducción(III)
Dos conceptos de Data Mining:
1 => Data Mining como un paso dentro del
proceso KDD (Knowledge Discovery in
Databases), o descubrimiento de conocimiento
de las bases de datos. Representa la actividad
que genera patrones y relaciones mediante la
aplicación de algoritmos, a partir de un conjunto
de datos previamente limpiados y
transformados, para una etapa posterior de
interpretación y análisis.
5
1.Introducción (IV)
=> 2. Data Mining como un Proceso
Independiente de extracción de información
oculta, que posee sus propias etapas:
Identificación del problema, selección de los
datos, preparación de los datos, construcción
del modelo, descubrimiento de patrones,
despliegue de Patrones y monitoreo del modelo.

6
1.Introducción (V)
Etapas principales :
 Determinación de los objetivos: Delimitación de los
objetivos que el cliente desea.
 Preprocesamiento de los datos(60%): Selección,
limpieza, enriquecimiento, reducción y transformación
de las bases de datos.
 Determinación del modelo: análisis estadísticos y
visualización grafica de los datos.
 Análisis de los resultados: Verifica si los resultados
son coherentes. El cliente es el que tiene la palabra
final.

7
1.Introducción (VI)
PROCEDIMIENTOS:

Clasificación. Consiste en examinar las características


de una entidad nueva y asignarle una clase predefinida.
Por ejemplo: Clasificar a un nuevo cliente según su
riesgo de crédito (alto, medio, bajo).
Estimación. Similar a lo anterior, pero aplicado a
variables continuas. Por ejemplo: ingresos, balance de
tarjetas de crédito, etc.
Predicción. Predicción de fidelidad de clientes.
Ejemplo: predecir qué clientes nos abandonarán en los
próximos 6 meses.
Grupos Afines o Reglas de Asociación. El objetivo de
los grupos afines es determinar que cosas van juntas.
Ejemplo: productos que debieran ir juntos en un
supermercado.
8
1.Introducción (VII)
Clustering. Tiene como objetivo el segmentar a un
grupo diverso en un conjunto de subgrupos.No depende
de clases .
Ejemplo: un cluster particular de síntomas puede indicar
una enfermedad particular .
Descripción y Visualización. Algunas veces el
objetivo es simplemente describir qué esta ocurriendo
en una base de datos compleja, para así aumentar
nuestro entendimiento de las personas, productos o
procesos que generaron los datos inicialmente.

9
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

10
2.Características principales (I)
Predicción automatizada de tendencias y
comportamientos:
Data Mining automatiza el proceso de encontrar
información predecible en grandes bases de datos.
Permite detectar fácilmente patrones en los datos.
Preguntas que tradicionalmente requerían un intenso
análisis manual, ahora pueden ser contestadas directa y
rápidamente desde los datos.

11
2.Características principales (II)
Descubrimiento automatizado de modelos
previamente desconocidos:
Las herramientas de Data Mining barren las bases de
datos e identifican modelos previamente escondidos en
un sólo paso. Otros problemas de descubrimiento de
modelos incluye detectar transacciones fraudulentas de
tarjetas de créditos e identificar datos anormales que
pueden representar errores de tipeado en la carga de
datos.

12
2.Características principales (III)
Las bases de datos pueden ser grandes
tanto en profundidad como en ancho :
-Más columnas. Los analistas deben limitar el número
de variables a examinar cuando realizan análisis
manuales debido a limitaciones de tiempo. Sin embargo,
variables que son descartadas porque parecen sin
importancia pueden proveer información acerca de
modelos desconocidos. Un Data Mining de alto
rendimiento permite a los usuarios explorar toda la base
de datos, sin preseleccionar un subconjunto de
variables.
-Más filas. Muestras mayores producen menos errores
de estimación y desvíos, y permite a los usuarios hacer
inferencias acerca de pequeños pero importantes
segmentos de población.
13
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

14
3.Técnicas (I)
Las técnicas mas usadas en Data Mining son:

 Redes neuronales artificiales: modelos que


aprenden a través del entrenamiento y semejan la
estructura de una red neuronal biológica.
 Árboles de decisión: estructuras de forma de
árbol que representan conjuntos de decisiones. Estas
decisiones generan reglas para la clasificación de un
conjunto de datos.
 Algoritmos genéticos: técnicas de optimización
que usan procesos tales como combinaciones
genéticas, mutaciones y selección natural en un
diseño basado en los conceptos de evolución.
15
3.Técnicas (II)
 Método del vecino más cercano:
Una técnica que clasifica cada registro en un conjunto
de datos basado en una combinación de las clases
del/de los k registro (s) más similar/es a él en un
conjunto de datos históricos (donde k 1). Algunas
veces se llama la técnica del vecino k-más cercano.
 Regla de inducción:
La extracción de reglas if-then de datos basados en
significado estadístico.

16
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

17
4.Fases (I)
Fases de un Proyecto de Minería de Datos
Los pasos a seguir para la realización de un proyecto de
minería de datos son siempre los mismos,
independientemente de la técnica de extracción de
conocimiento usada. El proceso de minería de datos
pasa por las siguientes fases:
1.Filtrado de datos
2.Selección de Variables
3.Extracción de Conocimiento
4.Interpretación y Evaluación

18
4.Fases (II)
Filtrado de datos
El formato de los datos contenidos en la fuente de datos
(base de datos, Data Warehouse...) nunca es el idóneo, y
la mayoría de las veces no es posible ni siquiera utilizar
ningún algoritmo de minería sobre los datos "en bruto".
Mediante el preprocesado, se filtran los datos (de forma
que se eliminan valores incorrectos, no válidos,
desconocidos... según las necesidades y el algoritmo a
usar), se obtienen muestras de los mismos (en busca de
una mayor velocidad de respuesta del proceso), o se
reducen el número de valores posibles (mediante
redondeo, clustering,...).

19
4.Fases (III)
Selección de variables
Aún después de haber sido preprocesados, en la
mayoría de los casos se tiene una gran cantidad de
datos. La selección de características reduce el tamaño
de los datos eligiendo las variables más influyentes en el
problema, sin apenas sacrificar la calidad del modelo de
conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son
dos:
- Los basados en la elección de los mejores
atributos del problema,
- Los que buscan variables independientes mediante
tests de sensibilidad, algoritmos de distancia o
heurísticos.

20
4.Fases (IV)
Algoritmos de Extracción de Conocimiento:
Mediante una técnica de minería de datos, se obtiene un
modelo de conocimiento, que representa patrones de
comportamiento observados en los valores de las
variables del problema o relaciones de asociación entre
dichas variables. También pueden usarse varias
técnicas a la vez para generar distintos modelos,
aunque generalmente cada técnica obliga a un
preprocesado diferente de los datos.

21
4.Fases (V)
Interpretación y evaluación:
Verifica si los resultados son coherentes. El cliente es el
que tiene la palabra final.
Una vez obtenido el modelo, se debe proceder a su
validación, comprobando que las conclusiones que
arroja son válidas y suficientemente satisfactorias.
Si se obtienen varios modelos mediante el uso de
distintas técnicas, se deben comparar los modelos en
busca de aquel que se ajuste mejor al problema.

22
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

23
5.Ejemplos

Telefonía móvil.
Club AC Milán (prevenir lesiones)
FBI

24
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

25
6.Contras (I)
Momento critico de la minería de datos:
Que se requiere experiencia.
Fáciles Equivocaciones. Fácil hallar patrones
equívocos, triviales o no interesantes.
Relación coste/Beneficio improductiva.
Uso indiscriminado de datos.
Que no sea posible resolver los aspectos técnicos
de hallar patrones en tiempo o en espacio.
Que exista una reacción del publico por el uso
indiscriminado de datos personales para ejercicios
de Minería de Datos, que obligue a los
legisladores a imponer restricciones exageradas (y
tal vez absurdas) al uso de la tecnología..

26
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

27
7.Pros (I)
Extrae información táctica y estratégica almacenada en
sus Data Warehouse .
La búsqueda de patrones la realiza en forma
automatizada, generando modelos mediante la
aplicación de diferentes técnicas.
Existe gran diversidad de herramientas de Data Mining
en el mercado, lo que facilita la aplicación de este
proceso y aumenta el nivel de confianza de sus
resultados.
No requiere de personal experto en ciencias
estadísticas o altamente entrenado. Es suficiente un
especialista en análisis de datos y un experto en las
áreas de la organización, que tengan conocimientos
básicos en áreas estadísticas que les permita entender y
aplicar los resultados.
28
Data Mining
Introducción
Características principales
Técnicas
Fases
Ejemplos
Contras
Pros
Conclusiones

29
8.Conclusiones (I)
Nuestra capacidad para almacenar datos ha
crecido en los últimos años a velocidades
exponenciales. En contrapartida, nuestra
capacidad para procesarlos y utilizarlos no ha
ido a la par.
=> data mining se presenta como una
tecnología de apoyo para explorar, analizar,
comprender y aplicar el conocimiento obtenido
usando grandes volúmenes de datos. Descubrir
nuevos caminos que nos ayuden en la
identificación de estructuras en los datos es una
de las tareas fundamentales en el data mining.

30

S-ar putea să vă placă și