Documente Academic
Documente Profesional
Documente Cultură
Minera de Datos
ndice
Definicin y conceptos
Tcnicas y modelos
Tipos de conocimiento
Conocimiento evidente
Conocimiento multi-dimensional
Conocimiento oculto
Conocimiento profundo
Fuente: Data Mining, P. Adriaans, D. Zantinge, Addison-Wesley, 1996.
IRC - JVR, RCG - 2
Tipos de conocimiento
(segn su nivel de abstraccin)
Conocimiento evidente
Fcilmente recuperable SQL
Conocimiento multi-dimensional
Considera los datos con una cierta estructura OLAP
Conocimiento oculto
Informacin no evidente, desconocida a priori y
potencialmente til MD
Conocimiento profundo
Informacin que est almacenada en la base de datos,
pero que resulta imposible de recuperar a menos que
se disponga de alguna clave que oriente la bsqueda
IRC - JVR, RCG - 3
Aprender
Objetivo:
Construir un sistema computacional que sea capaz de
encontrar y modelar el conocimiento oculto que a los
seres humanos nos resulta difcil ver
Cmo?
Dotando a ese sistema de algoritmos o tcnicas que
imiten la cualidad humana del aprendizaje, esto es, ser
capaz de extraer nuevos conocimientos a partir de las
experiencias (ejemplos)
KD
Knowledge Discovery is the nontrivial extraction of
implicit, previously unknown and potentially
useful information from data
W. J. Frawley,
G.Piatetsky-Shapiro,
C. J. Matheus
KDD
Knowledge Discovery in Databases: nombre
tcnico con que se denomina al proceso global de
extraccin de conocimiento de bases de datos
Data Mining
La minera de datos comprende una serie de
tcnicas, algoritmos y mtodos cuyo fin es la
explotacin de grandes volmenes de datos con
vistas al descubrimiento de informacin
previamente desconocida y que pueda servir de
ayuda en el proceso de toma de decisiones,
formando parte del conjunto de tecnologas de la
Inteligencia de Negocio
Business Intelligence
Realizacin eficiente de todas las actividades
relacionadas con la generacin, extraccin,
organizacin, anlisis, comparticin y distribucin
del conocimiento de una organizacin
Objetivo
Poner al alcance
de cada individuo
lo que necesita
en el momento
preciso
para que su actividad
sea efectiva
Arquitectura tecnolgica
Reservas
DataWarehouse
Facturas
Inventario
Base de datos
operacional
Modelo de datos
multidimensional
Anlisis
OLAP
Integracin y
carga de
datos
Informes de
negocio
Toma de
decisiones
Query &
Reporting
Pedidos
Catlogo
Clientes
Base de datos
operacional
Motor de
minera de
datos
Segmentacin
Asociaciones
Prediccin
Descubrimiento
Preprocesado
Datos
Seleccin
Base de
datos
Metodologa CRISP-DM
CRoss Industry Standard Process for Data Mining
Comprensin
mbito
aplicacin
Comprensin
Datos
Preprocesado
Datos
Aplicacin
Datos
Modelado
Evaluacin
Fuente: CRoss Industry Standard Process for Data Mining: Process Model
http://www.crisp-dm.org/Process/index.htm
Herramientas
Comerciales
De cdigo libre
Weka
SPSS Clementine
10
11
MIT DataEngine
12
Weka
http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.au
Weka (2)
13
Enfoque multidisciplinar
Enfoque
integrador
multidisciplinar
Mtodos analticos
Aprendizaje
Minera
de datos
Bases de datos
Estadstica
Diferentes
tcnicas segn el
tipo de
informacin a
extraer
Enfoques grficos
Tcnicas predictivas
Orientadas a estimar valores de salida
Tcnicas de modelado
Orientadas a la comprensin del sistema: obtener una
representacin del sistema que permita imitar su
comportamiento
Emplea cualquier tcnica que no funcione como caja negra
Agrupamiento
rboles de decisin
Anlisis de secuencias/asociaciones
IRC - JVR, RCG - 27
14
Tcnicas predictivas
Anlisis de patrones secuenciales
Deteccin de secuencias de
compra en el tiempo
Anlisis de similitud en series
temporales
Identificacin de pautas de compra
en el tiempo
Prediccin
Asignacin de probabilidades de
fraude con tarjetas
Estimacin de la demanda y el
rendimiento por cliente
Segmentacin
Para la agrupacin automtica de registros que comparten rasgos similares
(no supervisados), existen diversas tcnicas:
Segmentacin o clustering
El n de segmentos se determina durante la ejecucin del algoritmo.
Procesa tanto variables cuantitativas como cualitativas.
Maximiza la similitud entre los miembros de un mismo segmento y las diferencias
entre los miembros de segmentos diferentes, en base a mtricas de similitud, no de
distancia.
Es eficiente para la deteccin de nichos de registros.
15
Clasificacin
Como mtodos de clasificacin supervisada (prediccin de variables
cualitativas), algunas tcnicas son:
Clasificacin basada en rboles de decisin
Clasificacin neuronal
Basada en redes neuronales de propagacin hacia atrs.
Detecta de forma automtica la topologa ms adecuada para cada problema,
aunque permite especificar una concreta.
Realiza un anlisis de sensibilidad para detectar las variables ms significativas para
cada topologa.
Prediccin
Para la estimacin de variables cuantitativas, los mtodos ms empleados son:
Funciones de base radial
Prediccin neuronal
16
Anlisis de asociaciones
Los anlisis de asociaciones y patrones secuenciales permiten extraer
informacin desconocida de los hbitos de compra:
Anlisis de asociaciones
Detecta elementos en una transaccin que implican la presencia de otros elementos
en sta misma.
Expresa las afinidades entre elementos en forma de reglas de asociacin X Y,
facilitando una serie de mtricas como el soporte y confianza.
Patrones secuenciales
Detectan patrones entre transacciones, lo que permite optimizar las ventas a lo largo
del tiempo
Equipo de trabajo
Para lograr un resultado ptimo en un proyecto de minera de datos,
el equipo de trabajo debe incluir:
expertos en manipulacin de datos
expertos en inteligencia artificial y en algoritmos de extraccin de
conocimiento
conocedores del dominio de aplicacin o con habilidades para
comunicarse con los expertos
analistas de negocio
Query &
reporting
Datawarehouse
Minera de datos
Herramienta de decisin
Bases de datos
Ingeniera de datos
Usuario de negocio
Analista de negocio
Administrador de BD
17
Esfuerzo requerido
Submodelos
En la mayora de las ocasiones, un nico modelo no
sirve para representar el sistema completo de manera
fiable
Lo habitual es aplicar la tcnica de divide y vencers y
construir submodelos que cubren aspectos parciales del
sistema
Estos submodelos en conjunto resultan ms precisos o, al
menos, acotan de forma ms precisa el error en los aspectos
que cubren
Para realizar la divisin en submodelos, se suele aplicar
segmentacin (clustering) y luego se construye un modelo de
prediccin para cada uno de los grupos encontrados
18
Segmentacin + Prediccin
Matriz de datos
Matrices de Minera
Conjunto Entrenamiento
ID Hogar
V. Hogar
ID Hogar
N Miembros Provincia
12345677
9912341234
CodPostal
ID HOGAR V. Hogar
ID Hogar
Antigedad
12345677
9912341234
Zona Buzoneo
V. Pedido
VP012001
V. Tienda
VDZ1990
VDJ2000
Modelo de
segmentacin
V. Objetivo
VDX012001Abandona Telepizza
1
1
0
0
0
Toda la Poblacin
Conjunto Entrenamiento
ID HOGAR V. Hogar
ID Hogar
Antigedad
12345677
9912341234
Modelo de
segmentacin
Para cada
grupo
V. Pedido
VP012001
V. Tienda
VDZ1990
VDJ2000
V. Objetivo
VDX012001Abandona Telepizza
1
1
0
0
0
Conjunto Test/Prueba
ID HOGAR V. Hogar
ID Hogar
Antigedad
12345677
9912341234
V. Pedido
VP012001
V. Tienda
VDZ1990
VDJ2000
V. Objetivo
VDX012001Abandona Telepizza
1
1
0
0
0
(m7,r1)
good
(m3,r2)
average
bad
Modelo
prediccin
grupo N
IRC - JVR, RCG - 36
19