Sunteți pe pagina 1din 19

Inteligencia en Redes de Comunicaciones

Inteligencia en Redes de Comunicaciones

Minera de Datos

Raquel M. Crespo Garca


Julio Villena Romn
{rcrespo, jvillena}@it.uc3m.es

ndice
Definicin y conceptos
Tcnicas y modelos

IRC - JVR, RCG - 1

Inteligencia en Redes de Comunicaciones

Tipos de conocimiento

Conocimiento evidente
Conocimiento multi-dimensional
Conocimiento oculto
Conocimiento profundo
Fuente: Data Mining, P. Adriaans, D. Zantinge, Addison-Wesley, 1996.
IRC - JVR, RCG - 2

Tipos de conocimiento
(segn su nivel de abstraccin)
Conocimiento evidente
Fcilmente recuperable SQL

Conocimiento multi-dimensional
Considera los datos con una cierta estructura OLAP

Conocimiento oculto
Informacin no evidente, desconocida a priori y
potencialmente til MD

Conocimiento profundo
Informacin que est almacenada en la base de datos,
pero que resulta imposible de recuperar a menos que
se disponga de alguna clave que oriente la bsqueda
IRC - JVR, RCG - 3

Inteligencia en Redes de Comunicaciones

Aprender
Objetivo:
Construir un sistema computacional que sea capaz de
encontrar y modelar el conocimiento oculto que a los
seres humanos nos resulta difcil ver

Cmo?
Dotando a ese sistema de algoritmos o tcnicas que
imiten la cualidad humana del aprendizaje, esto es, ser
capaz de extraer nuevos conocimientos a partir de las
experiencias (ejemplos)

IRC - JVR, RCG - 4

KD
Knowledge Discovery is the nontrivial extraction of
implicit, previously unknown and potentially
useful information from data
W. J. Frawley,
G.Piatetsky-Shapiro,
C. J. Matheus

IRC - JVR, RCG - 5

Inteligencia en Redes de Comunicaciones

KDD
Knowledge Discovery in Databases: nombre
tcnico con que se denomina al proceso global de
extraccin de conocimiento de bases de datos

IRC - JVR, RCG - 6

Data Mining
La minera de datos comprende una serie de
tcnicas, algoritmos y mtodos cuyo fin es la
explotacin de grandes volmenes de datos con
vistas al descubrimiento de informacin
previamente desconocida y que pueda servir de
ayuda en el proceso de toma de decisiones,
formando parte del conjunto de tecnologas de la
Inteligencia de Negocio

IRC - JVR, RCG - 7

Inteligencia en Redes de Comunicaciones

Business Intelligence
Realizacin eficiente de todas las actividades
relacionadas con la generacin, extraccin,
organizacin, anlisis, comparticin y distribucin
del conocimiento de una organizacin

IRC - JVR, RCG - 8

Datos, Informacin y Conocimiento

Conocimiento: capacidad de convertir datos e informacin en acciones efectivas


IRC - JVR, RCG - 9

Inteligencia en Redes de Comunicaciones

Objetivo

Poner al alcance
de cada individuo
lo que necesita
en el momento
preciso
para que su actividad
sea efectiva

IRC - JVR, RCG - 10

Arquitectura tecnolgica

Reservas

DataWarehouse

Facturas
Inventario

Base de datos
operacional

Modelo de datos
multidimensional

Anlisis
OLAP

Integracin y
carga de
datos

Informes de
negocio

Toma de
decisiones

Query &
Reporting

Pedidos
Catlogo
Clientes

Base de datos
operacional

Fuentes de datos externas

Motor de
minera de
datos

Segmentacin
Asociaciones
Prediccin

IRC - JVR, RCG - 11

Inteligencia en Redes de Comunicaciones

Verificacin vs. descubrimiento


Verificacin

Descubrimiento

1. Elaborar una hiptesis sobre la


existencia de una informacin de
inters
2. Convertir la hiptesis en una
consulta
3. Ejecutar la consulta contra un
sistema de informacin
4. Interpretar los resultados
5. Refinar la hiptesis y repetir la
ejecucin

1. Identificar un objetivo o problema


de negocio
2. Habilitar un acceso a los datos de
inters y acondicionarlos
3. Seleccionar una tcnica de
explotacin de los datos adecuada
para el problema
4. Ejecutar la tcnica contra los datos
5. Interpretar los resultados

Las tcnicas de minera de datos son herramientas que facilitan el


descubrimiento de la informacin
IRC - JVR, RCG - 12

Proceso de minera de datos


Conocimiento
Modelo
Conocimiento
Interpretacin
Evaluacin
Extraccin de
conocimiento
Seleccin de
caractersticas

Preprocesado

Datos
Seleccin

Base de
datos

IRC - JVR, RCG - 13

Inteligencia en Redes de Comunicaciones

Metodologa CRISP-DM
CRoss Industry Standard Process for Data Mining

Comprensin
mbito
aplicacin

Comprensin
Datos

Preprocesado
Datos
Aplicacin

Datos
Modelado

Evaluacin

Fuente: CRoss Industry Standard Process for Data Mining: Process Model
http://www.crisp-dm.org/Process/index.htm

IRC - JVR, RCG - 14

Herramientas
Comerciales

Intelligent Miner / DB2 Data Warehouse Edition (IBM)


Clementine (SPSS)
Enterprise Miner (SAS)
DataEngine

De cdigo libre
Weka

IRC - JVR, RCG - 15

Inteligencia en Redes de Comunicaciones

IBM DB2 Data Warehouse Edition (1)

IRC - JVR, RCG - 16

IBM DB2 Data Warehouse Edition (2)

IRC - JVR, RCG - 17

Inteligencia en Redes de Comunicaciones

SPSS Clementine

IRC - JVR, RCG - 18

SPSS Clementine (2)

IRC - JVR, RCG - 19

10

Inteligencia en Redes de Comunicaciones

SAS Enterprise Miner

IRC - JVR, RCG - 20

SAS Enterprise Miner (2)

IRC - JVR, RCG - 21

11

Inteligencia en Redes de Comunicaciones

MIT DataEngine

IRC - JVR, RCG - 22

MIT DataEngine (2)

IRC - JVR, RCG - 23

12

Inteligencia en Redes de Comunicaciones

Weka

http://www.cs.waikato.ac.nz/~ml/sounds/weka-long.au

IRC - JVR, RCG - 24

Weka (2)

IRC - JVR, RCG - 25

13

Inteligencia en Redes de Comunicaciones

Enfoque multidisciplinar
Enfoque
integrador
multidisciplinar
Mtodos analticos
Aprendizaje

Minera
de datos

Bases de datos

Estadstica

Diferentes
tcnicas segn el
tipo de
informacin a
extraer

Enfoques grficos

IRC - JVR, RCG - 26

Tcnicas de minera de datos


Tcnicas descriptivas
Orientadas a describir un conjunto de datos

Tcnicas predictivas
Orientadas a estimar valores de salida

Tcnicas de modelado
Orientadas a la comprensin del sistema: obtener una
representacin del sistema que permita imitar su
comportamiento
Emplea cualquier tcnica que no funcione como caja negra
Agrupamiento
rboles de decisin
Anlisis de secuencias/asociaciones
IRC - JVR, RCG - 27

14

Inteligencia en Redes de Comunicaciones

Tcnicas de extraccin de conocimiento


Tcnicas descriptivas
Segmentacin de datos
Agrupacin no supervisada de
clientes
Categorizacin automtica de
sucursales
Clasificacin
Asignacin de nuevos clientes a
segmentos predefinidos
Identificacin de alarmas
Anlisis de asociaciones
Anlisis de venta cruzada de
productos
Correlacin de hbitos de consumo
en base a su ocurrencia

Tcnicas predictivas
Anlisis de patrones secuenciales
Deteccin de secuencias de
compra en el tiempo
Anlisis de similitud en series
temporales
Identificacin de pautas de compra
en el tiempo
Prediccin
Asignacin de probabilidades de
fraude con tarjetas
Estimacin de la demanda y el
rendimiento por cliente

IRC - JVR, RCG - 28

Segmentacin
Para la agrupacin automtica de registros que comparten rasgos similares
(no supervisados), existen diversas tcnicas:
Segmentacin o clustering
El n de segmentos se determina durante la ejecucin del algoritmo.
Procesa tanto variables cuantitativas como cualitativas.
Maximiza la similitud entre los miembros de un mismo segmento y las diferencias
entre los miembros de segmentos diferentes, en base a mtricas de similitud, no de
distancia.
Es eficiente para la deteccin de nichos de registros.

Segmentacin neuronal (mapas autoorganizativos de Kohonen)


Es necesario predefinir el n de segmentos que se desean obtener y su distribucin
bidimensional.
Procesa tanto variables cualitativas como cuantitativas, aunque funciona mejor
cuando dominan estas ltimas.
Es eficiente cuando se desea particionar una poblacin imponiendo cierta relacin
entre los segmentos obtenidos.
IRC - JVR, RCG - 29

15

Inteligencia en Redes de Comunicaciones

Clasificacin
Como mtodos de clasificacin supervisada (prediccin de variables
cualitativas), algunas tcnicas son:
Clasificacin basada en rboles de decisin

Modelo de clasificacin en forma de rbol de decisin


Procesando tanto variables cuantitativas como cualitativas
Tcnicas de podado, que proporciona rboles de menor tamao.
Son escalables, pudiendo procesar conjuntos con independencia del nmero de
clases, atributos y registros.

Clasificacin neuronal
Basada en redes neuronales de propagacin hacia atrs.
Detecta de forma automtica la topologa ms adecuada para cada problema,
aunque permite especificar una concreta.
Realiza un anlisis de sensibilidad para detectar las variables ms significativas para
cada topologa.

IRC - JVR, RCG - 30

Prediccin
Para la estimacin de variables cuantitativas, los mtodos ms empleados son:
Funciones de base radial

Pueden procesar variables cuantitativas y cualitativas a la vez.


Detecta el nmero de centroides ptimo, predefiniendo el nmero mximo de stos
y el nmero mnimo de registros asignados a cada centro.
Funciona especialmente bien cuando la estructura de los datos tiende a agruparse
en conjuntos, ya que implementa cierto tipo de segmentacin.

Prediccin neuronal

Basada en redes neuronales de propagacin hacia atrs.


Detecta de forma automtica la topologa ms adecuada para cada problema,
aunque permite especificar una concreta.
Permite predecir datos en forma de series temporales.
Permite implementar regresin logstica.

IRC - JVR, RCG - 31

16

Inteligencia en Redes de Comunicaciones

Anlisis de asociaciones
Los anlisis de asociaciones y patrones secuenciales permiten extraer
informacin desconocida de los hbitos de compra:
Anlisis de asociaciones
Detecta elementos en una transaccin que implican la presencia de otros elementos
en sta misma.
Expresa las afinidades entre elementos en forma de reglas de asociacin X Y,
facilitando una serie de mtricas como el soporte y confianza.

Patrones secuenciales
Detectan patrones entre transacciones, lo que permite optimizar las ventas a lo largo
del tiempo

Anlisis de similitud en series temporales


Detecta todas las ocurrencias de secuencias similares en una coleccin de series
temporales.

IRC - JVR, RCG - 32

Equipo de trabajo
Para lograr un resultado ptimo en un proyecto de minera de datos,
el equipo de trabajo debe incluir:
expertos en manipulacin de datos
expertos en inteligencia artificial y en algoritmos de extraccin de
conocimiento
conocedores del dominio de aplicacin o con habilidades para
comunicarse con los expertos
analistas de negocio
Query &
reporting

Datawarehouse

Minera de datos

Herramienta de decisin

Bases de datos
Ingeniera de datos

Usuario de negocio

Analista de negocio

Administrador de BD

IRC - JVR, RCG - 33

17

Inteligencia en Redes de Comunicaciones

Esfuerzo requerido

IRC - JVR, RCG - 34

Submodelos
En la mayora de las ocasiones, un nico modelo no
sirve para representar el sistema completo de manera
fiable
Lo habitual es aplicar la tcnica de divide y vencers y
construir submodelos que cubren aspectos parciales del
sistema
Estos submodelos en conjunto resultan ms precisos o, al
menos, acotan de forma ms precisa el error en los aspectos
que cubren
Para realizar la divisin en submodelos, se suele aplicar
segmentacin (clustering) y luego se construye un modelo de
prediccin para cada uno de los grupos encontrados

IRC - JVR, RCG - 35

18

Inteligencia en Redes de Comunicaciones

Segmentacin + Prediccin
Matriz de datos

Matrices de Minera

Conjunto Entrenamiento
ID Hogar
V. Hogar
ID Hogar
N Miembros Provincia
12345677
9912341234

CodPostal

ID HOGAR V. Hogar
ID Hogar
Antigedad
12345677
9912341234

Zona Buzoneo

V. Pedido
VP012001

V. Tienda
VDZ1990

VDJ2000

Modelo de
segmentacin

V. Objetivo
VDX012001Abandona Telepizza
1
1

0
0
0

Toda la Poblacin

Conjunto Entrenamiento
ID HOGAR V. Hogar
ID Hogar
Antigedad
12345677
9912341234

Modelo de
segmentacin

Para cada
grupo

V. Pedido
VP012001

V. Tienda
VDZ1990

VDJ2000

V. Objetivo
VDX012001Abandona Telepizza
1
1

0
0
0

Conjunto Test/Prueba
ID HOGAR V. Hogar
ID Hogar
Antigedad
12345677
9912341234

V. Pedido
VP012001

V. Tienda
VDZ1990

VDJ2000

V. Objetivo
VDX012001Abandona Telepizza
1
1

0
0
0

(m7,r1)
good

(m3,r2)

average

bad

Modelo
prediccin
grupo N
IRC - JVR, RCG - 36

19

S-ar putea să vă placă și