Documente Academic
Documente Profesional
Documente Cultură
Minería de Datos, y
Descubrimiento de
Conocimiento
Prof. Dr. César A. Beltrán Castañón
cesarbc@gmail.com
www.ime.usp.br/~cbeltran
Contenido del Curso
Aprendizaje de Máquina
input, representación, árboles de decisión
Weka
Ambiente para aprendizaje de máquina
Minería de Datos
asociaciones, detección de desviaciones, clustering, visualización
Casos de Estudio
marketing dirigido, microarrays genómicos, reconocimiento de
formas biológicas
Minería de Datos, Privacidad y Seguridad
2
Contenido de la lección
Introducción: Flujo de
información
Minería de Datos: Ejemplos de
Aplicación
Minería de Datos & Descubrimiento de
Conocimiento
Minería de Datos: Tareas
3
Tendencias en el manejo de
flujo de información
4
Ejemplos de gran información
8
Crecimiento de la Información
9
Tasa de Crecimiento de la Información
10
Contenido de la lección
11
Aprendizaje de Máquina / Minería de
Datos: Áreas de aplicación
Ciencia
astronomía, bioinformática, descubrimiento de drogas, …
Negocios
CRM (Customer Relationship management), detección de fraudes,
comercio electrónico (e-commerce), manufactura,
deporte/entretenimiento, telecomunicaciones, marketing dirigido,
cuidado de la salud, …
Web:
motores de búsqueda, publicidad, minería en la web y texto, …
Gobierno
seguimiento (?), detección de crímenes, fraudes, …
12
Áreas de Aplicación
13
Minería de Datos en el Modelamiento
de Clientes
Tareas:
Predicción de caidas del mercado
Marketing dirigido:
Ventas cruzadas, obtención
de clientes
Riesgos de crédito
Detección de fraudes
Industrias
banca, telecomunicaciones, ventas directas, …
14
Comercio electrónico
Cuál es la tarea?
15
Comercio electrónico – Caso de
estudio
Tarea: Recomendó otros libros (productos) que
esta persona gustaría comprar
Amazon realiza la selección de acuerdo a libros
comprados:
Clientes que compraron “Advances in Knowledge
Discovery and Data Mining”, también compraron
“Data Mining: Practical Machine Learning Tools
and Techniques with Java Implementations”
16
Microarrays Genómicos – Caso de
Estudio
17
Ejemplo: información ALL/AML
38 casos de entrenamiento, 34 prueba, ~ 7,000
genes
2 Clases: Acute Lymphoblastic Leukemia (ALL) vs
Acute Myeloid Leukemia (AML)
Usar datos de entrenamiento para contruir el
modelo de diagnóstico
ALL AML
Fraude de Seguridad
Sistema KDD de NASDAQ
Fraude en telefonía
AT&T, Bell Atlantic, British Telecom/MCI
Bio-terrorismo detección en
Olimpiadas 2002 en Salt Lake
19
Minería de Datos y Privacidad
20
Contenido de la lección
22
Definición de Descubrimiento de
Conocimiento
Descubrimiento de Conocimiento en
Información es el proceso no trivial de
identificación
válida
nueva
potencialmente útil
Y finalmente patrones entendibles en la
información.
Ref. Advances in Knowledge Discovery and Data
Mining, Fayyad, Piatetsky-Shapiro, Smyth, and
Uthurusamy, (Capítulo 1), AAAI/MIT Press 1996
23
Áreas Relacionadas
Aprendizaje Visualización
de Máquina
Minería de Datos y
Descubrimiento de
Conocimiento
24
Estadística, Aprendizaje de Máquina y
Minería de Datos
Estadística:
más base teórica
más centrado en prueba de hipótesis
Apendizaje de Máquina
más heurístico
centrado en el mejoramiento de la performance de un agente de
aprendizaje
también buscar por aprendizaje y robótica en tiempo real – areas
que no son parte de minería de datos
Minería de Datos y Descubrimiento de Conocimiento
integra teoría y heurística
centrado en el proceso entero de descubrimiento de conocimiento,
incluyendo limpieza de datos, aprendizaje, integración y visualización
de resultados
Distinciones son difusas
25
witten&eibe
Flujo del Proceso de Descubrimiento de
Conocimiento, de acuerdo a CRISP-DM
vea
Monitoring www.crisp-dm.org
para más
información
26
Notas Históricas:
Muchos Nombres de Minería de Datos
Pesca de datos, Succión de datos: 1960-
Usado por Estadístico (como un mal nombre)
28
Mayores tareas en Minería de Datos
Clasificación: predicción de la clase de un item
Clustering: encontrar clusters en datos
Asociaciones ej. A,B & C ocurren frecuentemente
Visualización: para facilitar el descubrimiento
Sumarización: describiendo un grupo
Detección de Desviación: encontrando cambios
Estimación: predicción de valores continuos
Análisis de Link: encontrando relaciones
… 29
Tareas de Minería de Datos:
Clasificación
Aprender un método para predecir la clase de un
elemento a partir de instancias pre-definidas
(clasificadas)
Varios enfoques:
Estadístico,
Árboles de Decisión,
Redes Neuronales,
...
30
Tareas de Minería de Datos:
Clustering
Encontrar el “natural” agrupamiento
de instancias dada información no
identificada
31
Resumen:
32