Sunteți pe pagina 1din 31

Aprendizaje de Máquina,

Minería de Datos, y
Descubrimiento de
Conocimiento
Prof. Dr. César A. Beltrán Castañón
cesarbc@gmail.com
www.ime.usp.br/~cbeltran
Contenido del Curso
 Aprendizaje de Máquina
 input, representación, árboles de decisión
 Weka
 Ambiente para aprendizaje de máquina
 Minería de Datos
 asociaciones, detección de desviaciones, clustering, visualización
 Casos de Estudio
 marketing dirigido, microarrays genómicos, reconocimiento de
formas biológicas
 Minería de Datos, Privacidad y Seguridad

2
Contenido de la lección

Introducción: Flujo de
información
Minería de Datos: Ejemplos de
Aplicación
Minería de Datos & Descubrimiento de
Conocimiento
Minería de Datos: Tareas
3
Tendencias en el manejo de
flujo de información

 Más información están


siendo generados:
 Banca, telecomunicaciones,
otras transacciones
empresariales ...
 Información científica:
astronomía, biología, etc
 Web, texto, y comercio
electrónico

4
Ejemplos de gran información

 Europe's Very Long Baseline Interferometry


(VLBI) tiene 16 telescopios, cada uno de ellos
produce 1 Gigabit/second de información
astronómica
 Almacenamiento y análisis son un gran problema

 AT&T maneja billones de llamadas por día


 Demasiada información, toda ella no puede ser
almacenada – el análisis tiene que ser hecho
instantáneamente “on the fly” sobre el flujo de
información.
5
Grandes bases de datos del 2003

 Bases de datos comerciales:


 Winter Corp. 2003 Survey: France Telecom tiene la más
grande BD para soporte a la decisión, ~30TB; AT&T ~
26 TB
 Web
 Alexa, archivo internet: 7 años de información, 500 TB
 Google busca en billones de páginas, muchos cientos
de TB
 IBM WebFountain, 160 TB (2003)
 Archivo Internet (www.archive.org),~ 300 TB
6
De terabytes a exabytes a …

 UC Berkeley estimativa 2003: 5 exabytes (5


million terabytes) de nueva información fue
creada en 2002.
www.sims.berkeley.edu/research/projects/how-much-info-2003/

 US produce ~40% de la nueva información


mundial
 Estimado 2006: 161 exabytes (estudio IDC)
 www.usatoday.com/tech/news/2007-03-05-data_N.htm

 Proyección 2010: 988 exabytes


7
Grandes bases de datos del 2005
Winter Corp. 2005 Commercial
Database Survey:
1. Max Planck Inst. for
Meteorology , 222 TB
2. Yahoo ~ 100 TB (Largest Data
Warehouse)
3. AT&T ~ 94 TB
www.wintercorp.com/VLDB/2005_TopTen_Survey/TopTenWinners_2005.asp

8
Crecimiento de la Información

En 2 años, el tamaño de las mayores bases de datos TRIPLICÓ!

9
Tasa de Crecimiento de la Información

 Dos veces más de información fue creada el 2002


en relación a 1999 (~30% tasa de crecimiento)
 Otras estimaciones indican que esta tasa de
crecimiento podría ser mayor
 Muy poca de esa información será buscada por
una persona

Descubrimiento de Conocimiento es NECESARIO


para usar y darle sentido a la información.

10
Contenido de la lección

Introducción: Flujo de Información


Minería de Datos: Ejemplos de
Aplicación
Minería de Datos & Descubrimiento de
Conocimiento
Minería de Datos: Tareas

11
Aprendizaje de Máquina / Minería de
Datos: Áreas de aplicación
 Ciencia
 astronomía, bioinformática, descubrimiento de drogas, …
 Negocios
 CRM (Customer Relationship management), detección de fraudes,
comercio electrónico (e-commerce), manufactura,
deporte/entretenimiento, telecomunicaciones, marketing dirigido,
cuidado de la salud, …
 Web:
 motores de búsqueda, publicidad, minería en la web y texto, …
 Gobierno
 seguimiento (?), detección de crímenes, fraudes, …

12
Áreas de Aplicación

¿Cuáles cree que sean las más


importantes y extendidas aplicaciones
de negocios de Minería de Datos?

13
Minería de Datos en el Modelamiento
de Clientes
 Tareas:
 Predicción de caidas del mercado
 Marketing dirigido:
 Ventas cruzadas, obtención
 de clientes
 Riesgos de crédito
 Detección de fraudes
 Industrias
 banca, telecomunicaciones, ventas directas, …

14
Comercio electrónico

 Una persona compra un libro (producto) en


Amazon.com

Cuál es la tarea?

15
Comercio electrónico – Caso de
estudio
 Tarea: Recomendó otros libros (productos) que
esta persona gustaría comprar
 Amazon realiza la selección de acuerdo a libros
comprados:
 Clientes que compraron “Advances in Knowledge
Discovery and Data Mining”, también compraron
“Data Mining: Practical Machine Learning Tools
and Techniques with Java Implementations”

 Programa de recomendación tiene gran éxito

16
Microarrays Genómicos – Caso de
Estudio

Dada la información de microarray de un número


de ejemplos (pacientes), es posible
 Diagnosticar con precisión la enfermedad?
 Predecir las consecuencias de un determnado
tratamiento?
 Recomendar el mejor tratamiento?

17
Ejemplo: información ALL/AML
 38 casos de entrenamiento, 34 prueba, ~ 7,000
genes
 2 Clases: Acute Lymphoblastic Leukemia (ALL) vs
Acute Myeloid Leukemia (AML)
 Usar datos de entrenamiento para contruir el
modelo de diagnóstico

ALL AML

Resultados con los datos de prueba:


33/34 correctos, 1 elemento mal clasificado
18
Seguridad y detección de fraudes –
Caso de Estudio
 Detección de tarjetas de crédito
fraudulentas
 Detección de lavado de dinero
 FAIS (Tesoro Público de USA)

 Fraude de Seguridad
 Sistema KDD de NASDAQ

 Fraude en telefonía
 AT&T, Bell Atlantic, British Telecom/MCI

 Bio-terrorismo detección en
Olimpiadas 2002 en Salt Lake
19
Minería de Datos y Privacidad

 En 2006, NSA (National Security Agency) reportó


haber minerado años de información de llamadas,
con el fin de identificar redes terroristas
 El análisis de red social tiene un potencial para
encontrar redes
 Invasión de la privacidad – creería Ud. si su
información de llamadas está en una base de
datos del gobierno?

20
Contenido de la lección

Introducción: Flujo de información


Minería de Datos: Ejemplos de
aplicación
Minería de Datos & Descubrimiento
de Conocimiento
Minería de Datos: Tareas

22
Definición de Descubrimiento de
Conocimiento
Descubrimiento de Conocimiento en
Información es el proceso no trivial de
identificación
 válida
 nueva
 potencialmente útil
 Y finalmente patrones entendibles en la
información.
Ref. Advances in Knowledge Discovery and Data
Mining, Fayyad, Piatetsky-Shapiro, Smyth, and
Uthurusamy, (Capítulo 1), AAAI/MIT Press 1996
23
Áreas Relacionadas

Aprendizaje Visualización
de Máquina
Minería de Datos y
Descubrimiento de
Conocimiento

Estadística Base de Datos

24
Estadística, Aprendizaje de Máquina y
Minería de Datos
 Estadística:
 más base teórica
 más centrado en prueba de hipótesis
 Apendizaje de Máquina
 más heurístico
 centrado en el mejoramiento de la performance de un agente de
aprendizaje
 también buscar por aprendizaje y robótica en tiempo real – areas
que no son parte de minería de datos
 Minería de Datos y Descubrimiento de Conocimiento
 integra teoría y heurística
 centrado en el proceso entero de descubrimiento de conocimiento,
incluyendo limpieza de datos, aprendizaje, integración y visualización
de resultados
 Distinciones son difusas
25
witten&eibe
Flujo del Proceso de Descubrimiento de
Conocimiento, de acuerdo a CRISP-DM

vea
Monitoring www.crisp-dm.org
para más
información

26
Notas Históricas:
Muchos Nombres de Minería de Datos
 Pesca de datos, Succión de datos: 1960-
 Usado por Estadístico (como un mal nombre)

 Minería de Datos (Data Mining) :1990 --


 usado por BD, negocios
 en 2003 – mala imagen debido a TIA

 Descubrimiento de Conocimiento en Base de Datos (1989-)


 usado en IA, Comunidad de Aprendizaje de Máquina
 también Arqueología de Datos, Cosecha de Información,
Descubrimiento de Información, Extracción de Conocimiento, ...

Actualmente: Minería de Datos y Descubrimiento de


Conocimiento son usados indistintamente
27
Contenido de la lección

Introducción: Flujo de Información


Minería de Datos: Ejemplos de
Aplicación
Minería de Datos & Descubrimiento de
Conocimiento
Minería de Datos: Tareas

28
Mayores tareas en Minería de Datos
 Clasificación: predicción de la clase de un item
 Clustering: encontrar clusters en datos
 Asociaciones ej. A,B & C ocurren frecuentemente
 Visualización: para facilitar el descubrimiento
 Sumarización: describiendo un grupo
 Detección de Desviación: encontrando cambios
 Estimación: predicción de valores continuos
 Análisis de Link: encontrando relaciones
 … 29
Tareas de Minería de Datos:
Clasificación
Aprender un método para predecir la clase de un
elemento a partir de instancias pre-definidas
(clasificadas)
Varios enfoques:
Estadístico,
Árboles de Decisión,
Redes Neuronales,
...

30
Tareas de Minería de Datos:
Clustering
Encontrar el “natural” agrupamiento
de instancias dada información no
identificada

31
Resumen:

 La tecnología tiende a guiar el flujo de


información
 minería de datos es necesaria para dar sentido a la
información
 Minería de Datos tiene varias aplicaciones,
exitosas y no
 Proceso de Descubrimiento de Información
 Tareas de la Minería de Datos
 clasificación, clustering, …

32

S-ar putea să vă placă și