Documente Academic
Documente Profesional
Documente Cultură
Minera de Datos
Evolucin de la Tecnologa BD
1960s y antes C Creacin eac de las as BD e en a archivos c vos p primitivos t vos 1970s hasta principios de los 1980s BD Jerrquicas y de Red BD Relacionales Herramientas de modelado de datos (Entidad-Relacin) Indexado y tcnicas de organizacin (B-trees, Hashing) Lenguajes de queries SQL, etc. Interfaces de usuario y reportes p de q queries Procesamiento y optimizacin Manejo transacciones (recuperacin, control concurrencia) OLTP (On Line Transaction Processing)
Minera de Datos
Evolucin de la Tecnologa BD
1980s (Mediados al presente) Sistemas de BD Avanzados Modelos de datos avanzados: Extended-Relational, OO, , Object-Relational, j , Deductivo Orientados a aplicaciones Espaciales, temporales, multimedia, activos, cientificos bases de conocimiento cientificos,
Minera de Datos
Evolucin de la Tecnologa BD
1980s (Finales al presente) Data warehouse y OLAP (On Line Analytical Processing) Minera de datos y descubrimiento de conocimiento 1990s 1990 (al ( l presente) t ) Sistemas basados en XML Web mining 2000 (a la fecha) GENERACIN DE NUEVA INFORMACIN INTEGRADOS
SISTEMAS
DE
Minera de Datos
Qu es la minera de datos?
La tarea no trivial de extraer informacin implcita, previamente desconocida y potencialmente i l il de til d bases b d datos de d (Frawley (F l et. al. 1992).
Minera de Datos
Qu es la minera de datos?
El proceso de descubrir conocimiento interesante de grandes cantidades de datos almacenadas en b bases d datos, de d d warehouses data h u otro repositorio i i de informacin (Jiawei Han, Micheline Kamber 2001). 2001)
Minera de Datos
Qu es la minera de datos?
Sinnimos: - Descubrimiento de Conocimiento en Bases de Datos - Minera Mi de d conocimiento i i d bases de b d datos de d - Extraccin de conocimiento - Anlisis de datos y patrones - Arqueologa de datos
7
Minera de Datos
Cmo naci la minera de datos?
DATOS DATOS
Las herramientas L h i t estndares t d como la estadstica y los queries a bases de datos no son suficientes
Minera de Datos
Proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD Process)
DOMINIO ESPECFICO RECOLECCIN DE INFORMACIN DATOS SELECCIN PREPARACIN DE DATOS
CONJUNTO DE DATOS
MINERA DE DATOS
PATRONES ENCONTRADOS
Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Interfaz Grfica
Database
10
Data warehouse
Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Base de datos Puede ser: base de datos, datawarehouse, hoja de clculo u otra clase de repositorio A estos datos se le aplican tcnicas de limpieza e integracin Servidor de bases de datos Utilizado para obtener la informacin relevante segn el proceso de minera de datos
11
Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Base de conocimiento Conocimiento del dominio para guiar la bsqueda, evaluar que tan interesantes son los patrones Creencias de los datos (del usuario: lo que se espera de los datos para descubrir comportamientos t i t inesperados) i d ) Umbrales de evaluacin Conocimiento previo Meta-datos
12
Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Algoritmo g de minera de datos Modular para realizar distintos tipos de anlisis Caracterizacin Asociacin Clasificacin Anlisis A li i de d grupos Evolucin (en espacio o tiempo) Anlisis de desviaciones
13
Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Mdulo de Evaluacin de Patrones Medidas de que tan interesante es un patrn Interacta con el algoritmo de M.D. para guiar la bsqueda hacia patrones interesantes
14
Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Interfaz g grfica Interaccin con el usuario Eleccin de la tarea de minera de datos Proveer informacin para enfocar la bsqueda Ayudar a evaluar los patrones Explorar E l l patrones los t encontrados t d y la l base b d de datos original Visualizar los patrones en distintas formas
15
17
Anlisis de datos
Tendencias Patrones Desviaciones
18
20
21
Bases de datos Objeto-Relacionales Bases de datos Espaciales Bases de datos Temporales y de Series de Tiempo Bases de datos de Texto Bases de datos Multimedia Bases de datos Heterogneas El World Wide Web
22
Minera de Datos
Para qu usamos la minera de datos? Predecir Utilizar algunas variables o campos en una base de datos para predecir valores desconocidos o futuros. Describir Encontrar E t patrones t que describan d ib l la informacin (interpretables por el hombre)
23
Minera de Datos
Clasificacin Regresin Agrupamiento g p o clustering g( (encontrar clases) ) Sumarizacin (describir clases o conceptos) Modelos de dependencias Deteccin de cambios y desviaciones Asociacin A li i de Anlisis d Evolucin E l i (cambios ( bi en el l tiempo) ti )
Minera de Datos
Minera de Datos
26
Minera de Datos
Componentes de un Algoritmo de Minera de Datos Modelo de Representacin
Lenguaje para describir los patrones rbol de decisiones Lgica g de p primer g grado Grfico
27
Minera de Datos
Componentes de un Algoritmo de Minera de Datos Modelo de Evaluacin
Caractersticas del patrn encontrado til? Novedoso? Entendible? Efectivo Ef ti para predecir? d i? Medidas objetivas? Soporte Confianza
28
Minera de Datos
Componentes de un Algoritmo de Minera de Datos Mtodo de Bsqueda
Bsqueda de parmetros Para optimizar p el modelo de evaluacin Parmetros de redes neuronales Parmetro de espacio en beam search h Bsqueda del modelo Itera sobre la bsqueda de parmetros y elige el mejor resultado
29
Minera de Datos
Mtodos de Minera de Datos
rboles de decisin y reglas ID3, ID3 C4.5 C4 5 Regresin no lineal y mtodos de clasificacin Redes Neuronales (Backprogagation) Mtodos Mt d basados b d en ejemplos j l Mtodo del vecino ms cercano Modelos grficos de dependencias probabilsticas Redes Bayesianas Modelos de aprendizaje relacional (ILP) FOIL Progol FOIL, Asociaciones Agrawal
30
Minera de Datos
Q ines son los usuarios? Quines s arios?
Negocios --> > Para construir modelos a partir de grandes bases de datos Informacin transaccional Datawarehouses D t h Consumidores --> Para filtrar informacin de grandes bases de datos Por ejemplo del Web Investigadores --> Para analizar grandes bases de datos
31
Minera de Datos
Aplicaciones de Minera de Datos
Astronoma Clasificacin de estrellas y galaxias Anlisis de Mercado y Administracin Perfil de clientes Qu tipos de clientes compran que productos? Clasificacin o Agrupamiento (clustering) Qu productor se compran normalmente juntos? Reglas de asociacin Descubrir las relaciones entre caractersticas personales y el tipo de productos que se compran Descubrir correlaciones entre compras
32
Minera de Datos
Ms Aplicaciones p de Minera de Datos
Finanzas Compaas de inversin hacen transacciones en la bolsa d valores de l b d basndose en resultados lt d de d Minera Mi de d Datos D t Prediccin de flujo de efectivo Deteccin de fraude Utilizan bases de datos histricas para crear modelos de comportamiento fraudoliento y utilizar Minera de Datos para identificar nuevos fraudes. fraudes Seguros de autos Seguros mdicos Lavado L d de d dinero di Telefnicos Tratamiento mdico inapropiado
33
Minera de Datos
Aun Ms Aplicaciones p de Minera de Datos
Deportes Para interpretar las estadsticas Web Analizar logs en general p de los usuarios de un sitio Analizar el comportamiento E-mail Clasificar e-mail y repartirlo al departamento adecuado Personalizacin Hacer recomendaciones de acuerdo a caractersticas conocidas del usuario Recursos humanos h Ayudar a seleccionar empleados
34
Minera de Datos
Todava Ms Aplicaciones de Minera de Datos
Bancos Analizar clientes para otorgar crdito Medicina Aplicaciones que buscan nuevos medicamentos Anlisis de secuencias de genes Predecir si un compuesto causa cncer Anlisis de secuencias de protenas
35
Minera de Datos
Ejemplo
Ser un buen da para jugar tenis?
Vista Soleado Soleado Nublado Lluvioso Lluvioso Lluvioso Nublado S l d Soleado Soleado Lluvioso Soleado Nublado Temperatura Alta Alta Alta Media Baja Baja Baja M di Media Baja Media Media Media Alta Media Humedad Alta Alta Alta Alta Normal Normal Normal Alt Alta Normal Normal Normal Alta Normal Alta Viento Falso Verdadero Falso Falso Falso Verdadero Verdadero F l Falso Falso Falso Verdadero Verdadero Falso Verdadero Jugar? No No Si Si Si No Si N No Si Si Si Si Si No
36
Nublado Lluvioso
Minera de Datos
Ejemplo
4 atributos Vista: soleado, nublado o lluvioso Temperatura: alta, media o baja Humedad: H d d alta l o normal l Viento: falso o verdadero Espacio p de bsqueda q 36 posibles combinaciones (3x3x2x2=36)
37
Minera de Datos
Ejemplo
Reglas (Lista de decisiones) Si Vista=Soleado y Humedad=Alta Entonces Jugar=No Si Vista=Lluviosa y Viento=Verdadero Entonces Jugar=no Si Vista=Nublado Entonces Jugar=Si Si Humedad=Normal Entonces Jugar=Si g Si Ninguna de las otras reglas aplica Entonces Jugar=Si
38
Minera de Datos
Aprendizaje Automtico o Minera de Datos?
Dos comunidades Bases de datos Aprendizaje automtico Manejo M j de d grandes d cantidades id d de d datos d Cuntos datos se necesitan para hacer minera de datos? PAC Learning g Algoritmos eficientes y escalables
39
Minera de Datos
Retos en Minera de Datos
Metodologa de MD e interaccin con el usuario MD para diferentes tipos de conocimiento en bases de datos MD interactiva i i de d conocimiento i i a mltiples l i l niveles i l de d abstraccin Incorporacin p de conocimiento p previo Lenguajes de consultas de MD y MD ad hoc Presentacin y visualizacin de los resultados de MD Manejo de datos ruidosos o incompletos Evaluacin de patrones
40
Minera de Datos
Retos en Minera de Datos
Desempeo Eficiencia y escalabilidad de los algoritmos de MD Algoritmos de MD paralelos, distribuidos e incrementales Diversidad de los tipos de datos Manejo j de tipos p de datos relacionales y complejos p j MD de informacin de bases de datos heterogneas y sistemas de informacin global
41