Sunteți pe pagina 1din 41

Minera de Datos

Universidad Politcnica de Puebla UPP

JESS ANTONIO GONZLEZ BERNAL

Minera de Datos
Evolucin de la Tecnologa BD
1960s y antes C Creacin eac de las as BD e en a archivos c vos p primitivos t vos 1970s hasta principios de los 1980s BD Jerrquicas y de Red BD Relacionales Herramientas de modelado de datos (Entidad-Relacin) Indexado y tcnicas de organizacin (B-trees, Hashing) Lenguajes de queries SQL, etc. Interfaces de usuario y reportes p de q queries Procesamiento y optimizacin Manejo transacciones (recuperacin, control concurrencia) OLTP (On Line Transaction Processing)

Minera de Datos
Evolucin de la Tecnologa BD
1980s (Mediados al presente) Sistemas de BD Avanzados Modelos de datos avanzados: Extended-Relational, OO, , Object-Relational, j , Deductivo Orientados a aplicaciones Espaciales, temporales, multimedia, activos, cientificos bases de conocimiento cientificos,

Minera de Datos
Evolucin de la Tecnologa BD
1980s (Finales al presente) Data warehouse y OLAP (On Line Analytical Processing) Minera de datos y descubrimiento de conocimiento 1990s 1990 (al ( l presente) t ) Sistemas basados en XML Web mining 2000 (a la fecha) GENERACIN DE NUEVA INFORMACIN INTEGRADOS

SISTEMAS

DE

Minera de Datos
Qu es la minera de datos?
La tarea no trivial de extraer informacin implcita, previamente desconocida y potencialmente i l il de til d bases b d datos de d (Frawley (F l et. al. 1992).

Minera de Datos
Qu es la minera de datos?
El proceso de descubrir conocimiento interesante de grandes cantidades de datos almacenadas en b bases d datos, de d d warehouses data h u otro repositorio i i de informacin (Jiawei Han, Micheline Kamber 2001). 2001)

Minera de Datos
Qu es la minera de datos?
Sinnimos: - Descubrimiento de Conocimiento en Bases de Datos - Minera Mi de d conocimiento i i d bases de b d datos de d - Extraccin de conocimiento - Anlisis de datos y patrones - Arqueologa de datos
7

Minera de Datos
Cmo naci la minera de datos?
DATOS DATOS

Automatizacin de aplicaciones Uso de lectores de cdigos di de d barras b

Necesidad de nuevas herramientas para analizar la informacin


DATOS DATOS

Almacenaje masivo de informacin

Las herramientas L h i t estndares t d como la estadstica y los queries a bases de datos no son suficientes

La minera de datos es parte del proceso de descubrimiento de conocimiento en bases de datos

Minera de Datos
Proceso de Descubrimiento de Conocimiento en Bases de Datos (KDD Process)
DOMINIO ESPECFICO RECOLECCIN DE INFORMACIN DATOS SELECCIN PREPARACIN DE DATOS

CONJUNTO DE DATOS

DATOS LIMPIOS Y PREPARADOS TRANSFORMACIN DE DATOS

APLICACIN DEL CONOCIMIENTO

EVALUACIN/ INTERPRETACIN DE PATRONES CONOCIMIENTO

MINERA DE DATOS

PATRONES ENCONTRADOS

INFORMACIN FORMATEADA Y ESTRUCTURADA

Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Interfaz Grfica

Evaluacin de Patrones Base de Conocimiento Algoritmo de M.D.

Servidor de B.D. o Data Warehouse Limpieza de datos Integracin de datos Filtrado

(Han and Kamber 2001)

Database

10

Data warehouse

Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Base de datos Puede ser: base de datos, datawarehouse, hoja de clculo u otra clase de repositorio A estos datos se le aplican tcnicas de limpieza e integracin Servidor de bases de datos Utilizado para obtener la informacin relevante segn el proceso de minera de datos

11

Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Base de conocimiento Conocimiento del dominio para guiar la bsqueda, evaluar que tan interesantes son los patrones Creencias de los datos (del usuario: lo que se espera de los datos para descubrir comportamientos t i t inesperados) i d ) Umbrales de evaluacin Conocimiento previo Meta-datos

12

Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Algoritmo g de minera de datos Modular para realizar distintos tipos de anlisis Caracterizacin Asociacin Clasificacin Anlisis A li i de d grupos Evolucin (en espacio o tiempo) Anlisis de desviaciones
13

Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Mdulo de Evaluacin de Patrones Medidas de que tan interesante es un patrn Interacta con el algoritmo de M.D. para guiar la bsqueda hacia patrones interesantes

14

Minera de Datos
Arquitectura de un Sistema Tpico de Minera de Datos
Interfaz g grfica Interaccin con el usuario Eleccin de la tarea de minera de datos Proveer informacin para enfocar la bsqueda Ayudar a evaluar los patrones Explorar E l l patrones los t encontrados t d y la l base b d de datos original Visualizar los patrones en distintas formas
15

Minera de Datos Minera de datos


Utiliza mtodos basados en: Tecnologa de Bases de Datos Estadstica Aprendizaje automtico Cmputo de alto rendimiento Reconocimiento de patrones Redes Neuronales Visualizacin de Datos Recuperacin de Informacin Procesamiento de imgenes y seales Anlisis de Datos Espaciales
16

Minera de Datos Perspectiva de Bases de Datos


nfasis

en Eficiencia y Escalabilidad para grandes d bases b d datos de d t Algoritmo escalable


Tiempo de ejecucin crece linealmente en proporcin al l tamao de d la l base b d datos de d d d dados l los recursos disponibles de memoria principal y espacio en disco

17

Minera de Datos Repositorios de Datos


Base de Datos Relacional DBMS Lenguajes: (i.e., DDL, DML, DQL, etc.) Tablas, atributos, tuplas Modelo E-R ER Normalizacin Acceso a datos Queries

Anlisis de datos
Tendencias Patrones Desviaciones
18

Minera de Datos Repositorios de Datos


Data Warehouse Repositorio de informacin recopilada de varias fuentes bajo un esquema unificado y usualmente reside en un solo sitio Construccin Limpieza de datos Transformacin de datos Integracin de datos Carga g de los datos Actualizacin peridica de los datos Datos organizados sobre temas de alto nivel (cliente, proveedor, actividad, parte)
19

Minera de Datos Repositorios de Datos


Data Warehouse (continuacin...) Datos desde una perspectiva histrica (resmenes de varios aos) Modelado M d l d sobre b una estructura multidimensional l idi i l Cubos de datos Anlisis de Datos OLAP Utiliza informacin previa sobre el dominio para presentar los datos a diferentes niveles de abstraccin (drill-down (drill down, roll roll-up up para ver diferentes niveles de agrupacin de informacin Se requiere ms anlisis de datos

20

Minera de Datos Repositorios de Datos


Base de Datos Transaccional Cada registro es una transaccin Nmero N d transaccin de i y lista li de d elementos l d la de l transaccin i Anlisis de datos Qu elementos se venden bien juntos? Market Market basket data analysis analysis

21

Minera de Datos Repositorios de Datos Avanzados


Bases de datos Orientadas a Objetos

Bases de datos Objeto-Relacionales Bases de datos Espaciales Bases de datos Temporales y de Series de Tiempo Bases de datos de Texto Bases de datos Multimedia Bases de datos Heterogneas El World Wide Web

22

Minera de Datos

Para qu usamos la minera de datos? Predecir Utilizar algunas variables o campos en una base de datos para predecir valores desconocidos o futuros. Describir Encontrar E t patrones t que describan d ib l la informacin (interpretables por el hombre)
23

Minera de Datos

Tareas de la minera de datos



24

Clasificacin Regresin Agrupamiento g p o clustering g( (encontrar clases) ) Sumarizacin (describir clases o conceptos) Modelos de dependencias Deteccin de cambios y desviaciones Asociacin A li i de Anlisis d Evolucin E l i (cambios ( bi en el l tiempo) ti )

Minera de Datos

Clasificacin de Sistemas de M.D.


Tipos de bases de datos sobre los que se hace M.D. MD (Datawarehouse, transaccional, relacional, OO, etc.) Tipo de conocimiento minado (caracterizacin, di i i i discriminacin, asociacin, i i clasificacin, l ifi i agrupamiento, i etc.) Tipos p de tcnicas utilizadas ( (aprendizaje p j automtico, estadstica, visualizacin, ...) Adaptaciones para Aplicaciones (DNA, e-mail, etc...)
25

Minera de Datos

Componentes de un Algoritmo de Minera de Datos


Modelo de representacin p Modelo de evaluacin Mtodo de bsqueda

26

Minera de Datos
Componentes de un Algoritmo de Minera de Datos Modelo de Representacin
Lenguaje para describir los patrones rbol de decisiones Lgica g de p primer g grado Grfico

27

Minera de Datos
Componentes de un Algoritmo de Minera de Datos Modelo de Evaluacin
Caractersticas del patrn encontrado til? Novedoso? Entendible? Efectivo Ef ti para predecir? d i? Medidas objetivas? Soporte Confianza

28

Minera de Datos
Componentes de un Algoritmo de Minera de Datos Mtodo de Bsqueda
Bsqueda de parmetros Para optimizar p el modelo de evaluacin Parmetros de redes neuronales Parmetro de espacio en beam search h Bsqueda del modelo Itera sobre la bsqueda de parmetros y elige el mejor resultado

29

Minera de Datos
Mtodos de Minera de Datos
rboles de decisin y reglas ID3, ID3 C4.5 C4 5 Regresin no lineal y mtodos de clasificacin Redes Neuronales (Backprogagation) Mtodos Mt d basados b d en ejemplos j l Mtodo del vecino ms cercano Modelos grficos de dependencias probabilsticas Redes Bayesianas Modelos de aprendizaje relacional (ILP) FOIL Progol FOIL, Asociaciones Agrawal

30

Minera de Datos
Q ines son los usuarios? Quines s arios?
Negocios --> > Para construir modelos a partir de grandes bases de datos Informacin transaccional Datawarehouses D t h Consumidores --> Para filtrar informacin de grandes bases de datos Por ejemplo del Web Investigadores --> Para analizar grandes bases de datos
31

Minera de Datos
Aplicaciones de Minera de Datos
Astronoma Clasificacin de estrellas y galaxias Anlisis de Mercado y Administracin Perfil de clientes Qu tipos de clientes compran que productos? Clasificacin o Agrupamiento (clustering) Qu productor se compran normalmente juntos? Reglas de asociacin Descubrir las relaciones entre caractersticas personales y el tipo de productos que se compran Descubrir correlaciones entre compras

32

Minera de Datos
Ms Aplicaciones p de Minera de Datos
Finanzas Compaas de inversin hacen transacciones en la bolsa d valores de l b d basndose en resultados lt d de d Minera Mi de d Datos D t Prediccin de flujo de efectivo Deteccin de fraude Utilizan bases de datos histricas para crear modelos de comportamiento fraudoliento y utilizar Minera de Datos para identificar nuevos fraudes. fraudes Seguros de autos Seguros mdicos Lavado L d de d dinero di Telefnicos Tratamiento mdico inapropiado

33

Minera de Datos
Aun Ms Aplicaciones p de Minera de Datos
Deportes Para interpretar las estadsticas Web Analizar logs en general p de los usuarios de un sitio Analizar el comportamiento E-mail Clasificar e-mail y repartirlo al departamento adecuado Personalizacin Hacer recomendaciones de acuerdo a caractersticas conocidas del usuario Recursos humanos h Ayudar a seleccionar empleados

34

Minera de Datos
Todava Ms Aplicaciones de Minera de Datos
Bancos Analizar clientes para otorgar crdito Medicina Aplicaciones que buscan nuevos medicamentos Anlisis de secuencias de genes Predecir si un compuesto causa cncer Anlisis de secuencias de protenas

35

Minera de Datos
Ejemplo
Ser un buen da para jugar tenis?
Vista Soleado Soleado Nublado Lluvioso Lluvioso Lluvioso Nublado S l d Soleado Soleado Lluvioso Soleado Nublado Temperatura Alta Alta Alta Media Baja Baja Baja M di Media Baja Media Media Media Alta Media Humedad Alta Alta Alta Alta Normal Normal Normal Alt Alta Normal Normal Normal Alta Normal Alta Viento Falso Verdadero Falso Falso Falso Verdadero Verdadero F l Falso Falso Falso Verdadero Verdadero Falso Verdadero Jugar? No No Si Si Si No Si N No Si Si Si Si Si No

36

Nublado Lluvioso

Minera de Datos
Ejemplo
4 atributos Vista: soleado, nublado o lluvioso Temperatura: alta, media o baja Humedad: H d d alta l o normal l Viento: falso o verdadero Espacio p de bsqueda q 36 posibles combinaciones (3x3x2x2=36)

37

Minera de Datos
Ejemplo
Reglas (Lista de decisiones) Si Vista=Soleado y Humedad=Alta Entonces Jugar=No Si Vista=Lluviosa y Viento=Verdadero Entonces Jugar=no Si Vista=Nublado Entonces Jugar=Si Si Humedad=Normal Entonces Jugar=Si g Si Ninguna de las otras reglas aplica Entonces Jugar=Si

38

Minera de Datos
Aprendizaje Automtico o Minera de Datos?
Dos comunidades Bases de datos Aprendizaje automtico Manejo M j de d grandes d cantidades id d de d datos d Cuntos datos se necesitan para hacer minera de datos? PAC Learning g Algoritmos eficientes y escalables

39

Minera de Datos
Retos en Minera de Datos
Metodologa de MD e interaccin con el usuario MD para diferentes tipos de conocimiento en bases de datos MD interactiva i i de d conocimiento i i a mltiples l i l niveles i l de d abstraccin Incorporacin p de conocimiento p previo Lenguajes de consultas de MD y MD ad hoc Presentacin y visualizacin de los resultados de MD Manejo de datos ruidosos o incompletos Evaluacin de patrones

40

Minera de Datos
Retos en Minera de Datos
Desempeo Eficiencia y escalabilidad de los algoritmos de MD Algoritmos de MD paralelos, distribuidos e incrementales Diversidad de los tipos de datos Manejo j de tipos p de datos relacionales y complejos p j MD de informacin de bases de datos heterogneas y sistemas de informacin global
41

S-ar putea să vă placă și