Documente Academic
Documente Profesional
Documente Cultură
Introduccin
Integracin de la informacin
Combinacin de informacin desde
mltiples fuentes de informacin
autnomas
y responder consultas usando la informacin
combinada
La ayuda que proporciona la integracin
de informacin es soportar el
procesamiento de consultas sobre fuentes
estructuradas y semiestructuradas.
2
Alejandro Botello C. Integracion de Datos
Problema del Negocio
Informacin
sintetizada
Mltiples aplicaciones
especificas
Manufactura,
Inventarios,
Cadena de
Suministros,
Finanzas, Aplicacin CRM
4
Alejandro Botello C. Integracion de Datos
Dimensiones a considerar
Cuantas fuentes se estn accediendo?
Cuan autnomas son?
Se pueden obtener los metadatos de las
fuentes?
Los datos estn estructurados?
Soportan slo consultas o tambin
actualizaciones?
5
Alejandro Botello C. Integracion de Datos
Retos Tcnicos
6
Alejandro Botello C. Integracion de Datos
Adopcin de disciplinas
Recuperacin de informacin (Information
retrieval)
Anlisis de redes sociales
Bases de datos
Minera de Datos (aprendizaje de
maquinas, estadsticas, patrones, etc.)
7
Alejandro Botello C. Integracion de Datos
Arquitecturas de integracin
Federacin. Todos hablan directamente
con cualquier otro.
Bodega de datos. Las fuentes son
trasladadas de su esquema local hacia un
esquema global y copiadas a una base de
datos central
Mediador. Bodega virtual, en donde una
consulta de usuario se descompone en
una secuencia de subconsultas a las
fuentes.
8
Alejandro Botello C. Integracion de Datos
Federacin de BD
Wrapper
Wrapper
Wrapper Wrapper
Wrapper
Wrapper
9
Alejandro Botello C. Integracion de Datos
Tecnologas Relacionadas/Problemas
Bases de Datos Distribuidas:
Las fuentes de datos son homogneas,
Los datos son distribuidos a priori,
Las fuentes no son autnomas.
Recuperacin de Informacin: bsqueda en
palabras clave, no en la semntica.
Minera de datos: Descubrimiento de propiedades
y patrones en los datos.
10
Alejandro Botello C. Integracion de Datos
Arquitectura de una Bodega de Datos
Usuarios
Aplicaciones
OLAP / Soporte a las Decisiones
/ Cubos de Datos / Minera
de Datos
Herramientas ETL
Base de datos Relacional
(Warehouse) (Extract-Transform-Load)
Limpieza de Datos
11
Alejandro Botello C. Integracion de Datos
Bodegas de datos (Data Warehousing)
Carga toda la informacin peridicamente
en un mega repositorio de datos
De 6 a 18 meses de desarrollo
Separa los sistemas operacionales de los
sistemas de toma de decisiones.
El rendimiento es bueno
Los datos no estn frescos
Necesidad de limpiar datos.
12
Alejandro Botello C. Integracion de Datos
Tcnicas de Minera de Datos
Reglas de Asociacin
Patrones Secuenciales
Clasificacin
Agrupamiento (Clustering)
Secuencias de Tiempo Similares
Imgenes Similares
Minera de Texto/Web
13
Alejandro Botello C. Integracion de Datos
Necesidad de la Minera de Datos
Las corporaciones tienen una gran cantidad de
bases de datos que contienen informacin vital.
Las bases de datos de negocios constituyen
potencialmente una mina de oro de informacin
valiosa.
Muy poca funcionalidad en los sistemas de bases
de datos para el soporte de aplicaciones de
minera de datos
Minera de Datos: Descubrimiento eficiente de
patrones no conocidos previamente en grandes
bases de datos
14
Alejandro Botello C. Integracion de Datos
Aplicaciones
Deteccin de Fraudes
Aprobacin de prestamos y crditos
Anlisis de mercados
Segmentacin de clientes
Aplicaciones Financieras
Comercio Electrnico
Soporte a las Decisiones
Bsqueda Web
15
Alejandro Botello C. Integracion de Datos
Ejemplos de Patrones Descubiertos
Reglas de Asociacin
98% de las personas que compran paales
tambin compran cerveza
Clasificacin
La gente con edad menor que 25 aos y
salario > 40k maneja autos deportivos
Deteccin de valores atpicos
Clientes residenciales de una compaa de
telecomunicaciones con negocios en casa
16
Alejandro Botello C. Integracion de Datos
Integracin virtual
Deja los datos en las fuentes
Cuando una consulta llega:
Determina las fuentes relevantes a la consulta
Descompone la consulta en subconsultas para las fuentes
Obtiene las respuestas de las fuentes, y las combina de
manera apropiada
Los datos son frescos
Hay escalabilidad de fuentes
Hay que considerar:
Un mediador para las fuentes
Reformulacin de consultas
Planeacin y ejecucin eficiente
17
Alejandro Botello C. Integracion de Datos
Arquitectura de Integracin Virtual
Consulta Resultado
Mediador
Reformulacin
Esquema
Optimizacin Global
Ejecucin
Wrapper Wrapper
19
Alejandro Botello C. Integracion de Datos
La Web tiene datos estructurados?
La Web invisible
Muchos servidores Web tienen servidores de bases de
datos.
Dinmicamente convierten los datos estructurados en
contenido Web.
Las pginas dinmicas no pueden ser marcadas
La Web semiestructurada
Algunas pginas tienen contenido semiestructurado
Se espera que el estndar XML ayude a la transferencia
y presentacin de tales pginas.
20
Alejandro Botello C. Integracion de Datos
Condiciones
Muchas bases de datos
Todas estn parcialmente completas
Algunas se traslapan
Existen esquemas heterogneos
Limitantes en el acceso
Falta factibilidad en la transmisin por red
21
Alejandro Botello C. Integracion de Datos