Sunteți pe pagina 1din 21

Captulo 1

Introduccin
Integracin de la informacin
Combinacin de informacin desde
mltiples fuentes de informacin
autnomas
y responder consultas usando la informacin
combinada
La ayuda que proporciona la integracin
de informacin es soportar el
procesamiento de consultas sobre fuentes
estructuradas y semiestructuradas.

2
Alejandro Botello C. Integracion de Datos
Problema del Negocio
Informacin
sintetizada

Mltiples aplicaciones
especificas
Manufactura,
Inventarios,
Cadena de
Suministros,
Finanzas, Aplicacin CRM

La informacin est Financiera


Aplicacin
Aplicacin de
atrapada dentro de Administracin de Ordenes

estas aplicaciones Aplicacin de


Distribucin y Entrega Aplicacin de
Administracin de Contratos

Como es que una organizacin obtiene una vista


consolidada de su informacin en tiempo real?
3
Alejandro Botello C. Integracion de Datos
Aplicaciones
WWW
Comparacin entre precios de productos
Portales que integran datos desde mltiples fuentes
B2B, comercio electrnico
Ciencia y cultura
Gentica: integracin de datos del genoma
Astrofsica: monitoreo de eventos en el cielo
Cultura: acceso uniforme de todas las bases de datos de
alguna regin cultural.
Integracin de datos empresariales
En promedio, una compaa tiene 49 bases de datos diferentes
y gasta 35% de su presupuesto de tecnologa en esfuerzos de
integracin.

4
Alejandro Botello C. Integracion de Datos
Dimensiones a considerar
Cuantas fuentes se estn accediendo?
Cuan autnomas son?
Se pueden obtener los metadatos de las
fuentes?
Los datos estn estructurados?
Soportan slo consultas o tambin
actualizaciones?

5
Alejandro Botello C. Integracion de Datos
Retos Tcnicos

La Informacin es especifica del dominio


Operacin Independiente de las Aplicaciones
El Acceso a la informacin tiene que ser en tiempo real
Mtodos de acceso diferentes para cada
aplicacin
Cada aplicacin tiene su propio protocolo y mtodo de acceso

Que arquitectura puede mejor acomodarse a las


necesidades actuales y futuras ?

6
Alejandro Botello C. Integracion de Datos
Adopcin de disciplinas
Recuperacin de informacin (Information
retrieval)
Anlisis de redes sociales
Bases de datos
Minera de Datos (aprendizaje de
maquinas, estadsticas, patrones, etc.)

7
Alejandro Botello C. Integracion de Datos
Arquitecturas de integracin
Federacin. Todos hablan directamente
con cualquier otro.
Bodega de datos. Las fuentes son
trasladadas de su esquema local hacia un
esquema global y copiadas a una base de
datos central
Mediador. Bodega virtual, en donde una
consulta de usuario se descompone en
una secuencia de subconsultas a las
fuentes.
8
Alejandro Botello C. Integracion de Datos
Federacin de BD

Wrapper

Wrapper
Wrapper Wrapper
Wrapper

Wrapper

9
Alejandro Botello C. Integracion de Datos
Tecnologas Relacionadas/Problemas
Bases de Datos Distribuidas:
Las fuentes de datos son homogneas,
Los datos son distribuidos a priori,
Las fuentes no son autnomas.
Recuperacin de Informacin: bsqueda en
palabras clave, no en la semntica.
Minera de datos: Descubrimiento de propiedades
y patrones en los datos.

10
Alejandro Botello C. Integracion de Datos
Arquitectura de una Bodega de Datos


Usuarios

Aplicaciones
OLAP / Soporte a las Decisiones
/ Cubos de Datos / Minera
de Datos

Herramientas ETL
Base de datos Relacional
(Warehouse) (Extract-Transform-Load)

Limpieza de Datos

Fuente Fuente Fuente


de Datos de Datos de Datos

11
Alejandro Botello C. Integracion de Datos
Bodegas de datos (Data Warehousing)
Carga toda la informacin peridicamente
en un mega repositorio de datos
De 6 a 18 meses de desarrollo
Separa los sistemas operacionales de los
sistemas de toma de decisiones.
El rendimiento es bueno
Los datos no estn frescos
Necesidad de limpiar datos.

12
Alejandro Botello C. Integracion de Datos
Tcnicas de Minera de Datos

Reglas de Asociacin
Patrones Secuenciales
Clasificacin
Agrupamiento (Clustering)
Secuencias de Tiempo Similares
Imgenes Similares
Minera de Texto/Web

13
Alejandro Botello C. Integracion de Datos
Necesidad de la Minera de Datos
Las corporaciones tienen una gran cantidad de
bases de datos que contienen informacin vital.
Las bases de datos de negocios constituyen
potencialmente una mina de oro de informacin
valiosa.
Muy poca funcionalidad en los sistemas de bases
de datos para el soporte de aplicaciones de
minera de datos
Minera de Datos: Descubrimiento eficiente de
patrones no conocidos previamente en grandes
bases de datos

14
Alejandro Botello C. Integracion de Datos
Aplicaciones

Deteccin de Fraudes
Aprobacin de prestamos y crditos
Anlisis de mercados
Segmentacin de clientes
Aplicaciones Financieras
Comercio Electrnico
Soporte a las Decisiones
Bsqueda Web

15
Alejandro Botello C. Integracion de Datos
Ejemplos de Patrones Descubiertos
Reglas de Asociacin
98% de las personas que compran paales
tambin compran cerveza
Clasificacin
La gente con edad menor que 25 aos y
salario > 40k maneja autos deportivos
Deteccin de valores atpicos
Clientes residenciales de una compaa de
telecomunicaciones con negocios en casa

16
Alejandro Botello C. Integracion de Datos
Integracin virtual
Deja los datos en las fuentes
Cuando una consulta llega:
Determina las fuentes relevantes a la consulta
Descompone la consulta en subconsultas para las fuentes
Obtiene las respuestas de las fuentes, y las combina de
manera apropiada
Los datos son frescos
Hay escalabilidad de fuentes
Hay que considerar:
Un mediador para las fuentes
Reformulacin de consultas
Planeacin y ejecucin eficiente

17
Alejandro Botello C. Integracion de Datos
Arquitectura de Integracin Virtual

Consulta Resultado

Mediador
Reformulacin
Esquema
Optimizacin Global
Ejecucin

Wrapper Wrapper

Esquema Esquema Esquema


Fuente Fuente Fuente
Local Local Local
de datos de datos de datos
18
Alejandro Botello C. Integracion de Datos
La Web como una coleccin de informacin
La Web es vista como una larga coleccin
de texto, datos estructurados (base de
datos), datos semi-estructurados (paginas
Web)
Que se puede hacer con esa informacin?
Bsquedas, redirecciones, agregaciones,
integracin, bsqueda de patrones
Como hacer lo anterior?
Depende del modelo
(texto/estructurado/semiestructurado)

19
Alejandro Botello C. Integracion de Datos
La Web tiene datos estructurados?
La Web invisible
Muchos servidores Web tienen servidores de bases de
datos.
Dinmicamente convierten los datos estructurados en
contenido Web.
Las pginas dinmicas no pueden ser marcadas
La Web semiestructurada
Algunas pginas tienen contenido semiestructurado
Se espera que el estndar XML ayude a la transferencia
y presentacin de tales pginas.

20
Alejandro Botello C. Integracion de Datos
Condiciones
Muchas bases de datos
Todas estn parcialmente completas
Algunas se traslapan
Existen esquemas heterogneos
Limitantes en el acceso
Falta factibilidad en la transmisin por red

21
Alejandro Botello C. Integracion de Datos

S-ar putea să vă placă și