Documente Academic
Documente Profesional
Documente Cultură
Operacional vs datawarehouse
Características de un data warehouse –
orientado al tema
○ Orientado al tema: la información se clasifica en base a los
aspectos que son de interés para la empresa. Siendo así,
los datos tomados están en contraste con los clásicos
procesos orientados a las aplicaciones.
○ En el ambiente operacional por ejemplo, una aplicación de
ingreso de órdenes puede acceder a los datos sobre
clientes, productos y cuentas.
○ En el ambiente data warehousing se organiza alrededor
de sujetos tales como cliente, vendedor, producto y
actividad.
Características de un data warehouse –
orientado al tema
Características de un datawarehouse -
integración
○ El aspecto más importante del ambiente data warehousing es que la
información encontrada al interior está siempre integrada.
○ A través de los años, los diseñadores de las diferentes aplicaciones
han tomado sus propias decisiones sobre cómo se debería construir
una aplicación. Los estilos y diseños personalizados se muestran de
muchas maneras.
○ Se diferencian en la codificación, en las estructuras claves, en sus
características físicas, en las convenciones de nombramiento y
otros.
Características de un datawarehouse -
integración
○ Codificación. Los diseñadores de aplicaciones codifican el campo
GÉNERO en varias formas. Un diseñador representa GÉNERO como
una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una
"Y" e inclusive, como "masculino" y "femenino".
○ No importa mucho cómo el GÉNERO llega al data warehouse.
Probablemente "M" y "F" sean tan buenas como cualquier otra
representación. Lo importante es que sea de cualquier fuente de
donde venga, el GÉNERO debe llegar al data warehouse en un
estado integrado uniforme.
Características de un datawarehouse -
integración
○ Medida de atributos. Los diseñadores de aplicaciones miden las
unidades de medida de las tuberías en una variedad de formas.
Un diseñador almacena los datos de tuberías en centímetros,
otros en pulgadas, otros en millones de pies cúbicos por segundo
y otros en yardas.
○ Al dar medidas a los atributos, la transformación traduce las
diversas unidades de medida usadas en las diferentes bases de
datos para transformarlas en una medida estándar común.
○ Convenciones de Nombramiento. El mismo elemento es
frecuentemente referido por nombres diferentes en las diversas
aplicaciones. El proceso de transformación asegura que se use
preferentemente el nombre de usuario.
Características de un datawarehouse -
integración
○ Fuentes Múltiples. El mismo elemento puede derivarse desde
fuentes múltiples. En este caso, el proceso de transformación
debe asegurar que la fuente apropiada sea usada,
documentada y movida al depósito.
○ Tal como se muestra en las siguientes figuras, los puntos de
integración afectan casi todos los aspectos de diseño - las
características físicas de los datos, la disyuntiva de tener más de
una de fuente de datos, el problema de estándares de
denominación inconsistentes, formatos de fecha inconsistentes y
otros.
Características de un datawarehouse
- integración
Estructura de un datawarehouse
○ Detalle de datos actuales. En gran parte, el interés más
importante radica en el detalle de los datos actuales, debido
a que:
○ Refleja las ocurrencias más recientes, las cuales son de gran
interés
○ Es voluminoso, ya que se almacena al más bajo nivel de
granularidad.
○ Casi siempre se almacena en disco, el cual es de fácil acceso,
aunque su administración sea costosa y compleja.
Estructura de un datawarehouse
○ Detalle de datos antiguos. La data antigua es aquella que
se almacena sobre alguna forma de almacenamiento
masivo. No es frecuentemente su acceso y se almacena a
un nivel de detalle, consistente con los datos detallados
actuales. Mientras no sea prioritario el almacenamiento en
un medio de almacenaje alterno, a causa del gran volumen
de datos unido al acceso no frecuente de los mismos, es
poco usual utilizar el disco como medio de
almacenamiento.
Estructura de un datawarehouse
Datos ligeramente resumidos. La data ligeramente resumida es
aquella que proviene desde un bajo nivel de detalle encontrado
al nivel de detalle actual. Este nivel del data warehouse casi
siempre se almacena en disco. Los puntos en los que se basa el
diseñador para construirlo son:
○ Que la unidad de tiempo se encuentre sobre la esquematización
hecha.
○ Qué contenidos (atributos) tendrá la data ligeramente resumida.
Datos completamente resumidos. El siguiente nivel de datos
encontrado en el data warehouse es el de los datos
completamente resumidos. Estos datos son compactos y
fácilmente accesibles.
metadata
○ Es la información sobre los datos que se alimenta, se
transforma y existe en el data warehouse. Metadata es un
concepto genérico, pero cada implementación de la
metadata usa técnicas y métodos específicos. Típicamente, la
metadata incluye los siguientes ítems:
○ Las estructuras de datos que dan una visión de los datos al
administrador de datos.
○ Las definiciones del sistema de registro desde el cual se
construye el data warehouse.
○ Las especificaciones de transformaciones de datos que
ocurren tal como la fuente de datos se replica al data
warehouse.
Metadata en data warehouse
○ En el almacenamiento de datos, metadatos contiene las
definiciones de los datos (el significado y el origen de
cada columna), la definición del propio almacén de datos
(en otras palabras, el almacén de datos estructura, los
procesos ETL, y la calidad de los datos), la definición de
los sistemas relacionados (por ejemplo, los sistemas de
fuente), la información de auditoría (lo que los procesos
corriendo y cuando se quedaron), y el uso (que los
informes y los cubos son utilizados por quién y cuándo).
Metadata en data warehouse
○ Por lo tanto, tenemos siete tipos de metadatos:
• Definición de datos y metadatos de mapeo contiene el significado de
cada hecho y en la columna de dimensión y donde los datos están
viniendo.
• Estructura de metadatos de datos describe la estructura de las tablas
en cada almacén de datos.
• Fuente de metadatos del sistema se describe la estructura de datos de
bases de datos del sistema de origen.
• Los metadatos proceso de ETL se describe cada flujo de datos en los
procesos de ETL.
• Metadatos de calidad de los datos se describen las reglas de calidad de
datos, sus niveles de riesgo, y sus acciones.
• Auditoría de metadatos contiene un registro de los procesos y
actividades en el almacén de datos.
• El uso de metadatos contiene un registro de eventos de uso de las
aplicaciones.
Transformación de datos - etl
○ Uno de los desafíos de cualquier implementación de data
warehouse, es el problema de transformar los datos. La
transformación se encarga de las inconsistencias en los
formatos de datos y la codificación, que pueden existir
dentro de una base de datos única y que casi siempre
existen cuando múltiples bases de datos contribuyen al data
warehouse.
○ La transformación de datos también se encarga de las
inconsistencias en el contenido de datos. Una vez que se
toma la decisión sobre que reglas de transformación serán
establecidas, deben crearse e incluirse las definiciones en
las rutinas de transformación.
Transformación de datos - etl
○ Se requieren herramientas de gestión de datos para extraer
datos desde bases de datos y/o archivos operacionales, luego
es necesario manipular o transformar los datos antes de
cargar los resultados en el data warehouse.