Sunteți pe pagina 1din 23

Data Warehousing

Base de Datos Operacional Data Warehouse

Operacional vs datawarehouse
Características de un data warehouse –
orientado al tema
○ Orientado al tema: la información se clasifica en base a los
aspectos que son de interés para la empresa. Siendo así,
los datos tomados están en contraste con los clásicos
procesos orientados a las aplicaciones.
○ En el ambiente operacional por ejemplo, una aplicación de
ingreso de órdenes puede acceder a los datos sobre
clientes, productos y cuentas.
○ En el ambiente data warehousing se organiza alrededor
de sujetos tales como cliente, vendedor, producto y
actividad.
Características de un data warehouse –
orientado al tema
Características de un datawarehouse -
integración
○ El aspecto más importante del ambiente data warehousing es que la
información encontrada al interior está siempre integrada.
○ A través de los años, los diseñadores de las diferentes aplicaciones
han tomado sus propias decisiones sobre cómo se debería construir
una aplicación. Los estilos y diseños personalizados se muestran de
muchas maneras.
○ Se diferencian en la codificación, en las estructuras claves, en sus
características físicas, en las convenciones de nombramiento y
otros.
Características de un datawarehouse -
integración
○ Codificación. Los diseñadores de aplicaciones codifican el campo
GÉNERO en varias formas. Un diseñador representa GÉNERO como
una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una
"Y" e inclusive, como "masculino" y "femenino".
○ No importa mucho cómo el GÉNERO llega al data warehouse.
Probablemente "M" y "F" sean tan buenas como cualquier otra
representación. Lo importante es que sea de cualquier fuente de
donde venga, el GÉNERO debe llegar al data warehouse en un
estado integrado uniforme.
Características de un datawarehouse -
integración
○ Medida de atributos. Los diseñadores de aplicaciones miden las
unidades de medida de las tuberías en una variedad de formas.
Un diseñador almacena los datos de tuberías en centímetros,
otros en pulgadas, otros en millones de pies cúbicos por segundo
y otros en yardas.
○ Al dar medidas a los atributos, la transformación traduce las
diversas unidades de medida usadas en las diferentes bases de
datos para transformarlas en una medida estándar común.
○ Convenciones de Nombramiento. El mismo elemento es
frecuentemente referido por nombres diferentes en las diversas
aplicaciones. El proceso de transformación asegura que se use
preferentemente el nombre de usuario.
Características de un datawarehouse -
integración
○ Fuentes Múltiples. El mismo elemento puede derivarse desde
fuentes múltiples. En este caso, el proceso de transformación
debe asegurar que la fuente apropiada sea usada,
documentada y movida al depósito.
○ Tal como se muestra en las siguientes figuras, los puntos de
integración afectan casi todos los aspectos de diseño - las
características físicas de los datos, la disyuntiva de tener más de
una de fuente de datos, el problema de estándares de
denominación inconsistentes, formatos de fecha inconsistentes y
otros.
Características de un datawarehouse
- integración
Estructura de un datawarehouse
○ Detalle de datos actuales. En gran parte, el interés más
importante radica en el detalle de los datos actuales, debido
a que:
○ Refleja las ocurrencias más recientes, las cuales son de gran
interés
○ Es voluminoso, ya que se almacena al más bajo nivel de
granularidad.
○ Casi siempre se almacena en disco, el cual es de fácil acceso,
aunque su administración sea costosa y compleja.
Estructura de un datawarehouse
○ Detalle de datos antiguos. La data antigua es aquella que
se almacena sobre alguna forma de almacenamiento
masivo. No es frecuentemente su acceso y se almacena a
un nivel de detalle, consistente con los datos detallados
actuales. Mientras no sea prioritario el almacenamiento en
un medio de almacenaje alterno, a causa del gran volumen
de datos unido al acceso no frecuente de los mismos, es
poco usual utilizar el disco como medio de
almacenamiento.
Estructura de un datawarehouse
Datos ligeramente resumidos. La data ligeramente resumida es
aquella que proviene desde un bajo nivel de detalle encontrado
al nivel de detalle actual. Este nivel del data warehouse casi
siempre se almacena en disco. Los puntos en los que se basa el
diseñador para construirlo son:
○ Que la unidad de tiempo se encuentre sobre la esquematización
hecha.
○ Qué contenidos (atributos) tendrá la data ligeramente resumida.
Datos completamente resumidos. El siguiente nivel de datos
encontrado en el data warehouse es el de los datos
completamente resumidos. Estos datos son compactos y
fácilmente accesibles.
metadata
○ Es la información sobre los datos que se alimenta, se
transforma y existe en el data warehouse. Metadata es un
concepto genérico, pero cada implementación de la
metadata usa técnicas y métodos específicos. Típicamente, la
metadata incluye los siguientes ítems:
○ Las estructuras de datos que dan una visión de los datos al
administrador de datos.
○ Las definiciones del sistema de registro desde el cual se
construye el data warehouse.
○ Las especificaciones de transformaciones de datos que
ocurren tal como la fuente de datos se replica al data
warehouse.
Metadata en data warehouse
○ En el almacenamiento de datos, metadatos contiene las
definiciones de los datos (el significado y el origen de
cada columna), la definición del propio almacén de datos
(en otras palabras, el almacén de datos estructura, los
procesos ETL, y la calidad de los datos), la definición de
los sistemas relacionados (por ejemplo, los sistemas de
fuente), la información de auditoría (lo que los procesos
corriendo y cuando se quedaron), y el uso (que los
informes y los cubos son utilizados por quién y cuándo).
Metadata en data warehouse
○ Por lo tanto, tenemos siete tipos de metadatos:
• Definición de datos y metadatos de mapeo contiene el significado de
cada hecho y en la columna de dimensión y donde los datos están
viniendo.
• Estructura de metadatos de datos describe la estructura de las tablas
en cada almacén de datos.
• Fuente de metadatos del sistema se describe la estructura de datos de
bases de datos del sistema de origen.
• Los metadatos proceso de ETL se describe cada flujo de datos en los
procesos de ETL.
• Metadatos de calidad de los datos se describen las reglas de calidad de
datos, sus niveles de riesgo, y sus acciones.
• Auditoría de metadatos contiene un registro de los procesos y
actividades en el almacén de datos.
• El uso de metadatos contiene un registro de eventos de uso de las
aplicaciones.
Transformación de datos - etl
○ Uno de los desafíos de cualquier implementación de data
warehouse, es el problema de transformar los datos. La
transformación se encarga de las inconsistencias en los
formatos de datos y la codificación, que pueden existir
dentro de una base de datos única y que casi siempre
existen cuando múltiples bases de datos contribuyen al data
warehouse.
○ La transformación de datos también se encarga de las
inconsistencias en el contenido de datos. Una vez que se
toma la decisión sobre que reglas de transformación serán
establecidas, deben crearse e incluirse las definiciones en
las rutinas de transformación.
Transformación de datos - etl
○ Se requieren herramientas de gestión de datos para extraer
datos desde bases de datos y/o archivos operacionales, luego
es necesario manipular o transformar los datos antes de
cargar los resultados en el data warehouse.

○ Tomar los datos desde varias bases de datos operacionales y


transformarlos en datos requeridos para el depósito, se refiere
a la transformación o a la integración de datos. Las bases de
datos operacionales, diseñadas para el soporte de varias
aplicaciones de producción, frecuentemente difieren en el
formato.
Transformación de datos - etl
Datos sucios
○ La limpieza de una data "sucia" es un proceso multifacético y
complejo. Los pasos a seguir son los siguientes:
1. Analizar sus datos corporativos para descubrir inexactitudes,
anomalías y otros problemas.
2. Transformar los datos para asegurar que sean precisos y
coherentes.
3. Asegurar la integridad referencial, que es la capacidad del data
warehouse, para identificar correctamente al instante cada
objeto del negocio, tales como un producto, un cliente o un
empleado.
4. Validar los datos que usa la aplicación del data warehouse
Usos del datawarehouse
○ Los datos operacionales y los datos del data
warehouse son accedidos por usuarios que usan
los datos de maneras diferentes.
Uso de Base de Datos Uso de Data Warehouse
Operacionales
Muchos usuarios concurrentes Pocos usuarios concurrentes

Consultas predefinidas y Consultas complejas,


Actualizables frecuentemente no
anticipadas.
Cantidades pequeñas de datos Cantidades grandes de datos
Detallados detallados
Requerimientos de respuesta Requerimientos de respuesta no
Inmediata críticos
datamart
○ Un data mart es subconjunto de datos del almacén de
datos con el propósito de ayudar a que un área o
departamento específico pueda tomar mejores
decisiones. Los datos existentes en este contexto pueden
ser agrupados, explorados y propagados de múltiples
maneras para que diferentes grupos de usuarios realicen
la explotación de los mismos de la forma más
conveniente según sus necesidades.
○ El data mart es un sistema orientado a la consulta, en el
que se producen procesos por lotes de carga de datos
con una frecuencia conocida y no muy alta. Es
consultado mediante herramientas OLAP que ofrecen
una percepción multidimensional de la información
Data Mining (mineria de datos)
○ El data mining, es el conjunto de técnicas y tecnologías que
permiten explorar grandes bases de datos, de manera
automática o semiautomática, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el
comportamiento de los datos en un determinado contexto.
○ Básicamente, el datamining surge para intentar ayudar a
comprender el contenido de un repositorio de datos. Con este
fin, hace uso de prácticas estadísticas y, en algunos casos, de
algoritmos de búsqueda próximos a la Inteligencia Artificial y a
las redes neuronales.
4 ETAPAS DEL DATAMINING
○ Determinación de los objetivos. Trata de la delimitación de los objetivos que el
cliente desea bajo la orientación del especialista en data mining.
○ Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total
de un proyecto de data mining.
○ Determinación del modelo. Se comienza realizando unos análisis estadísticos de
los datos, y después se lleva a cabo una visualización gráfica de los mismos para
tener una primera aproximación. Según los objetivos planteados y la tarea que
debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes
áreas de la Inteligencia Artificial.
○ Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y
los coteja con los obtenidos por los análisis estadísticos y de visualización
gráfica. El cliente determina si son novedosos y si le aportan un nuevo
conocimiento que le permita considerar sus decisiones.

S-ar putea să vă placă și