Sunteți pe pagina 1din 7

Almacn de datos - concepto

Almacn de datos (Bodega de Datos, Data warehouse) es una integrada coleccin de


datos que contiene datos procedentes de sistemas del planeamiento del recurso de la
empresa (SAP, CRM, ERP) y de otros sistemas relacionados al negocio. Los
almacenes de datos contienen a menudo datos y parmetros introducidos
manualmente para mantener configuracin solicitada.
Los almacenes de datos contienen informacin que se subdivide a veces en unidades
lgicas ms pequeas, llamadas los centros comerciales (data marts).
Almacn de datos contiene datos usados en operaciones diarias para la ayuda en la
toma de decisiones, para el anlisis y para controlar.
La base de datos esta actualizada peridicamente sin interrumpir funcionamiento de
los sistemas relacionados al negocio (mltiples fuentes).
El almacn de datos puede ser implementado en una arquitectura de base de datos
(como Oracle, SQL Server) o en un producto dedicado (Teradata por ejemplo).

Arquitectura de un sistema de almacn de datos

Un Almacn de Datos (Data Warehouse) es una coleccin de datos que est formada
por Variables (hechos, facts) y Dimensiones (dimensions). Dimensiones son los
elementos para ubicar datos que participan en el anlisis y Variables los valores que
se desean analizar.
La mayor diferencia entre la arquitectura de un almacn de datos y una base de datos
OLTP estndar, conteniendo datos de los sistemas del planeamiento del recurso de la
empresa (como SAP, CRM) es que en una estructura de bodega de datos las tablas
estn denormalizadas entre variables y dimensiones.

En un tpico sistema de bases de datos OLTP (On-line Transaction Processing) lo ms


importante para el funcionamiento deseado es que el diseo de base de datos sea
eficiente. Esto determina si el sistema es til para los usuarios y si funciona de modo
rpido y eficaz.
Este tipo de base de datos tiene que encargarse de insertar miles de filas de datos
cada hora. Por eso se optimiza la base de datos para guardar datos lo menos posible
y ejecutar rpidamente las instrucciones sql: INSERT, UPDATE y DELETE.

Almacn de Datos, al contrario de OLTP, es un sistema que debe dar una respuesta a
casi cada pregunta con respeto al funcionamiento de la empresa. Una Bodega de
datos es una base de datos que almacena informacin, la cual se construye a partir de
datos bsicos extraidos de otras bases de datos (operacionales). El motivo para
producir informacin de una bodega de datos es ayudar a la toma de decisiones con la
capacidad de realizar en tiempo real anlisis multidimensionales Esta informacin
tiene que ser accesible rpidamente, pero no es tan importante que sea lo mas actual
posible y al nivel de detalle muy bajo. Normalmente un almacn de datos se carga
diariamente durante la noche cuando los sistemas fuente no estn sobrecargados. El
objeto mayor de la arquitectura de un almacn de datos es guardar datos histricos y
agregados. Las instrucciones SQL ejecutadas con mayor frecuencia son SELECT.

Hay tres arquitecturas del diseo de sistemas de almacenes de datos:

Esquema de estrella
Esquema copo de nieve
Esquema constelacin
Proceso ETL

ETL, es un trmino que viene del ingls de las siglas, Extract-Transform-Load, que
significan Extraer, Transformar y Cargar. ETL ,es el proceso que organiza el flujo de
los datos entre diferentes sistemas en una organizacin y aporta los mtodos y
herramientas necesarias para mover datos desde mltiples fuentes a un almacn de
datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, datamart bodega
de datos. ETL forma parte de la Inteligencia Empresarial (Business Intelligence),
tambin llamado Gestin de los Datos (Data Management).

La idea es que una aplicacin ETL lea los datos primarios de unas bases de datos de
sistemas principales, realice transformacin, validacin, el proceso cualitativo, filtracin
y al final escriba datos en el almacn y en este momento los datos son disponibles
para analizar por los usuarios.

Las ms populares herramientas y aplicaciones ETL del mercado son:

IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent


DataStage)
Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source
Business Intelligence
SAS ETL Studio
Oracle Warehouse Builder
Informatica PowerCenter
Cognos Decisionstream
Ab Initio
BusinessObjects Data Integrator (BODI)
Microsoft SQL Server Integration Services (SSIS)

Fundamentos de DataStage

DataStage es una herramienta ETL que permite crear y mantener fcil y rpidamente
almacenes de datos procedentes de sistemas de Aplicaciones Empresariales
incluyendo SAP, Siebel, Oracle y PeopleSoft CRM y de otros sistemas relacionados al
negocio.
Datastage soporta la extraccin, integracin y transformacin de altos volmenes de
datos desde estructuras simples hasta muy complejas. Entre funciones de DataStage,
la ms destacada es el diseo de tareas que extraen, integran, agregan, cargan y
transforman los datos para el Data Warehouse o Data Mart. Las tareas son
compiladas para crear ejecutables que son calendarizados por el Director y ejecutadas
por el Servidor.

Historia Datastage

Antes el producto se llamaba Ardent DataStage, luego adquirido por Ascential y en


2005 lo compr IBM. Desde entonces su nombre oficial es IBM WebSphere
Datastage.
Componentes de DataStage

Hay cuatro componentes principales de la herramienta Datastage:

Administrator - Interfaz de usuario usada para configurar proyectos de


Datastage y usuarios. Gestiona administracin de proyectos de DataStage en
ambientes de desarrollo y produccin.

Designer - usada para crear, disear y compilar tareas Datastage (tambin


permite testear y ejecutar). Mayormente usado por los desarrolladores.
Director - para validar, calendarizar, testear, ejecutar y monitorizar jobs
Datastage. Usado por los operadores y los testers.

Manager - interfaz de usuario usada para visualizar y editar el contenido del


repositorio.
Diseo de las tareas-Datastage palette:

Lista de todos los stages de Datastage:

Datastage Server Palette - Los stages generales:

Datastage Server Palette - Los stages de fichero:


Datastage Server Palette - Los Stages de Base de Datos:

Datastage Server Palette - Los Stages de Transformar y Filtrar:


Datastage Server Palette - Elementos de Secuencias:

Ejemplo de Job que carga datos de un archivo de texto, a otro archivo de texto:

S-ar putea să vă placă și