Documente Academic
Documente Profesional
Documente Cultură
Un Almacn de Datos (Data Warehouse) es una coleccin de datos que est formada
por Variables (hechos, facts) y Dimensiones (dimensions). Dimensiones son los
elementos para ubicar datos que participan en el anlisis y Variables los valores que
se desean analizar.
La mayor diferencia entre la arquitectura de un almacn de datos y una base de datos
OLTP estndar, conteniendo datos de los sistemas del planeamiento del recurso de la
empresa (como SAP, CRM) es que en una estructura de bodega de datos las tablas
estn denormalizadas entre variables y dimensiones.
Almacn de Datos, al contrario de OLTP, es un sistema que debe dar una respuesta a
casi cada pregunta con respeto al funcionamiento de la empresa. Una Bodega de
datos es una base de datos que almacena informacin, la cual se construye a partir de
datos bsicos extraidos de otras bases de datos (operacionales). El motivo para
producir informacin de una bodega de datos es ayudar a la toma de decisiones con la
capacidad de realizar en tiempo real anlisis multidimensionales Esta informacin
tiene que ser accesible rpidamente, pero no es tan importante que sea lo mas actual
posible y al nivel de detalle muy bajo. Normalmente un almacn de datos se carga
diariamente durante la noche cuando los sistemas fuente no estn sobrecargados. El
objeto mayor de la arquitectura de un almacn de datos es guardar datos histricos y
agregados. Las instrucciones SQL ejecutadas con mayor frecuencia son SELECT.
Esquema de estrella
Esquema copo de nieve
Esquema constelacin
Proceso ETL
ETL, es un trmino que viene del ingls de las siglas, Extract-Transform-Load, que
significan Extraer, Transformar y Cargar. ETL ,es el proceso que organiza el flujo de
los datos entre diferentes sistemas en una organizacin y aporta los mtodos y
herramientas necesarias para mover datos desde mltiples fuentes a un almacn de
datos, reformatearlos, limpiarlos y cargarlos en otra base de datos, datamart bodega
de datos. ETL forma parte de la Inteligencia Empresarial (Business Intelligence),
tambin llamado Gestin de los Datos (Data Management).
La idea es que una aplicacin ETL lea los datos primarios de unas bases de datos de
sistemas principales, realice transformacin, validacin, el proceso cualitativo, filtracin
y al final escriba datos en el almacn y en este momento los datos son disponibles
para analizar por los usuarios.
Fundamentos de DataStage
DataStage es una herramienta ETL que permite crear y mantener fcil y rpidamente
almacenes de datos procedentes de sistemas de Aplicaciones Empresariales
incluyendo SAP, Siebel, Oracle y PeopleSoft CRM y de otros sistemas relacionados al
negocio.
Datastage soporta la extraccin, integracin y transformacin de altos volmenes de
datos desde estructuras simples hasta muy complejas. Entre funciones de DataStage,
la ms destacada es el diseo de tareas que extraen, integran, agregan, cargan y
transforman los datos para el Data Warehouse o Data Mart. Las tareas son
compiladas para crear ejecutables que son calendarizados por el Director y ejecutadas
por el Servidor.
Historia Datastage
Ejemplo de Job que carga datos de un archivo de texto, a otro archivo de texto: