Sunteți pe pagina 1din 101

Data warehousing es el centro de la arquitectura para los sistemas de

informacin en la dcada de los 90s.



Soporta el procesamiento informtico al proveer una plataforma
slida, a partir de los datos histricos para hacer el anlisis.

Facilita la integracin de sistemas de aplicacin no integrados.

Organiza y almacena los datos que se necesitan para el
procesamiento analtico, informtico sobre una amplia perspectiva de
tiempo.


Data WareHouse
Un Data Warehouse o Depsito de Datos es una coleccin de
datos orientado a temas, integrado, no voltil, de tiempo
variante, que se usa para el soporte del proceso de toma de
decisiones gerenciales.

Se puede caracterizar un data warehouse haciendo un
contraste de cmo los datos de un negocio almacenados en un
data warehouse, difieren de los datos operacionales usados por
las aplicaciones de produccin.
Data WareHouse

Diferentes tipos de informacin

El ingreso de datos en el data warehouse viene desde el ambiente
operacional en casi todos los casos.

El data warehouse es siempre un almacn de datos transformados y
separados fsicamente de la aplicacin donde se encontraron los
datos en el ambiente operacional.
Data WareHouse
En las metodologas anteriores, publicadas por el Instituto Nacional de
Estadstica e Informtica (INEI) y con el fin de proporcionar una visin ms
clara, los sistemas de informacin se han dividido de acuerdo al siguiente
esquema:
Data WareHouse
Sistemas de informacin


Sistemas Estratgicos
Sistemas Tcticos
Sistemas Tcnico-Operativos
Sistemas Interinstitucionales


Sistemas Estratgicos:

Orientados a soportar la toma de decisiones, facilitan la labor de la
direccin, proporcionndole un soporte bsico, en forma de mejor
informacin, para la toma de decisiones. Se caracterizan porque son
sistemas sin carga peridica de trabajo, es decir, su utilizacin no es
predecible, al contrario de los casos anteriores, cuya utilizacin es
peridica.

Destacan entre estos sistemas: los:

Sistemas de Informacin Gerencial (MIS),
Sistemas de Informacin Ejecutivos (EIS),
Sistemas de Informacin Georeferencial (GIS),
Sistemas de Simulacin de Negocios (BIS: que en la prctica son
sistemas expertos o de Inteligencia Artificial).
Sistemas de informacin

Sistemas Tcticos:

Diseados para soportar las actividades de coordinacin de actividades y
manejo de documentacin, definidos para facilitar consultas sobre
informacin almacenada en el sistema, proporcionar informes y, en
resumen, facilitar la gestin independiente de la informacin por parte de
los niveles intermedios de la organizacin.

Destacan entre ellos los:

Sistemas Ofimticos (OA)
Sistemas de Transmisin de Mensajera (E-mail y Fax Server),
Sistemas de coordinacin y control de tareas (Work Flow) y
tratamiento de documentos (Imagen, Trmite y Bases de Datos
Documentarios).

Sistemas de informacin
Sistemas Tcnico-Operativos

Cubren el ncleo de operaciones tradicionales de captura masiva de datos
(Data Entry) y servicios bsicos de tratamiento de datos, con tareas
predefinidas (contabilidad, facturacin, almacn, presupuesto, personal y
otros sistemas administrativos). Estos sistemas estn evolucionando con
la irrupcin de censores, autmatas, sistemas multimedia, bases de datos
relacionales ms avanzadas y data warehousing.

Sistemas de informacin
Sistemas Interinstitucionales

Este ltimo nivel de sistemas de informacin recin est surgiendo, es
consecuencia del desarrollo organizacional orientado a un mercado de
carcter global, el cual obliga a pensar e implementar estructuras de
comunicacin ms estrechas entre la organizacin y el mercado
(Empresa Extendida, Organizacin Inteligente e Integracin
Organizacional), todo esto a partir de la generalizacin de las redes
informticas de alcance nacional y global (INTERNET), que se convierten
en vehculo de comunicacin entre la organizacin y el mercado, no
importa dnde est la organizacin (INTRANET), el mercado de la
institucin (EXTRANET) y el mercado (Red Global).
Sistemas de informacin
Sistemas Interinstitucionales

la tecnologa data warehousing basa sus conceptos y diferencias entre
dos tipos fundamentales de sistemas de informacin en todas las
organizaciones:

sistemas tcnico-operacionales
sistemas de soporte de decisiones. (base de un data warehouse).
Sistemas de informacin
Caractersticas de un Data WareHouse
Entre las principales se tiene:

Orientado al tema
Integrado
De tiempo variante
No voltil
1. Orientado al tema

La informacin se clasifica en base a los aspectos que son
de inters para la empresa. Siendo as, los datos tomados
estn en contraste con los clsicos procesos orientados a
las aplicaciones.

En la Figura sig. se muestra el contraste entre los dos tipos
de orientaciones.
Caractersticas de un Data WareHouse
Caractersticas de un Data WareHouse
1. Orientado al tema
Caractersticas de un Data WareHouse
1. Orientado al tema

El ambiente operacional se disea alrededor de las aplicaciones y
funciones tales como prstamos, ahorros, tarjeta bancaria y depsitos
para una institucin financiera.

Por ejemplo:

una aplicacin de ingreso de rdenes puede accesar a los datos
sobre clientes, productos y cuentas. La base de datos combina estos
elementos en una estructura que acomoda las necesidades de la
aplicacin.


1. Orientado al tema

En el ambiente data warehousing se organiza alrededor de sujetos tales
como cliente, vendedor, producto y actividad.

Por ejemplo:

para un fabricante, stos pueden ser clientes, productos, proveedores
y vendedores. Para una universidad pueden ser estudiantes, clases y
profesores. Para un hospital pueden ser pacientes, personal mdico,
medicamentos, etc.
Caractersticas de un Data WareHouse
Caractersticas de un Data WareHouse
1. Orientado al tema

La alineacin alrededor de las reas de los temas afecta el diseo y la
implementacin de los datos encontrados en el data warehouse. Las
principales reas de los temas influyen en la parte ms importante de la
estructura clave.

Las aplicaciones estn relacionadas con el diseo de la base de datos y
del proceso. En data warehousing se enfoca el modelamiento de datos y
el diseo de la base de datos. El diseo del proceso (en su forma clsica)
no es separado de este ambiente.
Caractersticas de un Data WareHouse
1. Orientado al tema

Las diferencias entre la orientacin de procesos y funciones de las
aplicaciones y la orientacin a temas, radican en el contenido de la data a
nivel detallado.

En el data warehouse se excluye la informacin que no ser usada por el
proceso de sistemas de soporte de decisiones, mientras que la informacin
de las orientadas a las aplicaciones, contiene datos para satisfacer de
inmediato los requerimientos funcionales y de proceso, que pueden ser
usados o no por el analista de soporte de decisiones.
Caractersticas de un Data WareHouse
1. Orientado al tema

Otra diferencia importante est en la interrelacin de la informacin.

Los datos operacionales mantienen una relacin continua entre dos o ms
tablas basadas en una regla comercial que est vigente. Las del data
warehouse miden un espectro de tiempo y las relaciones encontradas en
el data warehouse son muchas. Muchas de las reglas comerciales (y sus
correspondientes relaciones de datos) se representan en el data
warehouse, entre dos o ms tablas.
Caractersticas de un Data WareHouse
2. Integracin

El aspecto ms importante del ambiente data warehousing es que la
informacin encontrada al interior est siempre integrada.

La integracin de datos se muestra de muchas maneras: en
convenciones de nombres consistentes, en la medida uniforme de
variables, en la codificacin de estructuras consistentes, en atributos
fsicos de los datos consistentes, fuentes mltiples y otros.

El contraste de la integracin encontrada en el data warehouse con la
carencia de integracin del ambiente de aplicaciones, se muestran en la
Figura N 2, con diferencias bien marcadas.
2. Integracin

Se diferencian en la codificacin, en las estructuras claves, en sus
caractersticas fsicas, en las convenciones de nombramiento y otros. La
capacidad colectiva de muchos de los diseadores de aplicaciones, para
crear aplicaciones inconsistentes, es fabulosa. La Figura sig.
mencionada, muestra algunas de las diferencias ms importantes en las
formas en que se disean las aplicaciones.

Codificacin. Los diseadores de aplicaciones codifican el campo
GENERO en varias formas. Un diseador representa GENERO como
una "M" y una "F", otros como un "1" y un "0", otros como una "X" y
una "Y" e inclusive, como "masculino" y "femenino".
Caractersticas de un Data WareHouse
Caractersticas de un Data WareHouse
2. Integracin

No importa mucho cmo el GENERO llega al data warehouse.
Probablemente "M" y "F" sean tan buenas como cualquier otra
representacin. Lo importante es que sea de cualquier fuente de donde
venga, el GENERO debe llegar al data warehouse en un estado integrado
uniforme.

Por lo tanto, cuando el GENERO se carga en el data warehouse desde
una aplicacin, donde ha sido representado en formato "M" y "F", los
datos deben convertirse al formato del data warehouse.

Caractersticas de un Data WareHouse
2. Integracin

Medida de atributos: Los diseadores de aplicaciones miden las
unidades de medida de las tuberas en una variedad de formas. Un
diseador almacena los datos de tuberas en centmetros, otros en
pulgadas, otros en millones de pies cbicos por segundo y otros en
yardas.
Caractersticas de un Data WareHouse
2. Integracin
Caractersticas de un Data WareHouse
2. Integracin

Al dar medidas a los atributos, la transformacin traduce las diversas
unidades de medida usadas en las diferentes bases de datos para
transformarlas en una medida estndar comn.

Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al
data warehouse necesitar ser medida de la misma manera.

Convenciones de Nombramiento.- El mismo elemento es
frecuentemente referido por nombres diferentes en las diversas
aplicaciones. El proceso de transformacin asegura que se use
preferentemente el nombre de usuario.

Fuentes Mltiples.- El mismo elemento puede derivarse desde fuentes
mltiples. En este caso, el proceso de transformacin debe asegurar que
la fuente apropiada sea usada, documentada y movida al depsito.
Caractersticas de un Data WareHouse
2. Integracin

Tal como se muestra en la figura, los puntos de integracin afectan casi
todos los aspectos de diseo - las caractersticas fsicas de los datos, la
disyuntiva de tener ms de una de fuente de datos, el problema de
estndares de denominacin inconsistentes, formatos de fecha
inconsistentes y otros.

Cualquiera que sea la forma del diseo, el resultado es el mismo - la
informacin necesita ser almacenada en el data warehouse en un modelo
globalmente aceptable y singular, aun cuando los sistemas operacionales
subyacentes almacenen los datos de manera diferente.

Cuando el analista de sistema de soporte de decisiones observe el data
warehouse, su enfoque deber estar en el uso de los datos que se
encuentre en el depsito, antes que preguntarse sobre la confiabilidad o
consistencia de los datos.
3. De tiempo variante

Toda la informacin del data warehouse es requerida en algn momento.
Esta caracterstica bsica de los datos en un depsito, es muy diferente
de la informacin encontrada en el ambiente operacional. En stos, la
informacin se requiere al momento de accesar.

En otras palabras, en el ambiente operacional, cuando usted accesa a
una unidad de informacin, usted espera que los valores requeridos se
obtengan a partir del momento de acceso.Como la informacin en el data
warehouse es solicitada en cualquier momento (es decir, no "ahora
mismo"), los datos encontrados en el depsito se llaman de "tiempo
variante".
Caractersticas de un Data WareHouse
Caractersticas de un Data WareHouse
3. De tiempo variante

Los datos histricos son de poco uso en el procesamiento operacional.
La informacin del depsito por el contraste, debe incluir los datos
histricos para usarse en la identificacin y evaluacin de tendencias.
(Ver Figura sig.).
Caractersticas de un Data WareHouse
3. De tiempo variante

El tiempo variante se muestra de varias maneras:

1 La ms simple es que la informacin representa los datos sobre un
horizonte largo de tiempo - desde cinco a diez aos. El horizonte de
tiempo representado para el ambiente operacional es mucho ms corto -
desde valores actuales hasta sesenta a noventa das.

Las aplicaciones que tienen un buen rendimiento y estn disponibles para
el procesamiento de transacciones, deben llevar una cantidad mnima de
datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones
operacionales tienen un corto horizonte de tiempo, debido al diseo de
aplicaciones rgidas.
Caractersticas de un Data WareHouse
3. De tiempo variante

2 La segunda manera en la que se muestra el tiempo variante en el data
warehouse est en la estructura clave. Cada estructura clave en el data
warehouse contiene, implcita o explcitamente, un elemento de tiempo
como da, semana, mes, etc.

El elemento de tiempo est casi siempre al pie de la clave concatenada,
encontrada en el data warehouse. En ocasiones, el elemento de tiempo
existir implcitamente, como el caso en que un archivo completo se
duplica al final del mes, o al cuarto.
Caractersticas de un Data WareHouse
3. De tiempo variante

3 La tercera manera en que aparece el tiempo variante es cuando la
informacin del data warehouse, una vez registrada correctamente, no
puede ser actualizada. La informacin del data warehouse es, para todos
los propsitos prcticos, una serie larga de "snapshots" (vistas
instantneas).

Por supuesto, si los snapshots de los datos se han tomado
incorrectamente, entonces pueden ser cambiados. Asumiendo que los
snapshots se han tomado adecuadamente, ellos no son alterados una vez
hechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los
snapshots en el data warehouse. Los datos operacionales, siendo
requeridos a partir del momento de acceso, pueden actualizarse de
acuerdo a la necesidad.
4. No voltil

La informacin es til slo cuando es estable. Los datos operacionales
cambian sobre una base momento a momento. La perspectiva ms
grande, esencial para el anlisis y la toma de decisiones, requiere una
base de datos estable.
En la Figura sig. se muestra que la actualizacin (insertar, borrar y
modificar), se hace regularmente en el ambiente operacional sobre una
base de registro por registro. Pero la manipulacin bsica de los datos
que ocurre en el data warehouse es mucho ms simple. Hay dos nicos
tipos de operaciones: la carga inicial de datos y el acceso a los mismos.
No hay actualizacin de datos (en el sentido general de actualizacin) en
el depsito, como una parte normal de procesamiento.
Caractersticas de un Data WareHouse
Caractersticas de un Data WareHouse
4. No voltil

Hay algunas consecuencias muy importantes de esta diferencia bsica,
entre el procesamiento operacional y del data warehouse.

En el nivel de diseo, la necesidad de ser precavido para actualizar las
anomalas no es un factor en el data warehouse, ya que no se hace la
actualizacin de datos.

Esto significa que en el nivel fsico de diseo, se pueden tomar libertades
para optimizar el acceso a los datos, particularmente al usar la
normalizacin y de normalizacin fsica.

Caractersticas de un Data WareHouse
4. No voltil

Otra consecuencia de la simplicidad de la operacin del data warehouse
est en la tecnologa subyacente, utilizada para correr los datos en el
depsito. Teniendo que soportar la actualizacin de registro por registro en
modo on-line (como es frecuente en el caso del procesamiento
operacional) requiere que la tecnologa tenga un fundamento muy
complejo debajo de una fachada de simplicidad.
4. No voltil
Caractersticas de un Data WareHouse
Caractersticas de un Data WareHouse
4. No voltil

La tecnologa permite realizar backup y recuperacin, transacciones e
integridad de los datos y la deteccin y solucin al estancamiento que es
ms complejo.

En el data warehouse no es necesario el procesamiento.


Caractersticas de un Data WareHouse
No voltil

La fuente de casi toda la informacin del data warehouse es
el ambiente operacional. A simple vista, se puede pensar que
hay redundancia masiva de datos entre los dos ambientes.

Desde luego, la primera impresin de muchas personas se
centra en la gran redundancia de datos, entre el ambiente
operacional y el ambiente de data warehouse.

Dicho razonamiento es superficial y demuestra una carencia
de entendimiento con respecto a qu ocurre en el data
warehouse. De hecho, hay una mnima redundancia de
datos entre ambos ambientes.
4. No voltil

Se debe considerar lo siguiente:

Los datos se filtran cuando pasan desde el ambiente operacional al de
depsito. Existe mucha data que nunca sale del ambiente operacional.
Slo los datos que realmente se necesitan ingresarn al ambiente de
data warehouse.

El horizonte de tiempo de los datos es muy diferente de un ambiente al
otro. La informacin en el ambiente operacional es ms reciente con
respecto a la del data warehouse. Desde la perspectiva de los
horizontes de tiempo nicos, hay poca superposicin entre los
ambientes operacional y de data warehouse.
Caractersticas de un Data WareHouse
4. No voltil

El data warehouse contiene un resumen de la informacin
que no se encuentra en el ambiente operacional.

Los datos experimentan una transformacin fundamental
cuando pasa al data warehouse. La mayor parte de los datos
se alteran significativamente al ser seleccionados y movidos
al data warehouse.

Dicho de otra manera, la mayora de los datos se alteran
fsica y radicalmente cuando se mueven al depsito. No es la
misma data que reside en el ambiente operacional desde el
punto de vista de integracin. En vista de estos factores, la
redundancia de datos entre los dos ambientes es una
ocurrencia rara, que resulta en menos de 1%.
Caractersticas de un Data WareHouse
Estructura de un Data WareHouse
Los data warehouse tienen una estructura distinta. Hay niveles diferentes
de esquematizacin y detalle que delimitan el data warehouse. La
estructura de un data warehouse se muestra en la Figura sig.

En la figura, se muestran los diferentes componentes del data warehouse
y son:


Detalle de datos actuales
Detalle de datos antiguos
Datos ligeramente resumidos
Datos completamente resumidos
Meta data
Estructura de un Data WareHouse
Detalle de datos actuales: En gran parte, el inters ms importante
radica en el detalle de los datos actuales, debido a que:

Refleja las ocurrencias ms recientes, las cuales son de gran
inters
Es voluminoso, ya que se almacena al ms bajo nivel de
granularidad.
Casi siempre se almacena en disco, el cual es de fcil acceso,
aunque su administracin sea costosa y compleja.


Estructura de un Data WareHouse
Detalle de datos antiguos

La data antigua es aquella que se almacena sobre alguna forma de
almacenamiento masivo. No es frecuentemente accesada y se almacena
a un nivel de detalle, consistente con los datos detallados actuales.

Mientras no sea prioritario el almacenamiento en un medio de almacenaje
alterno, a causa del gran volumen de datos unido al acceso no frecuente
de los mismos, es poco usual utilizar el disco como medio de
almacenamiento.
Estructura de un Data WareHouse
Datos ligeramente resumidos

La data ligeramente resumida es aquella que proviene desde un bajo nivel
de detalle encontrado al nivel de detalle actual. Este nivel del data
warehouse casi siempre se almacena en disco. Los puntos en los que se
basa el diseador para construirlo son:

Que la unidad de tiempo se encuentre sobre la esquematizacin
hecha.
Qu contenidos (atributos) tendr la data ligeramente resumida.

Estructura de un Data WareHouse
Datos completamente resumidos

Estos datos son compactos y
fcilmente accesibles.
A veces se encuentra en el ambiente de data warehouse y en otros, fuera
del lmite de la tecnologa que ampara al data warehouse. (De todos
modos, los datos completamente resumidos son parte del data warehouse
sin considerar donde se alojan los datos fsicamente.)

Metadata.- El componente final del data warehouse es el de la metadata.
De muchas maneras la metadata se sita en una dimensin diferente al
de otros datos del data warehouse, debido a que su contenido no es
tomado directamente desde el ambiente operacional.
Estructura de un Data WareHouse
Estructura de un Data WareHouse
La metadata juega un rol especial y muy importante en el data warehouse
y es usada como:

Un directorio para ayudar al analista a ubicar los contenidos del data
warehouse.

Una gua para el mapping de datos de cmo se transforma, del
ambiente operacional al de data warehouse.

Una gua de los algoritmos usados para la esquematizacin entre
el detalle de datos actual, con los datos ligeramente resumidos y
stos, con los datos completamente resumidos, etc.
Estructura de un Data WareHouse
La metadata juega un papel mucho ms importante en un ambiente data
warehousing que en un operacional clsico.

A fin de recordar los diferentes niveles de los datos encontrados en el data
warehouse, considere el ejemplo mostrado en la Figura sig.

El detalle de ventas antiguas son las que se encuentran antes de 1992.
Todos los detalles de ventas desde 1982 (o cuando el diseador inici la
coleccin de los archivos) son almacenados en el nivel de detalle de datos
ms antiguo.

El detalle actual contiene informacin desde 1992 a 1993 (suponiendo
que 1993 es el ao actual). En general, el detalle de ventas no se ubica
en el nivel de detalle actual hasta que haya pasado, por lo menos,
veinticuatro horas desde que la informacin de ventas llegue a estar
disponible en el ambiente operacional.
Estructura de un Data WareHouse
Estructura de un Data WareHouse
En otras palabras, habra un retraso de tiempo de por lo menos
veinticuatro horas, entre el tiempo en que en el ambiente operacional se
haya hecho un nuevo ingreso de la venta y el momento cuando la
informacin de la venta haya ingresado al data warehouse.

El detalle de las ventas son resumidas semanalmente por lnea de
subproducto y por regin, para producir un almacenamiento de datos
ligeramente resumidos.

El detalle de ventas semanal es adicionalmente resumido en forma
mensual, segn una gama de lneas, para producir los datos
completamente resumidos.

La metadata contiene (al menos)

La estructura de los datos
Los algoritmos usados para la esquematizacin
El mapping desde el ambiente operacional al data warehouse
Estructura de un Data WareHouse
La informacin adicional que no se esquematiza es almacenada en el
data warehouse. En muchas ocasiones, all se har el anlisis y se
producir un tipo u otro de resumen. El nico tipo de esquematizacin
que se almacena permanentemente en el data warehouse, es el de los
datos que son usados frecuentemente.

En otras palabras, si un analista produce un resumen que tiene una
probabilidad muy baja de ser usado nuevamente, entonces la
esquematizacin no es almacenada en el data warehouse.
Arquitectura de un Data WareHouse
Una de las razones por las que el desarrollo de un data warehouse crece
rpidamente, es que realmente es una tecnologa muy entendible.

De hecho, data warehousing puede representar mejor la estructura
amplia de una empresa para administrar los datos informacionales dentro
de la organizacin.

A fin de comprender cmo se relacionan todos los componentes
involucrados en una estrategia data warehousing, es esencial tener una
Arquitectura Data Warehouse.
Arquitectura de un Data WareHouse
Elementos constituyentes de una
Arquitectura de un Data WareHouse
Una Arquitectura Data Warehouse (Data Warehouse Architecture - DWA)
es una forma de representar la estructura total de datos, comunicacin,
procesamiento y presentacin, que existe para los usuarios finales que
disponen de una computadora dentro de la empresa.

La arquitectura se constituye de un nmero de partes interconectadas:

Base de datos operacional / Nivel de base de datos externo
Nivel de acceso a la informacin
Nivel de acceso a los datos
Nivel de directorio de datos (Metadata)
Nivel de gestin de proceso
Nivel de mensaje de la aplicacin
Nivel de data warehouse
Nivel de organizacin de datos
Elementos constituyentes de una
Arquitectura de un Data WareHouse
Base de datos operacional / Nivel de base de datos externo

Los sistemas operacionales procesan datos para apoyar las necesidades
operacionales crticas. Para hacer eso, se han creado las bases de datos
operacionales histricas que proveen una estructura de procesamiento
eficiente, para un nmero relativamente pequeo de transacciones
comerciales bien definidas.

Sin embargo, a causa del enfoque limitado de los sistemas operacionales,
las bases de datos diseadas para soportar estos sistemas, tienen
dificultad al accesar a los datos para otra gestin o propsitos
informticos.

Elementos constituyentes de una
Arquitectura de un Data WareHouse
Base de datos operacional / Nivel de base de datos externo
Esta dificultad en accesar a los datos operacionales es amplificada por el
hecho que muchos de estos sistemas tienen de 10 a 15 aos de
antigedad. El tiempo de algunos de estos sistemas significa que la
tecnologa de acceso a los datos disponible para obtener los datos
operacionales, es as mismo antigua.
Ciertamente, la meta del data warehousing es liberar la informacin que
es almacenada en bases de datos operacionales y combinarla con la
informacin desde otra fuente de datos, generalmente externa.
Elementos constituyentes de una
Arquitectura de un Data WareHouse
Base de datos operacional / Nivel de base de datos externo

Cada vez ms, las organizaciones grandes adquieren datos adicionales
desde bases de datos externas. Esta informacin incluye tendencias
demogrficas, economtricas, adquisitivas y competitivas (que pueden
ser proporcionadas por Instituciones Oficiales - INEI). Internet o tambin
llamada "information superhighway" (supercarretera de la informacin)
provee el acceso a ms recursos de datos todos los das.
Nivel de acceso a la informacin

El nivel de acceso a la informacin de la arquitectura data warehouse, es
el nivel del que el usuario final se encarga directamente. En particular,
representa las herramientas que el usuario final normalmente usa da a
da. Por ejemplo: Excel, Lotus 1-2-3, Focus, Access, SAS, etc.

Este nivel tambin incluye el hardware y software involucrados en mostrar
informacin en pantalla y emitir reportes de impresin, hojas de clculo,
grficos y diagramas para el anlisis y presentacin. Hace dos dcadas
que el nivel de acceso a la informacin se ha expandido enormemente,
especialmente a los usuarios finales quienes se han volcado a las PCs
monousuarias y las PCs en redes.
Elementos constituyentes de una
Arquitectura de un Data WareHouse
Actualmente, existen herramientas ms y ms sofisticadas para
manipular, analizar y presentar los datos, sin embargo, hay problemas
significativos al tratar de convertir los datos tal como han sido
recolectados y que se encuentran contenidos en los sistemas
operacionales en informacin fcil y transparente para las herramientas de
los usuarios finales. Una de las claves para esto es encontrar un lenguaje
de datos comn que puede usarse a travs de toda la empresa.


Elementos constituyentes de una
Arquitectura de un Data WareHouse
Elementos constituyentes de una
Arquitectura de un Data WareHouse

Nivel de acceso a los datos
El nivel de acceso a los datos de la arquitectura data warehouse est
involucrado con el nivel de acceso a la informacin para conversar en el
nivel operacional. En la red mundial de hoy, el lenguaje de datos comn
que ha surgido es SQL. Originalmente, SQL fue desarrollado por IBM
como un lenguaje de consulta, pero en los ltimos veinte aos ha llegado
a ser el estndar para el intercambio de datos.

Uno de los adelantos claves de los ltimos aos ha sido el desarrollo de
una serie de "filtros" de acceso a datos, tales como EDA/SQL para
accesar a casi todo los Sistemas de Gestin de Base de Datos (Data
Base Management Systems - DBMSs) y sistemas de archivos de datos,
relacionales o no. Estos filtros permiten a las herramientas de acceso a la
informacin, accesar tambin a la data almacenada en sistemas de
gestin de base de datos que tienen veinte aos de antigedad.
Elementos constituyentes de una
Arquitectura de un Data WareHouse
El nivel de acceso a los datos no solamente conecta DBMSs diferentes y
sistemas de archivos sobre el mismo hardware, sino tambin a los
fabricantes y protocolos de red. Una de las claves de una estrategia data
warehousing es proveer a los usuarios finales con "acceso a datos
universales".

El acceso a los datos universales significa que, tericamente por lo menos,
los usuarios finales sin tener en cuenta la herramienta de acceso a la
informacin o ubicacin, deberan ser capaces de accesar a cualquier o todos
los datos en la empresa que es necesaria para ellos, para hacer su trabajo.

El nivel de acceso a los datos entonces es responsable de la interfase entre
las herramientas de acceso a la informacin y las bases de datos
operacionales. En algunos casos, esto es todo lo que un usuario final
necesita. Sin embargo, en general, las organizaciones desarrollan un plan
mucho ms sofisticado para el soporte del data warehousing.
Nivel de Directorio de Datos (Metadata)

A fin de proveer el acceso a los datos universales, es absolutamente
necesario mantener alguna forma de directorio de datos o repositorio de la
informacin metadata. La metadata es la informacin alrededor de los datos
dentro de la empresa.

Las descripciones de registro en un programa COBOL son metadata.
Tambin lo son las sentencias DIMENSION en un programa FORTRAN o las
sentencias a crear en SQL.

A fin de tener un depsito totalmente funcional, es necesario tener una
variedad de metadata disponibles, informacin sobre las vistas de datos de
los usuarios finales e informacin sobre las bases de datos operacionales.
Idealmente, los usuarios finales deberan de accesar a los datos desde el
data warehouse (o desde las bases de datos operacionales), sin tener que
conocer dnde residen los datos o la forma en que se han almacenados.
Elementos constituyentes de una
Arquitectura de un Data WareHouse
Elementos constituyentes de una
Arquitectura de un Data WareHouse
Nivel de Gestin de Procesos

El nivel de gestin de procesos tiene que ver con la programacin de diversas
tareas que deben realizarse para construir y mantener el data warehouse y la
informacin del directorio de datos. Este nivel puede depender del alto nivel de
control de trabajo para muchos procesos (procedimientos) que deben ocurrir
para mantener el data warehouse actualizado.

Nivel de Mensaje de la Aplicacin

El nivel de mensaje de la aplicacin tiene que ver con el transporte de
informacin alrededor de la red de la empresa. El mensaje de aplicacin se
refiere tambin como "subproducto", pero puede involucrar slo protocolos de
red. Puede usarse por ejemplo, para aislar aplicaciones operacionales o
estratgicas a partir del formato de datos exacto, recolectar transacciones o los
mensajes y entregarlos a una ubicacin segura en un tiempo seguro.
Elementos constituyentes de una
Arquitectura de un Data WareHouse
Nivel Data Warehouse (Fsico)

En el data warehouse (ncleo) es donde ocurre la data actual, usada
principalmente para usos estratgicos. En algunos casos, uno puede
pensar del data warehouse simplemente como una vista lgica o virtual de
datos. En muchos ejemplos, el data warehouse puede no involucrar
almacenamiento de datos.

En un data warehouse fsico, copias, en algunos casos, muchas copias de
datos operacionales y/o externos, son almacenados realmente en una
forma que es fcil de accesar y es altamente flexible. Cada vez ms, los
data warehouses son almacenados sobre plataformas cliente/servidor,
pero por lo general se almacenan sobre mainframes.
Nivel de Organizacin de Datos

El componente final de la arquitectura data warehouse es la organizacin
de los datos. Se llama tambin gestin de copia o rplica, pero de hecho,
incluye todos los procesos necesarios como seleccionar, editar, resumir,
combinar y cargar datos en el depsito y accesar a la informacin desde
bases de datos operacionales y/o externas.

La organizacin de datos involucra con frecuencia una programacin
compleja, pero cada vez ms, estn crendose las herramientas data
warehousing para ayudar en este proceso. Involucra tambin programas
de anlisis de calidad de datos y filtros que identifican modelos y
estructura de datos dentro de la data operacional existente.
Elementos constituyentes de una
Arquitectura de un Data WareHouse
la Figura sig. muestra algunos de los tipos de operaciones que se
efectan dentro de un ambiente data warehousing.
Operaciones de un Data WareHouse
a) Sistemas Operacionales

Los datos administrados por los sistemas de aplicacin operacionales
son la fuente principal de datos para el data warehouse.

Las bases de datos operacionales se organizan como archivos indexados
(UFAS, VSAM), bases de datos de redes/jerrquicas (I-D-S/II, IMS, IDMS)
o sistemas de base de datos relacionales (DB2, Oracle, Informix, etc.).
Segn las encuestas, aproximadamente del 70% a 80% de las bases de
datos de las empresas se organizan usando DBMSs no relacional.
Operaciones de un Data WareHouse
Operaciones de un Data WareHouse
b) Extraccin, Transformacin y Carga de los Datos

Se requieren herramientas de gestin de datos para extraer datos desde
bases de datos y/o archivos operacionales, luego es necesario manipular o
transformar los datos antes de cargar los resultados en el data warehouse.

Tomar los datos desde varias bases de datos operacionales y transformarlos
en datos requeridos para el depsito, se refiere a la transformacin o a la
integracin de datos. Las bases de datos operacionales, diseadas para el
soporte de varias aplicaciones de produccin, frecuentemente difieren en el
formato.

Los mismos elementos de datos, si son usados por aplicaciones diferentes o
administrados por diferentes software DBMS, pueden definirse al usar
nombres de elementos inconsistentes, que tienen formatos inconsistentes y/o
ser codificados de manera diferente. Todas estas inconsistencias deben
resolverse antes que los elementos de datos sean almacenados en el data
warehouse.
Operaciones de un Data WareHouse
c) Metadata

Otro paso necesario es crear la metadata. La metadata (datos acerca de
datos) describe los contenidos del data warehouse.

La metadata consiste de definiciones de los elementos de datos en el
depsito, sistema(s) del (os) elemento(s) fuente. Como la data, se integra
y transforma antes de ser almacenada en informacin similar.
Operaciones de un Data WareHouse
d) Acceso de usuario final

Los usuarios accesan al data warehouse por medio de herramientas de
productividad basadas en GUI (Graphical User Interface - Interfase grfica
de usuario). Pueden proveerse a los usuarios del data warehouse muchos
de estos tipos de herramientas.

Estos pueden incluir software de consultas, generadores de reportes,
procesamiento analtico en lnea, herramientas data/visual mining, etc.,
dependiendo de los tipos de usuarios y sus requerimientos particulares.
Sin embargo, una sola herramienta no satisface todos los requerimientos,
por lo que es necesaria la integracin de una serie de herramientas.
e) Plataforma del data warehouse

La plataforma para el data warehouse es casi siempre un servidor de base
de datos relacional. Cuando se manipulan volmenes muy grandes de
datos puede requerirse una configuracin en bloque de servidores UNIX
con multiprocesador simtrico (SMP) o un servidor con procesador
paralelo masivo (MPP) especializado.

Los extractos de la data integrada/transformada se cargan en el data
warehouse. Uno de los ms populares RDBMSs disponibles para data
warehousing sobre la plataforma UNIX (SMP y MPP) generalmente es
Teradata. La eleccin de la plataforma es crtica. El depsito crecer y hay
que comprender los requerimientos despus de 3 o 5 aos.

Operaciones de un Data WareHouse
e) Plataforma del data warehouse (cont.)

Muchas de las organizaciones quieran o no escogen una plataforma por
diversas razones: el Sistema X es nuestro sistema elegido o el Sistema Y
est ya disponible sobre un sistema UNIX que nosotros ya tenemos. Uno
de los errores ms grandes que las organizaciones cometen al
seleccionar la plataforma, es que ellos presumen que el sistema
(hardware y/o DBMS) escalar con los datos.

El sistema de depsito ejecuta las consultas que se pasa a los datos por
el software de acceso a los datos del usuario. Aunque un usuario visualiza
las consultas desde el punto de vista de un GUI, las consultas tpicamente
se formulan como pedidos SQL, porque SQL es un lenguaje universal y el
estndar de hecho para el acceso a datos.
Operaciones de un Data WareHouse
f) Datos Externos

Dependiendo de la aplicacin, el alcance del data warehouse puede
extenderse por la capacidad de accesar a la data externa. Por ejemplo,
los datos accesibles por medio de servicios de computadora en lnea
(tales como CompuServe y America On Line) y/o va Internet, pueden
estar disponibles a los usuarios del data warehouse.
Operaciones de un Data WareHouse
Operaciones de un Data WareHouse

Evolucin del Depsito

Construir un data warehouse es una tarea grande. No es recomendable
emprender el desarrollo del data warehouse de la empresa como un
proyecto cualquiera. Ms bien, se recomienda que los requerimientos de
una serie de fases se desarrollen e implementen en modelos consecutivos
que permitan un proceso de implementacin ms gradual e iterativo.

No existe ninguna organizacin que haya triunfado en el desarrollo del
data warehouse de la empresa, en un slo paso. Muchas, sin embargo, lo
han logrado luego de un desarrollo paso a paso. Los pasos previos
evolucionan conjuntamente con la materia que est siendo agregada.
Operaciones de un Data WareHouse
Los datos en el data warehouse no son voltiles y es un repositorio de datos
de slo lectura (en general). Sin embargo, pueden aadirse nuevos
elementos sobre una base regular para que el contenido siga la evolucin de
los datos en la base de datos fuente, tanto en los contenidos como en el
tiempo.
Uno de los desafos de mantener un data warehouse, es idear mtodos para
identificar datos nuevos o modificados en las bases de datos operacionales.
Algunas maneras para identificar estos datos incluyen insertar fecha/tiempo
en los registros de base de datos y entonces crear copias de registros
actualizados y copiar informacin de los registros de transaccin y/o base de
datos diarias.
Estos elementos de datos nuevos y/o modificados son extrados, integrados,
transformados y agregados al data warehouse en pasos peridicos
programados. Como se aaden las nuevas ocurrencias de datos, los datos
antiguos son eliminados. Por ejemplo, si los detalles de un sujeto particular se
mantienen por 5 aos, como se agreg la ltima semana, la semana anterior
es eliminada.
Transformacin de datos y metadatos
Transformacin de Datos

Uno de los desafos de cualquier implementacin de data warehouse, es
el problema de transformar los datos. La transformacin se encarga de las
inconsistencias en los formatos de datos y la codificacin, que pueden
existir dentro de una base de datos nica y que casi siempre existen
cuando mltiples bases de datos contribuyen al data warehouse.

En la Figura sig. se ilustra una forma de inconsistencia, en la cual
el gnero se codifica de manera diferente en tres bases de datos
diferentes. Los procesos de transformacin de datos se desarrollan para
direccionar estas inconsistencias.
Transformacin de datos y metadatos
Transformacin de Datos
Transformacin de datos y metadatos
La transformacin de datos tambin se encarga de las inconsistencias en
el contenido de datos. Una vez que se toma la decisin sobre que reglas
de transformacin sern establecidas, deben crearse e incluirse las
definiciones en las rutinas de transformacin.

Se requiere una planificacin cuidadosa y detallada para transformar
datos inconsistentes en conjuntos de datos conciliables y consistentes
para cargarlos en el data warehouse.
Transformacin de Datos
Transformacin de datos y metadatos
Metadata

Otro aspecto de la arquitectura de data warehouse es crear soporte a la
metadata. Metadata es la informacin sobre los datos que se alimenta, se
transforma y existe en el data warehouse. Metadata es un concepto
genrico, pero cada implementacin de la metadata usa tcnicas y
mtodos especficos.

Estos mtodos y tcnicas son dependientes de los requerimientos de
cada organizacin, de las capacidades existentes y de los requerimientos
de interfase de usuario. Hasta ahora, no hay normas para la metadata, por
lo que la metadata debe definirse desde el punto de vista del software
data warehousing, seleccionado para una implementacin especfica.
Transformacin de datos y metadatos
Metadata

Tpicamente, la metadata incluye los siguientes tems:

Las estructuras de datos que dan una visin de los datos
al administrador de datos.
Las definiciones del sistema de registro desde el cual se construye el
data warehouse.
Las especificaciones de transformaciones de datos que ocurren tal
como la fuente de datos se replica al data warehouse.
El modelo de datos del data warehouse (es decir, los elementos de
datos y sus relaciones).
Un registro de cuando los nuevos elementos de datos se agregan al
data warehouse y cuando los elementos de datos antiguos se
eliminan o se resumen.
Los niveles de sumarizacin, el mtodo de sumarizacin y las tablas
de registros de su data warehouse.
Metadata

Algunas implementaciones de la metadata tambin incluyen definiciones de la(s) vista(s)
presentada(s) a los usuarios del data warehouse. Tpicamente, se definen vistas mltiples
para favorecer las preferencias variadas de diversos grupos de usuarios. En otras
implementaciones, estas descripciones se almacenan en un Catlogo de Informacin.

Los esquemas y subesquemas para bases de datos operacionales, forman una fuente
ptima de entrada cuando se crea la metadata. Hacer uso de la documentacin existente,
especialmente cuando est disponible en forma electrnica, puede acelerar el proceso de
definicin de la metadata del ambiente data warehousing.

La metadata sirve, en un sentido, como el corazn del ambiente data warehousing. Crear
definiciones de metadata completa y efectiva puede ser un proceso que consuma tiempo,
pero lo mejor de las definiciones y si usted usa herramientas de gestin de software
integrado, son los esfuerzos que darn como resultado el mantenimiento del data
warehouse.
Transformacin de datos y metadatos
Existe un flujo de datos normal y predecible dentro del data warehouse. La Figura N 10
muestra ese flujo.
Los datos ingresan al data warehouse desde el ambiente operacional. (Hay pocas
excepciones a esta regla).

Al ingresar al data warehouse, la informacin va al nivel de detalle actual, tal como se
muestra. Se queda all y se usa hasta que ocurra uno de los tres eventos siguientes:

Sea eliminado
Sea resumido
Sea archivado
Con el proceso de desactualizacin en un data warehouse se mueve el detalle de la data
actual a data antigua, basado en el tiempo de los datos. El proceso de esquematizacin
usa el detalle de los datos para calcular los datos en forma ligera y completamente
resumidos.

Hay pocas excepciones al flujo mostrado. Sin embargo, en general, para la mayora de
datos encontrados en un data warehouse, el flujo de la informacin es como se ha
explicado.
Flujo de datos
Flujo de datos
Medios de almacenamiento para informacin
antigua
El smbolo mostrado en la Figura sig. para medios de almacenamiento de
informacin antigua es la cinta magntica, que puede usarse para almacenar
este tipo de informacin. De hecho hay una amplia variedad de medios de
almacenamiento que deben considerarse para almacenar datos ms
antiguos. En la figura se muestra algunos de esos medios.
Dependiendo del volumen de informacin, la frecuencia de acceso, el costo
de los medios y el tipo de acceso, es probable que otros medios de
almacenamiento sirvan a las necesidades del nivel de detalle ms antiguo en
el data warehouse.
Usos del Data WareHouse
Los datos operacionales y los datos del data warehouse son accesados
por usuarios que usan los datos de maneras diferentes.
Usos del Data WareHouse
Los usuarios de un data warehouse necesitan accesar a los datos
complejos, frecuentemente desde fuentes mltiples y de formas no
predecibles.

Los usuarios que accesan a los datos operacionales, comnmente
efectan tareas predefinidas que, generalmente requieren acceso a una
sola base de datos de una aplicacin. Por el contrario, los usuarios que
accesan al data warehouse, efectan tareas que requieren acceso a
un conjunto de datos desde fuentes mltiples y frecuentemente no son
predecibles. Lo nico que se conoce (si es modelada correctamente) es el
conjunto inicial de datos que se han establecido en el depsito.
Usos del Data WareHouse
Por ejemplo, un especialista en el cuidado de la salud podra necesitar
accesar a los datos actuales e histricos para analizar las tendencias de
costos, usando un conjunto de consultas predefinidas. Por el contrario, un
representante de ventas podra necesitar accesar a los datos de cliente y
producto para evaluar la eficacia de una campaa de marketing, creando
consultas base o ad-hoc para encontrar nuevamente necesidades
definidas.

Slo pocos usuarios accesan a los datos concurrentemente

En contraste a la produccin de sistemas que pueden manejar cientos o
miles de usuarios concurrentes, al data warehouse accesa un limitado
conjunto de usuarios en cualquier tiempo determinado.

Usos del Data WareHouse
Los usuarios generan un procesamiento no predecible complejo

Los usuarios del data warehouse generan consultas complejas. A veces la
respuesta a una consulta conduce a la formulacin de otras preguntas
ms detalladas, en un proceso llamado drilling down. El data warehouse
puede incluir niveles de resmenes mltiples, derivado de un conjunto
principal, nico, de datos detallados, para soportar este tipo de uso.

En efecto, los usuarios frecuentemente comienzan buscando en los datos
resumidos y como identifican reas de inters, comienzan a accesar al
conjunto de datos detallado. Los conjuntos de datos resumidos
representan el "Qu" de una situacin y los conjuntos de datos detallados
permiten a los usuarios construir un cuadro sobre "Cmo" se ha derivado
esa situacin.

Usos del Data WareHouse
Las consultas de los usuarios accesan a cantidades grandes de
datos
Debido a la necesidad de investigar tendencias y evaluar las relaciones
entre muchas clases de datos, las consultas al data warehouse permiten
accesar a volmenes muy grandes tanto de data detallada como
resumida. Debido a los requerimientos de datos histricos, los data
warehouses evolucionan para llegar a un tamao ms grande que sus
orgenes operacionales (de 10 a 100 veces ms grande).
Usos del Data WareHouse

Las consultas de los usuarios no tienen tiempos de respuesta
crticos
Las transacciones operacionales necesitan una respuesta inmediata
porque un cliente puede estar esperando una respuesta. En el data
warehouse, por el contrario, tiene un requerimiento de respuesta no-crtico
porque el resultado frecuentemente se usa en un proceso de anlisis
y toma de decisiones. Aunque los tiempos de respuesta no son crticos,
los usuarios esperan una respuesta dentro del mismo da en que es hecha
la consulta.
Por lo general, los diferentes niveles de datos dentro del data warehouse
reciben diferentes usos. A ms alto nivel de esquematizacin, se tiene
mayor uso de los datos.

En la Figura sig. se muestra que hay mayor uso de los datos
completamente resumidos, a diferencia de la informacin antigua que
apenas es usada.

Hay una buena razn para mover una organizacin al paradigma sugerido
en la figura, la utilizacin del recurso. La data ms resumida, permite
capturar los datos en forma ms rpida y eficiente. Si en una tarea se
encuentra que se hace mucho procesamiento a niveles de detalle del data
warehouse, entonces se consumir muchos recursos de mquina. Es
mejor hacer el procesamiento a niveles ms altos de esquematizacin
como sea posible.

Usos del Data WareHouse
Para muchas tareas, el analista de sistemas de soporte de decisiones usa
la informacin a nivel de detalle en un pre data warehouse. La seguridad
de la informacin de detalle se consigue de muchas maneras, aun cuando
estn disponibles otros niveles de esquematizacin. Una de las
actividades del diseador de datos es el de desconectar al usuario del
sistema de soporte de decisiones del uso constante de datos a nivel de
detalle ms bajo.
Usos del Data WareHouse
Usos del Data WareHouse
Usos del Data WareHouse
El diseador de datos tiene dos predisposiciones:

Instalar un sistema chargeback, donde el usuario final pague por los
recursos consumidos
Sealar el mejor tiempo de respuesta que puede obtenerse cuando se
trabaja con la data a un nivel alto de esquematizacin, a diferencia de
un pobre tiempo de respuesta que resulta de trabajar con los datos a
un nivel bajo de detalle.
Usos del Data WareHouse
Ejemplo:

Preparacin de un reporte complejo

Considere un problema bastante tpico en una compaa de fabricacin grande en el que se pide una informacin (un
reporte) que no est disponible.

El informe incluye las finanzas actuales, el inventario y la condicin de personal, acompaado de comparaciones del
mes actual con el anterior y el mismo mes del ao anterior, con una comparacin adicional de los 3 aos precedentes. Se
debe explicar cada desviacin de la tendencia que cae fuera de un rango predefinido.

Sin un data warehouse, el informe es preparado de la manera siguiente:

La informacin financiera actual se obtiene desde una base de datos mediante un programa de extraccin de datos, el
inventario actual de otro programa de extraccin de otra base de datos, la condicin actual de personal de un tercer
programa de extraccin y la informacin histrica desde un backup de cinta magntica o CD-ROM.

Lo ms interesante es que se ha pedido otro informe que contine al primer informe (debido a que las preguntas se
originaron a partir del anterior). El hecho es, que ninguno de los trabajos realizados hasta aqu (por ejemplo, diversos
programas de extraccin) se pueden usar para los prximos o para cualquier reporte subsiguiente. Imagine el tiempo y el
esfuerzo que se ha desperdiciado por un enfoque anticuado. (Ver Figura N 13).

Las inconsistencias deben identificarse en cada conjunto de datos extrados y resolverse, por lo general, manualmente.
Cuando se completa todo este procesamiento, el reporte puede ser formateado, impreso, revisado y transmitido.

Nuevamente, el punto importante aqu es que todo el trabajo desempeado para hacer este informe no afecta a otros
reportes que pueden solicitarse es decir, todos ellos son independientes y caros, desde el punto de vista de recursos y
productividad.
Usos del Data WareHouse
Al crear un data warehouse y combinar todos los datos requeridos, se obtienen los siguientes beneficios:

Las inconsistencias de los datos se resuelven automticamente cuando los elementos de datos se cargan
en el data warehouse, no manualmente, cada vez que se prepara un reporte.
Los errores que ocurrieron durante el proceso complejo de la preparacin del informe, se minimizan
porque el proceso es ahora mucho ms simple.
Los elementos de datos son fcilmente accesibles para otros usos, no slo para un reporte particular.
Se crea una sola fuente.
Consideraciones adicionales
Hay algunas consideraciones adicionales que deben tenerse en cuenta al
construir y administrar el data warehouse.

La primera consideracin es respecto al ndice. La informacin de los
niveles de esquematizacin ms altos pueden ser libremente
indexados, mientras que las de los niveles ms bajos de detalle, por ser
tan voluminosa, pueden ser indexados moderadamente.
Por lo mismo, los datos en los niveles ms altos de detalle pueden ser
reestructurados fcilmente, mientras que el volumen de datos en los
niveles ms inferiores es tan grande, que los datos no pueden ser
fcilmente reestructurados.

Por consiguiente, el modelo de datos y el diseo clsico fundamentan que
el data warehouse se aplique casi exclusivamente al nivel actual de
detalle. En otras palabras, las actividades de modelamiento de datos no
se aplican a los niveles de esquematizacin, en casi todos los casos.
Otra consideracin estructural es la particin de la informacin en el
data warehouse. El nivel de detalle actual es casi siempre particionado.

La particin puede hacerse de dos maneras: al nivel de DBMS y al nivel
de la aplicacin. En la particin DBMS, se conoce las particiones y se
administra por consiguiente. En el caso de la particin de las aplicaciones,
slo los programadores de las mismas conocen las particiones y la
responsabilidad de su administracin es asignada a ellos.

Al interior de las particiones DBMS, mucho de los trabajos de
infraestructura se hacen automticamente. Pero existe un elevado grado
de rigidez asociada con la gestin automtica de las particiones. En el
caso de las particiones de las aplicaciones del data warehouse, la mayor
parte del trabajo recae sobre el programador, pero el resultado final es
que la gestin de datos es ms flexible.
Consideraciones adicionales
Ejemplo de un Data WareHouse
Se muestra slo el detalle actual, no as los niveles de esquematizacin ni
los archivos de detalle ms antiguos.
Adems, se observa que hay tablas del mismo tipo divididas a travs
del tiempo. Por ejemplo, para el histrico de la fabricacin de las piezas, hay
muchas tablas separadas fsicamente, representando cada una un trimestre
diferente. La estructura de los datos es consistente con la tabla de la
elaboracin de las piezas, aunque fsicamente hay muchas tablas que
lgicamente incluyen el histrico.

Para los diferentes tipos de tablas hay diferentes unidades de tiempo que
fsicamente dividen las unidades de informacin. El histrico de fabricacin
est dividido por trimestres, el histrico de la orden de piezas est dividido por
aos y el histrico de cliente es un archivo nico, no dividido por el tiempo.

As tambin, las diferentes tablas son vinculadas por medio de un
identificador comn, piezas u rdenes de piezas (la representacin de la
interrelacin en el ambiente de depsito toma una forma muy diferente al de
otros ambientes, tal como el ambiente operacional).
Ejemplo de un Data WareHouse
Excepciones en el Data WareHouse
Mientras que los componentes del data warehouse trabajan de acuerdo al
modelo descrito para casi todos los datos, hay pocas excepciones tiles que
necesitan ser discutidas.

Una de ellas es la data resumida pblica, que es la data que ha sido
calculada fuera del data warehouse pero es usada a travs de la
corporacin. La data resumida pblica se almacena y administra en el
data warehouse, aunque su clculo se haya hecho fuera de l.

Un ejemplo clsico de data resumida pblica es el archivamiento trimestral
hecho por cada compaa pblica. Los contadores trabajan para producir
cantidades como rentas trimestrales, gastos trimestrales, ganancias
trimestrales y otros. El trabajo hecho por los contadores est fuera del data
warehouse. Sin embargo, esas cantidades referenciales producidas por ellos
se usan ampliamente dentro de la corporacin para marketing, ventas, etc.
Una vez que se haya hecho el archivo, los datos se almacenan en el data
warehouse.
Excepciones en el Data WareHouse

Otra excepcin no considerada en este documento es la data externa.

Otro excepcional tipo de datos a veces encontrados en un data warehouse
es el detalle de los datos permanentes, que resulta de la necesidad de una
corporacin para almacenar la data a un nivel detallado permanentemente
por razones ticas o legales.

Si una corporacin expone a sus trabajadores a sustancias peligrosas hay una
necesidad de detalle de datos permanente. Si una corporacin produce un
producto que involucra la seguridad pblica, tal como la construccin de las
partes de aviones, hay una necesidad de datos permanentes. Si una corporacin
se compromete con contratos peligrosos, hay una necesidad de detalle de datos
permanentes.

La organizacin simplemente no puede dejar los detalles porque
en futuros aos, en el caso de una demanda, una notificacin, un edificio en
disputa, etc., se incrementara la exposicin de la compaa. Por lo tanto hay
un nico tipo de datos en el data warehouse conocido como detalle de datos
permanentes.
Excepciones en el Data WareHouse
El detalle de datos permanentes comparte muchas de las mismas
consideraciones como otro data warehouse, excepto que:

El medio donde se almacena la data debe ser tan seguro como
sea posible.

Los datos deben permitir ser restaurados.

Los datos necesitan un tratamiento especial en su indexacin, ya que de
otra manera los datos pueden no ser accesibles aunque se haya
almacenado con mucha seguridad.

S-ar putea să vă placă și