Sunteți pe pagina 1din 29

UNIDAD I: INTRODUCCION Y CONCEPTOS BASICO

1. Definición de almacén de datos


1.1 Definición de Bill Inmon
1.2 Definición de Ralf Kimball
1.3 Una definición más amplia de almacén de datos
2. Función de un almacén de datos
3. Características del DATA WAREHOUSE
4. Cubos de información
4.1 Dimensiones
4.2 Variables
4.3 Ejemplos
5. Elementos que integran un almacén de datos
5.1 Metadatos
5.2 Funciones ETL (Extracción, transformación y carga)
5.3 Middleware

UNIDAD II: DISEAÑO DE UN ALMACEN DE DATOS

1. Almacén de datos Espacial


2. Ventajas e inconvenientes de los almacenes de datos
2.2.1 Ventajas
2.2.2 Inconveniente
UNIDAD I: INTRODUCCION Y CONCEPTOS BASICO

1. Definición de almacén de datos

Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y


depurar información de una o más fuentes distintas, para luego procesarla permitiendo su
análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de
un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de
vista técnico, para implantar una solución completa y fiable de Business Intelligence.

La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se
almacena la información. Este tipo de persistencia de la información es homogénea y fiable, y
permite la consulta y el tratamiento jerarquizado de la misma.

El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce
literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que
eso.
William H. ( Bill ) Inmon (nacido en 1945) es un científico informático estadounidense ,
reconocido por muchos como el padre del almacén de datos . Inmon escribió el primer libro,
realizó la primera conferencia (con Arnie Barnett ), escribió la primera columna en una revista
y fue el primero en ofrecer clases de almacenamiento de datos . Inmon creó la definición
aceptada de lo que es un almacén de datos: una recopilación de datos, orientada al tema, no
volátil e integrada en el tiempo que respalda las decisiones de la gerencia. Comparado con el
enfoque del otro arquitecto pionero del almacenamiento de datos, Ralph Kimball El enfoque
de Inmon se caracteriza a menudo como un enfoque de arriba hacia abajo.

Paradigma Bill Inmon.


Bill Inmon ve la necesidad de transferir la información de los diferentes OLTP (Sistemas
Transaccionales) de las organizaciones a un lugar centralizado donde los datos puedan ser
utilizados para el análisis (sería el CIF o Corporate Information Factory). Insiste además en que
ha de tener las siguientes características:

Orientado a temas.- Los datos en la base de datos están organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.
Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la
organización, y dichos datos deben ser consistentes.

No volátil.- La información no se modifica ni se elimina, una vez almacenado un dato, éste se


convierte en información de sólo lectura, y se mantiene para futuras consultas.
Variante en el tiempo.- Los cambios producidos en los datos a lo largo del tiempo quedan
registrados para que los informes que se puedan generar reflejen esas variaciones.

La información ha de estar a los máximos niveles de detalle. Los Dw departamentales o


datamarts son tratados como subconjuntos de este Dw corporativo, que son construidos para
cubrir las necesidades individuales de análisis de cada departamento, y siempre a partir de
este Dw Central (del que también se pueden construir los ODS ( Operational Data Stores ) o
similares).
Enfoque Inmon - DW Corporativo

El enfoque Inmon también se referencia normalmente como Top-down. Los datos son
extraídos de los sistemas operacionales por los procesos ETL y cargados en las áreas de stage,
donde son validados y consolidados en el DW corporativo, donde además existen los llamados
metadatos que documentan de una forma clara y precisa el contenido del DW. Una vez
realizado este proceso, los procesos de refresco de los Data Mart departamentales obtienen la
información de él, y con las consiguientes transformaciones, organizan los datos en las
estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.

La metodología para la construcción de un sistema de este tipo es la habitual para construir un


sistema de información, utilizando las herramientas habituales (esquema Entidad Relación, DIS
(Data Item Sets, etc). Para el tratamiento de los cambios en los datos, usa la Continue and
Discrete Dimension Management (inserta fechas en los datos para determinar su validez para
las Continue Dimension o bien mediante el concepto de snapshot o foto para las Discrete
Dimension).

Al tener este enfoque global, es más difícil de desarrollar en un proyecto sencillo (pues
estamos intentando abordar el “todo”, a partir del cual luego iremos al “detalle”).

Para él, un DataWarehouse ha de entenderse como un almacén de datos único y global para
toda la empresa.

Un datawarehouse se caracteriza por ser:

* Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura


consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales
deben ser eliminadas. La información suele estructurarse también en distintos niveles de
detalle para adecuarse a las distintas necesidades de los usuarios.

* Temático: sólo los datos necesarios para el proceso de generación del conocimiento del
negocio se integran desde el entorno operacional. Los datos se organizan por temas para
facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los
datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta
forma, las peticiones de información sobre clientes serán más fáciles de responder dado que
toda la información reside en el mismo lugar.

* Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse.


En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio
en el momento presente. Por el contrario, la información almacenada en el datawarehouse
sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se
carga con los distintos valores que toma una variable en el tiempo para permitir
comparaciones.

* No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no


modificado. La información es por tanto permanente, significando la actualización del
datawarehouse la incorporación de los últimos valores que tomaron las distintas variables
contenidas en él sin ningún tipo de acción sobre lo que ya existía.
Ralph Kimball (nacido en 1944) es un autor en el tema de almacenamiento de datos e
inteligencia comercial. Es uno de los arquitectos originales del almacenamiento de datos y es
conocido por sus convicciones a largo plazo de que los almacenes de datos deben diseñarse
para que sean comprensibles y rápidos. Su metodología, también conocida como modelado
dimensional o la metodología de Kimball, se ha convertido en el estándar de facto en el área
de soporte de decisiones.

Ralph Kimball

Paradigma Ralph Kimball.

El Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa,
siendo una copia de los datos transaccionales estructurados de una forma especial para el
análisis, de acuerdo al Modelo Dimensional (no normalizado), que incluye, las dimensiones de
análisis y sus atributos, su organización jerárquica, así como los diferentes hechos de negocio
que se quieren analizar. Por un lado tenemos tablas para las representar las dimensiones y por
otro lado tablas para los hechos. Los diferentes Data Marts estan conectados entre sí por la
llamada bus structure, que contiene los elementos anteriormente citados a través de las
dimensiones conformadas (que permiten que los usuarios puedan realizar querys conjuntos
sobre los diferentes data marts, pues este bus contiene los elementos en común que los
comunican). Una dimensión conformada puede ser, por ejemplo, la dimensión cliente, que
incluye todos los atributos o elementos de análisis referentes a los clientes y que puede ser
compartida por diferentes data marts (ventas, pedidos, gestión de cobros, etc).
Este enfoque también se referencia como Bottom-up, pues al final el Datawarehouse
Corporativo no es más que la unión de los diferentes datamarts, que están estructurados de
una forma común a través de la bus structure. Esta característica le hace más flexible y sencillo
de implementar, pues podemos construir un Data Mart como primer elemento del sistema de
análisis, y luego ir añadiendo otros que comparten las dimensiones ya definidas o incluyen
otras nuevas. En este sistema, los procesos ETL extraen la información de los sistemas
operacionales y los procesan igualmente en el area stage, realizando posteriormente el llenado
de cada uno de los Data Mart de una forma individual, aunque siempre respetando la
estandarizacion de las dimensiones (dimensiones conformadas).

La metodología para la construcción del Dw incluye las 4 fases que vimos en la entrada
anterior del blog, que son: Selección del proceso de negocio, definición de la granularidad de la
información, elección de las dimensiones de análisis e identificación de los hechos o métricas.
Igualmente define el tratamiento de los cambios en los datos a través de las Dimensiones
Lentamente Cambiantes (SCD).
Inmon y Kimball

El datawarehouse de Kimball está orientado a la consulta de la información, por lo que su


estructura interna está especialmente diseñada para garantizar una explotación de los datos
rápida y sencilla, no requiriendo usuarios especializados para ello. Por el contrario, el
datawarehouse de Inmon persigue la integración de todos los datos de la compañía, estando
orientado hacia el almacenaje de grandes volúmenes de datos, por lo que su estructura
interna normalizada se diseña para evitar la redundancia de datos, simplificar las labores de
mantenimiento, etc. cuestiones que complican las consultas de la información, requiriendo
que los usuarios finales estén mucho más especializados.

Así, podríamos decir que el enfoque de Kimball se ajusta más a proyectos pequeños en los que
se persiga un sistema fácilmente explotable y entendible por el usuario y de rápido desarrollo,
siendo el modelo de Inmon más apropiado para sistemas complejos de mayor envergadura.

Todo proyecto tiene sus propias peculiaridades, siendo cada caso único e independiente, por
lo que resulta necesario llevar a cabo un estudio de todas ellas antes de decantarnos por una
solución u otra, de forma que podamos hacernos una idea sobre qué modelo se ajusta mejor a
las condiciones de nuestro proyecto.

Una definición más amplia

Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para
obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y
generar información, así como las diferentes formas para realizar la gestión de datos son
componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos
utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas
para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia
empresarial) y herramientas para gestionar y recuperar los metadatos.
Los objetivos fundamentales de un Data WareHouse son:

Hace que la información de la organización sea accesible: los contenidos del Data WareHouse
son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño.
Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de
entendible significa, que los niveles de la información sean correctos y obvios. Y Navegables
significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic.
Rápido desempeño significa, cero tiempos de espera. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar.

Hacer que la información de la organización sea consistente: la información de una parte de


la organización puede hacerse coincidir con la información de la otra parte de la organización.
Si dos medidas de la organización tienen el mismo nombre, entonces deben significar la misma
cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados
diferentes. Información consistente significa, información de alta calidad. Significa que toda la
información es contabilizada y completada. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar.

Es información adaptable y elástica: el Data WareHouse esta diseñado para cambios


continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las
tecnologías no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse,
los datos existentes y las tecnologías tampoco cambian ni se corrompen. El diseño de Data
Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo
lo demás es un compromiso y por consiguiente algo que queremos mejorar.

Es un seguro baluarte que protege los valores de la información: el Data WareHouse no


solamente controla el acceso efectivo a los datos, si no que da a los dueños de la información
gran visibilidad en el uso y abusos de los datos, aún después de haber dejado el Data
WareHouse. Todo lo demás es un compromiso y por consiguiente algo que queremos mejorar.

Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos correctos para
soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las
decisiones que son hechas después de que el Data WareHouse haya presentado las evidencias.
La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripción de lo que
queremos construir: un sistema de soporte a las decisiones.
Características del Datawarehouse
Entre sus principales características tenemos

 Orientado al tema
 Integrado
 De tiempo variante
 No volátil

Orientado a temas
Una primera característica del data warehouse es que la información se clasifica en base a los
aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste
con los clásicos procesos orientados a las aplicaciones.

En la Figura se muestra el contraste entre los dos tipos de orientaciones.

El ambiente operacional se diseña alrededor de las aplicaciones y funciones tales como


préstamos, ahorros, tarjeta bancaria y depósitos para una institución financiera por ejemplo,
una aplicación de ingreso de órdenes puede acceder a los datos sobre clientes, productos y
cuentas. La base de datos combina estos elementos en una estructura que acomoda las
necesidades de la aplicación.

En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente,


vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos pueden ser clientes,
productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y
profesores. Para un hospital pueden ser pacientes, personal médico, medicamentos, etc.

La alineación alrededor de las áreas de los temas afecta el diseño y la implementación de los
datos encontrados en el data warehouse. Las principales áreas de los temas influyen en la
parte más importante de la estructura clave.

Las aplicaciones están relacionadas con el diseño de la base de datos y del proceso. En data
warehousing se enfoca el modelamiento de datos y el diseño de la base de datos. El diseño del
proceso (en su forma clásica) no es separado de este ambiente.

Las diferencias entre la orientación de procesos y funciones de las aplicaciones y la orientación


a temas, radican en el contenido de la data a escala detallada. En el data warehouse se excluye
la información que no será usada por el proceso de sistemas de soporte de decisiones,
mientras que la información de las orientadas a las aplicaciones, contiene datos para satisfacer
de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el
analista de soporte de decisiones.

Otra diferencia importante está en la interrelación de la información. Los datos operacionales


mantienen una relación continua entre dos o más tablas basadas en una regla comercial que
está vigente. Las del data warehouse miden un espectro de tiempo y las relaciones
encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus
correspondientes relaciones de datos) se representan en el data warehouse, entre dos o más
tablas.

Integrado

Integra datos recolectados de diferentes sistemas operacionales de la organización y o fuentes


externas.

El aspecto más importante del ambiente data warehousing es que la información encontrada
al interior está siempre integrada.
La integración de datos se muestra de muchas maneras: en convenciones de nombres
consistentes, en la medida uniforme de variables, en la codificación de estructuras
consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.

El contraste de la integración encontrada en el data warehouse con la carencia de integración


el ambiente de aplicaciones, se muestran en la figura, con diferencias bien marcadas.

A través de los años, los diseñadores de las diferentes aplicaciones han tomado sus propias
decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños personalizados
se muestran de muchas maneras.

Se diferencian en la codificación, en las estructuras claves, en sus características físicas, en las


convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseñadores
de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa. La Figura mencionada,
muestra algunas de las diferencias más importantes en las formas en que se diseñan las
aplicaciones.

Codificación.
Los diseñadores de aplicaciones codifican el campo GENERO en varias formas. Un diseñador
representa GENERO como una “M” y una “F”, otros como un “1” y un “0”, otros como una “X”
y una “Y” e inclusive, como “masculino” y “femenino”.

No importa mucho cómo el GENERO llega al data warehouse. Probablemente “M” y “F” sean
tan buenas como cualquier otra representación. Lo importante es que sea de cualquier fuente
de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme.

Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicación, donde ha
sido representado en formato “M” y “F”, los datos deben convertirse al formato del
datawarehouse.

Medida de atributos.
Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad
de formas. Un diseñador almacena los datos de tuberías en centímetros, otros en pulgadas,
otros en millones de pies cúbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida
usadas en las diferentes bases de datos para transformarlas en una medida estándar común.
Cualquiera que sea la fuente, cuando la información de la tubería llegue al data warehouse
necesitará ser medida de la misma manera.

Convenciones de Nombramiento.
El mismo elemento es frecuentemente referido por nombres diferentes en las diversas
aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre de
usuario.

Fuentes Múltiples.
El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el proceso de
transformación debe asegurar que la fuente apropiada sea usada, documentada y movida al
depósito.
Tal como se muestra en la figura, los puntos de integración afectan casi todos los aspectos de
diseño – las características físicas de los datos, la disyuntiva de tener más de una de fuente de
datos, el problema de estándares de denominación inconsistentes, formatos de fecha
inconsistentes y otros.

Cualquiera que sea la forma del diseño, el resultado es el mismo – la información necesita ser
almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando
los sistemas operacionales subyacentes almacenen los datos de manera diferente.

Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su enfoque


deberá estar en el uso de los datos que se encuentre en el depósito, antes que preguntarse
sobre la confiabilidad o consistencia de los datos.

De tiempo variante (Variable en el tiempo)


Los datos son relativos a un periodo de tiempo y estos deben ser integrados periódicamente,
los mismos son almacenados como fotos que se corresponden a un periodo de tiempo.
Toda la información del data warehouse es requerida en algún momento. Esta característica
básica de los datos en un depósito, es muy diferente de la información encontrada en el
ambiente operacional. En éstos, la información se requiere al momento de acceder. En otras
palabras, en el ambiente operacional, cuando usted accede a una unidad de información,
usted espera que los valores requeridos se obtengan a partir del momento de acceso.

Como la información en el data warehouse es solicitada en cualquier momento (es decir, no


“ahora mismo”), los datos encontrados en el depósito se llaman de “tiempo variante”.

Los datos históricos son de poco uso en el procesamiento operacional. La información del
depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y
evaluación de tendencias. (Ver Figura).

El tiempo variante se muestra de varias maneras:

La más simple es que la información representa los datos sobre un horizonte largo de tiempo –
desde cinco a diez años.
El horizonte de tiempo representado para el ambiente operacional es mucho más corto – es
de valores actuales hasta sesenta a noventa días. Las aplicaciones que tienen un buen
rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una
cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones
operacionales tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas.

La segunda manera en la que se muestra el tiempo variante en el datawarehouse está en la


estructura clave. Cada estructura clave en el data warehouse contiene, implícita o
explícitamente, un elemento de tiempo como día, semana, mes, etc.

El elemento de tiempo está casi siempre al pie de la clave concatenada, encontrada en el data
warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que
un archivo completo se duplica al final del mes, o al cuarto.

La tercera manera en que aparece el tiempo variante es cuando la información del data
warehouse, una vez registrada correctamente, no puede ser actualizada. La información del
data warehouse es, para todos los propósitos prácticos, una serie larga de “snapshots” (vistas
instantáneas).

Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden
ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son
alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los
snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del
momento de acceso, pueden actualizarse de acuerdo a la necesidad.

No volátil
Los datos que son almacenados no sufren ninguna actualización solo son incrementados. El
período cubierto para un DW va de 2 a 10 años.

La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base
momento a momento. La perspectiva más grande, esencial para el análisis y la toma de
decisiones, requiere una base de datos estable.

En la Figura se muestra que la actualización (insertar, borrar y modificar), se hace


regularmente en el ambiente operacional sobre una base de registro por registro. Pero la
manipulación básica de los datos que ocurre en el data warehouse es mucho más simple. Hay
dos únicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay
actualización de datos (en el sentido general de actualización) en el depósito, como una parte
normal de procesamiento.

Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento
operacional y del data warehouse. En el nivel de diseño, la necesidad de ser precavido para
actualizar las anomalías no es un factor en el data warehouse, ya que no se hace la
actualización de datos. Esto significa que en el nivel físico de diseño, se pueden tomar
libertades para optimizar el acceso a los datos, particularmente al usar la normalización y
desnormalización física.

Otra consecuencia de la simplicidad de la operación del datawarehouse está en la tecnología


subyacente, utilizada para correr los datos en el depósito. Teniendo que soportar la
actualización de registro por registro en modo on-line (como es frecuente en el caso del
procesamiento operacional) requiere que la tecnología tenga un fundamento muy complejo
debajo de una fachada de simplicidad.
Cubos de información
Los cubos de información o también llamados cubos OLAP, son representaciones específicas y
segmentadas del DataWareHouse, en donde se realiza el cruce y conexión de los datos. En
otras palabras la forma de ver nuestro DataWareHouse es mediante los Cubos OLAP.

Desde una perspectiva conceptual, un cubo de datos es una pieza más en el engranaje de un
sistema de información denominado almacén de datos (data warehouse). El cubo está dotado
de una maquinaria interna que le permite procesar elevados volúmenes de datos en un
periodo relativamente corto de tiempo, y cuyo objetivo es siempre la obtención de un
resultado numérico (importes de ventas, gastos, cantidad de productos vendidos, etc.). Estos
resultados pueden cambiar en función de uno o varios filtros que apliquemos sobre el cubo. El
tiempo de respuesta es mínimo gracias a que el motor de procesamiento del cubo, realiza un
cálculo previo de las posibles combinaciones de resultados que el usuario puede solicitar. A los
diferentes resultados numéricos obtenidos se les denomina medidas, mientras que los
elementos utilizados para organizar/filtrar la información reciben el nombre de dimensiones.

Representado gráficamente, un cubo de datos se mostraría como la forma geométrica de la


cual toma su nombre, particionado horizontal y verticalmente en una serie de divisiones que
dan lugar a múltiples celdas o casillas, las cuales identifican cada uno de los posibles resultados
de las medidas, obtenidos por la intersección en cada celda de las dimensiones que conforman
el cubo. La siguiente figura muestra dicha representación gráfica de un cubo, con información
de ventas por productos, empleados y monedas. En los lados del cubo se sitúan las
dimensiones, cuyo cruce produce los resultados numéricos en las celdas.
Ventajas y Desventajas
Ventajas:
 Proporciona información clave para la toma de decisiones empresariales.
 Mejora la calidad de las decisiones tomadas.
 Especialmente útil para el medio y largo plazo.
 Son sistemas relativamente sencillos de instalar si las fuentes de datos y los objetivos
están claros.
 Muy útiles para el almacenamiento de análisis y consultas de históricos.
 Proporciona un gran poder de procesamiento de información.
 Permite una mayor flexibilidad y rapidez en el acceso a la información.
 Facilita la toma de decisiones en los negocios.
 Las empresas obtienen un aumento de la productividad.
 Proporciona una comunicación fiable entre todos los departamentos de la empresa.
 Mejora las relaciones con los proveedores y los clientes.
 Permite conocer qué está pasando en el negocio, es decir, estar siempre enterado de
los buenos y malos resultados.
 Transforma los datos en información y la información en conocimiento
 Permite hacer planes de forma más efectiva.
 Reduce los tiempos de respuesta y los costes de operación.
 DataWareHouse proporciona una información de gestión accesible, correcta, uniforme
y actualizada.
 Proporciona un menor coste en la toma de decisiones, una mayor flexibilidad ante el
entorno, un mejor servicio al cliente y permite el rediseño de los procesos.

Desventajas:
 Requieren una revisión del modelo de datos, objetos, transacciones y además del
almacenamiento.
 Tienen un diseño complejo y multidisciplinario.
 Tienen un alto coste.
 Requieren sistemas, aplicaciones y almacenamiento específico.
Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de
análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de
información complementaria necesaria para la presentación de los datos a los usuarios, como
por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información
general complementaria a cada uno de los registros de la tabla de hechos.

Variables
También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman
parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto
cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son
representadas por valores detallados y numéricos para cada instancia del objeto o evento
medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son
utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones
poseen una granularidad menor, tomando como valores un conjunto de elementos menor que
el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas),
“el tiempo” (medido en días, horas, semanas, etc.).

Ejemplificando. Construir un cubo de información sobre el índice de ventas (variable a


estudiar) en función del producto vendido, la provincia, el mes del año y si el cliente está
casado o soltero (dimensiones). Tendríamos un cubo de 4 dimensiones.

Identificando las variables


 Beneficios
 Gastos
 Ventas

Identificando las dimensiones
 Producto (diferentes tipos o denominaciones de productos)
 Localidades (o província, o regiones, o zonas geográficas)
 Tempo (medido de diferentes maneras, por horas, por días, por meses, por años, ...)
 Tipo de cliente (casado/soltero, joven/adulto/anciano, ...)

Características de las dimensiones.


 Son elementos claves en OLAP (Online Analytic Processing), una tecnología que provee
rápido acceso a datos en un almacén de datos (DWH).
 Proveen un mecanismo para buscar datos con rapidez y tiempo de respuesta uniforme
independientemente de la cantidad de datos en el cubo o la complejidad del
procedimiento de búsqueda.
 Para definir un Cubo, se selecciona una o varias clases objetivo y se seleccionan las
medidas (Campos de interés a los usuarios del cubo) dentro de esta clase.
 Las dimensiones están compuestas de uno o más campos de otra clase. Las
dimensiones proveen la descripción categórica por el cual las medidas son separadas
para su análisis por los usuarios del cubo.
 Las dimensiones son categorías descriptivas por los cuales los datos numéricos
(Dimensiones) en un cubo, son separados para su análisis.
 Las medidas, son datos numéricos de interés primario para los usuarios del cubo.
Tablas de dimensión vs tablas de hechos: ¿Cuál es la diferencia?

Las tablas de hechos y las tablas de dimensiones se usan juntas en los esquemas de estrella
para soportar aplicaciones de análisis de datos. Pero juegan diferentes roles y tienen
diferentes tipos de datos.

Los modelos de relación de entidad utilizados en los sistemas de negocios suelen estar
organizados para admitir la ejecución eficiente de transacciones o eventos operativos. Debido
a que el foco se centra en garantizar tiempos de respuesta rápidos, los modelos de datos
asociados no se prestan fácilmente a la agregación y segmentación de datos que impulsan las
aplicaciones de inteligencia de negocios (BI), informes y analítica.

Las tablas de hechos se vuelven específicas en los datos

En el corazón de un esquema en estrella hay una tabla de hechos, que contiene entradas de
datos que comprenden un conjunto de hechos relacionados con las operaciones comerciales
de una compañía. Cada fila en una tabla de hechos representa una transacción o evento
individual; las columnas documentan los diferentes elementos de datos que entran en juego al
procesar los capturados en la tabla. Esta tabla documenta los datos de la entidad, como el
producto adquirido, el cliente que realiza la compra y la ubicación de la tienda. También
incluye datos cuantificables, como la cantidad de unidades compradas y el precio total pagado
por ese producto. Juntos, los campos en una de las filas de la tabla de hechos registran
información específica sobre un producto en particular, que se vendió a un cliente en
particular, en un momento determinado, en una tienda en particular.

Las tablas de dimensión tienen claves para el análisis

En una tabla de hechos, las entradas en los campos de datos de la entidad no son los datos
reales; en su lugar, son claves externas que apuntan a las claves primarias para entradas
relacionadas en tablas de dimensiones, que capturan una variedad de información sobre cada
entidad a la que se hace referencia en la tabla de hechos. Una tabla de dimensiones
proporciona una forma uniforme de mantener una versión actualizada de los datos asociados
con esas entidades.

La tabla de dimensiones también podría contener muchos más atributos de datos, incluidos
datos demográficos adicionales, como fecha de nacimiento; datos de perfil de compra, como la
frecuencia de las compras y las marcas compradas; y colores favoritos y otras preferencias
personales proporcionadas por los clientes. Una de las características de las tablas de
dimensiones frente a las tablas de hechos es que las últimas tienden a ser relativamente
estrechas, con un número limitado de columnas, mientras que las primeras son a menudo muy
amplias.
Ejemplo de Cubo OLAP modelo de datos en estrella de 5 dimensiones.
Ejemplo de Cubo OLAP modelo de datos en copo de nieve de 5 dimensiones.
Elementos que integran un almacén de datos
Metadatos
Uno de los componentes más importantes de la arquitectura de un almacén de datos son los
metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de que se
trata de datos que describen cuál es la estructura de los datos que se van a almacenar y cómo
se relacionan.

El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué
columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son
de interés para el usuario final, el metadato es de interés para los programas que tienen que
manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacén
de datos es muy diferente al rol que cumple en los ambientes operacionales. En el ámbito de
los data warehouse el metadato juega un papel fundamental, su función consiste en recoger
todas las definiciones de la organización y el concepto de los datos en el almacén de datos,
debe contener toda la información concerniente a:

 Tablas
 Columnas de tablas
 Relaciones entre tablas
 Jerarquías y Dimensiones de datos
 Entidades y Relaciones

Funciones ETL
Los procesos de Extract, transform and load (ETL) son importantes ya que son la forma en que
los datos se guardan en un almacén de datos (o en cualquier base de datos). Implican las
siguientes operaciones:

Extracción. Acción de obtener la información deseada a partir de los datos almacenados en


fuentes externas.
Transformación. Cualquier operación realizada sobre los datos para que puedan ser cargados
en el data warehouse o se puedan migrar de éste a otra base de datos.
Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el almacén de
datos objetivo normal.

Middleware
Middleware es un término genérico que se utiliza para referirse a todo tipo de software de
conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de
aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como una
capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las
capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que
sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen
en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se
ejecutarán. De esta manera se ofrece una mejor relación costo/rendimiento que pasa por el
desarrollo de aplicaciones más complejas, en menos tiempo.

La función del middleware en el contexto de los data warehouse es la de asegurar la


conectividad entre todos los componentes de la arquitectura de un almacén de datos.
Almacén de datos Espacial
Almacén de datos espacial o Data warehouse espacial es una colección de datos orientados al
tema, integrados, no volátiles, variantes en el tiempo y que añaden la geografía de los datos,
para la toma de decisiones.

Sin embargo la componente geográfica no es un dato agregado, sino que una dimensión o
variable en la tecnología de la información, de tal manera que permita modelar todo el
negocio como un ente holístico, y que a través de herramientas de procesamiento analítico en
línea (OLAP), no solamente se posea un alto desempeño en consultas multidimensionales si no
que adicionalmente se puedan visualizar espacialmente los resultados.

El Almacén de datos espacial forma el corazón de un extensivo Sistema de Información


Geográfica para la toma de decisiones, éste al igual que los SIG, permiten que un gran número
de usuarios accedan a información integrada, a diferencia de un simple Data Warehouse que
es orientado al tema, el Data warehouse espacial adicionalmente es Geo-Relacional, es decir
que en estructuras relacionales combina e integra los datos espaciales con los datos
descriptivos. Actualmente es Geo-Objetos, esto es que los elementos geográficos se
manifiestan como objetos con todas sus propiedades y comportamientos, y que
adicionalmente están almacenados en una única base de datos Objeto-Relacional.

Los Data Warehouse Espaciales son aplicaciones basadas en un alto desempeño de las bases
de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en tiempo
real. Mientras los Data warehouse trabajan con muchos tipos y dimensiones de datos, muchos
de los cuales no referencian ubicación espacial, a pesar de poseerla intrínsecamente, y
sabiendo que un 80% de los datos poseen representación y ubicación en el espacio, en los
Data warehouse espaciales, la variable geográfica desempeña un papel importante en la base
de información para la construcción del análisis, y de igual manera que para un Data
warehouse, la variable tiempo es imprescindible en los análisis, para los Data warehouse
espaciales la variable geográfica debe ser almacenada directamente en ella.

Un almacén de datos a diferencia de una base de datos transaccional, permite:

 Facilitar el análisis de datos en tiempo real mediante el procesamiento analítico en


línea (OLAP)
 Aplicar diversas reglas que permitan describir y analizar los datos con el fin de brindar
un apoyo a la toma de decisiones organizacionales.

Caracterización de un almacén de datos espaciales.

Un almacén de datos espacial se caracteriza porque es: orientado a tema, no volátil, integrado,
de tiempo variante y geografía del dato.

Orientado a tema La orientación a tema es una característica que permite clasificar la


información de acuerdo con los aspectos relevantes de la organización que sean necesarios
para la toma de decisiones.

Integrado Los Data Warehouse se caracterizan por tener su información de forma integrada y
estructurada brindando: confiabilidad, consistencia y estandarización a los datos.
Tiempo variante Las almacenes de datos trabajan con información redundante al igual que
con duplicidad en los datos, permitiendo un manejo histórico que facilite la identificación de
patrones entre los mismos.

No volátil En los almacenes, a diferencia de las bases, de datos se manejan solo dos tipos de
operaciones: carga inicial de datos y acceso a estos, logrando un mejor análisis de la
información y por ende un apoyo para la toma de decisiones que signifiquen efectividad para
la empresa

Geografía del dato Los almacenes de datos han evolucionado constantemente con el fin de
obtener una mejor y completa recolección de información, es por esto que se han podido
integrar nuevos tipos de datos, como son: imágenes de satélite e información geográfica. “Los
datos geográficos, presentan la información en representaciones subjetivas a través de mapas
y símbolos, que representan la geografía como formas geométricas, redes, superficies,
ubicaciones e imágenes, a los cuales se les asignan sus respectivos atributos que los definen y
describen”.

Construcción del almacén de datos espaciales.

La metodología que se empleará para la construcción será la misma de los almacenes de datos
tradicionales integrando la parte espacial. Para llevar a cabo con éxito esta metodología el
proceso debe ser iterativo e interactivo. Iterativo en la medida de que algunas salidas de las
fases pueden hacer que se vuelven a pasos anteriores con el fin de obtener un mejor resultado
e interactivo ya que es necesario contar con la participación activa de aquellas personas parte
de la organización involucradas en los procesos. A partir de un modelo y diseño se debe seguir
con una serie de pasos necesarios para llevar a cabo la construcción del almacén.

a. Recopilación: Teniendo en cuenta el volumen de información que se maneja dentro de


una empresa, las organizaciones han optado por trabajar de forma independiente en
sus departamentos, por ejemplo, se maneja una base de datos para los procesos de
facturación, otra para el manejo de productos, logrando acuñar la frase “Divide y
vencerás”, esto es muy útil en muchos procesos sin embargo no para la construcción
del almacén. Generalmente, el almacenamiento de datos se realiza: en hojas de
cálculo, documentos, textos planos o incluso no se encuentran en forma electrónica
sino manual por lo que es necesario determinar cuál información va acorde con la
necesidad de la empresa para posteriormente realizar el proceso de extracción.
b. Limpieza: El éxito de que los datos puedan ser útiles para ser analizados y
posteriormente sirvan de apoyo en las tomas de decisiones depende en gran parte de
su selección pero también de que estos sean íntegros y consistentes. Estas
características son dadas en la fase de limpieza. Es muy común que en el
almacenamiento diario de los datos, algunos de éstos presenten inconsistencias,
como: un dato vacío, incompleto, entre otros. Este tipo de problemas se descubre en
forma reiterada en el momento de integrar las distintas fuentes para la construcción
del almacén. Las diversas anomalías que pueden ser descubiertas, afectan la calidad de
los datos dificultando los procesos de análisis y descubrimiento de conocimiento. De
igual forma, se debe tener cuidado con aquellos datos faltantes, los cuales conducen a
resultados con baja precisión. En algunos casos los datos faltantes pueden ser:
ignorados, eliminados o reemplazados en forma manual, por un valor de acuerdo con
la media o moda dependiendo del tipo de valor: numérico o nominal.
c. Integración: Como su nombre lo indica es recolectar los datos de las diversas fuentes
que maneja la organización e integrarlos en el almacén. Este proceso se realiza
mediante la homogenización de la información y la unificación. Con la homogenización
se busca identificar datos que correspondan al mismo objeto para posteriormente
unificarlos mientras que los diversos se mantienen separados. Cuando la integración
entre diversas fuentes se realiza con éxito suelen aparecer aquellos datos faltantes o
inconsistentes.
En el almacén la carga de datos puede ser de dos tipos: carga total e incremental. En la
carga total los datos son borrados de las tablas cada vez que se ejecuta en el almacén
de datos mientras que la carga incremental va añadiendo los datos haciendo procesos
para cambios de datos históricos. Un almacén de datos, permite no solo integrar sino
organizar la información de tal forma que se puedan aplicar herramientas que
permitan describir y analizar los datos con el fin de apoyar las decisiones estratégicas
de la organización.
d. Mantenimiento de los datos: Para llevar a cabo un buen mantenimiento de los datos
contenidos en el almacén, pueden realizarse dos procesos: llevar los datos a las
almacenes minutos después de que fueron actualizadas las fuentes o acumular los
datos en un almacén de datos transitoria en la cual sean almacenados y
periódicamente llevados la almacén. De igual forma, se debe recordar que es
necesario refrescar el almacén en forma periódica dependiendo de los datos o cuando
sea solicitado por el administrador. A partir de los pasos anteriores se comienza
analizar la información en forma geográfica. Se debe recordar que los datos de tipo
espacial pueden considerarse como: estáticos o versátiles. Los datos espaciales que se
consideran estáticos son aquellos en donde la probabilidad de cambio es mínimo a
diferencia de los versátiles que tienen una alta probabilidad de variación.
En este punto, todos los datos que puedan ser geo referenciados, como por ejemplo:
direcciones de clientes, puntos de venta, entre otros, son referenciados mediante
herramientas SIG, las cuales, son necesarias para que el almacén de datos sirva no solo
como un repositorio de almacenamiento, sino como una herramienta que facilite el
análisis y la visualización de los resultados obtenidos.

El modelamiento de las bases de datos multidimensionales pueden ser en forma:


estrella, copo de nieve o constelación. El modelo estrella maneja una tabla central, la
cual es la tabla de hechos y en sus extremos un conjunto de tablas, denominadas
dimensiones. El esquema copo de nieve se deriva del esquema estrella en el cual, las
dimensiones se normalizan en múltiples tablas. En cada dimensión se almacenan
jerarquías de atributos o simplemente estos se separan en otra entidad para así
mejorar el desempeño y utilización del espacio. Este tipo de modelos puede ser
implementado mediante ROLAP, MOLAP o su hibrido HOLAP.
ROLAP es una forma de almacenamiento en donde toda la información del cubo:
datos, agregaciones, entre otros, son almacenados en una base de datos relacional a
diferencia de
MOLAP en donde la información del cubo se almacena en una estructura
multidimensional.
HOLAP es un híbrido en el cual, las agregaciones se almacenan en forma
multidimensional mientras que los datos a nivel detalle se recopilan en una base de
datos relacional.
Ventajas e inconvenientes de los almacenes de datos

Dentro de los conceptos informáticos y recursos tecnológicos que se dan cita en el


funcionamiento TI de las empresas los almacenes de datos tienen una relevancia
fundamental. Conocidos en inglés con el término original “data warehouse”, estos
almacenes se ocupan de agrupar datos determinados con los que las empresas tienen
la oportunidad de adoptar decisiones que ayuden a su crecimiento. Dicho de otra
forma es un informe en el cual se puede encontrar información exhaustiva que abarca
todos los frentes del negocio, proporcionando una radiografía completa de lo que
necesitamos saber sobre la empresa. En base a la complejidad de la empresa y de sus
sistemas los almacenes de datos se dividen en varias unidades que ayudan a examinar
la información de una manera más correcta.

VENTAJAS PRINCIPALES
Si tantas empresas han comenzado a sacar partido a los almacenes de datos está claro
que no puede tratarse de un error o de una casualidad. Uno de los objetivos que se
adoptan por medio de la introducción de este recurso en la empresa es permitir que
los negocios tengan un mejor acceso a los datos que pueden ser necesarios. La
información es amplia y exhaustiva, permitiendo que se utilicen estos datos en
distintos procesos adoptados en la empresa con facilidad y una mayor sencillez de la
que se disfrutaría sin los almacenes.

Otra de las ventajas está relacionada con la forma en la que las aplicaciones de la
empresa trabajan mejor gracias al uso de los almacenes de datos. El motivo principal
de ello es que estos almacenes tienen la oportunidad de realizar procesos de trabajo
combinados, por lo que se simplifican los sistemas en este aspecto. Uno de los
recursos que más agradecen las empresas es que las relaciones que tienen con los
clientes se puedan gestionar de una manera más inmediata por medio de esta
tecnología.

En último lugar hablamos de cómo los almacenes se pueden convertir en la


herramienta que nos ayude a tomar decisiones con más inmediatez incluso en
momentos en los que parece que no hay otra opción. Esta tecnología habilita otros
procesos muy convenientes. Por ejemplo, pone a disposición de las empresas los
informes de excepción, en los que se plantea una clara diferenciación que tiene en
cuenta la lista de previsiones y los resultados definitivos que se han obtenido. Estos
datos ayudan a ver cuál ha sido una tendencia para aprender de ella y actuar de una
forma distinta en el futuro. También se pueden gestionar los informes que nos hablan
de las tendencias, ayudándonos a ver en un ejercicio de análisis cuáles son los servicios
o productos que mejor están funcionando a fin de aumentar el apoyo en este tipo de
elemento.

Otras ventajas.
 Proporciona información clave para la toma de decisiones empresariales.
 Mejora la calidad de las decisiones tomadas.Especialmente útil para el medio y
largo plazo.
 Son sistemas relativamente sencillos de instalar si las fuentes de datos y los
objetivos están claros.
 Muy útiles para el almacenamiento de análisis y consultas de históricos.
 Proporciona un gran poder de procesamiento de información.
 Permite una mayor flexibilidad y rapidez en el acceso a la información.
 Facilita la toma de decisiones en los negocios.
 Las empresas obtienen un aumento de la productividad.
 Proporciona una comunicación fiable entre todos los departamentos de la
empresa.
 Mejora las relaciones con los proveedores y los clientes.
 Permite conocer qué está pasando en el negocio, es decir, estar siempre
enterado de los buenos y malos resultados.
 Transforma los datos en información y la información en conocimiento
 Permite hacer planes de forma más efectiva.
 Reduce los tiempos de respuesta y los costes de operación.

INCONVENIENTES
Cualquier tecnología, por puntera y eficiente que sea, debe tener una contraposición,
algún elemento que nos haga pensar que no se trata de un método definitivo ni
obligatorio. Esto ayuda a crear equilibrio y a mostrar a las empresas que hay
excepciones y casos en los que esta tecnología puede no ser la respuesta. Con los
almacenes de datos podemos encontrar problemas variados que no tienen por qué
producirse en todos los casos. Uno de los problemas es que no se trata de una
tecnología elástica y que los costes de uso pueden llegar a crecer demasiado. Por otro
lado, la obsolescencia es otro de los riesgos, dado que puede llegar demasiado pronto.
Y hay casos en los que la efectividad de los almacenes de datos no se produce tal y
como desearíamos. Hay veces en los que la respuesta que se produce ante una
consulta proporciona una información escasa y reducida, poco útil para realizar un
informe completo.

También es importante que valoremos que hay momentos en los que se puede
producir confusión en el uso de estos almacenes, puesto que puede haber aspectos
poco determinados. Esto lleva a que los equipos TI tengan que ocuparse de
personalizar la experiencia, delimitar el papel que tenga el data warehouse de
manera específica y exprimir sus recursos de forma que no se estén desperdiciando
herramientas. Requiere implicación por parte de los equipos técnicos y es algo que
tendremos que tener en cuenta, demostrando que los almacenes de datos se tienen
que implementar con eficacia ante todo y con un análisis previo de los requisitos.

Otros inconvenientes.
 Requiere de continua limpieza, transformación e integración de datos.
 Mantenimiento.
 En un proceso de implantación puede encontrarse dificultades ante los
diferentes objetivos que pretende una organización.
 Una vez implementado puede ser complicado añadir nuevas fuentes de datos.
 Requieren una revisión del modelo de datos, objetos, transacciones y además
del almacenamiento.
 Tienen un diseño complejo y multidisciplinar.
 Requieren una reestructuración de los sistemas operacionales.
 Tienen un alto coste.
 Requieren sistemas, aplicaciones y almacenamiento específico.

S-ar putea să vă placă și