Documente Academic
Documente Profesional
Documente Cultură
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se
almacena la información. Este tipo de persistencia de la información es homogénea y fiable, y
permite la consulta y el tratamiento jerarquizado de la misma.
El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce
literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que
eso.
William H. ( Bill ) Inmon (nacido en 1945) es un científico informático estadounidense ,
reconocido por muchos como el padre del almacén de datos . Inmon escribió el primer libro,
realizó la primera conferencia (con Arnie Barnett ), escribió la primera columna en una revista
y fue el primero en ofrecer clases de almacenamiento de datos . Inmon creó la definición
aceptada de lo que es un almacén de datos: una recopilación de datos, orientada al tema, no
volátil e integrada en el tiempo que respalda las decisiones de la gerencia. Comparado con el
enfoque del otro arquitecto pionero del almacenamiento de datos, Ralph Kimball El enfoque
de Inmon se caracteriza a menudo como un enfoque de arriba hacia abajo.
Orientado a temas.- Los datos en la base de datos están organizados de manera que todos los
elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre sí.
Integrado.- La base de datos contiene los datos de todos los sistemas operacionales de la
organización, y dichos datos deben ser consistentes.
El enfoque Inmon también se referencia normalmente como Top-down. Los datos son
extraídos de los sistemas operacionales por los procesos ETL y cargados en las áreas de stage,
donde son validados y consolidados en el DW corporativo, donde además existen los llamados
metadatos que documentan de una forma clara y precisa el contenido del DW. Una vez
realizado este proceso, los procesos de refresco de los Data Mart departamentales obtienen la
información de él, y con las consiguientes transformaciones, organizan los datos en las
estructuras particulares requeridas por cada uno de ellos, refrescando su contenido.
Al tener este enfoque global, es más difícil de desarrollar en un proyecto sencillo (pues
estamos intentando abordar el “todo”, a partir del cual luego iremos al “detalle”).
Para él, un DataWarehouse ha de entenderse como un almacén de datos único y global para
toda la empresa.
* Temático: sólo los datos necesarios para el proceso de generación del conocimiento del
negocio se integran desde el entorno operacional. Los datos se organizan por temas para
facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los
datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta
forma, las peticiones de información sobre clientes serán más fáciles de responder dado que
toda la información reside en el mismo lugar.
Ralph Kimball
El Data Warehouse es un conglomerado de todos los Data Marts dentro de una empresa,
siendo una copia de los datos transaccionales estructurados de una forma especial para el
análisis, de acuerdo al Modelo Dimensional (no normalizado), que incluye, las dimensiones de
análisis y sus atributos, su organización jerárquica, así como los diferentes hechos de negocio
que se quieren analizar. Por un lado tenemos tablas para las representar las dimensiones y por
otro lado tablas para los hechos. Los diferentes Data Marts estan conectados entre sí por la
llamada bus structure, que contiene los elementos anteriormente citados a través de las
dimensiones conformadas (que permiten que los usuarios puedan realizar querys conjuntos
sobre los diferentes data marts, pues este bus contiene los elementos en común que los
comunican). Una dimensión conformada puede ser, por ejemplo, la dimensión cliente, que
incluye todos los atributos o elementos de análisis referentes a los clientes y que puede ser
compartida por diferentes data marts (ventas, pedidos, gestión de cobros, etc).
Este enfoque también se referencia como Bottom-up, pues al final el Datawarehouse
Corporativo no es más que la unión de los diferentes datamarts, que están estructurados de
una forma común a través de la bus structure. Esta característica le hace más flexible y sencillo
de implementar, pues podemos construir un Data Mart como primer elemento del sistema de
análisis, y luego ir añadiendo otros que comparten las dimensiones ya definidas o incluyen
otras nuevas. En este sistema, los procesos ETL extraen la información de los sistemas
operacionales y los procesan igualmente en el area stage, realizando posteriormente el llenado
de cada uno de los Data Mart de una forma individual, aunque siempre respetando la
estandarizacion de las dimensiones (dimensiones conformadas).
La metodología para la construcción del Dw incluye las 4 fases que vimos en la entrada
anterior del blog, que son: Selección del proceso de negocio, definición de la granularidad de la
información, elección de las dimensiones de análisis e identificación de los hechos o métricas.
Igualmente define el tratamiento de los cambios en los datos a través de las Dimensiones
Lentamente Cambiantes (SCD).
Inmon y Kimball
Así, podríamos decir que el enfoque de Kimball se ajusta más a proyectos pequeños en los que
se persiga un sistema fácilmente explotable y entendible por el usuario y de rápido desarrollo,
siendo el modelo de Inmon más apropiado para sistemas complejos de mayor envergadura.
Todo proyecto tiene sus propias peculiaridades, siendo cada caso único e independiente, por
lo que resulta necesario llevar a cabo un estudio de todas ellas antes de decantarnos por una
solución u otra, de forma que podamos hacernos una idea sobre qué modelo se ajusta mejor a
las condiciones de nuestro proyecto.
Las definiciones anteriores se centran en los datos en sí mismos. Sin embargo, los medios para
obtener esos datos, para extraerlos, transformarlos y cargarlos, las técnicas para analizarlos y
generar información, así como las diferentes formas para realizar la gestión de datos son
componentes esenciales de un almacén de datos. Muchas referencias a un almacén de datos
utilizan esta definición más amplia. Por lo tanto, en esta definición se incluyen herramientas
para extraer, transformar y cargar datos, herramientas para el análisis (inteligencia
empresarial) y herramientas para gestionar y recuperar los metadatos.
Los objetivos fundamentales de un Data WareHouse son:
Hace que la información de la organización sea accesible: los contenidos del Data WareHouse
son entendibles y navegables, y el acceso a ellos son caracterizado por el rápido desempeño.
Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de
entendible significa, que los niveles de la información sean correctos y obvios. Y Navegables
significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic.
Rápido desempeño significa, cero tiempos de espera. Todo lo demás es un compromiso y por
consiguiente algo que queremos mejorar.
Es la fundación de la toma de decisiones: el Data WareHouse tiene los datos correctos para
soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las
decisiones que son hechas después de que el Data WareHouse haya presentado las evidencias.
La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripción de lo que
queremos construir: un sistema de soporte a las decisiones.
Características del Datawarehouse
Entre sus principales características tenemos
Orientado al tema
Integrado
De tiempo variante
No volátil
Orientado a temas
Una primera característica del data warehouse es que la información se clasifica en base a los
aspectos que son de interés para la empresa. Siendo así, los datos tomados están en contraste
con los clásicos procesos orientados a las aplicaciones.
La alineación alrededor de las áreas de los temas afecta el diseño y la implementación de los
datos encontrados en el data warehouse. Las principales áreas de los temas influyen en la
parte más importante de la estructura clave.
Las aplicaciones están relacionadas con el diseño de la base de datos y del proceso. En data
warehousing se enfoca el modelamiento de datos y el diseño de la base de datos. El diseño del
proceso (en su forma clásica) no es separado de este ambiente.
Integrado
El aspecto más importante del ambiente data warehousing es que la información encontrada
al interior está siempre integrada.
La integración de datos se muestra de muchas maneras: en convenciones de nombres
consistentes, en la medida uniforme de variables, en la codificación de estructuras
consistentes, en atributos físicos de los datos consistentes, fuentes múltiples y otros.
A través de los años, los diseñadores de las diferentes aplicaciones han tomado sus propias
decisiones sobre cómo se debería construir una aplicación. Los estilos y diseños personalizados
se muestran de muchas maneras.
Codificación.
Los diseñadores de aplicaciones codifican el campo GENERO en varias formas. Un diseñador
representa GENERO como una “M” y una “F”, otros como un “1” y un “0”, otros como una “X”
y una “Y” e inclusive, como “masculino” y “femenino”.
No importa mucho cómo el GENERO llega al data warehouse. Probablemente “M” y “F” sean
tan buenas como cualquier otra representación. Lo importante es que sea de cualquier fuente
de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme.
Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicación, donde ha
sido representado en formato “M” y “F”, los datos deben convertirse al formato del
datawarehouse.
Medida de atributos.
Los diseñadores de aplicaciones miden las unidades de medida de las tuberías en una variedad
de formas. Un diseñador almacena los datos de tuberías en centímetros, otros en pulgadas,
otros en millones de pies cúbicos por segundo y otros en yardas.
Al dar medidas a los atributos, la transformación traduce las diversas unidades de medida
usadas en las diferentes bases de datos para transformarlas en una medida estándar común.
Cualquiera que sea la fuente, cuando la información de la tubería llegue al data warehouse
necesitará ser medida de la misma manera.
Convenciones de Nombramiento.
El mismo elemento es frecuentemente referido por nombres diferentes en las diversas
aplicaciones. El proceso de transformación asegura que se use preferentemente el nombre de
usuario.
Fuentes Múltiples.
El mismo elemento puede derivarse desde fuentes múltiples. En este caso, el proceso de
transformación debe asegurar que la fuente apropiada sea usada, documentada y movida al
depósito.
Tal como se muestra en la figura, los puntos de integración afectan casi todos los aspectos de
diseño – las características físicas de los datos, la disyuntiva de tener más de una de fuente de
datos, el problema de estándares de denominación inconsistentes, formatos de fecha
inconsistentes y otros.
Cualquiera que sea la forma del diseño, el resultado es el mismo – la información necesita ser
almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando
los sistemas operacionales subyacentes almacenen los datos de manera diferente.
Los datos históricos son de poco uso en el procesamiento operacional. La información del
depósito por el contraste, debe incluir los datos históricos para usarse en la identificación y
evaluación de tendencias. (Ver Figura).
La más simple es que la información representa los datos sobre un horizonte largo de tiempo –
desde cinco a diez años.
El horizonte de tiempo representado para el ambiente operacional es mucho más corto – es
de valores actuales hasta sesenta a noventa días. Las aplicaciones que tienen un buen
rendimiento y están disponibles para el procesamiento de transacciones, deben llevar una
cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las aplicaciones
operacionales tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas.
El elemento de tiempo está casi siempre al pie de la clave concatenada, encontrada en el data
warehouse. En ocasiones, el elemento de tiempo existirá implícitamente, como el caso en que
un archivo completo se duplica al final del mes, o al cuarto.
La tercera manera en que aparece el tiempo variante es cuando la información del data
warehouse, una vez registrada correctamente, no puede ser actualizada. La información del
data warehouse es, para todos los propósitos prácticos, una serie larga de “snapshots” (vistas
instantáneas).
Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden
ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son
alterados una vez hechos. En algunos casos puede ser no ético, e incluso ilegal, alterar los
snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del
momento de acceso, pueden actualizarse de acuerdo a la necesidad.
No volátil
Los datos que son almacenados no sufren ninguna actualización solo son incrementados. El
período cubierto para un DW va de 2 a 10 años.
La información es útil sólo cuando es estable. Los datos operacionales cambian sobre una base
momento a momento. La perspectiva más grande, esencial para el análisis y la toma de
decisiones, requiere una base de datos estable.
Hay algunas consecuencias muy importantes de esta diferencia básica, entre el procesamiento
operacional y del data warehouse. En el nivel de diseño, la necesidad de ser precavido para
actualizar las anomalías no es un factor en el data warehouse, ya que no se hace la
actualización de datos. Esto significa que en el nivel físico de diseño, se pueden tomar
libertades para optimizar el acceso a los datos, particularmente al usar la normalización y
desnormalización física.
Desde una perspectiva conceptual, un cubo de datos es una pieza más en el engranaje de un
sistema de información denominado almacén de datos (data warehouse). El cubo está dotado
de una maquinaria interna que le permite procesar elevados volúmenes de datos en un
periodo relativamente corto de tiempo, y cuyo objetivo es siempre la obtención de un
resultado numérico (importes de ventas, gastos, cantidad de productos vendidos, etc.). Estos
resultados pueden cambiar en función de uno o varios filtros que apliquemos sobre el cubo. El
tiempo de respuesta es mínimo gracias a que el motor de procesamiento del cubo, realiza un
cálculo previo de las posibles combinaciones de resultados que el usuario puede solicitar. A los
diferentes resultados numéricos obtenidos se les denomina medidas, mientras que los
elementos utilizados para organizar/filtrar la información reciben el nombre de dimensiones.
Desventajas:
Requieren una revisión del modelo de datos, objetos, transacciones y además del
almacenamiento.
Tienen un diseño complejo y multidisciplinario.
Tienen un alto coste.
Requieren sistemas, aplicaciones y almacenamiento específico.
Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de
análisis de las variables (forman parte de la tabla de dimensiones). Son catálogos de
información complementaria necesaria para la presentación de los datos a los usuarios, como
por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la información
general complementaria a cada uno de los registros de la tabla de hechos.
Variables
También llamadas “indicadores de gestión”, son los datos que están siendo analizados. Forman
parte de la tabla de hechos. Más formalmente, las variables representan algún aspecto
cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son
representadas por valores detallados y numéricos para cada instancia del objeto o evento
medido. En forma contraria, las dimensiones son atributos relativos a las variables, y son
utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones
poseen una granularidad menor, tomando como valores un conjunto de elementos menor que
el de las variables; ejemplos de dimensiones podrían ser: “productos”, “localidades” (o zonas),
“el tiempo” (medido en días, horas, semanas, etc.).
Las tablas de hechos y las tablas de dimensiones se usan juntas en los esquemas de estrella
para soportar aplicaciones de análisis de datos. Pero juegan diferentes roles y tienen
diferentes tipos de datos.
Los modelos de relación de entidad utilizados en los sistemas de negocios suelen estar
organizados para admitir la ejecución eficiente de transacciones o eventos operativos. Debido
a que el foco se centra en garantizar tiempos de respuesta rápidos, los modelos de datos
asociados no se prestan fácilmente a la agregación y segmentación de datos que impulsan las
aplicaciones de inteligencia de negocios (BI), informes y analítica.
En el corazón de un esquema en estrella hay una tabla de hechos, que contiene entradas de
datos que comprenden un conjunto de hechos relacionados con las operaciones comerciales
de una compañía. Cada fila en una tabla de hechos representa una transacción o evento
individual; las columnas documentan los diferentes elementos de datos que entran en juego al
procesar los capturados en la tabla. Esta tabla documenta los datos de la entidad, como el
producto adquirido, el cliente que realiza la compra y la ubicación de la tienda. También
incluye datos cuantificables, como la cantidad de unidades compradas y el precio total pagado
por ese producto. Juntos, los campos en una de las filas de la tabla de hechos registran
información específica sobre un producto en particular, que se vendió a un cliente en
particular, en un momento determinado, en una tienda en particular.
En una tabla de hechos, las entradas en los campos de datos de la entidad no son los datos
reales; en su lugar, son claves externas que apuntan a las claves primarias para entradas
relacionadas en tablas de dimensiones, que capturan una variedad de información sobre cada
entidad a la que se hace referencia en la tabla de hechos. Una tabla de dimensiones
proporciona una forma uniforme de mantener una versión actualizada de los datos asociados
con esas entidades.
La tabla de dimensiones también podría contener muchos más atributos de datos, incluidos
datos demográficos adicionales, como fecha de nacimiento; datos de perfil de compra, como la
frecuencia de las compras y las marcas compradas; y colores favoritos y otras preferencias
personales proporcionadas por los clientes. Una de las características de las tablas de
dimensiones frente a las tablas de hechos es que las últimas tienden a ser relativamente
estrechas, con un número limitado de columnas, mientras que las primeras son a menudo muy
amplias.
Ejemplo de Cubo OLAP modelo de datos en estrella de 5 dimensiones.
Ejemplo de Cubo OLAP modelo de datos en copo de nieve de 5 dimensiones.
Elementos que integran un almacén de datos
Metadatos
Uno de los componentes más importantes de la arquitectura de un almacén de datos son los
metadatos. Se define comúnmente como "datos acerca de los datos", en el sentido de que se
trata de datos que describen cuál es la estructura de los datos que se van a almacenar y cómo
se relacionan.
El metadato documenta, entre otras cosas, qué tablas existen en una base de datos, qué
columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar. Los datos son
de interés para el usuario final, el metadato es de interés para los programas que tienen que
manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacén
de datos es muy diferente al rol que cumple en los ambientes operacionales. En el ámbito de
los data warehouse el metadato juega un papel fundamental, su función consiste en recoger
todas las definiciones de la organización y el concepto de los datos en el almacén de datos,
debe contener toda la información concerniente a:
Tablas
Columnas de tablas
Relaciones entre tablas
Jerarquías y Dimensiones de datos
Entidades y Relaciones
Funciones ETL
Los procesos de Extract, transform and load (ETL) son importantes ya que son la forma en que
los datos se guardan en un almacén de datos (o en cualquier base de datos). Implican las
siguientes operaciones:
Middleware
Middleware es un término genérico que se utiliza para referirse a todo tipo de software de
conectividad que ofrece servicios u operaciones que hacen posible el funcionamiento de
aplicaciones distribuidas sobre plataformas heterogéneas. Estos servicios funcionan como una
capa de abstracción de software distribuida, que se sitúa entre las capas de aplicaciones y las
capas inferiores (sistema operativo y red). El middleware puede verse como una capa API, que
sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen
en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se
ejecutarán. De esta manera se ofrece una mejor relación costo/rendimiento que pasa por el
desarrollo de aplicaciones más complejas, en menos tiempo.
Sin embargo la componente geográfica no es un dato agregado, sino que una dimensión o
variable en la tecnología de la información, de tal manera que permita modelar todo el
negocio como un ente holístico, y que a través de herramientas de procesamiento analítico en
línea (OLAP), no solamente se posea un alto desempeño en consultas multidimensionales si no
que adicionalmente se puedan visualizar espacialmente los resultados.
Los Data Warehouse Espaciales son aplicaciones basadas en un alto desempeño de las bases
de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en tiempo
real. Mientras los Data warehouse trabajan con muchos tipos y dimensiones de datos, muchos
de los cuales no referencian ubicación espacial, a pesar de poseerla intrínsecamente, y
sabiendo que un 80% de los datos poseen representación y ubicación en el espacio, en los
Data warehouse espaciales, la variable geográfica desempeña un papel importante en la base
de información para la construcción del análisis, y de igual manera que para un Data
warehouse, la variable tiempo es imprescindible en los análisis, para los Data warehouse
espaciales la variable geográfica debe ser almacenada directamente en ella.
Un almacén de datos espacial se caracteriza porque es: orientado a tema, no volátil, integrado,
de tiempo variante y geografía del dato.
Integrado Los Data Warehouse se caracterizan por tener su información de forma integrada y
estructurada brindando: confiabilidad, consistencia y estandarización a los datos.
Tiempo variante Las almacenes de datos trabajan con información redundante al igual que
con duplicidad en los datos, permitiendo un manejo histórico que facilite la identificación de
patrones entre los mismos.
No volátil En los almacenes, a diferencia de las bases, de datos se manejan solo dos tipos de
operaciones: carga inicial de datos y acceso a estos, logrando un mejor análisis de la
información y por ende un apoyo para la toma de decisiones que signifiquen efectividad para
la empresa
Geografía del dato Los almacenes de datos han evolucionado constantemente con el fin de
obtener una mejor y completa recolección de información, es por esto que se han podido
integrar nuevos tipos de datos, como son: imágenes de satélite e información geográfica. “Los
datos geográficos, presentan la información en representaciones subjetivas a través de mapas
y símbolos, que representan la geografía como formas geométricas, redes, superficies,
ubicaciones e imágenes, a los cuales se les asignan sus respectivos atributos que los definen y
describen”.
La metodología que se empleará para la construcción será la misma de los almacenes de datos
tradicionales integrando la parte espacial. Para llevar a cabo con éxito esta metodología el
proceso debe ser iterativo e interactivo. Iterativo en la medida de que algunas salidas de las
fases pueden hacer que se vuelven a pasos anteriores con el fin de obtener un mejor resultado
e interactivo ya que es necesario contar con la participación activa de aquellas personas parte
de la organización involucradas en los procesos. A partir de un modelo y diseño se debe seguir
con una serie de pasos necesarios para llevar a cabo la construcción del almacén.
VENTAJAS PRINCIPALES
Si tantas empresas han comenzado a sacar partido a los almacenes de datos está claro
que no puede tratarse de un error o de una casualidad. Uno de los objetivos que se
adoptan por medio de la introducción de este recurso en la empresa es permitir que
los negocios tengan un mejor acceso a los datos que pueden ser necesarios. La
información es amplia y exhaustiva, permitiendo que se utilicen estos datos en
distintos procesos adoptados en la empresa con facilidad y una mayor sencillez de la
que se disfrutaría sin los almacenes.
Otra de las ventajas está relacionada con la forma en la que las aplicaciones de la
empresa trabajan mejor gracias al uso de los almacenes de datos. El motivo principal
de ello es que estos almacenes tienen la oportunidad de realizar procesos de trabajo
combinados, por lo que se simplifican los sistemas en este aspecto. Uno de los
recursos que más agradecen las empresas es que las relaciones que tienen con los
clientes se puedan gestionar de una manera más inmediata por medio de esta
tecnología.
Otras ventajas.
Proporciona información clave para la toma de decisiones empresariales.
Mejora la calidad de las decisiones tomadas.Especialmente útil para el medio y
largo plazo.
Son sistemas relativamente sencillos de instalar si las fuentes de datos y los
objetivos están claros.
Muy útiles para el almacenamiento de análisis y consultas de históricos.
Proporciona un gran poder de procesamiento de información.
Permite una mayor flexibilidad y rapidez en el acceso a la información.
Facilita la toma de decisiones en los negocios.
Las empresas obtienen un aumento de la productividad.
Proporciona una comunicación fiable entre todos los departamentos de la
empresa.
Mejora las relaciones con los proveedores y los clientes.
Permite conocer qué está pasando en el negocio, es decir, estar siempre
enterado de los buenos y malos resultados.
Transforma los datos en información y la información en conocimiento
Permite hacer planes de forma más efectiva.
Reduce los tiempos de respuesta y los costes de operación.
INCONVENIENTES
Cualquier tecnología, por puntera y eficiente que sea, debe tener una contraposición,
algún elemento que nos haga pensar que no se trata de un método definitivo ni
obligatorio. Esto ayuda a crear equilibrio y a mostrar a las empresas que hay
excepciones y casos en los que esta tecnología puede no ser la respuesta. Con los
almacenes de datos podemos encontrar problemas variados que no tienen por qué
producirse en todos los casos. Uno de los problemas es que no se trata de una
tecnología elástica y que los costes de uso pueden llegar a crecer demasiado. Por otro
lado, la obsolescencia es otro de los riesgos, dado que puede llegar demasiado pronto.
Y hay casos en los que la efectividad de los almacenes de datos no se produce tal y
como desearíamos. Hay veces en los que la respuesta que se produce ante una
consulta proporciona una información escasa y reducida, poco útil para realizar un
informe completo.
También es importante que valoremos que hay momentos en los que se puede
producir confusión en el uso de estos almacenes, puesto que puede haber aspectos
poco determinados. Esto lleva a que los equipos TI tengan que ocuparse de
personalizar la experiencia, delimitar el papel que tenga el data warehouse de
manera específica y exprimir sus recursos de forma que no se estén desperdiciando
herramientas. Requiere implicación por parte de los equipos técnicos y es algo que
tendremos que tener en cuenta, demostrando que los almacenes de datos se tienen
que implementar con eficacia ante todo y con un análisis previo de los requisitos.
Otros inconvenientes.
Requiere de continua limpieza, transformación e integración de datos.
Mantenimiento.
En un proceso de implantación puede encontrarse dificultades ante los
diferentes objetivos que pretende una organización.
Una vez implementado puede ser complicado añadir nuevas fuentes de datos.
Requieren una revisión del modelo de datos, objetos, transacciones y además
del almacenamiento.
Tienen un diseño complejo y multidisciplinar.
Requieren una reestructuración de los sistemas operacionales.
Tienen un alto coste.
Requieren sistemas, aplicaciones y almacenamiento específico.