Documente Academic
Documente Profesional
Documente Cultură
Definicin
De acuerdo con W. H. lnmon, quien es considerado como el padre del Data Warehouse: Un Data Warehouse es un conjunto de datos integrados orientados a una material que varan con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administracin. De acuerdo con algunas organizaciones, el Data Warehouse es una arquitectura. Para otras, es un depsito semnticamente consistente en datos (separados y que no interfieren con los sistemas operativos y de produccin existentes) que Ilenan por completo los diferentes requerimientos de acceso y reporte de datos. Para algunos otros, el Data Warehouse es un proceso continuo que mezcla los datos de varias fuentes heterogneas, incluyendo datos histricos y adquiridos para soportar la constante necesidad de consultas estructuradas y/o ad hoc, reportes analticos y soporte de decisiones. As como hay gran divergencia para establecer una definicin precisa de un Data Warehouse, hay un claro consenso de que la tecnologa del Data Warehouse es un ingrediente esencial en el conjunto de soluciones para el soporte de decisiones en una empresa.
Hace que la informacin de la organizacin sea accesible: los contenidos del Data Warehouse son entendibles y navegables, y el acceso a ellos son caracterizado por el rpido desempeo. Estos requerimientos no tienen fronteras y tampoco limites fijos. Cuando hablamos de entendible significa, que los niveles de la informacin sean correctos y obvios. Y Navegables significa el reconocer el destino en la pantalla y llegar a donde queramos con solo un clic. Rpido desempeo significa, cero tiempo de espera. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Hacer que la informacin de la organizacin sea consistente: la informacin de una parte de la organizacin puede hacerse coincidir con la informacin de la otra parte de la organizacin. Si dos medidas de la organizacin tienen el mismo nombre, entonces deben significar la misma cosa. Y a la inversa, si dos medidas no significan la misma cosa, entonces son etiquetados diferentes. Informacin consistente significa, informacin de alta calidad. Significa que toda la informacin es contabilizada y completada. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es informacin adaptable y elstica: el Data WareHouse esta diseado para cambios continuos. Cuando se le hacen nuevas preguntas al Data WareHouse, los datos existentes y las tecnologas no cambian ni se corrompen. Cuando se agregan datos nuevos al Data WareHouse, los datos existentes y las tecnologas tampoco cambian ni se corrompen. El diseo de Data Marts separados que hacen al Data WareHouse, deben ser distribuidos e incrementados. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es un seguro baluarte que protege los valores de la informacin: el Data WareHouse no solamente controla el acceso efectivo a los datos, si no que da a los dueos de la informacin gran visibilidad en el uso y abusos de los datos, an despus de haber dejado el Data WareHouse. Todo lo dems es un compromiso y por consiguiente algo que queremos mejorar. Es la fundacin de la toma de decisiones: el Data WareHouse tiene los datos correctos para soportar la toma de decisiones. Solo hay una salida verdadera del Data WareHouse: las
decisiones que son hechas despus de que el Data WareHouse haya presentado las evidencias. La original etiqueta que preside el Data WareHouse sigue siendo la mejor descripcin de lo que queremos construir: un sistema de soporte a las decisiones.
Orientado a temas
Una primera caracterstica del data warehouse es que la informacin se clasifica en base a los aspectos que son de inters para la empresa. Siendo as, los datos tomados estn en contraste con los clsicos procesos orientados a las aplicaciones. En la Figura se muestra el contraste entre los dos tipos de orientaciones.
El ambiente operacional se disea alrededor de las aplicaciones y funciones tales como prstamos, ahorros, tarjeta bancaria y depsitos para una institucin financiera. Por ejemplo, una aplicacin de ingreso de rdenes puede acceder a los datos sobre clientes, productos y cuentas. La base de datos combina estos elementos en una estructura que acomoda las necesidades de la aplicacin.
En el ambiente data warehousing se organiza alrededor de sujetos tales como cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, stos pueden ser clientes, productos, proveedores y vendedores. Para una universidad pueden ser estudiantes, clases y profesores. Para un hospital pueden ser pacientes, personal mdico, medicamentos, etc. La alineacin alrededor de las reas de los temas afecta el diseo y la implementacin de los datos encontrados en el data warehouse. Las principales reas de los temas influyen en la parte ms importante de la estructura clave. Las aplicaciones estn relacionadas con el diseo de la base de datos y del proceso. En data warehousing se enfoca el modelamiento de datos y el diseo de la base de datos. El diseo del proceso (en su forma clsica) no es separado de este ambiente. Las diferencias entre la orientacin de procesos y funciones de las aplicaciones y la orientacin a temas, radican en el contenido de la data a escala detallada. En el data warehouse se excluye la informacin que no ser usada por el proceso de sistemas de soporte de decisiones, mientras que la informacin de las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los requerimientos funcionales y de proceso, que pueden ser usados o no por el analista de soporte de decisiones. Otra diferencia importante est en la interrelacin de la informacin. Los datos operacionales mantienen una relacin continua entre dos o ms tablas basadas en una regla comercial que est vigente. Las del data warehouse miden un espectro de tiempo y las relaciones encontradas en el data warehouse son muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones de datos) se representan en el data warehouse, entre dos o ms tablas.
Integrado
Integra datos recolectados de diferentes sistemas operacionales de la organizacin y o fuentes externas.
El aspecto ms importante del ambiente data warehousing es que la informacin encontrada al interior est siempre integrada. La integracin de datos se muestra de muchas maneras: en convenciones de nombres consistentes, en la medida uniforme de variables, en la codificacin de estructuras consistentes, en atributos fsicos de los datos consistentes, fuentes mltiples y otros. El contraste de la integracin encontrada en el data warehouse con la carencia de integracin del ambiente de aplicaciones, se muestran en la figura, con diferencias bien marcadas. A travs de los aos, los diseadores de las diferentes aplicaciones han tomado sus propias decisiones sobre cmo se debera construir una aplicacin. Los estilos y diseos personalizados se muestran de muchas maneras. Se diferencian en la codificacin, en las estructuras claves, en sus caractersticas fsicas, en las convenciones de nombramiento y otros. La capacidad colectiva de muchos de los diseadores de aplicaciones, para crear aplicaciones inconsistentes, es fabulosa. La Figura mencionada, muestra algunas de las diferencias ms importantes en las formas en que se disean las aplicaciones. Codificacin. Los diseadores de aplicaciones codifican el campo GENERO en varias formas. Un diseador representa GENERO como una "M" y una "F", otros como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino" y "femenino". No importa mucho cmo el GENERO llega al data warehouse. Probablemente "M" y "F" sean tan buenas como cualquier otra representacin. Lo importante es que sea de cualquier fuente de donde venga, el GENERO debe llegar al data warehouse en un estado integrado uniforme. Por lo tanto, cuando el GENERO se carga en el data warehouse desde una aplicacin, donde ha sido representado en formato "M" y "F", los datos deben convertirse al formato del data warehouse. Medida de atributos. Los diseadores de aplicaciones miden las unidades de medida de las tuberas en una variedad de formas. Un diseador almacena los datos de tuberas en centmetros, otros en pulgadas, otros en millones de pies cbicos por segundo y otros en yardas. Al dar medidas a los atributos, la transformacin traduce las diversas unidades de medida usadas en las diferentes bases de datos para transformarlas en una medida estndar comn. Cualquiera que sea la fuente, cuando la informacin de la tubera llegue al data warehouse necesitar ser medida de la misma manera.
Convenciones de Nombramiento. El mismo elemento es frecuentemente referido por nombres diferentes en las diversas aplicaciones. El proceso de transformacin asegura que se use preferentemente el nombre de usuario.
Fuentes Mltiples. El mismo elemento puede derivarse desde fuentes mltiples. En este caso, el proceso de transformacin debe asegurar que la fuente apropiada sea usada, documentada y movida al depsito. Tal como se muestra en la figura, los puntos de integracin afectan casi todos los aspectos de diseo - las caractersticas fsicas de los datos, la disyuntiva de tener ms de una de fuente de datos, el problema de estndares de denominacin inconsistentes, formatos de fecha inconsistentes y otros. Cualquiera que sea la forma del diseo, el resultado es el mismo - la informacin necesita ser almacenada en el data warehouse en un modelo globalmente aceptable y singular, aun cuando los sistemas operacionales subyacentes almacenen los datos de manera diferente. Cuando el analista de sistema de soporte de decisiones observe el data warehouse, su enfoque deber estar en el uso de los datos que se encuentre en el depsito, antes que preguntarse sobre la confiabilidad o consistencia de los datos.
Toda la informacin del data warehouse es requerida en algn momento. Esta caracterstica bsica de los datos en un depsito, es muy diferente de la informacin encontrada en el ambiente operacional. En stos, la informacin se requiere al momento de acceder. En otras palabras, en el ambiente operacional, cuando usted accede a una unidad de informacin, usted espera que los valores requeridos se obtengan a partir del momento de acceso. Como la informacin en el data warehouse es solicitada en cualquier momento (es decir, no "ahora mismo"), los datos encontrados en el depsito se llaman de "tiempo variante". Los datos histricos son de poco uso en el procesamiento operacional. La informacin del depsito por el contraste, debe incluir los datos histricos para usarse en la identificacin y evaluacin de tendencias. (Ver Figura).
3. La tercera manera en que aparece el tiempo variante es cuando la informacin del data
warehouse, una vez registrada correctamente, no puede ser actualizada. La informacin del data warehouse es, para todos los propsitos prcticos, una serie larga de "snapshots" (vistas instantneas). Por supuesto, si los snapshots de los datos se han tomado incorrectamente, entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos no son alterados una vez hechos. En algunos casos puede ser no tico, e incluso ilegal, alterar los snapshots en el data warehouse. Los datos operacionales, siendo requeridos a partir del momento de acceso, pueden actualizarse de acuerdo a la necesidad.
No voltil
Los datos que son almacenados no sufren ninguna actualizacin solo son incrementados. El perodo cubierto para un DW va de 2 a 10 aos.
La informacin es til slo cuando es estable. Los datos operacionales cambian sobre una base momento a momento. La perspectiva ms grande, esencial para el anlisis y la toma de decisiones, requiere una base de datos estable.
En la Figura se muestra que la actualizacin (insertar, borrar y modificar), se hace regularmente en el ambiente operacional sobre una base de registro por registro. Pero la manipulacin bsica de los datos que ocurre en el data warehouse es mucho ms simple. Hay dos nicos tipos de operaciones: la carga inicial de datos y el acceso a los mismos. No hay actualizacin de datos (en el sentido general de actualizacin) en el depsito, como una parte normal de procesamiento. Hay algunas consecuencias muy importantes de esta diferencia bsica, entre el procesamiento operacional y del data warehouse. En el nivel de diseo, la necesidad de ser precavido para actualizar las anomalas no es un factor en el data warehouse, ya que no se hace la actualizacin de datos. Esto significa que en el nivel fsico de diseo, se pueden tomar libertades para optimizar el acceso a los datos, particularmente al usar la normalizacin y desnormalizacin fsica. Otra consecuencia de la simplicidad de la operacin del data warehouse est en la tecnologa subyacente, utilizada para correr los datos en el depsito. Teniendo que soportar la actualizacin de registro por registro en modo on-line (como es frecuente en el caso del procesamiento operacional) requiere que la tecnologa tenga un fundamento muy complejo debajo de una fachada de simplicidad.
Sistemas no integrados Mltiples e incompatibles estructuras de datos Muchos puntos de entrada a los datos Manejo de informacin histrica Para facilitar las actividades de reporteo y anlisis de usuarios Proveer una vista nica del negocio
OLPT - Orientada a transacciones - Detallada - Actualizada en lnea - Usuarios de nivel operativo - Corre en base a repeticiones - Muy sensitivo al desempeo - Accesa unidades a la vez - Orientado a operacin - Estructura esttica - Sin redundancia - Alta probabilidad de acceso - Administrada como un todo - Informacin bruta (Datos) - Actualizada en lnea - Muchas tablas con pocas columnas
Data Warehouse - Orientada a Conceptos - Sumarizada - Representa valores a un tiempo (snapshot) - Usuarios de nivel gerencial - Corre heursticamente - Poco sensitivo al desempeo - Accesa conjuntos de unidades a la vez - Orientado a anlisis - Estructura flexible - Con mucha redundancia - Modesta probabilidad de acceso - Administrada por partes - Informacin procesada (Informacin) - Actualizada en Batch - Pocas tablas con muchas columnas
Sistema Transaccional
Datawarehouse
Muchos datos sumarizados Estructurado para anlisis con drill down Datos histricos para anlisis de tendencias Informacin integrada para anlisis corporativos
A continuacin un modelo expresado en su forma transaccional y tambin modelado como Data Mart.
Ciclo de Desarrollo
El Data Warehouse sigue el mismo ciclo de perfeccionamiento que todos los desarrollos de software.
Las fases del ciclo son las mismas, lo mismo que su secuencia, slo existen variantes nicas que se relacionan especficamente con el Data Warehouse para tareas dentro de estas fases. La siguiente figura muestra el ciclo clsico de desarrollo de software:
Planeacin: La planeacin es una fase importante de la implementacin del Data Warehouse. Las decisiones tomadas durante la fase de planeacin tienen un impacto significativo en el mbito de implementacin y en la magnitud del esfuerzo. Las decisiones clave de planeacin incluyen la seleccin de un enfoque de arriba hacia abajo (de Io general a Io particular), de abajo hacia arriba (en sentido opuesto) o combinado; la seleccin de la arquitectura apropiada de Data Warehouse; la seleccin adecuada del mbito de informacin, fuentes de datos y tamao del metamodelo; y la estimacin de planes de programa y proyecto y justificaciones de presupuesto. Requerimientos: Durante la fase de requerimientos se debe considerar una diversidad de ellos. Los requerimientos son conducidos por el negocio y por la tecnologa. La cuidadosa seleccin y especificacin de requerimientos en esta etapa proporciona un proyecto cimentado que arroja resultados con rapidez. Anlisis: La fase de anlisis es importante ya que determina la forma en que se cubrirn los requerimientos. Esta fase se enfoca principalmente en la conversin de especificaciones de requerimientos a especificaciones de metamodelo para el Data Warehouse. Despus, estas especificaciones se usan para generar extractores del Data Warehouse y software de transformacin, integracin, resumen y adicin. Construccin: La fase de construccin resalta los diversos intercambios "construir en comparacin con comprar". Mediante la seleccin adecuada de componentes suministrados por fabricantes, es posible construir una primera implementacin del Data Warehouse rpida y eficaz. Despliegue: La fase de despliegue en el ciclo de desarrollo del Data Warehouse tiene un componente nico denominado comercializacin de informacin. Esto reconoce que la mercanca que suministra el Data Warehouse a sus usuarios finales (clientes) es la propia informacin. Como un producto de mercanca, la informacin tambin debe comercializarse como los bienes de consumo. La comercializacin comprende la capacidad de hacer nfasis en la disponibilidad, los beneficios y el empaque para hacerla atractiva al usuario final.
La Figura muestra un esquema bidimensional para analizar las opciones bsicas. La dimensin horizontal indica el alcance del depsito y la vertical muestra la cantidad de datos redundantes que deben almacenarse y mantenerse.
Data warehouses "virtual" o "Point to Point" Data warehouses "centrales" Data warehouses "distribuidos"
No se puede pensar en un nico enfoque. Cada opcin adapta un conjunto especfico de requerimientos y una buena estrategia de almacenamiento de datos, lo constituye la inclusin de las tres opciones. Data Warehouses "Virtual" o "Point to Point" Una estrategia de data warehouses virtual, significa que los usuarios finales pueden acceder a bases de datos operacionales directamente, usando cualquier herramienta que posibilite "la red de acceso de datos". Este enfoque provee flexibilidad as como tambin la cantidad mnima de datos redundantes que deben cargarse y mantenerse. Adems, se pueden colocar las cargas de consulta no planificadas ms grandes, sobre sistemas operacionales. Como se ver, el almacenamiento virtual es, frecuentemente, una estrategia inicial, en organizaciones donde hay una amplia (pero en su mayor parte indefinida) necesidad de conseguir la data operacional, desde una clase relativamente grande de usuarios finales y donde la frecuencia probable de pedidos es baja. Los depsitos virtuales de datos proveen un punto de partida para que las organizaciones determinen qu usuarios finales estn buscando realmente. Data Warehouses "Centrales" El concepto de data warehouses centrales es el concepto inicial que se tiene del data warehouse. Es una nica base de datos fsica, que contiene todos los datos para un rea funcional especfica, departamento, divisin o empresa. Los data warehouses centrales se seleccionan por lo general donde hay una necesidad comn de los datos informticos y un nmero grande de usuarios finales ya conectados a una red o computadora central. Pueden contener datos para cualquier perodo especfico de tiempo. Comnmente, contienen datos de sistemas operacionales mltiples. Los data warehouses centrales son reales. Los datos almacenados en el data warehouse son accesibles desde un lugar y deben cargarse y mantenerse sobre una base regular. Normalmente se construyen alrededor de RDBMS avanzados o, en alguna forma, de servidor de base de datos informtico multidimensional. Data Warehouses Distribuidos Los data warehouses distribuidos son aquellos en los cuales ciertos componentes del depsito se distribuyen a travs de un nmero de bases de datos fsicas diferentes. Cada vez ms, las organizaciones grandes estn tomando decisiones a niveles ms inferiores de la organizacin y a la vez, llevando los datos que se necesitan para la toma de decisiones a la red de rea local (Local Area Network - LAN) o computadora local que sirve al que toma decisiones. Los data warehouses distribuidos comnmente involucran la mayora de los datos redundantes y como consecuencia de ello, se tienen procesos de actualizacin y carga ms complejos.
Planificacin Tecnolgica
Estrategia de la Base de Datos Se trata de la creacin de la base de datos. Entre otras cosas incluye
Contenido: Qu datos e informacin se requieren para solucionar las preguntas y necesidades de los usuarios Fuentes: Cules son los fuentes de la informacin y donde se encuentran las fuentes. Extraccin: Cmo se extraen los datos y con que periodicidad se cargan en el datawarehouse. Preparacin: Qu se requiere para depurar y validar los datos fuentes Diseo: Cul es el diseo apropiado para la base de datos Afinamiento: Qu aspectos de afinamiento y rendimiento se van a considerar Plataforma: Como ser la plataforma en la que residir el datawarehouse, como se compone la red, cuales son los componentes de hardware y software. Administracin: Qu se requiere para administrar el datawarehouse en trminos de seguridad, procesos de actualizacin, gestin de metadatos, aseguramiento de la calidad, etc.
Estrategia de la Aplicacin La estrategia de aplicacin trata con la tecnologa en dos puntos: la capa de lgica analtica y la capa de presentacin. Identificando acceso a los datos y anlisis de requerimientos define el conjunto de requerimientos bsicos del usuario. Algunas preguntas de los usuarios pueden ser respondidas simplemente recuperando los datos desde el warehouse, pero muchas mas preguntas requieren algn tipo de rutinas analticas a ser ejecutadas sobre los datos. Estas rutinas analticas pueden ser clasificadas desde algo tal simple como clculo del porcentaje de cambio del volumen de ventas hasta la creacin de un modelo matemtico complejo. Se identifican las funciones de anlisis de datos que se necesitan para satisfacer las necesidades de los usuarios.
Acceso; Identificar que usuarios van a tener acceso a la informacin y tambin que nivel de informacin podr ver cada uno de ellos. Anlisis: Qu funciones de anlisis de informacin sern necesarias para satisfacer los requerimientos. Modelamiento; Requerimientos para anlisis estadsticos de datos, minera de datos, u otro soporte de modelamiento matemtico Aplicaciones; Necesidades para aplicaciones especficas del negocio Procesos: Cmo ayuda el datawarehouse a los procesos de negocio, Qu mejoras en los procesos de negocio se logran con el datawarehouse. Soporte: Cmo los usuarios recibirn soporte y capacitacin en el datawarehouse.
Interfaz: Cuales usuarios usarn aplicaciones cliente servidor y cuales accedern a travs de clientes web (browser) Colaboracin; Como se promover la colaboracin entre los usuarios. Agentes: Cmo se automatizarn los procesos de anlisis y reportes.
Motor de bsqueda; Cmo los recursos del datawarehouse sern registrados en motores de bsqueda. Seguridad: Cmo ser garantizada la seguridad de la informacin y de la base de datos.
Herramientas de Acceso