Sunteți pe pagina 1din 7

e s.wikipe dia.

o rg

http://es.wikipedia.o rg/w/index.php?title=Almacn_de_dato s&printable=yes

Almacn de datos
En el contexto de la inf ormtica, un almacn de datos (del ingls data warehouse) es una coleccin de datos orientada a un determinado mbito (empresa, organizacin, etc.), integrado, no voltil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza. Se trata, sobre todo, de un expediente completo de una organizacin, ms all de la inf ormacin transaccional y operacional, almacenado en una base de datos diseada para f avorecer el anlisis y la divulgacin ef iciente de datos (especialmente OLAP, procesamiento analtico en lnea). El almacenamiento de los datos no debe usarse con datos de uso actual. Los almacenes de datos contienen a menudo grandes cantidades de inf ormacin que se subdividen a veces en unidades lgicas ms pequeas dependiendo del subsistema de la entidad del que procedan o para el que sean necesario.

De s c rip c i n d e un Data Ware ho us e .

ndice
[ocultar]

Def iniciones de almacn de datos


Def inicin de Bill Inmon
Bill Inmon [1] f ue uno de los primeros autores en escribir sobre el tema de los almacenes de datos, def ine un data warehouse (almacn de datos) en trminos de las caractersticas del repositorio de datos: Orientado a temas.- Los datos en la base de datos estn organizados de manera que todos los elementos de datos relativos al mismo evento u objeto del mundo real queden unidos entre s. Variante en el tiempo .- Los cambios producidos en los datos a lo largo del tiempo quedan registrados para que los inf ormes que se puedan generar ref lejen esas variaciones. No voltil.- La inf ormacin no se modif ica ni se elimina, una vez almacenado un dato, ste se convierte en inf ormacin de slo lectura, y se mantiene para f uturas consultas. Integrado .- La base de datos contiene los datos de todos los sistemas operacionales de la organizacin, y dichos datos deben ser consistentes. Inmon def iende una metodologa descendente (top-down ) a la hora de disear un almacn de datos, ya que de esta f orma se considerarn mejor todos los datos corporativos. En esta metodologa los Data marts se crearn despus de haber terminado el data warehouse completo de la organizacin.

Def inicin de Ralph Kimball


Ralph Kimball[2] es otro conocido autor en el tema de los data warehouse , def ine un almacn de datos como: "una copia de las transacciones de datos especficamente estructurada para la consulta y el anlisis" . Tambin f ue Kimball quien determin que un data warehouse no era ms que: "la unin de todos los Data marts de una entidad" . Def iende por tanto una metodologa ascendente (bottom-up ) a la hora de disear un almacn de datos.

Una def inicin ms amplia de almacn de dat os


Las def iniciones anteriores se centran en los datos en s mismos. Sin embargo, los medios para obtener esos datos, para extraerlos, transf ormarlos y cargarlos, las tcnicas para analizarlos y generar inf ormacin, as como las dif erentes f ormas para realizar la gestin de datos son componentes esenciales de un almacn de datos. Muchas ref erencias a un almacn de datos utilizan esta def inicin ms amplia. Por lo tanto, en esta def inicin se incluyen herramientas para extraer, transf ormar y cargar datos, herramientas para el anlisis (inteligencia empresarial) y herramientas para gestionar y recuperar los metadatos.

Funcin de un almacn de datos


En un almacn de datos lo que se quiere es contener datos que son necesarios o tiles para una organizacin, es decir, que se utiliza como un repositorio de datos para posteriormente transf ormarlos en inf ormacin til para el usuario. Un almacn de datos debe entregar la inf ormacin correcta a la gente indicada en el momento ptimo y en el f ormato adecuado. El almacn de datos da respuesta a las necesidades de usuarios expertos, utilizando Sistemas de Soporte a Decisiones (DSS ), Sistemas de inf ormacin ejecutiva (EIS ) o herramientas para hacer consultas o inf ormes. Los usuarios f inales pueden hacer f cilmente consultas sobre sus almacenes de datos sin tocar o af ectar la operacin del sistema. En el f uncionamiento de un almacn de datos son muy importantes las siguientes ideas: Integracin de los datos provenientes de bases de datos distribuidas por las dif erentes unidades de la organizacin y que con f recuencia tendrn dif erentes estructuras (f uentes heterogneas). Se debe f acilitar una descripcin global y un anlisis comprensivo de toda la organizacin en el almacn de datos. Separacin de los datos usados en operaciones diarias de los datos usados en el almacn de datos para los propsitos de divulgacin, de ayuda en la toma de decisiones, para el anlisis y para operaciones de control. Ambos tipos de datos no deben coincidir en la misma base de datos, ya que obedecen a objetivos muy distintos y podran entorpecerse entre s. Peridicamente, se importan datos al almacn de datos de los distintos sistemas de planeamiento de recursos de la entidad (ERP) y de otros sistemas de sof tware relacionados con el negocio para la transf ormacin posterior. Es prctica comn normalizar los datos antes de combinarlos en el almacn de datos mediante herramientas de extraccin, transf ormacin y carga (ET L). Estas herramientas leen los datos primarios (a menudo bases de datos OLT P de un negocio), realizan el proceso de transf ormacin al almacn de datos (f iltracin, adaptacin, cambios de f ormato, etc.) y escriben en el almacn.

Data marts
Artculo principal: Data mart. Los Data marts son subconjuntos de datos de un data warehouse para reas especf icas. Entre las caractersticas de un data mart destacan:

Usuarios limitados. rea especf ica. Tiene un propsito especf ico. Tiene una f uncin de apoyo.

Cubos de inf ormacin


Artculo principal: Cubo OLAP. Los cubos de inf ormacin o cubos OLAP f uncionan como los cubos de rompecabezas en los juegos, en el juego se trata de armar los colores y en el data warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el juego) tienen 3 dimensiones, los cubos OLAP tienen un nmero indef inido de dimensiones, razn por la cual tambin reciben el nombre de hipercubos. Un cubo OLAP contendr datos de una determinada variable que se desea analizar, proporcionando una vista lgica de los datos provistos por el sistema de inf ormacin hacia el data warehouse, esta vista estar dispuesta segn unas dimensiones y podr contener inf ormacin calculada. El anlisis de los datos est basado en las dimensiones del hipercubo, por lo tanto, se trata de un anlisis multidimensional. A la inf ormacin de un cubo puede acceder el ejecutivo mediante "tablas dinmicas" en una hoja de clculo o a travs de programas personalizados. Las tablas dinmicas le permiten manipular las vistas (cruces, f iltrados, organizacin, totales) de la inf ormacin con mucha f acilidad. Las dif erentes operaciones que se pueden realizar con cubos de inf ormacin se producen con mucha rapidez. Llevando estos conceptos a un data warehouse, ste es una coleccin de datos que est f ormada por dimensiones y variables, entendiendo como dimensiones a aquellos elementos que participan en el anlisis y variables a los valores que se desean analizar.

Dimensiones
Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (f orman parte de la tabla de dimensiones). Son catlogos de inf ormacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la inf ormacin general complementaria a cada uno de los registros de la tabla de hechos.

Variables
Tambin llamadas indicadores de gestin , son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms f ormalmente, las variables representan algn aspecto cuantif icable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En f orma contraria, las dimensiones son atributos relativos a las variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.), ...

Ejemplos
Ejemplos de variables podran ser: Beneficios

Gastos Ventas etc. Ejemplos de dimensiones podran ser: producto (dif erentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrf icas) tiempo (medido de dif erentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...) etc. Segn lo anterior, podramos construir un cubo de inf ormacin sobre el ndice de ventas (variable a estudiar) en f uncin del producto vendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.

Elementos que integran un almacn de datos


Met adat os
Artculo principal: Metadato. Uno de los componentes ms importantes de la arquitectura de un almacn de datos son los metadatos. Se def ine comnmente como "datos acerca de los datos", en el sentido de que se trata de datos que describen cul es la estructura de los datos que se van a almacenar y cmo se relacionan. El metadato documenta, entre otras cosas, qu tablas existen en una base de datos, qu columnas posee cada una de las tablas y qu tipo de datos se pueden almacenar. Los datos son de inters para el usuario f inal, el metadato es de inters para los programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el metadato en un entorno de almacn de datos es muy dif erente al rol que cumple en los ambientes operacionales. En el mbito de los data warehouse el metadato juega un papel f undamental, su f uncin consiste en recoger todas las def iniciones de la organizacin y el concepto de los datos en el almacn de datos, debe contener toda la inf ormacin concerniente a: Tablas Columnas de tablas Relaciones entre tablas Jerarquas y Dimensiones de datos Entidades y Relaciones Artculo principal: Extract, transform and load. Los procesos de extraccin , transformacin y carga (ET L) son importantes ya que son la f orma en que los datos se guardan en un almacn de datos (o en cualquier base de datos). Implican las siguientes operaciones: Extraccin . Accin de obtener la inf ormacin deseada a partir de los datos almacenados en f uentes externas. Transformacin . Cualquier operacin realizada sobre los datos para que puedan ser cargados en el

data warehouse o se puedan migrar de ste a otra base de datos. Carga. Consiste en almacenar los datos en la base de datos f inal, por ejemplo el almacn de datos objetivo normal.

Middleware
Artculo principal: Middleware. Middleware es un trmino genrico que se utiliza para ref erirse a todo tipo de sof tware de conectividad que of rece servicios u operaciones que hacen posible el f uncionamiento de aplicaciones distribuidas sobre plataf ormas heterogneas. Estos servicios f uncionan como una capa de abstraccin de sof tware distribuida, que se sita entre las capas de aplicaciones y las capas inf eriores (sistema operativo y red). El middleware puede verse como una capa API, que sirve como base a los programadores para que puedan desarrollar aplicaciones que trabajen en dif erentes entornos sin preocuparse de los protocolos de red y comunicaciones en que se ejecutarn. De esta manera se of rece una mejor relacin costo/rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en menos tiempo. La f uncin del middleware en el contexto de los data warehouse es la de asegurar la conectividad entre todos los componentes de la arquitectura de un almacn de datos.

Diseo de un almacn de datos


Para construir un Data Warehouse se necesitan herramientas para ayudar a la migracin y a la transf ormacin de los datos hacia el almacn. Una vez construido, se requieren medios para manejar grandes volmenes de inf ormacin. Se disea su arquitectura dependiendo de la estructura interna de los datos del almacn y especialmente del tipo de consultas a realizar. Con este criterio los datos deben ser repartidos entre numerosos data marts. Para abordar un proyecto de data warehouse es necesario hacer un estudio de algunos temas generales de la organizacin o empresa, los cuales se describen a continuacin: Situacin actual de partida.- Cualquier solucin propuesta de data warehouse debe estar muy orientada por las necesidades del negocio y debe ser compatible con la arquitectura tcnica existente y planeada de la compaa. Tipo y caractersticas del negocio.- Es indispensable tener el conocimiento exacto sobre el tipo de negocios de la organizacin y el soporte que representa la inf ormacin dentro de todo su proceso de toma de decisiones. Entorno tcnico.- Se debe incluir tanto el aspecto del hardware (mainf rames, servidores, redes,...) as como aplicaciones y herramientas. Se dar nf asis a los Sistemas de soporte a decisiones (DSS ), si existen en la actualidad, cmo operan, etc. Expectativas de los usuarios.- Un proyecto de data warehouse no es nicamente un proyecto tecnolgico, es una f orma de vida de las organizaciones y como tal, tiene que contar con el apoyo de todos los usuarios y su convencimiento sobre su bondad. Etapas de desarrollo.- Con el conocimiento previo, ya se entra en el desarrollo de un modelo conceptual para la construccin del data warehouse. Prototipo.- Un prototipo es un esf uerzo designado a simular tanto como sea posible el producto f inal que ser entregado a los usuarios. Piloto.- El piloto de un data warehouse es el primero, o cada uno de los primeros resultados generados de f orma iterativa que se harn para llegar a la construccin del producto f inal deseado.

de f orma iterativa que se harn para llegar a la construccin del producto f inal deseado. Prueba del concepto tecnolgico.- Es un paso opcional que se puede necesitar para determinar si la arquitectura especif icada del data warehouse f uncionar f inalmente como se espera.

Almacn de datos espacial


Almacn de datos espacial es una coleccin de datos orientados al tema, integrados, no voltiles, variantes en el tiempo y que aaden la geograf a de los datos, para la toma de decisiones. Sin embargo la componente geogrf ica no es un dato agregado, sino que es una dimensin o variable en la tecnologa de la inf ormacin, de tal manera que permita modelar todo el negocio como un ente holstico, y que a travs de herramientas de procesamiento analtico en lnea (OLAP), no solamente se posea un alto desempeo en consultas multidimensionales sino que adicionalmente se puedan visualizar espacialmente los resultados. El almacn de datos espacial f orma el corazn de un extensivo Sistema de Informacin Geogrfica para la toma de decisiones, ste al igual que los SIG, permiten que un gran nmero de usuarios accedan a inf ormacin integrada, a dif erencia de un simple almacn de datos que est orientado al tema, el Data warehouse espacial adicionalmente es Geo-Relacional, es decir que en estructuras relacionales combina e integra los datos espaciales con los datos descriptivos. Actualmente es geo-objetos, esto es que los elementos geogrf icos se manif iestan como objetos con todas sus propiedades y comportamientos, y que adicionalmente estn almacenados en una nica base de datos Objeto-Relacional. Los Data Warehouse Espaciales son aplicaciones basadas en un alto desempeo de las bases de datos, que utilizan arquitecturas Cliente-Servidor para integrar diversos datos en tiempo real. Mientras los almacenes de datos trabajan con muchos tipos y dimensiones de datos, muchos de los cuales no ref erencian ubicacin espacial, a pesar de poseerla intrnsecamente, y sabiendo que un 80% de los datos poseen representacin y ubicacin en el espacio, en los Data warehouse espaciales, la variable geogrf ica desempea un papel importante en la base de inf ormacin para la construccin del anlisis, y de igual manera que para un Data warehouse, la variable tiempo es imprescindible en los anlisis, para los Data warehouse espaciales la variable geogrf ica debe ser almacenada directamente en ella.

Ventajas e inconvenientes de los almacenes de datos


Vent ajas
Hay muchas ventajas por las que es recomendable usar un almacn de datos. Algunas de ellas son: Los almacenes de datos hacen ms f cil el acceso a una gran variedad de datos a los usuarios f inales Facilitan el f uncionamiento de las aplicaciones de los sistemas de apoyo a la decisin tales como informes de tendencia, por ejemplo: obtener los tems con la mayora de las ventas en un rea en particular dentro de los ltimos dos aos; informes de excepcin , inf ormes que muestran los resultados reales f rente a los objetivos planteados a priori. Los almacenes de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestin de relaciones con clientes.

Inconvenient es
Utilizar almacenes de datos tambin plantea algunos inconvenientes, algunos de ellos son: A lo largo de su vida los almacenes de datos pueden suponer altos costos. El almacn de datos no suele ser esttico. Los costos de mantenimiento son elevados. Los almacenes de datos se pueden quedar obsoletos relativamente pronto.

A veces, ante una peticin de inf ormacin estos devuelven una inf ormacin subptima, que tambin supone una prdida para la organizacin. A menudo existe una delgada lnea entre los almacenes de datos y los sistemas operacionales. Hay que determinar qu f uncionalidades de estos se pueden aprovechar y cules se deben implementar en el data warehouse, resultara costoso implementar operaciones no necesarias o dejar de implementar alguna que s vaya a necesitarse.

S-ar putea să vă placă și