Sunteți pe pagina 1din 23

Aplicacin de Data Warehouse bajo metodologa HEFESTO.

[Escriba aqu una descripcin breve del documento. Normalmente, una descripcin breve es un resumen corto del contenido del documento. Escriba aqu una descripcin breve del documento. Normalmente, una descripcin breve es un resumen corto del contenido del documento.]
TRABAJO APLICATIVO UNASAM FC - ISEI

Integrantes:
y y y y Araujo Vargas, Antony. Oncoy Ramrez, Ricardo. Valdivia Rodrguez, Amer. Vega Rodrguez, Manuel.

Ing. Empresarial HUARAZ - PER 01/01/2011

Aplicacin de Data Warehouse bajo la metodologa HEFESTO

I.

Conceptos Asociados a Data Warehouse 1.1. Business Intelligence 1.1.1. Definicin Se puede describir BI, como un concepto que integra por un lado el almacenamiento y por el otro el procesamiento de grandes cantidades de datos, con el principal objetivo de transformarlos en conocimiento y en decisiones en tiempo real, a travs de un sencillo anlisis y exploracin. La definicin antes expuesta puede representarse a travs de la siguiente frmula:

1.1.2. Proceso El proceso de BI est dividido en cinco fases, las cuales sern explicadas teniendo como referencia el siguiente grfico, que sintetiza todo el proceso:

1.2. Data Warehousing 1.2.1. Definicin El Data Warehousing posibilita la extraccin de datos de sistemas operacionales y fuentes externas, permite la integracin y homogeneizacin de los datos de toda la empresa, provee informacin que ha sido transformada y sumarizada, para que ayude en el proceso de toma de decisiones estratgicas y tcticas. Pero para que el Data Warehousing pueda cumplir con sus objetivos, es necesario que la informacin que se extrae, transforma y consolida, sea almacenada de manera centralizada en una base de datos con estructura multidimensional denominada Data Warehouse (DW).

1.3. Data Warehouse 1.3.1. Definicin Una de las definiciones ms famosas sobre DW, es la de William Harvey Inmon, quien define: Un Data Warehouse es una coleccin de datos orientada al negocio, integrada, variante en el tiempo y no voltil para el soporte del proceso de toma de decisiones de la gerencia. Debido a que W. H. Inmon, es reconocido mundialmente como el padre del DW, la explicacin delas caractersticas ms sobresalientes de este concepto se bas en su definicin.

1.3.2. Caractersticas

1.3.2.1. Orientada al negocio La primera caracterstica del DW, es que la informacin se clasifica en base a los aspectos que son de inters para la organizacin. Esta clasificacin afecta el diseo y la implementacin de los datos encontrados en el almacn de datos, debido a que la estructura del mismo difiere considerablemente a la de los clsicos procesos operacionales orientados a las aplicaciones. 1.3.2.2. Integrada La integracin implica que todos los datos de diversas fuentes que son producidos por distintosdepartamentos, secciones y aplicaciones, tanto internos como externos, deben ser consolidadosen una instancia antes de ser agregados al DW, y deben por lo tanto ser analizados paraasegurar su

calidad y limpieza, entre otras cosas. A este proceso se lo conoce como Integracinde Datos, y cuenta con diversas tcnicas y subprocesos para llevar a cabo sus tareas. Una deestas tcnicas son los procesos ETL - Extraccin, Transformacin y Carga de Datos (Extraction,Transformation and Load). 1.3.2.3. Variante en el tiempo Debido al gran volumen de informacin que se manejar en el DW, cuando se le realiza unaconsulta, los resultados deseados demorarn en originarse. Este espacio de tiempo que seproduce desde la bsqueda de datos hasta su consecucin es del todo normal en este ambientey es, precisamente por ello, que la informacin que se encuentra dentro del depsito de datos sedenomina de tiempo variable. Esta caracterstica bsica, es muy diferente de la informacin encontrada en el ambienteoperacional, en el cual, los datos se requieren en el momento de acceder, es decir, que seespera que los valores procurados se obtengan a partir del momento mismo de acceso. 1.3.2.4. No volatl La informacin es til para el anlisis y la toma de decisiones solo cuando es estable. Los datosoperacionales varan momento a momento, en cambio, los datos una vez que entran en el DW nocambian. La actualizacin, o sea, insertar, eliminar y modificar, se hace de forma muy habitual en elambiente operacional sobre una base, registro por registro, en cambio en el depsito de datos lamanipulacin bsica de los datos es mucho ms simple, debido a que solo existen dos tipos deoperaciones: la carga de datos y el acceso a los mismos.

1.3.3.Estructura Los DW estructuran los datos de manera muy particular niveles deesquematizacin y detalle que los delimitan. y existen diferentes

En la siguiente figura se puede apreciar mejor su respectiva estructura:

1.4. Arquitectura del Data Warehousing Se definirn y describirn todos los componentes queintervienen en su arquitectura o ambiente.A travs del siguiente grfico se explicitar la estructura del Data Warehousing:

1.5. OLTP OLTP (On Line TransactionProcessing), representa toda aquella informacin transaccional quegenera la empresa en su accionar diario, adems, de las fuentes externas con las que puedellegar a disponer. Como ya se ha mencionado, estas fuentes de informacin, son de caractersticas muy dismilesentre s, en formato, procedencia, funcin, etc.

Entre los OLTP ms habituales que pueden existir en cualquier organizacin se encuentran: y y y y y Archivos de textos. Hipertextos. Hojas de clculos. Informes semanales, mensuales, anuales, etc. Bases de datos transaccionales

1.6. Proceso ETL A continuacin, se explicar en sntesis el accionar del proceso ETL, y cul es la relacin existente entre sus diversas funciones. En la siguiente figura se puede apreciar mejor lo antesdescrito: Los pasos que se siguen son: y y y Se extraen los datos relevantes desde los OLTP y se depositan en un almacenamientointermedio. Se integran y transforman los datos, para evitar inconsistencias. Se cargan los datos desde el almacenamiento intermedio hasta el DW.

1.7. Base de datos multidimensional Una base de datos multidimensional es una base de datos en donde su informacin se almacenaen forma multidimensional, es decir, a travs de tablas de hechos y tablas de dimensiones.Proveen una estructura que permite, a travs de la creacin y consulta a una estructura de datosdeterminada (cubo multidimensional, Business Model, etc), tener acceso flexible a los datos, paraexplorar y analizar sus relaciones, y consiguientes resultados. Las bases de datos multidimensionales implican tres variantes posibles de modelamiento, quepermiten realizar consultas de soporte de decisin:  Esquema en Estrella (StarScheme).  Esquema Copo de Nieve (SnowflakeScheme).  Esquema Constelacin o copo de estrellas (StarflakeScheme). Los mencionados esquemas pueden ser implementados de diversas maneras, que,independientemente al tipo de arquitectura, requieren que toda la estructura de datos estedesnormalizada o semidesnormalizada, para evitar desarrollar uniones (Join) complejas paraacceder a la informacin, con el fin de agilizar la ejecucin de consultas. Los diferentes tipos deimplementacin son los siguientes:  Relacional ROLAP.  Multidimensional MOLAP.  Hbrido HOLAP.

1.8. Tablas de dimensiones Las tablas de dimensiones definen como estn los datos organizados lgicamente y proveen elmedio para analizar el contexto del negocio. Contienen datos cualitativos.

Representan los aspectos de inters, mediante los cuales los usuarios podrn filtrar ymanipular la informacin almacenada en la tabla de hechos. En la siguiente figura se pueden apreciar algunos ejemplos:

1.9. Tablas de hechos Las tablas de hechos contienen, precisamente, los hechos que sern utilizados por los analistasde negocio para apoyar el proceso de toma de decisiones. Contienen datos cuantitativos. Los hechos son datos instantneos en el tiempo, que son filtrados, agrupados y explorados atravs de condiciones definidas en las tablas de dimensiones. Los datos presentes en las tablas de hechos constituyen el volumen de la bodega, y puedenestar compuestos por millones de registros dependiendo de su granularidad y antigedad de laorganizacin. Los ms importantes son los de tipo numrico. El registro del hecho posee una clave primaria que est compuesta por las claves primarias delas tablas de dimensiones relacionadas a este.

1.10.

Tipos de modelamiento de DW

1.10.1. Esquema en estrella El esquema en estrella, consta de una tabla de hechos central y de varias tablas de dimensiones relacionadas a esta, a travs de sus respectivas claves. En la siguiente figura se puede apreciar un esquema en estrella estndar:

1.10.2. Esquema Copo de Nieve Este esquema representa una extensin del modelo en estrella cuando las tablas de dimensiones se organizan en jerarquas de dimensiones.

1.10.3. Esquema Constelacin Este modelo est compuesto por una serie de esquemas en estrella, y tal como se puede apreciar en la siguiente figura, est formado por una tabla de hechos principal (HECHOS_A) y por una o ms tablas de hechos auxiliares (HECHOS_B), las cuales pueden ser sumarizaciones de la principal. Dichas tablas yacen en el centro del modelo y estn relacionadas con sus respectivas tablas de dimensiones. No es necesario que las diferentes tablas de hechos compartan las mismas tablas de dimensiones, ya que, las tablas de hechos auxiliares pueden vincularse con solo algunas de las tablas de dimensiones asignadas a la tabla de hechos principal, y tambin pueden hacerlo con nuevas tablas de dimensiones.

II.

Aplicacin bajo la metodologa HEFESTO

En esta segunda parte de la publicacin, se presentar una metodologa propia para laconstruccin de un Data Warehouse, que partir de la recoleccin de requerimientos ynecesidades de informacin de los usuarios, y concluir en la confeccin de un esquema lgicoy sus respectivos procesos de extraccin, transformacin y carga de datos. Adems, seejemplificar cada etapa de la metodologa a travs de su aplicacin a una empresa real, queservir de gua para que se puedan visualizar los resultados que se esperan de cada paso y paraclarificar los conceptos enunciados. Primero, se describirn los aspectos ms sobresalientes de la metodologa y luego se explicarcada paso con su respectiva aplicacin. Finalmente, se expondrn algunas consideraciones quedeben tenerse en cuenta al momento de construir e implementar un Data Warehouse. El principal objetivo es facilitar el arduo trabajo que significa construir un Data Warehouse desdecero, aportando informacin que permitir aumentar la performance del mismo. En adicin a ello,esta metodologa estar orientada a evitar el tedio que provoca el tener que seguir pasos sinterminar de comprender el porqu de los mismos.Adicional a todo esto, se ejemplificar la creacin de cubos multidimensionales basados en elDW resultante del caso prctico.

2.1. Metodologa HEFESTO 2.1.1. Definicin

HEFESTO es una metodologa propia, cuya propuesta est fundamentada en una muy ampliainvestigacin, comparacin de metodologas existentes, experiencias propias en procesos deconfeccin de almacenes de datos. Cabe destacar que HEFESTO est en continua evolucin, yse han tenido en cuenta, como gran valor agregado, todos los feedbacks que han aportadoquienes han utilizado esta metodologa en diversos pases y con diversos fines. La idea principal, es comprender cada paso que se realizar, para no caer en el tedio de tenerque seguir un mtodo al pie de la letra sin saber exactamente qu se est haciendo, ni por qu.La construccin e implementacin de un DW puede adaptarse muy bien a cualquier ciclo de vidade desarrollo de software, con la salvedad de que para algunas fases en particular, las accionesque se han de realizar sern muy diferentes. Lo que se debe tener muy en cuenta, es no entraren la utilizacin de metodologas que requieran fases extensas de reunin de requerimientos yanlisis, fases de desarrollo monoltico que conlleve demasiado tiempo y fases de desplieguemuy largas. Lo que se busca, es entregar una primera implementacin que satisfaga una partede las necesidades, para demostrar las ventajas del DW y motivar a los usuarios. La metodologa HEFESTO, puede ser embebida en cualquier ciclo de vida que cumpla con lacondicin antes declarada.Con el fin de que se llegue a una total comprensin de cada paso o etapa, se acompaar con laimplementacin en una empresa real, para demostrar los resultados que se deben obtener yejemplificar cada concepto.

2.1.2. Descripcin La metodologa HEFESTO puede resumirse a travs del siguiente grfico:

Como se puede apreciar, se comienza recolectando las necesidades de informacin de losusuarios y se obtienen las preguntas claves del negocio. Luego, se deben identificar losindicadores resultantes de los interrogativos y sus respectivas perspectivas de anlisis, mediantelas cuales se construir el modelo conceptual de datos del DW. Despus, se analizarn los OLTP para determinar cmo se construirn los indicadores, sealarlas correspondencias con los datos fuentes y para seleccionar los campos de estudio de cadaperspectiva.Una vez hecho esto, se pasar a la construccin del modelo lgico del depsito, en donde sedefinir cul ser el tipo de esquema que se implementar. Seguidamente, se confeccionarn lastablas de dimensiones y las tablas de hechos, para luego efectuar sus respectivas uniones. Por ltimo, utilizando tcnicas de limpieza y calidad de datos, procesos ETL, etc, se definirnpolticas y estrategias para la Carga Inicial del DW y su respectiva actualizacin.

2.1.3. Caractersticas Esta metodologa cuenta con las siguientes caractersticas:  Los objetivos y resultados esperados en cada fase se distinguen fcilmente y son sencillosde comprender.  Se basa en los requerimientos de los usuarios, por lo cual su estructura es capaz deadaptarse con facilidad y rapidez ante los cambios en el negocio.  Reduce la resistencia al cambio, ya que involucra a los usuarios finales en cada etapapara que tome decisiones respecto al comportamiento y funciones del DW.  Utiliza modelos conceptuales y lgicos, los cuales son sencillos de interpretar y analizar.  Es independiente de las herramientas que se utilicen para su implementacin.  Es independiente de las estructuras fsicas que contengan el DW y de su respectivadistribucin.  Cuando se culmina con una fase, los resultados obtenidos se convierten en el punto departida para llevar a cabo el paso siguiente.  Se aplica tanto para Data Warehouse como para Data Mart.

2.2. Pasos y Aplicacinde la Metodologia

Antes de comenzar con el primer paso, es necesario describir las caractersticas principales de laempresa a la cual se le aplicar la metodologa HEFESTO, as se podr tener como base unmbito predefinido y se comprender mejor cada decisin que se tome con respecto a laimplementacin y diseo del DW. Adems, este anlisis ayudar a conocer el funcionamiento y accionar de la empresa, lo quepermitir examinar e interpretar de forma ptima las necesidades de informacin de la misma,como as tambin apoyar a una mejor construccin y adaptacin del depsito de datos. Descripcin de la empresa

a. Identificacin de la empresa

La empresa analizada, desarrolla las actividades comerciales de mayorista y minorista de abarrotes, tiles de escritorio y artculos de limpieza, en un ambiente geogrfico de alcance local. De acuerdo a su volumende operaciones, se la puede considerar de tamao mediano. Con respecto a su clasificacin, es una sociedad annima cerrada con fines de lucro. Su estructura no est formalizada y no posee una jerarqua consistente de la distribucin de su personal.

b. Objetivos Su objetivo principal que persigue esta empresa casi al igual que toda comercializadora es el de maximizar sus ganancias con forme pasa el tiempo, empleando un uso eficiente y eficaz del capital econmico con el que cuenta que siempre es escaso. Otra meta que persigue, pero que an no est definida como tal es la de abrir un supermercado en nuestra ciudad para as lograr mayores ganancias a nivel minorista. c. Datos del entorno especifico Los clientes con que cuenta son bastantes variados y cubren un amplio margen. Losmismos son tanto urbanos, como locales, y regionales con diferentes tipos de poder adquisitivo. Con respecto a sus proveedores, la empresa posee en algunos rubros diversas opciones de lascuales puede elegir y comparar, pero en otros solo cuenta con pocas alternativas. Como en el caso de productos de limpieza que se limita a Procter &

Gamble.
Adems, tiene como rivales a nivel de mayoreo, varios competidores importantes y ya consolidados en el mercado, pero, a nivel minorista aventaja por su tamao y volumen deactividades a sus principales competidores. d. Relacin de las metas de la organizacin con las del DWH El DWH coincide con la metas de la empresa, ya que esta necesita mejorar su eficiencia en latoma de decisiones y contar con informacin detallada a tal fin. Esto es vital, ya que es muyimportante para procurar una mayor ventaja competitiva conocer cules son los factores queinciden directamente sobre su rentabilidad, como as tambin, analizar su relacin con otrosfactores y sus respectivos por qu.El DWH aportar un gran valor a la empresa, entre las principales ventajas e inconvenientes quesolucionar se pueden mencionar los siguientes:  Permitir a los usuarios tener una visin general del negocio.  Transformar datos operativos en informacin analtica, enfocada a la toma de decisiones.

 Se podrn generar reportes dinmicos, ya que actualmente son estticos y no ofrecen ninguna facilidad de anlisis.  Soportar la estrategia de la empresa.  Aportar a la mejora continua de la estructura de la empresa.

e. Procesos Los principales procesos que se llevan a cabo son los siguientes:  Proceso de Ventas: y Minorista: es la que se le realiza a losclientes particulares que se acercan hasta laempresa para adquirir los productos que requieren. Mayorista: es la que se le efecta a los grandes clientes, ya sea por medio decomunicaciones telefnicas, o a travs de visitas o reuniones.

Al realizarse una venta, el departamento de Depsito se encarga de controlar el stock,realizar encargos de mercadera en caso de no cubrir lo solicitado, armar el pedido yenviarlo por medio de transporte propio o de terceros al destino correspondiente.  Proceso de Compras: El encargado de Compras, al recibir del encargado deldepsito lasnecesidades de mercadera, realiza una comparacin de los productos ofrecidos por sus diferentes proveedores en cuestin de precio, calidad y confianza.Posteriormente, se efecta el pedido correspondiente.

Una vez realizado el anlisis de la empresa como ente generador de necesidades y aportador de informacin, procederemos a realizar la aplicacin del Data Warehouse bajo la metodologa HEFESTO siguiendo los siguientes pasos, enmarcados por la metodologa:

2.2.1. Anlisis De Requerimientos Lo primero que se har ser identificar los requerimientos de l@susuari@s a travs de preguntasque expliciten los objetivos de su organizacin. Luego, se analizarn estas preguntas a fin deidentificar cules sern los indicadores y perspectivas que sern tomadas en cuenta para laconstruccin del DW. Finalmente se confeccionar un modelo conceptual en donde se podrvisualizar el resultado obtenido en este primer paso.Es muy importante tener en cuenta que HEFESTO se puede utilizar para construir un DataWarehouse o un Data Mart a la

vez, es decir, si se requiere construir por ejemplo dos Data Marts,se deber aplicar la metodologa dos veces, una por cada Data Mart. Del mismo modo, si seanalizan dos reas de inters de negocio, como el rea de Ventas y Compras, se deberaplicar la metodologa dos veces. a. Identificar Preguntas El primer paso comienza con el acopio de las necesidades de informacin, el cual puede llevarsea cabo a travs de muy variadas y diferentes tcnicas, cada una de las cuales poseencaractersticas inherentes y especficas, como por ejemplo entrevistas, cuestionarios,observaciones, etc. El anlisis de los requerimientos de los diferentes usuarios, es el punto de partida de estametodologa, ya que ellas son las que deben, en cierto modo, guiar la investigacin hacia undesarrollo que refleje claramente lo que se espera del depsito de datos, en relacin a susfunciones y cualidades. El objetivo principal de esta fase, es la de obtener e identificar las necesidades de informacinclave de alto nivel, que es esencial para llevar a cabo las metas y estrategias de la empresa, yque facilitar una eficaz y eficiente toma de decisiones. Debe tenerse en cuenta que dicha informacin, es la que proveer el soporte para desarrollar lospasos sucesivos, por lo cual, es muy importante que se preste especial atencin al relevar losdatos. Una forma de asegurarse de que se ha realizado un buen anlisis, es corroborar que el resultadodel mismo haga explcitos los objetivos estratgicos planteados por la empresa que se estestudiando. Otra forma de encaminar el relevamiento, es enfocar las necesidades de informacin en losprocesos principales que desarrolle la empresa en cuestin. La idea central es, que se formulen preguntas complejas sobre el negocio, que incluyan variablesde anlisis que se consideren relevantes, ya que son estas las que permitirn estudiar lainformacin desde diferentes perspectivas. Un punto importante que debe tenerse muy en cuenta, es que la informacin debe estarsoportada de alguna manera por algn OLTP, ya que de otra forma, no se podr elaborar el DW. b. Identificar indicadores y perspectivas Una vez que se han establecido las preguntas de negocio, se debe proceder a sudescomposicin para descubrir los indicadores que se utilizarn y las perspectivas de anlisisque intervendrn. Para ello, se debe tener en cuenta que los indicadores, para que sean realmente efectivos son,en general, valores numricos y representan lo que se desea

analizar concretamente, porejemplo: saldos, promedios, cantidades, sumatorias, frmulas, etc. En cambio, las perspectivas se refieren a los objetos mediante los cuales se quiere examinar losindicadores, con el fin de responder a las preguntas planteadas, por ejemplo: clientes,proveedores, sucursales, pases, productos, rubros, etc. Cabe destacar, que el Tiempo es muycomnmente una perspectiva. c. Modelo Conceptual En esta etapa, se construir un modelo conceptual a partir de los indicadores y perspectivasobtenidas en el paso anterior. Modelo Conceptual: descripcin de alto nivel de la estructura de la base dedatos, en la cual la informacin es representada a travs de objetos, relaciones y atributos. A travs de este modelo, se podr observar con claridad cules son los alcances del proyecto,para luego poder trabajar sobre ellos, adems al poseer un alto nivel de definicin de los datos,permite que pueda ser presentado ante lOs usuarios y explicado con facilidad. La representacin grfica del modelo conceptual es la siguiente:

A la izquierda se colocan las perspectivas seleccionadas, que sern unidas a un valo centralque representa y lleva el nombre de la relacin que existe entre ellas. La relacin, constituye elproceso o rea de estudio elegida. De dicha relacin y entrelazadas con flechas, se desprendenlos indicadores, estos se ubican a la derecha del esquema. Como puede apreciarse en la figura anterior, el modelo conceptual permite de un solo vistazo ysin poseer demasiados conocimientos previos, comprender cules sern los resultados que seobtendrn, cules sern las variables que se utilizarn para analizarlos y cul es la relacin queexiste entre ellos.

2.2.2.Anlisis De Los OLTP Seguidamente, se analizarn las fuentes OLTP para determinar cmo sern calculados losindicadores y para establecer las respectivas correspondencias entre el

modelo conceptualcreado en el paso anterior y las fuentes de datos. Luego, se definirn qu campos se incluirn encada perspectiva. Finalmente, se ampliar el modelo conceptual con la informacin obtenida eneste paso. a. Conformar Indicadores En este paso se debern explicitar como se calcularn los indicadores, definiendo los siguientesconceptos para cada uno de ellos: Hecho/s que lo componen, con su respectiva frmula de clculo. Por ejemplo: Hecho1 +Hecho2. Funcin de sumarizacin que se utilizar para su agregacin. Por ejemplo: SUM, AVG,COUNT, etc. b. Establecer correspondencias El objetivo de este paso, es el de examinar los OLTP disponibles que contengan la informacinrequerida, como as tambin sus caractersticas, para poder identificar las correspondencias entreel modelo conceptual y las fuentes de datos. La idea es, que todos los elementos del modelo conceptual estn correspondidos en los OLTP.

c.

Nivel de granularidad

La granularidad representa el nivel de detalle al que se desea almacenar la informacin sobre elnegocio que se est analizando. Por ejemplo, los datos referentes a ventas o compras realizadaspor una empresa, pueden registrarse da a da, en cambio, los datos pertinentes a pagos desueldos o cuotas de socios, podrn almacenarse a nivel de mes

Una vez que se han establecido las relaciones con los OLTP, se deben seleccionar los camposque contendr cada perspectiva, ya que ser a travs de estos por los que se examinarn yfiltrarn los indicadores. Para ello, basndose en las correspondencias establecidas en el paso anterior, se debepresentar a los usuarios los datos de anlisis disponibles para cada perspectiva. Es muyimportante conocer en detalle que significa cada campo y/o valor de los datos encontrados en losOLTP, por lo cual, es conveniente investigar su sentido, ya sea a travs de diccionarios de datos,reuniones con los encargados del sistema, anlisis de los datos propiamente dichos, etc. Luego de exponer frente a los usuarios los datos existentes, explicando su significado, valoresposibles y caractersticas, estos deben decidir cules son los que consideran relevantes paraconsultar los indicadores y cules no.Con respecto a la perspectiva Tiempo, es muy importante definir el mbito mediante el cual seagruparn o sumarizarn los datos. Sus campos posibles pueden ser: da de la semana,quincena, mes, trimestres, semestre, ao, etc. Al momento de seleccionar los campos que integrarn cada perspectiva, debe prestarse muchaatencin, ya que esta accin determinar la granularidad de la informacin encontrada en el DW.

d. Modelo Conceptual ampliado En este paso, y con el fin de graficar los resultados obtenidos en los pasos anteriores, seampliar el modelo conceptual, colocando bajo cada perspectiva los campos seleccionados ybajo cada indicador su respectiva frmula de clculo. Grficamente:

2.2.3.

Modelo Lgico Del DW A continuacin, se confeccionar el modelo lgico de la estructura del DW, teniendo como baseel modelo conceptual que ya ha sido creado. Para ello, primero se definir el tipo de modelo quese utilizar y luego se llevarn a cabo las acciones propias al caso, para disear las tablas dedimensiones y de hechos. Finalmente, se realizarn las uniones pertinentes entre estas tablas. Modelo Lgico: representacin de una estructura de datos, que puede procesarse y almacenarse en algn SGBD.

a. Tipo de Modelo Lgico del DW Se debe seleccionar cul ser el tipo de esquema que se utilizar para contener la estructura deldepsito de datos, que se adapte mejor a los requerimientos y necesidades de los usuarios. Esmuy importante definir objetivamente si se emplear un esquema en estrella, constelacin o copode nieve, ya que esta decisin afectar considerablemente la elaboracin del modelo lgico. b. Tablas de dimensiones En este paso se deben disear las tablas de dimensiones que formaran parte del DW.Para los tres tipos de esquemas, cada perspectiva definida en en modelo conceptual constituiruna tabla de dimensin. Para ello deber

tomarse cada perspectiva con sus campos relacionadosy realizarse el siguiente proceso: y y y Se elegir un nombre que identifique la tabla de dimensin. Se aadir un campo que represente su clave principal. Se redefinirn los nombres de los campos si es que no son lo suficientemente intuitivos.

Grficamente:

c.

Tablas de hechos En este paso, se definirn las tablas de hechos, que son las que contendrn los hechos a travsde los cuales se construirn los indicadores de estudio. Para los esquemas en estrella y copo de nieve, se realizar lo siguiente:  Se le deber asignar un nombre a la tabla de hechos que represente la informacinanalizada, rea de investigacin, negocio enfocado, etc.  Se definir su clave primaria, que se compone de la combinacin de las clavesprimarias de cada tabla de dimensin relacionada.  Se crearn tantos campos de hechos como indicadores se hayan definido en elmodelo conceptual y se les asignar los mismos nombres que estos. En caso que seprefiera, podrn ser nombrados de cualquier otro modo. Grficamente:

d. Uniones

Para los tres tipos de esquemas, se realizarn las uniones correspondientes entre sus tablas dedimensiones y sus tablas de hechos.

2.2.4. INTEGRACIN DE DATOS Una vez construido el modelo lgico, se deber proceder a poblarlo con datos, utilizando tcnicasde limpieza y calidad de datos, procesos ETL, etc.; luego se definirn las reglas y polticas parasu respectiva actualizacin, as como tambin los procesos que la llevarn a cabo.

a) Carga Inicial Debemos en este paso realizar la Carga Inicial al DW, poblando el modelo de datos que hemosconstruido anteriormente. Para lo cual debemos llevar adelante una serie de tareas bsicas, talescomo limpieza de datos, calidad de datos, procesos ETL, etc. La realizacin de estas tareas pueden contener una lgica realmente compleja en algunos casos.Afortunadamente, en la actualidad existen muchos softwares que se pueden emplear a tal fin, yque nos facilitarn el trabajo. Se debe evitar que el DW sea cargado con valores faltantes o anmalos, as como tambin sedeben establecer condiciones y restricciones para asegurar que solo se utilicen los datos deinters.Cuando se trabaja con un esquema constelacin, hay que tener presente que varias tablas dedimensiones sern compartidas con diferentes tablas de hechos, ya que puede darse el caso deque algunas restricciones aplicadas sobre una tabla de dimensin en particular para analizar unatabla de hechos, se puedan contraponer con otras restricciones o condiciones de anlisis deotras tablas de hechos.

Primero se cargarn los datos de las dimensiones y luego los de las tablas de hechos, teniendoen cuenta siempre, la correcta correspondencia entre cada elemento. En el caso en que se estutilizando un esquema copo de nieve, cada vez que existan jerarquas de dimensiones, secomenzarn cargando las tablas de dimensiones del nivel ms general al ms detallado.

b) Actualizacin

Cuando se haya cargado en su totalidad el DW, se deben establecer sus polticas y estrategiasde actualizacin o refresco de datos. Una vez realizado esto, se tendrn que llevar a cabo las siguientes acciones:   Especificar las tareas de limpieza de datos, calidad de datos, procesos ETL, etc., quedebern realizarse para actualizar los datos del DW. Especificar de forma general y detallada las acciones que deber realizar cada software

S-ar putea să vă placă și