Documente Academic
Documente Profesional
Documente Cultură
ALMACENES DE DATOS
Conceptos Bsicos de Modelado Multidimensional
ECU
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 1
http://site.ebrary.com/id/10751536?ppg=1
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Reservados todos los derechos. Ni la totalidad ni parte de este libro puede reproducirse o
transmitirse por ningn procedimiento electrnico o mecnico, incluyendo fotocopia, grabacin
magntica o cualquier almacenamiento de informacin o siste ma de reproduccin, sin permiso
previo y por escrito de los titulares del Copyright.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 2
http://site.ebrary.com/id/10751536?ppg=2
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
ndice general
ndice general
iii
1. Introduccin
1
2
4
6
8
9
13
14
15
16
16
16
17
19
19
19
20
21
22
22
27
28
29
32
33
34
41
42
43
44
45
III
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 3
http://site.ebrary.com/id/10751536?ppg=3
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Iv
4. Procesos ETL
4.1. Introduccin
4.2. Pase de extraccin
4.3. Fase de transformacin
4.4. Fase de carga
4.5. Elementos principales de diseo
5. Herramientas de explotacin OLAP
5.1. Qu es OLAP"
5.2. Arquitectura
5.3. Vendedores OLAP
6. Herramientas de minera de datos
6.1. Motivacin
6.2. Qu es la minera de datos?
6.3. Aplicaciones y tcnicas
6.4. El proceso de descubrimiento de conocimiento
7. Metadatos en almacenes de datos
7.1. Introduccin
7.2. Metadatos de procesos ETL
7.3. Metadatos de usuarios finales
7.4. Metadatos del almacn de datos
Indice general
51
51
53
55
60
65
69
69
72
73
81
81
82
83
85
91
91
93
94
94
101
indice alfabtico
103
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 4
http://site.ebrary.com/id/10751536?ppg=4
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Prlogo
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 5
http://site.ebrary.com/id/10751536?ppg=5
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
VI
Indice general
conceptos necesarios se obvian y, por tanto, se obtienen diseos errneos y poco funcionales con
el consiguiente gasto aadido en recursos de todo tipo (humanos, tcnicos, tecnolgicos, etc.).
Por todo ello, este libro nace con la ilusin de ser el primero de una serie de textos que
pretenden cubrir un hueco en la literatura actual proporcionando aspectos bsicos del diseo
y explotacin de almacenes de datos. Actualmente estamos preparando (I) un texto centrado
en aspectos de implementacin con plataformas concretas y, (II) otro texto que presenta la
metodologa propia desarrollada en el seno del Grupo Lucentia que permite acometer el diseo
de almacenes de datos de forma automtica desde la fase de anlisis de requisitos hasta la
implementacin final utilizando MDA (Model Driven Arehileciure) y UML (Uni ed Modeling
Language). Adems, este mtodo est soportado por una herramienta de diseo basada en
el entorno de desarrollo ECLIPSE que permite acometer el diseo de los almacenes de datos
desde etapas tempranas de desarrollo. Este ltimo texto, sin embargo, estar ms enfocado a
profesionales de la Informtica y alumnos del Tercer Ciclo.
Por ltimo, quisiera agradecer personalmente a los dos co-autores del libro por su apoyo
durante estos ltimos aos y a todos los miembros del Grupo de Investigacin Lucentia (frene
Garrigs, Lilia Muoz, Sergio Lujn, Rafael Romero, Jos Jacobo Zubco Octavio Glorio y
Emilio Soler). No quisiera despedirme sin mostrar mi agradecimiento a todos los miembros del
Dpto. de Lenguajes y Sistemas Informticos de la Universidad de Alicante, por todo el apoyo
que siempre han mostrado hacia nuestro grupo y las actividades que desarrollamos.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 6
http://site.ebrary.com/id/10751536?ppg=6
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Prefacio
Este libro se centra en proporcionar los conceptos y aspectos bsicos necesarios para acometer el diseo y explotacin de almacenes de datos. Tal y como se dejar patente a lo largo
del libro, estos sistemas presentan peculiaridades y aspectos propios que los diferencian de los
sistemas transaccionales y, por tanto, demandan mtodos, modelos y herramientas distintas de
las utilizadas en el diseo y explotacin de los sistemas transaccionales.
Por ello, el libro comienza con el Captulo 1 de Introduccin, cuyo objetivo fundamental es
reflexionar sobre los sistemas transaccionales y su inconveniencia para ser utilizados para la
toma de decisiones estratgicas en el entorno empresarial. Adems, en este captulo se hace una
primera aproximacin a los almacenes de datos y sus objetivos y, lo ms importante, se finaliza
el captulo con una comparativa entre los sistemas transaccionales y los almacenes de datos
para enfatizar las diferencias entre ambos. Por otro lado, se introduce el modelado o paradigma
multidimensional como la aproximacin de modelado ampliamente utilizada para estos sistemas.
Por ltimo, estas diferencias son suficientes para justificar los modelos y mtodos particulares
necesarios para acometer con xito su diseo y, adems, justifican el resto de captulos del libro.
En el Captulo 2, se presenta de manera general todos los componentes fundamentales de una
arquitectura bsica de almacenes de datos y, cmo interactan entre ellos. Al ser ste un texto
de introduccin de conceptos bsicos, hemos evitado hacer alusin a arquitecturas de almacenes
de datos de nueva generacin como son los almacenes de datos espaciales, biomdicos, sociales
o de flujo continuo de datos.
En el Captulo 3, se aborda la parte central del libro: el paradigma o modelado multidimensional. En una primera parte, se presenta el modelado multidimensional a nivel conceptual. Sin
embargo, como en la actualidad no existe ninguna propuesta estndar ampliamente aceptada
para acometer esta fase de diseo, se presentan los conceptos imprescindibles para acometer con
xito el diseo de estos sistemas como son los niveles de jerarquas, la aditividad, la cardinalidad entre relaciones, etc. Si estos conceptos no se recogen de alguna forma desde las etapas
tempranas de desarrollo, lo ms probable es que el diseo final del almacn de datos sea errneo.
En la segunda parte, se hace hincapi en cmo representar los conceptos recogidos en la
fase anterior en un modelo multidimensional lgico. Como nos centramos principalemente en
plataformas relacionales, utilizamos como base el esquema estrella y sus variantes. Una vez
llegado a este punto, el alumno y profesional estar en disposicin de realizar el diseo lgico de
un almacn de datos desde su perspectiva lgica utilizando cualquier plataforma del mercado.
En el Captulo 4, se describen los aspectos fundamentales de los cruciales procesos ETL
(Extraction, Transformation, and Loeding, extraccin, transformacin y carga). Estos procesos
son los encargados de extraer los datos de las diversas y heterogneas fuentes de datos, realizar
las transformaciones necesarias y cargar los datos en las estructuras lgicas del almacn definidas
en el captulo anterior. En la actualidad, un $O por ciento del esfuerzo total dedicado al diseo
de los almacenes de datos se dedica a estos procesos.
VII
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 7
http://site.ebrary.com/id/10751536?ppg=7
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
VIII
Indice general
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 8
http://site.ebrary.com/id/10751536?ppg=8
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Lac-Tsu
Introduccin
Indice
1.1. La tecnologa de bases de datos
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 9
http://site.ebrary.com/id/10751536?ppg=9
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Captulo 1. Introduccin
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 10
http://site.ebrary.com/id/10751536?ppg=10
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Cuntos zapatos del 41 de color rojo se vendieron el ltimo mes en la zona norte, este y
sur; comparados con las ventas del mismo mes el ao pasado?
Qu tipo de cliente me ha estado comprando el BMW 3201 durante los ltimos 10 aos?
Directivo, profesor, trabajador escala bsica, etc.?
Cules son las 25 primeras marcas, por productos, estilos y regiones de Espaa clasificadas
por el margen de ventas en ?
Cul fue el presupuesto gastado en promociones en clientes que luego hicieron compras
inferiores a 100C?
Tal y como se puede concluir de las preguntas formuladas en el Cuadro 1.1, las decisiones
estratgicas requieren una gran cantidad de informacin, normalmente informacin histrica,
procedente de distintas fuentes, que permita al analista descubrir fenmenos y tendencias escondidos en los datos. En este contexto, es fundamental que tal informacin sea proporcionada
al analista de una forma rpida y sencilla, y sobre todo, en una interfaz fcil de utilizar por
el no experto en TIC. Los sistemas de apoyo para la toma de decisiones han experimentado
un gran auge desde los aos ochenta ya que son capaces de proporcionar una gran cantidad de
informacin en un formato fcil de interpretar por el analista. Sin embargo, el problema que
tenan estos sistemas hasta principios de los noventa era poder disponer de informacin histrica
de una forma unificada, compacta y coherente.
En este punto cabra formularse una cuestin: son vlidos los sistemas OLTP para tales
decisiones? La respuesta a esta pregunta debera ser el punto de partida para saber si, o bien
escalando, o bien actualizando los actuales OLTP, se podran satisfacer tales requerimientos;
o si por el contrario, necesitamos otro tipo de sistema. Aportando algunas razones, en primer
lugar, los datos histricos no estn (o no deberan estar) disponibles en los sistemas OLTP.
Si analizamos brevemente las preguntas del cuadro 1.1, se puede ver que la mayora de las
preguntas requieren datos que residen en distintas fuentes de datos de la empresa. Por ejemplo,
los datos de proveedores residirn en la base de datos de proveedores, mientras que los de clientes
y productos residirn en la base de datos de ventas.
As que, tal y como vemos, una caracterstica comn a tales preguntas es que se necesitan
datos de varias fuentes o bases de datos (algunos de ellos no disponibles al ser histricos) y que
integrar tales datos en tiempo real no solo consumira una gran cantidad de recursos, sino que
sera prcticamente inviable. Por otro lado, los analistas del negocio no entienden de tablas,
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 11
http://site.ebrary.com/id/10751536?ppg=11
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Captulo 1. Introduccin
Los aos noventa se conocen en trminos generales como la gran expansin de las aplicaciones de escritorio. El abaratamiento del hardware permitira que en cada puesto de trabajo
hubiese un PC (Personal Computer) para analizar datos. Con esto, se redujo la distancia entre
usuario final y programador, dado que se extiende el uso de herramientas sencillas de utilizar,
como hojas de clculo o herramientas de anlisis que, adems, el propio usuario final puede
personalizar en funcin del uso. As, aun disponiendo de los sistemas heredados (donde reside
el mayor volumen de datos de la empresa), estas herramientas de escritorio acceden a los datos
producidos por dichos sistemas heredados. El problema comn que suele generar esta forma de
proceder es que los datos tienden a permanecer fragmentados y estn orientados a necesidades
especficas de grupos de usuarios finales, presentando as soluciones parciales para estos, con la
problemtica aadida de que no todos los usuarios disponen de la destreza o tiempo suficientes
para personalizar tales aplicaciones.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 12
http://site.ebrary.com/id/10751536?ppg=12
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 13
http://site.ebrary.com/id/10751536?ppg=13
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Captulo 1. Introduccin
temporal bajo la que son vlidos. Esta referencia puede ser puntual y concreta, es decir,
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 14
http://site.ebrary.com/id/10751536?ppg=14
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
.
Ventas
Alinacjn.
canuinidiul
- C-tinnurbi.tlad
11111
Amesmemme,rep~~
Albalera
Micanic
Elche
Sagunto
Valencia Cullera
Comii.1.11
Con,
1-resco
Refresco Alcohol
100
2011
300
4110
500
600
700
800
900
1000
1100
12{10
1300
1400
15410
1600
Figura 1.L: Tabla multidimensional producida por una posible herramienta OLAP
11
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 15
http://site.ebrary.com/id/10751536?ppg=15
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
>4
Captulo 1. Introduccin
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 16
http://site.ebrary.com/id/10751536?ppg=16
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
$5.0
$4.0
Worldwide OLAP
total market size
Subn
$3.0
$2.0
$1.0
$0.0
Cf. in ID N.
O
r%, ro> TIO
(N Ce CR Q1 g) Cl C1 CD C1 O
Cl Cl 0.1 Ch al 00000 C:o
"T 1-1 l'11
" N rv rv
Figura 1.2.: Evolucin del mercado OLAP desde 1994 hasta 2004
A modo de resumen, en la fig. 1.2 podemos ver un grfico que muestra la evolucin del mercado
americano de herramientas y soluciones OLAP hasta el ao 2004. Mientras que se observa un
crecimiento significativo alrededor del 2001, en 2004, el mercado OLAP ya est maduro y con
dificultad para crecer exponencialmente, presentando incluso cierto grado de saturacin. Sin
embargo, la maduracin del mercado traer consigo la reduccin de costes de forma drstica.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 17
http://site.ebrary.com/id/10751536?ppg=17
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
10
Usuario
Puncin
Diseo de la BD
Datos
Vistas
Destino o utilizacin
Unidades de trabajo
Acceso:
Tipo operacin
Nm. registros
Nm. usuarios
Tamao de la BD
Medida rendimiento
Captulo 1. Introduccin
OLTP
Profesional de TIC
Operaciones diarias
Orientada a la aplicacin
(Basado en ER)
Actuales,
aislados
Detalladas
planas, relacionales
Estructuradas, repetitivas
Transacciones simples
OLAP
Analista de informacin
Apoyo a la decisin
Orientado al tema o negocio
(Estrella, Copo de nieve
Histricos,
consolidados
Agregadas,
multidimensionales
Ad hoc
Consultas complejas
Lectura y escritura
Decenas
"Miles"
100 MB GB
Cantidad de transacciones
Lectura mayoritariamente
Millones
"Centenares"
100 GB PB
Cantidad de consultas,
respuesta
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 18
http://site.ebrary.com/id/10751536?ppg=18
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Bibliografa
[1] E. P. Codd. The Relational Model for Database Management. Addison Wesley, 1990.
[2] T. Connolly and C. Begg. Database Systems: A Practical Approach to Designa, Implementation, and Management. Addison Wesley, 2002.
[31 C. J. Date. Introduccin a los sistemas de bases de datos. Prentice Hall, 2001.
[41 R. Elrnasri. Fundamentos de sistemas de bases de datos. Addison Wesley, 2008.
[51 W. H. Turnan. Building the Data Warehouse. Wiley, 1996.
[61 R. Kimhall. The Data Warehouse Toolkit: Practica! Techniques for Building Dimensional
Data Warehouses. John Wiley, 1996.
N. Pendse. The OLAP Report. http://www.olapreport . com.
11
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 19
http://site.ebrary.com/id/10751536?ppg=19
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 20
http://site.ebrary.com/id/10751536?ppg=20
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Luis Barragn
Arquitectura
STE captulo pretende ofrecer una visin general de una arquitectura de almacenes de datos y
servir, a la vez, de ndice para el resto de captulos del libro, ya que a cada parte de la arquitectura
de un almacn de datos se le dedica un captulo del libro. Si el lector desea profundizar en una
parte en concreto, puede acudir directamente al captulo especfico. As, este captulo presenta,
en primer lugar, un esquema general de una arquitectura de almacenes de datos y que servir
para guiar el resto de secciones. A continuacin, se resumen las fuentes de datos y los problemas
derivados de la heterogeneidad de las mismas, para luego centrarse en el almacn de datos y
los metadatos de los mismos. Tras ello, se presentan los distintos servidores de una arquitectura
bsica de almacenes de datos y los tipos de herramientas de consulta comnmente utilizados para
interrogar a un almacn de datos. Finalmente, se proporciona un pequeo listado de las distintas
aplicaciones y ofertas del mercado con respecto a cada una de las partes de la arquitectura.
Indice
2.1. Arquitectura general de almacenes de datos
14
15
16
2.3.1.
Extraccin
16
16
2.3.3. Carga
17
19
19
19
20
21
13
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 21
http://site.ebrary.com/id/10751536?ppg=21
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
14
Captulo 2. Arquitectura
22
22
Desempeo :
Al contrario que los almacenes de datos, las base de datos operacionales o transaccionales estn enfocadas y optimizadas para atender a un gran nmero de transacciones; los mtodos y herramientas para el desarrollo de un almacn de datos (diseo,
implementacin, mantenimiento, etc.) son significativamente distintos.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 22
http://site.ebrary.com/id/10751536?ppg=22
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
15
Servidores
OLAP
\.
Almacn de datos
Fuentes externas
ConsultasInformes
Extraer
Transformar
BD operacionales
Cargar
Mineria de datos
Refrescar
Fuentes de datos
Dota Marts
Herramientas:
de consulta
Las consultas LAP realizadas a los almacenes de datos son muy complejas, por
lo que procesarlas en un sistema tradicional ralentizara las tareas del servidor de
atender a las transacciones diarias.
Funcionalidad
Los datos histricos no se encuentran generalmente en las bases de datos transaccionales que recogen datos diarios producidos por la empresa y, por tanto, necesitamos
un repositorio especfico para los datos histricos.
Adems, los almacenes de datos presentan generalmente una gran cantidad de datos
consolidados (agregados, sumados, resumidos, etc.) a partir de datos histricos, lo
que dificulta las tareas de mantenimiento de los mismos.
Al proceder de distintas fuentes operacionales, se tiene que prestar especial atencin a
la calidad de los datos, integrndolos bajo un esquema comn y homogneo de bases
de datos. Sera totalmente inviable lanzar una consulta que requiera datos de varias
bases de datos y esperar que en tiempo real se pudiera normalizar para presentar al
usuario final.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 23
http://site.ebrary.com/id/10751536?ppg=23
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
16
Captulo 2. Arquitectura
calcula que en la actualidad, una gran mayora de los datos operacionales de las empresas
se almacenan en este tipo de sistemas.
Sistemas de archivo propietarios como VS AM o RSM.
Bases de datos externas pblicas o privadas, que pueden aportar datos comparativos de la
empresa frente a sus competidores o datos de otros agentes econmicos que participan
en el mismo entorno (como las empresas que recopilan datos y los venden, proveedores,
clientes, etc.).
Internet, que dada la cantidad ingente de datos diversos, puede suponer una fuente importante
a la hora de completar los datos extrados desde las fuentes de datos operacionales.
Datos en formato tradicional, ya que an existen empresas y organismos pblicos que disponen
de datos que estn en formato tradicional como albaranes, facturas, notas de entrega o
datos del registro civil. Incorporar estos datos suele ser un esfuerzo extra porque, en primer
lugar hay que pasarlos a formato electrnico. Sin embargo, en ocasiones es imprescindible
si se quiere disponer de un almacn de datos que registre una larga historia.
2.3.1. Extraccin
Son procesos que se encargan de conectar con las fuentes de datos operacionales para extraer
los datos con los que se poblar el almacn de datos. Para programar estos procesos, se tiene que
tener conocimiento de los metadatos de las fuentes de datos y del tipo de conectividad necesaria
para su extraccin.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 24
http://site.ebrary.com/id/10751536?ppg=24
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
17
Longitud inconsistente de campos. Es muy comn que los campos de datos (como los de
direccin, nombre o apellidos) tengan longitudes distintas en las diferentes bases de
datos de la organizacin. Estas bases de datos se han podido desarrollar en distintos periodos de tiempo, incluso por distintas empresas o personas, sin tener la precaucin de que
coincidan la longitud de los campos de datos.
Descripcin inconsistente de campos. Podemos encontrar que en una base de datos, por ejemplo, el campo direccin se refiere al nombre de la calle o avenida donde reside una persona, mientras que en otra el campo direccin incluye el referido a nombre, cdigo postal,
ciudad, provincia, etc.
Distintas codi caciones para el mismo trmino. Esta anomala contina siendo una fuente importante de errores aunque sea cada vez menos habitual en las fuentes de datos operacionales (gracias a la generalizacin de formularios que presentan listas desplegables de valores prefijados para la introduccin de datos mediante seleccin). Por ejemplo, podemos
tener en distintas bases de datos (acadmica, econmica, estadstica, etc.) que un estudiante proviene del I. Jorge Juan , Inst . Jorge Juan , I.B. Jorge Juan , I.B. J.
Juan , etc. Si estos datos se cargan sin limpiarlos, a la hora de extraer resmenes, todos
estos nombres sern tratados como institutos de bachillerato distintos, cuando en realidad
son el mismo. Por ello, es fundamental limpiarlos y unificar sus descripciones y nombres
antes de cargarlos en el almacn de datos.
Valores nulos. Es muy comn que una vez diseado el esquema del almacn de datos, cuando
extraigamos datos de las fuentes, nos encontremos con campos de datos nulos, los cuales,
en muchas ocasiones, se tendrn que rellenar de forma manual.
Nuevas reglas de integridad. Si los datos de las fuentes de datos se regan segn unas ciertas
reglas de integridad, ya en el almacn de datos, estas reglas no sern vlidas. ste dispone
de sus propias reglas de integridad y los nuevos datos debern de adecuarse a tales reglas
siguiendo el nuevo esquema de datos, propio del almacn de datos.
2.3.3. Carga
Una vez que los datos se han extrado de las fuentes de datos y se han transformado y limpiado,
hay que cargarlos en el almacn de datos. Pero antes de realizar la "insercin" final de los datos,
normalmente se requiere un preprocesamiento de los datos ya limpiados, que normalmente suele
consistir en:
Comprobar nuevamente las reglas de integridad.
Ordenar los datos.
Calcular datos agregados, resumidos, etc., ya que los almacenes de datos suelen albergar
una gran cantidad de datos de este tipo.
Construir tablas derivadas, virtuales, temporales, etc., necesarias para la carga final de
datos.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 25
http://site.ebrary.com/id/10751536?ppg=25
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
18
Captulo 2. Arquitectura
Construir ndices especficos para la carga de datos. Una buena poltica de definicin de
ndices suele ser fundamental para el rendimiento del mismo, no slo para las propias
estructuras del almacn de datos, sino tambin para el proceso de carga de datos.
Definir la paginacin de carga de datos.
Especificar el tiempo (la ventana de carga) en el que se desea realizar la carga de datos.
Dicha carga se deber realizar cuando la fuente de datos tenga menos volumen de trabajo.
No resulta extrao entonces que la noche sea el momento adecuado para la carga de
datos en el almacn de datos, pues es cuando probablemente menos consultas tendr
que satisfacer el sistema OLTP. Aun as, siempre podremos dar con casos especiales y
extremos: las empresas multinacionales establecidas en varios continentes es un ejemplo
tpico de cundo deberemos estudiar con detenimiento del perodo ptimo de carga.
Las tcnicas de carga de datos ms comunes son:
Cargas secuenciales. Son las ms caras y las que ms tiempo ocupan, puesto que consisten en
reemplazar la antigua tabla con la nueva despus de una transaccin. Adems, utilizan
comprobaciones peridicas, normalmente, comenzar despus de fallo.
Procesos por lotes (batch). Son aquellas en las que el administrador monitoriza el proceso de
carga. La carga se realiza mediante procesos cortos con uso secuencial de E/S. Tal tcnica
es adecuada para la generacin de ndices y datos derivados.
Procesamiento paralelo y tcnicas incrementales. Slo carga las actualizaciones, no tablas en-
mente. Pese a que esta alternativa es costosa, a veces, es la nica eleccin para ficheros o
sistemas heredados.
Tcnicas incrementales donde se detectan y propagan los cambios. Esta tcnica se realiza me-
diante servidores de rplica. Por ejemplo, mediante imgenes (snapshots) y triggers como
con Oracle, mediante transporte de transacciones (transaction shipping) como con Sybase,
u otras como con IBM dato replicator.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 26
http://site.ebrary.com/id/10751536?ppg=26
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
19
maciones simples como, por ejemplo, reglas para reemplazar el nombre del campo gnero
en la fuente por sexo en el almacn de datos.
Herramientas de limpieza de datos (data scrubbing). Con ellas se puede registrar conocimien-
to especfico del dominio en forma de reglas y comprobar que los datos las cumplen. Por
ejemplo, permiten la definicin de patrones para direcciones postales y as, cualquier campo
direccin deber cumplir esta regla.
Herramientas de auditora de datos (data auditing tools). Examinan los datos para descu-
brir reglas y relaciones entre ellos y, de esta forma, lanzar seales de violacin si se encuentra que hay reglas predefinidas que no se estn cumpliendo.
2.4.1.
Los data marts son repositorios de datos que se asocian a un almacn de datos como vistas
de ste para satisfacer las necesidades de un departamento o seccin dentro de una empresa.
Normalmente, en la prctica suelen contener ms cantidad de informacin agrupada que en
detalle, tal y como ocurre por otro lado en el almacn de datos.
Para su construccin se pueden seguir dos aproximaciones:
1. Definir primero el almacn de datos y, a partir de l, definir los data marts.
2. Definir primero los data marts y posteriormente integrarlos en un almacn de datos global
para la organizacin.
De estas dos aproximaciones, la primera es la ms adecuada desde un punto de vista terico,
pues ayuda a que los procesos de carga integren las fuentes de datos en un nico repositorio
para despus distribuir los datos agregados a los data marts. Por otro lado, en la prctica, si la
envergadura de la empresa es considerable o la experiencia en la construccin de almacenes de
datos es pequea, es aconsejable decantarse por la segunda aproximacin, pues permite definir
un almacn de datos global cuando ya se ha visto la viabilidad y utilidad de proyectos de data
marts ms pequeos y manejables que uno de almacenes de datos. En resumen, podemos decir
que:
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 27
http://site.ebrary.com/id/10751536?ppg=27
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
20
Captulo 2. Arquitectura
Almacn de datos
Data Iklalts
Figura 2.2.: Representacin de los data marts como versiones agregadas del almacn de datos
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 28
http://site.ebrary.com/id/10751536?ppg=28
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
21
contamos con: fuentes de datos y contenidos, descripciones del gatetuay, esquema del almacn de datos, vistas y datos agregados, dimensiones de anlisis con sus jerarquas, consultas e informes predefinidos, localizacin y contenido de los data nzarts o las particiones
de datos, entre otros.
De negocio: como es la informacin y trminos de negocio, las polticas de posesin de datos y
datos migrados y secuencia de transformaciones aplicadas, el estado de los datos (activos, archivados, eliminados, etc.) o la informacin de monitorizacin (estadsticas de uso,
informes de error, auditora, etc.).
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 29
http://site.ebrary.com/id/10751536?ppg=29
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
22
Captulo 2. Arquitectura
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 30
http://site.ebrary.com/id/10751536?ppg=30
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
23
BOTTOM UP
HBRIDA
Analistas
-4(
TOP OWN
Con lo expuesto, en el siguiente captulo veremos cmo modelar el repositorio del almacn de
datos mediante el paradigma de modelado multidimensional.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 31
http://site.ebrary.com/id/10751536?ppg=31
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 32
http://site.ebrary.com/id/10751536?ppg=32
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Bibliografa
[1] L. Agosta. The Essential Guide to Data Warehousing. Prentice Hall, 1999.
[2] S. Chaudhuri and U. Dayal. An Overview of Data Warehousing and OLAP Technology.
SIGMOD Record, 26(4:65 74, 1997.
[31 P. Furtado. A Survey of Parallel and Distributed Data Warehouses. International Journal
of Data Warehousing and Mining (IJDWM), 5(457 77, 2009.
[4] W. Giovinazzo. Object-oriented data warehouse design: building a star schema. Prentice
Hall, 2000.
[5] MicroStrategy Inc. MicroStrategy. wwra . crostrategy. es.
[6] W. H. Turnan. Building the Data Warehouse. Wiley, 1996.
[7] M. Jarke, M. Lenzerini, Y. Vassiliou, and P. Vassiliadis. Fundamentals of Data Warehouses.
Springer-Verlag, 2003.
[81 R. Kimball. The Data Warehouse Toollcit: Practica! Techniques for Building Dimensional
Data Warehouses. John Wiley, 1996.
[91 Oracle. Data Warehousing. www o rac I e com/us /s o lut i ons/dat awarehousing/index
htm.
25
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 33
http://site.ebrary.com/id/10751536?ppg=33
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 34
http://site.ebrary.com/id/10751536?ppg=34
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
El mundo es complejo, dinmico, multidimensional; el papel es esttico y simple. Cmo se puede representar toda la riqueza del
mundo en una hoja de papel?
Edward R. Tufte
Modelado Multidimensional
AS bases de datos tradicionales almacenan transacciones que se refieren al trasiego de informacin operacional de una organizacin, es decir, operaciones que se llevan a cabo diariamente.
Estos sistemas se denominan OLTP (Ora-Line Transaction Processing, procesamiento transaccional en lnea). Por ejemplo, un cajero automtico de un banco es un ejemplo de una aplicacin
OLTP, ya que se deben guardar cada una de las transacciones realizadas.
Sin embargo, los sistemas OLTP no estn preparados para el anlisis de los datos registrados. Un analista que quiera acceder a los datos histricos de una organizacin para poder tomar
decisiones necesita de sistemas con otro tipo de requisitos diferentes a los OLTP. Estos sistemas se denominan OLAP (Ora-Line Analytical Processing, procesamiento analtico en lnea)
y hacen uso de bases de datos multidimensionales para incrementar la capacidad de anlisis
de los usuarios. Por ejemplo, un analista bancario podra necesitar estudiar las transacciones
realizadas en los cajeros automticos para determinar las comisiones a cobrar minimizando el
coste a los usuarios pero sin que el banco tenga prdidas. Este anlisis no se puede llevar a
cabo directamente sobre el sistema OLTP porque resultara costoso, por lo que se debe disear
una base de datos multidimensional que permita el anlisis de los datos mediante herramientas
OLAP.
Los almacenes de datos posibilitan una visin multidimensional de enormes cantidades de
datos histricos provenientes de fuentes operacionales, suministrando la informacin necesaria
para el apoyo a los procesos de toma de decisiones de una organizacin. El paradigma multidimensional estructura la informacin en hechos y dimensiones. Un hecho contiene medidas
interesantes de un proceso de negocio como las ventas o la gestin del inventario (atributos del
hecho), mientras que una dimensin representa el contexto de anlisis de un hecho (producto,
cliente, tiempo, etc.) mediante una serie de atributos organizados jerrquicamente. El modelado
multidimensional requiere de tcnicas de diseo especializadas que se asemejan a los mtodos
tradicionales de diseo de bases de datos. En primer lugar se desarrolla una fase de diseo conceptual con el fin de obtener un modelo multidimensional conceptual para el almacn de datos
27
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 35
http://site.ebrary.com/id/10751536?ppg=35
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
28
ndice
3.1.
3.2.
28
3.1.1.
29
3.1.2.
32
33
3.2.1.
Esquema estrella
34
3.2.2.
41
3.2.3.
42
3.2.4.
43
3.2.5.
La dimensin tiempo
44
3.2.5.
45
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 36
http://site.ebrary.com/id/10751536?ppg=36
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
29
estndares como UML, MDA (Model-Driven. Architecture), etc. Tambin podemos destacar la
herramienta WAND desarrollada en la Universidad de Bolonia.
Sin embargo, con el propsito de que este texto sea un texto de introduccin y que se pueda
aplicar directamente al desarrollo de productos comerciales, hemos evitado en este captulo
introducir estas propuestas de modelado, que si bien han contrastado ya su validez, se encuentran
en el proceso de ser aceptadas como estndares. Por ello, nos ceimos en este punto a los aspectos
abstractos del modelado multidimensional que se deberan especificar en esta fase de modelado.
Adems, permita el lector aqu una crtica a los productos comerciales de almacenes de datos
y, es el hecho de que, si bien con las bases de datos transaccionales estos productos llevan
aos ofreciendo herramientas para acometer el diseo conceptual de los mismos, en cuanto a los
almacenes de datos, parece que an estamos hace una dcada, pues las herramientas comerciales
proporcionadas permiten acometer el diseo desde su perspectiva lgica, con la consiguiente
prdida de expresividad y de abstraccin necesarias en la fase anterior de modelado conceptual.
En este sentido, los autores han estado trabajando en una metodologa basada en MDA y UML
para el diseo de almacenes de datos, que ser descrita en profundidad en un texto en un futuro
no muy lejano.
3.1.1.
Una dimensin se compone de una serie de atributos organizados jerrquicamente. Estos atributos permiten analizar las medidas de los hechos a diferente nivel de detalle segn se agreguen
o desagreguen los datos. Por ejemplo, las ventas se pueden analizar por ciudad, comunidad,
provincia o pas.
La cardinalidad en la relacin entre estos niveles de detalle da lugar a diferentes tipos de
jerarquas:
Jerarquas estrictas y no-estrictas. Una relacin entre dos niveles de jerarqua es estricta si
para cada elemento de nivel ms detallado (por ejemplo Da en una asociacin entre Da
y Semana) existe como mximo un elemento de nivel ms general (como Semana) el cual
se asocia con dicho elemento; de otra manera, se llama no estricta. En otras palabras, una
asociacin entre dos niveles de jerarqua es estricta si la cardinalidad es uno a muchos,
si no, entonces se llama no-estricta. Por ejemplo, la asociacin entre Semana y Mes es
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 37
http://site.ebrary.com/id/10751536?ppg=37
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
30
venta& prOdUCt911
Ltributes da dimensibn
Barcen.nn
Hechos
AI.1~a~~Almacn
Protiucta
Dimenoionen
Tiempo
Figura 3.1.: Ejemplo de cubo de datos
Produclo,Grupo = "Supwnacado"
Ventas
Cmirlit
Cong
Albaicra
Ahn
Alicante
I lehe
cosnunidad
-Cs) rn unidad
B urja sot
Valenciana" V al Lracia
Cunera
100
200
300
ol 00
500
600
700
4300
900
1000
1100
1200
1309
1400
1500
1600
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 38
http://site.ebrary.com/id/10751536?ppg=38
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
31
Zona Ventas
Jerarqua
Mltiple
Jerarqua de
camino alternativo
grupo
tipo 1rO
marca()
Producto
nombre
o
Dimansin
comunidad
Almaca
ciuda provincia
poblacin
direccin
telfono
Jerarquas de clasificacin
CD Atributos de dimension
no-estricta ya que parte de una misma semana puede estar en un mes dado y parte en el
siguiente mes.
Jerarquas simtricas y asimtricas. Una relacin que involucra a un par de niveles de
dimensin es simtrica si para cada elemento de nivel menos detallado (p. ej. Pas para la
asociacin entre Ciudad y Pas), existe un elemento de nivel ms detallado (p. ej. Ciudad)
el cual se asocia con dicho elemento; de lo contrario la asociacin es asimtrica. En otras
palabras, una relacin entre niveles es asimtrica si la cardinalidad es cero a uno; si no,
se denomina simtrica. Por ejemplo, la asociacin entre Producto y Tipo es asimtrica si
puede haber tipos de productos que no contengan productos especficos. Una jerarqua
asimtrica implica que las instancias de los niveles de la jerarqua no son obligatorios y
pueden no estar instanciados.
Jerarquas completas e incompletas. Una asociacin entre dos niveles de jerarqua es completa si para cada elemento de un nivel ms detallado, (por ejemplo, Vendedor en la asociacin entre Vendedor y Departamento) existe un elemento de nivel ms general (como
Departamento) que se asocia con dicho elemento; si no, se llama incompleta. En otras
palabras, una asociacin entre dos niveles es incompleta si la asociacin entre niveles de
jerarqua es cero a muchos; si no, se denomina completa. Por ejemplo, la asociacin entre Producto y Categora es incompleta si hay productos que no pertenecen a ninguna
categora.
Jerarquas de generalizacin. En las dimensiones puede haber un alto grado de categorizacin, es decir, los atributos de la dimensin pueden tener sentido o no dependiendo de
las instancias. Este tipo de jerarquas pueden representarse mediante relaciones de generalizacin/especializacin. Por ejemplo, el volumen y el porcentaje de alcohol slo tiene
sentido si el producto es una bebida mientras que el tiempo y modo de preparacin solo
es vlido para comidas.
Las jerarquas pueden ser simples si no comparten ningn nivel con ninguna otra jerarqua o
mltiples, si dentro de una dimensin se definen varias jerarquas compartiendo algunos niveles.
Mientras que las jerarquas simples pueden representarse mediante rboles, las mltiples se
suelen representar mediante grafos acclicos dirigidos tal y como se observa en la fig. 3.3, donde se
grafican las dimensiones producto y almacn con sus correspondientes jerarquas de agregacin.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 39
http://site.ebrary.com/id/10751536?ppg=39
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
32
Hechos
Los hechos contienen atributos de hecho o medidas a analizar. estos representan normalmente relaciones muchos a muchos con todas las dimensiones y muchos a uno con cada dimensin
en particular. Por ejemplo, si se estudian las ventas (hecho) por producto (dimensin), tiendas
(dimensin) y tiempo (dimensin), un producto puede venderse en varias ventas, mientras que
una venta se realiza en una sola tienda, de un solo producto, se hace a un solo cliente y en una
fecha concreta. Sin embargo, a veces los hechos se relacionan muchos a muchos con dimensiones en particular. Por ejemplo, si en una nica venta (hecho) participa ms de un vendedor
(dimensin).
Las medidas contenidas en el hecho pueden ser atmicas, por ejemplo, la cantidad vendida
o el precio, o derivados si utilizan una frmula para calculados, por ejemplo, el precio total
(precioTotal = precio * cantidadV enclicia).
A las medidas se les puede aplicar un conjunto de operadores de agregacin (SUM, AVG, etc.)
para agregar los valores de medidas a lo largo de diferentes niveles de detalle (segn las jerarquas
definidas en la dimensin). Al realizar esta agregacin se debe tener en cuenta la aditividad
de las medidas. Una medida es aditiva si la operacin SUM se puede aplicar sobre todas las
dimensiones, es semi-aditiva, si el operador SUM solo se aplica sobre algunas dimensiones, y es
no aditiva si el operador SUM no se puede aplicar sobre ninguna dimensin.
Sin embargo, cabe destacar que si la media es no aditiva, se pueden aplicar otros operadores (AVG, MIN, etc.). Un ejemplo son los atributos que miden niveles (por ejemplo, niveles de
inventarios) ya que no son aditivos sobre la dimensin tiempo, pero s sobre la dimensin producto. Otro ejemplo son las medidas de temperatura, que no son aditivas, puesto que la suma de
temperaturas en el tiempo carece de sentido. Incluso, aplicar funciones de agregacin a algunas
medidas sera semnticamente incorrecto. Por ejemplo, si intentamos agregar la medida nmero
de clientes que cuenta el nmero de tickets emitidos. Es evidente que esta medida no es aditiva
sobre la dimensin producto.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 40
http://site.ebrary.com/id/10751536?ppg=40
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Prncl In.eilipo
Witits
Almacn_
comunidad =
"Curnunidad
VaUMCLEMO
im
!ci
Comida
Bebida
Ahasnt c
14013
2200
Valencia
4600
5400
AlmactnG-
ciudad provincia
zafe
LM111219
t.'"'
Ventila
Ahruic
Comunidad =
"Comunidad
1111~11
-
=I=
77111
Alba Icra
--- 2(
licuaste
5no
r5D11
Si dice: este par de operaciones permiten definir restricciones sobre niveles de jerarquas.
Por ejemplo, analizar datos del ao 1999 (ver fig. 3.5).
Pivoting: esta operacin permite reorientar la vista multidimensional de los datos, es decir,
cambiar la distribucin de filas o columnas. Algunos autores consideran tambin el intercambio de medidas y hechos como pivoting. Un ejemplo de pivoting se observa en la
fig. 3.6.
3.2.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 41
http://site.ebrary.com/id/10751536?ppg=41
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
34
Producto
Almacn
i.expo
PZoducte,
Almaniln
Dimensiones
TS. =IVO
Tecnologa multidimensional. Se usan vectores o matrices multidimensionales para representar las diferentes estructuras multidimensionales. Este tipo de tecnologa se denomina
MOLAP (Multidimensional OLAP, OLAP multidimensional).
Tecnologa relacional. Se usan elementos relacionales como tablas, columnas, claves primarias, ajenas, etc., para poder definir las diferentes estructuras multidimensionales. Este
tipo de tecnologa se denomina ROLAP (Relational OLAP, OLAP relacional).
Debido a su alta popularidad y a razones de eficiencia y escalabilidad, la tecnologa relacional
es la ms usada actualmente para la implementacin de almacenes de datos. Por tanto, este
captulo se centrar en la definicin del modelado lgico segn una tecnologa relacional.
El modelado multidimensional relacional tiene el principal referente en el trabajo de Ralph
Kimball, el cual propone un tipo de esquema llamado esquema estrella (y diferentes variantes)
para representar las diferentes estructuras multidimensionales mediante el uso de tecnologa
relacional, haciendo uso del modelo relacional.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 42
http://site.ebrary.com/id/10751536?ppg=42
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Producto
producto cod
producto nombre
producto color
atar ca_ead
inarta_dirIchs
falai I ia_cod
faini I ia_den
tipo_ rad
Grupo _ce d
Tab las de
tiimemiOni
V entas_produ d os
andiseto ciad
almacn cod
c
cod
kigsnp9 _451
canlidad vendida
precie
toial_preci o
Cliente
cl1111P
cnd
cliente nombre
iudad
comunidad
"Caba de
iierhos
/I I mactIn
macu
a from:Cu nombre
almacn. _carca
andad
provincia
Zona_ventas
-cflrnunidad
Tiempo
liempo_cod
ella
vacaciones
mes
offlo
dimensiones. Por tanto, la tabla de hechos tiene una relacin muchos a muchos con las
tablas de dimensiones.
Cabe destacar que la tabla de hechos almacena datos que se generaron a partir de eventos
ocurridos en el pasado y que no van a cambiar en el futuro. Mientras tanto, las dimensiones
guardan informacin descriptiva que puede aparecer asociada a varios hechos y se utilizan para
restringir las consultas de la informacin de la tabla de hechos. Debido a esto, las tablas de
hecho ocupan ms espacio que las tablas de dimensin.
Una caracterstica importante que se debe tener en cuenta al disear un modelo multidimensional a nivel lgico es la denominada granularidad. La granularidad est relacionada con la lista
de dimensiones que definen el alcance de las medidas almacenadas en la tabla de hechos y con
el nivel de detalle bajo el cual se almacenan los datos (por ejemplo, transacciones individuales,
resmenes diarios, resmenes mensuales, resmenes anuales, cualquier otro perodo de tiempo).
Este nivel se define en funcin de las necesidades del negocio:
Alto nivel de detalle: detalles de las transacciones de los clientes del banco.
Bajo nivel de detalle: resumen de las transacciones de los clientes del banco por mes.
La granularidad afecta al tamao del repositorio y a su grado de anlisis y est relacionada
con la flexibilidad a la hora de analizar los datos, ya que cuanto ms granulares sean los datos,
ms espacio requeriremos (ms datos tendremos), aunque ello nos permitir realizar anlisis con
mayor nivel de detalle (sobre esos mismos datos).
En cuanto a las tablas de dimensin, stas contienen datos "textuales" (alfanumricos) que
se encuentran almacenados de manera desnormalizada, por lo que son tablas que contienen
mucha redundancia de datos. En concreto, en un esquema estrella cada una de las dimensiones
corresponde con una sola tabla (ver ejemplo de la fig. 3.9). La desnormalizacin es una tcnica
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 43
http://site.ebrary.com/id/10751536?ppg=43
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
36
CIIKLY
1
1
1
Prud uctoKey
Tiempo Itev
5 al.o Azimut
2
3
1 loc
2 Da
roducto cid
1
2
3
4
5
Family Dese
Pulzwe M ilk L
N'OVE M ilk 1L .
Y oghurt Parco a I
P Roer
Aj ax
Producto3 ilictcom
Productut littec-s
Productor lictcos
PrudthittT.i Implen
Producto3 l m pina_
marca dir
fa -.odia cod
Lica
pa cod
Grupo COd
Existen tablas de hechos que contienen informacin sobre una dimensin que no existe fsicamente. Esta dimensin se denomina dimensin degenerada y se corresponde con una columna
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 44
http://site.ebrary.com/id/10751536?ppg=44
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
37
Ventas_productos
producto cod
almacn ocd
diente cod
tiempo cod
Numera cket
cantidad vendida
precio
Ticket
Numero tid;iet
total precio
de la tabla de hechos. Esta columna forma parte de la clave primaria de la tabla de hechos. Las
dimensiones degeneradas se usan frecuentemente cuando la granularidad de la tabla de hechos
representa el nivel transaccional haciendo referencia a identificadores presentes en el "mundo
real": nmero de ticket (ver fig. 3.10), cdigo de factura, cdigo de albarn, etc. Mediante una
dimensin degenerada se indica que hay una relacin muchos a muchos en particular entre una
tabla de hechos y una tabla de dimensin.
Tabla de hechos que no son hecho
Las tablas de hechos que no son hechos tienen la particularidad de que no contienen medidas o
atributos de anlisis. Esto es debido a que su finalidad es recoger la ocurrencia de un evento. Por
ejemplo, al analizar las clases que un profesor imparte de ciertas asignaturas, se puede desear
estudiar la ocurrencia o no de una clase en un cierto perodo de tiempo pero sin analizar la
duracin de dicha clase (ver fig. 3.11).
Claves autogeneradas
En cuanto a la clave primaria de las tablas de dimensin, stas pueden ser de dos tipos:
Autogeneradas, las cuales representan un valor entero que se va incrementando de manera
automtica cada vez que se inserta una fila. Este tipo de claves aumenta el rendimiento (al
definir ndices con un ms rpido acceso) y son ms fciles de manejar para los procesos
ETL (Extraction, Transformation, and Loading, extraccin, transformacin y carga).
Con significado semntico, las cuales tienen una correspondencia con alguna clave presente
en el mundo real. Por ejemplo, el DNI sera una clave con significado semntico para una
persona.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 45
http://site.ebrary.com/id/10751536?ppg=45
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
38
Estaco actual
Clave narrarla
; Nmero Telefono
401 I 913555099:11
Despus de cambios
Vino piimans
Narner0 Telfono
cm 1~51111
Figura 3.12.: Ejemplo de la solucin 1 para las dimensiones que cambian lentamente
Solucin 2. Esta solucin consiste en aadir una fila nueva utilizando un nuevo valor de clave
autogenerada, lo que permite registrar el cambio del valor de un atributo en una dimensin.
Para ello, es imprescindible utilizar claves autogeneradas, aadiendo un campo que identifique
cul es el valor actual. Dentro de esta solucin se pueden utilizar tambin dos atributos para
registrar la fecha de comienzo y fin de validez de cada instancia. Esta solucin presenta dos
problemas: el primero radica en que necesita de almacenamiento extra para los nuevos atributos
creados, y el segundo es la necesidad de chequear cul de las filas contiene la versin vlida de
los datos. Adems, una caracterstica de esta solucin es la segmentacin de los datos histricos,
ya que la tabla de hechos queda particionada. Por ejemplo, dos productos distintos con claves
generadas distintas estarn registrados en las ventas, cuando en realidad se refieren al mismo
producto. Por tanto, para definir las consultas necesarias, se deben definir restricciones sobre el
atributo que ha cambiado el valor. Si estamos interesados por el mismo producto, entonces se
actuar sobre la clave primaria original.
Cabe destacar que esta solucin suele ser la ms utilizada para el tratamiento de las dimensiones que cambian lentamente. Ver un ejemplo en la fig. 3.13, donde una nueva fila es introducida
para reflejar los cambios en el cdigo postal.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 46
http://site.ebrary.com/id/10751536?ppg=46
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
31)
Estado actual
cieve pherinna
Despus de cambios
r Clave primaria
CF.
002
CP
19104
COS
191 03
CO2
19104
Figura 3.13.: Ejemplo de la solucin 2 para las dimensiones que cambian lentamente
Estado actual
Despus de cambios
Glive pnrnano
Cr4Yo parrializ
CPaclual
CP actual
CP anterior
002
1004 I NIJLL
CP anterior
11 C
1ignota
19104
Figura 3.14.: Ejemplo de la solucin 3 para las dimensiones que cambian lentamente
indique la fecha efectiva. Al utilizar la misma clave autogenerada, esta solucin se utiliza en
pocas ocasiones debido a que solamente permite analizar los datos de la tabla de hechos o bien
por el valor antiguo o bien por el nuevo. Ver un ejemplo en la fig. 3.14, donde se definen dos
campos para almacenar los dos ltimos valores del cdigo postal.
Solucin hbrida 1. Se utiliza cuando los cambios son predecibles con versiones mltiples que
se superponen. Esto es posible ya que existen cambios predecibles y regulares. Por ejemplo, si se
conocen los aos de anlisis de ventas y se pueden consultar el estado del distrito en cada ao.
Solucin hbrida 2. Se utiliza si los cambios no son predecibles con versiones simples que se
superponen. Esta solucin se utiliza si existen cambios irregulares e impredecibles, existiendo
una necesidad de preservar los valores histricos. Ninguna de las soluciones estndares anteriores
contempla estas dos caractersticas, por lo que esta solucin combina aquellas de tipo 1, tipo 2
y tipo 3. En concreto, se realizan las siguientes acciones:
Se aade una nueva fila para capturar los cambios.
Se aade una nueva columna para controlar los valores actuales.
Se utiliza una aproximacin de tipo 1 para cambios de valores muy recientes donde la
historia no interesa.
Otros mtodos. Existen otros mtodos que utilizan marcadores (flags) para el manejo de los
cambios. Estos mtodos se describen a continuacin:
Registrar versiones con flags. Como se puede observar en el ejemplo de la fig. 3.15.
Utilizar la clave primaria de los sistemas OLTP con flags. Como se observa en la fig. 3.16.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 47
http://site.ebrary.com/id/10751536?ppg=47
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Estado actual
Despus de cambios
Clava primaria
Clava enmara
Miren de versin
Raz salsa i
Flag animal
rEatarlo chal
ratedu Mai
000 Trtsi M
O01
Toua
DA
Figura 3.15.: Ejemplo de solucin para las dimensiones que cambian lentamente
Estado actual
Despus de carnblos
Carda prinins
Clave primaria
cliente fEl
ZP., 1. la
CP
1 1 1 10104
Echa
Trua Y14123321
CP
AL-bai
202
111
13107
Fecha
Trua 52112001
DCQ
111
19104
esta 551.121:100
Figura 3.16.: Ejemplo de solucin para las dimensiones que cambian lentamente
Modelar eventos con flags utilizando claves del OLTP (ver fig. 3.17).
Modelar el estado con la clave primaria del OLTP y fiags. Un ejemplo de esta solucin se
puede observar en la fig. 3.18.
Estado actual
Chava primara
Evtada civil
Despus de cambios
Clave primaria
Ar
13:00 1,1r2000
Estada civil
I Flag sclual
FA
H 202
13:00 1#1,20IXI
Falle
Figura 3.17.: Ejemplo de solucin para las dimensiones que cambian lentamente
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 48
http://site.ebrary.com/id/10751536?ppg=48
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
-11
Estado actual
Despus de cambios
Fecha
nom
corrieraD final
ww
NuLLIF-1. ! 202
111
111/2900
1 902
111
11111998
Feche
S
u Fecha corniena
fI
NULL
Trame
himno S nihil
Figura 3.18.: Ejemplo de solucin para las dimensiones que cambian lentamente
al n'imn _id
ventas euros
ventas unidades
/
Tabla nem
Semana
Ahe
Tabla Pro
Pro d
ep d
Pro_Lookap
Pro jd
PrO_Cle6C
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 49
http://site.ebrary.com/id/10751536?ppg=49
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
42
?rodal
2111PLOLePti
macl nombre
al mac,t1 diTCC
pmlccia_aud
pnaluctu_nornbre
producto Dolor
marca c od
giudad
pt Ovincis
mares dircsIsa
forailis
familia des
trd
Zona vallas
Oc ama liad
Elrupg..cod
Woolo_proslx1 os
[i cule/
71Mtlijs,si
rdirsio sombra
ciudad
~lid caer.
Tiorroo
cootwaidad
0mbe
eupsli c i w
di re irn
:ul1
ircid IcamunIALAI
c omunidad
deicdpiles
zokpak
.0"11151"
7Atruzip
LIaLaela
Wad
ro& mai unid id
ono
arad
ad
3.2.3.
El esquema de copo de nieve se diferencia del esquema estrella en que alguna de las dimensiones
se normaliza segn los niveles de jerarqua. En la tabla dimensin se encuentran los valores del
mnimo nivel de jerarqua.
A primera vista, se podra pensar que este tipo de esquema podra ahorrar espacio en disco, sin
embargo, ya que comparadas con la tabla de hechos las tablas de dimensin son varios rdenes de
magnitud inferior en tamao, en la prctica el ahorro de espacio puede llegar a ser insignificante.
No obstante, una ventaja radica en que la consulta de atributos simples es ms rpida en este
tipo de esquema ya que se recorren tablas con menor nmero de instancias. Adems, se mejora
el rendimiento cuando la mayora de requisitos solicitan niveles de agregacin superiores, ya que
se disminuye el tamao de tablas a escanear.
En cuanto a los inconvenientes a la hora de usar este tipo de esquema, obviamente al aumentar
el nmero de tablas aumenta el nmero de operaciones de unin (join) que se deben realizar,
por lo que algunos requisitos pueden demorarse en exceso. As, la consulta de atributos que
implique ms de una tabla es ms lenta.
En cuanto a su estructura, este esquema puede resultar demasiado complejo para que los
usuarios finales definan sus propias consultas ad hoc a partir de ellos. Adems, se requiere una
clave primaria ms por cada nivel de jerarqua normalizado, por lo que aumenta la complejidad
de diseo y mantenimiento. Un problema prctico estriba en que este tipo de esquemas no est
soportado por todas las herramientas del mercado.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 50
http://site.ebrary.com/id/10751536?ppg=50
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
e lada d
Almario
tad dalia&
Cid r 'Edad
daperip rindok,
hillitau tea ciu
1 o 1 rum Lodazal
EllTinc
:nazi cie
ditaddWal.
/pialas
Comunidad
Pala
C od wonamidad
dorunp
habil mida _Ciudad
cod_paio
&mai p
1_13] drodea
cok sisclad
rVrataa_Prodaciaa
Codprodsclo
ihead
alnada
Cod dio
calad medida
COME
FITZGI
Fred tniul
manero diodo
Widipuldmd
Pod_p :adusto
Cni Andad
Caddk
dwddadyiaidida
Cara
prixiv
Enrayo catre
tilal bonwriGio
ni.un ere e calo
vea majada
VIZ11111 121111111911213
cliaLF redacto
Cid e-momia dad
Cod dio
edad vendida
costa
lamo
o MEI
local bee.estia
oima .i cb calca
Corrtunto
Cu d_pai:
do
wridutveniiida
C1311
artt
Ade
pecio Mal
lalal handl ci
=un. gl aula
Este tipo de esquema solo es recomendable para situaciones en las que el espacio en disco es
un problema grave. Sin embargo, se recomienda siempre normalizar una o dos de las dimensiones ms grandes, en lugar de normalizar todo el esquema multidimensional. Una buena recomendacin para este tipo de esquemas consiste en utilizar ndices bitmap para los atributos de
granularidad mnima. De todos modos, este esquema solo puede utilizarse cuando las ventajas
son muy explcitas: cuando el ahorro de espacio de disco es significativo o cuando existen muchos
atributos en los niveles ms altos de jerarquas. Cabe destacar que, estadsticamente, el espacio
en disco ahorrado utilizando esquemas de copo de nieve es del 1 % del espacio total en disco.
Se pueden utilizar esquemas de copos de nieve con constelaciones de hechos conjuntamente_
En la fig. 3.22 se muestra un ejemplo, donde varios copos de nieve aparecen combinados en un
mismo modelo de datos.
3.2.4.
A continuacin, a modo de resumen, se listan las ventajas y desventajas de cada uno de los
esquemas multidimensionales descritos anteriormente:
Esquema estrella
Ventajas
Fcil de entender por los usuarios.
Reduce nmero de uniones fsicas por lo que se producen respuestas rpidas para la
mayora de las consultas.
Metadatos sencillos.
Soportado por la inmensa mayora de aplicaciones.//
Inconvenientes
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 51
http://site.ebrary.com/id/10751536?ppg=51
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
44
El aumento del tamao de la tabla de hechos con datos agregados puede empeorar el
rendimiento general. Por ello, se recomienda tablas de hechos agregados al margen.
Las dimensiones tienen un tamao enorme. Un valor normal segn Kimball es de
alrededor de 50 atributos.
Es poco robusto o susceptible a cambios.
Ms lento de construir.
Esquema de constelaciones de hechos
. Ventajas
Los datos agregados no se almacenan con los del nivel de detalle ms bajo en las tablas
de hechos, por lo que aumenta el rendimiento al navegar por los datos almacenados
precalculados.
Inconvenientes
Un gran nmero de tablas de agregados por lo que se complica el mantenimiento de
los metadatos y existe una necesidad del usuario de conocer la existencia de dichas
tablas.
Algunos requisitos pueden necesitar consultar datos de varias tablas y mermar el
rendimiento general del sistema.
Esquema de copo de nieve
Vent ajas
Ms flexible y adecuado para requisitos.
Carga de datos (ETL) ms rpida y sencilla.
Directamente implementados por algunas herramientas.
Mejora considerablemente el rendimiento cuando un gran nmero de requisitos solicita
datos agregados o de niveles superiores de jerarquas ya que los requisitos escanean
un reducido nmero de filas.
. Inconvenientes
Aumenta la complejidad de mantener los metadatos debido al aumento del nmero
de tablas.
Si no se dispone de la suficiente cantidad de tablas de agregados, el rendimiento
general podra disminuir.
3.2.5. La dimensin tiempo
La definicin de una dimensin temporal es obligatoria en un modelo multidimensional, por
lo que necesita ser diseada cuidadosamente.
Una dimensin temporal (ver fig. 3.23) incluye perodos del tiempo de negocio y fechas especiales. Por lo tanto, debe de ser analizada y planificada minuciosamente considerando el rango
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 52
http://site.ebrary.com/id/10751536?ppg=52
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
45
Tabla de hechos
Mai d
Tabla de hechos
Dia id
Tabla de hethos
D fa_ id
INm Tlempc.
tiald
Mes id
Cuatrirnestreid
Seirnestre_id
AND id
Di m_Tlerpo
Dla_i d
Mas_ id
Cazad meetrei d
Semestre id
Ao_ id
!desfleca l_id
Cual_
flaca'
_id
Se mester_fiacal_id
Afici_fisee Lid
D im Tiempo
raid
sr.
He* id
Y
Custrissestra
egitr bid
Un ejemplo de esta situacin sera la de un hospital donde mi paciente puede tener varios
diagnsticos (ver fig. 3.24).
El primer problema es que solo se podra visualizar una instancia de la dimensin cada vez de
forma sencilla. Para visualizar todas las instancias relacionadas con el hecho existe una necesidad
de ms uniones entre tablas. Con el fin de saber la contribucin individual de cada instancia de
dimensin en el hecho, se suele utilizar los denominados weighting factors. Kimball propone el
uso de tablas puente (bridge tables) para deshacer la relacin muchos-a-muchos (ver fig. 3.25).
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 53
http://site.ebrary.com/id/10751536?ppg=53
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
46
Di gnstico
diagnstico cod ....j............\NN.r__
Diagristi co_att
Pwierite
paciente cod ,011
paciente nombre
ciudad
Factura_paciente
ffigt.m._
gtjsg_cod
Mdico cod
paciente_cod
'culpo codi
eantidad_fachira
precio
...
total _precio
...
muni dad
Figura 3.24.: Ejemplo de relacin muchos a muchos entre hecho y dimensin
Dignsiieo
eliajtomicocod
Diagnesticn alt
Factura,_pacienix
diagritistipp kod
Mdico cod
pacienteM
tiempo ced
cantida reclina
precio
total_precio
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 54
http://site.ebrary.com/id/10751536?ppg=54
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
47
en considerar la mnima granularidad del proceso de negocio que contempla. Con este fin se
utilizan las dimensiones y hechos comunes (conformed) a cada uno de los data marts.
Las dimensiones comunes son aquellas que existen en todos los data marts. Por ejemplo, una
tabla maestro de clientes o productos. Estas tablas se pueden mantener de forma independiente
a los data marts. Es importante que el diseador no obvie ni menosprecie la definicin de estas
dimensiones comunes a la hora de desarrollar el almacn de datos. Una prctica aconsejable es
definir las dimensiones segn el mnimo nivel de granularidad posible y utilizar claves autogeneradas para ello. Cabe destacar que este tipo de dimensiones puede ocupar el 80% del esfuerzo
del desarrollo total.
Como resumen, las ventajas del uso de dimensiones comunes son: una misma dimensin se
puede utilizar contra varios hechos, las interfaces de usuario y datos son consistentes y se permite
navegar entre data marts (drill across).
En cuanto a los hechos comunes (conformed facts), estos se refieren a las medidas utilizadas
en ms de un data mart. Ejemplos: beneficio, coste, precio etc.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 55
http://site.ebrary.com/id/10751536?ppg=55
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 56
http://site.ebrary.com/id/10751536?ppg=56
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Bibliografa
[1] A. Abell, J. Samos, and F. Saltar. YAM2: a multidimensional conceptual model extending
UML. Information Systems, 31(6):541 567, 2006.
[2] G. Booch, J. Rumbaugh, and I. Jacobson. The Uni ed Modeling Language User Guide.
Addison Wesley, 2005.
[3] M. Breslin. Data Warehousing Battle of the Giants: Conaparing the Basics of the Kimball
and Inmon Models. Business Inteltigence Journal, 9(1):6 20, 2004.
[4] L. Cabibbo and R. Torlone. A logical approach to multidimensional databases. Leeture
Notes in Computer Science, 1377:183 200, 1998.
[5] P. P. Chen. The Entity-Relationship Model - Toward a Unified View of Data.
Transactions on Database Systems, 1(1):9 36, 1976.
ACM
[81 R. Kimball. The Data Warehouse Toolkit: Practical Techniques for Building Dimensional
Data Warehouses. John Wiley, 1996.
[9] Sergio Lujn-Mora, Juan Trujillo, and II-Yeol Song. A UML profile for multidimensional
modeling in data warehouses. DataE.4 Knowledge Engineering, 59(3):725 769, 2006.
[10] Stefano Rizzi Matteo Golfarelli. Data Warehouse Designa: Modero Principies and Methodologies. McGraw-Hill, 2009.
[11] J.N. Mazn, J. Lechtenhkger, and J. Trujillo. A survey on summarizability issues in
multidimensional modeling. Data ' Knowledge Engineering, 68:1452 1469, 2009.
[12] J.N. Mazn and J. Trujillo. An MDA approach for the development of data warehouses.
Decision Support Systems, 45:41 58, 2008.
[13] 0. Romero and A. Abell. A Survey of Multidimensional Modeling Methodologies. International Journal of Data Warehousing and Mining (LIDWM), 5(3):1 23, 2009.
[14] J. Trujillo, M. Palomar, J. Gmez, and I-Y. Song. Designing Data Warehouses with 00
Conceptual Models. IEEE Computer, 34(1466 75, 2001.
49
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 57
http://site.ebrary.com/id/10751536?ppg=57
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 58
http://site.ebrary.com/id/10751536?ppg=58
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Fred Hoyle
Procesos ETL
ndice
4.1. Introduccin
51
53
55
60
65
4.1. Introduccin
Para introducir los procesos ETL, nada mejor que recordar la definicin de almacenes de
datos que dio Bill Turnan, uno de los pioneros de esta tecnologa:
Un almacn de datos es una coleccin de datos orientados por temas, integrados,
no voltiles y variables en el tiempo en apoyo de la torna de decisiones estratgicas.
de donde podemos destacar la cualidad de integrar mltiples fuentes de datos.
51
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 59
http://site.ebrary.com/id/10751536?ppg=59
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
52
Relevantes
tiles
Sistemas
operacionales
Extraer
a
Calidad
Transformar
Precisos
Cargar
Warehouse
Accesibles
Consideraciones de diseo
Algunas consideraciones generales a tener en cuenta cuando se disean los procesos ETL son
las siguientes:
Definir una estrategia de calidad de datos para la empresa segn poltica de toma de
decisiones.
Definir el nivel de calidad ptimo de los datos.
Considerar la modificacin de las reglas de las fuentes de datos operacionales.
Documentar las fuentes de datos como paso bsico para comprenderlas.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 60
http://site.ebrary.com/id/10751536?ppg=60
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
53
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 61
http://site.ebrary.com/id/10751536?ppg=61
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
54
IMS
SAP
1782
Sistemas mdicos
VSAM
Prediccin
financiera
SOL
Oracle Financial
Oracle
Sybase
IRclb
B.D.
Operacionales
Repositorio
Almacn
Fuentes de produccin
Las fuentes de datos de produccin (ver fig. 4.2) son las bases de datos de los sistemas de procesamiento de transacciones (OLTP (Ora-Line Transaction Processing, procesamiento transaccional en lnea)). Existen, por tanto, multitud de tecnologas que los implementan en funcin
del vendedor: IMS, DB2, Oracle, SAP, etc.
Factores a tener en cuenta para este tipo de fuente son: el sistema operativo, el motor de bases
de datos en los que operan, la plataforma hardware (por ejemplo, capacidad de clculo, tamao
de la memoria o los protocolos de comunicacin) y el sistema de archivos.
Archivos planos
Los archivos planos (ver fig. 4.3) son todo tipo de archivos de texto o binarios que se encuentran
dispersos en una organizacin y de los que se pueden cargar datos en el almacn de datos. En
este tipo de fuente de datos, se dan las siguientes caractersticas a comentar: existen archivos
en la empresa en los que se encuentran ya los datos histricos almacenados, son tiles para
anlisis de largos perodos de tiempo y para realizar la primera carga del almacn de datos y
generalmente requerirn transformaciones para habilitar su carga en el almacn de datos.
Fuentes internas y externas
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 62
http://site.ebrary.com/id/10751536?ppg=62
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55
Compaas
especializadas
Informacin
B.Q.
Compradas
z7Competidores
Prediccin
Financiera
Web
I.N.E.
Cinco Das
Expansin
Repositorios
DAN.
Algunos ejemplos de fuentes de datos internas son las de ventas, marketing y finanzas. En
ellas podemos encontrar tanto hojas de trabajo o spreadsheets con datos estructurados como
documentos de cualquier tipo con datos no estructurados. En cualquier caso, dadas las necesidades de informacin de los analistas, puede ser necesario acceder a cualquiera de estos tipos
con independencia de la dificultad para extraer sus datos.
Por otro lado, el acceso a las fuentes de datos externas (ver fig. 4.4) depende del tipo de
tecnologa con la que implementen. Tenemos desde otras bases de datos (a las que se acceder
mediante los protocolos adecuados) de compaas especializadas, informacin de competidores
(en informes pblicos), predicciones financieras en la bolsa de valores y en general cualquier
recurso accesible a travs de Internet.
Respecto a las tcnicas de extraccin, existen las siguientes posibilidades: los programas en
C, COBOL. PL. SQL (Structured Query Language, lenguaje de consulta estructurado) para
las fuentes de origen accesibles mediante gestores de bases de datos, gateways para el acceso
transparente de estas bases de datos y herramientas de diversa ndole. Estas ltimas deben
elegirse cuidadosamente en funcin de criterios como el coste de adquisicin (que puede ser muy
alto) y mantenimiento (inclusive el propio coste de propiedad con el que muchas herramientas
cuentan), el grado de automatizacin que ofrecen y las capacidades para la limpieza de los datos.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 63
http://site.ebrary.com/id/10751536?ppg=63
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
56
CLINUM NOMBRE
DIRECC ION
90328575 Telefonica SA
90328575 Telefonica
90238475 Telefonica
Cf 12,28080 Madrid
Avenida Blase o I baez, Valencia
Av. Vicente Blanco rbarry ex, Valencia
Nombre.N1
Apellidos
Salario
WRAPPER
Nombre
ApellidoiSala
Figura 4.6.: Wrapper para abstraer archivos planos en tablas de un modelo relacional
A continuacin se explicarn los operadores o transformaciones comunes que se pueden emplear para disear un proceso ETL.
Wrapper
El primero de ellos es el wrapper: un operador para transformar fuentes de datos nativos en
fuentes de datos basadas en registros. Este operador es til para realizar la transformacin de
los datos de las fuentes de datos del almacn.
Generador de claves
Otra operacin es la de generar una clave nica a partir de una clave compuesta en la fuente
de datos. Por ejemplo, la fig. 4.7 presenta una clave compuesta de producto donde se codifica
en un -nico campo desde el cdigo del pas hasta el del vendedor del producto.
Otro ejemplo de codificacin mltiple se muestra en la fig. 4.8 donde el sexo de una persona
se codifica con una letra (in o f), con un bit (1 o O) o con una etiqueta completa (masculino
Cdigo
Nmero cOdoo
pais
Produrto...21.9:,,19!
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 64
http://site.ebrary.com/id/10751536?ppg=64
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
57
m,f
f
1,0
masculino, femenino
mima ilumine.
1,nuu.
m.f
iffield la 141J LL
timo
Olsef
o femenino). Todos ellos pueden ser unificados en otro formato distinto o convertidos a alguno
de ellos como es el caso de la figura.
Asimismo, cuando alguno de los datos de origen no se corresponde con un valor entre los
esperados (fig. 4.9), entonces se deben disear rutinas de gestin de error segn corresponda.
Conversin
Uno de los operadores ms tiles en los procesos ETL es el de conversin. Por ejemplo, en la
fig. 4.10 se muestra la conversin de unidades de medida, fechas y precios. Para cada tipo, se
necesita, por un lado, identificar el dominio de origen del dato y, por otro, disear la rutina de
conversin propiamente dicha, donde el dominio de origen se traduce al de destino. Para estos
dominios se debe tener en cuenta que existen mltiples formatos vlidos e incluso estndares y
que se pueden necesitar herramientas o filtros para preprocesarlos. En la fig. 4.11 se muestra tal
tipo de conversiones.
CM
cm
milmetros
::1/141161/YY
DD-Mon-YY
PAMDDJYY
1,000 GBP
USD 600
FF 9,990
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 65
http://site.ebrary.com/id/10751536?ppg=65
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
58
~-11111111
Figura 4.11.: Operador de conversin (2)
SE L ECT
FROM ta
tidire_15
WHE RE tab le_a key eh) a tabhi_h_kay
UN ION
SELECT __
FROM tilo le_a. Eible_b
WHE RE Itab 19_41.1my table_b.koky (+5
1ACME
[AcPiE
ACME
ACME Inc
Filtrado
Un filtro es toda operacin que devuelve solo los datos que cumplen cierta condicin. Con
los filtros se pueden transformar los valores nulos en el origen, ignorndolos, esperando a que el
usuario decida qu hacer con ellos, marcando las filas o extrayendo bajo condiciones establecidas.
Unin
El operador de unin permite combinar filas provenientes de mltiples fuentes en una nica
fila atendiendo a los valores de algunos de sus campos. Esta operacin se realiza como se muestra
en la fig. 4.12, donde se muestra la unin de dos consultas (select) de SQL.
Combinacin
El operador de combinacin sirve para integrar mltiples campos en una nica fila. Por ejemplo, si tenemos los siguientes datos: nombre, contacto y preferencias podramos formar una
nica fila con el nombre del cliente. Ante esto, es importante destacar que debemos asegurar
que el significado de cada elemento sea el correcto. As se evitan malas interpretaciones. Sin
embargo, establecer claramente el significado de los datos no siempre es fcil. Para paliar esta
situacin se debe documentar siempre que sea posible el significado de los datos en los rnetadatos
correspondientes.
Fusin (merge)
El operador de fusin de datos (ver fig. 4.13) toma varias fuentes de datos compatibles y las
fusiona en la salida.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 66
http://site.ebrary.com/id/10751536?ppg=66
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
59
111
Venta
1,12/98
510.011
112
Venta
1/2100
hilOD
1/3
Venta
irkau
512.011
14
[levo'.
1/298
05
Venta
112198
- 512.00
511.00
1/2/0
*hen Venta
12"11/1
Marcas temporales
Otra operacin til es la del marcado temporal de los datos. Permite as analizarlos a lo largo
del tiempo aadiendo marcas temporales, tanto a los hechos como a las dimensiones del almacn
de datos.
Clave sustituta
El operador de clave sustituta genera claves para el almacn de datos a partir de las de las
fuentes de origen. Por ejemplo, las ventas identificadas en el origen como SRC1, SRC2, etc., pueden
ser traducidas a DW1, DW2, etc., en el almacn de datos.
Agregacin
El operador de agregacin toma un conjunto de filas de datos y genera una nica fila con un
conjunto de registros cuyos valores son comunes para todas las filas de origen y otro conjunto
de registros como resultado de aplicar una funcin de agregacin sobre ellos. Esta tarea puede
realizarse durante la extraccin de los datos, durante su tratamiento en la staging carea o despus
de cargar los datos en el almacn de datos.
Respecto a los metadatos de los procesos ETL, se deben documentar tanto las reglas de
transformacin como los programas y algoritmos utilizados. Algunos de los datos para elegir la
herramienta adecuada para esta fase son: la carga de trabajo que soporta (nmero de operaciones
por unidad de tiempo), el uso de la CPU y del espacio en disco, el ancho de banda de la red,
el paralelismo, el tiempo de carga, la calidad de los mensajes al usuario, las capacidades de
monitorizacin y documentacin del proceso ETL, la funcionalidad ofrecida, la interfaz grfica,
el acceso a los metadatos de fuentes de datos y repositorio, el procesamiento de la entrada
y salida, las capacidades de limpieza, reformateo y auditoria, sus referencias y la curva de
aprendizaje.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 67
http://site.ebrary.com/id/10751536?ppg=67
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
4.4.
Fase de carga
En primer lugar, se deben considerar los requisitos multidimensionales de los usuarios. Ellos
definen tambin el ciclo de refresco. Asimismo, se deben documentar todas las tareas y procesos.
Para ello, se pueden consultar a los usuarios expertos.
Proceso de transporte
Para considerar la ventana de carga se debe evaluar el tiempo disponible para todo el proceso
ETL. Esto se traduce en planificar, comprobar y monitorizar la carga de trabajo de las fuentes
de origen como se muestra en la fig. 4.14 donde los perodos de menor actividad del usuario
son de madrugada. Es precisamente en esos momentos cuando se debera entonces ejecutar los
procesos ETL. Planificar tal carga requerir de una estrategia en funcin del volumen de datos,
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 68
http://site.ebrary.com/id/10751536?ppg=68
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
(31
Pikldg d e dlo
da if EU aria
Parlodo de carga
1
3
am
12 pm 3
Prifbd d
Ca raa
J
6
12
Datos
recibidos
File
1
Filo
2
Abrir
Nombre de fichero
leer
Tipos de fichero
ficheros
Nmero de filas
para
FTP Nmero de cargas
verificar
Primera vez de la carga
y
Fecha de fichero
analizar
Fecha de los refrescos
Registros del fichero- coup
Total - arnounts
Proceso
De control
3 arn I
la infraestructura tcnica, la novedad de los datos y los requisitos de los usuarios, pues ciertos
requisitos pueden significar una ventana de carga pequea.
Granularidad
En cuanto a la granularidad de los datos, se deben planear los requisitos de espacio: el tipo
de almacenamiento, las copias necesarias, los mtodos de recuperacin, el particionarniento y
la carga. Los niveles de granularidad bajos implicarn un elevado coste de carga (nivel de
procesamiento, ms disco, ms detalle), mientras que los niveles ms altos sern ms baratos al
necesitar menor detalle.
Plani cacin de la carga
Las figs. 4.15 & 4.17 muestran mi ejemplo de la planificacin de una carga. En primer lugar,
se obtendrn los requisitos de usuario. En segundo, se disear el ciclo de carga en base a estos.
Tras ello, (3) se actualiza el fichero de control con los datos de la carga a realizar. En (4), el
proceso de control comienza. El siguiente paso (5) es cargar el almacn de datos. Este paso se
realiza a las tres de la maana. Entonces se verifican, analizan y reemplazan los datos cargados
(6). A las seis, la indizacin de los datos comienza (7), se crean resmenes (8) y se actualizan los
metadatos (9). Tras ello, se realizan las copias de seguridad del almacn de datos (10) y se crean
las vistas para las herramientas especializadas (11). Con todo ello, los usuarios pueden acceder
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 69
http://site.ebrary.com/id/10751536?ppg=69
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
62
Captulo
4. Procesos
o
Cargar en
Almacn
Verificar.
Crear
Ana izar.
resmenes
9:
Reemplazar kL)
Indexar
Actualizar
datos
metadatos
File
1
File
2
Caiga
aralela
3 am
6 am
Figura
9 am
71,
Crear
Vistas para
Herramientas
O Especializadas
Back up
Del
Almacen
13
_
(I)
Usuarios
Acceden
Datos
resumidas
Publicar
Acceso usuario
6 am
9 am
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 70
http://site.ebrary.com/id/10751536?ppg=70
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
ETL
63
a los datos resumidos (12), publicarlos (13) y a partir de las nueve de la maana empezar el
acceso tpico al sistema de almacenes de datos.
Refresco
Continuando con la captura de datos para refrescar el almacn de datos, sta se realiza de la
siguiente forma. Se capturan los nuevos datos de los hechos en primer lugar. Luego se capturan
los datos de las dimensiones que han cambiado. Para ello, se debe determinar el mtodo de
captura. Existen varios: reemplazar datos a gran escala, comparar instancias de bases de datos,
comprobar/escanear las marcas temporales (timestamping), lanzar los triggers en las bases de
datos de origen, escanear los archivos de log de stas. Por supuesto, para cualquier refresco, se
pueden utilizar tcnicas hbridas como combinacin de cualquiera de las anteriores.
Al refrescar existen dos estrategias. La primera es reemplazar a gran escala los datos ya guardados. Sin embargo, esta estrategia es cara, los datos histricos son limitados, se reemplazan los
perodos de tiempo y est orientada solo a la carga de data marts. La segunda, es la comparacin
de instancias de la base de datos actual con las pasadas. Esta estrategia es simple, pero todava
cara y necesita ficheros de cambios con los cambios de los datos operaciones desde el ltimo
refresco.
Los cambios para refrescar pueden identificarse, como se ha comentado, mediante el marcado
temporal de los datos de origen. Este mtodo permite una rpida comprobacin para Ios registros
cambiados desde la ltima extraccin, aunque se debe actualizar la fuente de datos con las fechas
de cada dato cuando se cambian a la par de que no es capaz de detectar los datos borrados.
Otro mtodo es el uso de disparadores en las fuentes de datos. Estos disparadores, a diferencia
del mtodo anterior, permiten identificar el cambio tan pronto ocurre. Los datos cambiados son
interceptados a nivel del servidor, aunque hace un uso extra de los dispositivos de entrada/salida
y necesita un mantenimiento extra.
Como ltimo mtodo, tenemos el uso de archivos de log. Mediante su anlisis podemos extraer
el conocimiento acerca de qu campos son los que se han actualizado. Se registran imgenes de
la base de datos antes y despus del cambio. Sin embargo, necesita el uso de check-points del
sistema. Pese a todo, es un mtodo muy comn para identificar los cambios a refrescar.
Con lo expuesto, podramos preguntarnos acerca de cul es el mtodo a elegir. Para responderla deberemos: analizar cada mtodo de forma individual, considerar una solucin hbrida si
un solo mtodo no es adecuado y considerar elementos como aplicaciones actuales, bases de
datos operacionales disponibles y tecnologa actual disponible. Por otro lado, la aplicacin de
los cambios se puede consultar las polticas de modelado esbozadas por Kimball en lo referente
a dimensiones y hechos que cambian lenta o rpidamente.
Tcnicas de transporte
En cuanto a las tcnicas de transporte, estas dependen de: herramientas, utilidades y lenguajes
de cuarta generacin (4GL), gateways, programas de copias personalizados. Pueden utilizarse
tambin rplicas, servidores FTP (Pile Transfer Protocol) o realizarse de forma totalmente
manual. Para aplicar realizar el refresco se debe tener en cuenta que: las herramientas adecuadas
tienden a ser muy caras, las utilidades son rpidas y potentes y los gateways no son siempre los
ms rpidos. Estos ltimos se emplean para acceder a otras bases de datos, proporcionar data
marts, soportar entornos distribuidos y proporcionar acceso en tiempo real si fuera necesario.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 71
http://site.ebrary.com/id/10751536?ppg=71
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
64
ndices
En cuanto a la definicin de ndices en el almacn de datos durante el proceso de carga, si
se calculan antes de la carga, es ms rpido que si se hace durante o despus de sta, pues se
debe aadir un tiempo adicional a la ventana de carga. Para generar ndices nicos se deben
gestionar las restricciones de integridad del almacn de datos como muestra la fig. 4.18, esto es,
deshabilitarlas antes de la carga del almacn de datos y volverlas a activar antes de la creacin
de indices.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 72
http://site.ebrary.com/id/10751536?ppg=72
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
65
problema. Otras tareas asociadas son la actualizacin de los metadatos tanto de los procesos
ETL como de las herramientas de consulta, la publicacin de los nuevos datos (en funcin de
su disponibilidad, de las vistas del negocio y de los propios cambios) y considerar aspectos de
seguridad para los accesos no deseados.
Para que los datos estn disponibles, a veces se requiere de hasta 24 horas para realizar todo
el proceso de carga. Por ello, se debe llegar a un compromiso entre el tiempo de carga y el
acceso por usuarios finales. Las soluciones a este compromiso pasan por considerar copias de las
actualizaciones, tablas temporales o utilizar tablas separadas para reconciliar ambos tiempos.
Dado que los procesos ETL pueden ser realmente complejos como se ha tratado de exponer con
toda la problemtica tratada en este captulo, cualquier tipo de automatizacin al respecto ser
bienvenida. Las tareas a automatizar sern: las propias actividades de extraccin, transformacin
y carga, el procesamiento posterior a la carga, la actualizacin de los metadatos y la publicacin
de los cambios despus del proceso. Sin embargo, siempre puede ser necesaria la intervencin
humana para tratar las cuestiones imprevistas.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 73
http://site.ebrary.com/id/10751536?ppg=73
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 74
http://site.ebrary.com/id/10751536?ppg=74
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Bibliografa
[41 Oracle. Oracle Warehouse Builder (OWB). szww. oracle com./technology/1)r oduct s/
warehouse/index . html.
67
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 75
http://site.ebrary.com/id/10751536?ppg=75
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 76
http://site.ebrary.com/id/10751536?ppg=76
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
STE captulo presenta las principales herramientas de anlisis para las que se disea el almacn de datos. Estas herramientas no son otras que las denominadas herramientas OLAP (OnLine Analytical Processing, procesamiento analtico en linea). Para tal exposicin se ver en
primer lugar en qu consiste tal tecnologa. Luego se ver su arquitectura y los vendedores que
ofrecen herramientas comerciales. Estudiaremos algunos aspectos prcticos para su eleccin y
profundizaremos en dos de tales soluciones comerciales.
ndice
5.1. Qu es OLAP?
69
5.2. Arquitectura
72
73
5.1. Qu es OLAP?
La tecnologa OLAP se concibe en el contexto de la toma de decisiones empresariales. En
tal entorno, existen las siguientes variables que fundamentan tal tecnologa. Primero, existen
demasiados datos para procesar. Se habla de una sobreabundancia de informacin en la que es
muy difcil saber qu es lo valioso y qu lo superfluo. De ah, que directamente no se sepa qu
fuentes de datos contienen informacin relevante para el anlisis. En segundo lugar, el contexto
para los datos es el equivocado. No se presentan de una forma adecuada: cada dato est enlazado
al resto de formas no intuitivas para el analista y por ello, de difcil explotacin. Con un contexto
adecuado, cada dato se transformar en informacin valiosa acerca de la empresa. Por ltimo,
el analista recibe los datos tarde, en lugar de cuando se necesitan realmente. Las soluciones
69
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 77
http://site.ebrary.com/id/10751536?ppg=77
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
70
ft"!
Eo
L
o
46 rl
...
REO ION
DISTR GTO
VE h DE DOR
Roll-up -
Drill-down
El.
O
E;
L
Mini Va
0[171
t1".
Goupe
Elbe
Glyde
WhIla
"Diced" Data
Garr
/
G leas
Glyde
Sedan
VENDEDOR 11
COLO
Figura 5.2.: Manipulacin de un cubo de datos mediante slice-dice
previas a. OLAP no ofrecen la interactividad con los datos que sta ofrece y las sesiones de
anlisis deben planearse a priori pues si no, los datos no podrn consultarse a tiempo dadas
las elevadas necesidades de procesamiento. Con todo ello, en el contexto empresarial previo a
OLAP, se toman malas decisiones.
OLAP ofrece para solucionar tal situacin mi conjunto de funcionalidades que facilitan el
anlisis de datos multidimensionales para una toma de decisiones ms rpida e informada. Entre
otras propiedades, se tiene entonces: la naturalidad con que los analistas pueden consultar la
informacin, que se presenta en base a la metfora de cubos de datos, vistas mltiples de los datos
y operaciones intuitivas sobre esos cubos. Asimismo, OLAP permite el anlisis y la comparacin
de medidas en base a diversos factores, el procesamiento de los datos y relaciones entre ellos.
Como ejemplo, en la fig. 5.1, se muestra la navegacin entre cubos de datos a diferentes
granularidades o niveles de detalle. Esta navegacin se hace mediante los operadores OLAP de
roll-up (agregacin) y drill-down (desagregacin). En un cubo de ventas como el de la figura,
cuyas dimensiones son el color, localizacin del vendedor y modelo del producto vendido, se
puede alterar su nivel de detalle a lo largo de la dimensin de localizacin para analizar los
datos desde el vendedor, pasando por los distritos, hasta la regin de ventas.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 78
http://site.ebrary.com/id/10751536?ppg=78
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
5.1. Qu es OLAP?
71
Por otro lado, la fig. 5.2 muestra otra de las operaciones tpicas de OLAP, el slice-dice.
Esta operacin toma un cubo de datos y genera un subcubo con los datos que cumplen cierta
condicin. Por ejemplo, en la figura, se muestra el mismo cubo de datos en el que se ha hecho
una seleccin de los datos en base al nombre del vendedor.
Desde el punto de vista del analista, las herramientas OLAP permiten generar las siguientes
propiedades sobre unos datos que: se almacenan en grandes cantidades, son multidimensionales,
con mltiples tipos de relaciones, en situaciones complejas y con un cierto contexto o inters. Las
propiedades que se obtienen son: un procesamiento ms rpido dado que la tecnologa OLAP
emplea estructuras de datos orientadas al rendimiento, mejor comprensin pues los datos se
organizan de manera intuitiva para los analistas, un mejor comunicacin pues la interactividad
de la herramienta permite que el dilogo entre analistas y datos sea ms fluido y finalmente, con
todo ello, una mejor toma de decisiones en la empresa.
Con la visin intuitiva de la tecnologa de explotacin OLAP, vamos a describir, a continuacin, dos de las definiciones ms importantes que se dan en la actualidad.
Accesibilidad en los datos presentados a los usuarios con un esquema lgico sencillo de interpretar (esto es, el esquema estrella).
Gestionar matrices sparse (vacas) dinmicas que se debera adaptar a la variacin de almacenamiento y opciones de consulta de datos.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 79
http://site.ebrary.com/id/10751536?ppg=79
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
72
Dimensiones y niveles de agregacin no limitados donde se debera soportar al menos 15 dimensiones y, preferiblemente 20.
De nicin 2: FASMI
Sin embargo, la definicin de Codd, a menudo resulta compleja pues involucra muchas propiedades y muchas de estas ya constituyen un factor comn para no solo herramientas OLAP
sino de todo tipo. Por ello, Nigel Pendse define OLAP mediante las siglas FASMI, esto es:
Fast el tiempo de respuesta de la mayora de las consultas debera ser menor de cinco segundos.
Analysis lgica del negocio relevante y anlisis estadstico que sea suficientemente simple para
los analistas no expertos
5.2. Arquitectura
La tecnologa OLAP tiene por arquitectura tpica aquella donde el almacn de datos constituye el repositorio de datos al que acceder a travs de las herramientas OLAP. Esto hace que
el acceso sea fcil y eficiente, mediante una vista multidimensional de los datos de las fuentes,
una configuracin cliente/servidor como recomendaba Codd, y que se puedan dar operaciones
de navegacin complejas sobre los datos.
Sin embargo, tambin cabe la posibilidad de que las herramientas de explotacin OLAP
accedan directamente a las fuentes de datos para recoger la informacin necesaria para el anlisis.
Sin embargo, en estos casos, el rendimiento en el acceso puede verse mermado dado que las
fuentes de datos no fueron diseadas para la explotacin OLAP.
En cuanto al servidor OLAP en esta arquitectura, existen dos alternativas clsicas en funcin
de la tecnologa con la que se implemente. En primer lugar, los servidores MOLAP (Multidimensional OLAP, OLAP multidimensional), o de OLAP multidimensional, manipulan los
datos sobre bases de datos en las que estos se representan directamente como dimensiones y
hechos mediante estructuras matriciales que potencian el rpido acceso. Por otro lado, tenemos
la tecnologa ROLAP (Relotional OLAP, OLAP relacional), de OLAP relacional, donde los
datos se almacenan en estructuras de datos relacionales (tablas). Como ventaja de esta aproximacin est que es ms usada dado que la tecnologa relacional est muy difundida. Sin embargo,
el rendimiento que se puede obtener con ella y la funcionalidad ofrecida puede ser menor de no
gestionarse correctamente el rendimiento ofrecido.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 80
http://site.ebrary.com/id/10751536?ppg=80
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
000
o o Hyperionr
73
~soft
APPribr
COGM
I OS'
LlgN [ SI;OBIEtrs.
CARTESIS .
a DVTUM
crystai dedsions
tarlos.
Almacenamiento, arquitectura y procesamiento ser lo ltimo, pues solo tras comprender el
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 81
http://site.ebrary.com/id/10751536?ppg=81
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
21%
2.4%,_
2. 511- -12.5%
21.3'
10%
euree:
The OLA P Frepart
Y",0,49,.C...1 con.
0%
1!}09 .1540 2941 2407 2 003 211.1
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 82
http://site.ebrary.com/id/10751536?ppg=82
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
75
Caso de estudio
Como caso de ejemplo, vamos a describir la plataforma de Oracle y Cognos. Como panorama
general, Oracle proporciona herramientas de acceso a datos de los siguientes tipos: MOLAP,
ROLAP, DSS (Decsion Support System, sistema de apoyo a la decisin), reportiag (generacin de informes) y minera de datos (que veremos en el siguiente tema) mediante la integracin
con otros vendedores (partners). Adems, proporciona servicios de consultora y docencia para
sus soluciones. Concretamente, en almacenes de datos, Oracle cuenta con la herramienta para
disearlos, de nombre OWB (Oracle Warehouse Builder). Por otro lado, el acceso a los datos
se realiza mendiante Oracle Discoverer orientado a los gestores del negocio y el Oracle Express orientado a los analistas. Tambin cabe destacar que la plataforma de explotacin soporta
tecnologa web.
La tecnologa Express de Oracle (el servidor MOLAP de Oracle) permite el anlisis y modelado multidimensional, en contraposicin con la solucin clsica con bases de datos relacionales.
Express da soporte para Express Objects, Express Andyzer, Express Financial y Express Sales
Analyzer. Por ltimo, decir que tal solucin est basada en la tecnologa internet/intranet.
En cuanto al Oracle Discoverer, ste se divide en varias herramientas: Discoverer Desktop para la explotacin de datos multidimensionales por los analistas finales, una capa final de usuario
(End User Layer, EUL (End-User Layer)) que abstrae la capa de datos subyacente y el Discoverer Administrator que se emplea por los diseadores OLAP para especificar metadatos OLAP
sobre fuentes de datos relacionales. Las ventajas de esta solucin es su facilidad de uso dado
que est basada en el empleo de wizards que guan al analista en el proceso de consulta que se
efecta mediante una interfaz sencilla. Otras ventajas son el rendimiento ptimo que se consigue
mediante tcnicas de caching (almacenamiento temporal) de cubos de datos y procesamiento de
consultas en el servidor, junto con la explotacin y exploracin de datos flexible. Como ejemplo
del tipo de informes generados, en la fig. 5.6 se muestra una tabla resumen fruto de un anlisis
OLAP de las notas obtenidas por los alumnos registrados en una plataforma educativa internacional. La tabla muestra tales datos desglosados por fecha (meses) y lugar (pases, provincias
y ciudades). As, con este tipo de herramienta, los analistas pueden navegar por los datos de
manera intuitiva.
En cuanto a la EUL de Oracle, cabe comentar que est diseada para esconder la complejidad de las bases de datos subyacentes. En ella se permite as definir caminos de agregacin,
crear y mantener datos resumidos y redireccionar las consultas de forma automtica hacia esos
resmenes con objeto de acelerar el rendimiento.
La fig. 5.7 muestra el concepto que hay detrs de la EUL. Mientras que la base de datos
contiene campos en un formato determinado para la mquina (a la derecha de la figura), gracias
a la EUL, el usuario slo percibe los datos de forma intuitiva, es decir, en base a los conceptos
que modelan (direccin del cliente y total de ventas en la figura).
Por ltimo, respecto a la plataforma web de Oracle, esta permite un acceso rpido y fcil a
travs de cualquier navegador web. As se amplia la portabilidad de la solucin OLAP y facilita
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 83
http://site.ebrary.com/id/10751536?ppg=83
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
76
6107
hrUlia.
Fe
Grif Venier
rases _
lr
o Lugar de Nacimiento de los lti07
n1
5 Anos
gZ=EZIM
awn.
2 1215
10..
A. i
A.
A.
1019
3,67
1,00
Cantabla
1,03
5090
7,03
P.M750
.1,16
AM..
11,0014
4117-41
7216
a
UnUa
Mana
101.50
507030
7137090
0.17,1 039
salamanca
X.1r,
77777
M'yo
Nzolerrtre
0.77.7
512errue
0J771
1,19
Affl
Affl
9,774
3,76
2,50
2,50
104
1,0
1,91
1,91
419
1,23
2,57
2,27
ME
1,20
7,7.1
7,7..1
1,59
1,24
4,71.
4,71.
3,44
AM
993
993
AH
7791.
sm
sm
5,25
3,90
9,75
1,65
5,40
4,01
3,02
0,25
5,04
5,10
4,05
4,70
5,00
4,03
9,53
3,43
3,94
4,65
4,11
4,62
5,25
4,50
3,00
4,07
3,75
0,22
4,65
4,57
21.
1'2'
0,00
91.
...49
5A5
0,50
1,9.
4,40
2
1.
2'2'
2500
4,60
4..
mas
1.
sffl
519
4,57
cl,a3
c...
2,49
9.42
4,
19
9.42
4,794,00
4,24
9,47
2,
42
2,07
407
4.6
4,.
4.83
4.16
5,91
%.
4..
.1,52
4.53
...
...
4,95
3,104,06
4.51
.7,57
2,22
2,02
4,69
4,02
4,52
4,52
4,90
4,32
71,20
71,20
2,55
0,55
457
$0
10]
5055
5.97
5.97
4,29
5,52
210
415
410
410
9,2]
2,14
/42
111
2,14
2,14
425
4,44
497
4,511
4,54
4,54
30]
150
1,69
1,69
3,99
2,50
197
1,00
515
5,25
3,69
058
4,72
3,18
4,03
Son
263
1,75
1,75
8,35
2,05
2,92
1,E10
7,00
7,00
1,92
5,36
2,7]
5,72
7,19
7,19
5,41
8,3E1
8,00
8,75
2,50
2,50
5,92
.1,512
4,99
2,99
4,19
..47
2,42
1,79
...
,609
5,744
.9.
6,25
5,00
1,52
6,25
5,00
1,52
6,1211212111
Fchntru
5,11
5,113
5,113
512
Lena
Mr.0.1T.rm492
Grona
li
Enero
5,76
50
519
4555
115
113
4,62
417
4,95
5555
5,99
3,00
400
105
125
130
20
20
5,57
7,67
7..00
6,50
6,55
4,60
6,47
5,55
7,11
4,00
4,00
5,00
6,10
4,75
0,40
3,25
3,25
2,44
66
5,25
4,75
4,75
4,15
4,15
0,377
100
426
4,71
4,15
517
50
50
4,45
3,51
519
3/5
3,55
3,50
7,85
5,75
7,75
2,70
2,70
5,00
rn
6,05
4,75
6,17
0,00
0,00
1,75
175
5,27
9,25
4,W
2,95
197
7.75
5,20
5,2,9
7,03
7,03
192
41.1
9,55
175
175
9,33
4,15
5,65
7,23
5.673^3,51.
7,12
344
5,63
7,30
3,44
50
2,22
5,39
5,54
4211
2,80
5,22
4RS
117
0624.11177N4nl.
Direccin de diente
End
User
Layer
cl_diri
cl_dir2
Gi_Giuclad
I fatal de verlas
Figura 5.7.: Capa final de usuario (EUL) en Oracle Discoverer
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 84
http://site.ebrary.com/id/10751536?ppg=84
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
77
Id21 sil
I ilelT)I
AL._
Mcds.111:
Yta
Lrza
10o
Liget C3
Cande:
Qui...1142
p:d.d..
IN La.. e -.ml
CNdazil
1'40 da:
I Nirs-Pa F
Cele
witre 1-arvel
E ncergedo. dr venta;
su uso. Para ello, se dispone de las herramientas adecuadas para administrar la configuracin
web. Entre ellas, destaca la gestin de resmenes, donde se actualizan los metadatos con la
informacin sobre los datos resumidos a la par que se generan y mantienen los resmenes.
Adems, se gestionan matrices sparse de forma automtica, con lo que su gestin se facilita
enormemente.
Aparte de la solucin de Oracle, nos gustara comentar brevemente tambin la solucin de
Cognos como ejemplo de plataforma MOLAP. Esta compaa dispone de varias herramientas
para la explotacin OLAP, donde destacan: Impromptu en la creacin de modelos multidimensionales bajo la arquitectura cliente/servidor, el Cognos Transformer para la creacin de cubos
multidimensionales a partir de los modelos multidimensionales generados por Impromptu, pero
tambin a partir de las propias fuentes de datos (no multidimensionales), y el Cognos Power
Play para visualizar los cubos de datos de forma sencilla.
Como ejemplo de la apariencia que ofrecen estas herramientas de Cognos, las figs. 5.8 & 5.10
muestran un proceso tpico de diseo donde se parte de un modelo multidimensional de los datos
que se necesitan analizar (figs. 5.8 & 5.9) para ofrecer al analista una interfaz usable para la
explotacin multidimensional mediante tecnologas OLAP (fig. 5.10).
Habiendo visto las diferentes alternativas y factores de diseo para las herramientas OLAP,
en el siguiente tema trataremos el uso de algunas tcnicas para la extraccin de conocimiento
de los almacenes de datos, como las tendencias en los datos o las reglas que siguen estos. stas
sern las denominadas tcnicas de minera de datos.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 85
http://site.ebrary.com/id/10751536?ppg=85
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
ks,
Lreade Rodeo
Held*:
Pb de cene!
,m+,..gr..:1
IP bei
C 1.,exle4
leer./ yn
0. 1.4.
Lemirde.
enhurn.
Hawih
C.
Cdow.lcel er.
(MIL
Creo
Cala 'Loro
Pa.
- Su
RawVraa
- UNID
-la 11 2.
prona
naa
- *ware
Ckded
Ah:te
- CaM9m..
-Cala
Be.oen
A LA..
11..4.:1
C Wle
Ikedalax
Selmenee
-AHala
-Lomat
Mes.
- Zamora
- LeMOD
Pardea
- Mude,
DIzerw9c de r.
Ouodchio
Ca
iwan ~rae
1.1.1
klmul Rapa
loa. L'eyrax
-1111.
k.
Red Pub.
Beehunee
IonFin., di
ktmaJeteSLMed
3.haa
Ng.1
IP.CL
Arder Honewe
lam
:del Vaama
/urjo Harma:.
EncYpego ventee
ano I.and
HMnrp ung
Inacno:
cee.
FAe
Dicivil@iffila' ,.
leOlva. E
P
uslmaw 11-
nr.
7c4d4
..9.~ Hlb
at[Elial[rzlt]
1.r
1
CIP111111110511PROI
FOCNZ
i Pral. ttrs
Lp+U hI
t
Lugar.
C.J CtAele%
NOr01111B
Modelas
Centro
1,1~
Madidp I 1 Noma: I
Deperte
Wrarlanyo
PlOta
1500
d05
250E1
SOD
8100
1+00
700
d00
WO.
Sur
300
4-100
440D
Noris
900
3920
152D
4020
$507D
350
04 ite
Loores
4003
2256
35D
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 86
http://site.ebrary.com/id/10751536?ppg=86
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Bibliografa
[1] E. P. Codd. The Relational Model for Database Management. Addison Wesley, 1990.
[2] IBM. Cognos Business Intelligence and Performance Management Software. www. ibm. com/
software/data/cognos.
[31 R. Kimhall. The Data Warehouse Toolkit: Practical Technigues for Building Dimensional
Data Warehouses. John Wiley, 1996.
vil
79
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 87
http://site.ebrary.com/id/10751536?ppg=87
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 88
http://site.ebrary.com/id/10751536?ppg=88
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
El
RAS haber presentado en el captulo anterior en qu consista la tecnologa OLAP (OnLine Analytical Processing, procesamiento analtico en lnea), en este captulo se expone lo
que son las tcnicas y herramientas para la minera de datos. En primer lugar, se motivar el
problema subyacente de la minera de datos, para a continuacin, dar la definicin de este tipo de
tecnologa. Tras ello, se detallarn los diferentes tipos de tcnicas de minera y sus aplicaciones.
Finalmente, se expondr el marco de trabajo sobre el que se concibe la minera de datos.
Indice
6.1. Motivacin
81
82
83
85
6.1. Motivacin
Las tcnicas de minera de datos surgen como solucin al problema de la explosin de datos.
Dada la cantidad de informacin que manejan las aplicaciones hoy en da, tales como los sistemas
de almacenes de datos, se hace cada vez ms necesario el uso de mtodos automticos para
descubrir y analizar la informacin ms valiosa que se encuentra escondida en los datos.
La situacin que da lugar a tales volmenes de datos no es otra que el hecho de que los
propios mtodos de recoleccin de datos estn automatizados junto con los potentes sistemas de
almacenamiento. Esto conduce a una cantidad ingente de datos almacenados en bases de datos,
ya sean almacenes de datos u otros repositorios.
81
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 89
http://site.ebrary.com/id/10751536?ppg=89
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
82
Tecnologia
de BD
Estadsticas
Machine
Learning
Ciencia de la
Informacin
Otras
Con ello, podemos hacernos la pregunta de si los datos que mantenemos almacenados son
realmente informacin valiosa para la empresa. Recordemos que para que un dato se considere
informacin debe describirse sobre un contexto que le asigne significado y, adems, que ese
significado sea relevante para el analista. As, la integracin de almacenes de datos con tcnicas
de minera soluciona el problema de identificar esa informacin en los datos de una organizacin.
Con las tcnicas de minera de datos se podr extraer esa informacin, pero no solo eso, sino
conocimiento: mediante tcnicas automticas se extraern los patrones, reglas y restricciones
que siguen los grandes volmenes de datos almacenados.
6.2.
Qu es la minera de datos?
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 90
http://site.ebrary.com/id/10751536?ppg=90
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
83
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 91
http://site.ebrary.com/id/10751536?ppg=91
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
84
Salario anual
24,000C
Deudor
<10,000
Buen cliente
Crdito
anual
50,000
Mal cliente
Salario anual
Mal cliente
Deudas
Crdito
Edad actual
uen cliente
pretende analizar), existen multitud de tcnicas y algoritmos que las implementan, por lo que
el conjunto de estas permanece abierto por definicin.
La primera de las tcnicas es la de los rboles de decisin (ver fig. 6.2). Estos rboles representan decisiones anidadas que sirven para clasificar los datos. As, aplicando un rbol de
decisin sobre los datos se obtendrn las reglas que permiten clasificarlos. Como ejemplo, la
fig. 6.2 muestra el rbol de decisin para un buen o mal cliente: ste es clasificado, en primer
lugar, por su salario anual. Tras ello, en funcin del valor de su salario, puede clasificrsele como
deudor o de crdito anual. As, se clasifica dentro de dos regiones de salario (menor que 10000
o mayor que 50000) y, con ello, en buenos o malos clientes.
Otra tcnica interesante es la de redes neuronales (ver fig. 6.3). Estas definen un modelo
predictivo que se configura de forma iterativa mediante ejemplos que se emplean a modo de
aprendizaje para la red neuronal. Por ello, estn desarrolladas a partir de cmo el cerebro
humano entiende y aprende. Tcnicamente, emplean modelos estadsticos como la regresin
mltiple para funcionar. Como ejemplo, la fig. 6.3 muestra una red neuronal donde los salarios,
deudas, crdito y edad de un cliente sirve de entrada para que la red (la capa interna de neuronas
en la figura) decida si ste es un buen o mal cliente.
Tambin puede emplearse las reglas de asociacin en minera de datos. Esta tcnica permite
el descubrimiento de correlaciones entre un conjunto de elementos de datos. Responde a preguntas como de qu manera se relacionan los datos? y cmo se venden los productos en el
supermercado?
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 92
http://site.ebrary.com/id/10751536?ppg=92
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
"vit^ilute
~S1 k
ANG
le 44444 I
-LP
85
Wien".1111~
11~
d'e
.1 .1fTly
ORACLE'
Mi neSet
Unica 111,
Figura 6.4.: Proveedores de soluciones de minera de datos
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 93
http://site.ebrary.com/id/10751536?ppg=93
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
86
Ev aluacin
de patrones
Data Min7illik
Datos para aplicar DM 111
Data Warehouse "
/`Selccciu
...".."7
pimpi;.
., - Integracin
Bases de datos
Figura 6.5.: Proceso de descubrimiento de conocimiento en bases de datos
Como se muestra en la fig. 6.5, la minera de datos se concibe como una tcnica de explotacin
sobre los almacenes de datos para la extraccin de conocimiento. Por un lado, el almacn de
datos es la plataforma idnea sobre la que realizar la minera de datos ya que extrae los datos de
las fuentes de datos para su integracin y limpieza. De esta manera, llegados al almacn de datos,
se encuentran en un formato adecuado para la aplicacin de las tcnicas de minera de datos.
As, tras el diseo del almacn de datos y la posterior seleccin de los data marts en funcin
de las necesidades de informacin de sectores concretos de la organizacin, se pasa al anlisis
de los datos. Concretamente, la minera de datos se muestra en la fig. 6.5 como el proceso que
extrae de los cubos de datos del almacn de datos los patrones y tendencias que sern evaluados
posteriormente por los analistas para finalmente extraer el conocimiento inicialmente oculto en
esos datos.
Finalizamos enumerando los pasos de este proceso:
1. Aprender el dominio de la aplicacin: es importante tener conocimiento previo y seleccionar
las metas a cumplir por la aplicacin.
2. Crear un conjunto de datos objeto seleccionando los datos requeridos.
3. Limpiar los datos y preprocesarlos (esta tarea puede llevar el 60 % del esfuerzo total de la
minera de datos).
4. Reduccin de datos y transformacin, encontrando caractersticas tiles, reduciendo variables y dimensionalidad de los datos, etc.
5. Escoger funciones y tareas de minera de datos como puedan ser la de clasificacin, regresin, reglas de asociacin, clustering, etc.
6. Escoger los algoritmos de minera de datos para las tcnicas seleccionadas.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 94
http://site.ebrary.com/id/10751536?ppg=94
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
87
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 95
http://site.ebrary.com/id/10751536?ppg=95
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 96
http://site.ebrary.com/id/10751536?ppg=96
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Bibliografa
[1] M. J. A. Berry. Data Mining Technigues: For Marketing, Sales, and Customer Relationship
Management. Wiley, 2004.
[21 IBM. SPSS Modeler (Clementine). www.spss com/software/modeling/modeler.
[31 G. Piatetsky-Shapiro and W. Frawley. Knowledge diseouery in databases. Aaai Pr, 1991.
[41 The University of Waikato. Weka 3 Data. Mining with Open Source Machine Learning
Software in Java. mal; . cs . vaikat o . ac .nzrmliveka.
89
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 97
http://site.ebrary.com/id/10751536?ppg=97
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 98
http://site.ebrary.com/id/10751536?ppg=98
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Aristteles
7
Metadatos en almacenes de datos
ASTA ahora hemos visto las alternativas de diseo que existen en cada una de las partes de
una arquitectura de almacenes de datos. En este captulo, se vern de qu manera se almacena
la informacin de diseo. Los metadatos nos permitirn describir cada una de esas fases. A
continuacin, se introducir la motivacin para estos metadatos, seguido de su descripcin para
las partes fundamentales del almacn de datos: los procesos ETL (Extraction, Transformaban,
and Loading, extraccin, transformacin y carga), las herramientas de explotacin OLAP (OnLine Analytical Processing, procesamiento analtico en linea) y el propio almacn.
ndice
7.1. Introduccin
91
93
94
94
7.1. Introduccin
Los metadatos existentes en un proyecto de almacenes de datos son cruciales para su xito.
Cuando hablamos de metadatos, no solo nos referimos a un esquema multidimensional (por
ejemplo, el esquema estrella) o a unas reglas de negocio. Los metadatos son toda aquella informacin acerca de los objetos que estamos diseando: desde las fuentes de datos y procesos
ETL, pasando por el almacn de datos y data marts, hasta las herramientas de explotacin.
Los metadatos han de ser escalables y siempre estn expuestos a cambios. Por ello, deben
permitir la integracin, registrar la historia y contenido del almacn de datos y deben reflejar
91
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 99
http://site.ebrary.com/id/10751536?ppg=99
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
92
los cambios que se realicen. Dada su complejidad, la definicin de una buena estrategia de
metadatos es fundamental para el proyecto. Esta estrategia involucra la implantacin, el control
y la gestin de los metadatos en todas las fases del proyecto del almacn de datos.
La estrategia de metadatos debe asegurar su calidad. Para ello, se suministrarn a los distintos
tipos de usuarios informacin de calidad del almacn de datos. Pero tambin se requiere dar
soporte a la integracin de los metadatos atendiendo a:
Objetivos, fuentes y tipos de metadatos.
Fuentes de datos y su localizacin.
Mantenimiento y gestin.
Utilizar estndares siempre que se pueda.
Herramientas de definicin, gestin y acceso.
Integracin y evolucin.
A continuacin se detallan cada uno de estos puntos.
Objetivos, fuentes y tipos. Son importantes las siguientes caractersticas: los requisitos de
los metadatos, el acceso (quin y cmo se accede a ellos), la identificacin de las fuentes de
informacin sobre la que disear los metadatos, la estrategia de integracin, la gestin del cambio
y evolucin, especificar los usuarios de los metadatos y sus necesidades, el qu debera contener
los metadatos y qu herramienta se debera utilizar para crear y mantener los metadatos.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 100
http://site.ebrary.com/id/10751536?ppg=100
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
93
Fase de extraccin.
Fase de transformacin. La informacin necesaria para describir esta fase es la que describe lo
siguiente: rutinas de duplicados y copias de datos, el gestor de excepciones, la nueva definicin
de claves, las conversiones debido a la granularidad, la traduccin de nombres entre fuentes y
destino, la frecuencia, los agregados, las transformaciones manuales y las reglas de conversin
segn la unidad del proceso ETL.
Fase de carga. La informacin de esta tercera y ltima fase es acerca de: el mtodo de transferencia, la frecuencia de la carga, los procedimientos de validacin, los procedimientos de fallos
y las reglas de utilizacin de los procesos de carga. Tambin, muy importante, se debe tener
informacin acerca de los fallos que se producen en la carga para actuar como corresponda.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 101
http://site.ebrary.com/id/10751536?ppg=101
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
94
Nombre Nombre
Tabla
Columna
Datos
Significado
Producto P-rodid
01197
Producto focalizacin
1.81C
Producto color
15
17 62
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 102
http://site.ebrary.com/id/10751536?ppg=102
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
95
BTL
Dala
Y/merla:11m-
Fuera BS fletas
OparacianRINg
IFuenlles
Fuenlm
lewlinte
CWM Tne4
Fuellas
Panvise
lo Ganan ores)
D estino
UtisLmo
Down
Para comprender cmo una propuesta como CWM contribuye al modelado de metadatos, se
detallarn los elementos de modelado de CWM (paquetes, dependencias, asociaciones, etc.), se
discutirn los fundamentos de CWM como lenguaje de modelado y su relacin con UML.
Podemos definir CWM segn sus diseadores como:
Interfaces estndar que se pueden utilizar para un intercambio fcil de la informacin de los metadatos del almacn de datos entre plataformas de almacn de datos,
herramientas de almacenes de datos y repositorios de metadatos de almacn de datos
en entornos distribuidos heterogneos.
Donde queda claro el objetivo principal que sigue CWM, que no es otro que el intercambio
fcil de metadatos en un entorno de almacenes de datos. Dado su objetivo, CWM cuenta
con el apoyo de mltiples compaas, entre las que destacan como co-creadores IBM, Unisys,
NCR, Hyperion, Oracle, UBS, Genesis y Dimension EDI. Por otro lado, hoy en da lo soportan
herramientas de los siguientes proveedores: Deere, Sun, HP, Data Access Technologies, In-line
Software, Aonix, Hitachi, SAS Institute, Meta Integration Technology, entre otros.
La fig. 7.2 muestra la problemtica en el intercambio de metadatos que CWM resuelve. Mientras que un formato no estndar fuerza a que cada herramienta deba implementar importadores
y exportadores de formatos por cada uno de los existentes, las herramientas que empleen CWM
como estndar de metadatos podrn utilizar este formato como puente comn hacia el resto de
herramientas que tambin lo implementen, solucionando la complejidad anterior.
La arquitectura de CWM es la que se presenta en la fig. 7.3. Para la definicin de CWM
(en la capa M2) se necesita de otro lenguaje de modelado que lo defina (o meta-metamodelo, en
la capa M3). Por otro lado, CWM define modelos de metadatos (en la capa 111) que a su vez,
sirven de lenguaje para los propios datos (en la capa 1110). La fig. 7.3 muestra tambin ejemplos
de cada capa. Por ejemplo, el nivel superior (MO) est dominado por el lenguaje MOF (MetaObject Facility) que define clases, atributos, operaciones y asociaciones, mientras que el nivel M2
con UML tiene clases, atributos, etc., y con CWM tiene tablas, columnas, tipos de elementos,
etc.
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 103
http://site.ebrary.com/id/10751536?ppg=103
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
96
Meta-metamodel
Layer (11/13)
Metamodel
Layer(M.2)
Metadataillcle1
.Layer(M1)
User DatalUbject
Layer (M0)
.1..Prod norubte="1BNI."
preciel.E2".,>
Example s
M3
meta-nieta-nade'
M2
rnetamadat meta-metadata
UML Metarnalei,
CWM Metarnode I
M1
UML models,
CWM rnetadata
MCI
object, data
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 104
http://site.ebrary.com/id/10751536?ppg=104
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Management
97
W2 rhe LIS 9
Wa re h ouse
Pr 0,Ge53
Op erat I on
Anaiysie
Resource
Oject
b
ec..,Lkh.,..r+- Rolad:mai
Data
Informatio n
Business
Minino. Visuelltation Nornenciature
Record
WrIatlEn sh IPSi
Foundation
Object Model
"luidDi mer.sonal
XMS
Business Data
Ke y s
Type
Software
Expre s Mons
!niel-mal I an Types
IndeK Mapping ID e pi 1;n/rent
Core
Behayl ural
Relationsh i os
I nstanee
Para aclarar la nomenclatura involucrada en tales arquitecturas de modelado, la fig. 7.4 resume
los nombres de los modelos en relacin a su nivel de abstraccin.
Por otro lado, la fig. 7.5 muestra los paquetes o divisiones lgicas de modelado en los que se
divide CWM. Cada uno representa una parte de la arquitectura de un almacn de datos cuyos
metadatos son susceptibles de modelarse. En esta misma figura, se muestra que los paquetes
tambin estn organizados en capas, sirviendo las inferiores como base para definir las superiores.
Por ejemplo, para definir un warehouse process en la capa de gestin de CWM se necesita del
paquete transformation de la capa de anlisis.
Como ejemplo de modelado con CWM, la fig. 7.6 muestra los elementos de modelado relacional de CWM (en la parte inferior derecha de la figura) que son aplicados a la tabla de
ejemplo (en la parte superior) para modelar sus metadatos en CWM (en la parte izquierda).
Como puede observarse, los elementos de modelado de CWM en este caso son tablas y columnas que se identifican ambos por un nombre y, por ejemplo, un tipo en el caso de las columnas.
As, una relacin de cursos con su instructor y despacho (ver figura) puede modelarse con estos
constructores de CWM quedando formalizados los metadatos con un formato estndar.
Habiendo visto en qu consiste CWM, cabe preguntarse por su relacin con UML. CWM
representa un lenguaje orientado a la implementacin o intercambio de metadatos en almacenes
de datos, mientras que UML est orientado al diseo general de sistemas de software. Por tanto,
difieren en mbito y nivel de abstraccin. En UML la claridad de la notacin es primordial,
mientras que CWM simplemente no atiende a esta cuestin pues el intercambio de metadatos
no es una tarea que requiera de tal caracterstica.
Como apunte final, en relacin a la complejidad de los metadatos a disear, es preferible que
se diseen mltiples paquetes de pequeo tamao que estn muy cohesionados. As, se facilita
su reutilizacin en el futuro dado que se disminuyen las dependencias entre unidades lgicas (se
disminuye el acoplamiento entre paquetes).
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 105
http://site.ebrary.com/id/10751536?ppg=105
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
98
GII.C59ID
TAGT
AESI
GCLITSC
Instructor
D es p a che
Romero
21
Peraf
20.
19411v4FTrue
IrvtIrltelOF
RocruNg
r"
011aTYPv arre ho I
HCala Tvpe.51ring
Data-rypstrinsi
Tibie
r
ph orla 2trIng
tlible
OpuIrtlia i Halen 1
COi
VAIn9 : Milrig
In todalaTypo: Zrno
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 106
http://site.ebrary.com/id/10751536?ppg=106
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Bibliografa
[21 J-N. Mazn and J. Trujillo. Data Warehousing Meets MDA: A Case Study for Multidimensional l'vlodeling. In New &ends in Data Warehousing and Data Analysis, pages 51 70.
2009.
OMG. Common warehouse metamodel (cwm), version 1.1. http: //www.omg.org/
technology/clocuments/formal/cwm .htm, March 2003.
OMG.
Unified Modeling Language (UML), version 2.1.1.
technology/documents/formal/uml.htm.February 2007.
http: //www.omg.org/
99
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 107
http://site.ebrary.com/id/10751536?ppg=107
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 108
http://site.ebrary.com/id/10751536?ppg=108
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
Este apndice tiene como objetivo el listado a modo de referencia de algunas de las principales
herramientas del mercado. Estas herramientas se han clasificado segn la parte de la arquitectura
de un almacn de datos que resuelven. Entre ellos, se resaltan en negrita las ms importantes.
Procesos ET L
Arbor Essabase, Comshaer Commander OLAP. Oracle IRI Express, SAS System.
101
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 109
http://site.ebrary.com/id/10751536?ppg=109
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
102
CA-Ingres, IBM DB2: Informix y Redbrick, Information Builder ocus, Oracle DB,
Praxis Model 204, Software AG ADABAS, Sybase MPP, Tandem, Teradata, SQL Server.
Servidores ROLAP (Relational OLAP, OLAP relacional)
Brio/Query, Business Objects, Cognos Impromptu, CA Visual Express, IBM DataGuide, Information Builders Focus Six, Microstrategy, Platinum Forest & Trees, SAS Access,
Software AG Esperant.
Anlisis multidimensional
Andyne Pablo, Albor Essbase Analisys Server, Business Objects, Cognos PowerPlay,
Dimensional Insight CrossTarget, Holistic Systems HOLOS, Information Advantage Decision
Suite, IQ Software IQ/Vision, Kenan Systems Acumate, Lotus 123, MS Excel, Microstrategy
DSS, Pilot Lightship, Platinum Forest & Trees, Prodea Beacon, SAS OLAP++.
Minera de datos
Clementine, DataMind, Information Discoverer, Magnify, Thinking Machines, IBM Intelligent Miner, SGI Mineset, Oracle Datamining.
Metadata
CA Unicenter, HP Open View, IBM Datallub, Information Builder Site Analyzer, Prism
Warehouse Manager, SAS CPE, Software AG Source Point, Tivoli.
Controladores de procesos
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 110
http://site.ebrary.com/id/10751536?ppg=110
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
ndice de acrnimos
103
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 111
http://site.ebrary.com/id/10751536?ppg=111
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
104
ndice de acrnimos
PC Personal Computer
ROLAP Relational OLAF, OLAP relacional
SGBD Sistema de gestin de bases de datos
SGBDR SGBD relacional
SQL Structured Query Language, lenguaje de consulta estructurado
TIC Tecnologas de la Informacin y Comunicacin
UML Un ed Modelling Language
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 112
http://site.ebrary.com/id/10751536?ppg=112
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
55b00d6a8d1fbaci45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
55b00d6a8d1fb8d45423b1b8d7abd7d1
ebrary
551300d6a8d1fb8d45423b1b8d7abd7d1
ebrary
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 113
http://site.ebrary.com/id/10751536?ppg=113
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.
www.ecu.fm
ECU
EDIKIRIAIGE UNIVIESIRE IQ
Trujillo, Juan Carlos. Diseo y explotacin de almacenes de datos: conceptos bsicos de modelado multidimensional.
: ECU, . p 114
http://site.ebrary.com/id/10751536?ppg=114
Copyright ECU. . All rights reserved.
May not be reproduced in any form without permission from the publisher,
except fair uses permitted under U.S. or applicable copyright law.