Documente Academic
Documente Profesional
Documente Cultură
Información
“Implementación de Cubo
En Analysis Services de SQL Server BI”
Introducción 2
Presentación de la base de datos 3
Indicador de gestión 3
Procesos ETL 4
Dimensión Tiempo 4
Dimensión Clientes 4
Dimensión producto 5
Dimensión ventas 5
Tabla de hechos 6
Indicador y modelo estrella 7
Implementar modelo estrella 9
Lectura Libro Business Intelligence 12
Conclusiones 14
Referencias 15
1
Introducción
Hoy en día las compañías interactúan con una gran cantidad de datos, toda empresa debe
tener almacenada toda su información en una base de datos para poder utilizarlas de la manera
óptima y eficiente. Sin esta funcionalidad sería imposible manejar la totalidad de los datos
disponibles de una empresa, obteniendo pérdidas de información, tiempo y dinero. El
manejar información privilegiada o de mucha importancia para la empresa de una manera
ordenada se ha vuelto indispensable en estos días, es por eso que, los nuevos avances y las
herramientas implementadas en el mejoramiento del almacén de los datos ha contribuido a
que la información sea más dinámica permitiendo que la data de una empresa ya no sea sucia,
desordenada o inconsistente, esta herramienta es denominada como Datawarehouse.
El Datawarehouse es un almacén electrónico donde una organización contiene una gran
cantidad de información, que soporta el procesamiento informático y entrega una plataforma
sólida que permite realizar análisis a partir de datos actuales o históricos. Su principal
funcionalidad es ser la base de un sistema de información, los datos de
un Datawarehouse deben almacenarse de forma segura, fiable, fácil de recuperar y de
administrar. En Business Intelligence (Bi) es muy importante contar con un almacén de datos
para tener toda la información necesaria de distintas fuentes en una única base de datos. Un
lugar donde se almacena la información que se extrae de los diversos sistemas de gestión que
registra las operaciones cotidianas de una organización. Además, se almacenan distintos tipos
de información útiles para realizar técnicas de análisis de datos y realizar análisis con
información que se desconoce o se encontraba oculta, la llamada minería de datos.
Existen distintos esquemas para estructurar los datos en un almacén de datos, como el Modelo
Estrella y Copo de Nieve, modelos dimensionales diseñados para leer, resumir, analizar
información numérica como valores, saldos entre otros en un almacén de datos. Para la
construcción del Datawarehouse se llevarán a cabo procesos ETL en la base de datos
seleccionada, algunos de ellos de limpieza, agrupación y trasformación. Se establecerá el
indicador de gestión o KPI apropiado, para luego en función de la información de la base de
datos formar un modelo estrella y posteriormente construir un cubo multidimensional con
SQL Server.
2
Presentación de la base de datos
Indicador de gestión
Un indicador de gestión o KPI es de vital importancia para las empresas con el fin de evaluar,
ilustrar y medir sus objetivos a lo largo del tiempo y tener una visión del desempeño que está
teniendo la empresa según lo estipulado.
En el presente caso teniendo como base de datos hipermercado global se requiere medir la
totalidad de ventas que se obtiene en cada categoría de comercialización variando esta según
el trimestre y segmento de comprador que lo esté adquiriendo, esto con el fin de obtener
resultados según las categorías que adquieren en mayor medida ciertos segmentos como los
son clientes empresa o particulares (consumidores) y poder plantear ciertas ofertas por una
determinada categoría. Por otro lado, se quiere obtener información acerca de en qué épocas
del año se ejecuta una mayor cantidad de ventas por tecnología, mueblería y material de
oficina y que tan influyentes pueden ser fechas como navidad a la hora de vender o adquirir
productos.
3
Procesos ETL
Dimensión Tiempo
Para esta dimensión, luego de haber importado la base de datos anteriormente presentada, se
agrega un módulo aggregate, con el fin de agrupar las fechas, por mes y año, para así después
agregar una columna derivada que nos permite concatenar los datos, luego de esto se utiliza
otra columna derivada con el fin de agrupar las fechas por mes, semestre y trimestre,
permitiendo obtener datos de forma más clara y ordenada. Finalmente se realiza un orden
ascendente según su id, se envían los datos anteriormente agrupados a una nueva hoja de
Excel, llamada Dimensión tiempo. A Continuación, se muestra imagen del proceso de
creación de esta dimensión.
Dimensión Clientes
Una vez creado el asistente de orígenes, se forma una columna derivada para limpiar el ID
de Producto con el fin de eliminar las letras de este, mediante otra columna derivada se
traspasan a mayúscula los datos y se realiza una edición de los nombres de las categorías, ya
que estas se encontraban en inglés, algunas de estas categorías son materiales de oficina,
mueblería, tecnologías entre otras, y a su vez también se realizó mediante columnas derivadas
la traducción al español de las subcategorías, tales como suministros, almacenajes, libreros,
copiadoras entre otras, para finalmente crear un asistente de destinos que enviará los datos a
una nueva hoja llamada “Dimensión Producto”.
Dimensión ventas
5
Figura 5. (Procesos ETL realizados para la dimensión Ventas)
Tabla de hechos
Para la creación de la tabla de hechos, se realizan una serie de operaciones con el fin de
ordenar los datos. Mediante columnas derivadas se realiza una limpieza del ID DE ORDEN,
eliminando las letras, se traspasan los datos de la columna modo embarque a mayúscula, se
realiza una traducción al español de esta, que tiene como opciones First Class, Second Class,
Standard Class, para luego traspasar a mayúscula la columna orden de prioridad, se realiza
una traducción esta, que contienen los parámetros High, Medium, Low, Critical y también
se traducen al español las opciones que tiene la columna categoría, los cuales son Furniture,
Technology, Office Supplies. Se realiza una modificación en los ID de cliente y de producto
para poder realizar la asociación a la nueva tabla, siguiendo con el proceso, se realiza la
formulación de una columna de costos de fabricación total, la cual es calculada con la
diferencia entre las ventas y las ganancias, para finalmente modificar el ID de tiempo, y
asignar un asistente de destino denominada Tabla de hechos
6
Indicador y modelo estrella
Resulta ser modelo estrella cuando las demás dimensiones están directamente vinculadas con
la tabla de hechos. Para llevar a cabo este proceso en primera instancia debemos cargar el
origen de datos o base de datos a Visual Basic, luego generar una vista hacia ese origen de
datos con el propósito de visualizar la información conformada por las tablas de dimensión
y la tabla de hechos.
El proceso continúa con la selección de una vista para cada dimensión, la cual está
estructurada de atributos y jerarquías respectivamente.
Es necesario emplear el asistente de dimensión, como primera instancia seleccionaremos la
dimensión tiempo. Los atributos para seleccionar serán todos los pertenecientes a la tabla de
tiempo como lo es ID Tiempo como llave primaria, “Anio”, Mes, Nombre de mes, Número
del semestre y Número del Trimestre acompañado de su tipo de atributo correspondiente para
cada uno. Este proceso se repite para todas las demás dimensiones.
Una vez realizados estos procesos en el modelo entidad-relación iniciamos de forma directa
el cubo para agregar desde allí las dimensiones recientemente creadas para luego procesar el
cubo. Realizado lo anterior, podemos hacer uso del explorador, para realizar consultas más
detalladas respecto a la información que se desea obtener, sin embargo, para un análisis más
eficiente haremos uso de Excel mediante el apoyo de tablas dinámicas.
Tal como se comentó en el apartado anterior, el KPI utilizado por nuestro equipo es la
medición del total de ventas que se obtienen por categoría comercializada según el tiempo
en trimestre y tipo de segmento del comprador. El modelo estrella completo está fundado a
partir de cuatro dimensiones las cuales son dimensión Tiempo, Cliente, Ventas y Producto.
Estas cuatro dimensiones se encuentran vinculadas con la tabla de hechos la cual,
proporciona la base para el modelo estrella sustentado de todas las llaves primarias de las
demás dimensiones que llegan hacia ella.
Fotografía modelo estrella completo:
7
A continuación, se detallará cada dimensión con sus atributos correspondientes:
1.- Dimensión Tiempo
Atributos: Los atributos correspondientes a dimensión Tiempo resultan ser: ID Tiempo como
llave primaria que pasará a formar parte de la tabla de Hechos, seguido de Anio, Mes,
Nombre de mes, Número del semestre y Número del trimestre.
Jerarquías correspondientes a la dimensión Tiempo, estas son: Anio, Número del semestre,
Número del trimestre y Mes.
8
Figura 10. (Atributos y jerarquías dimensión Producto)
4.- Dimensión Venta
Atributos: Los atributos correspondientes a dimensión Venta resultan ser: ID orden como
llave primaria que pasará a formar parte de la tabla de hechos seguido de Cantidad, Costo
total de fabricación, Ganancia, Modo embarque, Orden de prioridad y venta.
Jerarquías correspondientes a la dimensión venta, estas son: Venta, Ganancia y Costo total
de fabricación.
Posterior a tener los datos cargados y con sus respectivas relaciones a la tabla de hecho
podemos implementar nuestro modelo estrella de hipermercado global partiendo de la
pestaña explorador en que nos muestra una pequeña visualización de los datos trabajados
9
Posteriormente haremos clic en volver a intentar cargar el explorador y con el fin de obtener
una visión más clara y dinámica de los datos los analizaremos en un Excel vinculado al visual
Studio y Sql server mediante el uso de tablas dinámicas.
Indicador de gestión
Tal como se mencionó en el apartado Nº2 el KPI utilizado es la totalidad de ventas que se
obtiene en cada categoría comercializada según el trimestre y segmento de comprador que lo
esté adquiriendo.
Existen 3 tipos de categoría comercializada las cuales son:
1. Suministros de oficina
2. Tecnología
3. Muebles
Para segmento de comprador se establecen 3 categorías:
1. Consumidor
2. Oficina personal
3. Corporativo
Como resultado este indicador permitirá navegar por la información y otorgar resultados
integrado por tres áreas. Un ejemplo representativo es que al obtener el número de cantidad
de artículos de una categoría comercializada, podremos saber el tipo de consumidor
acompañado del trimestre en que se llevó a cabo la transacción pudiendo obtener totales
generales y totales específicos.
Como sabemos, las tablas dinámicas son una herramienta de mucha utilidad desde la
plataforma de Excel para obtener mayor claridad, visualización y análisis de las distintas
variables que consideremos pertinentes. para nuestro caso en particular tenemos como
indicador de gestión el total de ventas dentro de cierta categoría y segmento de clientes que
la adquieren en un tiempo determinado que serían trimestres del año.
10
Figura 13. Suma de ventas por segmento y categoria en tiempo total
En esta primera gráfica podemos observar en su totalidad los datos de categoría por el
segmento correspondiente en el total de trimestres analizados visualizando una clara
supremacía en la categoría de tecnología como la más adquirida por los clientes,
específicamente por el tiempo de cliente etiquetados como consumidores en que disponen de
un gran mercado compuesto por computadores, celulares, parlantes, accesorios de celulares,
etc.
11
Lectura Libro Business Intelligence
Es una manera de estructurar y organizar los datos para que se puedan utilizar fácilmente por
las bases de datos. Muestra la estructura lógica de la base de datos, como las relaciones y
limitaciones que determinan cómo se almacena y se accede a la información. El modelado
de datos se utiliza comúnmente junto a algún sistema de gestión de base de datos. Ya que, de
esta forma, los datos que se han modelado y preparado para este sistema sea posible
identificarlos de diversas formas, según lo que están representando o la relación entre ellos.
Se pretende dejar la información lo más limpia posible para que el análisis y la integración
de datos se pueda realizar con el menor esfuerzo. Existen distintos tipos de modelos de base
de datos, a continuación, analizaremos tres de ellas.
2. Modelo estrella: Es un modelo con un solo objeto en el medio conectado con varios
objetos de manera radial. Este tipo de modelo consta principalmente dedos elementos,
en el centro de la estrella se encuentra la tabla de hechos y conectados a ellas las
tablas de dimensiones. Para construirlo se debe distinguir cual debe ser la “Tabla de
hechos” lo que queremos medir o analizar, son el objeto de los análisis y están
relacionadas con las dimensiones, son tablas muy grandes y suelen estar
desnormalizadas y las “Tablas de dimensiones” cómo lo queremos medir, son
pequeñas y usualmente están desnormalizadas (Ej.: producto, tiempo, ventas). Los
hechos contienen los datos de estudio y las dimensiones los metadatos sobre sobre
12
dichos hechos. Las tablas de dimensiones nos permiten agrupar los hechos en función
de los valores de la dimensión.
3. Esquema copo de nieve: Este modelo es una variación o derivación del modelo
estrella. En el esquema copo de nieve la tabla de hechos deja de ser la única
relacionada con otras tablas ya que en este modelo existen relaciones entre las tablas
de dimensiones, estas están totalmente normalizadas, lo que reduce el espacio que
ocupan. La ventaja principal de este modelo es que ocupa un menor espacio de
almacenamiento, facilita el mantenimiento de las dimensiones, sin embargo, provoca
que se vinculen más tablas a las secuencias SQL, por ende, la extracción se datos se
hace más difícil junto con la mantención del modelo. Si la información requiere
diversos niveles de granularidad, es decir, diferencia del nivel de detalle en el análisis,
se crean jerarquías con las dimensiones, permitiendo pasar del máximo detalle a la
agregación en los distintos niveles. Un ejemplo de jerarquía “Fecha” podría ser día,
semana, mes, trimestre, año.
Modelo Estrella
Para construirlo se debe distinguir cual debe ser la “tablas de
hechos” lo que queremos medir o analizar y las “ tablas de
dimensiones” cómo lo queremos medir (Ej: según producto, tiempo,
clientes). las tablas de dimensiones se encuentran desnormalizadas.
13
Conclusiones
14
Referencias
Cano,J.L,(2007).Business Intelligence. Competir con información, Madrir, España: Banesto
Fundación Cultural.
15