Sunteți pe pagina 1din 16

Tarea N°5 Gestión y Análisis de

Información

“Implementación de Cubo
En Analysis Services de SQL Server BI”

Autores: Javiera Cordero


Mirko Droguett
Lucas Espinoza
Cristian Gutiérrez
Pablo Orrego
Docente: Dra. Angélica Urrutia

Talca, Domingo 02 de agosto


Tabla de contenido

Introducción 2
Presentación de la base de datos 3
Indicador de gestión 3
Procesos ETL 4
Dimensión Tiempo 4
Dimensión Clientes 4
Dimensión producto 5
Dimensión ventas 5
Tabla de hechos 6
Indicador y modelo estrella 7
Implementar modelo estrella 9
Lectura Libro Business Intelligence 12
Conclusiones 14
Referencias 15

1
Introducción

Hoy en día las compañías interactúan con una gran cantidad de datos, toda empresa debe
tener almacenada toda su información en una base de datos para poder utilizarlas de la manera
óptima y eficiente. Sin esta funcionalidad sería imposible manejar la totalidad de los datos
disponibles de una empresa, obteniendo pérdidas de información, tiempo y dinero. El
manejar información privilegiada o de mucha importancia para la empresa de una manera
ordenada se ha vuelto indispensable en estos días, es por eso que, los nuevos avances y las
herramientas implementadas en el mejoramiento del almacén de los datos ha contribuido a
que la información sea más dinámica permitiendo que la data de una empresa ya no sea sucia,
desordenada o inconsistente, esta herramienta es denominada como Datawarehouse.
El Datawarehouse es un almacén electrónico donde una organización contiene una gran
cantidad de información, que soporta el procesamiento informático y entrega una plataforma
sólida que permite realizar análisis a partir de datos actuales o históricos. Su principal
funcionalidad es ser la base de un sistema de información, los datos de
un Datawarehouse deben almacenarse de forma segura, fiable, fácil de recuperar y de
administrar. En Business Intelligence (Bi) es muy importante contar con un almacén de datos
para tener toda la información necesaria de distintas fuentes en una única base de datos. Un
lugar donde se almacena la información que se extrae de los diversos sistemas de gestión que
registra las operaciones cotidianas de una organización. Además, se almacenan distintos tipos
de información útiles para realizar técnicas de análisis de datos y realizar análisis con
información que se desconoce o se encontraba oculta, la llamada minería de datos.
Existen distintos esquemas para estructurar los datos en un almacén de datos, como el Modelo
Estrella y Copo de Nieve, modelos dimensionales diseñados para leer, resumir, analizar
información numérica como valores, saldos entre otros en un almacén de datos. Para la
construcción del Datawarehouse se llevarán a cabo procesos ETL en la base de datos
seleccionada, algunos de ellos de limpieza, agrupación y trasformación. Se establecerá el
indicador de gestión o KPI apropiado, para luego en función de la información de la base de
datos formar un modelo estrella y posteriormente construir un cubo multidimensional con
SQL Server.

2
Presentación de la base de datos

La base de datos utilizada para realizar la implementación del cubo es extraída de un


hipermercado global, que contiene sus ventas minoristas durante 4 años.
Como sabemos, los hipermercados son grandes establecimientos comerciales que se dedican
a la venta directa de una amplia variedad de productos, desde alimentos, artículos de licorería
y perfumería, hasta ropa y bienes de consumo duradero a diferentes tipos de consumidores,
sin embargo esta empresa en particular ofrece diversos servicios a sus clientes como por
ejemplo realizar envíos de los productos adquiridos lo que trae bastantes beneficios para la
empresa y se ve reflejado en la cantidad de clientes que la prefieren a nivel mundial.
La información que contiene el set de datos de esta empresa es bastante variada lo cual
permite realizar un análisis muy profundo de ella, entregándonos algunas categorías como el
segmento de clientes, que pueden ser personas naturales o corporaciones, la región del mundo
en el cual fueron adquiridos los productos, la categoría de estos, es decir si pertenecen a la
categoría tecnología o artículos de oficina, entre muchos otros datos.

Figura 1. (Extracto de base de datos hipermercado global)

Indicador de gestión

Un indicador de gestión o KPI es de vital importancia para las empresas con el fin de evaluar,
ilustrar y medir sus objetivos a lo largo del tiempo y tener una visión del desempeño que está
teniendo la empresa según lo estipulado.
En el presente caso teniendo como base de datos hipermercado global se requiere medir la
totalidad de ventas que se obtiene en cada categoría de comercialización variando esta según
el trimestre y segmento de comprador que lo esté adquiriendo, esto con el fin de obtener
resultados según las categorías que adquieren en mayor medida ciertos segmentos como los
son clientes empresa o particulares (consumidores) y poder plantear ciertas ofertas por una
determinada categoría. Por otro lado, se quiere obtener información acerca de en qué épocas
del año se ejecuta una mayor cantidad de ventas por tecnología, mueblería y material de
oficina y que tan influyentes pueden ser fechas como navidad a la hora de vender o adquirir
productos.

3
Procesos ETL

Dimensión Tiempo

Para esta dimensión, luego de haber importado la base de datos anteriormente presentada, se
agrega un módulo aggregate, con el fin de agrupar las fechas, por mes y año, para así después
agregar una columna derivada que nos permite concatenar los datos, luego de esto se utiliza
otra columna derivada con el fin de agrupar las fechas por mes, semestre y trimestre,
permitiendo obtener datos de forma más clara y ordenada. Finalmente se realiza un orden
ascendente según su id, se envían los datos anteriormente agrupados a una nueva hoja de
Excel, llamada Dimensión tiempo. A Continuación, se muestra imagen del proceso de
creación de esta dimensión.

Figura 2. (Procesos ETL realizados para la dimensión Tiempo)

Dimensión Clientes

Los procesos empleados para la elaboración de esta dimensión es en primera instancia la


creación un asistente de orígenes, con la base de datos que se está trabajando, luego de esto,
mediante una columna derivada se procede a ordenar el ID del Cliente, realizando una
limpieza de las letras de este. El proceso continúa mediante un módulo Sort en el cual se
realiza una limpieza y orden de datos duplicados para la columna clientes, mediante
columnas derivadas se traspasan a mayúscula, se traducen los tipos de clientes que son
consumidores, empresas o trabajadores de casa para finalmente crear un asistente de destino
en una nueva hoja denominada “Dimensión Clientes”.

Figura 3. (Procesos ETL realizados para la dimensión Clientes)


4
Dimensión producto

Una vez creado el asistente de orígenes, se forma una columna derivada para limpiar el ID
de Producto con el fin de eliminar las letras de este, mediante otra columna derivada se
traspasan a mayúscula los datos y se realiza una edición de los nombres de las categorías, ya
que estas se encontraban en inglés, algunas de estas categorías son materiales de oficina,
mueblería, tecnologías entre otras, y a su vez también se realizó mediante columnas derivadas
la traducción al español de las subcategorías, tales como suministros, almacenajes, libreros,
copiadoras entre otras, para finalmente crear un asistente de destinos que enviará los datos a
una nueva hoja llamada “Dimensión Producto”.

Figura 4. (Procesos ETL realizados para la dimensión Producto)

Dimensión ventas

Para la formación de la dimensión ventas, se realizan una serie de procesos como la


conversión del ID de orden y la limpieza de este, mediante una columna derivada, se llevan
a mayúscula los datos de la columna modo de embarque, se traducen al español, también se
llevan a mayúscula y traducen, mediante columnas derivadas los datos de la orden de
propiedad, luego de esto se calculan los costos de fabricación con la diferencia entre las
ventas y las ganancias, para finalmente mediante el módulo Sort ordenar el ID de orden de
forma creciente y asignar el asistente de destino, la cual será una nueva hoja llamada
“Dimensión Venta”.

5
Figura 5. (Procesos ETL realizados para la dimensión Ventas)

Tabla de hechos

Para la creación de la tabla de hechos, se realizan una serie de operaciones con el fin de
ordenar los datos. Mediante columnas derivadas se realiza una limpieza del ID DE ORDEN,
eliminando las letras, se traspasan los datos de la columna modo embarque a mayúscula, se
realiza una traducción al español de esta, que tiene como opciones First Class, Second Class,
Standard Class, para luego traspasar a mayúscula la columna orden de prioridad, se realiza
una traducción esta, que contienen los parámetros High, Medium, Low, Critical y también
se traducen al español las opciones que tiene la columna categoría, los cuales son Furniture,
Technology, Office Supplies. Se realiza una modificación en los ID de cliente y de producto
para poder realizar la asociación a la nueva tabla, siguiendo con el proceso, se realiza la
formulación de una columna de costos de fabricación total, la cual es calculada con la
diferencia entre las ventas y las ganancias, para finalmente modificar el ID de tiempo, y
asignar un asistente de destino denominada Tabla de hechos

Figura 6. (Procesos ETL realizados para la Tabla de hechos)

6
Indicador y modelo estrella

Resulta ser modelo estrella cuando las demás dimensiones están directamente vinculadas con
la tabla de hechos. Para llevar a cabo este proceso en primera instancia debemos cargar el
origen de datos o base de datos a Visual Basic, luego generar una vista hacia ese origen de
datos con el propósito de visualizar la información conformada por las tablas de dimensión
y la tabla de hechos.
El proceso continúa con la selección de una vista para cada dimensión, la cual está
estructurada de atributos y jerarquías respectivamente.
Es necesario emplear el asistente de dimensión, como primera instancia seleccionaremos la
dimensión tiempo. Los atributos para seleccionar serán todos los pertenecientes a la tabla de
tiempo como lo es ID Tiempo como llave primaria, “Anio”, Mes, Nombre de mes, Número
del semestre y Número del Trimestre acompañado de su tipo de atributo correspondiente para
cada uno. Este proceso se repite para todas las demás dimensiones.
Una vez realizados estos procesos en el modelo entidad-relación iniciamos de forma directa
el cubo para agregar desde allí las dimensiones recientemente creadas para luego procesar el
cubo. Realizado lo anterior, podemos hacer uso del explorador, para realizar consultas más
detalladas respecto a la información que se desea obtener, sin embargo, para un análisis más
eficiente haremos uso de Excel mediante el apoyo de tablas dinámicas.
Tal como se comentó en el apartado anterior, el KPI utilizado por nuestro equipo es la
medición del total de ventas que se obtienen por categoría comercializada según el tiempo
en trimestre y tipo de segmento del comprador. El modelo estrella completo está fundado a
partir de cuatro dimensiones las cuales son dimensión Tiempo, Cliente, Ventas y Producto.
Estas cuatro dimensiones se encuentran vinculadas con la tabla de hechos la cual,
proporciona la base para el modelo estrella sustentado de todas las llaves primarias de las
demás dimensiones que llegan hacia ella.
Fotografía modelo estrella completo:

Figura 7. (Modelo estrella completo)

7
A continuación, se detallará cada dimensión con sus atributos correspondientes:
1.- Dimensión Tiempo
Atributos: Los atributos correspondientes a dimensión Tiempo resultan ser: ID Tiempo como
llave primaria que pasará a formar parte de la tabla de Hechos, seguido de Anio, Mes,
Nombre de mes, Número del semestre y Número del trimestre.
Jerarquías correspondientes a la dimensión Tiempo, estas son: Anio, Número del semestre,
Número del trimestre y Mes.

Figura 8. (Atributos y jerarquías dimensión Tiempo)

2.- Dimensión Clientes


Atributos: Los atributos correspondientes a dimensión Clientes resultan ser: ID Cliente como
llave primaria que pasará a formar parte de la tabla de hechos seguido de Ciudad, Estado,
Nombre Cliente, País y Segmento.
Jerarquías correspondientes a la dimensión Clientes, estas son: País, Estado y Ciudad

Figura 9. (Atributos y jerarquías dimensión Clientes)

3.- Dimensión Producto


Atributos: Los atributos correspondientes a dimensión Producto resultan ser: ID Producto
como llave primaria que pasará a formar parte de la tabla de hechos seguido de Categoría y
Subcategoría.
Jerarquías correspondientes a la dimensión producto, estas son: Categoría y Subcategoría.

8
Figura 10. (Atributos y jerarquías dimensión Producto)
4.- Dimensión Venta
Atributos: Los atributos correspondientes a dimensión Venta resultan ser: ID orden como
llave primaria que pasará a formar parte de la tabla de hechos seguido de Cantidad, Costo
total de fabricación, Ganancia, Modo embarque, Orden de prioridad y venta.
Jerarquías correspondientes a la dimensión venta, estas son: Venta, Ganancia y Costo total
de fabricación.

Figura 11. (Atributos y jerarquías dimensión Venta)

Implementar modelo estrella

Posterior a tener los datos cargados y con sus respectivas relaciones a la tabla de hecho
podemos implementar nuestro modelo estrella de hipermercado global partiendo de la
pestaña explorador en que nos muestra una pequeña visualización de los datos trabajados

Figura 12. (Navegación modelo estrella)

9
Posteriormente haremos clic en volver a intentar cargar el explorador y con el fin de obtener
una visión más clara y dinámica de los datos los analizaremos en un Excel vinculado al visual
Studio y Sql server mediante el uso de tablas dinámicas.
Indicador de gestión
Tal como se mencionó en el apartado Nº2 el KPI utilizado es la totalidad de ventas que se
obtiene en cada categoría comercializada según el trimestre y segmento de comprador que lo
esté adquiriendo.
Existen 3 tipos de categoría comercializada las cuales son:
1. Suministros de oficina
2. Tecnología
3. Muebles
Para segmento de comprador se establecen 3 categorías:
1. Consumidor
2. Oficina personal
3. Corporativo
Como resultado este indicador permitirá navegar por la información y otorgar resultados
integrado por tres áreas. Un ejemplo representativo es que al obtener el número de cantidad
de artículos de una categoría comercializada, podremos saber el tipo de consumidor
acompañado del trimestre en que se llevó a cabo la transacción pudiendo obtener totales
generales y totales específicos.

Figura 13. (Navegación a través de Excel mediante tablas dinámicas)

Como sabemos, las tablas dinámicas son una herramienta de mucha utilidad desde la
plataforma de Excel para obtener mayor claridad, visualización y análisis de las distintas
variables que consideremos pertinentes. para nuestro caso en particular tenemos como
indicador de gestión el total de ventas dentro de cierta categoría y segmento de clientes que
la adquieren en un tiempo determinado que serían trimestres del año.

10
Figura 13. Suma de ventas por segmento y categoria en tiempo total

En esta primera gráfica podemos observar en su totalidad los datos de categoría por el
segmento correspondiente en el total de trimestres analizados visualizando una clara
supremacía en la categoría de tecnología como la más adquirida por los clientes,
específicamente por el tiempo de cliente etiquetados como consumidores en que disponen de
un gran mercado compuesto por computadores, celulares, parlantes, accesorios de celulares,
etc.

Figura 14. Suma de ventas por segmento y categoría en el ultimo trimestre


En este cuarto trimestre correspondiente a las fechas de término de año (teniendo como fecha
clave la navidad) podemos apreciar un total de ventas con una clara tendencia a lo tecnológico
y nula compra de materiales de oficina debido a las posibles evaluaciones que tienen las
empresas en general en cuanto al conteo y revisión de materiales que necesiten de renovación
para el año siguiente

11
Lectura Libro Business Intelligence

Es una manera de estructurar y organizar los datos para que se puedan utilizar fácilmente por
las bases de datos. Muestra la estructura lógica de la base de datos, como las relaciones y
limitaciones que determinan cómo se almacena y se accede a la información. El modelado
de datos se utiliza comúnmente junto a algún sistema de gestión de base de datos. Ya que, de
esta forma, los datos que se han modelado y preparado para este sistema sea posible
identificarlos de diversas formas, según lo que están representando o la relación entre ellos.
Se pretende dejar la información lo más limpia posible para que el análisis y la integración
de datos se pueda realizar con el menor esfuerzo. Existen distintos tipos de modelos de base
de datos, a continuación, analizaremos tres de ellas.

1. Modelo entidad relación (ER): Es una representación de la estructura de la base de


datos. Nos muestra las tablas de la base de datos y las relaciones entre ellas. El modelo
de entidad relación tiene tres elementos principales:
● Entidades: Las personas, lugares y cosas acerca de las cuales se almacenan
puntos de datos se les denomina entidades, cada una de las cuales tienen
ciertos atributos el modelo contará con una entidad por cada componente del
proceso de negocio. Por ejemplo, un negocio de ventas puede tener
identidades como “Cliente”, “Dirección”, “Factura”, “Producto” entre otras.
● Atributos: Permiten describir las propiedades que tiene cada entidad. Por
ejemplo “Nombre”, Primer Apellido”, “Segundo Apellido”, “Fecha de
nacimiento”, entre otros.
● Relaciones: Con ellas se establecen vínculos entre parejas de entidades. Por
ejemplo, cada “Cliente” tendrá una “Dirección” y podrá estar suscrito a algún
“Producto”.

La cardinalidad o relaciones entre entidades también se representan en diagramas. Cada


tabla posee una clave primaria (PK) formada por uno o más atributos y las tablas se
relacionan entre ellas mediante claves externas (FK) que actúan como claves primarias
en sus propias tablas.
Claves primarias: Identifica de forma única cada fila. Toda tabla debe tener una clave
principal.
Claves externas: Apuntan hacia las claves primarias.

2. Modelo estrella: Es un modelo con un solo objeto en el medio conectado con varios
objetos de manera radial. Este tipo de modelo consta principalmente dedos elementos,
en el centro de la estrella se encuentra la tabla de hechos y conectados a ellas las
tablas de dimensiones. Para construirlo se debe distinguir cual debe ser la “Tabla de
hechos” lo que queremos medir o analizar, son el objeto de los análisis y están
relacionadas con las dimensiones, son tablas muy grandes y suelen estar
desnormalizadas y las “Tablas de dimensiones” cómo lo queremos medir, son
pequeñas y usualmente están desnormalizadas (Ej.: producto, tiempo, ventas). Los
hechos contienen los datos de estudio y las dimensiones los metadatos sobre sobre

12
dichos hechos. Las tablas de dimensiones nos permiten agrupar los hechos en función
de los valores de la dimensión.

Características Modelo estrella:


● La tabla de hechos contiene los datos sin redundancias.
● Sólo hay relaciones entre la tabla de hechos y las de dimensiones.
● Existe una sola tabla por dimensión.
● La tabla de hechos tiene un atributo columna que forma la clave de cada
dimensión.
● Cada tabla de dimensión es una tabla simple desnormalizada.

3. Esquema copo de nieve: Este modelo es una variación o derivación del modelo
estrella. En el esquema copo de nieve la tabla de hechos deja de ser la única
relacionada con otras tablas ya que en este modelo existen relaciones entre las tablas
de dimensiones, estas están totalmente normalizadas, lo que reduce el espacio que
ocupan. La ventaja principal de este modelo es que ocupa un menor espacio de
almacenamiento, facilita el mantenimiento de las dimensiones, sin embargo, provoca
que se vinculen más tablas a las secuencias SQL, por ende, la extracción se datos se
hace más difícil junto con la mantención del modelo. Si la información requiere
diversos niveles de granularidad, es decir, diferencia del nivel de detalle en el análisis,
se crean jerarquías con las dimensiones, permitiendo pasar del máximo detalle a la
agregación en los distintos niveles. Un ejemplo de jerarquía “Fecha” podría ser día,
semana, mes, trimestre, año.

A continuación, se presentará un cuadro con la información antes mencionada de


manera más precisa.

Modelo Entidad Relación


Es una representación de la estructura de la base de datos. Nos
muestra las tablas de la base de datos y las relaciones entre ellas. Las
tablas contienen distintos atributos o campos.

Modelo Estrella
Para construirlo se debe distinguir cual debe ser la “tablas de
hechos” lo que queremos medir o analizar y las “ tablas de
dimensiones” cómo lo queremos medir (Ej: según producto, tiempo,
clientes). las tablas de dimensiones se encuentran desnormalizadas.

Esquema Copo de Nieve


En este modelo existen relaciones entre las tablas de dimensiones,
a diferencia del modelo estrella. Además estas están totalmente
normalizadas, lo que reduce el espacio que ocupan.

En la creación de un Datawarehouse podemos utilizar distintos modelos dimensionales como


los anteriormente mencionados. El modelo estrella resulta ser el más sencillo y quizás el más
utilizado ya que cuenta con una estructura más simple y hace que la extracción de datos sea
más rápida. En el presente trabajo se utilizó este modelo.

13
Conclusiones

Un Datawarehouse es una herramienta que se utiliza en la mayoría de las empresas hoy en


día, especialmente en aquellas que manejan grandes cantidades de información, una solución
que permite mantener esos datos disponibles y de una forma ordenada para cualquier
aplicación que consulte la base de datos del almacén de datos así como cualquier personal de
la compañía. Implementar un Datawarehouse implica mejorar la calidad en las bases de datos
existentes e adherirse a esta nueva estructura de manejo de información.
El modelado multidimensional resulta ser una técnica de diseño de bases de datos que
responde a las necesidades analíticas de la tecnología Data Warehousing. Una manera de
desarrollar un diseño que refleje la visión del usuario, una disposición sencilla de la
información que permite analizarla eficientemente.
En la construcción del Datawarehouse resulta fundamental realizar correctamente el
modelado de los datos, desde definir cuál debía ser el modelo de negocio para el que se están
preparando los datos que se analizarán. Para luego determinar “los hechos” qué queremos
medir y “las dimensiones de análisis” cómo los queremos analizar (¿qué?, ¿quién?, ¿por
qué?, ¿dónde? y ¿cuándo?). Si se desea obtener distintos niveles de agregación se utilizarán
las jerarquías que nos permitirán agregar la información a distintos niveles como familias,
subfamilia o producto. Generalmente es mejor construir el modelo de datos con el máximo
nivel de detalle dependiendo de la información que queramos responder con él, si los
registros que se cargan en el almacén de datos lo permiten.
Gracias a la construcción del cubo OLAP con SQL Server se obtuvo una herramienta que es
de fácil acceso y que permite realizar análisis de datos con variadas aplicaciones y de fácil
uso para el usuario como lo es el trabajar con Microsoft Excel.

14
Referencias
Cano,J.L,(2007).Business Intelligence. Competir con información, Madrir, España: Banesto
Fundación Cultural.

15

S-ar putea să vă placă și