Sunteți pe pagina 1din 37

Clase 2: Arquitectura general

de Soluciones BI

Lic. Brenda López


blopez@tianconsultores.com
Arquitectura de soluciones BI
Las soluciones de Business Intelligence se construyen sobre una
arquitectura general básica que comprende los siguientes
componentes/capas:

2
Datos fuente
La primera capa considera todas las fuentes de datos
relevantes para el BI a implementar.

Las fuentes de datos pueden tener variado origen:


 Datos operacionales procedentes de bases de datos corporativas
 Generalmente procedentes de ambientes transaccionales OLTP.
 Datos generados por sistemas de información
 Datos privados
 Datos externos (Internet, BD Comerciales, de clientes,
información económica, etc.)

3
Datos fuente
Estas pueden encontrase en diversos medios y formatos:

Finanzas

Hojas de Cálculo
Inventario y Archivos planos

Ventas

RRHH

4
Capa de integración de datos
Esta capa es la encargada de la integración de los datos desde
las múltiples fuentes existentes para la construcción del Data
Warehouse y los Data Marts de la base analítica. Se utilizan
rutinas para Extracción, Transformación y Carga (ETL).
 Las rutinas ETL tienen la función de manipular los datos de las
distintas fuentes de datos a fin de integrarlos todos al Datawarehouse
según formatos y estructuras que requieren.
 Integración de fuentes heterogéneas
 Limpia los datos removiendo problemas transaccionales y
asegurando consistencia en los datos.

5
Capa de integración de datos
Para construir las rutinas de integración de esta capa, es
necesario conocer:
 La estructura del Datawarehouse y/o Datamart a poblar.
 La naturaleza de los datos fuentes:
• Estructura: (Columnas, rango de valores, tipos de datos)
• Dependencias: (relaciones entre las fuentes, claves primarias,
claves foráneas, elementos asociados)
• Redundancia: Identificar datos que se solapan, repetición de
datos, columnas con distintos nombres que tienen los mismos
valores o columnas con nombres similares que contienen
distintos valores.
• Datos: Identificar los datos claves para poblar el DWH/DM.

6
Capa de integración de datos
Los procesos de ETL consideran:

1. Extract: Extracción de los datos de las fuentes de datos

 Se considera la consolidación de los datos desde las diversas


fuentes que usan diferentes estructuras y formatos.
 Establece el acceso a las fuentes de datos.
 Extrae eficientemente cada una de las fuentes de datos, con el
mejor procesamiento posible, buscando solo los datos requeridos
 Se pueden almacenar datos temporalmente en un área
especializada para su transformación e integración con otras
fuentes.

7
Capa de integración de datos
Los procesos de ETL consideran:

2. Transform: Transformaciones de los datos extraídos

 La fase de transformación aplica una serie de reglas o


funciones a los datos extraídos desde la fuente para generar
los datos a cargar al destino final (el Data Warehouse o Data
Marts).

 Algunos datos requerirán muy poca o ninguna manipulación.


En otros casos, se requerirá una serie de pasos de
transformación para satisfacer las necesidades técnicas y del
negocio de la base analítica.

8
Capa de integración de datos
2. Transform: Algunos ejemplos de transformaciones
 Selección de columnas
 Generar nuevos valores calculados
(monto_venta*cantidad*precio_unitario)
 Codificar valores de formato libre para que correspondan al
formato destino.
 Filtrar
 Ordenar
 Unir datos de múltiples fuentes
 Agregación de los datos
 Generación de claves sustitutas
 Trasponer o pivotear
 Seperar columnas (por ejemplo fecha y horas)
 Validaciones de datos
…
9
Capa de integración de datos
Los procesos de ETL consideran:
2. Load: Carga de los datos a la base analítica (Data Marts /
Datawarehouse/Staging Area (ODS))

10
Capa de integración de datos
Los procesos de ETL se pueden implementar con:
1. Herramientas de integración de datos:
 Pentaho Data Integrator (Kettle)
 Oracle Warehouse Buider (OWB)
 Data Integrator (SAP Business Object)
 Oracle Data Integrator (ODI)
 Microsoft Integration Services
 SaS Dataflux
 BITool
 Entre otros

2. Lenguajes de datos
(SQL, PLSQL, Transact SQL)
3. Otros Lenguajes
(Java, VB.net, C#, C++, etc.) 11
Capa analítica
La base analítica es el núcleo del sistema. Puede
contener diversos componentes:

Área de integración Almacén de Datos/Bodegas


de Datos

12
Capa analítica
Área intermedia o de integración de datos
(Staging área)

Es un área intermedia de almacenamiento de datos utilizada para el


procesamiento de los mismos durante procesos de extracción,
transformación y carga (ETL).
Esta área se encuentra entre la fuente de los datos y su destino, que a
menudo son almacenes de datos, data marts u otros repositorios de
datos.
 Generalmente de naturaleza transitoria
 Contenido se borrará antes de ejecutar un proceso de ETL o
inmediatamente después de haberlo finalizado con éxito.
 Existen arquitecturas con áreas intermedias de datos permanentes
con la finalidad de mantener un archivo de los mismos o para poder
resolver problemas detectados a posteriori.
13
Capa analítica
Almacén de datos
“Una colección de datos orientados a temáticas, integrados, no
volátiles y variantes en el tiempo que apoyan a las decisiones de la
gerencia” Bill Imon.

Integrado Temático Los datos se


Integra distintas
fuentes de datos estructuran por
aspectos de interés
para la organización
Data
Insert
Warehouse
Datos que no Update Snapshots que
se actualizan Delete representan
o eliminan períodos de
No volátil Histórico tiempo

14
Capa analítica
Bodegas de Datos (Datamart):
“Se refiere a una vista del Datawarehouse orientada solo a un
aspecto de la organización. Contiene mucha menos cantidad de
datos que el datawarehouse y es el objeto de procesamiento
analíticos por parte del usuario final” [Oracle98].

Es un pequeño almacén de datos, diseñado para una unidad de


negocio.

Se centra en un tema concreto.


Muchos almacenes de datos comienzan
siendo datamart (para minimizar riesgos) y
se va ampliando su ámbito.

15
Capa analítica
Existen dos corrientes respecto de los Data Warehouse
1990
Inmon publica “Building the Data Warehouse”.
1996
Kimball publica “The Data Warehouse Toolkit”.
2002
Inmon:
• La arquitectura como una colección de fuentes diversas.
• El almacén de datos orientado a temas, variante en el tiempo, no
volátil e integrado.
• Enfoque top down.
Kimball:
• Múltiples bases de datos llamadas data marts que son organizadas
por procesos de negocio.
• Enfoque bottom-up.
16
Capa analítica
Kimball

 Kimball, en 1997, declaró que:

 "... el almacén de datos no es más que la unión de todos


los datamarts ",

 Kimball presenta un método de almacenamiento de datos


bottom up en el que los datamarts individuales ofrecen
vistas finas de los datos de la organización que podría ser
combinados en una almacén de datos.

17
Capa analítica
Inmon

 Inmon respondió en 1998 al decir:

 "Se puede coger todos los peces pequeños en el océano


y apilarlos juntos y todavía no hacen una ballena “

 Refleja el punto de vista opuesto es decir: que el almacén


de datos debe ser diseñado desde arriba hacia abajo
(top down) para incluir todos los datos corporativos.

 En este método, los datamarts son creados sólo después


que la data completa del almacén se ha creado.

18
Método Descendente (Top Down)

Immon defiende una metodología descendente (Top down), así se


considerarán mejor todos los datos corporativos. En esta metodología
los Data Marts se crearán después de haber creado el Data Warehouse
corporativo.

19
Arquitectura Datawarehouse segun Inmon

20
Método Ascendente (Buttom Up)

Kimball, defiende que un datawarehouse no es mas que la unión de


todos los Data Marts de una entidad. Kimball presenta un método de
almacenamiento de datos bottom up en el que los datamarts
individuales ofrecen vistas finas de los datos de la organización que
podría ser combinados en una almacén de datos.

21
Arquitectura Datawarehouse según Kimball

22
Métodos de Diseño de un DW

El proceso de desarrollo de un DW es diferente al desarrollo de


sistemas operacionales clásicos.

Las metodologías más conocidas son las propuestas por Ralph


Kimball y Bill Inmon.

23
Estructura de la Metodología Kimball

24
Capa de Visualización y explotación de
datos
 Visualización: esta capa es la encargada de desplegar los análisis
sobre los cubos mediante sus diversos cortes de información, cruces
y filtros.

 También despliega los reportes estáticos, ad hoc, tableros de control


(dashboards), etc.

 Esta capa tiene diversos medios por los que desplegar información:
 Pantallas
 Portales web
 Archivos (Excel, pdf,
 powerpoint)
 Correo electrónico

25
Capa de visualización y explotación de
datos
De acuerdo con su nivel de complejidad, se pueden clasificar las
soluciones BI en:

 Consultas e informes simples

 Reportes Ad-hoc / a la medida

 Cubos OLAP

 Tableros de control (Cuadros de mando)

 Data Mining (minería de datos)

26
Capa de Visualización y explotación de
datos
Consultas e informes simples:

Corresponden a los reportes operacionales y


listados que generalmente son estáticos y
muestran datos detallados y actualizados.

Pueden incluir gráficos y cuadros

Pueden ser generados de manera automática o


pueden ser elaborados cada vez que
se requieran

Apoyan en los procesos de negocio y


excepciones.
Capa de visualización y explotación de
datos
Reportes a la medida (Ad-hoc):

Son soluciones que permiten a los usuarios finales crear reportes


específicos, a través de una interfaz grafica amigable sin la necesidad de
conocer SQL ni conocer la estructura subyacente del DWH.

• Trabajan sobre un esquema de metadatos predefinido.


• Permiten generar consultas sobre un modelo de negocio con objetos de
información controlados.
• Tienen flexibilidad para resolver consultas no predefinidas.
• Tienen la desventaja de entregarle al usuario final el poder de consultar
cosas que no tienen sentido o utilidad.
Capa de Visualización y explotación de
datos

29
Herramientas de explotación
Capa de Visualización y explotación de
datos
Capa de Visualización y explotación de
datos

32
Capa de Visualización y explotación de
datos

33
Capa de Visualización y explotación de
datos

34
Capa de Visualización y explotación de
datos

35
Capa de Visualización y explotación de
datos

36
Gracias por su Atención

SOLUCIONES DE INTELIGENCIA DE
NEGOCIO PARA EL APOYO A LA
TOMA DE DECISIONES
Prof. Brenda López

S-ar putea să vă placă și