Sunteți pe pagina 1din 33

ALMACN DE DATOS

DATA WAREHOUSE
DATA WAREHOUSE
Las empresas de todo el mundo constantemente
adquieren datos para inteligencias de negocios y
presentacin de informes.

Un Almacn de datos o Data Warehouse ayuda a


cualquier negocio a adquirir datos, mientras que al
mismo tiempo aseguran de que los procesos normales
del da a da se cumplan.
DATA WAREHOUSE
Que es?
Es un sistema de base de datos centralizado a escala
empresarial especficamente diseado para recopilar,
almacenar e integrar datos de mltiples sistemas
operativos y ponerlo a disposicin para realizar reportes
y apoyo a las decisiones de negocios.

Los datos se recogen a partir de una gran variedad de


fuentes relevantes para el negocio, tales como datos de
clientes, datos de la competencia y los datos de las
transacciones.
DATA WAREHOUSE
Como es?
DATA WAREHOUSE

Las dos definiciones mas importantes y completas de Data Warehouse


fueron propuestas por Bill Inmon y Ralph Kimball, co-fundadores de
almacenamiento de datos.

Segn Bill Inmon, un Data Warehouse es una coleccin de datos


orientada a temas, integrada, no voltil y variable en el tiempo
para ayudar en las decisiones de gestin.

Ralph Kimball dio una definicin mucho mas simple. Afirmo que
es una copia de los datos de transacciones estructuradas
especficamente para la consulta y anlisis.
DATA WAREHOUSE
Bill Inmon Top-down Ralph Kimball Bottom-up
DATA WAREHOUSE
Arquitectura
DATA WAREHOUSE
PROCESAMIENTO DE TRANSACCIONES EN LINEA (OLTP)
Es una clase de sistemas que facilitan y administran aplicaciones orientadas a
transacciones, por lo general para la entrada de datos y procesamiento de
recuperacin de transacciones. Los Data Warehouse son compatibles con el
sistema OLTP, proporcionando no solo un lugar para la descarga de datos OLTP a
medida que se acumulan, sino tambin los servicios que de otro modo se
degradaran si se llevaran a cabo en su base de datos

PROCESAMIENTO ANALITICO EN LINEA (OLAP)


Es una estructura de datos utilizada para analizar la informacin de la base de
datos de los sistemas de bases de datos mltiples a la vez. Los trminos Data
Warehouse y OLAP son utilizados indistintamente, a veces, aplicado a diferentes
componentes del sistema a menudo llamados como Business Intelligence (BI). Los
componentes de estos sistemas incluyen bases de datos y aplicaciones que
proporcionan las herramientas analticas que sirven para apoyar la toma de
decisiones en las organizaciones. La tecnologa OLAP permite que los Data
Warehouse sean efectivas a la hora de hacer anlisis en lnea, proporcionando
rpidas respuestas a consultas analticas complejas.
DATA WAREHOUSE
DATA WAREHOUSE
Arquitectura
DATA WAREHOUSE
Fuentes de datos

FUENTES DE DATOS DISPARES (HETEROGENEOS):


Como resultado de este formato de datos pobre, puede haber
mltiples apariciones de los mismos datos, lo que conduce a la
redundancia de datos. Para superar este problema, el ETL es muy til,
ya que refina los datos heterogneos mediante la integracin de los
datos en un lugar de trabajo antes de cargarlos en el data Warehouse.

FUENTE DE DATOS INTERNA:


Es una coleccin de datos de usuarios individuales que se encuentran
dentro de la organizacin. Los datos internos aumentan la
complejidad de la transformacin e integracin de datos ya que se
obtiene de diversas fuentes, tales como hojas de calculo y
documentos de texto.
DATA WAREHOUSE
Fuentes de datos
FUENTE DE DATOS EXTERNA:
Es una fuente de datos utilizando los datos recogidos de fuentes
externas, como las estadsticas actuales de la industria y cuotas de
mercado de los competidores. Los datos externos ayudan a una
organizacin a detectar las tendencias actuales de la industria y
comparar el rendimiento con respecto a sus competidores. Estos
no se ajustan necesariamente a los formatos de la organizacin
por lo que tiene que ser convertido a formatos apropiados.

METADATOS:
Son datos que definen el Data Warehouse. Incluyen informacin
sobre el contenido del Data Warehouse, los procesos que tienen
lugar en la parte de atrs, fuentes de datos, el almacenamiento y
la seguridad y la autenticacin.
DATA WAREHOUSE
ETL
Extraccin de datos: Es lo primero que hace una herramienta ETL. Se trata
de obtener la informacin de las distintas fuentes de origen, tanto internas
como externas. Durante la extraccin, se identifica los datos deseados y se
extrae de muchas fuentes diferentes, incluyendo los sistemas de bases de
datos y aplicaciones. Despus de la extraccin de datos, tienen que ser
transportados fsicamente al sistema de destino o a un sistema intermedio
para su posterior procesamiento y/o transformacin.

Transformacin: es el filtrado, limpieza, depuracin, homogeneizacin y


agrupacin de la informacin. Incluye la agrupacin de los datos de las
diferentes fuentes. La transformacin se produce mediante el uso de reglas
o tablas de consulta o mediante la combinacin de los datos con otros
datos.

Carga: es el proceso de escribir los datos en la date warehouse. La fase de


carga es el momento en el cual los datos de la fase anterior (transformacin)
son cargados en el sistema de destino.
DATA WAREHOUSE
Diferencias
SISTEMA TRADICIONAL DATA WAREHOUSE
Predomina la actualizacin Predomina la consulta
La actividad ms importante es de tipo La actividad ms importante es el anlisis y la
operativo (da a da) decisin estratgica
Predomina el proceso puntual Predomina el proceso masivo
Mayor importancia a la estabilidad Mayor importancia al dinamismo
Datos en distintos niveles de detalle y
Datos en general desagregados
agregacin
Importancia del dato actual Importancia del dato histrico
Importante del tiempo de respuesta de la
Importancia de la respuesta masiva
transaccin instantnea
Estructura relacional Visin multidimensional
Usuarios de perfiles medios o bajos Usuarios de perfiles altos

Explotacin de la informacin relacionada Explotacin de toda la informacin interna y


con la operativa de cada aplicacin externa relacionada con el negocio
DISEO DE UN DATA WAREHOUSE
MODELO DIMENSIONAL:
Es una tcnica de diseo de base de datos donde los datos son representados
en 2 tipos de tablas:

1. La tabla de hechos: usada para almacenar hechos y medidas actuales en la


empresa.
2. La tabla de dimensiones: almacena campos que describen los hechos.
DATA WAREHOUSE
Datos
En el Multidimensionales
anlisis multidimensional, los datos se representan mediante
dimensiones como producto, territorio y cliente. En general, las
dimensiones se relacionan en jerarquas, por ejemplo, ciudad, estado,
regin, pas y continente. El tiempo es tambin una dimensin estndar
con sus propias jerarquas tales como: da, semana, mes, trimestre y ao.

No es comn que, por


ejemplo, alguien dentro de
la organizacin se
pregunte:
cunto vend?.
DATA WAREHOUSE
Datos
Multidimensionales
En general, un Gerente de Ventas podra preguntarse:
Cunto vend del producto A en el perodos X en
la regin Y?
DATA WAREHOUSE
Datos
Multidimensionales
En cambio, para un gerente de Finanzas la necesidad es diferente y su pregunta sera:
A cunto ascendieron las ventas de todos los productos en todas las regiones al
cierre del mes M? y para el caso de un gerente regional: Cunto fueron las ventas
de todos los productos en el perodo J K en mi regin?
DATA WAREHOUSE
MODELO ESTRELLA
DATA WAREHOUSE
MODELO COPO DE NIEVE
DATA WAREHOUSE
Implementacin
La estructura adoptada para el almacn de datos se debe realizar de tal modo
que satisfaga las necesidades de la empresa, dicha eleccin es clave en la
efectividad del Data Warehouse. Existen tres formas bsicas de estructura del
almacn:

1. Data Warehouse central :La implementacin consta de un solo nivel con un


solo almacn que soporta los requerimientos de informacin de toda la
empresa.

2. Data Warehouse distribuido: Es una estructura de un solo nivel que se


particiona para distribuirlo a nivel departamental.

3. Data Warehouse de dos niveles: Es una combinacin de los anteriores que


soporta requerimientos de informacin tanto a nivel empresarial como
departamental.
DATA WAREHOUSE
Costos
Costo de Construccin
Similar al Costo de Construccin de cualquier sistema de Tecnologa. Se
pueden clasificar en tres tipos:

1. RECURSOS HUMANOS: Es necesario contar con conocimiento sobre el


perfil y cualidades del personal ya que el desarrollo de esta tecnologa
requiere de la participacin tanto del personal tcnico como de los
especialistas de negocios, estos dos grupos trabajarn juntos durante
todo el desarrollo del Data Warehouse.
2. TIEMPO: Adems de los tiempos de construccin y entrega del Data
Warehouse, se debe tener en cuenta los tiempos de planificacin del
proyecto y de definicin de la Arquitectura.
3. TECNOLOGA: El costo de la nueva tecnologa introducida por el Data
Warehouse se debe considerar solo como el costo inicial de la
implementacin.
DATA WAREHOUSE
Costos
Costo de Operacin y Mantenimiento
Una vez que se ha finalizado la construccin y se ha entregado el producto se debe
dar soporte que es una fuente continua de costos.

Los costos de operacin se dividen en:


Costo de Evolucin
Es necesario realizar ajustes a travs del tiempo, muchas veces estos cambios se
deben al aprendizaje mediante el uso.
Costo de Crecimiento
Incrementos de volmenes de datos, de cantidad de usuarios accediendo al Data
Warehouse desembocar en un aumento en los recursos necesarios para que los
tiempos de respuesta y recuperacin de datos, principalmente, sigan siendo
ptimos.
DATA WAREHOUSE
Costos
Costo producido por cambios
El Data Warehouse necesita soportar los cambios en el origen de datos que utiliza
como as tambin soportar los cambios de la informacin que produce.
Por ejemplo, si el cambio se produce en el ambiente empresarial, seguramente,
cambiarn las necesidades de informacin de los usuarios sern necesarios,
entonces, cambios en las Aplicaciones DSS y EIS. Si por el contrario cambio viene
dado por el sector tecnolgico y ste afecta el modo de almacenamiento de los
datos, implicara ajustes en los procesos de Extraccin, Soporte y Carga para
adaptarse a las variaciones.
DATA WAREHOUSE
Impactos de implementacin del Data Warehouse
El xito del Data Warehouse no est en la construccin sino en utilizarlo para mejorar los
procesos empresariales, operacionales y de toma de decisiones. Para que esto suceda se
deben tener en cuenta los impactos producidos en los siguientes mbitos:

Impacto en la gente
La construccin requiere de la participacin activa de quienes utilizarn el Data Warehouse,
depende tanto de la realidad de la empresa como de las condiciones que existan en ese
momento, las cuales determinarn cual ser su contenido.
El Data Warehouse provee los datos que posibilitar a los usuarios a acceder a su propia
informacin en el momento que la necesitan. Esta posibilidad para entregar informacin
presenta varias implicancias:
Los usuarios debern adquirir nuevas destrezas.
Se eliminar los largos tiempos de anlisis y programacin para obtener informacin. Como
la informacin estar lista para ser utilizada, probablemente, aumenten las expectativas.
Pueden existir nuevas oportunidades en la comunidad empresarial para los especialistas de
informacin. Se reducir hasta casi eliminarse la gran cantidad de reportes en papel. La
madurez del Data Warehouse depender del uso activo y retroalimentacin de sus usuarios.
Impactos en los procesos empresariales y de toma de decisiones
Mejora del proceso de toma de decisiones por medio de la disponibilidad de la informacin.
Las decisiones se toman ms rpidamente por gente ms
informada.
DATA WAREHOUSE
CICLO DE VIDA
DATA WAREHOUSE
CICLO DE VIDA
DISEO:
Las actividades tpicas en esta etapa incluyen entrevista a
los usuarios finales, definicin de keys, indicadores de
performance, mapeo de los procesos de toma de decisin
y diseo de esquemas lgicos y fsicos.

PROTOTIPO:
En esta etapa, el equipo de diseo crea un
prototipo de data Warehouse basado en las
entradas y salidas. Los usuarios finales sugieren
cambios hasta que los requerimientos son
completados.
DATA WAREHOUSE
CICLO DE VIDA
DESPACHO:
El prototipo es aprobado por los usuarios finales y es
despachado en dos ambientes distintos: el environment
de produccin-prueba y el de produccin actual

OPERACIN:
Esto involucra al mantenimiento de da a da.

MEJORA:
Las modificaciones y las mejoras son hechas por
los cambios de negocios en cuanto a los procesos
y necesidades.
DATA WAREHOUSE
PRESENTACION DE DATOS
Mtodos y sistemas por los cuales se pone disponible la informacin a
los usuarios.

Reportes Ad Hoc: son informes predefinidos que se adaptan a las


necesidades de los usuarios inexpertos. Se producen por el uso de
consultas simples en lugar de consultas complejas. Son
esencialmente informes que no estn formateados y no estn
destinados a usuarios profesionales.

Los indicadores de rendimiento (KPI): son un conjunto de


indicadores de desempeo definidos para un determinado proceso
en la empresa.

Un Dashboard: es una herramienta de Business Intelligence que se


utiliza para describir el desempeo de los procesos de una empresa.
DATA WAREHOUSE
VENTAJAS
Proporciona una herramienta para la toma de decisiones en
cualquier rea funcional, basndose en informacin integrada y
global del negocio.
Proporciona la capacidad de aprender de los datos del pasado y
de predecir situaciones futuras en diversos escenarios.
Simplifica dentro de la empresa la implantacin de sistemas de
gestin integral de la relacin con el cliente.
Supone una optimizacin tecnolgica y econmica en entornos
de Centro de Informacin, estadstica o de generacin de informes
con retornos de la inversin espectaculares.
Especialmente til para el medio y largo plazo.
Son sistemas relativamente sencillos de instalar si las fuentes de
datos y los objetivos estn claros.
DATA WAREHOUSE
VENTAJAS
Muy tiles para el almacenamiento de anlisis y consultas de
histricos.
Permite una mayor flexibilidad y rapidez en el acceso a la
informacin.
Proporciona una comunicacin fiable entre todos los
departamentos de la empresa.
Transforma los datos en informacin y la informacin en
conocimiento.
proporciona una informacin de gestin
accesible, correcta, uniforme y actualizada.
Proporciona un menor coste en la toma de decisiones, una mayor
flexibilidad ante el entorno, un mejor servicio al cliente y permite el
rediseo de los procesos.
DATA WAREHOUSE
DESVENTAJAS
No es muy til para la toma de decisiones en tiempo real debido al
largo tiempo de procesamiento que puede requerir.
Requiere de continua limpieza, transformacin e integracin de datos.
Mantenimiento.
En un proceso de implantacin puede encontrarse dificultades ante los
diferentes objetivos que pretende una organizacin.
Una vez implementado puede ser complicado aadir nuevas fuentes
de datos.
Requieren una revisin del modelo de datos, objetos, transacciones y
adems del almacenamiento.
Tienen un diseo complejo y multidisciplinar.
Requieren una reestructuracin de los sistemas operacionales.
Tienen un alto coste.
Requieren sistemas, aplicaciones y almacenamiento especfico.
FIN

S-ar putea să vă placă și