Manual Teoría Inteligencia de Negocios

Inteligencia de
Negocios (Teora)
INTELIGENCIA DE NEGOCIOS 2
CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

ndice
Presentacin 5
Red de contenidos 7
Unidad de Aprendizaje 1
FUNDAMENTOS DE BUSINESS INTELLIGENCE 9
1.1 Tema 1 : Introduccin y conceptos 10
1.1.1 : Inteligencia de Negocios 10
1.1.2 : Necesidades de negocio 12
1.1.3 : Historia y evolucin de BI 14
1.1.4 : Casos de xito de Inteligencia de Negocios 16
:
1.2 Tema 2 : Data Warehousing 18
1.2.1 : Data Warehouse y Data Mart 18
1.2.2 : Tendencias en BI 21
1.2.3 : OLTP y OLAP 23
1.2.4 : Las Visiones de Bill Inmon y Ralph Kimball 26
1.2.5 : Arquitectura de Zachman 28
MODELAMIENTO DIMENSIONAL 35
2.1 Tema 3 : Diseo de DataMart 36
2.1.1 : Modelamiento Dimensional 36
2.1.2 : Componentes de un modelo dimensional 38
2.1.3 : Surrogate Key Nivel de Granularidad 38
2.1.4 : Tipos de modelo dimensional 39
2.1.5 : Documentacin de los elementos de diseo 42
2.1.6 : Resolucin de casos 43
2.2 Tema 4 : Taller de Modelado Dimensional 45

2.2.1 : Identificando medidas 45
2.2.2 : Identificando dimensiones y sus tipos 45
2.2.3 : Diseando niveles de granularidad 49
2.2.4 : Resolucin de casos 49
ETL y METODOLOGA DE RALPH KIMBALL 53
3.1 Tema 5 : ETL 54
3.1.1 : Concepto 54
3.1.2 : Etapas de un proceso ETL 55
3.1.3 : Opciones para implementar procesos ETL 63
3.2 Tema 6 : Metodologa 63

3.2.1 : Introduccin a la metodologa de Ralph Kimball 63
3.2.2 : Identificacin de las fases de la metodologa RK 64
3.2.3 : Etapas de un proceso de Data Mart y Data Warehouse 66
3.2.4 : Actividades y entregables 71
IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

3.3 Tema 7 : Taller 74

3.3.1 : Desarrollo de un caso aplicando metodologa RK 74
BIG DATA, HADOOP, MACHINE LEARNING, DATA MINING 79
4.1 Tema 8 : Big Data 80
4.1.1 : Definicin y su rol en el mundo empresarial 80
4.1.2 : Fases de desarrollo de una estratega Big Data 83
4.1.3 : Gobernabilidad para la gestin de volmenes de datos 86
4.2 Tema 9 : Hadoop 92

4.2.1 : Introduccin a Hadoop 92
4.2.2 : Arquitectura 93
4.2.3 : Administracin Hadoop 96
4.2.4 : Componentes Hadoop 99
4.3 Tema 10 : Machine Learning 103

4.3.1 : Concepto 103
4.3.2 : Escenarios de Negocio que utilicen ML 104
4.3.3 : Tipos de aprendizaje 107
4.3.4 : Algoritmos bsicos 108
4.4 Tema 11 : Data Mining 115

4.4.1 : Concepto 115
4.4.2 : Proceso 118
4.4.3 : Normas 118
4.4.4 : Usos 119
4.4.5 : Anlisis ForeCasting 122
4.5 Tema 12 : Semana Integradora 122

4.4.1 : El futuro de la Inteligencia de Negocios 122
4.4.1.1 : Tendencias tecnolgicas y Redes Sociales 124
4.4.1.2 : La Web como repositorio de informacin 131

Presentacin
En un mundo donde las Tecnologas de Informacin determinan la forma en que se
hacen los negocios, las empresas necesitan explotar su mayor recurso: la informacin.
Este anlisis permitir que se realicen anlisis de tendencias y se obtengan
parmetros que permita optimizar la toma de decisiones, tales como crear estrategias
de negocio, fusin de empresas, nuevas giros en el negocio, expansiones, etc.
El presente manual tiene por objetivo brindar a los alumnos los conceptos bsicos
para el curso de Inteligencia de Negocios.
El manual esta desarrollado para complementar y afianzar lo expuesto en clase, con

ejemplos y ejercicios prcticos se busca la comprensin de los temas.
El tema central del curso, Datawarehouse es abordado desde sus conceptos bsicos,
arquitectura, modelamiento dimensional, en la cual se incide de manera precisa y
detallada, transformacin de datos, MDX y minera de datos.


Red de contenidos
DATA WAREHOUSING
INDICADORES
ARQUITECTURA
CONSTRUCCIN
ANLISIS DE ACCESO AL
REQUERIMIENTO DATA
Y FUENTES WAREHOUSE
METODOLOGA
METADATOS
MODELAMIENTO CONSULTAS
Y OLAP MINERIA
DISEO DE DATOS
BIG DATA
POBLANDO EL HADOOP
DATA MACHINE
WAREHOUSE LEARNING
ADMINISTRACIN DE DATA WAREHOUSE


UNIDAD
1
FUNDAMENTOS DE BUSINESS
INTELLIGENCE
LOGRO DE LA UNIDAD DE APRENDIZAJE
Al trmino de la unidad, el alumno identifica los conceptos fundamentales
relacionados a soluciones de Inteligencia de Negocios.
TEMARIO
1.1 Tema 1 : Introduccin y conceptos
1.1.1 : Inteligencia de Negocios
1.1.2 : Necesidades de negocio
1.1.3 : Historia y evolucin de BI
1.1.4 : Casos de xito de Inteligencia de Negocios
:
1.2 Tema 2 : Data Warehousing
1.2.1 : Data Warehouse y Data Mart
1.2.2 : Tendencias en BI
1.2.3 : OLTP y OLAP
1.2.4 : Las Visiones de Bill Inmon y Ralph Kimball
1.2.5 : Arquitectura de Zachman
ACTIVIDADES PROPUESTAS
Los alumnos reconocen las necesidades de un negocio.

Los alumnos discuten sobre diversos escenarios de negocio
Los alumnos identifican Data Warehouse y Datat Mart.

1.1. INTRODUCCIN Y CONCEPTOS

1.1.1. Inteligencia de Negocio
La Inteligencia de Negocios o Business Intelligence (BI) se puede definir como el

proceso de extraer datos de cualquier fuente: archivos o base de datos para
transformarlos en informacin, de tal manera que sta apoye a la toma de decisiones
de las empresas. BI provee la informacin que requiere el usuario de negocio en la
manera como lo desea y en el momento que lo necesite, mejorando enormemente la
efectividad para la toma de decisiones, revelando tendencias de negocio no
perceptibles fcilmente.
Figura 1: Ciclo de datos

Fuente.- Tomado de https://sqlservermasbi.files.wordpress.com/2012/08/bi_png.png
Es el proceso de transformacin de datos en iformacin, haciendo uso de tcnicas de

Extraccin, Transpormacin y Carga (ETL), proporcionando informacin validada
para una adecuada toma de decisiones.

Figura 2: Transformacin de datos

Fuente.- Tomado de http://4.bp.blogspot.com/-
Wo6sMxlVbew/UaVBdrR9FNI/AAAAAAAAAHE/3MOHlmlCR0o/s1600/FIGURA3.jpg
Figura 3: DashBoard
Fuente.- Tomado de
http://2gc.eu/images/made/5cf576e340e572f3/InPhase_typical_dashboard_made_by_a_PA_800_600.png
Existe una gran cantidad de procesos detrs de una arquitectura de Data Warehouse
de una solucin BI de suma importancia. Estos comprenden desde procesos de
extraccin que estudian y seleccionan los datos fuente adecuado para el data
warehouse hasta proceso de consulta y anlisis de datos que despliegan la
informacin de una forma fcil de interpretar y analizar.
Existen conceptos y terminologas de inteligencia de negocio.

Data Warehouse
Entonces podemos definir que un Data Warehouse es una coleccin de datos en la

cual, se encuentra integrada la informacin de la Institucin y que es usada como
soporte para el proceso de toma de decisiones gerenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicacin en un
ambiente integral centralizado, simplifica el problema de acceso a la informacin y en
consecuencia, acelera el proceso de anlisis, consultas y disminuye el tiempo de
Acceso a la informacin.
Las aplicaciones para soporte de decisiones basadas en un Data Warehouse, pueden

hacer ms prctica y fcil la explotacin de datos. De esa forma, podemos obtener una
mayor eficacia en la toma de decisiones, que no se logra cuando se usan slo los
datos que provienen de las aplicaciones operacionales (que ayudan en la operacin de
la empresa en sus operaciones cotidianas) en los que la informacin se obtiene
realizando procesos independientes y muchas veces complejos.
Un Data Warehouse se crea al extraer datos desde una o ms bases de datos de

aplicaciones operacionales. La data extrada es transformada para eliminar
inconsistencias y resumir si es necesario y luego, cargarlas en el Data Warehouse. El
proceso de transformar, crear el detalle de tiempo variante, resumir y combinar los
extractos de datos ayuda a crear el ambiente para el acceso a la informacin
institucional. Este nuevo enfoque ayuda a las personas individuales, en todos los
niveles de la empresa, a efectuar su toma de decisiones con mayor objetividad.
1.1.2. Necesidades del Negocio insatisfechas por las soluciones

tradicionales
Las empresas actualmente poseen las siguientes necesidades de negocios que no

pueden ser resueltas por los sistemas tradicionales:
Pasan ms tiempo recolectando y preparando informacin que analizndola.

Se frustran al no poder encontrar informacin que est seguro existe en la
empresa.
Quieren saber que productos fueron ms rentables durante un periodo de
tiempo
No saben cual es el patrn de compra de sus clientes dependiendo de las
zonas
Pasan mucho tiempo tratando de hacer que los reportes en Excel luzcan bien.
Han perdido oportunidades de negocios por recibir informacin retrasada.
No sabe con certeza si sus empleados estn alcanzando los objetivos
planeados.
Es decir las empresas empiezan a valorar ya no como registrar la informacin sino

como recuperarla adecuadamente, ya que han descubierto que siendo esta
informacin ms oportuna y exacta, la empresa se volver ms competitiva. Visto as,
la informacin corporativa es un activo importante de la empresa que genera valor y la
falta de ella generar prdidas.
Las organizaciones y sus requerimientos de sistemas de informacin
Con el fin soportar la gran cantidad de informacin que maneja una empresa, muchas
de ellas despliegan una gran infraestructura tecnolgica que soportan Sistemas de
Informacin. El crecimiento tecnolgico tiene varias etapas que van desde la
integracin de sistemas, el crecimiento y la implementacin. Las condiciones actuales

de competencia han provocado el que sea necesaria tecnologa cada vez ms

sofisticadas para responder a las peticiones muy particulares de informacin. Sistemas
de Procesamiento de Datos (SPD), Sistemas de Manufactura, Administracin de
Recursos Empresariales (ERP), Sistemas de Informacin Ejecutiva (EIS), Sistemas de
Soporte a las Decisiones (DSS), Manejo de Relacin con Clientes (CRM), Suministro
de la Cadena de Distribucin (SCM), Sistemas en la nube (CLOUD Computing), etc.,
son algunos de los sistemas que afloran y se ponen de moda y luego desaparecen
acorde a la evolucin de las empresas. Pero algo que no va a desaparecer y es la
necesidad de las empresas de consumir informacin para atender los distintos
requerimientos del negocio dependiendo de la funcin que cada empleado desempee
en la empresa.
La informacin que las empresas necesitan
La informacin se est extendiendo a todo nivel dentro de la organizacin, reas

donde la toma de decisiones se basaba en la experiencia o la intuicin requieren cada
vez ms de soporte basado en informacin. Si bien es cierto, los niveles operativos y
tcticos siempre han requerido de informacin para el da a da del negocio, est no ha
estado restringida para su uso. El avance vertiginoso de las tecnologas de la
informacin ha permitido que la informacin estratgica sea puesta en las
computadoras de los directivos, este comportamiento se ha generalizado
principalmente motivado no slo por la facilidad y utilidad de la informacin compartida
sino por los software de toma de decisiones cada vez ms sencillos de usar.
Actualmente, la informacin es enviada a todos los niveles de la empresa con

diferentes fines (comunicacin, control, administracin, evaluacin, planeamiento,
etc.). Las organizaciones estn entendiendo que los niveles directivos tienen una gran
responsabilidad al tomar decisiones, ya que ellas recaen sobre toda la empresa, pero
tambin existen ms empleados que toman decisiones y, a pesar de que stas no
tienen un impacto global, deben ser tambin adecuadas y oportunas, pues ciertos
grupos dependen de las mismas. Directores, gerentes, supervisores, jefes,
coordinadores todos aquellos que toman decisiones deben tener suficiente informacin
para apoyarse en su trabajo diario, el lugar que ocupen en la pirmide organizacional
se vuelve secundario cuando el enfoque es hacia el manejo de procesos y todos los
puestos tienen cierta relacin y dependencia entre s.
De manera general dentro de la organizacin, los requerimientos de informacin se

dividen en 3 partes:

Figura 4: Pirmide de Informacin

Fuente.- Tomado de
http://2.bp.blogspot.com/-_oziKhlNrqs/U9Sa-Co4fyI/AAAAAAAABdA/Qe8sh2RxASA/s1600/SIs.png
1. Informacin Estratgica
Soporta principalmente las decisiones del primer nivel de la pirmide organizacional,
respondiendo a las preguntas estratgicas de la empresa. Su caracterstica principal
es que no muestra muchos datos y est asociado a la gerencia visual a travs de
indicadores que muestran si se estn alcanzando los objetivos y metas o no a nivel
global. Ello permitir saber cmo se encuentra la empresa ahora y poder tomar
decisiones oportunas.
2. Informacin Tctica
Esta informacin da soporte al segundo nivel de la pirmide organizacional. Est
relacionada al plano operativo de la estrategia planteando vas posibles para lograr la
estrategia dictada por los ejecutivos y directivos. Esta informacin corresponde a un
rea o departamento especfico de la empresa, siendo su alcance departamental y se
asocia a gerencias o subdirecciones.
3. Informacin Tcnico Operacional

Este nivel de informacin corresponde a la parte operativa de la empresa, compuesta

por los sistemas de entrada masiva de datos y procesamiento transaccional. Soporta
el da a da del negocio y a sus diversas reas (contabilidad, facturacin, almacn,
presupuesto y otros sistemas administrativos). Se asocian a las jefaturas o
coordinaciones operativas o de tercer nivel.
1.1.3. Historia y evolucin de los conceptos de Inteligencia de Negocios
El concepto de Business Intelligence no es un concepto reciente, hace miles de aos

los mayas, incas, fenicios, persas, egipcios y otros pueblos practicaban este principio
cuando usaban informacin obtenida de la naturaleza en beneficio propio. Observar y
analizar el comportamiento de los astros, las mareas, los perodos de sequa y de
lluvias, entre otras, eran maneras de obtener informacin que luego usaban para
tomar decisiones que pudieran permitir mejoras en la vida de sus respectivos pueblos.
El mundo ha evolucionado pero, el concepto sigue siendo el mismo. La necesidad de

relacionar informaciones para realizar una gestin empresarial eficaz y eficiente es hoy
una realidad tanto como en el pasado lo fue descubrir si la crecida de la marea sea
propicia para obtener una pesca ms abundante.
En los aos 60s surgen las tarjetas perforadas como medio de almacenamiento de
datos, los transistores como un gran avance electrnico en la arquitectura de
computadores y el lenguaje estructurado de programacin COBOL. En esta poca, los
ordenadores se mostraban como algo difcil de conocer y el almacenamiento de
informacin se realizaba de manera lineal y secuencial. Este nuevo despliegue
tecnolgico, es decir, la implementacin de las bases de datos para el procesamiento
en lnea, las nuevas tecnologas y los Lenguajes de Cuarta Generacin (4GL),
permitieron al usuario la facilitarle el control de los sistemas y de la informacin. Esto
dio origen a los primeros Sistemas de Informacin formales.
Los Dispositivos de Almacenamiento de Acceso Directo (DASD, Direct Access Storage

Device), surgen en los 70s permitiendo que la velocidad de acceso a los datos se
mejore enormemente, ya que las bsquedas ya no eran lineales, sino directas.
Asimismo, tambin aparecen los Sistemas de Administracin de Bases de Datos
(DBMS) que permita al desarrollador el acceso a la informacin al encargarse del
almacenamiento e ndices.
A inicios del ao 1990, las ms importantes empresas ya contaban con grandes

Centros de Informacin (CI) que funcionaban como repositorio de datos, brindando
informacin poco disponible. A pesar de esta limitante, los CI otorgaban de cierta
manera, la informacin que los ejecutivos requeran para tomar decisiones. Pero a
medida que los aos avanzaron, el mercado empez a comportarse de un modo ms
complejo y cambiante, lo que oblig a que la tecnologa de la informacin comenzara
perfeccionando las herramientas de soporte a las decisiones de tal manera que
ofrezcan informaciones precisas y en el momento adecuado para poder definir
acciones mejorando el desempeo de la organizacin.
El concepto de Data Warehouse nace entre los aos 1992 y 1993, este concepto se
asocia a una gran base de datos, es decir, un "recipiente - depsito" nico de datos
(los cuales pasaron por un proceso de extraccin, transformacin). ste repositorio es
la parte fundamental para la ejecucin prctica de un proyecto de Business
Intelligence. Pero al hablar de Business Intelligence, encontramos varios puntos de
vista. Para algunos autores es muy importante que la empresa que desea implementar
herramientas de Business Intelligence cuente con un "repositorio" nico para reunir los
datos ya transformados en informaciones. Este "repositorio" no necesariamente es, un

Data Warehouse, puede ser algo ms pequeo y menos complejo como, por ejemplo,
un Data Mart (banco de datos diseado para reas especficas en forma
personalizada), o un banco de datos relacional comn, pero independiente de
ambiente transaccional (operacional) y exclusivo para contener informacin que ser
usada como base para la realizacin de diversos anlisis y proyecciones.
El trmino de Business Intelligence es bastante antiguo. Sin embargo, el avance de la

tecnologa de la informacin permiti crear herramientas que facilit en gran medida
todo el proceso de extraccin, almacenamiento, consolidacin, filtrado, validacin y
disponibilidad de los datos. Gracias a ello, las empresas empezaron a interesarse en
las soluciones de BI de una forma ms decisiva, esto a finales de 1996, cuando el
concepto se difundi como un proceso de evolucin del Executive Information Systems
(EIS) - un sistema creado a finales de la dcada del 70 en el MIT (Massachusets
Institute of Tecnology-EUA).
El trmino Business Intelligence se extendi hacia otras herramientas como por

ejemplo:
Executive Information System - Sistema de Informacin Ejecutiva (EIS), soluciones
Decision Support System - Sistema de Soporte a las Decisiones (DSS), Balanced
Scorecard (Indicadores de Gestin), Dashboard (Cuadros de Mando), ER
(Reporteadores Empresariales), Data Marts, Data Mining, Herramientas OLAP, cuyo
fin principal es dinamizar la capacidad de tomar decisiones, afinar estrategias de
relaciones con los clientes y satisfacer las necesidades del sector empresarial.
Como pueden darse cuenta, hay mucha similitud entre la red de datos y la red
elctrica. La diferencia fundamental radica en la magnitud de energa que cada red
maneja.
1.1.4. Casos de xito en Inteligencia de Negocio
WallMart
Pionero en el uso de la informacin para identificar nuevas
oportunidades de mercado
Uso de datamining masivo, solucin basada en Teradata
Caso Clsico: Paales y Cerveza
Es, sin duda, uno de los ejemplos ms clsicos de la llamada Business Intelligence
(BI), utilizado en las escuelas de negocio de todo el mundo para ilustrar cmo el
anlisis de los datos de los clientes puede llevar a conclusiones interesantes y
aprovechables en el contexto del denominado Market-Basket Analysis: la correlacin
entre los paales y la cerveza.
Estos dos productos, aparentemente sin ninguna relacin, protagonizan esta historia
que los profesores y estudiantes de marketing suelen atribuir a lo que ocurri en los
hipermercados WalMart, cuando se empez a utilizar por primera software analtico
para combinar el anlisis de los datos de compras de algunas personas obtenidos
gracias a sus tarjetas de fidelizacin.
Segn la historia, se descubrieron una serie de asociaciones, algunas perfectamente

obvias, como que las personas que compraban cereal tambin compraban leche, o los
que compraban ron, tambin compraban Coca-Cola, y una completamente
inesperada: paales y cerveza.

Aparentemente, los clientes masculinos cuando compraban paales el fin de semana,

tenan adems una gran tendencia a adquirir tambin cerveza. De ah surgi toda una
amplia gama de teoras psicolgicas sobre cmo los hombres, cuando eran enviados
por paales al supermercado, asociaban la idea con la de obtener alguna recompensa
para ellos, o relacionaban el fin de semana con tomar cerveza y, a pesar de ser ya
padres, realizaban una accin de solteros, que seguramente era aprobada en sus
hogares ya que la diferencia era que estos hombres beban dentro de su casa.
Como resultado del descubrimiento de esta correlacin, segn sus estadsticas, el

hipermercado decidi mover la cerveza y ponerla al lado de los paales, y obtuvieron
gracias a ello un incremento de ventas bastante importante.
NBA
Un resultado interesante fue uno hasta entonces no observado por los
entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador
puede generalmente dar la oportunidad a otro jugador de encestar ms
fcilmente.
Mezcla datos de jugadores de baloncesto con imgenes de partidos para
encontrar patrones y apoyar a la generacin de estrategias.
Advanced Scout, basado en IBM DB2 Universal Database, IBM DB2
Intelligent Miner y Virtual Gold's VirtualMiner
AC MILAN
El sistema, creado por Computer Associates International, es alimentado por
datos de cada jugador, relacionados con su rendimiento, alimentacin y
respuesta a estmulos externos, que se obtienen y analizan cada quince das.
Actualmente el sistema permite predecir alguna posible lesin.
El club est ahorrando dinero evitando comprar jugadores que presenten una
alta probabilidad de lesin.
ODYSSEY
Gobierno Espaol enjuicia a la empresa Odyssey por apoderarse de 18
toneladas de monedas de Oro.
Un espectacular sistema de tratamiento de datos llamado Data Mining. Su
funcionamiento es sencillo: se introducen en una base de datos todas las
variables imaginables, desde los lugares en los que hay barcos hundidos hasta
las corrientes marinas predominantes, los puntos ms habituales de tormentas
o las rutas que probablemente utilizara cada capitn. De todo ese cctel, se
extrae un modelo que indica, con una fiabilidad impresionante, en qu puntos
exactos hay ms probabilidades de hallar un tesoro. A partir de ese momento,
y despus de aos de paciente estudio, esa computadora proporciona a
Odyssey un detallado y gigantesco mapa del tesoro sin necesidad de
escudriar todo el fondo del Atlntico o el Mediterrneo.
SUNAT
SAS, el lder en Inteligencia de Negocios, anunci hoy que la SUNAT, ha
logrado una mejor deteccin de la subvaloracin de mercancas en la principal
aduana peruana, al incrementar en 14 puntos porcentuales el xito en los
hallazgos en el Proceso de Seleccin de Canales de Control.
SUNAT es la primera entidad tributaria en latinoamrica en emplear con xito
tcnicas de Minera de Datos en la lucha contra el contrabando y la
subvaluacin.
Solucin sobre plataforma SAS, Oracle, Informix, Java.


1.2. DATA WAREHOUSING

1.2.1. Data Warehouse y Data Mart
Data Mart
Orientado a un departamento dentro de la organizacin, puede ser implementado
como una solucin para problemas inmediatos, no es necesario para construir un Data
Warehouse.
Implementacin rpida y sencilla a un menor costo de implementacin. Cubre

necesidades especficas del Negocio, respuestas rpidas por el menor volumen de
informacin y asegura la consistencia de los datos.
El empleo de los Datamarts estar determinado por los que toman decisiones. Por
ejemplo en una empresa el gerente de ventas necesitar analizar la informacin de su
rea, es decir las ventas de la empresa.
Inadvertidamente se puede usar datos no compatibles con otros Datamarts que luego
alarguen el tiempo de unificacin.
Si el Data Warehouse es construido primero, se requiere de hardware adicional para

soportarDatamarts individuales.
Data Warehouse
La construccin del Data Warehouse se va haciendo por etapas que normalmente
corresponden a las principales reas operativas de la empresa. Por ejemplo: rea de
Ventas, rea Financiero Contable, rea de Recursos Humanos, etc. Estas reas
reciben el nombre de Data Marts.
Los Data Warehouses (Base de Datos OLAP, On-Line Analytical Processing) son
diseados para cumplir con un conjunto de metas, las cuales son muy diferentes de
los objetivos de un sistema transaccional (OLTP, On-Line Transaction Processing).
Por ejemplo, una meta de los OLTP es maximizar la concurrencia mediante el uso de
locks, dicho objetivo no es pertinente en el diseo de DW donde las operaciones son
slo de consulta, es decir del tipo SELECT.
Adems de las tcnicas de diseo, un desarrollador de Data Warehousing debe

focalizarse en entregar un anlisis multidimensional y capacidades de reportes ad-hoc
(generacin de reportes por parte del usuario experto basados en el conocimiento del
negocio). Para realizar esto, el diseador necesita conocer los requerimientos del
negocio tan bien como las tcnicas de diseo multidimensional.
Sin lugar a dudas, el Data Warehousing es parte integral de lo que algunos autores
definen como la Era de la Informacin ya que posibilita la construccin y
mantenimiento de estructuras destinadas al anlisis de los datos, transformando los
datos en informacin y la informacin en conocimiento.
Estos nuevos conceptos fueron definidos por los padres del DataWarehouse, Bill
Inmon y Ralph Kimball, cuyas visiones las revisaremos luego.
Hay muchas definiciones de Data Warehouse en la literatura, de las cuales se

presenta, las dos ms representativas:

William Inmon:
El Data Warehouse es una coleccin de datos,
orientados a un tema, integrados, no voltiles, variantes
en el tiempo, organizados para el apoyo a toma de
Ralph Kimball:
Un Data Warehouse es una copia de los datos
transaccionales, especficamente diseada para realizar
consultas y anlisis.
Necesidad de un Data Warehouse
Una de claves del xito de las corporaciones modernas es el acceso a la informacin

correcta, en el tiempo adecuado, en el lugar correcto y en la forma adecuada.
Es muy comn escuchar a los ejecutivos decir las siguientes frases:
Tenemos montaas de datos en esta compaa, pero no podemos acceder a

ellos
Nada enloquece ms a un gerente que tener dos personas que le presenten el

mismo resultado de negocio, pero con diferentes cifras.
Slo me interesa ver lo que es importante.
Todos sabemos qu datos no estn bien.
Estos problemas se presentan en la mayora de las empresas, y pueden ser

convertidos en oportunidades y transformados en requerimientos:
El Data Warehouse proporciona acceso a los datos corporativos u organizacionales.
Los datos en el Data Warehouse son consistentes.
El Data Warehouse no contiene solamente datos sino un conjunto de herramientas de

consulta, anlisis y presentacin de la informacin.
La calidad de los datos en un Data Warehouse, conducir a una reingeniera de las

aplicaciones de negocio.
De los datos al conocimiento
Cuando los datos se ponen en un contexto, se convierten en informacin, y luego esta

informacin es sintetizada con la ayuda de la experiencia se llega al conocimiento.
DATO
INFORMACIN
CONOCIMIENTO

Componentes Funcionales
Los componentes funcionales que son parte del proceso son la adquisicin de datos,
el almacenamiento y el acceso por parte de usuarios finales.
Adquisicin: Consiste en recoger los datos tiles del sistema de produccin. Se

debe identificar los datos que sean necesarios para atender los requerimientos de
informacin, luego planificar las extracciones con el fin de evitar saturacin en la
red, o afectar al sistema transaccional de produccin.
Los procesos de extraccin deben estar sincronizados con la finalidad de

garantizar la integridad de la informacin. Los problemas que surgen al hacer esta
sincronizacin pueden ser muy complejos.
Despus de extraer los datos del sistema transaccional, estos se deben preparar
para adecuarlos a la forma del Data Warehouse. Esta preparacin incluye la
correspondencia de los formatos, la limpieza, la transformacin y la agregacin en
muchos casos.
La carga es la ltima fase de la adquisicin de datos, esta fase es particularmente
importante sobre todo si se trata de volmenes muy grandes.
Almacenamiento: El componente bsico del soporte del almacenamiento es el

DBMS (DataBase Manager System). El DBMS o motor de base de datos debe
tener las caractersticas que le permitan responder eficientemente a las exigencias
de las consultas analticas. Para lograrlo debe contar con diversos recursos como
el paralelismo, la optimizacin del indexado con la finalidad de acelerar las
consultas agregadas, ordenamientos y agrupaciones.
En relacin con los tipos de datos, generalmente, se almacenan en formatos

relacionales; sin embargo, frente a la gran cantidad de datos en forma de
documentos, imgenes, audio y video, los DBMS estn evolucionando en el
sentido de permitir la gestin de estos tipos de datos. Esta evolucin se ve
reforzada an ms con la llegada de Internet.
Acceso: El acceso al Data Warehouse se da mediante herramientas o aplicaciones

de tipo Cliente/servidor o herramientas que pueden utilizarse desde el Web. Hay
una gran variedad de herramientas en el mercado y el nmero de aplicaciones de
acceso que se pueden desarrollar es tambin muy grande. Sea cual sea el tipo de
herramienta, tendr que adaptarse a las exigencias del usuario y su manera de
trabajar. En el mundo de la decisin, el anlisis es tambin un proceso iterativo y
los resultados de la consulta actual influyen a menudo en la consulta siguiente.
Esto se puede resumir en la siguiente frase: Dame lo que te pido y luego podr
decirte lo que realmente quiero.
Infraestructura
Para hacer frente a las necesidades de Data Warehouse, el papel de la informtica es

definir e integrar una arquitectura sobre la que implementar el Data Warehouse.
Se debe considerar dos niveles de infraestructura en un Data Warehouse: la

infraestructura tcnica o conjunto de componentes materiales y programas, y la
infraestructura operativa o conjunto de procedimientos y servicios para administrar los
datos, gestionar los usuarios y utilizar el sistema.

Por un lado, la infraestructura tcnica se compone de productos que implementan las

tecnologas elegidas, integrados en un conjunto coherente y homogneo. Por otro lado
la infraestructura operativa se compone de todos los procesos que permiten, a partir
de los datos de produccin, crear y gestionar el Data Warehouse.
ARQUITECTURA DE DATA WAREHOUSE
INFRAESTRUCTURA INFRAESTRUCTURA
TCNICA OPERATIVA
1.2.2. Tendencias en BI
El universo BI no deja de sorprender con su capacidad para renovarse, adaptarse y

transformarse, consiguiendo satisfacer las necesidades de los usuarios, colmando sus
expectativas, y yendo an ms all. Las tendencias en Business Intelligence rompen
moldes y apuntan en una direccin que, si bien ya se intua a comienzos de este ao,
no muchos creyeron que fuese posible alcanzar.
Business Intelligence consiste en transformar datos en informacin, para que esa

informacin pueda convertirse en conocimiento. La toma de decisiones requiere de un
anlisis que ha de apoyarse en datos estructurados, que necesitan haber sido
procesados previamente. El procesado de datos los rene, los depura, los homologa si
es necesario y los deja listos para ser utilizados.
La forma de llevar a cabo este proceso hoy da puede ser muy diferente, dependiendo
de la madurez tecnolgica de la empresa, de su efectividad en la recogida de datos,
de sus capacidades de almacenamiento, etc. Sin embargo, existen unos factores
diferenciales que marcan la lnea entre unas organizaciones y otras. Agilidad,
automatizacin y movilidad seran los pilares fundamentales del BI de ltima
generacin.
Quienes ya conocen seguramente buscan el ir ms all, explotando todas las

posibilidades de su inteligencia de negocio. Las tendencias en BI son:
Movilidad: aplicaciones ms especializadas y mayor abanico de usuarios.

Empleados, clientes, proveedores, el crculo se va ampliando para enriquecer la BI.
La Mobile Intelligence es el ncleo alrededor del que orbita todo esta informacin
que permite realizar anlisis ms especficos y llevar a cabo tareas ms complejas,
independientemente del lugar, el momento o el dispositivo que se vaya a utilizar
para ello.
Mayor velocidad de procesamiento para mejores resultados en el anlisis

predictivo: la integracin es la palabra. Minimizar los tiempos de respuesta es una
demanda mayoritaria que requiere que toda aplicacin de BI englobe desde las
reglas de negocio, hasta las funcionalidades, pasando por el anlisis y modelado
de datos.
Los proveedores de soluciones e integradores del mundo BI liderarn el cambio:

Una de las tendencias en BI es el mirar ms all de la funcionalidad y la

arquitectura, colaborando con los usuarios finales al seleccionar una solucin y

evalundola conjuntamente.
La nueva forma de tomar decisiones a la que es posible acceder gracias al nuevo

BI tendr un gran impacto en la evolucin cultural: ser el germen del concepto de
software social, que procurar entornos de colaboracin donde interacten las
redes sociales, el BI y las herramientas analticas.
Los dashboards evolucionan: su expansin apoyada en tecnologa puntera, no es

ms que una confirmacin de que el BI debe estar alineado con los objetivos de
negocio para garantizar el xito empresarial. El simple acceso a los datos hace
tiempo que dej de ser suficiente. Hay que buscar soluciones que permitan a los
trabajadores ganar concentracin sobre las mtricas, dotndoles de proactividad.
La movilidad es un imprescindible en este camino.
El autoservicio es una realidad: tener la capacidad de prescindir del Departamento

de IT, poder acceder a los datos de forma sencilla, visual y rpida es sinnimo de
efectividad. Para ello los usuarios necesitan la herramienta adecuada,
personalizada, completa e interconectada que lo haga posible.
BYOD: las polticas de Bring Your Own Device impulsarn la necesidad de contar
con Mobile Intelligence en las empresas. Para ello, la tecnologa ha de apoyar esta
evolucin. Entre las tendencias en BI se encuentran las soluciones multiplataforma,
que hacen posible no tener que depender de un dispositivo en concreto, sino poder
contar con esa libertad que redunda en la productividad y los resultados.
Nuevas alternativas en lo concerniente a Big Data tendrn su influencia en el

desarrollo en BI. Las opciones crecen y eso significa que la calidad aumenta y los
costes se reducen. Es el momento de pensar a lo grande. Lo mismo sucede con
las tecnologas In Memory, que se convierten en la corriente principal y lo hacen
pasando por delante de disk based Data Warehouse, analytic appliance o
columnar database.
La nube baja a tierra: el cloud ser considerado como una opcin ms, dejar de
marcar la diferencia como lo haba hecho hasta ahora y su uso ser
completamente rutinario. La aceptacin generalizada por parte de los usuarios,
que han aparcado sus recelos en cuanto a la seguridad de sus datos es el
impulsor principal de este cambio de perspectiva, que exigir que todas las
soluciones de BI deban estar preparadas para la nube.
La colaboracin es una necesidad: su potencial en cuanto a BI consigue que de los

datos se extraiga toda la informacin posible, lo que desemboca en el mejor
anlisis. Prescindir de esta posibilidad ya no es cuestionable y por eso, en 2014, el
BI de todas las empresas ha de permitir a sus usuarios interactuar sin lmites de
conectividad, ni geogrficos, ni temporales.
El Business Intelligence ser mejor. El modo de usar la informacin para tomar

decisiones se est transformando, prueba de ello es que su orientacin es cada
vez ms estratgica y su prioridad es el proporcionar una visin nica, global y
completa. BI y Mobile Intelligence deben ser una prioridad en entornos
empresariales, ya que son la nica forma de alcanzar una ventaja competitiva y
mantenerla en el tiempo, gracias a la mejora del servicio al cliente, al control de
gastos, al impulso de beneficios y a una toma de decisiones ms gil y ms
precisa.

1.2.3. OLTP y OLAP
On Line Transacction Processing (OLTP)

El sistema On Line Transaction Processing (OLTP) se encarga de dar soporte a los
procesos diarios de ingreso y mantenimiento de datos y son en tiempo real. De esa
manera, las aplicaciones OLTP sirven para la captura de las transacciones cotidianas
(ventas, compras, control de almacn, cuenta corriente, generacin de notas de
crdito, control de la produccin, contabilidad, etc.) y es la fuente principal de datos de
las soluciones analticas. Entre las diferencias principales tenemos que las
aplicaciones
OLTP poseen volatilidad de datos (los datos slo permanecen en el sistema por un
periodo corto de tiempo) a diferencia de las soluciones analticas, que requieren de
datos histricos para generar diversas perspectivas de anlisis. Otra diferencia es la
actualizaciones frecuente de los datos (la informacin es modificada muchas veces en
el da), mientras que las aplicaciones analticas realizan operaciones normalmente, de
slo lectura.
Caractersticas
Diseo orientado a la transaccin
Volatilidad de los datos
Soporte limitado a la toma de decisiones
Ejemplos
Cobranzas
Sistema de control de asistencia
Control de almacn
On Line Analytical Processing (OLAP)

OnLine Analytical Processing (OLAP) es un proceso en el que se emplean
herramientas sofisticadas que permiten agilizar el proceso de anlisis de informacin
de la empresa, organizada en perspectivas (dimensiones) y mtricas permitiendo
ejecutar anlisis complejos de datos en base a los cuales se tomarn las decisiones
del negocio.
OLAP permite a los usuarios una fcil y amigable navegacin por la informacin
obteniendo el nivel de granularidad (detalle) que requiera para la toma de decisiones.
Asimismo, puede generar clculos adicionales en base a los datos existentes. Los
servicios OLAP proveen mltiples formas y niveles de anlisis gracias a que los datos
se encuentran estructurados con esta finalidad. De esta manera, el usuario puede
realizar comparaciones entre periodos anteriores o paralelos, encontrar patrones y
tendencias, aislar un grupo de datos con caractersticas especficas para realizar un
anlisis ms profundo y sobretodo de una manera amigable, rpida y confiable.
Caractersticas OLAP
Es consolidada. La data se centraliza desde diferentes orgenes de datos en un
repositorio central nico a la cual tienen accesos los usuarios de toda la
organizacin.
Es consistente. Los usuarios deben obtener una nica versin de los datos no
importando de qu rea provengan las consultas ni el momento en que ellas se
realicen.

Es orientada al objetivo. Slo contiene informacin relevante para la toma de

decisiones, de esta manera la orientacin est en cmo se usan los datos y no
como se almacenan.
Es histrica. Los sistemas OLAP almacenan toda la informacin histrica de la
empresa permitiendo de esta manera, realizar comparaciones entre periodos
actuales e histricos.
Es de slo lectura. El sistema OLAP se disea y optimizan slo para realizar
consultas, la operaciones de actualizacin, borrado, etc. son exclusivos de los
sistemas transaccionales.
No es atmica. Los sistemas OLAP contienen datos sumarizados que permiten
la velocidad en la consulta.
Figura 4: Cubo OLAP

Fuente.- Tomado de
https://alexberenguerdotcom.files.wordpress.com/2013/12/olap.png
Como se observa en el grfico superior en un modelo de datos OLAP, la informacin

es vista como cubos, los cuales consisten de valores cualitativos, atributos
(dimensiones) y valores cuantitativos, mtricas (medidas).
Un analista de negocio ve a una consulta analtica en trminos de un cierto nmero de

perspectivas de anlisis (dimensiones) tales como productos, cliente, vendedor,
tiempo, regiones, fabricantes, o artculos y desea poder analizar un conjunto de
valores cuantitativos (cantidades, montos, ratios, etc.) de tal manera que usando estos
componentes pueda lograr distintas vistas de una misma consulta.
Ejemplo
Para la cadena de tiendas de alquiler de videos que posee 3 sucursales, el sistema
OLAP le permite presentar informacin consolidada por cada sucursal, compararla y
tomar decisiones apropiadamente.

TIENDA
Miraflores San Borja Surco
CATEGORIA
Drama 120 100 85
Comedia 250 210 190
Ciencia Ficcin 52 25 45
Infantil 90 75 70
Terror 40 20 28
Sin embargo, la tienda de alquiler de videos tambin deseara ver cmo se desarrollan
las ventas en el tiempo. Para hacer esto, se necesitaran varias hojas de clculo.
De esta manera, las medidas que deseamos visualizar del negocio se encontrarn
almacenadas en la interseccin de las perspectivas de anlisis, en sectores llamados
celdas del cubo, como se grafica a continuacin:
M ARZO
FEBRERO
ENERO
DRAMA 110 88 65
COMEDIA 231 142 130
CIENCIA
FICCIN 29 20 20
INFANTIL 74 64 35
TERROR 27 17 12

Siguiendo con el ejemplo anterior, con este cubo podemos ahora tomar rebanadas del
mismo para responder preguntas como:
Cunto se alquila por categora de video en cada tienda en un mes dado?

Categora de video por tienda en un mes dado
Qu tiendas han mejorado sus alquileres de video dado a travs del tiempo?
Tienda por tiempo de una categora de video dado
Cunto se alquila por categora de video a travs del tiempo en una tienda
dada?
Sistemas OLTP vs OLAP

En cuanto a las soluciones transaccionales y las soluciones Data Warehousing
tambin tenemos diferencias:
Frecuencia de actualizacin: las soluciones transaccionales se encuentran en
tiempo real, manteniendo la data actualizada. En cambio, las soluciones Data
Warehousing, poseen una periodicidad de carga: diario, semanal, mensual, etc,
pudiendo estar sus datos en tiempo real o cercano al tiempo real.
Estructurado para responder a las transacciones diarias de la empresa y
diseada para conservar una alta integridad de datos, a diferencia de ello, las
soluciones Data Warehousing estn estructurados para proporcionar facilidad y
velocidad en la consulta.
Optimizado para las soluciones transaccionales estn optimizados para el
registro diario de las operaciones del negocio. Las soluciones Data
Warehousing estn optimizados para la consulta, de tal forma que se d la
manera ms amigable y rpida.
1.2.4. Las visiones de Bill Inmon y Ralph Kimball
Bill Inmon
Bill Inmon es universalmente reconocido con el Padre del Data Warehouse. Tiene
ms de 26 aos de experiencia en el campo de las bases de datos y diseo de Data
Warehouses, ha publicado cerca de 40 libros y ms de 350 artculos en las ms
importantes revistas especializadas. Su libro ms reconocido es Building
DataWarehouse Bill Inmon ve la necesidad de transferir la informacin de los
diferentes OLTP (Sistemas Transaccionales) de las organizaciones a un lugar
centralizado donde los datos puedan ser utilizados para el anlisis (sera el CIF o
Corporate Information Factory). Insiste adems en que ha de tener las siguientes
caractersticas:
Orientado a temas. Los datos en la base de datos estn organizados de manera

que todos los elementos de datos relativos al mismo evento u objeto del mundo
real queden unidos entre s.
Integrado. La base de datos contiene los datos de todos los sistemas
operacionales de la organizacin, y dichos datos deben ser consistentes.
No voltil. La informacin no se modifica ni se elimina, una vez almacenado un
dato, ste se convierte en informacin de slo lectura, y se mantiene para futuras
consultas.
Variante en el tiempo. Los cambios producidos en los datos a lo largo del tiempo
quedan registrados para que los informes que se puedan generar reflejen esas
variaciones.
La informacin ha de estar a los mximos niveles de detalle. Los Dw departamentales

o datamarts son tratados como subconjuntos de este Dw corporativo, que son
construidos para cubrir las necesidades individuales de anlisis de cada

departamento, y siempre a partir de este Dw Central (del que tambin se pueden

construir los ODS (Operational Data Stores ) o similares).
El enfoque Inmon tambin se referencia normalmente como Top-down. Los datos son
extrados de los sistemas operacionales por los procesos ETL y cargados en las reas
de stage, donde son validados y consolidados en el DW corporativo, donde adems
existen los llamados metadatos que documentan de una forma clara y precisa el
contenido del DW. Una vez realizado este proceso, los procesos de refresco de los
Data Mart departamentales obtienen la informacin de l, y con las consiguientes
transformaciones, organizan los datos en las estructuras particulares requeridas por
cada uno de ellos, refrescando su contenido.
Al tener este enfoque global, es ms difcil de desarrollar en un proyecto sencillo (pues

estamos intentando abordar el todo, a partir del cual luego iremos al detalle).
Ralph KimBall
Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial
en usar iconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems,
fundador y CEO de Red Brick Systems. Kimball es un referente de la metodologa
dimensional para disear grandes Data Warehouses, fue el que realmente explot al
mximo el tema de Data Warehousing.
Actualmente ensea Data Warehousing a diferentes grupos y ayuda a clientes con

tcnicas de diseo especficos. Kimball es columnista de la revista Intelligent
Enterprise y tiene relacin con Sagent Technology, Inc. Su libro The Data Warehouse
Tookit es ampliamente reconocido como un pilar sobre la materia.
Para Ralph Kimball el Data Warehouse es un conglomerado de todos los Data Marts
dentro de una empresa, siendo una copia de los datos transaccionales estructurados
de una forma especial para el anlisis, de acuerdo al Modelo Dimensional (no
normalizado), que incluye, las dimensiones de anlisis y sus atributos, su organizacin
jerrquica, as como los diferentes hechos de negocio que se quieren analizar. Por un
lado tenemos tablas para las representar las dimensiones y por otro lado tablas para
los hechos (las facts tables). Los diferentes Data Marts estn conectados entre s por
la llamada bus structure, que contiene los elementos anteriormente citados a travs de
las dimensiones conformadas (que permiten que los usuarios puedan realizar querys
conjuntos sobre los diferentes Data Marts, pues este bus contiene los elementos en
comn que los comunican). Una dimensin conformada puede ser, por ejemplo, la
dimensin cliente, que incluye todos los atributos o elementos de anlisis referentes a

los clientes y que puede ser compartida por diferentes Data Marts (ventas, pedidos,
gestin de cobros, etc).
Este enfoque tambin se referencia como Bottom-up, pues al final el Datawarehouse

Corporativo no es ms que la unin de los diferentes Datamarts, que estn
estructurados de una forma comn a travs de la bus structure. Esta caracterstica le
hace ms flexible y sencillo de implementar, pues podemos construir un Data Mart
como primer elemento del sistema de anlisis, y luego ir aadiendo otros que
comparten las dimensiones ya definidas o incluyen otras nuevas. En este sistema, los
procesos ETL extraen la informacin de los sistemas operacionales y los procesan
igualmente en el rea stage, realizando posteriormente el llenado de cada uno de los
Data Mart de una forma individual, aunque siempre respetando la estandarizacin de
las dimensiones (dimensiones conformadas).
1.2.5. Arquitectura Zachman
Introduccin a la arquitectura de Zachman
La construccin de un Data Warehouse involucra tres tipos de tcnicas. En primer

lugar, las tcnicas empresariales relacionadas con la comprensin del significado de
los datos que contiene un Data Warehouse. En segundo lugar las tcnicas
relacionadas con la tecnologa debido a la necesidad de interactuar con muchas
tecnologas, distribuidores y usuarios finales. Finalmente las tcnicas administrativas,
que deben permitir administrar la diversidad de procesos, usuarios, temas de negocio,
y tecnologas.
Para compartir una visin desde distintos puntos de vista, es necesario tener un
diagrama. El mismo permite ver algo complicado y hacerlo inteligible mediante el uso
de analogas que simplifican y ayudan a separar una solucin compleja en
componentes pequeos.
Los requerimientos de un Data Warehouse son tan variados y diversos como sus
usuarios. Estos requerimientos se pueden analizar desde la perspectiva de cada
usuario.
Las perspectivas de la arquitectura de Zachman

El diagrama de Zachman es una de las formas ms eficaces de visualizar un sistema

desde muchas perspectivas. En una compaa, las personas tienen diferentes roles y,
por lo tanto, tienen diferentes perspectivas dependiendo de sus necesidades y usos de
la informacin
Hay 5 roles bsicos en la creacin de un producto:
Planificador: define parmetros bsicos, especifica el alcance.

El dueo (inversionista): proporciona informacin sobre el producto y su uso.
Diseador: especifica el producto, de manera que se cubran las expectativas
del dueo.
Constructor: administra el proceso de construccin y ensamblaje.
Sub-contratista: construye cada componente especificado por el constructor.
Las perspectivas se caracterizan por:
Las dimensiones de la arquitectura de Zachman.

Las dimensiones de la arquitectura de Zachman son una forma abstracta de entender

las necesidades de cada perspectiva.
Se busca dar respuesta a las siguientes preguntas:
Las dimensiones se caracterizan por:
Beneficios de la arquitectura de referencia
La arquitectura de referencia facilita las siguientes tareas:

Evaluacin de las inversiones actuales
Anlisis de los costos y beneficios
Anlisis y administracin de riesgos
Evaluacin de distribuidores
Evaluacin de productos y herramientas
Mantenimiento y mejoramiento
Planeacin y administracin de proyectos
Evaluar la tecnologa
Simulacin de proyectos
Arquitectura y diseo
Los bloques de construccin de la arquitectura de referencia

La arquitectura de referencia divide el Data Warehouse en bloques de construccin y

capas.
Bloques: se relacionan con la funcionalidad especfica del Data Warehouse.
Capas: representan el ambiente necesario para la implementacin de los
bloques.
Una visin de alto nivel de la arquitectura de referencia sera la siguiente:
Los bloques del diagrama de Zachman:
El bloque de fuentes de datos en detalle:
Bloque de construccin del Data Warehouse.

Bloque de construccin de datos derivados:
Bloque de acceso y uso del Data Warehouse:

Las capas en el diagrama de Zachman
La capa de administracin de datos
La capa de administracin de metadatos
La capa de transporte:
La capa de infraestructura:

La arquitectura de referencia de Zachman para Data Warehouse nos ayuda a analizar

y definir los componentes que deben ser implementados en el Data Warehouse y la
forma en que se debe hacer esta implementacin. Es til tambin para determinar
cules son los incrementos en la construccin del Data Warehouse.
Resumen
1. Inteligencia de negocios es obtener conocimiento a partir de datos propios de la
empresa para la toma de decisiones.
2. Existe 03 tipos de informaciones dentro de un negocio:
a. Informacin Estratgica
b. Informacin Tctica.
c. Informacin Operacional
3. Desde tiempos antiguos se empleaba la informacin obtenida (experiencias)

para tomar la decisin de ciertas tareas en el campo.
4. En la construccin de un proyecto cualquiera, cada persona tiene una perspectiva

distinta definida por el rol que desempea.
5. Las dimensiones de la arquitectura de Zachman, nos ayudan a entender las

necesidades de cada perspectiva
6. La arquitectura de regencia de Zachman, especfica para Data Warehouse, est

compuesta de bloques y capas. Los bloques estn relacionados al proceso de
DataWarehousing y las capas son el soporte a este proceso.
7. La arquitectura de referencia de Zachman es un instrumento fundamental en el

anlisis, pues permite identificar en detalle todos los componentes del Data
Warehouse.

8. Una arquitectura es necesaria porque nos dice el orden en el que se deben hacer
las cosas y porque da a todos una visin de lo que ser un sistema de informacin,
gracias a que muestra un patrn reconocido universalmente.
9. En la construccin de un proyecto cualquiera, cada persona tiene una perspectiva

distinta definida por el rol que desempea
Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta
unidad:
o https://www.youtube.com/watch?v=OODib6aGmOk
o https://www.youtube.com/watch?v=9maeZ9slKwE
o https://www.youtube.com/watch?v=z5bIX75nkfg
o https://www.youtube.com/watch?v=tDtkyMfT-F8

UNIDAD
2
MODELAMIENTO DIMENSIONAL
Al trmino de la unidad, el alumno disea soluciones de datamart en base a los
requerimientos de negocio utilizando modelamiento dimensional.
TEMARIO
2.1 Tema 3 : Diseo de DataMart
2.1.1 : Modelamiento Dimensional. Qu es un modelo Dimensional?
2.1.2 : Componentes de un modelo Dimensional
2.1.3 : Surrogate Key y nivel de granularidad
2.1.4 : Tipos de modelo Dimensional
2.1.5 : Documentacin de los elementos de diseo
2.1.6 : Resolucin de casos
2.2 Tema 4 : Taller de Modelamientos Dimensional

2.2.1 : Identificando Medidas
2.2.2 : Identificando dimensiones y sus tipos
2.2.3 : Diseando niveles de granularidad
2.2.4 : Resolucin de casos prcticos
Los alumnos identifican el Modelo Dimensional y sus tipos.

Los alumnos identifican los componentes del Modelo Dimensional.
Los alumnos resuelven casos de casos prcticos de Modelamiento
Dimensional.

2.1. DISEO DE UN DATAMART

2.1.1. Modelamiento Dimensional
Conceptos preliminares
Los componentes fundamentales de la arquitectura de datos de data warehouse son

los siguientes:
rea temtica
Modelo conceptual
Modelo lgico
Modelo fsico
rea temtica
Un rea temtica es una entidad primaria que es importante para la organizacin. Un

rea temtica tpicamente es un sustantivo, por ejemplo Cliente, producto, recurso
humano entre otros.
Todo negocio est compuesto de un conjunto de reas temticas:
Modelo Conceptual
Representacin grfica y textual del anlisis que identifica los datos que necesita una
organizacin para lograr su misin, sus metas, sus objetivos, funciones y estrategias.
Un modelo de datos identifica entidades y sus relaciones entre ellas, proporcionando
una visin conceptual del negocio.
Modelo lgico
Es el modelo que representa las entidades y su estructura inherente. Adems de las

relaciones entre ellas, es independiente de las aplicaciones individuales. Contiene la
implementacin de los atributos de las entidades y las reglas de negocio (Diagrama
entidad-relacin).

Modelo fsico
Es la instancia fsica del modelo lgico. Est conformado por los estndares de
codificacin, tipos de datos, longitudes, constraints, ndices, particiones.
Qu es un Modelo Dimensional?
El modelo dimensional le permite al usuario ver la data mediante mltiples

dimensiones, por ejemplo ver las ventas por producto, por tienda, por mes por ao. Un
modelo dimensional es un modelo simple que muestra medidas, dimensiones y sus
relaciones y que puede ser presentado al usuario para verificacin. La informacin
deber ser presentada utilizando etiquetas de negocio que le sean familiares al
usuario final. Este modelo puede ser utilizado para crear un esquema fsico.
Un modelo dimensional se crea para dar respuesta a requerimientos de anlisis como

el siguiente: Cules fueron los 10 productos ms vendidos fabricados por la
compaa XYZ basados en las ventas totales por sector para cada trimestre de los dos
ltimos aos?.

2.1.2. Componentes de un modelo Dimensional
En el modelamiento Dimensional, los componentes principales son:
Hechos
Dimensiones
Hechos
Los Hechos seran aqullos datos que nos proporcionan una informacin cuantitativa
sobre las caractersticas del Negocio que queremos analizar. En nuestro caso, los
Hechos sern los datos de la accin (Precio Apertura, Precio Cierre, Mximo
Diario, Mnimo Diario, Volumen).
Su finalidad es proporcionar informacin necesaria para la gestin, facilitando el

conocimiento del Negocio o Proceso a modelar, y fundamentar, entre otras, la toma de
decisiones, facilitar los procesos de marketing (ofertas y promociones), fidelizar
clientes, valorar el desempeo de los trabajadores, etc.
Dimensin
Por otra parte, las Dimensiones buscan determinar un contexto para el anlisis de los
Hechos. Se trata de grupos homogneos de elementos, en muchas ocasiones,
jerarquizados. Su papel es promocionar la informacin contenida en los Hechos.
Las Dimensiones pueden estar jerarquizadas o no. Por ejemplo, los elementos de la
dimensin tiempo son jerarquizables, y se pueden representar en un esquema en
rbol. El primer trmino es Ao, siendo sus descendientes Trimestres, que a su vez
tienen como descendientes a los Meses, stos a las Semanas, etc. En este
contexto, definimos al Elemento Padre como el elemento superior en la jerarqua
dado un elemento (Ao es el Elemento Padre de Trimestres) y como Elemento
Hijo a los elementos inferiores en la jerarqua dado un elemento (Meses es el
Elemento Hijo de Semanas).
La relacin entre los Hechos y las Dimensiones tiene en cuenta la Granularidad.
Definimos la Granularidad como el menor grado de detalle de nuestro anlisis. Otra

forma de definirlo es cmo el menor nivel al que existe relacin entre los Dimensiones
y el conjunto de Hechos. Por lo tanto, los Hechos son explicables a partir de datos en
un entorno da-sociedad. A partir de aqu, podemos realizar Roll Up, que no es ms
que ir agregando los valores en funcin de los elementos-Padre, y as sucesivamente
hasta llegar al Elemento superior de la jerarqua. El proceso inverso, basado en
desagregar en funcin de los elementos-Hijo, se conoce como Drill Down, y busca
permitir al analista de la informacin, una forma de ver ms detalle los datos.
2.1.3. Surrogate Key y Nivel de granularidad
Surrogate Key
En el ejemplo del Dimensin Producto, el campo Producto_Key es la clave primaria de

la tabla de dimensin. Una buena prctica es establecer un tipo de dato entero y auto
generado para las claves de las tablas de dimensin, pues esto incrementar la
velocidad de las consultas (si se efectan directamente sobre el modelo STAR) o de
los procesamientos de informacin (si las consultas se efectan a travs de un cubo).

Este tipo de llave conoce como surrogada o artificial.
El campo IDProducto sirve para conocer el identificador del producto en su sistema de

origen (recurdese que la informacin del Data Mart puede tener mltiples orgenes).
Este campo ser til durante la escritura de los procesos de poblacin del Data Mart.
Nivel de Granularidad
La granularidad representa el nivel de detalle al que se desea almacenar la

informacin sobre el negocio que se est analizando. Por ejemplo, los datos referentes
a ventas o compras realizadas por una empresa, pueden registrarse da a da, en
cambio, los datos pertinentes a pagos de sueldos o cuotas de socios, podrn
almacenarse a nivel de mes.
Mientras mayor sea el nivel de detalle de los datos, se tendrn mayores posibilidades
analticas, ya que los mismos podrn ser resumidos o sumarizados. Es decir, los datos
que posean granularidad fina (nivel de detalle) podrn ser resumidos hasta obtener
una granularidad media o gruesa. No sucede lo mismo en sentido contrario, ya que por
ejemplo, los datos almacenados con granularidad media podrn resumirse, pero no
tendrn la facultad de ser analizados a nivel de detalle. O sea, si la granularidad con
que se guardan los registros es a nivel de da, estos datos podrn sumarizarse por
semana, mes, semestre y ao, en cambio, si estos registros se almacenan a nivel de
mes, podrn sumarizarse por semestre y ao, pero no lo podrn hacer por da y
semana.
2.1.4. Tipos de Modelo Dimensional
El modelo dimensional es una adaptacin especializada del modelo relacional usada

para almacenar datos en depsitos de datos, de modo que los datos fcilmente
puedan ser extrados usando consultas OLAP. En el modelo dimensional, una base
de datos consiste en una sola tabla grande de datos que son descritos usando
dimensiones y medidas. Existen 02 tipos de esquemas:
Modelo Star
El modelo estrella (Star Schema) est compuesto de una tabla central llamada tabla
de Hechos (Fact Table) y de una o varias tablas perifricas llamadas Tabla de
Dimensiones (Dimensional Table).

Obsrvese el diagrama superior. Este modelo consta de cinco tablas de dimensin:

Employee, Product, Customer, Shipper y Time, circundando a una tabla de hechos
llamada Sales_Fact.
Cada registro de la tabla Sales_Fact representa un hecho de ventas. Sus cinco
primeros campos constituyen la clave primaria, y provienen de su relacin con cada
una de las tablas de dimensin. Las columnas restantes representan las medidas
relacionadas con las ventas. A partir de este modelo, es fcil comprender que las
mtricas de ventas (almacenadas en Sales_Fact) se computan por producto,
empleado, cliente, proveedor y tiempo (almacenados en las tablas de dimensin).
Modelo Snowflake
En el modelo STAR, cada nivel es representado por una columna en la tabla de

dimensin. En el modelo SNOWFLAKE, cada nivel est representado por una tabla.
Por tanto, en este modelo una dimensin puede estar formada por varias tablas.
La siguiente tabla modela la entidad PRODUCTO, en un modelo STAR tpico:

En un modelo SNOWFLAKE, esta tabla se dividira en cuatro:
La siguiente tabla muestra una comparacin de diversas caractersticas de los

modelos STAR y SNOWFLAKE:
En un modelo STAR, la performance de las consultas y del procesamiento del Data

Mart mejora considerablemente debido a que el nmero de uniones necesarias para
obtener los datos es menor. En cambio, el modelo SNOWFLAKE, debido al alto
nmero de tablas que produce, tiene un tiempo de procesamiento y respuesta ms
alto.
Por otro lado, un modelo STAR es bastante ms sencillo que un modelo

SNOWFLAKE. El modelo SNOWFLAKE es ms difcil de entender, y sus procesos de
carga de datos son ms complejos.

2.1.5. Documentacin de los elementos de Diseo
Para el modelamiento dimensional se tienen documentos que nos permiten tener un

mejor y ms claro concepto del modelo final.
As tenemos:
- El Diagrama Star Net

- Matriz Dimensin Proceso de Negocio
- Modelo de Datos
Diagrama Star Net.-
Es un diagrama que nos muestra a travs de lneas, crculos y rectngulos la

representacin de un modelo dimensional.
El rectngulo representa los hechos (medidas), los crculos mayores son las
dimensiones, los crculos pequeos corresponden a los atributos de las dimensiones y
las lneas permiten la relacin entre estos elementos:
Matriz Dimensin - Proceso de Negocio (Bus Matrix).-
Es un diagrama de matriz que permite identificar que dimensiones intervienen en que

proceso de negocio o hecho.

Modelo Dimensional.-
Es un modelo desnormalizado basado en dos entidades: Tablas Dimensionales (tablas

perifricas) y Tablas de Hecho (tabla central), que en el siguiente punto aprenderemos
ms a detalle.
2.1.6. Resolucin de casos
Caso de Diseo Tarjetas de Crdito

Enunciado:
El rea de tarjetas de crdito de un banco desea implementar un DataMart. Se desea

visualizar la informacin de crditos concedidos y pagos hasta llegar a cada tarjeta.
Las tarjetas pueden ser de dos tipos: VISA y MASTERCARD. Tambin se desea
visualizar los crditos y pagos por cada vendedor y cada cliente. Cada cliente
pertenece a un distrito, cada distrito a una provincia y cada provincia a un
departamento. Cada vendedor pertenece a una agencia, y cada agencia pertenece a
un distrito, cada distrito a una provincia y cada provincia a un departamento. Las
mtricas deben visualizarse como totalizados anuales, semestrales, trimestrales y
mensuales. Disee las dimensiones, las medidas y el modelo de datos.
Solucin:
El primer paso en la construccin de un Data Mart es la definicin de las medidas. Del

enunciado del problema, puede deducirse que existen dos medidas en este Data Mart:
crditos concedidos y pagos.
A continuacin, se deben establecer las dimensiones del Data Mart. Se desea

visualizar la informacin por cliente y vendedor. Esto sugiere la existencia de dos
dimensiones: Cliente y Vendedor. Para cada dimensin, se deben establecer los
niveles. Cada cliente est en un distrito, cada distrito en una provincia y cada provincia
en un departamento.
Por tanto, la dimensin Cliente tiene los siguientes niveles:
- Dimensin Cliente
. Departamento
.. Provincia
Distrito
. Nombre cliente
Obsrvese el uso de la notacin de puntos para representar a los niveles. El nivel ms

superior se representa por un punto al lado izquierdo, el nivel siguiente por dos puntos,
y as sucesivamente.
Respecto de la dimensin Vendedor, se sabe que cada vendedor est en una agencia,
cada agencia en un distrito, cada distrito en una provincia y cada provincia en un
departamento. Por tanto, los niveles de la dimensin Vendedor son:
- Dimensin Vendedor
. Departamento
.. Provincia
Distrito
. Agencia
.. Nombre Vendedor
Por otro lado, las tarjetas de crdito pueden ser de dos tipos: VISA y
MASTERCARD.
Esto sugiere la existencia de la dimensin Tipo Tarjeta, con un solo nivel.

- Dimensin Tipo Tarjeta
. Tipo Tarjeta
.. Nro. Tarjeta
Por ltimo, las medidas deben visualizarse como totalizados anuales, semestrales,
trimestrales y mensuales. Por lo general, todo data mart tiene una dimensin que
representa las escalas temporales. En este caso, existe una dimensin llamada
Tiempo, que tiene la siguiente estructura:
- Dimensin Tiempo
. Ao
.. Semestre
Trimestre
. Mes
2.2. TALLER DE MODELADO DIMENSIONAL

2.2.1. Identificando Medidas
Measures (medidas): Son valores cuantitativos que almacenan las mtricas del
negocio. Estn representados por columnas numricas en la fact table.
Ejemplo:
- Cantidad Vendida
- Monto Vendido
- Impuestos
- Gasto

- Costo
Es la parte cuantitativa de los reportes y la pregunta que nos permite identificarla es

Cunto?
2.2.2. Identificando Dimensiones y sus tipos
Dimensin:
Es una entidad de negocios respecto de la cual se deben calcular las mtricas.

Ejemplos: clientes, productos, tiempo, vendedor, tienda, ubigeo, etc.
Es la parte atribuible de una solucin de Business Intelligence, es la parte cualitativa

(caractersticas) de los reportes.
Generalmente provienen de las tablas maestras de los sistemas transaccionales.

Las dimensiones estn compuestas de dos partes: Atributos y Jerarquas, y en
cantidad de registros son las tablas ms pequeas.
Las preguntas que nos permiten identificarlas son: Quin?, Qu?, Cundo?,
Dnde? A quin?
Son las reas temticas, lneas del negocio o sujetos del negocio.
Las mismas proveen un mtodo general para organizar la informacin corporativa
Definidas como un grupo de uno o ms atributos, separados y distintos uno de otros

(es decir, que no se comparten atributos).
Dentro de cada dimensin se puede definir los niveles de agregacin o sumarizacin

para cada anlisis, a estos niveles de granularidad se los caracteriza con el nombre de
atributos.
Ejemplo:
Analizamos las ventas:
Por Tienda
Por Vendedor
Por Producto
Por Semana
Por Departamento
Por Marca
Por Mes
Por Territorio de Ventas
Por Pas
Ejemplo:
Dimensin Tiempo

Dimensin Producto
Tipos de Dimensiones:
Las tablas de dimensiones se construyen incluyendo todos los atributos que la

incluyen de una forma des normalizada.
Existen diversas variantes al momento de disear las dimensiones:
Dimensiones normales o regulares (Planas)

Dimensiones Roll-up
Dimensiones Role-Playing
Dimensiones Degeneradas
Regular Dimensin:
Un foreign key existe entre la tabla de Hecho y la tabla dimensional.
TIEMPO_DIM TARJETA_FACT CLIENTE_DIM

Tiempo_Key Tiempo_Key Cliente_Key
Ao Cliente_Key IdCliente
Semestre Vendedor_Key Departamento
Trimestre TipoTarjeta_Key Provincia
Mes creditos_concedido Distrito
pagos NombreCliente
Dimensiones Roll-up
Es una dimensin que es un subconjunto de otra, necesarias para el caso en que

tenemos tablas de hechos con diferente granularidad

MES_DIM DIA_DIM
Mes_Key Dia_Key
Nombre_Mes dia
Ao Mes_Key
CUOTAVENDEDOR_FACT VENTADIARIA_FACT
Mes_Key Dia_Key
Vendedor_Key Vendedor_Key
Cuota_MontoVenta Cliente_Key
Producto_Key
Cuota_MontoVenta
Role-Playing Dimensin:
Una dimension puede ser usada mltiples veces sobre el mismo cubo/measure group.
Se ve dos dimensiones distintas:
TiempoVencimiento
TiempoPago
TIEMPO_DIM TARJETA_FACT
Tiempo_Key Tiempo_Key_Vencimiento
Ao Tiempo_Key_Pago
Semestre Cliente_Key
Trimestre Vendedor_Key
Mes TipoTarjeta_Key
creditos_concedido
pagos
Fact-Dimensin o Dimensin degenerada
Es una dimensin basada sobre un atributo de una tabla de hechos, tambien es

conocida como dimensin degenerada.
El trmino Dimensin Degenerada, hace referencia a un campo que ser utilizado

como criterio de anlisis y que es almacenado en la tabla de hechos.
Esto sucede cuando un campo que se utilizar como criterio de anlisis posee el
mismo nivel de granularidad que los datos de la tabla de hechos, y que por lo tanto no
se pueden realizar agrupaciones o sumarizaciones a travs de este campo. Los
"nmeros de orden", "nmeros de ticket", "nmeros de transaccin", etc, son algunos
ejemplos de dimensiones degeneradas.
La inclusin de estos campos en las tablas de hechos, se lleva a cabo para reducir la
duplicacin y simplificar las consultas.

VENTADIARIA_FACT
Nro_Factura
Tiempo_Key_Envio
Tiempo_Key_Pago
Vendedor_Key
Cliente_Key
Producto_Key
Unidades_Vendida
Monto_Vendido
Many to many Dimensin
Utiliza un grupo de medidas intermedia.
Siempre que sea posible, se debe evitar mantener en el DW tablas de dimensiones

con relaciones muchos a muchos entre ellas, ya que esta situacin puede, entre otros
inconvenientes, provocar la prdida de la capacidad analtica de la informacin y
conducir a una sumarizacin incorrecta de los datos.
Para explicar esta problemtica, se tomar como ejemplo la relacin existente entre
ros y provincias, es decir: Una provincia tiene uno o ms ros, y un ro pertenece a
una o ms provincias. Adems, se tomar como referencia las siguientes tablas
pertenecientes a un OLTP, que contienen bsicamente los datos relacionados a ros y
provincias:
RIO_DIM RECORRIDO_DIM PROVINCIA_DIM

Rio_Key Reccorrido_Key Provincia_Key
IdRio Rio_Key IdProvincia
NomRio Provincia_Key NombreProvicncia
2.2.3. Diseando Niveles de Granularidad
Atributos.-.
Son las caractersticas del negocio. Un grupo de atributos crean una Dimensin.
Ejemplo: Dimensin: Tiempo Atributos: Ao, Semestre, Trimestre, Mes.
Jerarquas.-.
Es la distribucin de los atributos en niveles.
Ejemplo:
Jerarqua Ubicacin:
Departamento
Provincia
Distrito
Jerarqua Calendario:
Ao
Trimestre
Distrito
Niveles.-.

Es una forma de organizar los atributos de una dimensin. Los niveles permiten
realizar la tcnica BI llamada Drill Down / Drill UP.
Ejemplo:
Jerarqua Ubicacin:
Departamento Nivel 1
Provincia Nivel 2
Distrito Nivel 3
2.2.4. Resolucin de Caso Prctico
Caso Pinacoteca:
El instituto Nacional de Cultura desea analizar la siguiente informacin:
La cantidad de cuadros que se encuentran en las pinacotecas (museo)

peruanas.
El nmero de visitas y el monto recaudado en cada museo por tipo de entrada.
Un tipo de entrada es la forma de pago que realiza la persona (Universitario,
Escolar, Adulto, AdultoMayor). Adems, es necesario detallar lo anterior por la
frecuencia de das, semanas, mes y ao.
Se desea conocer en cuantas pinacotecas ha estado un cuadro determinado y
cunto tiempo ha permanecido en la pinacoteca.
De cada pinacoteca se desea analizar su nombre, ciudad en la que se encuentra y el

rea en metros cuadrados que tiene.
De los cuadros se quiere analizar su nombre, medidas, fecha en la que fue pintado y
tcnica usada para pintarlo. Cada cuadro es pintado por un determinado pintor
(nombre, pas, ciudad, fecha de nacimiento y fecha de fallecimiento). Un pintor pueden
pertenecer o no a una escuela.
Los pintores pueden tener tambin uno o varios mecenas que los protegen (nombre,
pas, ciudad de nacimiento, fecha de nacimiento y muerte). Asimismo, se desea
conocer la fecha en que se inicia y termina el mecenazgo con cada pintor). A su vez
un mismo mecenas puede serlo de varios pintores. Mecenas es la persona que apoya
econmicamente al pintor para realizar su trabajo.
Solucin:
Identificando Medidas:
Cantidad de cuadros
Tiempo de permanencia
Nmero de visitas
Monto recaudado
Identificando Dimensiones:
Cuadro
Pintor
Pinacoteca
Mecenas
Tiempo
Escuela

Tipo de Entrada

BUS MATRIX
CUADRO PINTOR PINACOTECA MECENAS TIEMPO ESCUELA TIPO ENTRADA

Cantidad de
X X
Cuadros
Nmero de
X X X
Visitas
Monto
X X X
Recaudado
Nmero de
X X X
Das
Duracin de
X X X
Mecenazgo
Resumen
1. El modelo dimensional es una base de datos que tiene una estructura adecuada
para resolver consultas analticas.
2. Los componentes de un modelo dimensional son: Grupos de medidas y

Dimensiones
3. Existen 02 tipos de esquemas de modelo dimensional: STAR y SNOWFLAKE.
4. Es importante el SK (Surrogate Key) por un tema de performance al momento de

efectuar las consultas analticas.

5. La granularidad, permite establecer la organizacin de los datos a fin de poder

efectuar el Drill Down o Drill Up.
unidad:
o https://www.youtube.com/watch?v=j0kl1vZjsGE
o http://www.alankoo.com/2008/06/degenerated-dimensions.html
UNIDAD
3
ETL Metodologa Ralph Kimball


Al trmino de la unidad, el alumno organiza adecuadamente un proyecto
aplicando la metodologa de Kimball.
TEMARIO
3.1 Tema 5 : ETL
3.1.1 : Concepto
3.1.2 : Etapas de proceso ETL
3.1.3 : Opciones para implementar ETL
3.2 Tema 6 : Metodologa

3.2.1 : Introduccin a la metodologa de Ralph Kimball
3.2.2 : Identificando las fases de metodologa de RK
3.2.3 : Etapas de un proceso de DataMart y Data Warehouse segn RK
3.2.4 : Actividades y entregables
3.3 Tema 7 : Taller

3.3.1 : Desarrollo de un caso aplicando metodologa de Ralph Kimball
Los alumnos identifican el proceso ETL y sus etapas.

Los alumnos identifican la metodologa de Ralph Kimball y su
importancia.
Los alumnos resuelven casos de casos prcticos aplicando metodologa
de Ralph Kimball.
3.1. ETL
3.1.1. Concepto
Una vez definida la base de datos STAR o SNOWFLAKE para el Datamart, se debe
efectuar la poblacin con la informacin de los sistemas transaccionales. Este proceso
puede alcanzar niveles de complejidad muy altos.
Los procesos que pueblan el Datamart se denominan procesos ETL (Extraction,

Transformation and Loading). Estos procesos extraen la data de los sistemas
transaccionales, la transforman para asegurar la uniformidad y consistencia de los
datos, y cargan dicha informacin en el Datamart.
Con frecuencia, los procesos ETL deben modificar el formato y la presentacin de los
datos ledos desde los sistemas transaccionales. La siguiente figura muestra las
operaciones de transformacin que pueden realizarse:

Staging rea
El Staging rea es el lugar de trnsito de los datos en su camino de la fuente al Data

Warehouse. La mayor parte del esfuerzo en la construccin de un Data Warehouse se
despliega en el Staging rea, donde se construyen y se implementan los procesos
de extraccin, limpieza, transporte, transformacin y carga de los datos.
Normalmente el Data Warehouse y los sistemas transaccionales residen en

plataformas de bases de datos distintas debido a que las configuraciones que tienen
ambos ambientes son muy diferentes, y con la finalidad que los procesos de Soporte a
decisiones, que normalmente son pesados, no afecten a los sistemas operacionales.
La herramienta que se utiliza para la construccin de los procesos del Staging rea
es la herramienta ETL, que es una herramienta especializada en el tratamiento de los
datos, sobre todo en el manejo de volmenes grandes.

3.1.2. Etapas de un proceso ETL
El proceso de poblar un Data Warehouse se puede dividir en 5 tipos de subprocesos:
Descubrir
Extraer
Transformar
Transportar
Cargar
Descubrir
En esta etapa se analiza la fuente de informacin, seleccionando los datos a extraer,

los niveles de calidad de estos y la disponibilidad de los mismos.
Extraer
El proceso de extraccin se realizara sobre fuentes heterogneas, es por ello que se

debe contar con una herramienta ETL abierta a todas las fuentes y a todas las
plataformas.

Transformar
El proceso de transformacin se encarga de cambiar los formatos de datos del sistema

fuente al sistema destino, as como de realizar la integracin de las fuentes y la
estandarizacin de los datos
El componente ms importante de los procesos de transformacin es el mapeo de los

datos, que es la base de las definiciones de las reglas de transformacin, constituye la
fuente ms importante de metadatos y es la base sobre la cual se manejan los
cambios.
Los procesos de transformacin sern muy variados y dependern de las reglas del
negocio, entre los tipos ms importantes se pueden distinguir los siguientes:
Conversin de llaves concatenadas.
Columna del
Warehouse
Llave OLTP = 43N0000202 43 N 00002 02
43 N 00002 02
Cod Pas Tienda Correlativo Canal
Consolidacin de datos

Separacin de campos FREE - FORM
Separacin de datos que tienen codificacin binaria
Derivar datos a partir de las fuentes
Transformando cdigos de produccin

Asignacin de llaves artificiales
Tabla Look up
Es una tabla de referencia que bsicamente tiene dos columnas que contienen las
equivalencias entre los cdigos de las fuentes y los cdigos de Data Warehouse
Especificaciones del proceso ETL
El proceso ETL se especifica en una tabla similar a la de la figura siguiente que incluye
el mapeo de la fuente al destino y en la que se incluye las reglas de transformacin a
implementar.

Fuentes y objetivos
En general existirn procesos ETL entre la fuente y el warehouse o entre el warehouse

y los datamarts o entre el ODS y los modelos de minera de datos, o todas las
combinaciones posibles como se muestra en la figura anterior.
Estandarizacin y limpieza de datos
Estandarizacin de datos
Es el proceso orientado a la uniformizar los datos en base a las definiciones y luego en

base a la realidad. Por ejemplo un caso tpico es el que se presenta es cuando existen
campos que contienen diferente valor como por ejemplo Andy y Andrew y que se
refieren a la misma persona real, o el caso en el que el campo contiene los mismos
valores Brenda y Brenda pero que en la realidad corresponden a personas
distintas.

Este problema se puede resolver con dos tipos de procesos que son complementarios.
El primero un proceso automtico que tenga rutinas que permitan identificar
automticamente estos registros y el segundo un proceso de gestin visual que tenga
como finalidad complementar al primero.
Limpieza de datos.
El problema de la calidad de los datos se puede enfrentar en parte con rutinas de

limpieza que permitan reducir el nmero de registros con error.
En el siguiente cuadro se muestra un caso tpico de una tabla en la que se registran el

nmero de documento y el nombre digitados y en la que se puede distinguir errores de
digitacin comunes.
Al igual que en el caso anterior el problema se puede enfrentar con rutinas que
permitan identificar estos registros de manera automtica complementadas por
procesos de gestin visual de la informacin.
No. Doc. Nombre

02336589 Juan Prez Costa
2336589 Prez Costa, Juan
02336689 Juan Prez Costa
Posibles soluciones
Construir rutinas de limpieza y transformacin.
Comprar herramientas especializadas en el tratamiento de nombres.
Establecer procesos de gestin visual de la informacin.
La importancia de los metadatos
Qu son los Metadatos?

Los metadatos son como las fichas de catlogo de una biblioteca que ayudan a saber
el contenido y la ubicacin de un libro.
Importancia de los metadatos en el desarrollo del Data Warehouse
Cada etapa en la construccin del Data Warehouse genera un conjunto de metadatos

propios, estos metadatos se deben unificar en un solo repositorio.
Los metadatos que se generan en cada etapa son:
En la extraccin de las fuentes:

Identificacin de campos fuente.
Registro de cambios.
Resolucin de inconsistencias.
Mapas
Transformaciones.
En el Staging rea:
Integracin y segmentacin.
Resmenes, adiciones.
Clculos previos y derivaciones.
Transformaciones.
En el bloque de Acceso y uso:

Proporciona un mapa de navegacin para la exploracin de la informacin.
Las herramientas de explotacin generan metadatos propios.
Tipos de Metadatos por los usuarios que los utilizan:
De acuerdo al tipo de usuario los metadatos pueden ser: Metadatos tcnicos y

metadatos del negocio.

Arquitectura de metadatos
La implementacin de un Data Warehouse requiere tambin la implementacin de un

repositorio unificado de Metadatos, este repositorio recibir los metadatos que se
generan en todas los bloques de la arquitectura del Data Warehouse.
Los usuarios de los metadatos tendrn necesidad de ver los siguientes metadatos:
Usuarios tcnicos:
Datos sobre el proceso ETL
Datos sobre el DBMS.
Archivos, arquitectura.
Modelos fsico, lgico.
Mapeos.
Usuarios de negocio:
reas de negocio.
Definiciones de reglas de negocio.
Como utilizar las herramientas.
Significado de la informacin
Ubicacin de la informacin
Fuentes de metadatos
Como se puede apreciar en la arquitectura de metadatos, las fuentes de estos ltimos

son diversas y al igual que las fuentes de datos de un datawarehouse requieren
procedimientos ETL que lean los metadatos locales de cada herramienta y los
centralicen en un solo repositorio unificado

Las fuentes de metadatos son:
Lgica de programas.
Comentarios en los programas
Comentarios en archivos de datos.
Secuencias de jobs y sus comentarios.
Metadatos del repositorio de la herramienta CASE.
Modelos de datos.
Diccionarios de la base de datos.
Documentos que contengan reglas de negocio
3.1.3. Opciones para implementar proceso ETL
Los sistemas para BI tienen diferente herramientas para el proceso ETL, por ejemplo
Microsoft SQL Server 2014 ofrece mltiples opciones para la implementacin de los
procesos ETL:
Transact SQL
Consultas Distribuidas
El utilitario BCP y la sentencia Bulk Insert
SQL Server Integration Services (SSIS)
Esto se ver de manera detallada en las sesiones de laboratorio.
3.2. METODOLOGA
3.2.1. Introduccin a la metodologa de Ralph Kimball.
La metodologa hace referencia hace referencia al conjunto de procedimientos

basados en principios lgicos, utilizados para alcanzar una gama de objetivos que
rigen en una investigacin cientfica en una exposicin doctrinal.

Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial
en usar iconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems,
fundador y CEO de Red Brick Systems. Kimball es un referente de la metodologa
dimensional para disear grandes Data Warehouses, fue el que realmente explot al
mximo el tema de Data Warehousing.
Actualmente ensea Data Warehousing a diferentes grupos y ayuda a clientes con

tcnicas de diseo especficos. Kimball es columnista de la revista Intelligent
Enterprise y tiene relacin con Sagent Technology, Inc. Su libro The Data Warehouse
Tookit es ampliamente reconocido como un pilar sobre la materia.
3.2.2. Identificacin de fases de metodologa de Ralph Kimball.
Este diagrama muestra la secuencia de tareas de alto nivel requeridas para el efectivo
diseo, desarrollo e implementacin de Data Warehouses. El diagrama muestra una
vista general del mapa de ruta de un proyecto en el cual cada rectngulo es una
columna que nos indica dnde estamos, por dnde pasamos y hacia dnde debemos
dirigirnos.
Visin de programas y proyectos de Kimball
Proyecto, se refiere a una iteracin simple del KLC, desde el lanzamiento hasta
el despliegue.
Programa, se refiere a la amplia coordinacin progresiva de recursos,

infraestructura, tiempos y comunicacin a travs de mltiples proyectos. Un
programa contiene proyectos mltiples
En la realidad los programas no necesariamente inician antes del proyecto, aunque

debera ser as.
Planificacin de proyecto.
- Definir el alcance Entender los requerimientos del negocio.
- Identificar tareas
- Programacin de tareas
- Planificar el uso de los recursos.

- Asignar la carga de trabajo a los recursos

- El documento final representa un plan del proyecto.
Refuerza el plan del proyecto.
Actividades:
- Monitoreo del estado de los procesos y actividades.
- Rastreo de problemas
- Desarrollo de un plan de comunicacin comprensiva que direccione la empresa
y las reas de TI
Lnea de desarrollo
Luego de definir los requerimientos del negocio, enfocar el proyecto a tres lneas
(tracks) concurrentes:
- Tecnologa
- Datos
- Aplicaciones de BI
-
El flujo de actividad de las lneas, se indican por las flechas.
La dependencia entre tareas se indica por el alineamiento vertical de las tareas
Roles del proyecto
- Front Office: Sponsor y Directores
- Ejecutivos: Jefe de Proyecto, Lder Proyecto del Negocio.
- Lnea regular: Equipo de proyecto principal.

o Analista del sistema de negocio
o Modelador de datos
o DBA
o Diseador ETL
- Desarrollador de aplicaciones para el usuario final.
- Equipos especiales: Seguridad, Calidad

Planificacin de Proyecto
Planificacin Generando valor
3.2.3. Etapas de un proceso de Data Mart y Data Warehouse segn

metodologa de Ralph Kimball.
Planificacin del Proyecto

La planificacin del proyecto es dependiente de los requerimientos del negocio, como

podemos apreciar en el diagrama del Business Dimensional Lifecycle (BDL), ya que
los requerimientos del negocio determinan el alcance del proyecto, definen los
recursos necesarios, etc., la planificacin acotar los requerimientos ya sea por
cuestiones de recursos y/o tiempo.
Esta etapa se concentra sobre la definicin del proyecto, especficamente en la

identificacin del escenario del proyecto para saber de dnde surge la necesidad del
Data Warehouse. Factores asociados con estas etapas incluyen: identificacin de los
usuarios, sponsors, convincentes motivaciones del negocio, cooperacin entre reas
de sistemas y negocios, cultura analtica de la organizacin y anlisis de factibilidad
(tanto tecnolgica como de disponibilidad de datos). Para medir estos factores
propone un test de buena disposicin del proyecto dnde describe diferentes
escenarios posibles.
Adicionalmente, propone tcnicas (Relevamientos de Alto Nivel, Priorizacin de

Requerimientos y Pruebas de Concepto) para mitigar las deficiencias que el proyecto
pudiera tener en algunos de los factores mencionados anteriormente.
Cmo metodologa de estas etapas propone identificar el alcance preliminar

basndose en los requerimientos del negocio y no en fechas lmites (Deadlines)
construyendo la justificacin del proyecto en trminos del negocio con indicadores
como el ROI (Retorno de Inversin), NPV (Valor Presente Neto) y el IRR (ndice de
Retorno Interno).
A nivel de planificacin del proyecto, establece la identidad del mismo, el personal

(staff): los usuarios sponsors, lideres, gerentes del proyecto (tanto de sistemas como
del sector usuarios), equipo corazn del proyecto (analistas, arquitectos, DBAs,
diseadores, responsables de extraccin, desarrolladores, instructores, etc.), equipo
especial del proyecto (soporte, seguridad informtica, programadores, analistas de
calidad y testing), el desarrollo del plan del proyecto, el seguimiento y monitoreo.
Definicin de los Requerimientos del Negocio
La definicin de los requerimientos del negocio establece la base para las tres etapas
paralelas subsiguientes. Estas etapas estn focalizadas en la tecnologa, los datos y
las aplicaciones por lo cual es altamente crtica y es el centro de atencin del BDL.
Los usuarios finales y sus requerimientos impactan siempre en las implementaciones

realizadas de un Data Warehouse. Segn la perspectiva de Kimball, los
requerimientos del negocio se posicionan en el centro del Universo del Data
Warehouse. Como destaca siempre el autor, los requerimientos del negocio deben
determinar el alcance del data warehouse (qu datos debe contener, cmo debe estar
organizado, cada cunto debe actualizarse, quines y desde dnde accedern, etc.).
Kimball da consejos y tcnicas para descubrir eficazmente los requerimientos del
negocio. Estas tcticas y estrategias se focalizan sobre las entrevistas de relevamiento
(diferentes tipos, preparacin de la entrevista, roles a cubrir, bsqueda de informacin
pre-entrevista, seleccin de entrevistados, desarrollo de los cuestionarios,
planificacin, preparacin de los entrevistados, conduccin de la entrevista, contenido,
cierre, revisin de resultados, etc.).
Modelado Dimensional

Ralph Kimball es realmente un referente en el tema de modelado dimensional. Por

ejemplo en el Captulo 6 del libro A Graduate Course on Dimensional Modeling
(Kimball,1998), se introducen conceptos avanzados del modelado, tales como,
relaciones many to many en esquemas estrella, role-playing dimensions, relaciones
recursivas, manejo de granularidades diferentes, mltiples unidades de medida,
modelos multimoneda, bandas de rangos, consultas ROLAP avanzadas, anlisis
market basket, atributos puercoespn, etc.
Diseo Fsico
El diseo fsico de las base de datos se focaliza sobre la seleccin de las estructuras
necesarias para soportar el diseo lgico. Algunos de los elementos principales de
este proceso son la definicin de convenciones estndares de nombres y
configuraciones especficas del ambiente de la base de datos. Los ndices y las
estrategias de particionamiento son tambin determinadas en esta etapa.
Diseo y Desarrollo de Presentacin de Datos
Todas estas tareas son altamente crticas pues tienen que ver con la materia prima del
Data Warehouse: los datos. La desconfianza y prdida de credibilidad del Data
Warehouse sern resultados inmediatas e inevitables si el usuario se encuentra con
informacin inconsistente. Es por ello que la calidad de los datos es un factor
determinante en el xito de un proyecto de Data Warehousing. Es en esta etapa donde
deben sanearse todos los inconvenientes relacionados con la calidad de los datos
fuente.
Plan
- Crear un diagrama de flujo fuente-destino esquemtica, de una pgina y a nivel
global.
- Probar, elegir e implementar una herramienta de Data Staging.
- Profundizar en detalle por tabla destino, grficamente describir las
reestructuraciones o transformaciones complejas. Grficamente ilustrar la
generacin de las claves surrogadas. Desarrollo preliminar de la
secuencialidad de los trabajos.
-
Carga de dimensiones
- Construir y probar la carga de una tabla dimensional esttica. La principal meta
de este paso es resolver los problemas de infraestructura que pudieran surgir
(conectividad, transferencia, seguridad, etc.)
- Construir y probar los procesos de actualizacin de una dimensin.
- Construir y probar las cargas de las restantes dimensiones.
Fact Tables y automatizacin

- Construir y probar la carga histrica de las Fact Tables (carga masiva de
datos). Incluyendo bsqueda y sustitucin de claves.
- Construir y probar los procesos de cargas incrementales.
- Construir y probar la generacin de agregaciones.
- Disear, construir y probar la automatizacin de los procesos.
Diseo de la Arquitectura Tcnica
Ralph Kimball hace una analoga entre los planos arquitectnicos de una casa y la
arquitectura de un Warehouse, Se debe de tener un plan antes de comenzar, no es
simplemente reordenar y explotar la informacin.

Al igual que en una construccin, los planos sirven para comunicar los deseos entre
los clientes y el arquitecto, como as tambin para medir esfuerzos y materiales
necesarios para la obra (comunicacin, planificacin, flexibilidad y mantenimiento,
documentacin, productividad y reuso). Finalmente, argumenta Kimball (1998), un
buen conjunto de planos, como cualquier buena documentacin, nos ayudar ms
tarde cuando sea tiempo de remodelar o hacer incorporaciones.
Seleccin de Productos e Instalacin
Utilizando el diseo de arquitectura tcnica como marco, es necesario evaluar y

seleccionar componentes especficos de la arquitectura cmo ser la plataforma de
hardware, el motor de base de datos, la herramienta de ETL o el desarrollo pertinente,
herramientas de acceso, etc.
Una vez evaluados y seleccionados los componentes determinados se procede con la

instalacin y prueba de los mismos en un ambiente integrado de Data Warehousing.
Especificacin de Aplicaciones para Usuarios Finales
Kimball (1998) divide el proceso de creacin de las aplicaciones para usuarios finales
en dos grandes fases: especificacin y desarrollo. Clasifica a los usuarios segn su
perfil de consulta, desde usuarios con un perfil ms estratgico y menos predecibles
(Power Users) hasta usuarios netamente operacionales que consumen una serie de
reportes estndares (Final Users) pasando por los usuarios gerenciales con uso de
interfases push-button (EIS Users).
Kimball (1998) destaca cuatro pasos principales (siempre enfatizando el hecho de

involucrar a los usuarios en cada uno de estos pasos).
- Determinacin del conjunto de templates iniciales (identificar reportes

candidatos, clasificarlos y priorizarlos)
- Diseo de la estrategia de navegacin dentro de la aplicacin (esquema de
pantallas, esquema de carpetas directorios-, criterios de agrupamiento por
datos, por dueo, por regla del negocio, etc.)
- Determinacin de estndares (nombre de objetos, ubicacin de objetos,
formato de las salidas)
- Detalle de las especificaciones (definicin: nombre, descripcin o propsito,
frecuencia, parmetros, restricciones, layout, etc.)
Desarrollo de Aplicaciones para Usuarios Finales
Seleccin de un enfoque de implementacin

- Basado en Web
o Inter/Intranet
o Usuarios altamente distribuidos
o Manejo centralizado de nuevas versiones
- Herramienta propietaria
o Mayor complejidad de uso
o Para usuarios ms capacitados
o Instalacin local
- EIS
o Acceso estructurado
o Secuencialidad de pantallas
o Push-Button

- Interfase personalizada
o Application Programming Interface (API)
o Desarrollos propios sobre la base de un conjunto de funcionalidades
- Desarrollo de la aplicacin
o Definicin de herramienta de acceso al MetaData
o Desarrollo de Templates y esquema de navegacin de la aplicacin
o Seleccin de reportes para pre-ejecucin
- Prueba y verificacin de datos
o Descripciones
o Informacin duplicada
o Relaciones entre atributos
o Consistencia e integridad de datos con sistemas fuentes
- Documentacin y Roll Out
o Retroalimentacin con los resultados de la puesta en produccin
- Mantenimiento
o Nuevos templates
o Incorporacin de nuevos sistemas fuentes
o Monitoreo de performance
o Eliminacin de templates en desuso
Implementacin
La tecnologa que reside en el escritorio del usuario es la ltima pieza que debe ser
ubicada antes de la salida a produccin (Roll Out o Deployment).
Desafortunadamente, afirma Kimball (1998), las organizaciones frecuentemente
subestiman el esfuerzo y el tiempo requerido para esta etapa. Kimball, propone
entonces un checklist sobre actividades que deberan ocurrir antes de la implantacin,
para asegurar que la infraestructura correspondiente al ambiente del usuario est
correcta. El checklist incluye: Configuracin de Hardware, Conexin a las Bases,
Acceso a Intranet o Internet, Direcciones LAN (si no son dinmicamente asignadas),
Auditorias de Tecnologa sobre las configuraciones en las que se encontraban las
PCs.
Asimismo incluye preveer actualizaciones de hardware y software (determinando

responsables, proyecto o rea de usuario), verificaciones de seguridad (logon de red y
base de datos), prueba de procedimientos de instalacin en una variedad de
mquinas, planificacin de instalacin con la correspondiente educacin a los
usuarios. Debe instruirse al usuario en tres aspectos claves: contenido del warehouse,
aplicacin y herramientas de acceso.
Mantenimiento y crecimiento
Data Warehousing es un proceso bastante particular cuya evolucin es en forma

espiral. Esto permite ir afinando cada etapa y retroalimentndola hasta lograr el
objetivo principal, que es plasmar el requerimiento del usuario en una base de datos
para la toma de decisiones e ir creciendo con el tiempo.
Kimball (1998 brinda una serie de puntos a tener en cuenta para mantener
exitosamente el Warehouse. Entre ellos se destacan: el continuo soporte y la
constante capacitacin a usuarios de negocios, el manejo de la infraestructura
(monitoreo de base de datos, trfico, etc.), tuning de rendimiento sobre las consultas,
mantenimiento del metadata y procesos ETLs. Otros aspectos involucran el monitoreo
regular del cumplimiento de las expectativas sobre el Warehouse (variables de
medicin del xito fijadas con anterioridad), relevamiento de casos de estudio

(situaciones reales donde una decisin basada en informacin del Warehouse tuvo
impacto sobre el negocio).
Del mismo modo, la constante publicidad interna del uso del warehouse (permitiendo
acceso siempre y cuando se tenga la capacitacin correspondiente) y fluida
comunicacin con los sectores de negocios y sistemas para asegurar la buena salud
del Data Warehouse.
Gerenciamiento del Proyecto
El gerenciamiento del proyecto se encuentra en cada una de las actividades del

proyecto, desde su concepcin hasta la puesta en produccin. Es una fase vital dentro
del Business Dimensional Lifecycle (BDL) permitiendo un fluido flujo de los
requerimientos del rea usuaria hacia el equipo de desarrollo del Data Warehouse.
Asimismo el buen manejo de situaciones inesperadas que puedan hacer peligrar el

proyecto.
3.2.4. Actividades y entregables.
ASEGURAR LA CALIDAD EN LA DATA
Esta fase nos indica que el mejoramiento en la calidad de los datos del DWH es un
proceso que va ms all de la construccin del mismo DWH. A diferencia de la
limpieza de datos que apunta a corregir errores, el proceso de mejoramiento de la
calidad busca prevenirlos atacando los problemas desde su origen (Fuente de Datos)
y continuando estas mejoras en todo el tiempo debida del DWH; se debe mejorar sus
procesos de negocio y concientizar a los usuarios y gerencia de su importancia para
que se logre los beneficios deseados. Una forma indirecta para asegurar la calidad en
el DWH es mejorar los procesos de negocios que producen los datos o
reestructurarlos antes de que automaticen de tal manera que se elimine pasos
innecesarios que incluyen costo innecesarios y aaden errores para el DWH.Los
puntos ms importantes y resaltantes a considerar dentro de una organizacin para
asegurar la calidad de la data de las fuentes de origen, son:
- Definir los datos consistentemente entre todos los futuros usuarios del DWH.
- Ubicar los programas de captura de datos lo ms cerca posible del evento de
negocio que origina esos datos.
- Ingresar reglas de validacin automtica que se disparen al momento que se
ingresan los datos y validen si los mismos son correctos
- Permitir actualizar los datos siempre.
- Permitir cargar el valor "desconocido" en cada uno de los campos cuando no
se conoce el valor real.
- Estimular a la organizacin para que tenga la data lo ms actualizados y
correcto posible.
- Hacer que tanto los encargados de ingresar los datos como los encargados de
los procesos de negocios se sientan responsables de la calidad de los datos. Si
se minimiza los errores de los datos desde el origen, estos nos aseguran que la
data que ingresar DWH es confiable para la toma de decisiones en la
organizacin
Entregable en la Poltica de Calidad

- Documento Master de la Poltica de Calidad de Datos (incluye integradamente
aspectos de laExploracin de los Datos, explicacin del Diseo de las

Soluciones, Ejecucin de Rutinas de Limpieza, reglas aplicadas para Asegurar

la Calidad en los Datos).
- Presentacin en Power Point de la Poltica de Calidad del DWH.
FASE DE VISIONADO MILESTONE 0: Aprobacin del Estudio de Viabilidad
Este milestone consiste en la entrega y aprobacin del estudio de viabilidad del rea
gerencial, siendo este milestone el punto de inicio para que se emprenda el proceso
de DWH en la organizacin.
Entregables
- Documento del Estudio de Viabilidad
MILESTONE 1: Visin y Alcance Aprobados
Este milestone culmina con la Fase de Visionado, en este punto tanto el equipo como
los clientes se tiene que poner de acuerdo en toda la direccin del proyecto, como que
caractersticas de la solucin se incluirn o no.
Entregables
- Trabajo en Power Point, presentacin de la Fase de Visionado del DWH.
- Trabajo realizado en Power Point de la organizacin y el DWH.
- Documento de Visin/Alcance/Restricciones.
- Documento de Evaluacin de la Solucin.
- Documento de Estructura del Proyecto
MILESTONE 2: Plan de Proyecto Aprobado
Es la culminacin de la Fase de Planificacin, en este milestone los clientes y los

miembros del equipo estn de acuerdo en los detalles en que se entregarn y cuando.
El equipo vuelve a evaluar los riesgos, actualiza las prioridades y establece los ltimos
detalles de las estimaciones para los recursos y programas, aprueban
especificaciones. Los roles y responsabilidades son bien definidas y los mecanismos
sirven para direccionar las reas de los riegos del proyecto. Al terminar este miles ton
no significa que todas las decisiones que llegan a la Fase de Planificacin sean
finales, el equipo debe revisar y aprobar algunas sugerencias cambiantes.
Entregables
- Trabajo en Power Point, presentacin de la Fase de Planificacin del DWH.
- Plan de Proyecto Master.
- Documento de Especificaciones de los Requerimientos.
- Documento del Diseo de la Metadata y de los Objetivos Adicionales para el
Proyecto del DWH.
- Informe de Validacin del Modelado.
- Informe de la Validacin del Diseo.
- Documento del Modelo del DWH (Modelamiento, Diseo del DWH).
MILESTONE 4: Versin aprobada
Este milestone ocurre cuando el equipo tiene direccionado todos los temas
destacables esta etapa y tiene versionada la solucin o un lugar en el servicio. Una
vez que se ha corregido los errores entonces la versin esta lista para ser Aprobada y
utilizada. Al trmino de las verificaciones que realiza el Equipo del DWH, estas se
concluyen con la Aprobacin Formal de la Prueba de Aceptacin del DWH. Esta
aprobacin involucra verificar que la prueba de un ambiente especfico se tiene que

ejecutar y se incluya las funcionalidades basados en los requerimientos, adems esta

Aprobacin Formal es parte del miles ton.
Entregables
Trabajo en Poder Point, presentacin de la Fase de Estabilizacin del DWH.
Informe de la ejecucin de las pruebas y los resultados a los mdulos de la
solucin (test, herramientas de prueba, Fuentes de Cdigo y ejecutables
probados).
Informe del Miles ton Versin Aprobada.
MILESTONE 5: Implantacin aprobada
Este milestone culmina la Fase de Estabilizacin, la solucin de esta fase debe estar
proporcionando las expectativas del valor del negocio para el cliente y el equipo debe
tener eficazmente terminado los procesos y las actividades para llegar a alcanzar las
metas. El cliente debe estar de acuerdo que el equipo ha conocido sus objetivos antes
de que estos sean declarados como una solucin en el DWH o se haya concluido el
proyecto.
Entregables
Trabajo en Power Point, presentacin de la Fase de Utilizacin del DWH.
Gua/Manual del DWH realizado (funcionalidad, uso, proceso de elaboracin).
Informe del Milestone Implantacin Aprobada (datos de satisfaccin del cliente
y/ousuario).
Documento de Comparacin Alcance/Solucin y de la Definicin de los
siguientes pasos a realizar para continuar el Proceso de Inteligencia de
Negocios
Balance Costo/Valor
Lograr una cuantificacin econmica de los factores de valor no es fcil ni natural a

diferencia de los factores de costos, agregar valor econmico a los factores de valor
resulta ser en extremo complejo y subjetivo. Una alternativa es hacer una valoracin
desde la perspectiva de costos evitables, relacionados con los costos de no disponer
ella organizacin de informacin apropiada, para el proceso de Toma de Decisiones.
En este tipo de proyectos es difcil estimar de antemano con exactitud los beneficios
econmicos, aunque si el valor que introduce en la organizacin que se implementa,
pero se puede mostrar en base a estadsticas realizadas el beneficio que se obtendr
al mediano y largo plazo. En un estudio encargado a la compaa Gartner Group por
20 vendedores y consultores,se encontr un Retorno Promedio Total de la Inversin
(Return On Investment, ROI) de401% en 2.3 aos. El estudio se realiz sobre 62
organizaciones que implementaron sistemas de apoyo gerencial basados en un DWH.
En este estudio se excluyeron los proyectos fracasados, as como los ejecutados por
fuera del cronograma y costos debido que slo interesan los proyectos que fueron
ejecutados e implementados correctamente desde el punto de vista de todas las reas
de Ingeniera de Software (fundamentalmente Planificacin y Gestin de Cambios).
[BI21]
Este estudio se resume en siguiente tabla:

El DWH es una estrategia de largo plazo. Al elaborar un DWH, se debe evaluar el

costo el valor considerando un perodo de tiempo razonable para obtener beneficios.
El retorno sobre la inversin de un DWH, se comienza a percibir bastante ms tarde
del tiempo en el cual se realiz la inversin inicial. Hacer un anlisis del costo/valor
desde una perspectiva a corto plazo, despus de un tiempo de haber concluido el
DWH, los costos sern significativamente ms altos en proporcin al valor inicial, de
esta maneras evala el valor agregado en los procesos involucrados en el DWH de la
organizacin.
Entregables
- Trabajo en Power Point, presentacin de la Fase de Evaluacin del DWH.
3.3. TALLER
3.3.1. Desarrollo de un caso aplicando metodologa de Ralph Kimball.
Desarrolle el caso Northwind utilizando la metodologa de Ralph Kimball.
Escenario.-
Northwind es una empresa que comercializa productos gourmet.
Se le pide disear una solucin de inteligencia de negocios utilizando la

metodologa de Ralph Kimball que permita satisfacer los requerimientos del
negocio.
Solucin
Ricardo Marcelo, Gerente de Ventas de la empresa desea efectuar un anlisis de las

ventas de los ltimos doce meses para preparar un plan de accin con miras a
optimizarlas. Algunas de las consultas para las que deseara encontrar respuesta son
las siguientes:
- Cules son los productos de las distintas categoras que menos solicitan los
clientes?
- Cul es el nivel de ventas de los productos segn el pas de procedencia?
- Cul es el producto de cada proveedor que registra la mayor cantidad de
pedidos?
- Cunto es el monto mensual transportado por cada empresa de transportes?
- Cmo se distribuyen las ventas por regiones y por territorios?
- Los representantes de ventas, tienen el mismo nivel de pedidos colocados?
- Cul es la procedencia de nuestros clientes?

- Cul es el ranking de productos colocados en el mercado en unidades y en

monto?
Objetivo del anlisis
Analizar las ventas de la empresa.
- Paso 1: Identificar el hecho (FACT)
FACT: la Venta
Origen de datos: Orders y [Order details]
- Paso 2: Identificar la granularidad del hecho

Grano 1
La Venta de un Producto
Origen de datos: [Order details] Cada registro en [Order details] representa la venta
de un producto.
Grano 2
Una Venta
Origen de datos: Orders Cada registro de Orders representa una venta, la misma
que puede incluir 1 o ms productos.
- Paso 3: Identificar las medidas
Cubo 1 (Ventas x Producto)

Unidades vendidas
Origen de datos: [Order details].quantity
Monto vendido
Origen de datos: [Order details].quantity, [Order details].unitPrice
Cubo 2 (Ventas x Pedido)

Monto vendido
Origen de datos: [Order details].quantity, [Order details].unitPrice
- Paso 4: Analizar los requerimientos puntuales para identificar las

dimensiones
Cules son los productos de las distintas categoras que menos solicitan los clientes?
Dimensin PRODUCTO-CATEGORIA
Origen de datos: [Order details].productID
Product.productName, Product.categoryID
Categories.categoryName
Dimensin CLIENTE
Origen de datos: Orders.customerID
Customers.companyName
Cul es el nivel de ventas de los productos segn el pas de procedencia del

producto?

Dimensin PROVEEDOR
Product.supplierID
Suppliers.companyName
Dimensin PAIS_PRODUCTO
Product.supplierID
Suppliers.country
Cul es el producto de cada proveedor que registra la mayor cantidad de pedidos?
Dimensin PROVEEDOR
Product.supplierID
Suppliers.companyName
Cunto es el monto mensual transportado por cada empresa de transportes?
Dimensin TRANSPORTISTA
Origen de datos: Orders.shipVia
Shippers.companyName
Cmo se distribuyen las ventas por regiones y por territorios?
No hay data disponible para responder a este requerimiento.
Los representantes de ventas, tienen el mismo nivel de pedidos colocados?
Dimensin EMPLEADO
Origen de datos: Orders.employeeID
Employees.lastName, Employees.firstName
Cul es la procedencia de nuestros clientes?
Dimensin PAIS_CLIENTE
Origen de datos: Orders.customerID
Customers.country

Cul es el ranking de productos colocados en el mercado en unidades y en monto?
Resumen:
Objetivo del anlisis Ventas
Medidas unidadesVendidas, montoVendido
PRODUCTO-CATEGORIA, CLIENTE, PROVEEDOR,

Dimensiones PAIS_PRODUCTO, TRANSPORTISTA, EMPLEADO,
PAIS_CLIENTE
PRODUCTO-CATEGORIA, CLIENTE, PROVEEDOR,
Cubo 1 Ventas x Producto
PAIS_PRODUCTO, EMPLEADO, PAIS_CLIENTE
CLIENTE, TRANSPORTISTA, EMPLEADO,
Cubo 2 Ventas x Pedido
PAIS_CLIENTE
Resumen
1. El Staging area es el rea ms importante de un Data Warehouse, en ella se
concentran la mayor parte de los recursos cuando se construye un Data
Warehouse.
2. Los procesos ETL son los que permitirn construir el Data Warehouse
3. La herramienta ETL debe ser abierta a todos los tipos de datos y todas las
plataformas como sea posible.
4. Las tablas Look-up son componentes esenciales de los procesos de

transformacin.
5. La estandarizacin y la limpieza de datos est relacionada directamente con la

calidad de los datos y se apoya en procesos automticos y de gestin visual.
6. El problema de estandarizacin de nombres es comn a la mayora de

implementaciones de Data Warehouse.
7. Los usuarios de los metadatos son bsicamente tcnicos y de negocio.
8. Los metadatos del negocio deben ser presentados adecuadamente y son los que
permiten al usuario explorar la informacin.
9. La metodologa se basa en lo que Kimball denomina Ciclo de Vida Dimensional del

Negocio (Business Dimensional Lifecycle). Este ciclo de vida del proyecto de Data
Warehouse, est basado en cuatro principios bsicos:
a. Centrarse en el negocio: Hay que concentrarse en la identificacin de
los requerimientos del negocio y su valor asociado, y usar estos
esfuerzos para desarrollar relaciones slidas con el negocio,

agudizando el anlisis del mismo y la competencia consultiva de los

implementadores.
b. Construir una infraestructura de informacin adecuada: Disear una
base de informacin nica, integrada, fcil de usar, de alto rendimiento
donde se reflejar la amplia gama de requerimientos de negocio
identificados en la empresa.
c. Realizar entregas en incrementos significativos: Crear el almacn de
datos (DW) en incrementos entregables en plazos de 6 a 12 meses.
Hay que usar el valor de negocio de cada elemento identificado para
determinar el orden de aplicacin de los incrementos. En esto la
metodologa se parece a las metodologas giles de construccin de
software.
d. Ofrecer la solucin completa: Proporcionar todos los elementos
necesarios para entregar valor a los usuarios de negocios. Para
comenzar, esto significa tener un almacn de datos slido, bien
diseado, con calidad probada, y accesible. Tambin se deber
entregar herramientas de consulta ad hoc, aplicaciones para informes y
anlisis avanzado, capacitacin, soporte, sitio web y documentacin.
2. Podemos tambin ver tres rutas o caminos que se enfocan en tres diferentes
reas:
a. Tecnologa (Camino Superior): Implica tareas relacionadas con
software especfico, por ejemplo, Microsoft SQL Analysis Services.
b. Datos (Camino del medio): En la misma disearemos e
implementaremos el modelo dimensional, y desarrollaremos el
subsistema de Extraccin, Transformacin y Carga (Extract,
Transformation, and Load - ETL) para cargar el DW.
c. Aplicaciones de Inteligencia de Negocios (Camino Inferior): En esta
ruta se encuentran tareas en las que diseamos y desarrollamos las
aplicaciones de negocios para los usuarios finales.
unidad:
o https://www.youtube.com/watch?v=f0SXEIfOx6k
o https://www.youtube.com/watch?v=XyFU8qInKl4

UNIDAD
4
Big Data Hadoop Machine
Learning Data Mining
Al trmino de la unidad, el alumno conoce aspectos de la tecnologa y los
elementos de Big Data y Machine Learning.
TEMARIO
4.1 Tema 8 : Big Data
4.1.1 : Definicin de Big Data y su rol en el mundo empresarial
4.1.2 : Fases de desarrollo de una estrategia Big Data
4.1.3 : Gobernabilidad de datos para la gestin de volmenes de datos.
4.2 Tema 9 : Hadoop

4.2.1 : Introduccin a Hadoop
4.2.2 : Arquitectura
4.2.3 : Administracin Hadoop
4.2.4 : Componentes Hadoop
4.3 Tema 10 : Machine Learning

4.3.1 : Desarrollo de un caso aplicando metodologa de Ralph Kimball
4.3.2 : Escenarios de negocio que utilicen ML
4.3.3 : Tipos de aprendizaje
4.3.4 : Algoritmos bsicos
4.4 Tema 11 : Data Mining

4.4.1 : Concepto
4.4.2 : Proceso
4.4.3 : Normas
4.4.4 : Usos
4.5 Tema 12 : Semana Integradora

4.5.1 : El futuro de la Inteligencia de negocios
Los alumnos identifican los conceptos de tecnologa de BI.

4.1 BIG DATA
4.1.1 Definicin de Big Data y su rol en el mundo empresarial
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan
analizar, descubrir y entender ms all de lo que sus herramientas tradicionales
reportan sobre su informacin, al mismo tiempo que durante los ltimos aos el gran
crecimiento de las aplicaciones disponibles en internet (geo-referenciamiento, redes
sociales, etc.) han sido parte importante en las decisiones de negocio de las
empresas. Vamos a describir algunas caractersticas de los componentes principales
que constituyen una solucin de este tipo.
Concepto.-
El primer cuestionamiento que posiblemente llegue a su mente en este momento es

Qu es Big Data y porqu se ha vuelto tan importante? pues bien, en trminos
generales podramos referirnos como a la tendencia en el avance de la tecnologa que
ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones,
la cual es utilizada para describir enormes cantidades de datos (estructurados, no
estructurados y semi estructurados) que tomara demasiado tiempo y sera muy
costoso cargarlos a un base de datos relacional para su anlisis. De tal manera que, el
concepto de Big Data aplica para toda aquella informacin que no puede ser
procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo,
Big Data no se refiere a alguna cantidad en especfico, ya que es usualmente utilizado
cuando se habla en trminos de petabytes y exabytes de datos. Entonces Cunto es
demasiada informacin de manera que sea elegible para ser procesada y analizada
utilizando Big Data? Analicemos primeramente en trminos de bytes:

Gigabyte = 109 = 1,000,000,000

Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Adems del gran volumen de informacin, esta existe en una gran variedad de datos
que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc.,
los cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin,
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal forma
que las aplicaciones que analizan estos datos requieren que la velocidad de respuesta
sea lo demasiado rpida para lograr obtener la informacin correcta en el momento
preciso. Estas son las caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte
importante y relevante para una solucin analtica. De hecho, se vuelve mucho ms
vital cuando se usa en conjunto con la plataforma de Big Data. Pensemos en nuestras
manos izquierda y derecha, cada una ofrece fortalezas individuales para cada tarea en
especfico. Por ejemplo, un beisbolista sabe que una de sus manos es mejor para
lanzar la pelota y la otra para atraparla; puede ser que cada mano intente hacer la
actividad de la otra, mas sin embargo, el resultado no ser el ms ptimo.
De dnde proviene toda esa informacin?
Los seres humanos estamos creando y almacenando informacin constantemente y

cada vez ms en cantidades astronmicas. Se podra decir que si todos los bits y
bytes de datos del ltimo ao fueran guardados en CD's, se generara una gran torre
desde la Tierra hasta la Luna y de regreso.
Esta contribucin a la acumulacin masiva de datos la podemos encontrar en diversas

industrias, las compaas mantienen grandes cantidades de datos transaccionales,
reuniendo informacin acerca de sus clientes, proveedores, operaciones, etc., de la
misma manera sucede con el sector pblico. En muchos pases se administran
enormes bases de datos que contienen datos de censo de poblacin, registros
mdicos, impuestos, etc., y si a todo esto le aadimos transacciones financieras
realizadas en lnea o por dispositivos mviles, anlisis de redes sociales (en Twitter
son cerca de 12 Terabytes de tweets creados diariamente y Facebook almacena
alrededor de 100 Petabytes de fotos y videos), ubicacin geogrfica mediante
coordenadas GPS, en otras palabras, todas aquellas actividades que la mayora de
nosotros realizamos varias veces al da con nuestros "smartphones", estamos
hablando de que se generan alrededor de 2.5 quintillones de bytes diariamente en el
mundo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el
planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5
billones para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevara a que el trfico global de datos
mviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de

trfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones
de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a
mquina (M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades
de datos tambin es muy importante. Sensores digitales instalados en contenedores
para determinar la ruta generada durante una entrega de algn paquete y que esta
informacin sea enviada a las compaas de transportacin, sensores en medidores
elctricos para determinar el consumo de energa a intervalos regulares para que sea
enviada esta informacin a las compaas del sector energtico. Se estima que hay
ms de 30 millones de sensores interconectados en distintos sectores como
automotriz, transportacin, industrial, servicios, comercial, etc. y se espera que este
nmero crezca en un 30% anualmente.
Qu tipos de datos debo explorar?
Muchas organizaciones se enfrentan a la pregunta sobre qu informacin es la que

se debe analizar?, sin embargo, el cuestionamiento debera estar enfocado hacia qu
problema es el que se est tratando de resolver?
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una
buena clasificacin nos ayudara a entender mejor su representacin, aunque es muy
probable que estas categoras puedan extenderse con el avance tecnolgico.

- Web and Social Media: Incluye contenido web e informacin que es obtenida de
las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten

conectarse a otros dispositivos. M2M utiliza dispositivos como sensores o
medidores que capturan algn evento en particular (velocidad, temperatura,
presin, variables meteorolgicas, variables qumicas como la salinidad, etc.) los
cuales transmiten a travs de redes almbricas, inalmbricas o hbridas a otras
aplicaciones que traducen estos eventos en informacin significativa.
- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones

registros detallados de las llamadas (CDR), etc. Estos datos transaccionales estn
disponibles en formatos tanto semiestructurados como no estructurados.
- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo

de la retina, reconocimiento facial, gentica, etc. En el rea de seguridad e
inteligencia, los datos biomtricos han sido informacin importante para las
agencias de investigacin.
- Human Generated: Las personas generamos diversas cantidades de datos como

la informacin que guarda un call center al establecer una llamada telefnica,
notas de voz, correos electrnicos, documentos electrnicos, estudios mdicos,
etc.
Crecimiento de Big Data.-
El Big Data, tiene 02 tipos de crecimiento: Crecimiento vertical y crecimiento

horizontal.
El crecimiento vertical implica aumentar las capacidades Hardware a un equipo

El crecimiento horizontal implica aumentar la cantidad de equipos para distribuir la
carga de procesamiento
4.1.2 Fases de desarrollo de una estrategia BIG DATA

Para implementar esta arquitectura, necesitamos realizar varios pasos. Los

resumiremos aqu:
- Recolectar y preparar los datos de redes sociales para el anlisis
BigInsights proporciona una variedad de mecanismos de recoleccin de datos a travs

de aplicaciones pre-incorporadas. Una vez que las publicaciones de redes sociales
basadas en texto residan en BigInsights, es necesario extraer informacin de inters
de forma que pueda ser fcilmente indexada y explorada ms adelante. BigInsights
proporciona capacidades de anlisis de texto sofisticadas para ayudarle a extraer sus
entidades de inters, incluyendo productos, personas y sentimientos sobre productos.

- Modele entidades empresariales y relaciones de inters
Una aplicacin puede impulsar este proceso al especificar un modelo de entidad para
Data Explorer para ayudar a establecer diversas opciones de configuracin que
mostraremos muy pronto. Este modelo de entidad es crtico para el xito general de su
escenario de aplicacin.
El modelo de entidad capturar el conjunto de entidades y relaciones empresariales

importantes que sus analistas empresariales estarn interesados en buscar, descubrir
y explorar en Data Explorer. As, un diseo efectivo de modelo de entidad supondr
una comprensin de cmo y qu querrn buscar y explorar los analistas
empresariales.
El modelo de entidad capturar el conjunto de configuraciones importantes de su

clster de Data Explorer para reflejar su capacidad y planificacin de despliegue. Un
poco ms adelante, ver cmo capturamos productos y tuiteos como entidades
empresariales de inters clave, especificamos con mayor detalle las relaciones entre
estas entidades y proporcionamos la informacin de despliegue de topologa del
clster de Data Explorer.
- Desarrolle su primera aplicacin de indexado para indexar datos extrados de

redes sociales en Data Explorer
Estar listo para desarrollar su aplicacin de indexado al aprovechar el ciclo de vida

del desarrollo de la aplicacin de BigInsights, lo cual le permite crear, publicar y
desplegar su aplicacin con un esfuerzo mnimo. Una vez desplegada, la extraccin de
entidad de sus datos de redes sociales ser llevada a una coleccin de bsqueda de
Data Explorer y estar lista para una exploracin ms detallada utilizando la funcin de
bsqueda por facetas de Data Explorer y para compilar una aplicacin de vista de 360
grados.

- Utilizando Data Explorer para visualizacin
Data Explorer Application Builder proporciona una forma de compilar una aplicacin
que rene la informacin relevante sobre datos esparcidos en distintos sistemas. En
nuestro escenario de muestra, un ejecutivo de planificacin de productos podra
interesarse en un producto o familia de productos, as que una aplicacin de vista de
360 grados podra incluir retroalimentaciones, problemas de producto e interacciones
anteriores con el cliente.
4.1.3 Gobernabilidad de datos para la gestin de volmenes de datos
La informacin es indudablemente el activo de negocio ms importante de toda

organizacin. De tal manera que, un mal manejo de la informacin puede afectar la
toma de decisiones al no haber procesos, polticas y tecnologa que permitan
garantizar la confiabilidad de los datos.
El trmino de Gobernabilidad se refiere precisamente a ese conjunto de polticas

que definen cmo es que se deberan de administrar los datos. Sin este proceso
establecido, los datos generados da con da dejan de ser verificados, se encuentran
incompletos y desactualizados.
Ahora bien, pensemos en el mundo de big data en donde los datos tienen
comnmente una vida til corta y adems se pueden acumular rpidamente, de
manera que se vuelve imperativo definir las polticas del ciclo de vida de stos

evitando dicha acumulacin y as determinar cmo y cundo eliminar y mantener los

datos.
Big data est cambiando las caractersticas de los datos de cada sistema y para
hacerlos utilizables necesitan ser gobernados de una manera ms segura y confiable.
Recordemos los aspectos de big data definidos a travs de las 4 V's: volumen,
velocidad, variedad y veracidad. El aspecto de la veracidad cobra especial importancia
ya que necesitamos confiar en la informacin que utilizamos para tomar decisiones.
Cmo poder intervenir en la informacin si no es confiable?
Depurando el big data
Si bien es posible pensar que cualquier forma de gobierno o intento por limpiar
nuestra big data en realidad podra eliminar informacin valiosa, es necesario
determinar si los datos deben limpiarse con el mismo criterio que se aplicara a los
datos tradicionales o si se pierde valor al hacerlo. Entonces, deberan establecerse
procesos de gobernabilidad de datos para Big Data?, la respuesta es s, aunque va
directamente relacionado con el objetivo de los datos.
Existen diversos casos de uso, por ejemplo, el anlisis de clientes, el cual se ve ms

beneficiado cuando los datos tienen mayor calidad. Sin embargo otros casos como el
anlisis de identidades sospechosas, requiere que los datos sean analizados
exactamente cmo son introducidos para descubrir patrones de identidad falsos.
Muchos casos de big data incluyen el anlisis de informacin sensible; de tal modo
que las organizaciones deben definir las polticas de seguridad para proteger dicha
informacin y esas polticas deben ser monitoreadas y aplicadas.
Otro caso interesante es la integracin entre un proyecto de gestin de datos

maestros (MDM) y big data. Por ejemplo, se pueden extraer los acontecimientos
importantes sobre las redes sociales tales como un cambio en el estado civil, el
nacimiento de un nuevo integrante de familia o un cambio de domicilio para enriquecer
la informacin maestra actuando como un tipo de fuente de ese sistema. As, MDM
puede desempear un papel fundamental en las iniciativas de gobernabilidad para Big
Data, proporcionando una nica versin, obteniendo como resultado final informacin
valiosa.
Bases de Datos NONSQL

Las bases de datos (BD) tradicionales son las relacionales que usan un lenguaje
Estndar para su manipulacin y gestin, el SQL que nace en 1974 basado en Modelo
de EF COD. SQL tiene ms de 37 aos de vida. Son ejemplos de bases de datos
relacionales: ORACLE, MYSQL, SQL Server, POTGRESS, DB2, etc. Su xito se bas
en que son una solucin para los problemas de gestin y estructuracin de la
informacin de las organizaciones, con un fundamento matemtico muy fuerte,
lenguaje estandarizado (aceptado y adoptado) para su gestin (SQL), con
metodologas estructuradas formales para el diseo de los sistemas de informacin de
las organizaciones y con principios de diseo como la regla ACID (atmica
consistente aislada y Durable) estas plataformas tienen muchas herramientas
desarrolladas.
Las bases de datos NOSQL son un conjunto de bases de datos que no se ajustan al
modelo de bases de datos relacionales y sus caractersticas, estas no tienen
esquemas, no usan SQL ni permiten joins, no garantizan la propiedad ACID, escalan
horizontalmente, hacen uso amplio de la memoria principal del computador, resuelven
el problema de los altos volmenes de informacin y la inmensa cantidad de consultas
y transacciones diarias, en resumen no son relacionales.
Pero, en qu consisten?, Porque surgieron?, cual es la mejor solucin para un

problema x determinado para qu tipo de problemas se debe considerar las
alternativas NOSQL? Se debera usar una Solucin NOSQL para un problema que
tradicionalmente se ha resuelto con bases de datos relacionales. Qu se debe tener
en cuenta? Reemplazarn las bases de datos relacionales?
- Origen.
El termino NOSQL cobija varios productos, varios conceptos relacionados sobre

almacenamiento, gestin de datos y datos voluminosos. Es lo que denominan un
trmino umbrela (sombrilla) porque cobija varias elementos.
El trmino fue acuado por Calor Strozzi en 1998 y resucitado por Eric Evans (un
empleado de Rackspace,) en 2009 y el mismo sugiri se llamasen estas bases de
datos como Big Data
Las bases de datos NOSQL no nacieron en 2009 sino que se remontan a la poca de
las bases de datos de red y jerrquicas y una serie de productos que no eran
relacionales que resuelven problemas que no tienen las caractersticas similares a los
de: amazon.com, Facebook, Youtube, twitter, Netflix, Yahoo, EBay, Hulu, IBM, y que
en la poca en que surgieron no se tena internet. Desde 1965 (Knut 2010) se han
venido desarrollando productos para almacenamiento masivo, datos multi valor, de
red (grafos) , jerrquicos (arboles), con estructuras B+, productos de procesamiento de
transacciones de alto desempeo llave valor (GTM en 2000 de cdigo abierto) Por
ejemplo Neo4j empez en el ao 2000, pero si algo contribuyo al desarrollo de los
productos NOSQL fueron la serie de papers publicados por Google en 2003, 2004 y
2006 sobre cmo construir una infraestructura escalable para el procesamiento
paralelo de grandes (enormes) cantidades de datos, que origino Hadoop (y luego
Hadoop MapReduce de Yahoo) , ms tarde en 2007 Amazon liber su historia sobre
Dynamo el almacenamiento llave/Valor de alta disponibilidad. (Shashank 2011)
La innovacin clave de MapReduce es la capacidad de hacer una consulta,

dividindola y ejecutndola en paralelo a la vez, a travs de muchos servidores sobre
un conjunto de datos inmenso.

En el 2012 la cantidad de productos NOSQL paso a ser un poco ms de 120 (Sergey,

2012)
Las siguientes fechas corresponden a bases de datos NOSQL recientemente

desarrolladas como soluciones a problemas de empresas web de alto volumen de
operaciones (transacciones diarias), alto volumen de informacin (las fechas
corresponden a fechas de inicio, o en algunos casos de liberacin del producto):
JackRabbit 2006
Tokyo Cabinet 2006
Amazon Dynamo 2007
MongoDB 2007
Cassandra 2008
Proyecto t Voldemort 2008
Terrastore 2009
Redis 2009
Riak 2009
HBase 2009
Vertexdb 2009
El porque surgen las BD NOSQL se trata enseguida
El problema.-
Unos datos interesantes relacionados son:

- Desde 2010 se estn vendiendo ms dispositivos mviles que PCs.
- Son ms de 900 millones los usuarios de Facebook.
- Cada minuto se generan 50 horas de contenido en YouTube
- Twitter genera casi 8 terabytes de datos con sus ms de 90 millones de tuits al
da.
- Wall-Mart gestiona un milln de transacciones de sus clientes/ hora (2.5
petabytes)
- Se estima que en 2015 circularan por el planeta 7.900 exabytes el cluster de
produccin ms grande basado en Cassandra gestiona ms de 300 terabytes
de datos a travs de 400 mquinas
Se han creado ms datos en los ltimos dos aos que todos los aos anteriores, se
han creado datos del orden de ExaBytes (10 a la 18) por ao. Los datos son ms
entrelazados y conectados, son datos menos estructurados y datos a escala de la
web, con mucha lectura escritura, los esquemas (schemas) cambian
frecuentemente, por ejemplo las aplicaciones sociales no necesitan el mismo nivel de
ACID y la orientacin del software es hacia servicios (PasS: programas como
Servicios)
El problema aparece con los sistemas de millones de transacciones al da contra la

base de datos, otra elemento ms es que se necesita cada vez mayor flexibilidad
para escalar (escalabilidad) y porque para solucionarlo se estaban adquiriendo
mayores y ms potentes computadores.
Por tanto las bases de datos NOSQL intentan resolver problemas de

almacenamiento masivo, alto desempeo, procesamiento masivo de transacciones
(sitios con alto transito) y en trminos generales ser alternativas NOSQL a problemas

de persistencia y almacenamiento masivo (voluminoso) de informacin para las

organizaciones.
Pero la gran diferencia es como almacenan los datos. Por ejemplo una factura en el
modelo relacional termina guardndose en 4 tablas (con 3 o 4 llaves forneas
asociaciones involucradas) y en NOSQL simplemente guardan la factura y no se
disea las tablas ni su estructura por adelantado, se almacena, por ejemplo una clave
(nmero de la factura) y el Objeto (la factura) unido a lo anterior podemos afirmar que
en las bases de datos relacionales: la lectura de datos es muy costosa, existe mucha
transaccionalidad innecesaria, se asumen que los datos son densos y bien
estructurados, tienen problema de escalabilidad horizontal y no todos los problemas se
pueden modelar para una base un RDBMS
Usuarios
La tabla siguiente muestra algunos ejemplos de empresas que estn usando BD

NOSQL:
Cassandra Digg, Twitter, Rackspace, IBM, Reddit.,

Accenture, Adobe, Ericsson Cisco, HP,
Netflix, openwave, Facebook, WebEx,
Pitney bowes. , Real, Symantec,
HBase Adobe, Powerset, Stumbleupon, Yahoo,
Twitter, Facebook
MongoDB SourceForge, Justin.tv, foursquare,
Bit.ly.
www.gov.uk beta .SAP, MTV, Athena
Capital Research, Disney, IGN, The
National Archives, Guardian., NYTimes,
Forbes, Foursquare, LexisNexis, CERN,
Springer, and Doodle
Redis Github, The Guardian, Craigslist
Hadoop Amazon/A9 , Adobe, AOL, , Ebay ,
Facebook, Hulu media service, IBM
Blue , Last.fm, LinkedIn, New York
Times, Microsoft Powerset, Rackspace,
Twitter, Yahoo
Clasificacin
Segn el teorema de CAP o teorema de Brewer (ao 2000), las bases de datos solo
pueden garantizar dos de tres caractersticas:
- Consistencia
- Disponibilidad (Availability)
- Tolerancia a particiones.
Las BD relacionales satisfacen las caractersticas CA: es decir Consistencia y

disponibilidad pero tiene serios problemas con la Tolerancia a particiones (muchos
nodos), para la nube se requiere escalabilidad y se necesita sacrificar consistencia.

Las BD NOSQL manejan un concepto similar al ACID y se denomina para ellas BASE
(Basically Available, Soft-State y Eventual Consistency) donde es de prioridad la
disponibilidad sobre la consistencia, es decir que el sistema no estar probablemente
en cada instante del tiempo en estado consistente.
Las bases de datos se han venido clasificando principalmente en cuatro (4) grupos:
- De clave Valor
- Documentos
- Familia de columnas
- Grafos
o De clave Valor.
Este grupo de bases de datos NOSQL cuyo precursor fue Big Table de Google tiene
un Modelo con pares clave-Valor.
Especialmente tiles para problemas de escrituras masivas de Streaming
Transacciones tipo son: put (key, value), get (key), remove (key)
Ejemplos: Dynamo Amazon, Cassaandra, Voldemort, Redis.

Cassandra fue inciado por Facebook y hoy es un proyecto Apache de cdigo Abierto
(escrito en java).
o De Familias de Columnas.
Para definirlos mejor: Son almacenamientos de datos orientados a Columnas

Ejemplos: Casandra, Hbase.
o De documentos
Las bases de datos de este grupo permiten la gestin de informacin semi-

estructurada orientadas a documentos, son similares a registros, direccionados por
una clave nica, y se pueden recuperar con su contenido.
Tienen un modelado muy natural orientado a la web.
Ejemplos: Couchdb, Mongodb, riak
o De Grafos
Los nodos son entidades y los arcos con relaciones y contienen informacin con uso a
menudo de tablas hash distribuidas y ofrecen estructuras de datos sencillas como
arrays asociativos o almacenes de pares claves valor.
Ejemplos: Neo4j, Flockdb (twiter)
Tienen una arquitectura distribuida con datos almacenados redundantemente en

distintos servidores

4.2 HADOOP
4.2.1 Introduccin a Hadoop
Demasiados Datos

Hadoop fue creado por Doug Cutting y Mike Cafarella en 2005. Cutting, trabajaba en
en ese momento en Yahoo. Fue desarrollado originalmente para apoyar la distribucin
del proyecto de motor de bsqueda, denominado Nutch.
Apache Hadoop es un proyecto de software de cdigo abierto que permite

distribuir el procesamiento de grandes conjuntos de datos a travs de grupos de
servidores de los productos bsicos. Est diseado para escalar desde un nico
servidor a miles de mquinas, con muy alto grado de tolerancia a fallos. En lugar de
confiar en el hardware de gama alta, la resistencia de estos grupos proviene de la
capacidad del software para detectar y manejar las fallas en la capa de aplicacin.
El proyecto incluye los siguientes mdulos:
Hadoop Common: Las utilidades comunes que apoyan los otros mdulos de
Hadoop.
Hadoop Distributed File System (HDFS ): Un sistema de archivos distribuido
que permite el acceso de alto rendimiento a los datos de la aplicacin.
Hadoop YARN: Un marco para la planificacin de tareas y gestin de recursos
de clster.
Hadoop MapReduce: Un sistema basado en el hilo para el procesamiento
paralelo de grandes conjuntos de datos.
4.2.2 Arquitectura
Hadoop consiste bsicamente en el Hadoop Common, que proporciona acceso a los

sistemas de archivos soportados por Hadoop. El paquete de software The Hadoop
Common contiene los archivos .jar y los scripts necesarios para hacer correr Hadoop.
El paquete tambin proporciona cdigo fuente, documentacin, y una seccin de
contribucin que incluye proyectos de la Comunidad Hadoop.
Una funcionalidad clave es que para la programacin efectiva de trabajo, cada sistema
de archivos debe conocer y proporcionar su ubicacin: el nombre del rack (ms
precisamente, del switch) donde est el nodo trabajador. Las aplicaciones Hadoop
pueden usar esta informacin para ejecutar trabajo en el nodo donde estn los datos
y, en su defecto, en el mismo rack/switch, reduciendo as el trfico de red troncal
(backbone traffic). El sistema de archivos HDFS usa esto cuando replica datos, para
intentar conservar copias diferentes de los datos en racks diferentes. El objetivo es
reducir el impacto de un corte de energa de rack o de fallo de interruptor de modo que
incluso si se producen estos eventos, los datos todava puedan ser legibles.8
Un clster tpico Hadoop incluye un nodo maestro y mltiples nodos esclavo. El nodo
maestro consiste en jobtracker (rastreador de trabajo), tasktracker (rastreador de
tareas), namenode (nodo de nombres), y datanode (nodo de datos). Un esclavo o
compute node (nodo de cmputo) consisten en un nodo de datos y un rastreador de

tareas. Hadoop requiere tener instalados entre nodos en el clster JRE 1.6 o superior,
y SSH.
Sistemas de archivos
Hadoop Distributed File System
El Hadoop Distributed File System (HDFS) es un sistema de archivos distribuido,

escalable y porttil escrito en Java para el framework Hadoop. Cada nodo en una
instancia Hadoop tpicamente tiene un nico nodo de datos; un clster de datos forma
el clster HDFS. La situacin es tpica porque cada nodo no requiere un nodo de datos
para estar presente. Cada nodo sirve bloques de datos sobre la red usando un
protocolo de bloqueo especfico para HDFS. El sistema de archivos usa la capa
TCP/IP para la comunicacin; los clientes usan RPC para comunicarse entre ellos. El
HDFS almacena archivos grandes (el tamao ideal de archivo es de 64 MB), a travs
de mltiples mquinas. Consigue fiabilidad mediante replicada de datos a travs de
mltiples hosts, y no requiere almacenamiento RAID en ellos. Con el valor de
replicacin por defecto, 3, los datos se almacenan en 3 nodos: dos en el mismo rack, y
otro en un rack distinto. Los nodos de datos pueden hablar entre ellos para reequilibrar
datos, mover copias, y conservar alta la replicacin de datos. HDFS no cumple
totalmente con POSIX porque los requerimientos de un sistema de archivos POSIX
difieren de los objetivos de una aplicacin Hadoop, porque el objetivo no es tanto
cumplir los estndares POSIX sino la mxima eficacia y rendimiento de datos. HDFS
fue diseado para gestionar archivos muy grandes. HDFS no proporciona Alta
disponibilidad.
Otros sistemas de archivos

A junio de 2010, la lista de sistemas de archivos soportados incluye:
- HDFS: El sistema propio de Hadoop. Est diseado para la escala de decenas

petabytes de almacenamiento y funciona sobre los sistemas de archivos de base.
- Amazon S3. ste se dirige a clsteres almacenados en la infraestructura del

servidor bajo demanda Amazon Elastic Compute Cloud. No hay conciencia de
racks en este sistema de archivos, porque es todo l remoto.

- CloudStore (previamente llamado Kosmos Distributed File System), el cual es

consciente de los racks.
- FTP: ste almacena todos sus datos en un servidor FTP accessible remotamente.
- HTTP y HTTPS de solo lectura.
Hadoop puede trabajar directamente con cualquier sistema de archivos distribuido, el

cual puede ser montado por el sistema operativo subyacente simplemente usando la
URL file://, sin embargo esto tiene un precio: la prdida de la localidad. Para reducir el
trfico de red, Hadoop necesita saber qu servidores estn ms prximos a los datos;
esta informacin la pueden proporcionar los puentes especficos del sistema de
archivos especfico de Hadoop.
La configuracin por defecto incluye Amazon S3, y el almacn de archivos CloudStore,

a travs de las URLs s3:// y kfs://.
Varios puentes de sistema de archivos de terceros han sido escritos, ninguno de los
cuales estn actualmente en las distribuciones de Hadoop. stas pueden ser ms de
propsito general que HDFS, el cual est muy sesgado hacia grandes archivos y solo
ofrece un subconjunto de la semntica esperada de sistema de archivos Posix
Filesystem: no se puede bloquear o escribir en cualquier parte salvo la cola de un
archivo.
Job Tracker y Task Tracker: el motor MapReduce
Aparte del sistema de archivos, est el motor MapReduce, que consiste en un Job
Tracker (rastreador de trabajos), para el cual las aplicaciones cliente envan trabajos
MapReduce.
El rastreador de trabajos (Job Tracker) impulsa el trabajo fuera a los nodos Task
Tracker disponibles en el clster, intentando mantener el trabajo tan cerca de los datos
como sea posible. Con un sistema de archivos consciente del rack en el que se
encuentran los datos, el Job Tracker sabe qu nodo contiene la informacin, y cules
otras mquinas estn cerca. Si el trabajo no puede ser almacenado en el nodo actual
donde residen los datos, se da la prioridad a los nodos del mismo rack. Esto reduce el
trfico de red en la red principal backbone. Si un Task Tracker (rastreador de tareas)
falla o no llega a tiempo, la parte de trabajo se reprograma. El TaskTracker en cada
nodo genera un proceso separado JVM para evitar que el propio TaskTracker mismo
falle si el trabajo en cuestin tiene problemas. Se enva informacin desde el
TaskTracker al JobTracker cada pocos minutos para comprobar su estado. El estado
del Job Tracker y el TaskTracker y la informacin obtenida se pueden ver desde un
navegador web proporcionado por Jetty.
Si el Job Tracker fallaba en Hadoop 0.20 o anterior, todo el trabajo en curso se perda.
Hadoop versin 0.21 aadi algunos autoguardados al proceso; el rastreador de
trabajo graba lo que est en el sistema de archivos. Cuando un Job Tracker comienza,
busca datos para recomenzar el trabajo donde lo dej. En versiones anteriores, todo el
trabajo activo se perda cuando se reiniciaba el Job Tracker.
Las limitaciones de esto son:

La asignacin de trabajo de los seguidores de trabajo es muy sencilla. Cada rastreador

de tarea tiene un nmero de plazas disponibles, llamadas ranuras o slots (por ejemplo,
"4 slots"). Cada mapa activo o cada reduce toma (ocupa) una posicin. El Rastreador
de Trabajo asigna trabajo para el seguidor ms cercano a los datos con una ranura
disponible. No hay ninguna consideracin de la carga activa actual de la mquina
asignada, y por tanto de su disponibilidad real.
Si una tarea de seguimiento es muy lenta, se puede retrasar toda la operacin

MapReduce -especialmente hacia el final de un trabajo, donde todo puede estar a la
espera de una sola tarea lenta-. Con la ejecucin especulativa activada, sin embargo,
una tarea simple puede ejecutarse en mltiples nodos esclavos. As que esta
tecnologa permite una conexin en red muy eficiente.
Programacin de tiempo
Por defecto Hadoop usa el mtodo FIFO para programar la realizacin de trabajos
desde una cola de trabajo. En la versin 0.19 el job scheduler (programador de
trabajos) fue refactorizado fuera de Hadoop, lo cual aadi la habilidad de usar un
programador alternativo.
Programador justo
El fair scheduler (programador justo o limpio) fue desarrollado por Facebook. El
objetivo del programador es proporcionar rpida respuesta para trabajos pequeos y
calidad de servicio (QOS, en sus siglas en ingls) para trabajos de produccin. El fair
scheduler se basa en 3 conceptos bsicos:
- Los trabajos se agrupan en pools.

- Cada pool tiene asignada una porcin mnima garantizada.
- El exceso de capacidad se distribuye entre trabajos.
Por defecto, los trabajos que estn sin categorizar van a un pool por defecto. Las pools
tienen que especificar el n mnimo de slots de mapa, los reduce slots, y un lmite en el
nmero de trabajos ejecutndose.
Programador de capacidad
El programador de capacidad fue desarrollado por Yahoo. Soporta varias funciones
similares a las del fair scheduler.
- Los trabajos son presentados en las colas.

- A las colas se le asigna una fraccin de la capacidad total de recursos.
- Los recursos libres se asignan a las colas ms all de su capacidad total.
- Dentro de una cola, un trabajo con un alto nivel de prioridad tendr acceso a
los recursos de la cola.
No es posible la expropiacin de recursos cuando se est ejecutando un trabajo.
Otras aplicaciones
El sistema de archivos HDFS no se restringe a MapReduce jobs. Puede usarse para

otras aplicaciones, muchas de las cuales estn bajo desarrollo en Apache. La lista
incluye la base de datos HBase, el sistema de aprendizaje automtico Apache Mahout,
y operaciones de matriz. Hadoop puede usarse en teora para cualquier tipo de trabajo
orientado a lotes, en lugar de tiempo real, el cual es muy intensivo en datos, y ser
capaz de trabajar en piezas de datos en paralelo. En octubre de 2009, entre las
aplicaciones comerciales de Hadoop se incluan:

- Registro y/o anlisis de fuentes de clics (clickstream) de varios tipos

- Analticas de marketing
- Aprendizaje automtico y/o extraccin de datos sofisticados (data mining)
- Procesamiento de imgenes
- El tratamiento de mensajes XML
- Web de rastreo y/o procesamiento de textos
- Archivado general, incluidos los relacionales y datos tabulares, por ejemplo,
para cumplimiento
4.2.3 Administracin Hadoop
Qu es MAP REDUCE?
MapReduce es un modelo de programacin que Google est utilizando con xito, est
procesando grandes volmenes de datos. (20000 PetaBytes por da).
MapReduce provee una paralelizacin y distribucin automtica, tolerancia de fallas,

herramientas de estado y monitoreo.
Los registros de la fuente de datos (archivos, registros de la base de datos, etc.) se

introducen en la funcin de mapeo como pares de claves de valor (nombre de archivo,
lregistros).
La funcin Map () produce uno o ms valores intermedios junto con una clave de
salida.
(Valor, (Valor int,

KEY 1) KEY 1)
TXT
Final
Tarea (Valor, Shuffle (Valor int, Tarea de (Valor,
de KEY 1) Phase KEY 2) Reduccin KEY)
Mapeo
TXT (Valor, (Valor int,

KEY 1) KEY 3)
Despus de la fase de mapeo, todos los valores intermedios se combinan en una llave
de salida.
La funcin Reduce () combina aquellos valores intermedios en uno o varios valores

finales en una misma clave de salida.

Gran cantidad de entrada de

datos...
NODO 1 NODO 2 NODO 3
Porcin Porcin Porcin

de de de
Entrada Entrada Entrada
Pre carga de
datos de
entrada
Proceso de mapeo Proceso de mapeo Proceso de mapeo
datos
intermedios de
mapeado
valores
intercambiados por
el proceso
aleatorio

Proceso de
reduccin genera
una salida
Proceso de reducir Proceso de reducir Proceso de reducir
La salida se
almacena
La funcin Map() se ejecuta en paralelo creando diferentes valores intermedios desde

diferentes conjuntos de datos de entrada.
La funcin Reduce() tambin se ejecuta en paralelo cada uno generando una llave de
salida diferente.
Todos los valores son procesados independientemente.
MapReduce es un proceso batch, creado para el proceso distribuido de los datos.

Permite de una forma simple, paralelizar trabajo sobre los grandes volmenes de
datos, como combinar web logs con los datos relacionales de una base de datos
OLTP, de esta forma ver como los usuarios interactan con el website.
El modelo de MapReduce simplifica el procesamiento en paralelo, abstrayndonos de

la complejidad que hay en los sistemas distribuidos. Bsicamente las funciones Map

transforman un conjunto de datos a un nmero de pares key/value. Cada uno de estos

elementos se encontrar ordenado por su clave, y la funcin reduce es usada para
combinar los valores (con la misma clave) en un mismo resultado.
Un programa en MapReduce, se suele conocer como Job, la ejecucin de un Job

empieza cuando el cliente manda la configuracin de Job al JobTracker, esta
configuracin especifica las funciones Map, Combine (shuttle) y Reduce, adems de la
entrada y salida de los datos.
HDFS
HDFS es el sistema de almacenamiento, es un sistema de ficheros distribuido. Fue

creado a partir del Google File System (GFS). HDFS se encuentra optimizado para
grandes flujos y trabajar con ficheros grandes en sus lecturas y escrituras. Su diseo
reduce la E/S en la red. La escalabilidad y disponibilidad son otras de sus claves,
gracias a la replicacin de los datos y tolerancia a los fallos. Los elementos
importantes del clster:
NameNode: Slo hay uno en el clster. Regula el acceso a los ficheros por parte de
los clientes. Mantiene en memoria la metadata del sistema de ficheros y control de los
bloques de fichero que tiene cada DataNode.
DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los
ficheros estn formados por bloques, estos se encuentran replicados en diferentes
nodos.
4.2.4 Componentes Hadoop
Ecosistema de Hadoop en la fundacin Apache
La fundacin Apache dispone de un conjunto bastante amplio y variado de proyectos

que se pueden integrar con Hadoop, o interactuar con l, para conseguir mayor

potencia y capacidad de especializacin en los proyectos de Big Data. A continuacin

enumeramos los ms destacados.
Apache HBase: la base de datos
HBase es la base de datos oficial de Hadoop. Aunque Hadoop puede interactuar con
otras bases de datos relacionales o NoSQL, como Cassandra o BigTable, HBase es el
componente oficial/estndar NoSQL a utilizar. HBase est basada en BigTable (de
Google) por lo que es una base de datos clave-valor orientada a columnas (column-
family). Como hemos visto en el post anterior, eso quiere decir que no sigue el
esquema relacional y no admite SQL. Sin embargo, es capaz de manejar grandes
conjuntos de datos con operaciones simultneas de lectura y escritura.
Apache Hive: el data warehouse
Hive es un sistema de Data Warehouse para Hadoop que facilita la agregacin de los
datos para realizar informes (reporting) y anlisis de grandes datasets. Hive permite
realizar consultas sobre los datos usando un lenguaje similar a SQL, llamado HiveQL.
Adems permite utilizar los tradicionales MapReduce cuando el rendimiento no es el
correcto. Permite conexiones JDBC/ODBC, por lo que se integra fcilmente con otras
herramientas de Business Intelligence.

Apache Sqoop: la herramienta de ETL
Sqoop significa SQL-to-Hadoop. Se trata de una herramienta diseada para transferir

de forma eficiente informacin entre Hadoop y bases de datos relacionales.
Bsicamente, Sqoop permite importar tablas individuales, o bases de datos enteras, a
HDFS. Adems, genera clases Java gracias a las cuales se puede interactuar
fcilmente con los datos importados. Otra de sus funcionalidades principales es la
importacin desde bases de datos SQL directamente a Hive.
Apache Mahout: la plataforma de data mining
Mahout es una plataforma de aprendizaje autnomo y data mining construida sobre

Hadoop. Uno de sus principales objetivos consiste en ayudar a descubrir patrones, de
manera automtica, en grandes volmenes de datos. Conseguir detectar patrones
reales y tiles en los datos sin intervencin humana es uno de los grandes retos del
Big Data, por eso Mahout todava tiene diferentes clases sin implementar. En general,
Mahout tiene algoritmos de recomendacin, clustering y clasificacin.
Apache Lucene: el motor de bsqueda
Lucene es un motor de bsqueda escrito en Java que permite indexar cualquier texto
para luego buscar por palabras clave, o por cualquier otro criterio de bsqueda, en
tiempo rcord. Aunque en principio Lucene slo funciona sobre texto plano, existen
plugins que permiten la indexacin y bsqueda de contenidos en documentos Word,
PDF, XML o pginas HTML. El proyecto Apache Solr es una plataforma
complementaria de la fundacin Apache que aporta funcionalidades muy interesantes
al software base de Lucene.

Apache UIMA: el framework para estructurar informacin
UIMA significa Unstructured Information Management Applications (Aplicaciones de

gestin de informacin desestructurada). Se trata de un framework que permite
analizar grandes volmenes de datos no estructurados, como texto, vdeo, audio,
etc y obtener conocimiento que sea relevante para el usuario final. Por ejemplo a
partir de un fichero plano es posible descubrir que entidades son personas, lugares u
organizaciones. Apache UIMA tiene ciertas semejanzas con nuestro servicio Classora
Media Support, aunque no est tan maduro ni especializado.
Apache Stanbol: la librera de componentes semnticos
Stanbol es un conjunto de libreras semnticas que permiten realizar operaciones de

enriquecimiento de contenidos. En general, pueden utilizar el cruce con bases de
conocimiento para complementar el texto de entrada con contenidos externos
relevantes, como definiciones enciclopdicas, imgenes, vdeos o componentes de
redes sociales. Un proyecto complementario a Apache Stanbol es Apache Jena, que
permite construir aplicaciones utilizando los recursos de la web semntica, como las
APIs de Linked Data.
Apache ZooKeeper: la herramienta de sincronizacin
Zookeeper significa el guardin del Zoo. Se trata de un proyecto que proporciona una
infraestructura centralizada para servicios basados en cluster (es decir, que se
ejecutan en paralelo) y que necesitan estar sincronizados. Por ejemplo, datos de
configuracin, jerarquas de nombres, detalles de procesado etc. De esta forma,
ZooKeeper ofrece un punto de acceso comn a una gran variedad de objetos
ampliamente utilizados en grandes entornos de clster.

Apache Avro: el sistema de serializacin
Avro es un sistema de serializacin de datos, es decir, una plataforma para codificar y

homogeneizar los datos de forma que se puedan transmitir de forma ptima por la red.
Dado que los proyectos en Hadoop suelen mover cantidades descomunales de datos,
es recomendable emplear serializacin para procesarlos y almacenarlos. Esta
serializacin puede ser en texto plano, JSON, en formato binario etc. Avro permite
almacenar y leer datos fcilmente desde diferentes lenguajes de programacin y est
optimizado para minimizar espacio en disco.
Apache Pig: el helper para analizar grandes volmenes de datos
Apache Pig es una plataforma que permite simplificar el anlisis de grandes

volmenes de datos proporcionando un lenguaje de alto nivel. Su objetivo es que los
usuarios de Hadoop se puedan centrar ms en el anlisis de los datos y menos en la
creacin de programas MapReduce. Su nombre viene de una analoga con los cerdos:
al igual que los cerdos comen de todo, el lenguaje de programacin Pig est pensado
para poder trabajar en cualquier tipo de datos. Pig consta de dos componentes: el
lenguaje PigLatin y su entorno de ejecucin.
Apache Flume: el agregador de logs
Flume es un proyecto para capturar, analizar y monitorizar datos de ficheros de logs.

En general, es capaz de agregar y mover grandes volmenes de logs desde diferentes

servidores a un repositorio central, simplificando as el proceso de recoleccin.

Tambin emplea las operaciones MapReduce de Hadoop para procesar los logs en
paralelo. Otro proyecto de Apache muy parecido a Flume en cuanto a funcionalidad y
objetivos es Apache Chukwa, la principal diferencia es que Chukwa est pensado para
ser usado en batch.
4.3 MACHINE LEARNING

4.3.1 Concepto
El aprendizaje automtico o aprendizaje de mquinas es una rama de la inteligencia

artificial cuyo objetivo es desarrollar tcnicas que permitan a las computadoras
aprender sin demasiadas indicaciones explicitas (lgicas de programacin).
Se trata de crear programas capaces de generalizar comportamientos a partir de una

informacin no estructurada suministrada en forma de ejemplos.
Una definicin ms estricta:
Es un programa de computador que aprende de la experiencia E, respecto a alguna

tarea T y con medida de rendimiento o performance P, si el desempeo sobre la tarea
T, medido por P, mejora con la experiencia E.
En trminos generales, el Machine Learning convierte grandes cantidades de datos en

porciones pequeas de informacin til; es decir, gracias a un software de Aprendizaje
Automtico podemos procesar, analizar, agrupar y consolidar datos para generar
informacin valiosa que permita reconocer y decodificar patrones complejos y predecir
tendencias o comportamientos futuros, con el fin de facilitar la toma de decisiones
inteligentes basadas en esa informacin.
Hace no mucho tiempo, utilizar el Machine Learning requera implementar software

muy complejo y equipo de vanguardia, as como contratar personal especializado, y
resultaba muy caro y difcil. Actualmente, los avances tecnolgicos han permitido que
el Aprendizaje Automtico sea cada vez ms accesible y que un mayor nmero de
personas y empresas comiencen a practicar la minera de datos (sin necesidad de
tener grandes conocimientos, escribir cdigos o invertir demasiado tiempo) para
descubrir todas las posibilidades y beneficios de este tipo de solucin.
En resumen, el Aprendizaje Automtico permite:
Extraer informacin valiosa para comprender y definir una situacin o

problema.

Procesar, clasificar, interpretar, analizar y evaluar la informacin disponible.

Predecir escenarios y situaciones.
Tomar decisiones inteligentes y evaluar las probables consecuencias.
Generar aprendizaje, implementar mejoras y automatizar procesos.
Presentar reportes.
Ahora el Machine Learning no es slo cosa de robots o ciencia ficcin: est al alcance
de todos. Es necesario que las empresas identifiquen esta gran ventaja competitiva y
saquen el mximo partido a los beneficios que ofrece.
4.3.2 Escenarios de negocio
En el mundo de los negocios, el Machine Learning puede ayudar a potenciar servicios

y estrategias: encontrar prospectos, clasificar clientes, realizar previsiones de
demanda, detectar fraudes.
Hoy en da an son pocos los empresarios que han descubierto el enorme potencial
del Machine Learning aplicado en los negocios, no obstante que genera gran valor al
integrarlo con los sistemas empresariales: se puede prever la demanda, detectar fallas
y anomalas, definir un target publicitario, hacer recomendaciones en lnea, mejorar la
experiencia del cliente, reducir el riesgo de fallos sistmicos, aumentar los ingresos y
obtener significativos ahorros, entre muchas otras posibilidades.
A manera de ejemplo, estas son slo algunas de las aplicaciones prcticas del
Machine Learning en los negocios:
Sector: Financiero / Telecomunicaciones / Venta al detalle (Retail)
El ML puede ayudar a identificar:
Prospectos
Clientes insatisfechos
Clientes leales

Clientes morosos
El ML puede ayudar a obtener:
Publicidad ms efectiva
Menor riesgo de crdito
Menos fraudes
Disminucin en la tasa de desercin (churn rate)
Sector: Biomdico / Biomtrico
Usos en medicina:
Deteccin
Diagnstico y pronstico
Descubrimiento de frmacos
Usos en seguridad:
Reconocimiento facial
Verificacin de firma, iris y/o huella dactilar

Huellas de ADN

Sector: Computacin / Internet
Usos en interfaces:
Asistente para solucionador de problemas

Reconocimiento de escritura y dictado
Deteccin de ondas cerebrales
Usos en Internet:
Mejorar el hit ranking
Filtrar spam
Categorizar textos
Traducir textos
Recomendaciones

4.3.3 Tipos de aprendizaje
Existen 02 tipos de aprendizaje:
Aprendizaje Supervisado:
En el aprendizaje supervisado, se cuenta con un conjunto de datos (dataset) para lo

cual, ya se sabe cual es el resultado correcto o esperado, por tanto se toma el dataset
como base para realizar las tareas de prediccin.
Aprendizaje No Supervisado:
En el aprendizaje no supervisado, se trabaja con problemas en los cuales no se sabe,

o se sabe muy poco, respecto a los resultados que se desean predecir o esperar, se
pueden encontrar estructuras a partir de los datos, sobre los cuales, no se conoce el
efecto de las variables.
Distincin entre Aprendizaje supervisado y no supervisado
El aprendizaje supervisado se caracteriza por contar con informacin que especifica

qu conjuntos de datos son satisfactorios para el objetivo del aprendizaje. Un ejemplo
podra ser un software que reconoce si una imagen dada es o no la imagen de un
rostro: para el aprendizaje del programa tendramos que proporcionarle diferentes
imgenes, especificando en el proceso si se trata o no de rostros.
En el aprendizaje no supervisado, en cambio, el programa no cuenta con datos que

definan que informacin es satisfactoria o no. El objetivo principal de estos programas
suele ser encontrar patrones que permitan separar y clasificar los datos en diferentes
grupos, en funcin de sus atributos. Siguiendo el ejemplo anterior un software de
aprendizaje no supervisado no sera capaz de decirnos si una imagen dada es un
rostro o no pero s podra, por ejemplo, clasificar las imgenes entre aquellas que
contienen rostros humanos, de animales, o las que no contienen. La informacin
obtenida por un algoritmo de aprendizaje no supervisado debe ser posteriormente
interpretada por una persona para darle utilidad.
4.3.4 Algoritmos Bsicos
Los principales algoritmos usados en el Machine Learning son:

Supervised learning:
o Tareas de Clasificacion:
- Nearest Neighbor
- naive Bayes
- Decision trees
- Classification rule learners
- Neural networks
- Support vector machine
o Tareas de regresion (numeric):
- Linear regression
- Regression trees
- Model trees
- Neural networks
- Support vector machine
Unsupervised learning:
o Association rules (pattern detection)
o k-means clustering (clustering)
Algoritmo KNN
Este mtodo supone que los vecinos ms cercanos nos dan la mejor clasificacin y
esto se hace utilizando todos los atributos; el problema de dicha suposicin es que es
posible que se tengan muchos atributos irrelevantes que dominen sobre la
clasificacin: dos atributos relevantes perderan peso entre otros veinte irrelevantes.
Nearest Neighbors, la K representa un valor numrico entero.

Se encuentra en la categora de aprendizaje supervisado.
Clasifica nuevos casos etiquetndolo en base a la cercana de otros elementos
que se encuentran etiquetados.
Utiliza el algoritmo de Euclides para el clculo de la distancia entre puntos
(coordenadas)
Ejemplo:
Tomato (sweetness = 6, crunchiness = 4)

Food type = ?

Ploteo:
Clasificar:

Clculo:
Se concluye que la distancia mnima corresponde a Naranja (1.4), por lo tanto, el

tomate es una fruta.
Algoritmo K-Means
K -means es un mtodo de agrupamiento, que tiene como objetivo la particin de un

conjunto de n observaciones en k grupos en el que cada observacin pertenece al
grupo ms cercano a la media. Es un mtodo utilizado en minera de datos.
La agrupacin del conjunto de datos puede ilustrarse en una particin del espacio de
datos en celdas de Voronoi.
El problema es computacionalmente difcil. Sin embargo, hay eficientes heursticas

que se emplean comnmente y convergen rpidamente a un ptimo local. Estos
suelen ser similares a los algoritmos expectation-maximization de mezclas de
distribuciones gausianas por medio de un enfoque de refinamiento iterativo empleado
por ambos algoritmos. Adems, los dos algoritmos usan los centros que los grupos
utilizan para modelar los datos, sin embargo k-means tiende a encontrar grupos de
extensin espacial comparable, mientras que el mecanismo expectation-maximization
permite que los grupos que tengan formas diferentes.

Principalmente sirven para poder determinar clsteres en un conjunto de datos.

Los Clster son grupo de tems que contienen caractersticas comunes.
Se encuentra en la categora de aprendizaje NO supervisado.
La K representa el nmero de clster que se desean crear y en su mayora de
casos es un parmetro que recibe el algoritmo (lo define el usuario)
Se aplica principalmente en segmentacin de mercados, visin artificial,
geostadistica, astronoma y minera de datos en agricultura
Ejemplo:
Se agrupar en dos clsteres.
Paso 1: Crear los grupos
El enunciado pide crear 2 Clusters, as que se deben crear dos conjuntos de manera
aleatoria.
No hay problema en la aleatoriedad, usted puede crear dos grupos donde el primer
conjunto tenga un elemento y el segundo conjunto tenga los tres elementos restantes.
En otro caso puede crear un grupo donde el primer conjunto tenga dos elementos y el
otro conjunto tenga los otros dos elementos restantes, e incluso puede crear un
conjunto con cero elementos y el otro conjunto contenga los cuatro elementos
restantes.

La aleatoriedad de la agrupacin no va afectar el resultado final.
Decidimos (de manear aleatoria) crear un grupo con los elementos A y C; y otro grupo
con los elementos B y D.
Cluster1
Cluster2
Paso 2: Se calcula el centroide para cada clster
El enunciado pide crear 2 Clster, as que se deben crear dos conjuntos de manera
aleatoria.
Cluster1

Cluster2
Los valores de cada medicina (peso y PH) se consideran como coordenadas, para
calcular el centroide se obtiene la media aritmtica de cada coordenada de los valores.
Paso 3: Calcular la distancia hacia los centroides.
Se utiliza el teorema de Euclides para la distancia entre dos puntos
Por cada elemento se calcula la distancia de sus coordenadas hacia las coordenadas
de cada centroide.
Se recalcula el nuevo centroide verificando aquel que tiene la menor distancia.

El algoritmo termina si el nuevo centroide calculado es el mismo que el centroide

anterior para todo los elementos.
En este caso para el Cluster1 para el elemento C el nuevo centroide es C2 (diferente

al anterior) y para el Cluster2 el nuevo centroide para el elemento B es C1 (diferente al
anterior)
Paso 4: Bucle.
Debido a que en el caso anterior los nuevos centroides fueron diferente a su centroide
original, se forma los nuevos grupos de cluster (es decir, el elemento C pasa al cluster
2 y el elemento B pasa al clster 1) y se repite los pasos anteriores.
Hallando nuevos centroides:

Se observa que en este blucle los nuevos centroides calculados no fueron diferentes al
actual por tanto el bluce finaliza y ese seria los clusters con los elementos de
caractersticas comunes.
Resultado final:
4.4 DATA MINING

4.4.1 Concepto
Una parte fundamental de la plataforma de soporte a decisiones son los procesos de

minera de datos basados en algoritmos estadsticos y en algoritmos de
descubrimiento de informacin en Bases de datos (KDD).
Este tipo de procesos estn orientados a descubrir patrones, tendencias, relaciones,

agrupamientos relevantes para el negocio que hasta este momento eran
desconocidos.

Los roles participantes en un proceso de minera de datos son los siguientes:
Anlisis del negocio

Anlisis estadstico y matemtico
Anlisis de la informacin.
El anlisis del negocio determina las variables a analizar y los temas a analizar, luego
en la interpretacin de los resultados que se obtengan con los algoritmos.
El anlisis estadstico y matemtico es la correcta aplicacin de los algoritmos a los

problemas reales de la empresa.
El anlisis informtico se encarga del soporte tecnolgico y la provisin de informacin

para los algoritmos, se enfrentan los problemas de calidad y de normalizacin de la
informacin.
Los factores que propiciaron el crecimiento de la minera de datos son:

El Data warehouse, que proporciona la informacin integrada y se ha
enfrentado a los problemas de calidad de los datos.
La reduccin de los costos del hardware, lo que permite procesar grandes
volmenes de informacin aplicando algoritmo complejos.
La evolucin de las herramientas como los algoritmos, que facilitan al usuario
la tarea de anlisis.
Las herramientas
En el siguiente esquema se puede apreciar las funcionalidades bsicas de las

herramientas de minera de datos.

Algoritmos estadsticos
La aplicacin del anlisis estadstico tiene las siguientes fases:
Se utilizan para detectar patrones no usuales de datos.
Estos patrones se explican mediante modelos estadsticos o matemticos.

Las funciones incorporadas en una herramienta de anlisis estadstico son las
siguientes:
Funciones de visualizacin.
Funciones exploratorias.
Funciones estadsticas.
Funciones de administracin de datos.
Funciones de grabacin y reproduccin.
Herramientas de presentacin.
Herramientas de desarrollo.
Tiempo de respuesta razonable.
Los retos del trabajo con algoritmos estadsticos son los siguientes:
Trabajo intenso.
Los resultados dependen de la habilidad del analista.
Muchas veces no se sabe qu buscar.
Es complicado trabajar con datos no-numricos.
Algoritmos de descubrimiento de conocimientos.
El proceso KDD busca extraer informacin implcita no trivial de las bases de datos,
que no era conocida y que sea de utilidad. Para lograrlo se procesa la informacin con
algoritmos neuronales, rboles de decisin, entre otros.
El proceso KDD tiene las fases que se indican en la figura adjunta

Tecnologa del descubrimiento de conocimientos
Basada en algoritmos para patrones y relaciones.

Tareas genricas:
Anlisis de dependencias.
Clasificacin
Descripcin de conceptos.
Redes neuronales.
Deteccin de desviaciones.
Retos
Calidad de datos.
Bases de datos muy grandes.
Desempeo y costos.
Tcnicas de analistas empresariales.
Calidad de datos.
Bases de datos muy grandes.
Desempeo y costos.
Tcnicas de analistas empresariales.
4.4.2 Proceso
El proceso de Data Mining puede dividirse en 6 pasos:
- Seleccin del conjunto de datos: aqu se decide cules van a ser las variables
objetivos (aquellas que se quieren predecir o inferir), las variables independientes y
la seleccin de registros (datos) a utilizar.
- Anlisis de las propiedades de los datos: mediante, por ejemplo, histogramas y/o
diagramas de dispersin. Bsqueda de valores atpicos (outliers) y ausencia de
datos.

- Transformacin o pre procesamiento del conjunto de datos de entrada: en ste

paso, se normalizan los datos a una misma escala. Tambin se decide cmo se
van a tratar datos faltantes, atpicos o dudosos. Una posibilidad es tratarlos como
un tipo de dato especial o bien se decide descartarlos.
- Seleccin y aplicacin de tcnicas de minera de datos: se construye un modelo, el

cual ser utilizado sobre los datos para predecir las clases mediante clasificacin o
para descubrir grupos similares mediante segmentacin.
- Extraccin de conocimiento: una vez aplicado el paso anterior, se buscan patrones

de comportamiento en los valores de las variables del problema o relaciones de
asociacin entre dichas variables.
- Interpretacin y evaluacin de datos: el modelo debe ser validado comprobando

que las conclusiones arrojadas son vlidas y satisfactorias. Si el modelo final no
supera sta evaluacin, el proceso puede repetirse desde el principio o a partir de
cualquiera de los pasos anteriores.
4.4.3 Normas
Parmetros de minera de datos incluyen:
- Asociacin - en busca de patrones donde evento es conectado a otro evento

- El anlisis de secuencia o la ruta - buscar patrones en un evento lleva a otro
caso despus.
- Clasificacin - en busca de nuevos patrones (Puede resultar en un cambio en
la forma en que se organizan los datos, pero eso est bien).
- Clustering - encontrar y documentar visualmente grupos de hechos no
conocidos previamente.
- Forecasting - descubrir patrones en los datos que pueden conducir a
predicciones razonables acerca del futuro (Esta rea de minera de datos que
se conoce como el anlisis predictivo.)
Tcnicas de minera de datos se utilizan en muchas reas de investigacin, incluyendo

las matemticas, la ciberntica, la gentica y la comercializacin. Minera Web, un tipo
de minera de datos utilizados en la gestin de relaciones con clientes (CRM), se
aprovecha de la enorme cantidad de informacin recogida por un sitio Web para
buscar patrones de comportamiento de los usuarios.
4.4.4 Usos
Aplicaciones de Uso
Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el

mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los
Estados Unidos, el data mining se ha ido incorporando a la vida de empresas,
gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas
en explorar sus bases de datos.
En el Gobierno:
El FBI analizar las bases de datos comerciales para detectar terroristas. A principios
del mes de julio de 2002, el director del Federal Bureau ofInvestigation (FBI), John
Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la
vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra

de los consumidores, con el n de descubrir potenciales terroristas antes de que

ejecuten una accin.
Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de
datos probablemente mediante el nmero de la Seguridad Social y permitir saber si
una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las
revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia,
grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas
(como diabetes o asma), los libros que lee, los productos de supermercado que
compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La
inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar
los almacenes de datos, desarrollar redes de seguridad para compartir informacin e
implementar nuevo software analtico y de visualizacin.
En la Empresa
- Deteccin de fraudes en las tarjetas de crdito.

En 2001, las instituciones nancieras a escala mundial perdieron ms de 2.000
millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito.
El Falcon Fraud Manager es un sistema inteligente que examina transacciones,

propietarios de tarjetas y datos nancieros para detectar y mitigar fraudes. En un
principio estaba pensado, en instituciones nancieras de Norteamrica, para detectar
fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado
funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito. El
sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares
estadounidenses cada ao y protege aproximadamente ms de cuatrocientos
cincuenta millones de pagos con tarjeta en todo el mundo aproximadamente el
sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito.
- Descubriendo el porqu de la desercin de clientes de una compaa

operadora de telefona mvil.
Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus
objetivos en dos puntos: el anlisis del perl de los clientes que se dan de baja y la
prediccin del comportamiento de sus nuevos clientes. Se analizaron los diferentes
histricos de clientes que haban abandonado la operadora (12,6%) y de clientes que
continuaban con su servicio (87,4%). Tambin se analizaron las variables personales
de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se
estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del
servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales,
internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que
abandonaban la operadora generaban ganancias para la empresa; sin embargo, una
de las conclusiones ms importantes radic en el hecho de que los clientes que se
daban de baja reciban pocas promociones y registraban un mayor nmero de
incidencias respecto a la media. De esta forma se recomend a la operadora hacer un
estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos
clientes.
Al descubrir el perl que presentaban, la operadora tuvo que disear un trato ms

personalizado para sus clientes actuales con esas caractersticas. Para poder predecir
el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado
en la cantidad de datos que se poda obtener de los nuevos clientes comparados con
el comportamiento de clientes anteriores.
- Hbitos de compra en supermercados.

Un estudio muy citado detect que los viernes haba una cantidad inusualmente
elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba
a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para
el n de semana consista en que- darse en casa cuidando de su hijo y viendo la
televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas
de cerveza colocndolas prximas a los paales para fomentar las ventas
compulsivas,
- Prediciendo el tamao de las audiencias televisivas.

La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para
predecir el tamao de las audiencias televisivas para un programa propuesto, as
como el tiempo ptimo de exhibicin (Brachman y otros, 1996). El sistema utiliza redes
neuronales y rboles de decisin aplicados a datos histricos de la cadena para
determinar los criterios que participan segn el programa que hay que presentar. La
versin nal se desempea tan bien como un experto humano con la ventaja de que
se adapta ms fcilmente a los cambios porque es constantemente reentrenada con
datos actuales.
En la Universidad
- Conociendo si los recin titulados de una universidad llevan a cabo actividades

profesionales relacionadas con sus estudios.
Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas
Computacionales del Instituto Tecnolgico de Chihuahua II, en Mjico (Rodas, 2001).
Se quera observar si sus recin titulados se insertaban en actividades profesionales

relacionadas con sus estudios y, en caso negativo, se buscaba saber el perl que
caracteriz a los exalumnos durante su estancia en la universidad. El objetivo era
saber si con los planes de estudio de la universidad y el aprovechamiento del alumno
se haca una buena insercin laboral o si existan otras variables que participaban en
el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela
de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda
y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos
aproximados se descubri que existan cuatro variables que determinaban la
adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona
econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y
promedio nal al salir de la carrera.
A partir de estos resultados, la universidad tendr que hacer un estudio

socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas
bajas para dar posibles soluciones, debido a que tres de las cuatro variables no
dependan de la universidad.
En Investigaciones Espaciales
- Proyecto SKYCAT.
Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion
tres terabytes de imgenes que contenan aproximadamente dos millones de objetos
en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por
pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de
todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se
basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasicar
los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta conabilidad
(Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir
diecisis nuevos qusars con corrimiento hacia el rojo que los incluye entre los objetos

ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusars son difciles
de encontrar y permiten saber ms acerca de los orgenes del universo.
En los Clubes Deportivos
- Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su

cuerpo de entrenadores.
El Advanced Scout es un software que emplea tcnicas de data mining y que han
desarrollado investigadores de IBM para detectar patrones estadsticos y eventos
raros. Tiene una interfaz grca muy amigable orientada a un objetivo muy especco:
analizar el juego de los equipos de la National Basketball Association (NBA). El
software utiliza todos los registros guardados de cada evento en cada juego: pases,
encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario,
entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan
cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta
entonces no observado por los entrenadores de los Knicks de Nueva York. El doble
marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de
encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra
los Knicks, se encontr que el porcentaje de encestes despus de que al centro de los
Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando
que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el
porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de
juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble
marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks
antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores
crearon estrategias alternativas para tratar con el doble marcaje. La temporada
pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un
patrocinador corporativo. La NBA dio a su veinti- nueve equipos la oportunidad de
aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo
descubrimientos interesantes.
4.4.5 Anlisis de Forecasting
El Forecasting consiste en la estimacin y el anlisis de la demanda futura para un

producto, utilizando los datos histricos de venta, estimaciones de marketing e
informacin promocional, a travs de diferentes tcnicas de previsin con el objetivo
de mejorar el flujo de informacin en la cadena de suministro y preparar las diferentes
reas de la organizacin (compras, logstica, transporte, produccin, finanzas) para las
operaciones futuras. El forecasting se debe considerar como un factor fundamental
para el xito de toda la empresa y est directamente relacionado con el resultado final
de la organizacin.
Rolling forecast (pronstico dinmico) es un proceso de revisiones peridicos (suele

ser mensual) de las previsiones donde se recogen las ltimas tendencias del mercado,
se analizan la ventas y se actualizan las previsiones acorde a las novedades del
negocio. Permiten a las empresas reaccionar con mayor rapidez ante cambios del
entorno y pensar en el negocio como un proceso dinmico y constante en lugar de un
evento esttico. Es un proceso recomendable para cualquier todo tipo de empresa que
necesita almacenar producto, independientemente de sus tamao o actividad.
Problemas comunes ocasionados por falta de un proceso de rolling forecast:
- Altos costos de stocks y obsolescencia

- Frecuentes roturas de stock e inventario desequilibrado

- Bajos niveles de servicio al cliente
- Prdida de ventas y resultados insatisfactorios
4.5 SEMANA INTEGRADORA

4.5.1 El futuro de la Inteligencia de Negocios
Las herramientas informticas desarrolladas en los ltimos aos en el terreno de la

gestin empresarial ha sufrido una gran serie de cambios, que responden a la
demandas que los usuarios de este tipo de aplicaciones producen durante la
experiencia de uso de dichas herramientas.
Tal es el caso del Business Intelligence, sector que en los ltimos tiempos ha vivido las
modificaciones e innovaciones de las nuevas tecnologas de software que
constantemente llegan al mercado, ofreciendo un servicio superior y una funcionalidad
para resolver mayor cantidad de inquietudes en el campo empresarial.
La puesta en prctica de sistemas Business Intelligence ha demostrado que este

mtodo para la captura, proceso y posterior anlisis de los datos relevantes de las
operaciones productivas, da como resultado la toma de decisiones ms inteligentes, y
permite plantear pronsticos acertados, dotando as a las compaas de verdaderas
estrategias con potencial competitivo.
Como ejemplo de ello, mencionaremos el caso de la reconocida productora Twentieth

Century Fox, que desde hace aos ha implementado el sistema BI para diversas
actividades relacionadas a sus negocios.
Tal fue el xito obtenido por dicha compaa, que sus ejecutivos decidieron
implementar el BI para incluso predecir los filmes, argumentos y actores que pueden
llegar a ser populares en cada sector de los Estados Unidos y en los distintos pases
del mundo.
Gracias a esta evaluacin, XX Century Fox puede decidir qu pelculas producir y

cules no, obteniendo as un ahorro en sus inversiones que rondan los 100 millones
de dlares anuales.
De la misma manera que la productora cinematogrfica ha incorporado el sistema BI

como herramienta esencial para encarar sus negocios, esta solucin presenta
caractersticas ventajosas para cualquier tipo de compaa, incluso para pequeas y
medianas empresas.
Un futuro muy prometedor

Debido a las virtudes de este sistema, los expertos aseguran que en un futuro a corto
plazo se estima que la utilizacin de Business Intelligence aumentar en un 40%, ya
que las herramientas que brinda esta solucin empresarial permitirn conocer las
preferencias de los consumidores, incluso a nivel individual.
Se prev que en los prximos aos habr una explosin dentro del mundo de la
tecnologa informtica empresarial, que finalmente llevar a que todas las
organizaciones decidan abandonar los mtodos tradicionales de manejo de
informacin, para utilizar sistemas BI, con el fin de contar con una herramienta
administrativa que ofrezca los elementos necesarios para establecer una estrategia
adecuada que responda a los cambios del mercado en tiempo real.
Herramientas a nuestro alcance
Tambin se estima que la utilizacin de BI representar un cambio notable en lo que

actualmente conocemos como promociones de productos, ya que este sistema
ofrecer las herramientas para encarar un proyecto publicitario acorde a los productos
y los clientes.
Gracias al mtodo de manejo de informacin que se realiza por intermedio de

Business Intelligence, las empresas podrn efectuar una seleccin ms precisa al
tomar las decisiones que involucran el pblico al cual ir dirigido el mensaje de
mercadotecnia.
De esta manera, el BI producir un ahorro de ms de 200 billones de dlares al ao a

nivel mundial, evitando el desperdicio que ocasiona la publicidad innecesaria que es la
actual base de la mercadotecnia directa.
Las funcionalidades que ofrecer BI en el futuro son ilimitadas. En este punto

podramos citar una acertada frase de Bill Gates, quien en una oportunidad mencion:
"BI ayuda a rastrear lo que en realidad funciona y lo que no".
En ello justamente reside la mayor ventaja de este sistema, que en la prctica ha

demostrado ser la mejor solucin para el manejo de la informacin de las empresas,
las cuales resultan notablemente beneficiadas gracias a la incorporacin de Business
Intelligence.
4.5.1.1 Tendencias tecnolgicas y redes sociales
Tendencias tecnolgicas.-
Existen unas cuantas tendencias que no se pueden negar.
Comprender los nmeros
Segn cada una de las fuentes confiables que podemos encontrar, hay casi 3.000
millones de personas conectadas a Internet en este momento; para 2020 este nmero
ser de casi 4.000 millones. De acuerdo a Cisco, para el ao 2020 habr ms de
50.000 millones de dispositivos conectados en el mundo. A algunas personas les
gusta llamarlo el "Internet de las cosas", otros lo llaman "Machine 2 Machine" o "M2M".
No importa cmo lo llames, stas son cantidades inconcebiblemente grandes de
personas y dispositivos que estn todos conectados.
Entonces, cmo solucionamos el problema?

Se usaran tres leyes para que ayuden a entender el ritmo de cambio: la Ley de
Moore, la Ley de rendimientos acelerados y la Ley de Metcalfe. La Ley de Moore se
llama as por Gordon Moore, cofundador de Intel. l escribi un famoso artculo en
1965 en el que planteaba que la densidad de los semiconductores de silicio se
duplicara cada 18 meses.
Esto fue as por un tiempo, pero ahora, a causa de la Ley de rendimientos acelerados
(que establece que el ritmo de cambio tecnolgico se est acelerando de forma
exponencial) sabemos que esta duplicacin del poder informtico ocurre mucho ms
rpido que eso. Luego est la Ley de Metcalfe, la cual nos dice que el valor de una red
aumenta de forma proporcional al cuadrado del nmero de usuarios. Si todo esto
suena demasiado geek, no te preocupes; a continuacin detallamos cmo pensar de
forma simple sobre el notable ritmo de los cambios tecnolgicos y el enorme nmero
de personas.
1) La tecnologa est cambiando a un ritmo cada vez ms rpido. De hecho, hoy en

da experimentars el ritmo ms lento de cambios tecnolgicos de tu vida.
2) Mientras ms personas se conectan, ms potente se vuelve la red.
Conectividad: todo lo que se puede conectar, estar conectado
El precio y el tamao de la tecnologa de sensores estn disminuyendo a un ritmo

predecible (la Ley de Moore y la Ley de rendimientos acelerados), lo cual nos indica
que todo lo que se puede conectar, estar conectado. Todo... Qu exactamente
podra significar eso para nosotros?
Sobrecarga de informacin: los datos son ms poderosos ante otros datos
En 2015, tu telfono inteligente seguir siendo el centro de tu universo electrnico... y

sabr ms sobre ti de lo que supo alguna vez. Los telfonos inteligentes son el punto
de central de recopilacin de datos para tu vida en conexin y los usuarios promedio
los comprueban alrededor de 150 veces cada da. Por supuesto, veremos nuevos
dispositivos mviles este ao: porttiles, autos inteligentes, casas inteligentes y ms...
pero todos se conectarn con y a travs de tu telfono inteligente.
Entonces, mientras que en 2015 todava hay una aplicacin para eso, nuestro mundo
que gira en torno a los telfonos inteligentes es temporal.
A medida que interactuamos de forma pasiva y activa con la tecnologa conectada,

representaremos un consorcio de herramientas de recopilacin de datos. Nuestros
telfonos inteligentes podran ser la pieza central de ese consorcio, pero tambin
crearemos datos con nuestra ropa, tecnologa porttil, casas inteligentes, autos
inteligentes, etc. Recuerda, todo lo que se puede conectar, estar conectado.
Seguridad y privacidad: todo lo que puede ser hackeado, ser hackeado
Tal y como hemos aprendido de los hackeos muy pblicos en el ltimo ao (el cual
culmin con el espectacular ataque a Sony), existe una mayor necesidad de
protocolos de seguridad y privacidad.
Todo lo que puede ser hackeado, ser hackeado. Pero probablemente no de la forma
que piensas sobre el hackeo. Las violaciones de los protocolos de seguridad
ciberntica cubren un amplio espectro, desde el escndalo de la fotografa del
desnudo de Jennifer Lawrence tramada a nivel social, hasta los ataques de los

estados nacin por medio del uso de armas sper cibernticas y de clasificacin
militar.
El ataque ciberntico a Sony no se trataba de la libertad de expresin, sino

simplemente de la libertad. Durante siglos hemos utilizado a los monarcas, jefes de
estado, religin y sistemas polticos para controlarnos unos a otros. Cualquiera o todos
estos mtodos de control parecen dbiles al compararlos con la capacidad de hacer
dao que motiva a los hackers. Las interrupciones de energa, el saqueo de los
registros contables o mdicos, la manipulacin del alumbrado pblico, el lanzamiento
de misiles... la lista es prcticamente interminable. Un mundo donde la gente no puede
diferenciar entre una amenaza creble y un correo electrnico mal redactado es, de
hecho, un mundo aterrador.
Crec durante la Guerra Fra y mi visin de un mundo post-apocalptico se encuentra

en algn lugar entre "Mad Max" y "The Terminator". Pero las cosas no sucedern as.
La gente simplemente vivir con el temor de que sus vidas privadas queden
expuestas, de perder sus fortunas y bsicamente temor de todo. En un mundo digital,
todo lo que haces, tocas, ves y sientes es vulnerable a la manipulacin digital.
Toma 50 de las empresas Fortune 500 y colcalas en la misma situacin de Sony.

Toma 10 de los mayores bancos del mundo y haz lo mismo... cuando llegue un correo
electrnico amenazante, lo tomars en serio? Esta podra ser una visin ms
precisa de un mundo post-apocalptico "digital".
Acceso versus la propiedad: el alquiler est aumentado, la compra est disminuyendo
La compra de los medios fsicos (CD, DVD, etc.) sigue disminuyendo y la tendencia a
la baja se est acelerando. Las descargas de los medios digitales tambin estn
disminuyendo. Los consumidores cada vez ms estn cmodos con la opcin de
"alquilar" contenido mediante el pago por acceso a los servicios de suscripcin:
msica, pelculas, programas de televisin, incluso los juegos y libros estn avanzando
hacia un modelo de acceso.
En resumen: "el alquiler est aumentando, la compra est disminuyendo". T conoces

la historia: si no ests pagando por un servicio con dinero en efectivo, la empresa est
utilizando tus datos como moneda. Esta tendencia continuar, obligndonos a
aprender cmo negociar los datos de la misma forma que negociamos con otras
monedas.
La "economa a pedido": lo quiero ahora!
La opcin "a pedido" no es algo nuevo; pregntale a cualquier persona que haya
cuidado a un beb. Lo que es nuevo es la velocidad con la que est evolucionando la
infraestructura tecnolgica para entregar casi todo lo que puedes solicitar a pedido,
aunque de forma heterognea. El espacio vaco es evidente y la tendencia es clara:
Las organizaciones intentan satisfacer con avidez todas nuestras demandas (lo ms
inmediato que sea posible). Se trata de buscar la conveniencia a diferencia de
cualquiera cosa que hayamos visto antes y realmente est recin empezando.
-Los audios y videos a pedido son comunes. Los modelos comerciales necesitan estar
al da.
El servicio automotriz a pedido est emergiendo. Los servicios de taxis y limosinas

contratadas a nivel mundial estn en auge.

-Las habitaciones de hotel a pedido estn surgiendo. Los legisladores y los grupos de
presin hoteleros estn protestando indignados por ello.
Qu suceder despus?
Los alimentos, vivienda y transporte a pedido son obvios. La venta al por menor y
servicios de todo tipo a pedido son menos obvios y los comodines son los meta
servicios que evolucionarn para darle sentido a nuestro mundo a pedido.
Qu hace un gestor de fondos cuando una aplicacin que utiliza la computacin en

nube para hacer su investigacin sobre la base de un conjunto de datos creado por el
comportamiento de la inversin privada sustituye su puesto de trabajo (no solo de
forma estratgica sino tambin transaccional)?
Qu hace una persona experta en reparaciones cuando los fabricantes pueden

diagnosticar problemas en la Internet pblica y requerir los servicios de trabajadores
externos semi calificados para que hagan un mejor trabajo, ms rpido y ms barato?
Qu sucede cuando el fabricante resuelve tu problema mediante la implementacin

de vehculos no tripulados y robots? Crees que es demasiado exagerado?
Recuerda la ley de Moore, la Ley de rendimientos acelerados y la Ley de Metcalfe.

Eso suceder en un abrir y cerrar de ojos virtual.
Redes Sociales.-
Definitivamente, 2014 fue un gran ao para el marketing digital, con momentos

culminantes como el #IceBucketChallenge, el selfie de Ellen durante los Oscars, la
campaa #BringBackOurGirls, o el fenmeno #Bendgate.
Tambin ha sido un ao impresionante para las redes sociales:
- Instagram alcanz 300 millones de usuarios activos

- Cada segundo, 2 personas se convirtieron en miembros de LinkedIn
- Facebook consigui mil millones de usuarios mviles activos al mes
- Cada da se enviaron un promedio de 500 millones de tweets
- El 53% de los usuarios de Google+ interactuaron con una marca de una
manera positiva.
Tras un breve vistazo a lo que el ao pasado signific para la esfera digital, vamos a
mirar las principales tendencias del 2015 en las redes sociales.
Mayor nfasis en el servicio al cliente online
Las redes sociales, un espacio donde un nmero cada vez mayor de clientes est
activo, ofrece plataformas para un servicio al cliente ms directo, facilitando una
experiencia ms humana.
En 2015, las marcas se convertirn en expertas en hacer de las redes sociales una
ventaja. En un ecosistema de marcas-consumidores cada vez ms automatizado y
menos personal, las marcas confiarn en las redes sociales para enriquecer,
diferenciar y mejorar la reputacin de la empresa.

Responder a las preguntas de los clientes online de una manera responsable,

inteligente y oportuna, demostrar ser una gran oportunidad para destacar a travs de
un servicio al cliente excelente.
El desarrollo de redes sociales de nicho
Tras el xito de las grandes empresas del sector (Facebook, Twitter, Instagram, etc.)
el ltimo par de aos, 2015 ser el momento de las redes ms pequeas, de las redes
de nicho. Plataformas que permiten a los usuarios conectarse con menos personas
que tienen los mismos intereses o aficiones.
Redes como Kerboodle (dirigido a las personas que les gusta ir de compras), Foodie
(una comunidad para compartir recetas) o Ravelry (una comunidad para diseadores y
personas interesadas en hacer punto) servirn como una fuente de inspiracin para
nuevas plataformas, basadas en intereses.
Adems, como la mayora de las redes sociales obtienen beneficios a travs de la
publicidad pagada, los redes de nicho sern el nuevo sueo de los anunciantes, ya
que conseguirn acceso directo a su pblico objetivo.
El auge de la tecnologa ponible o wearable technology
Segn nuestra investigacin, en el ltimo ao, la conversacin sobre accesorios o

prendas inteligentes ha aumentado en un 190%, el mismo aumento que ha sufrido la
produccin de este tipo de dispositivos.
En 2015, dejaremos de utilizar este tipo de tecnologa para tareas muy simples, y
como afirman los expertos, un elemento clave para este ao ser la salud. Microsoft,
Google y Apple ya han lanzado sus propias plataformas de salud, y los mdicos
estn cada vez ms interesados en cmo se puede utilizar esta tecnologa para
proporcionar informacin sobre la salud.

Ademas se espera que Apple Watch, el primer complemento inteligente de Apple, sea
un gran xito. Es probable que este lanzamiento vaya a beneficiar la industria,
aumentando la confianza en esta nueva ola de la informtica.
Establecer relaciones con vloggers
La popularidad de los vloggers, bloggers jvenes independientes que filman diversos

aspectos de su da a da para deleite de sus miles de seguidores, ya est marcando la
forma que tomarn en el futuro el marketing y la publicidad.
17 de los 100 canales de Youtube con ms suscripciones son blogs, una gran
oportunidad para que las marcas se involucren.
Otra tendencia que veremos este ao es que los profesionales del marketing
contactarn a vloggers para revisiones y publicidad. Y por qu no, tal vez algunos
comenzarn a crear sus propios canales de vlogging.
Ms privacidad en las redes sociales
En 2014, Twitter dio a los usuarios la posibilidad de compartir los tweets pblicos en
conversaciones privadas, mientras que Facebook lanz Rooms, una aplicacin para
chats de grupo annimos. Adems, aplicaciones de redes sociales annimas como
Snapchat, Secret o Whisper ganaron popularidad rpidamente.

La mensajera privada/annima es un rea con mucho potencial para ser explorado

por las marcas.
En 2015, habr un cambio de enfoque para este canal y las marcas empezarn a
incluirlo en su estrategia de redes sociales.
La evolucin de los medios pagados o paid media
Como Aaron Lee aconseja, este ao el presupuesto para el paid media ser ms
importante que nunca.
La cada vez mayor competicin por publicar contenido llevar al paid media a otro
nivel, con las empresas tratando de satisfacer la demanda de los consumidores de
buen contenido.
El uso de las redes sociales solo seguir aumentando, y podemos esperar que el
alcance orgnico contine disminuyendo a medida que el volumen de contenido en
estas redes se incremente.

Menos ventas, ms atencin
Los departamentos de marketing van a seguir reconociendo la importancia de hablar

con los clientes, un nuevo dilogo frente al anterior monlogo.
Contar una historia, en lugar de empujar un mensaje, marcar una gran diferencia
para los que entienden que, en las redes sociales, mostrar preocupacin por tu pblico
(respondiendo sus preguntas, compartiendo contenido que les ayude a resolver sus
problemas o interactuando con ellos) importa ms que promover tus servicios o
productos.
Vamos a ver mensajes ms humanos, relacionados con la vida real. La gente tiende a
responder mucho mejor a campaas, vdeos, imgenes, etc. que hablan de ellos; a
historias con las que se puedan identificar fcilmente. Y las marcas ms inteligentes
sacarn todo el provecho a esta oportunidad.
Instagram seguir creciendo
En el ltimo ao Instagram se ha convertido en la red ms popular para compartir

imgenes y vdeos. Segn Forrester, los posts en Instagram generan 58 veces ms
participacin por seguidor que Facebook, y 120 veces ms que Twitter.
Este ao se espera que la publicidad en Instagram aumente a medida que el nmero

de usuarios siga creciendo. As que podra valer la pena darle una oportunidad a
Instagram si es que todava no lo has hecho y quieres aumentar tu publicidad en las
redes sociales.
Marketing gil: un diferenciador clave para las marcas
El marketing gil, actuar rpidamente con respuestas a la informacin en tiempo real,

es una habilidad vital para los lderes de marketing de hoy en da.
El tweet Dunk in the Dark de la Super Bowl 2013 o el tweet ms reciente de KitKat
#Bendgate, son dos buenos ejemplos de cmo reacciones oportunas a eventos
externos de gran escala pueden ayudar a las marcas a incrementar su reputacin
online.

2015 va a animar a otras marcas a intentar replicar este xito monitorizando

tendencias, acontecimientos mundiales y los cambios del sector en tiempo real, minuto
a minuto.
Estas son algunas de las principales tendencias en las redes sociales que creemos
que tendrn lugar este ao.
4.5.1.2 La Web como repositorio de informacin
Durante los ltimos aos, se produjo el asentamiento de Tecnologas de la Informacin

innovadoras de impacto en la economa, los negocios y la sociedad en general: Web
2.0, Web Semntica, y la Web 3.0 como convergencia de las anteriores.
La nueva Web ha trado nuevos modelos tecnolgicos: Software como Servicio,

Virtualizacin y Almacenamiento Web. Estos modelos han trado un nuevo paradigma
tecnolgico, econmico y social: La Computacin o Informtica en Nube (Cloud
Computing).
La informacin digital se encuentra en todas partes de nuestra sociedad, circula por

las redes, se visualiza en la pantalla, se escucha en los telfonos mviles, todos los
artefactos materiales, histricamente asociados a nuestras prcticas de acceso a la
informacin, libros, revistas, discos, carteles, tablas, lbumes de fotos, ceden terreno
ante las herramientas electrnicas, gadgets. Las empresas se convierten en digitales.
Se est produciendo una separacin entre el soporte fsico y el contenido, pero est
separacin es ilusoria, se necesita que toda esta informacin se almacene en alguna
parte; el almacenamiento est sufriendo, tambin una gran transformacin, el soporte
no desaparece pero se transforma. El almacenamiento web est comenzando a
sustituir al almacenamiento fsico en DVD, pendrive, etc.
La gestin de la informacin se va a concentrar en los grandes centros de datos y se

ofrecern a los particulares, a las empresas y organizaciones, herramientas de
almacenamiento y difusin. Pero hay mucha informacin almacenada en los
videoblogs (YouTube, Hulu), sitios de fotografas (Flickr, Picasa), enciclopedias
digitales (Wikipedia, Europeana), redes sociales (Facebook, Twitter). Nadie puede
saber en qu disco duro est almacenada una fotografa del sitio Flickr, o una cancin
de un grupo francs en Spotify o un libro digitalizado en Amazon, y desde el punto de
vista tecnolgico tampoco sabemos cul es el procesador que est trabajando para
nosotros o nuestra empresa.
Esta nueva arquitectura se denomina informtica en la nube o en nube o

computacin en la nube o en nube. Los datos y las aplicaciones se reparten en
nubes de mquinas, cientos de miles de servidores de ordenadores pertenecientes a
los gigantes de Internet y poco a poco a cientos de grandes empresas, universidades,
administraciones, que desean tener sus propios centros de datos a disposicin de sus
empleados, investigadores, doctorandos, etc.
Cloud Computing es un conjunto de tecnologas de computacin que estn

configurando un nuevo orden mundial en las TI que parte, esencialmente, de las
expectativas creadas por la Web 2.0 entre los usuarios personales y corporativos. La
idea clave tal vez sea que las TI se convierten en un servicio, de modo que las
aplicaciones del software no tienen por qu existir en un lugar concreto sino que
pueden estar compuestos de mltiples piezas procedentes de mltiples sitios.
La idea clave es que los usuarios, las empresas, las grandes corporaciones acceden a
los servicios de TI a travs de la nube, los clientes pueden acceder bajo demanda,

siguiendo el modelo gratuito o de pago por uso, a un gran nmero de recursos

informticos de modo dinmico, dotndose as de una enorme capacidad de
procesamiento y almacenamiento sin necesidad de instalar mquinas localmente, lo
que se traduce en considerables ahorros de tiempo e incluso de consumo energtico.
La demanda de este tipo de computacin remota est en auge y est originando que
las empresas busquen lugares econmicos para alojar sus centros de datos. Buscan
una mezcla de caractersticas: edificios econmicos, electricidad barata y fuerza
laboral de coste reducido. Numerosas consultoras estadounidenses y tambin
europeas buscan sedes para sus centros de datos, desde IBM y HP, hasta Pepsico o
Coca Cola Company.
Por consiguiente los repositorios de informacin web se convierten en pieza clave del
nuevo modelo de negocio en el que ya estamos inmersos; y para ello vamos a tratar
de acercarnos a lo que actualmente existe y se demanda.

Resumen
1. Big Data es las tres V: Volumen, Velocidad, Variedad.
2. Big Data tiene Data Estructurada y no Estructurada.
3. Hadoop es el framework que permite gestionar BIG DATA
4. El core de Hadoop se compone de: HDFS y Map Reduce.
5. Machine Learning es aprendizaje de mquinas, es una rama de la inteligencia

artificial cuyo objetivo es desarrollar tcnicas que permitan a las computadoras
aprender sin demasiadas indicaciones explicitas
6. ML tiene 02 tipos de aprendizaje: Supervisado y No Supervisado
7. ML, presenta 02 algoritmos bsicos: KNN y K-means.
8. Data Mining consiste en descubrir, en los datos, cosas que no son evidentes y que
sean tiles para el negocio.
9. Las tecnologas de minera se categorizan en: Anlisis estadstico y

Descubrimiento de conocimiento.
Puede revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad:
o http://blog.classora.com/2013/08/30/tecnologias-de-big-data-el-ecosistema-hadoop/
o http://kb.tableau.com/articles/knowledgebase/administering-hadoop-hive?lang=es-es
o http://news.microsoft.com/es-es/2015/07/13/microsoft-anuncia-nuevas-oportunidades-
para-sus-socios-de-negocio-en-worldwide-partner-conference/

Manual Teoría Inteligencia de Negocios

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Manual Teoría Inteligencia de Negocios

Încărcat de

Drepturi de autor:

Formate disponibile

Inteligencia de

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

2.2 Tema 4 : Taller de Modelado Dimensional 45

3.2 Tema 6 : Metodologa 63

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

3.3 Tema 7 : Taller 74

4.2 Tema 9 : Hadoop 92

4.3 Tema 10 : Machine Learning 103

4.4 Tema 11 : Data Mining 115

4.5 Tema 12 : Semana Integradora 122

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

El manual esta desarrollado para complementar y afianzar lo expuesto en clase, con

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

ADMINISTRACIN DE DATA WAREHOUSE

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

Los alumnos reconocen las necesidades de un negocio.

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

1.1. INTRODUCCIN Y CONCEPTOS

La Inteligencia de Negocios o Business Intelligence (BI) se puede definir como el

Figura 1: Ciclo de datos

Es el proceso de transformacin de datos en iformacin, haciendo uso de tcnicas de

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

Figura 2: Transformacin de datos

Existen conceptos y terminologas de inteligencia de negocio.

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

Entonces podemos definir que un Data Warehouse es una coleccin de datos en la

Las aplicaciones para soporte de decisiones basadas en un Data Warehouse, pueden

Un Data Warehouse se crea al extraer datos desde una o ms bases de datos de

1.1.2. Necesidades del Negocio insatisfechas por las soluciones

Las empresas actualmente poseen las siguientes necesidades de negocios que no

Pasan ms tiempo recolectando y preparando informacin que analizndola.

Es decir las empresas empiezan a valorar ya no como registrar la informacin sino

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

de competencia han provocado el que sea necesaria tecnologa cada vez ms

La informacin que las empresas necesitan

La informacin se est extendiendo a todo nivel dentro de la organizacin, reas

Actualmente, la informacin es enviada a todos los niveles de la empresa con

De manera general dentro de la organizacin, los requerimientos de informacin se

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

Figura 4: Pirmide de Informacin

3. Informacin Tcnico Operacional

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

Este nivel de informacin corresponde a la parte operativa de la empresa, compuesta

1.1.3. Historia y evolucin de los conceptos de Inteligencia de Negocios

El concepto de Business Intelligence no es un concepto reciente, hace miles de aos

El mundo ha evolucionado pero, el concepto sigue siendo el mismo. La necesidad de

Los Dispositivos de Almacenamiento de Acceso Directo (DASD, Direct Access Storage

A inicios del ao 1990, las ms importantes empresas ya contaban con grandes

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

El trmino de Business Intelligence es bastante antiguo. Sin embargo, el avance de la

El trmino Business Intelligence se extendi hacia otras herramientas como por

1.1.4. Casos de xito en Inteligencia de Negocio

Segn la historia, se descubrieron una serie de asociaciones, algunas perfectamente

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

Aparentemente, los clientes masculinos cuando compraban paales el fin de semana,

Como resultado del descubrimiento de esta correlacin, segn sus estadsticas, el

IEST PRIVADO CIBERTEC CARRERA DE COMPUTACIN E INFORMTICA

CARRERA DE COMPUTACIN IEST PRIVADO CIBERTEC

1.2. DATA WAREHOUSING

Implementacin rpida y sencilla a un menor costo de implementacin. Cubre

Si el Data Warehouse es construido primero, se requiere de hardware adicional para

Adems de las tcnicas de diseo, un desarrollador de Data Warehousing debe