Documente Academic
Documente Profesional
Documente Cultură
Negocios (Teora)
INTELIGENCIA DE NEGOCIOS 2
ndice
Presentacin 5
Red de contenidos 7
Unidad de Aprendizaje 1
FUNDAMENTOS DE BUSINESS INTELLIGENCE 9
1.1 Tema 1 : Introduccin y conceptos 10
1.1.1 : Inteligencia de Negocios 10
1.1.2 : Necesidades de negocio 12
1.1.3 : Historia y evolucin de BI 14
1.1.4 : Casos de xito de Inteligencia de Negocios 16
:
1.2 Tema 2 : Data Warehousing 18
1.2.1 : Data Warehouse y Data Mart 18
1.2.2 : Tendencias en BI 21
1.2.3 : OLTP y OLAP 23
1.2.4 : Las Visiones de Bill Inmon y Ralph Kimball 26
1.2.5 : Arquitectura de Zachman 28
Unidad de Aprendizaje 2
MODELAMIENTO DIMENSIONAL 35
2.1 Tema 3 : Diseo de DataMart 36
2.1.1 : Modelamiento Dimensional 36
2.1.2 : Componentes de un modelo dimensional 38
2.1.3 : Surrogate Key Nivel de Granularidad 38
2.1.4 : Tipos de modelo dimensional 39
2.1.5 : Documentacin de los elementos de diseo 42
2.1.6 : Resolucin de casos 43
Unidad de Aprendizaje 3
ETL y METODOLOGA DE RALPH KIMBALL 53
3.1 Tema 5 : ETL 54
3.1.1 : Concepto 54
3.1.2 : Etapas de un proceso ETL 55
3.1.3 : Opciones para implementar procesos ETL 63
Unidad de Aprendizaje 4
BIG DATA, HADOOP, MACHINE LEARNING, DATA MINING 79
4.1 Tema 8 : Big Data 80
4.1.1 : Definicin y su rol en el mundo empresarial 80
4.1.2 : Fases de desarrollo de una estratega Big Data 83
4.1.3 : Gobernabilidad para la gestin de volmenes de datos 86
Presentacin
En un mundo donde las Tecnologas de Informacin determinan la forma en que se
hacen los negocios, las empresas necesitan explotar su mayor recurso: la informacin.
Este anlisis permitir que se realicen anlisis de tendencias y se obtengan
parmetros que permita optimizar la toma de decisiones, tales como crear estrategias
de negocio, fusin de empresas, nuevas giros en el negocio, expansiones, etc.
El presente manual tiene por objetivo brindar a los alumnos los conceptos bsicos
para el curso de Inteligencia de Negocios.
El tema central del curso, Datawarehouse es abordado desde sus conceptos bsicos,
arquitectura, modelamiento dimensional, en la cual se incide de manera precisa y
detallada, transformacin de datos, MDX y minera de datos.
Red de contenidos
DATA WAREHOUSING
INDICADORES
ARQUITECTURA
CONSTRUCCIN
ANLISIS DE ACCESO AL
REQUERIMIENTO DATA
Y FUENTES WAREHOUSE
METODOLOGA
METADATOS
MODELAMIENTO CONSULTAS
Y OLAP MINERIA
DISEO DE DATOS
BIG DATA
POBLANDO EL HADOOP
DATA MACHINE
WAREHOUSE LEARNING
UNIDAD
1
FUNDAMENTOS DE BUSINESS
INTELLIGENCE
LOGRO DE LA UNIDAD DE APRENDIZAJE
Al trmino de la unidad, el alumno identifica los conceptos fundamentales
relacionados a soluciones de Inteligencia de Negocios.
TEMARIO
1.1 Tema 1 : Introduccin y conceptos
1.1.1 : Inteligencia de Negocios
1.1.2 : Necesidades de negocio
1.1.3 : Historia y evolucin de BI
1.1.4 : Casos de xito de Inteligencia de Negocios
:
1.2 Tema 2 : Data Warehousing
1.2.1 : Data Warehouse y Data Mart
1.2.2 : Tendencias en BI
1.2.3 : OLTP y OLAP
1.2.4 : Las Visiones de Bill Inmon y Ralph Kimball
1.2.5 : Arquitectura de Zachman
ACTIVIDADES PROPUESTAS
Figura 3: DashBoard
Fuente.- Tomado de
http://2gc.eu/images/made/5cf576e340e572f3/InPhase_typical_dashboard_made_by_a_PA_800_600.png
Existe una gran cantidad de procesos detrs de una arquitectura de Data Warehouse
de una solucin BI de suma importancia. Estos comprenden desde procesos de
extraccin que estudian y seleccionan los datos fuente adecuado para el data
warehouse hasta proceso de consulta y anlisis de datos que despliegan la
informacin de una forma fcil de interpretar y analizar.
Data Warehouse
Con el fin soportar la gran cantidad de informacin que maneja una empresa, muchas
de ellas despliegan una gran infraestructura tecnolgica que soportan Sistemas de
Informacin. El crecimiento tecnolgico tiene varias etapas que van desde la
integracin de sistemas, el crecimiento y la implementacin. Las condiciones actuales
1. Informacin Estratgica
Soporta principalmente las decisiones del primer nivel de la pirmide organizacional,
respondiendo a las preguntas estratgicas de la empresa. Su caracterstica principal
es que no muestra muchos datos y est asociado a la gerencia visual a travs de
indicadores que muestran si se estn alcanzando los objetivos y metas o no a nivel
global. Ello permitir saber cmo se encuentra la empresa ahora y poder tomar
decisiones oportunas.
2. Informacin Tctica
Esta informacin da soporte al segundo nivel de la pirmide organizacional. Est
relacionada al plano operativo de la estrategia planteando vas posibles para lograr la
estrategia dictada por los ejecutivos y directivos. Esta informacin corresponde a un
rea o departamento especfico de la empresa, siendo su alcance departamental y se
asocia a gerencias o subdirecciones.
En los aos 60s surgen las tarjetas perforadas como medio de almacenamiento de
datos, los transistores como un gran avance electrnico en la arquitectura de
computadores y el lenguaje estructurado de programacin COBOL. En esta poca, los
ordenadores se mostraban como algo difcil de conocer y el almacenamiento de
informacin se realizaba de manera lineal y secuencial. Este nuevo despliegue
tecnolgico, es decir, la implementacin de las bases de datos para el procesamiento
en lnea, las nuevas tecnologas y los Lenguajes de Cuarta Generacin (4GL),
permitieron al usuario la facilitarle el control de los sistemas y de la informacin. Esto
dio origen a los primeros Sistemas de Informacin formales.
Data Warehouse, puede ser algo ms pequeo y menos complejo como, por ejemplo,
un Data Mart (banco de datos diseado para reas especficas en forma
personalizada), o un banco de datos relacional comn, pero independiente de
ambiente transaccional (operacional) y exclusivo para contener informacin que ser
usada como base para la realizacin de diversos anlisis y proyecciones.
Como pueden darse cuenta, hay mucha similitud entre la red de datos y la red
elctrica. La diferencia fundamental radica en la magnitud de energa que cada red
maneja.
WallMart
Pionero en el uso de la informacin para identificar nuevas
oportunidades de mercado
Uso de datamining masivo, solucin basada en Teradata
Caso Clsico: Paales y Cerveza
Es, sin duda, uno de los ejemplos ms clsicos de la llamada Business Intelligence
(BI), utilizado en las escuelas de negocio de todo el mundo para ilustrar cmo el
anlisis de los datos de los clientes puede llevar a conclusiones interesantes y
aprovechables en el contexto del denominado Market-Basket Analysis: la correlacin
entre los paales y la cerveza.
Estos dos productos, aparentemente sin ninguna relacin, protagonizan esta historia
que los profesores y estudiantes de marketing suelen atribuir a lo que ocurri en los
hipermercados WalMart, cuando se empez a utilizar por primera software analtico
para combinar el anlisis de los datos de compras de algunas personas obtenidos
gracias a sus tarjetas de fidelizacin.
NBA
Un resultado interesante fue uno hasta entonces no observado por los
entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador
puede generalmente dar la oportunidad a otro jugador de encestar ms
fcilmente.
Mezcla datos de jugadores de baloncesto con imgenes de partidos para
encontrar patrones y apoyar a la generacin de estrategias.
Advanced Scout, basado en IBM DB2 Universal Database, IBM DB2
Intelligent Miner y Virtual Gold's VirtualMiner
AC MILAN
El sistema, creado por Computer Associates International, es alimentado por
datos de cada jugador, relacionados con su rendimiento, alimentacin y
respuesta a estmulos externos, que se obtienen y analizan cada quince das.
Actualmente el sistema permite predecir alguna posible lesin.
El club est ahorrando dinero evitando comprar jugadores que presenten una
alta probabilidad de lesin.
ODYSSEY
Gobierno Espaol enjuicia a la empresa Odyssey por apoderarse de 18
toneladas de monedas de Oro.
Un espectacular sistema de tratamiento de datos llamado Data Mining. Su
funcionamiento es sencillo: se introducen en una base de datos todas las
variables imaginables, desde los lugares en los que hay barcos hundidos hasta
las corrientes marinas predominantes, los puntos ms habituales de tormentas
o las rutas que probablemente utilizara cada capitn. De todo ese cctel, se
extrae un modelo que indica, con una fiabilidad impresionante, en qu puntos
exactos hay ms probabilidades de hallar un tesoro. A partir de ese momento,
y despus de aos de paciente estudio, esa computadora proporciona a
Odyssey un detallado y gigantesco mapa del tesoro sin necesidad de
escudriar todo el fondo del Atlntico o el Mediterrneo.
SUNAT
SAS, el lder en Inteligencia de Negocios, anunci hoy que la SUNAT, ha
logrado una mejor deteccin de la subvaloracin de mercancas en la principal
aduana peruana, al incrementar en 14 puntos porcentuales el xito en los
hallazgos en el Proceso de Seleccin de Canales de Control.
SUNAT es la primera entidad tributaria en latinoamrica en emplear con xito
tcnicas de Minera de Datos en la lucha contra el contrabando y la
subvaluacin.
Solucin sobre plataforma SAS, Oracle, Informix, Java.
Data Mart
Orientado a un departamento dentro de la organizacin, puede ser implementado
como una solucin para problemas inmediatos, no es necesario para construir un Data
Warehouse.
El empleo de los Datamarts estar determinado por los que toman decisiones. Por
ejemplo en una empresa el gerente de ventas necesitar analizar la informacin de su
rea, es decir las ventas de la empresa.
Inadvertidamente se puede usar datos no compatibles con otros Datamarts que luego
alarguen el tiempo de unificacin.
Data Warehouse
La construccin del Data Warehouse se va haciendo por etapas que normalmente
corresponden a las principales reas operativas de la empresa. Por ejemplo: rea de
Ventas, rea Financiero Contable, rea de Recursos Humanos, etc. Estas reas
reciben el nombre de Data Marts.
Los Data Warehouses (Base de Datos OLAP, On-Line Analytical Processing) son
diseados para cumplir con un conjunto de metas, las cuales son muy diferentes de
los objetivos de un sistema transaccional (OLTP, On-Line Transaction Processing).
Por ejemplo, una meta de los OLTP es maximizar la concurrencia mediante el uso de
locks, dicho objetivo no es pertinente en el diseo de DW donde las operaciones son
slo de consulta, es decir del tipo SELECT.
Sin lugar a dudas, el Data Warehousing es parte integral de lo que algunos autores
definen como la Era de la Informacin ya que posibilita la construccin y
mantenimiento de estructuras destinadas al anlisis de los datos, transformando los
datos en informacin y la informacin en conocimiento.
Estos nuevos conceptos fueron definidos por los padres del DataWarehouse, Bill
Inmon y Ralph Kimball, cuyas visiones las revisaremos luego.
William Inmon:
El Data Warehouse es una coleccin de datos,
orientados a un tema, integrados, no voltiles, variantes
en el tiempo, organizados para el apoyo a toma de
Ralph Kimball:
Un Data Warehouse es una copia de los datos
transaccionales, especficamente diseada para realizar
consultas y anlisis.
DATO
INFORMACIN
CONOCIMIENTO
Componentes Funcionales
Los componentes funcionales que son parte del proceso son la adquisicin de datos,
el almacenamiento y el acceso por parte de usuarios finales.
Infraestructura
INFRAESTRUCTURA INFRAESTRUCTURA
TCNICA OPERATIVA
1.2.2. Tendencias en BI
La forma de llevar a cabo este proceso hoy da puede ser muy diferente, dependiendo
de la madurez tecnolgica de la empresa, de su efectividad en la recogida de datos,
de sus capacidades de almacenamiento, etc. Sin embargo, existen unos factores
diferenciales que marcan la lnea entre unas organizaciones y otras. Agilidad,
automatizacin y movilidad seran los pilares fundamentales del BI de ltima
generacin.
BYOD: las polticas de Bring Your Own Device impulsarn la necesidad de contar
con Mobile Intelligence en las empresas. Para ello, la tecnologa ha de apoyar esta
evolucin. Entre las tendencias en BI se encuentran las soluciones multiplataforma,
que hacen posible no tener que depender de un dispositivo en concreto, sino poder
contar con esa libertad que redunda en la productividad y los resultados.
La nube baja a tierra: el cloud ser considerado como una opcin ms, dejar de
marcar la diferencia como lo haba hecho hasta ahora y su uso ser
completamente rutinario. La aceptacin generalizada por parte de los usuarios,
que han aparcado sus recelos en cuanto a la seguridad de sus datos es el
impulsor principal de este cambio de perspectiva, que exigir que todas las
soluciones de BI deban estar preparadas para la nube.
OLTP poseen volatilidad de datos (los datos slo permanecen en el sistema por un
periodo corto de tiempo) a diferencia de las soluciones analticas, que requieren de
datos histricos para generar diversas perspectivas de anlisis. Otra diferencia es la
actualizaciones frecuente de los datos (la informacin es modificada muchas veces en
el da), mientras que las aplicaciones analticas realizan operaciones normalmente, de
slo lectura.
Caractersticas
Diseo orientado a la transaccin
Volatilidad de los datos
Soporte limitado a la toma de decisiones
Ejemplos
Cobranzas
Sistema de control de asistencia
Control de almacn
OLAP permite a los usuarios una fcil y amigable navegacin por la informacin
obteniendo el nivel de granularidad (detalle) que requiera para la toma de decisiones.
Asimismo, puede generar clculos adicionales en base a los datos existentes. Los
servicios OLAP proveen mltiples formas y niveles de anlisis gracias a que los datos
se encuentran estructurados con esta finalidad. De esta manera, el usuario puede
realizar comparaciones entre periodos anteriores o paralelos, encontrar patrones y
tendencias, aislar un grupo de datos con caractersticas especficas para realizar un
anlisis ms profundo y sobretodo de una manera amigable, rpida y confiable.
Caractersticas OLAP
Es consolidada. La data se centraliza desde diferentes orgenes de datos en un
repositorio central nico a la cual tienen accesos los usuarios de toda la
organizacin.
Es consistente. Los usuarios deben obtener una nica versin de los datos no
importando de qu rea provengan las consultas ni el momento en que ellas se
realicen.
Ejemplo
Para la cadena de tiendas de alquiler de videos que posee 3 sucursales, el sistema
OLAP le permite presentar informacin consolidada por cada sucursal, compararla y
tomar decisiones apropiadamente.
TIENDA
Miraflores San Borja Surco
CATEGORIA
Drama 120 100 85
Comedia 250 210 190
Ciencia Ficcin 52 25 45
Infantil 90 75 70
Terror 40 20 28
Sin embargo, la tienda de alquiler de videos tambin deseara ver cmo se desarrollan
las ventas en el tiempo. Para hacer esto, se necesitaran varias hojas de clculo.
De esta manera, las medidas que deseamos visualizar del negocio se encontrarn
almacenadas en la interseccin de las perspectivas de anlisis, en sectores llamados
celdas del cubo, como se grafica a continuacin:
M ARZO
FEBRERO
ENERO
DRAMA 110 88 65
CIENCIA
FICCIN 29 20 20
INFANTIL 74 64 35
TERROR 27 17 12
Siguiendo con el ejemplo anterior, con este cubo podemos ahora tomar rebanadas del
mismo para responder preguntas como:
Bill Inmon
Bill Inmon es universalmente reconocido con el Padre del Data Warehouse. Tiene
ms de 26 aos de experiencia en el campo de las bases de datos y diseo de Data
Warehouses, ha publicado cerca de 40 libros y ms de 350 artculos en las ms
importantes revistas especializadas. Su libro ms reconocido es Building
DataWarehouse Bill Inmon ve la necesidad de transferir la informacin de los
diferentes OLTP (Sistemas Transaccionales) de las organizaciones a un lugar
centralizado donde los datos puedan ser utilizados para el anlisis (sera el CIF o
Corporate Information Factory). Insiste adems en que ha de tener las siguientes
caractersticas:
Ralph KimBall
Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial
en usar iconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems,
fundador y CEO de Red Brick Systems. Kimball es un referente de la metodologa
dimensional para disear grandes Data Warehouses, fue el que realmente explot al
mximo el tema de Data Warehousing.
Para Ralph Kimball el Data Warehouse es un conglomerado de todos los Data Marts
dentro de una empresa, siendo una copia de los datos transaccionales estructurados
de una forma especial para el anlisis, de acuerdo al Modelo Dimensional (no
normalizado), que incluye, las dimensiones de anlisis y sus atributos, su organizacin
jerrquica, as como los diferentes hechos de negocio que se quieren analizar. Por un
lado tenemos tablas para las representar las dimensiones y por otro lado tablas para
los hechos (las facts tables). Los diferentes Data Marts estn conectados entre s por
la llamada bus structure, que contiene los elementos anteriormente citados a travs de
las dimensiones conformadas (que permiten que los usuarios puedan realizar querys
conjuntos sobre los diferentes Data Marts, pues este bus contiene los elementos en
comn que los comunican). Una dimensin conformada puede ser, por ejemplo, la
dimensin cliente, que incluye todos los atributos o elementos de anlisis referentes a
los clientes y que puede ser compartida por diferentes Data Marts (ventas, pedidos,
gestin de cobros, etc).
Para compartir una visin desde distintos puntos de vista, es necesario tener un
diagrama. El mismo permite ver algo complicado y hacerlo inteligible mediante el uso
de analogas que simplifican y ayudan a separar una solucin compleja en
componentes pequeos.
Los requerimientos de un Data Warehouse son tan variados y diversos como sus
usuarios. Estos requerimientos se pueden analizar desde la perspectiva de cada
usuario.
La capa de transporte:
La capa de infraestructura:
Resumen
1. Inteligencia de negocios es obtener conocimiento a partir de datos propios de la
empresa para la toma de decisiones.
a. Informacin Estratgica
b. Informacin Tctica.
c. Informacin Operacional
8. Una arquitectura es necesaria porque nos dice el orden en el que se deben hacer
las cosas y porque da a todos una visin de lo que ser un sistema de informacin,
gracias a que muestra un patrn reconocido universalmente.
Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta
unidad:
o https://www.youtube.com/watch?v=OODib6aGmOk
o https://www.youtube.com/watch?v=9maeZ9slKwE
o https://www.youtube.com/watch?v=z5bIX75nkfg
o https://www.youtube.com/watch?v=tDtkyMfT-F8
UNIDAD
2
MODELAMIENTO DIMENSIONAL
LOGRO DE LA UNIDAD DE APRENDIZAJE
Al trmino de la unidad, el alumno disea soluciones de datamart en base a los
requerimientos de negocio utilizando modelamiento dimensional.
TEMARIO
2.1 Tema 3 : Diseo de DataMart
2.1.1 : Modelamiento Dimensional. Qu es un modelo Dimensional?
2.1.2 : Componentes de un modelo Dimensional
2.1.3 : Surrogate Key y nivel de granularidad
2.1.4 : Tipos de modelo Dimensional
2.1.5 : Documentacin de los elementos de diseo
2.1.6 : Resolucin de casos
ACTIVIDADES PROPUESTAS
Conceptos preliminares
rea temtica
Modelo conceptual
Modelo lgico
Modelo fsico
rea temtica
Modelo Conceptual
Representacin grfica y textual del anlisis que identifica los datos que necesita una
organizacin para lograr su misin, sus metas, sus objetivos, funciones y estrategias.
Un modelo de datos identifica entidades y sus relaciones entre ellas, proporcionando
una visin conceptual del negocio.
Modelo lgico
Modelo fsico
Es la instancia fsica del modelo lgico. Est conformado por los estndares de
codificacin, tipos de datos, longitudes, constraints, ndices, particiones.
Qu es un Modelo Dimensional?
Hechos
Dimensiones
Hechos
Los Hechos seran aqullos datos que nos proporcionan una informacin cuantitativa
sobre las caractersticas del Negocio que queremos analizar. En nuestro caso, los
Hechos sern los datos de la accin (Precio Apertura, Precio Cierre, Mximo
Diario, Mnimo Diario, Volumen).
Dimensin
Por otra parte, las Dimensiones buscan determinar un contexto para el anlisis de los
Hechos. Se trata de grupos homogneos de elementos, en muchas ocasiones,
jerarquizados. Su papel es promocionar la informacin contenida en los Hechos.
Las Dimensiones pueden estar jerarquizadas o no. Por ejemplo, los elementos de la
dimensin tiempo son jerarquizables, y se pueden representar en un esquema en
rbol. El primer trmino es Ao, siendo sus descendientes Trimestres, que a su vez
tienen como descendientes a los Meses, stos a las Semanas, etc. En este
contexto, definimos al Elemento Padre como el elemento superior en la jerarqua
dado un elemento (Ao es el Elemento Padre de Trimestres) y como Elemento
Hijo a los elementos inferiores en la jerarqua dado un elemento (Meses es el
Elemento Hijo de Semanas).
Surrogate Key
Nivel de Granularidad
Mientras mayor sea el nivel de detalle de los datos, se tendrn mayores posibilidades
analticas, ya que los mismos podrn ser resumidos o sumarizados. Es decir, los datos
que posean granularidad fina (nivel de detalle) podrn ser resumidos hasta obtener
una granularidad media o gruesa. No sucede lo mismo en sentido contrario, ya que por
ejemplo, los datos almacenados con granularidad media podrn resumirse, pero no
tendrn la facultad de ser analizados a nivel de detalle. O sea, si la granularidad con
que se guardan los registros es a nivel de da, estos datos podrn sumarizarse por
semana, mes, semestre y ao, en cambio, si estos registros se almacenan a nivel de
mes, podrn sumarizarse por semestre y ao, pero no lo podrn hacer por da y
semana.
Modelo Star
El modelo estrella (Star Schema) est compuesto de una tabla central llamada tabla
de Hechos (Fact Table) y de una o varias tablas perifricas llamadas Tabla de
Dimensiones (Dimensional Table).
Modelo Snowflake
As tenemos:
El rectngulo representa los hechos (medidas), los crculos mayores son las
dimensiones, los crculos pequeos corresponden a los atributos de las dimensiones y
las lneas permiten la relacin entre estos elementos:
Modelo Dimensional.-
Enunciado:
Las tarjetas pueden ser de dos tipos: VISA y MASTERCARD. Tambin se desea
visualizar los crditos y pagos por cada vendedor y cada cliente. Cada cliente
pertenece a un distrito, cada distrito a una provincia y cada provincia a un
departamento. Cada vendedor pertenece a una agencia, y cada agencia pertenece a
un distrito, cada distrito a una provincia y cada provincia a un departamento. Las
mtricas deben visualizarse como totalizados anuales, semestrales, trimestrales y
mensuales. Disee las dimensiones, las medidas y el modelo de datos.
Solucin:
- Dimensin Cliente
. Departamento
.. Provincia
Distrito
. Nombre cliente
Respecto de la dimensin Vendedor, se sabe que cada vendedor est en una agencia,
cada agencia en un distrito, cada distrito en una provincia y cada provincia en un
departamento. Por tanto, los niveles de la dimensin Vendedor son:
- Dimensin Vendedor
. Departamento
.. Provincia
Distrito
. Agencia
.. Nombre Vendedor
Por otro lado, las tarjetas de crdito pueden ser de dos tipos: VISA y
MASTERCARD.
. Tipo Tarjeta
.. Nro. Tarjeta
Por ltimo, las medidas deben visualizarse como totalizados anuales, semestrales,
trimestrales y mensuales. Por lo general, todo data mart tiene una dimensin que
representa las escalas temporales. En este caso, existe una dimensin llamada
Tiempo, que tiene la siguiente estructura:
- Dimensin Tiempo
. Ao
.. Semestre
Trimestre
. Mes
Measures (medidas): Son valores cuantitativos que almacenan las mtricas del
negocio. Estn representados por columnas numricas en la fact table.
Ejemplo:
- Cantidad Vendida
- Monto Vendido
- Impuestos
- Gasto
- Costo
Dimensin:
Las preguntas que nos permiten identificarlas son: Quin?, Qu?, Cundo?,
Dnde? A quin?
Son las reas temticas, lneas del negocio o sujetos del negocio.
Ejemplo:
Por Tienda
Por Vendedor
Por Producto
Por Semana
Por Departamento
Por Marca
Por Mes
Por Territorio de Ventas
Por Pas
Ejemplo:
Dimensin Tiempo
Dimensin Producto
Tipos de Dimensiones:
Regular Dimensin:
Dimensiones Roll-up
MES_DIM DIA_DIM
Mes_Key Dia_Key
Nombre_Mes dia
Ao Mes_Key
CUOTAVENDEDOR_FACT VENTADIARIA_FACT
Mes_Key Dia_Key
Vendedor_Key Vendedor_Key
Cuota_MontoVenta Cliente_Key
Producto_Key
Cuota_MontoVenta
Role-Playing Dimensin:
Una dimension puede ser usada mltiples veces sobre el mismo cubo/measure group.
Se ve dos dimensiones distintas:
TiempoVencimiento
TiempoPago
TIEMPO_DIM TARJETA_FACT
Tiempo_Key Tiempo_Key_Vencimiento
Ao Tiempo_Key_Pago
Semestre Cliente_Key
Trimestre Vendedor_Key
Mes TipoTarjeta_Key
creditos_concedido
pagos
Esto sucede cuando un campo que se utilizar como criterio de anlisis posee el
mismo nivel de granularidad que los datos de la tabla de hechos, y que por lo tanto no
se pueden realizar agrupaciones o sumarizaciones a travs de este campo. Los
"nmeros de orden", "nmeros de ticket", "nmeros de transaccin", etc, son algunos
ejemplos de dimensiones degeneradas.
La inclusin de estos campos en las tablas de hechos, se lleva a cabo para reducir la
duplicacin y simplificar las consultas.
VENTADIARIA_FACT
Nro_Factura
Tiempo_Key_Envio
Tiempo_Key_Pago
Vendedor_Key
Cliente_Key
Producto_Key
Unidades_Vendida
Monto_Vendido
Para explicar esta problemtica, se tomar como ejemplo la relacin existente entre
ros y provincias, es decir: Una provincia tiene uno o ms ros, y un ro pertenece a
una o ms provincias. Adems, se tomar como referencia las siguientes tablas
pertenecientes a un OLTP, que contienen bsicamente los datos relacionados a ros y
provincias:
Atributos.-.
Son las caractersticas del negocio. Un grupo de atributos crean una Dimensin.
Jerarquas.-.
Es la distribucin de los atributos en niveles.
Ejemplo:
Jerarqua Ubicacin:
Departamento
Provincia
Distrito
Jerarqua Calendario:
Ao
Trimestre
Distrito
Niveles.-.
Es una forma de organizar los atributos de una dimensin. Los niveles permiten
realizar la tcnica BI llamada Drill Down / Drill UP.
Ejemplo:
Jerarqua Ubicacin:
Departamento Nivel 1
Provincia Nivel 2
Distrito Nivel 3
Caso Pinacoteca:
De los cuadros se quiere analizar su nombre, medidas, fecha en la que fue pintado y
tcnica usada para pintarlo. Cada cuadro es pintado por un determinado pintor
(nombre, pas, ciudad, fecha de nacimiento y fecha de fallecimiento). Un pintor pueden
pertenecer o no a una escuela.
Los pintores pueden tener tambin uno o varios mecenas que los protegen (nombre,
pas, ciudad de nacimiento, fecha de nacimiento y muerte). Asimismo, se desea
conocer la fecha en que se inicia y termina el mecenazgo con cada pintor). A su vez
un mismo mecenas puede serlo de varios pintores. Mecenas es la persona que apoya
econmicamente al pintor para realizar su trabajo.
Solucin:
Identificando Medidas:
Cantidad de cuadros
Tiempo de permanencia
Nmero de visitas
Monto recaudado
Identificando Dimensiones:
Cuadro
Pintor
Pinacoteca
Mecenas
Tiempo
Escuela
Tipo de Entrada
BUS MATRIX
Resumen
1. El modelo dimensional es una base de datos que tiene una estructura adecuada
para resolver consultas analticas.
Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta
unidad:
o https://www.youtube.com/watch?v=j0kl1vZjsGE
o http://www.alankoo.com/2008/06/degenerated-dimensions.html
UNIDAD
3
ETL Metodologa Ralph Kimball
TEMARIO
3.1 Tema 5 : ETL
3.1.1 : Concepto
3.1.2 : Etapas de proceso ETL
3.1.3 : Opciones para implementar ETL
ACTIVIDADES PROPUESTAS
3.1. ETL
3.1.1. Concepto
Una vez definida la base de datos STAR o SNOWFLAKE para el Datamart, se debe
efectuar la poblacin con la informacin de los sistemas transaccionales. Este proceso
puede alcanzar niveles de complejidad muy altos.
Con frecuencia, los procesos ETL deben modificar el formato y la presentacin de los
datos ledos desde los sistemas transaccionales. La siguiente figura muestra las
operaciones de transformacin que pueden realizarse:
Staging rea
La herramienta que se utiliza para la construccin de los procesos del Staging rea
es la herramienta ETL, que es una herramienta especializada en el tratamiento de los
datos, sobre todo en el manejo de volmenes grandes.
Descubrir
Extraer
Transformar
Transportar
Cargar
Descubrir
Extraer
Transformar
Los procesos de transformacin sern muy variados y dependern de las reglas del
negocio, entre los tipos ms importantes se pueden distinguir los siguientes:
Columna del
Warehouse
Llave OLTP = 43N0000202 43 N 00002 02
43 N 00002 02
Consolidacin de datos
Tabla Look up
Es una tabla de referencia que bsicamente tiene dos columnas que contienen las
equivalencias entre los cdigos de las fuentes y los cdigos de Data Warehouse
El proceso ETL se especifica en una tabla similar a la de la figura siguiente que incluye
el mapeo de la fuente al destino y en la que se incluye las reglas de transformacin a
implementar.
Fuentes y objetivos
Estandarizacin de datos
Este problema se puede resolver con dos tipos de procesos que son complementarios.
El primero un proceso automtico que tenga rutinas que permitan identificar
automticamente estos registros y el segundo un proceso de gestin visual que tenga
como finalidad complementar al primero.
Limpieza de datos.
Al igual que en el caso anterior el problema se puede enfrentar con rutinas que
permitan identificar estos registros de manera automtica complementadas por
procesos de gestin visual de la informacin.
Posibles soluciones
Construir rutinas de limpieza y transformacin.
Comprar herramientas especializadas en el tratamiento de nombres.
Establecer procesos de gestin visual de la informacin.
Los metadatos son como las fichas de catlogo de una biblioteca que ayudan a saber
el contenido y la ubicacin de un libro.
En el Staging rea:
Integracin y segmentacin.
Resmenes, adiciones.
Clculos previos y derivaciones.
Transformaciones.
Arquitectura de metadatos
Los usuarios de los metadatos tendrn necesidad de ver los siguientes metadatos:
Usuarios tcnicos:
Datos sobre el proceso ETL
Datos sobre el DBMS.
Archivos, arquitectura.
Modelos fsico, lgico.
Mapeos.
Usuarios de negocio:
reas de negocio.
Definiciones de reglas de negocio.
Como utilizar las herramientas.
Significado de la informacin
Ubicacin de la informacin
Fuentes de metadatos
Lgica de programas.
Comentarios en los programas
Comentarios en archivos de datos.
Secuencias de jobs y sus comentarios.
Metadatos del repositorio de la herramienta CASE.
Modelos de datos.
Diccionarios de la base de datos.
Documentos que contengan reglas de negocio
Los sistemas para BI tienen diferente herramientas para el proceso ETL, por ejemplo
Microsoft SQL Server 2014 ofrece mltiples opciones para la implementacin de los
procesos ETL:
Transact SQL
Consultas Distribuidas
El utilitario BCP y la sentencia Bulk Insert
SQL Server Integration Services (SSIS)
3.2. METODOLOGA
3.2.1. Introduccin a la metodologa de Ralph Kimball.
Ralph Kimball fue co-inventor de Xerox Star Workstation, el primer producto comercial
en usar iconos y ventanas. Fue Vice-presidente de Metaphor Computer Systems,
fundador y CEO de Red Brick Systems. Kimball es un referente de la metodologa
dimensional para disear grandes Data Warehouses, fue el que realmente explot al
mximo el tema de Data Warehousing.
Este diagrama muestra la secuencia de tareas de alto nivel requeridas para el efectivo
diseo, desarrollo e implementacin de Data Warehouses. El diagrama muestra una
vista general del mapa de ruta de un proyecto en el cual cada rectngulo es una
columna que nos indica dnde estamos, por dnde pasamos y hacia dnde debemos
dirigirnos.
Proyecto, se refiere a una iteracin simple del KLC, desde el lanzamiento hasta
el despliegue.
Planificacin de proyecto.
- Definir el alcance Entender los requerimientos del negocio.
- Identificar tareas
- Programacin de tareas
- Planificar el uso de los recursos.
Actividades:
- Monitoreo del estado de los procesos y actividades.
- Rastreo de problemas
- Desarrollo de un plan de comunicacin comprensiva que direccione la empresa
y las reas de TI
Lnea de desarrollo
Luego de definir los requerimientos del negocio, enfocar el proyecto a tres lneas
(tracks) concurrentes:
- Tecnologa
- Datos
- Aplicaciones de BI
-
El flujo de actividad de las lneas, se indican por las flechas.
Planificacin de Proyecto
La definicin de los requerimientos del negocio establece la base para las tres etapas
paralelas subsiguientes. Estas etapas estn focalizadas en la tecnologa, los datos y
las aplicaciones por lo cual es altamente crtica y es el centro de atencin del BDL.
Modelado Dimensional
Diseo Fsico
El diseo fsico de las base de datos se focaliza sobre la seleccin de las estructuras
necesarias para soportar el diseo lgico. Algunos de los elementos principales de
este proceso son la definicin de convenciones estndares de nombres y
configuraciones especficas del ambiente de la base de datos. Los ndices y las
estrategias de particionamiento son tambin determinadas en esta etapa.
Todas estas tareas son altamente crticas pues tienen que ver con la materia prima del
Data Warehouse: los datos. La desconfianza y prdida de credibilidad del Data
Warehouse sern resultados inmediatas e inevitables si el usuario se encuentra con
informacin inconsistente. Es por ello que la calidad de los datos es un factor
determinante en el xito de un proyecto de Data Warehousing. Es en esta etapa donde
deben sanearse todos los inconvenientes relacionados con la calidad de los datos
fuente.
Plan
- Crear un diagrama de flujo fuente-destino esquemtica, de una pgina y a nivel
global.
- Probar, elegir e implementar una herramienta de Data Staging.
- Profundizar en detalle por tabla destino, grficamente describir las
reestructuraciones o transformaciones complejas. Grficamente ilustrar la
generacin de las claves surrogadas. Desarrollo preliminar de la
secuencialidad de los trabajos.
-
Carga de dimensiones
- Construir y probar la carga de una tabla dimensional esttica. La principal meta
de este paso es resolver los problemas de infraestructura que pudieran surgir
(conectividad, transferencia, seguridad, etc.)
- Construir y probar los procesos de actualizacin de una dimensin.
- Construir y probar las cargas de las restantes dimensiones.
Ralph Kimball hace una analoga entre los planos arquitectnicos de una casa y la
arquitectura de un Warehouse, Se debe de tener un plan antes de comenzar, no es
simplemente reordenar y explotar la informacin.
Al igual que en una construccin, los planos sirven para comunicar los deseos entre
los clientes y el arquitecto, como as tambin para medir esfuerzos y materiales
necesarios para la obra (comunicacin, planificacin, flexibilidad y mantenimiento,
documentacin, productividad y reuso). Finalmente, argumenta Kimball (1998), un
buen conjunto de planos, como cualquier buena documentacin, nos ayudar ms
tarde cuando sea tiempo de remodelar o hacer incorporaciones.
Kimball (1998) divide el proceso de creacin de las aplicaciones para usuarios finales
en dos grandes fases: especificacin y desarrollo. Clasifica a los usuarios segn su
perfil de consulta, desde usuarios con un perfil ms estratgico y menos predecibles
(Power Users) hasta usuarios netamente operacionales que consumen una serie de
reportes estndares (Final Users) pasando por los usuarios gerenciales con uso de
interfases push-button (EIS Users).
- Interfase personalizada
o Application Programming Interface (API)
o Desarrollos propios sobre la base de un conjunto de funcionalidades
- Desarrollo de la aplicacin
o Definicin de herramienta de acceso al MetaData
o Desarrollo de Templates y esquema de navegacin de la aplicacin
o Seleccin de reportes para pre-ejecucin
- Prueba y verificacin de datos
o Descripciones
o Informacin duplicada
o Relaciones entre atributos
o Consistencia e integridad de datos con sistemas fuentes
- Documentacin y Roll Out
o Retroalimentacin con los resultados de la puesta en produccin
- Mantenimiento
o Nuevos templates
o Incorporacin de nuevos sistemas fuentes
o Monitoreo de performance
o Eliminacin de templates en desuso
Implementacin
La tecnologa que reside en el escritorio del usuario es la ltima pieza que debe ser
ubicada antes de la salida a produccin (Roll Out o Deployment).
Desafortunadamente, afirma Kimball (1998), las organizaciones frecuentemente
subestiman el esfuerzo y el tiempo requerido para esta etapa. Kimball, propone
entonces un checklist sobre actividades que deberan ocurrir antes de la implantacin,
para asegurar que la infraestructura correspondiente al ambiente del usuario est
correcta. El checklist incluye: Configuracin de Hardware, Conexin a las Bases,
Acceso a Intranet o Internet, Direcciones LAN (si no son dinmicamente asignadas),
Auditorias de Tecnologa sobre las configuraciones en las que se encontraban las
PCs.
Mantenimiento y crecimiento
Kimball (1998 brinda una serie de puntos a tener en cuenta para mantener
exitosamente el Warehouse. Entre ellos se destacan: el continuo soporte y la
constante capacitacin a usuarios de negocios, el manejo de la infraestructura
(monitoreo de base de datos, trfico, etc.), tuning de rendimiento sobre las consultas,
mantenimiento del metadata y procesos ETLs. Otros aspectos involucran el monitoreo
regular del cumplimiento de las expectativas sobre el Warehouse (variables de
medicin del xito fijadas con anterioridad), relevamiento de casos de estudio
(situaciones reales donde una decisin basada en informacin del Warehouse tuvo
impacto sobre el negocio).
Del mismo modo, la constante publicidad interna del uso del warehouse (permitiendo
acceso siempre y cuando se tenga la capacitacin correspondiente) y fluida
comunicacin con los sectores de negocios y sistemas para asegurar la buena salud
del Data Warehouse.
Esta fase nos indica que el mejoramiento en la calidad de los datos del DWH es un
proceso que va ms all de la construccin del mismo DWH. A diferencia de la
limpieza de datos que apunta a corregir errores, el proceso de mejoramiento de la
calidad busca prevenirlos atacando los problemas desde su origen (Fuente de Datos)
y continuando estas mejoras en todo el tiempo debida del DWH; se debe mejorar sus
procesos de negocio y concientizar a los usuarios y gerencia de su importancia para
que se logre los beneficios deseados. Una forma indirecta para asegurar la calidad en
el DWH es mejorar los procesos de negocios que producen los datos o
reestructurarlos antes de que automaticen de tal manera que se elimine pasos
innecesarios que incluyen costo innecesarios y aaden errores para el DWH.Los
puntos ms importantes y resaltantes a considerar dentro de una organizacin para
asegurar la calidad de la data de las fuentes de origen, son:
- Definir los datos consistentemente entre todos los futuros usuarios del DWH.
- Ubicar los programas de captura de datos lo ms cerca posible del evento de
negocio que origina esos datos.
- Ingresar reglas de validacin automtica que se disparen al momento que se
ingresan los datos y validen si los mismos son correctos
- Permitir actualizar los datos siempre.
- Permitir cargar el valor "desconocido" en cada uno de los campos cuando no
se conoce el valor real.
- Estimular a la organizacin para que tenga la data lo ms actualizados y
correcto posible.
- Hacer que tanto los encargados de ingresar los datos como los encargados de
los procesos de negocios se sientan responsables de la calidad de los datos. Si
se minimiza los errores de los datos desde el origen, estos nos aseguran que la
data que ingresar DWH es confiable para la toma de decisiones en la
organizacin
Este milestone consiste en la entrega y aprobacin del estudio de viabilidad del rea
gerencial, siendo este milestone el punto de inicio para que se emprenda el proceso
de DWH en la organizacin.
Entregables
- Documento del Estudio de Viabilidad
Este milestone culmina con la Fase de Visionado, en este punto tanto el equipo como
los clientes se tiene que poner de acuerdo en toda la direccin del proyecto, como que
caractersticas de la solucin se incluirn o no.
Entregables
- Trabajo en Power Point, presentacin de la Fase de Visionado del DWH.
- Trabajo realizado en Power Point de la organizacin y el DWH.
- Documento de Visin/Alcance/Restricciones.
- Documento de Evaluacin de la Solucin.
- Documento de Estructura del Proyecto
Entregables
- Trabajo en Power Point, presentacin de la Fase de Planificacin del DWH.
- Plan de Proyecto Master.
- Documento de Especificaciones de los Requerimientos.
- Documento del Diseo de la Metadata y de los Objetivos Adicionales para el
Proyecto del DWH.
- Informe de Validacin del Modelado.
- Informe de la Validacin del Diseo.
- Documento del Modelo del DWH (Modelamiento, Diseo del DWH).
Este milestone ocurre cuando el equipo tiene direccionado todos los temas
destacables esta etapa y tiene versionada la solucin o un lugar en el servicio. Una
vez que se ha corregido los errores entonces la versin esta lista para ser Aprobada y
utilizada. Al trmino de las verificaciones que realiza el Equipo del DWH, estas se
concluyen con la Aprobacin Formal de la Prueba de Aceptacin del DWH. Esta
aprobacin involucra verificar que la prueba de un ambiente especfico se tiene que
Entregables
Trabajo en Poder Point, presentacin de la Fase de Estabilizacin del DWH.
Informe de la ejecucin de las pruebas y los resultados a los mdulos de la
solucin (test, herramientas de prueba, Fuentes de Cdigo y ejecutables
probados).
Informe del Miles ton Versin Aprobada.
MILESTONE 5: Implantacin aprobada
Este milestone culmina la Fase de Estabilizacin, la solucin de esta fase debe estar
proporcionando las expectativas del valor del negocio para el cliente y el equipo debe
tener eficazmente terminado los procesos y las actividades para llegar a alcanzar las
metas. El cliente debe estar de acuerdo que el equipo ha conocido sus objetivos antes
de que estos sean declarados como una solucin en el DWH o se haya concluido el
proyecto.
Entregables
Trabajo en Power Point, presentacin de la Fase de Utilizacin del DWH.
Gua/Manual del DWH realizado (funcionalidad, uso, proceso de elaboracin).
Informe del Milestone Implantacin Aprobada (datos de satisfaccin del cliente
y/ousuario).
Documento de Comparacin Alcance/Solucin y de la Definicin de los
siguientes pasos a realizar para continuar el Proceso de Inteligencia de
Negocios
Balance Costo/Valor
Entregables
- Trabajo en Power Point, presentacin de la Fase de Evaluacin del DWH.
3.3. TALLER
3.3.1. Desarrollo de un caso aplicando metodologa de Ralph Kimball.
Escenario.-
Solucin
- Cules son los productos de las distintas categoras que menos solicitan los
clientes?
- Cul es el nivel de ventas de los productos segn el pas de procedencia?
- Cul es el producto de cada proveedor que registra la mayor cantidad de
pedidos?
- Cunto es el monto mensual transportado por cada empresa de transportes?
- Cmo se distribuyen las ventas por regiones y por territorios?
- Los representantes de ventas, tienen el mismo nivel de pedidos colocados?
- Cul es la procedencia de nuestros clientes?
FACT: la Venta
Origen de datos: Orders y [Order details]
Grano 2
Una Venta
Origen de datos: Orders Cada registro de Orders representa una venta, la misma
que puede incluir 1 o ms productos.
Monto vendido
Origen de datos: [Order details].quantity, [Order details].unitPrice
Cules son los productos de las distintas categoras que menos solicitan los clientes?
Dimensin PRODUCTO-CATEGORIA
Origen de datos: [Order details].productID
Product.productName, Product.categoryID
Categories.categoryName
Dimensin CLIENTE
Origen de datos: Orders.customerID
Customers.companyName
Dimensin PRODUCTO-CATEGORIA
Origen de datos: [Order details].productID
Product.productName, Product.categoryID
Categories.categoryName
Dimensin PROVEEDOR
Origen de datos: [Order details].productID
Product.supplierID
Suppliers.companyName
Dimensin PAIS_PRODUCTO
Origen de datos: [Order details].productID
Product.supplierID
Suppliers.country
Dimensin PRODUCTO-CATEGORIA
Origen de datos: [Order details].productID
Product.productName, Product.categoryID
Categories.categoryName
Dimensin PROVEEDOR
Origen de datos: [Order details].productID
Product.supplierID
Suppliers.companyName
Dimensin TRANSPORTISTA
Origen de datos: Orders.shipVia
Shippers.companyName
Dimensin EMPLEADO
Origen de datos: Orders.employeeID
Employees.lastName, Employees.firstName
Dimensin PAIS_CLIENTE
Origen de datos: Orders.customerID
Customers.country
Dimensin PRODUCTO-CATEGORIA
Origen de datos: [Order details].productID
Product.productName, Product.categoryID
Categories.categoryName
Resumen:
Resumen
1. El Staging area es el rea ms importante de un Data Warehouse, en ella se
concentran la mayor parte de los recursos cuando se construye un Data
Warehouse.
2. Los procesos ETL son los que permitirn construir el Data Warehouse
3. La herramienta ETL debe ser abierta a todos los tipos de datos y todas las
plataformas como sea posible.
8. Los metadatos del negocio deben ser presentados adecuadamente y son los que
permiten al usuario explorar la informacin.
2. Podemos tambin ver tres rutas o caminos que se enfocan en tres diferentes
reas:
a. Tecnologa (Camino Superior): Implica tareas relacionadas con
software especfico, por ejemplo, Microsoft SQL Analysis Services.
b. Datos (Camino del medio): En la misma disearemos e
implementaremos el modelo dimensional, y desarrollaremos el
subsistema de Extraccin, Transformacin y Carga (Extract,
Transformation, and Load - ETL) para cargar el DW.
c. Aplicaciones de Inteligencia de Negocios (Camino Inferior): En esta
ruta se encuentran tareas en las que diseamos y desarrollamos las
aplicaciones de negocios para los usuarios finales.
Pueden revisar los siguientes enlaces para ampliar los conceptos vistos en esta
unidad:
o https://www.youtube.com/watch?v=f0SXEIfOx6k
o https://www.youtube.com/watch?v=XyFU8qInKl4
UNIDAD
4
Big Data Hadoop Machine
Learning Data Mining
LOGRO DE LA UNIDAD DE APRENDIZAJE
Al trmino de la unidad, el alumno conoce aspectos de la tecnologa y los
elementos de Big Data y Machine Learning.
TEMARIO
4.1 Tema 8 : Big Data
4.1.1 : Definicin de Big Data y su rol en el mundo empresarial
4.1.2 : Fases de desarrollo de una estrategia Big Data
4.1.3 : Gobernabilidad de datos para la gestin de volmenes de datos.
ACTIVIDADES PROPUESTAS
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan
analizar, descubrir y entender ms all de lo que sus herramientas tradicionales
reportan sobre su informacin, al mismo tiempo que durante los ltimos aos el gran
crecimiento de las aplicaciones disponibles en internet (geo-referenciamiento, redes
sociales, etc.) han sido parte importante en las decisiones de negocio de las
empresas. Vamos a describir algunas caractersticas de los componentes principales
que constituyen una solucin de este tipo.
Concepto.-
Adems del gran volumen de informacin, esta existe en una gran variedad de datos
que pueden ser representados de diversas maneras en todo el mundo, por ejemplo de
dispositivos mviles, audio, video, sistemas GPS, incontables sensores digitales en
equipos industriales, automviles, medidores elctricos, veletas, anemmetros, etc.,
los cuales pueden medir y comunicar el posicionamiento, movimiento, vibracin,
temperatura, humedad y hasta los cambios qumicos que sufre el aire, de tal forma
que las aplicaciones que analizan estos datos requieren que la velocidad de respuesta
sea lo demasiado rpida para lograr obtener la informacin correcta en el momento
preciso. Estas son las caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte
importante y relevante para una solucin analtica. De hecho, se vuelve mucho ms
vital cuando se usa en conjunto con la plataforma de Big Data. Pensemos en nuestras
manos izquierda y derecha, cada una ofrece fortalezas individuales para cada tarea en
especfico. Por ejemplo, un beisbolista sabe que una de sus manos es mejor para
lanzar la pelota y la otra para atraparla; puede ser que cada mano intente hacer la
actividad de la otra, mas sin embargo, el resultado no ser el ms ptimo.
1 quintilln = 10 30 = 1,000,000,000,000,000,000,000,000,000,000
De acuerdo con un estudio realizado por Cisco entre el 2011 y el 2016 la cantidad de
trfico de datos mviles crecer a una tasa anual de 78%, as como el nmero de
dispositivos mviles conectados a Internet exceder el nmero de habitantes en el
planeta. Las naciones unidas proyectan que la poblacin mundial alcanzar los 7.5
billones para el 2016 de tal modo que habr cerca de 18.9 billones de dispositivos
conectados a la red a escala mundial, esto conllevara a que el trfico global de datos
mviles alcance 10.8 Exabytes mensuales o 130 Exabytes anuales. Este volumen de
trfico previsto para 2016 equivale a 33 billones de DVDs anuales o 813 cuatrillones
de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento
enorme de informacin, existe tambin la comunicacin denominada mquina a
mquina (M2M machine-to-machine) cuyo valor en la creacin de grandes cantidades
de datos tambin es muy importante. Sensores digitales instalados en contenedores
para determinar la ruta generada durante una entrega de algn paquete y que esta
informacin sea enviada a las compaas de transportacin, sensores en medidores
elctricos para determinar el consumo de energa a intervalos regulares para que sea
enviada esta informacin a las compaas del sector energtico. Se estima que hay
ms de 30 millones de sensores interconectados en distintos sectores como
automotriz, transportacin, industrial, servicios, comercial, etc. y se espera que este
nmero crezca en un 30% anualmente.
Si bien sabemos que existe una amplia variedad de tipos de datos a analizar, una
buena clasificacin nos ayudara a entender mejor su representacin, aunque es muy
probable que estas categoras puedan extenderse con el avance tecnolgico.
- Web and Social Media: Incluye contenido web e informacin que es obtenida de
las redes sociales como Facebook, Twitter, LinkedIn, etc, blogs.
Una aplicacin puede impulsar este proceso al especificar un modelo de entidad para
Data Explorer para ayudar a establecer diversas opciones de configuracin que
mostraremos muy pronto. Este modelo de entidad es crtico para el xito general de su
escenario de aplicacin.
Data Explorer Application Builder proporciona una forma de compilar una aplicacin
que rene la informacin relevante sobre datos esparcidos en distintos sistemas. En
nuestro escenario de muestra, un ejecutivo de planificacin de productos podra
interesarse en un producto o familia de productos, as que una aplicacin de vista de
360 grados podra incluir retroalimentaciones, problemas de producto e interacciones
anteriores con el cliente.
Ahora bien, pensemos en el mundo de big data en donde los datos tienen
comnmente una vida til corta y adems se pueden acumular rpidamente, de
manera que se vuelve imperativo definir las polticas del ciclo de vida de stos
Big data est cambiando las caractersticas de los datos de cada sistema y para
hacerlos utilizables necesitan ser gobernados de una manera ms segura y confiable.
Recordemos los aspectos de big data definidos a travs de las 4 V's: volumen,
velocidad, variedad y veracidad. El aspecto de la veracidad cobra especial importancia
ya que necesitamos confiar en la informacin que utilizamos para tomar decisiones.
Cmo poder intervenir en la informacin si no es confiable?
Si bien es posible pensar que cualquier forma de gobierno o intento por limpiar
nuestra big data en realidad podra eliminar informacin valiosa, es necesario
determinar si los datos deben limpiarse con el mismo criterio que se aplicara a los
datos tradicionales o si se pierde valor al hacerlo. Entonces, deberan establecerse
procesos de gobernabilidad de datos para Big Data?, la respuesta es s, aunque va
directamente relacionado con el objetivo de los datos.
Muchos casos de big data incluyen el anlisis de informacin sensible; de tal modo
que las organizaciones deben definir las polticas de seguridad para proteger dicha
informacin y esas polticas deben ser monitoreadas y aplicadas.
Las bases de datos (BD) tradicionales son las relacionales que usan un lenguaje
Estndar para su manipulacin y gestin, el SQL que nace en 1974 basado en Modelo
de EF COD. SQL tiene ms de 37 aos de vida. Son ejemplos de bases de datos
relacionales: ORACLE, MYSQL, SQL Server, POTGRESS, DB2, etc. Su xito se bas
en que son una solucin para los problemas de gestin y estructuracin de la
informacin de las organizaciones, con un fundamento matemtico muy fuerte,
lenguaje estandarizado (aceptado y adoptado) para su gestin (SQL), con
metodologas estructuradas formales para el diseo de los sistemas de informacin de
las organizaciones y con principios de diseo como la regla ACID (atmica
consistente aislada y Durable) estas plataformas tienen muchas herramientas
desarrolladas.
Las bases de datos NOSQL son un conjunto de bases de datos que no se ajustan al
modelo de bases de datos relacionales y sus caractersticas, estas no tienen
esquemas, no usan SQL ni permiten joins, no garantizan la propiedad ACID, escalan
horizontalmente, hacen uso amplio de la memoria principal del computador, resuelven
el problema de los altos volmenes de informacin y la inmensa cantidad de consultas
y transacciones diarias, en resumen no son relacionales.
- Origen.
El trmino fue acuado por Calor Strozzi en 1998 y resucitado por Eric Evans (un
empleado de Rackspace,) en 2009 y el mismo sugiri se llamasen estas bases de
datos como Big Data
Las bases de datos NOSQL no nacieron en 2009 sino que se remontan a la poca de
las bases de datos de red y jerrquicas y una serie de productos que no eran
relacionales que resuelven problemas que no tienen las caractersticas similares a los
de: amazon.com, Facebook, Youtube, twitter, Netflix, Yahoo, EBay, Hulu, IBM, y que
en la poca en que surgieron no se tena internet. Desde 1965 (Knut 2010) se han
venido desarrollando productos para almacenamiento masivo, datos multi valor, de
red (grafos) , jerrquicos (arboles), con estructuras B+, productos de procesamiento de
transacciones de alto desempeo llave valor (GTM en 2000 de cdigo abierto) Por
ejemplo Neo4j empez en el ao 2000, pero si algo contribuyo al desarrollo de los
productos NOSQL fueron la serie de papers publicados por Google en 2003, 2004 y
2006 sobre cmo construir una infraestructura escalable para el procesamiento
paralelo de grandes (enormes) cantidades de datos, que origino Hadoop (y luego
Hadoop MapReduce de Yahoo) , ms tarde en 2007 Amazon liber su historia sobre
Dynamo el almacenamiento llave/Valor de alta disponibilidad. (Shashank 2011)
JackRabbit 2006
Tokyo Cabinet 2006
Amazon Dynamo 2007
MongoDB 2007
Cassandra 2008
Proyecto t Voldemort 2008
Terrastore 2009
Redis 2009
Riak 2009
HBase 2009
Vertexdb 2009
El problema.-
Se han creado ms datos en los ltimos dos aos que todos los aos anteriores, se
han creado datos del orden de ExaBytes (10 a la 18) por ao. Los datos son ms
entrelazados y conectados, son datos menos estructurados y datos a escala de la
web, con mucha lectura escritura, los esquemas (schemas) cambian
frecuentemente, por ejemplo las aplicaciones sociales no necesitan el mismo nivel de
ACID y la orientacin del software es hacia servicios (PasS: programas como
Servicios)
Pero la gran diferencia es como almacenan los datos. Por ejemplo una factura en el
modelo relacional termina guardndose en 4 tablas (con 3 o 4 llaves forneas
asociaciones involucradas) y en NOSQL simplemente guardan la factura y no se
disea las tablas ni su estructura por adelantado, se almacena, por ejemplo una clave
(nmero de la factura) y el Objeto (la factura) unido a lo anterior podemos afirmar que
en las bases de datos relacionales: la lectura de datos es muy costosa, existe mucha
transaccionalidad innecesaria, se asumen que los datos son densos y bien
estructurados, tienen problema de escalabilidad horizontal y no todos los problemas se
pueden modelar para una base un RDBMS
Usuarios
Clasificacin
Segn el teorema de CAP o teorema de Brewer (ao 2000), las bases de datos solo
pueden garantizar dos de tres caractersticas:
- Consistencia
- Disponibilidad (Availability)
- Tolerancia a particiones.
Las BD NOSQL manejan un concepto similar al ACID y se denomina para ellas BASE
(Basically Available, Soft-State y Eventual Consistency) donde es de prioridad la
disponibilidad sobre la consistencia, es decir que el sistema no estar probablemente
en cada instante del tiempo en estado consistente.
Las bases de datos se han venido clasificando principalmente en cuatro (4) grupos:
- De clave Valor
- Documentos
- Familia de columnas
- Grafos
o De clave Valor.
Este grupo de bases de datos NOSQL cuyo precursor fue Big Table de Google tiene
un Modelo con pares clave-Valor.
Transacciones tipo son: put (key, value), get (key), remove (key)
o De documentos
o De Grafos
Los nodos son entidades y los arcos con relaciones y contienen informacin con uso a
menudo de tablas hash distribuidas y ofrecen estructuras de datos sencillas como
arrays asociativos o almacenes de pares claves valor.
4.2 HADOOP
Demasiados Datos
Hadoop fue creado por Doug Cutting y Mike Cafarella en 2005. Cutting, trabajaba en
en ese momento en Yahoo. Fue desarrollado originalmente para apoyar la distribucin
del proyecto de motor de bsqueda, denominado Nutch.
Hadoop Common: Las utilidades comunes que apoyan los otros mdulos de
Hadoop.
Hadoop Distributed File System (HDFS ): Un sistema de archivos distribuido
que permite el acceso de alto rendimiento a los datos de la aplicacin.
Hadoop YARN: Un marco para la planificacin de tareas y gestin de recursos
de clster.
Hadoop MapReduce: Un sistema basado en el hilo para el procesamiento
paralelo de grandes conjuntos de datos.
4.2.2 Arquitectura
Una funcionalidad clave es que para la programacin efectiva de trabajo, cada sistema
de archivos debe conocer y proporcionar su ubicacin: el nombre del rack (ms
precisamente, del switch) donde est el nodo trabajador. Las aplicaciones Hadoop
pueden usar esta informacin para ejecutar trabajo en el nodo donde estn los datos
y, en su defecto, en el mismo rack/switch, reduciendo as el trfico de red troncal
(backbone traffic). El sistema de archivos HDFS usa esto cuando replica datos, para
intentar conservar copias diferentes de los datos en racks diferentes. El objetivo es
reducir el impacto de un corte de energa de rack o de fallo de interruptor de modo que
incluso si se producen estos eventos, los datos todava puedan ser legibles.8
Un clster tpico Hadoop incluye un nodo maestro y mltiples nodos esclavo. El nodo
maestro consiste en jobtracker (rastreador de trabajo), tasktracker (rastreador de
tareas), namenode (nodo de nombres), y datanode (nodo de datos). Un esclavo o
compute node (nodo de cmputo) consisten en un nodo de datos y un rastreador de
tareas. Hadoop requiere tener instalados entre nodos en el clster JRE 1.6 o superior,
y SSH.
Sistemas de archivos
Hadoop Distributed File System
- FTP: ste almacena todos sus datos en un servidor FTP accessible remotamente.
Varios puentes de sistema de archivos de terceros han sido escritos, ninguno de los
cuales estn actualmente en las distribuciones de Hadoop. stas pueden ser ms de
propsito general que HDFS, el cual est muy sesgado hacia grandes archivos y solo
ofrece un subconjunto de la semntica esperada de sistema de archivos Posix
Filesystem: no se puede bloquear o escribir en cualquier parte salvo la cola de un
archivo.
Aparte del sistema de archivos, est el motor MapReduce, que consiste en un Job
Tracker (rastreador de trabajos), para el cual las aplicaciones cliente envan trabajos
MapReduce.
El rastreador de trabajos (Job Tracker) impulsa el trabajo fuera a los nodos Task
Tracker disponibles en el clster, intentando mantener el trabajo tan cerca de los datos
como sea posible. Con un sistema de archivos consciente del rack en el que se
encuentran los datos, el Job Tracker sabe qu nodo contiene la informacin, y cules
otras mquinas estn cerca. Si el trabajo no puede ser almacenado en el nodo actual
donde residen los datos, se da la prioridad a los nodos del mismo rack. Esto reduce el
trfico de red en la red principal backbone. Si un Task Tracker (rastreador de tareas)
falla o no llega a tiempo, la parte de trabajo se reprograma. El TaskTracker en cada
nodo genera un proceso separado JVM para evitar que el propio TaskTracker mismo
falle si el trabajo en cuestin tiene problemas. Se enva informacin desde el
TaskTracker al JobTracker cada pocos minutos para comprobar su estado. El estado
del Job Tracker y el TaskTracker y la informacin obtenida se pueden ver desde un
navegador web proporcionado por Jetty.
Si el Job Tracker fallaba en Hadoop 0.20 o anterior, todo el trabajo en curso se perda.
Hadoop versin 0.21 aadi algunos autoguardados al proceso; el rastreador de
trabajo graba lo que est en el sistema de archivos. Cuando un Job Tracker comienza,
busca datos para recomenzar el trabajo donde lo dej. En versiones anteriores, todo el
trabajo activo se perda cuando se reiniciaba el Job Tracker.
Programacin de tiempo
Por defecto Hadoop usa el mtodo FIFO para programar la realizacin de trabajos
desde una cola de trabajo. En la versin 0.19 el job scheduler (programador de
trabajos) fue refactorizado fuera de Hadoop, lo cual aadi la habilidad de usar un
programador alternativo.
Programador justo
El fair scheduler (programador justo o limpio) fue desarrollado por Facebook. El
objetivo del programador es proporcionar rpida respuesta para trabajos pequeos y
calidad de servicio (QOS, en sus siglas en ingls) para trabajos de produccin. El fair
scheduler se basa en 3 conceptos bsicos:
Por defecto, los trabajos que estn sin categorizar van a un pool por defecto. Las pools
tienen que especificar el n mnimo de slots de mapa, los reduce slots, y un lmite en el
nmero de trabajos ejecutndose.
Programador de capacidad
El programador de capacidad fue desarrollado por Yahoo. Soporta varias funciones
similares a las del fair scheduler.
Otras aplicaciones
Qu es MAP REDUCE?
MapReduce es un modelo de programacin que Google est utilizando con xito, est
procesando grandes volmenes de datos. (20000 PetaBytes por da).
La funcin Map () produce uno o ms valores intermedios junto con una clave de
salida.
TXT
Final
Tarea (Valor, Shuffle (Valor int, Tarea de (Valor,
de KEY 1) Phase KEY 2) Reduccin KEY)
Mapeo
Despus de la fase de mapeo, todos los valores intermedios se combinan en una llave
de salida.
Pre carga de
datos de
entrada
Proceso de mapeo Proceso de mapeo Proceso de mapeo
datos
intermedios de
mapeado
valores
intercambiados por
el proceso
aleatorio
La salida se
almacena
La funcin Reduce() tambin se ejecuta en paralelo cada uno generando una llave de
salida diferente.
HDFS
NameNode: Slo hay uno en el clster. Regula el acceso a los ficheros por parte de
los clientes. Mantiene en memoria la metadata del sistema de ficheros y control de los
bloques de fichero que tiene cada DataNode.
DataNode: Son los responsables de leer y escribir las peticiones de los clientes. Los
ficheros estn formados por bloques, estos se encuentran replicados en diferentes
nodos.
HBase es la base de datos oficial de Hadoop. Aunque Hadoop puede interactuar con
otras bases de datos relacionales o NoSQL, como Cassandra o BigTable, HBase es el
componente oficial/estndar NoSQL a utilizar. HBase est basada en BigTable (de
Google) por lo que es una base de datos clave-valor orientada a columnas (column-
family). Como hemos visto en el post anterior, eso quiere decir que no sigue el
esquema relacional y no admite SQL. Sin embargo, es capaz de manejar grandes
conjuntos de datos con operaciones simultneas de lectura y escritura.
Hive es un sistema de Data Warehouse para Hadoop que facilita la agregacin de los
datos para realizar informes (reporting) y anlisis de grandes datasets. Hive permite
realizar consultas sobre los datos usando un lenguaje similar a SQL, llamado HiveQL.
Adems permite utilizar los tradicionales MapReduce cuando el rendimiento no es el
correcto. Permite conexiones JDBC/ODBC, por lo que se integra fcilmente con otras
herramientas de Business Intelligence.
Lucene es un motor de bsqueda escrito en Java que permite indexar cualquier texto
para luego buscar por palabras clave, o por cualquier otro criterio de bsqueda, en
tiempo rcord. Aunque en principio Lucene slo funciona sobre texto plano, existen
plugins que permiten la indexacin y bsqueda de contenidos en documentos Word,
PDF, XML o pginas HTML. El proyecto Apache Solr es una plataforma
complementaria de la fundacin Apache que aporta funcionalidades muy interesantes
al software base de Lucene.
Zookeeper significa el guardin del Zoo. Se trata de un proyecto que proporciona una
infraestructura centralizada para servicios basados en cluster (es decir, que se
ejecutan en paralelo) y que necesitan estar sincronizados. Por ejemplo, datos de
configuracin, jerarquas de nombres, detalles de procesado etc. De esta forma,
ZooKeeper ofrece un punto de acceso comn a una gran variedad de objetos
ampliamente utilizados en grandes entornos de clster.
Ahora el Machine Learning no es slo cosa de robots o ciencia ficcin: est al alcance
de todos. Es necesario que las empresas identifiquen esta gran ventaja competitiva y
saquen el mximo partido a los beneficios que ofrece.
Hoy en da an son pocos los empresarios que han descubierto el enorme potencial
del Machine Learning aplicado en los negocios, no obstante que genera gran valor al
integrarlo con los sistemas empresariales: se puede prever la demanda, detectar fallas
y anomalas, definir un target publicitario, hacer recomendaciones en lnea, mejorar la
experiencia del cliente, reducir el riesgo de fallos sistmicos, aumentar los ingresos y
obtener significativos ahorros, entre muchas otras posibilidades.
A manera de ejemplo, estas son slo algunas de las aplicaciones prcticas del
Machine Learning en los negocios:
Prospectos
Clientes insatisfechos
Clientes leales
Clientes morosos
Publicidad ms efectiva
Menor riesgo de crdito
Menos fraudes
Disminucin en la tasa de desercin (churn rate)
Usos en medicina:
Deteccin
Diagnstico y pronstico
Descubrimiento de frmacos
Usos en seguridad:
Reconocimiento facial
Usos en interfaces:
Filtrar spam
Categorizar textos
Traducir textos
Recomendaciones
Aprendizaje Supervisado:
Aprendizaje No Supervisado:
Supervised learning:
o Tareas de Clasificacion:
- Nearest Neighbor
- naive Bayes
- Decision trees
- Classification rule learners
- Neural networks
- Support vector machine
o Tareas de regresion (numeric):
- Linear regression
- Regression trees
- Model trees
- Neural networks
- Support vector machine
Unsupervised learning:
o Association rules (pattern detection)
o k-means clustering (clustering)
Algoritmo KNN
Este mtodo supone que los vecinos ms cercanos nos dan la mejor clasificacin y
esto se hace utilizando todos los atributos; el problema de dicha suposicin es que es
posible que se tengan muchos atributos irrelevantes que dominen sobre la
clasificacin: dos atributos relevantes perderan peso entre otros veinte irrelevantes.
Ejemplo:
Ploteo:
Clasificar:
Clculo:
Algoritmo K-Means
La agrupacin del conjunto de datos puede ilustrarse en una particin del espacio de
datos en celdas de Voronoi.
Ejemplo:
El enunciado pide crear 2 Clusters, as que se deben crear dos conjuntos de manera
aleatoria.
No hay problema en la aleatoriedad, usted puede crear dos grupos donde el primer
conjunto tenga un elemento y el segundo conjunto tenga los tres elementos restantes.
En otro caso puede crear un grupo donde el primer conjunto tenga dos elementos y el
otro conjunto tenga los otros dos elementos restantes, e incluso puede crear un
conjunto con cero elementos y el otro conjunto contenga los cuatro elementos
restantes.
Decidimos (de manear aleatoria) crear un grupo con los elementos A y C; y otro grupo
con los elementos B y D.
Cluster1
Cluster2
El enunciado pide crear 2 Clster, as que se deben crear dos conjuntos de manera
aleatoria.
Cluster1
Cluster2
Los valores de cada medicina (peso y PH) se consideran como coordenadas, para
calcular el centroide se obtiene la media aritmtica de cada coordenada de los valores.
Por cada elemento se calcula la distancia de sus coordenadas hacia las coordenadas
de cada centroide.
Paso 4: Bucle.
Debido a que en el caso anterior los nuevos centroides fueron diferente a su centroide
original, se forma los nuevos grupos de cluster (es decir, el elemento C pasa al cluster
2 y el elemento B pasa al clster 1) y se repite los pasos anteriores.
Se observa que en este blucle los nuevos centroides calculados no fueron diferentes al
actual por tanto el bluce finaliza y ese seria los clusters con los elementos de
caractersticas comunes.
Resultado final:
El anlisis del negocio determina las variables a analizar y los temas a analizar, luego
en la interpretacin de los resultados que se obtengan con los algoritmos.
Las herramientas
Algoritmos estadsticos
Funciones de visualizacin.
Funciones exploratorias.
Funciones estadsticas.
Funciones de administracin de datos.
Funciones de grabacin y reproduccin.
Herramientas de presentacin.
Herramientas de desarrollo.
Tiempo de respuesta razonable.
Los retos del trabajo con algoritmos estadsticos son los siguientes:
Trabajo intenso.
Los resultados dependen de la habilidad del analista.
Muchas veces no se sabe qu buscar.
Es complicado trabajar con datos no-numricos.
Algoritmos de descubrimiento de conocimientos.
El proceso KDD busca extraer informacin implcita no trivial de las bases de datos,
que no era conocida y que sea de utilidad. Para lograrlo se procesa la informacin con
algoritmos neuronales, rboles de decisin, entre otros.
Anlisis de dependencias.
Clasificacin
Descripcin de conceptos.
Redes neuronales.
Deteccin de desviaciones.
Retos
Calidad de datos.
Bases de datos muy grandes.
Desempeo y costos.
Tcnicas de analistas empresariales.
Calidad de datos.
Bases de datos muy grandes.
Desempeo y costos.
Tcnicas de analistas empresariales.
4.4.2 Proceso
- Seleccin del conjunto de datos: aqu se decide cules van a ser las variables
objetivos (aquellas que se quieren predecir o inferir), las variables independientes y
la seleccin de registros (datos) a utilizar.
- Anlisis de las propiedades de los datos: mediante, por ejemplo, histogramas y/o
diagramas de dispersin. Bsqueda de valores atpicos (outliers) y ausencia de
datos.
4.4.3 Normas
4.4.4 Usos
Aplicaciones de Uso
En el Gobierno:
El FBI analizar las bases de datos comerciales para detectar terroristas. A principios
del mes de julio de 2002, el director del Federal Bureau ofInvestigation (FBI), John
Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la
vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra
En la Empresa
Un estudio muy citado detect que los viernes haba una cantidad inusualmente
elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba
a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para
el n de semana consista en que- darse en casa cuidando de su hijo y viendo la
televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas
de cerveza colocndolas prximas a los paales para fomentar las ventas
compulsivas,
En la Universidad
En Investigaciones Espaciales
- Proyecto SKYCAT.
Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion
tres terabytes de imgenes que contenan aproximadamente dos millones de objetos
en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por
pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de
todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se
basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasicar
los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta conabilidad
(Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir
diecisis nuevos qusars con corrimiento hacia el rojo que los incluye entre los objetos
ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusars son difciles
de encontrar y permiten saber ms acerca de los orgenes del universo.
Tal es el caso del Business Intelligence, sector que en los ltimos tiempos ha vivido las
modificaciones e innovaciones de las nuevas tecnologas de software que
constantemente llegan al mercado, ofreciendo un servicio superior y una funcionalidad
para resolver mayor cantidad de inquietudes en el campo empresarial.
Tal fue el xito obtenido por dicha compaa, que sus ejecutivos decidieron
implementar el BI para incluso predecir los filmes, argumentos y actores que pueden
llegar a ser populares en cada sector de los Estados Unidos y en los distintos pases
del mundo.
Debido a las virtudes de este sistema, los expertos aseguran que en un futuro a corto
plazo se estima que la utilizacin de Business Intelligence aumentar en un 40%, ya
que las herramientas que brinda esta solucin empresarial permitirn conocer las
preferencias de los consumidores, incluso a nivel individual.
Se prev que en los prximos aos habr una explosin dentro del mundo de la
tecnologa informtica empresarial, que finalmente llevar a que todas las
organizaciones decidan abandonar los mtodos tradicionales de manejo de
informacin, para utilizar sistemas BI, con el fin de contar con una herramienta
administrativa que ofrezca los elementos necesarios para establecer una estrategia
adecuada que responda a los cambios del mercado en tiempo real.
Tendencias tecnolgicas.-
Segn cada una de las fuentes confiables que podemos encontrar, hay casi 3.000
millones de personas conectadas a Internet en este momento; para 2020 este nmero
ser de casi 4.000 millones. De acuerdo a Cisco, para el ao 2020 habr ms de
50.000 millones de dispositivos conectados en el mundo. A algunas personas les
gusta llamarlo el "Internet de las cosas", otros lo llaman "Machine 2 Machine" o "M2M".
No importa cmo lo llames, stas son cantidades inconcebiblemente grandes de
personas y dispositivos que estn todos conectados.
Se usaran tres leyes para que ayuden a entender el ritmo de cambio: la Ley de
Moore, la Ley de rendimientos acelerados y la Ley de Metcalfe. La Ley de Moore se
llama as por Gordon Moore, cofundador de Intel. l escribi un famoso artculo en
1965 en el que planteaba que la densidad de los semiconductores de silicio se
duplicara cada 18 meses.
Esto fue as por un tiempo, pero ahora, a causa de la Ley de rendimientos acelerados
(que establece que el ritmo de cambio tecnolgico se est acelerando de forma
exponencial) sabemos que esta duplicacin del poder informtico ocurre mucho ms
rpido que eso. Luego est la Ley de Metcalfe, la cual nos dice que el valor de una red
aumenta de forma proporcional al cuadrado del nmero de usuarios. Si todo esto
suena demasiado geek, no te preocupes; a continuacin detallamos cmo pensar de
forma simple sobre el notable ritmo de los cambios tecnolgicos y el enorme nmero
de personas.
Entonces, mientras que en 2015 todava hay una aplicacin para eso, nuestro mundo
que gira en torno a los telfonos inteligentes es temporal.
Tal y como hemos aprendido de los hackeos muy pblicos en el ltimo ao (el cual
culmin con el espectacular ataque a Sony), existe una mayor necesidad de
protocolos de seguridad y privacidad.
Todo lo que puede ser hackeado, ser hackeado. Pero probablemente no de la forma
que piensas sobre el hackeo. Las violaciones de los protocolos de seguridad
ciberntica cubren un amplio espectro, desde el escndalo de la fotografa del
desnudo de Jennifer Lawrence tramada a nivel social, hasta los ataques de los
estados nacin por medio del uso de armas sper cibernticas y de clasificacin
militar.
La compra de los medios fsicos (CD, DVD, etc.) sigue disminuyendo y la tendencia a
la baja se est acelerando. Las descargas de los medios digitales tambin estn
disminuyendo. Los consumidores cada vez ms estn cmodos con la opcin de
"alquilar" contenido mediante el pago por acceso a los servicios de suscripcin:
msica, pelculas, programas de televisin, incluso los juegos y libros estn avanzando
hacia un modelo de acceso.
La opcin "a pedido" no es algo nuevo; pregntale a cualquier persona que haya
cuidado a un beb. Lo que es nuevo es la velocidad con la que est evolucionando la
infraestructura tecnolgica para entregar casi todo lo que puedes solicitar a pedido,
aunque de forma heterognea. El espacio vaco es evidente y la tendencia es clara:
Las organizaciones intentan satisfacer con avidez todas nuestras demandas (lo ms
inmediato que sea posible). Se trata de buscar la conveniencia a diferencia de
cualquiera cosa que hayamos visto antes y realmente est recin empezando.
-Los audios y videos a pedido son comunes. Los modelos comerciales necesitan estar
al da.
-Las habitaciones de hotel a pedido estn surgiendo. Los legisladores y los grupos de
presin hoteleros estn protestando indignados por ello.
Qu suceder despus?
Los alimentos, vivienda y transporte a pedido son obvios. La venta al por menor y
servicios de todo tipo a pedido son menos obvios y los comodines son los meta
servicios que evolucionarn para darle sentido a nuestro mundo a pedido.
Redes Sociales.-
Tras un breve vistazo a lo que el ao pasado signific para la esfera digital, vamos a
mirar las principales tendencias del 2015 en las redes sociales.
Las redes sociales, un espacio donde un nmero cada vez mayor de clientes est
activo, ofrece plataformas para un servicio al cliente ms directo, facilitando una
experiencia ms humana.
En 2015, las marcas se convertirn en expertas en hacer de las redes sociales una
ventaja. En un ecosistema de marcas-consumidores cada vez ms automatizado y
menos personal, las marcas confiarn en las redes sociales para enriquecer,
diferenciar y mejorar la reputacin de la empresa.
Tras el xito de las grandes empresas del sector (Facebook, Twitter, Instagram, etc.)
el ltimo par de aos, 2015 ser el momento de las redes ms pequeas, de las redes
de nicho. Plataformas que permiten a los usuarios conectarse con menos personas
que tienen los mismos intereses o aficiones.
Redes como Kerboodle (dirigido a las personas que les gusta ir de compras), Foodie
(una comunidad para compartir recetas) o Ravelry (una comunidad para diseadores y
personas interesadas en hacer punto) servirn como una fuente de inspiracin para
nuevas plataformas, basadas en intereses.
Adems, como la mayora de las redes sociales obtienen beneficios a travs de la
publicidad pagada, los redes de nicho sern el nuevo sueo de los anunciantes, ya
que conseguirn acceso directo a su pblico objetivo.
En 2015, dejaremos de utilizar este tipo de tecnologa para tareas muy simples, y
como afirman los expertos, un elemento clave para este ao ser la salud. Microsoft,
Google y Apple ya han lanzado sus propias plataformas de salud, y los mdicos
estn cada vez ms interesados en cmo se puede utilizar esta tecnologa para
proporcionar informacin sobre la salud.
Ademas se espera que Apple Watch, el primer complemento inteligente de Apple, sea
un gran xito. Es probable que este lanzamiento vaya a beneficiar la industria,
aumentando la confianza en esta nueva ola de la informtica.
17 de los 100 canales de Youtube con ms suscripciones son blogs, una gran
oportunidad para que las marcas se involucren.
Otra tendencia que veremos este ao es que los profesionales del marketing
contactarn a vloggers para revisiones y publicidad. Y por qu no, tal vez algunos
comenzarn a crear sus propios canales de vlogging.
En 2014, Twitter dio a los usuarios la posibilidad de compartir los tweets pblicos en
conversaciones privadas, mientras que Facebook lanz Rooms, una aplicacin para
chats de grupo annimos. Adems, aplicaciones de redes sociales annimas como
Snapchat, Secret o Whisper ganaron popularidad rpidamente.
En 2015, habr un cambio de enfoque para este canal y las marcas empezarn a
incluirlo en su estrategia de redes sociales.
Como Aaron Lee aconseja, este ao el presupuesto para el paid media ser ms
importante que nunca.
La cada vez mayor competicin por publicar contenido llevar al paid media a otro
nivel, con las empresas tratando de satisfacer la demanda de los consumidores de
buen contenido.
El uso de las redes sociales solo seguir aumentando, y podemos esperar que el
alcance orgnico contine disminuyendo a medida que el volumen de contenido en
estas redes se incremente.
Contar una historia, en lugar de empujar un mensaje, marcar una gran diferencia
para los que entienden que, en las redes sociales, mostrar preocupacin por tu pblico
(respondiendo sus preguntas, compartiendo contenido que les ayude a resolver sus
problemas o interactuando con ellos) importa ms que promover tus servicios o
productos.
Vamos a ver mensajes ms humanos, relacionados con la vida real. La gente tiende a
responder mucho mejor a campaas, vdeos, imgenes, etc. que hablan de ellos; a
historias con las que se puedan identificar fcilmente. Y las marcas ms inteligentes
sacarn todo el provecho a esta oportunidad.
El tweet Dunk in the Dark de la Super Bowl 2013 o el tweet ms reciente de KitKat
#Bendgate, son dos buenos ejemplos de cmo reacciones oportunas a eventos
externos de gran escala pueden ayudar a las marcas a incrementar su reputacin
online.
Estas son algunas de las principales tendencias en las redes sociales que creemos
que tendrn lugar este ao.
La idea clave es que los usuarios, las empresas, las grandes corporaciones acceden a
los servicios de TI a travs de la nube, los clientes pueden acceder bajo demanda,
La demanda de este tipo de computacin remota est en auge y est originando que
las empresas busquen lugares econmicos para alojar sus centros de datos. Buscan
una mezcla de caractersticas: edificios econmicos, electricidad barata y fuerza
laboral de coste reducido. Numerosas consultoras estadounidenses y tambin
europeas buscan sedes para sus centros de datos, desde IBM y HP, hasta Pepsico o
Coca Cola Company.
Por consiguiente los repositorios de informacin web se convierten en pieza clave del
nuevo modelo de negocio en el que ya estamos inmersos; y para ello vamos a tratar
de acercarnos a lo que actualmente existe y se demanda.
Resumen
1. Big Data es las tres V: Volumen, Velocidad, Variedad.
8. Data Mining consiste en descubrir, en los datos, cosas que no son evidentes y que
sean tiles para el negocio.
Puede revisar los siguientes enlaces para ampliar los conceptos vistos en esta unidad:
o http://blog.classora.com/2013/08/30/tecnologias-de-big-data-el-ecosistema-hadoop/
o http://kb.tableau.com/articles/knowledgebase/administering-hadoop-hive?lang=es-es
o http://news.microsoft.com/es-es/2015/07/13/microsoft-anuncia-nuevas-oportunidades-
para-sus-socios-de-negocio-en-worldwide-partner-conference/