Documente Academic
Documente Profesional
Documente Cultură
Alejandro Arias
Julio 2017
Universidad Fidelitas.
Data y porqu se ha vuelto tan importante? pues bien, en trminos generales podramos
referirnos como a la tendencia en el avance de la tecnologa que ha abierto las puertas hacia un
nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes
demasiado tiempo y sera muy costoso cargarlos a un base de datos relacional para su anlisis.
De tal manera que, el concepto de Big Data aplica para toda aquella informacin que no puede
ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big
de manera que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos
Adems del gran volumen de informacin, esta existe en una gran variedad de datos que pueden
ser representados de diversas maneras en todo el mundo, por ejemplo de dispositivos mviles,
audio, video, sistemas GPS, incontables sensores digitales en equipos industriales, automviles,
medidores elctricos, veletas, anemmetros, etc., los cuales pueden medir y comunicar el
2
posicionamiento, movimiento, vibracin, temperatura, humedad y hasta los cambios qumicos
que sufre el aire, de tal forma que las aplicaciones que analizan estos datos requieren que la
velocidad de respuesta sea lo demasiado rpida para lograr obtener la informacin correcta en el
momento preciso. Estas son las caractersticas principales de una oportunidad para Big Data.
Es importante entender que las bases de datos convencionales son una parte importante y
relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se usa en
conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y derecha, cada
una ofrece fortalezas individuales para cada tarea en especfico. Por ejemplo, un beisbolista sabe
que una de sus manos es mejor para lanzar la pelota y la otra para atraparla; puede ser que cada
mano intente hacer la actividad de la otra, mas sin embargo, el resultado no ser el ms ptimo.
3
Justificacin
Debido a la gran notoriedad que est teniendo esta tecnologa actualmente. Cualquier persona
sin o con conocimientos tecnolgicos, se pregunta cmo se almacena toda la informacin que
todas las transacciones que se hacen a diario. Pero no solo se queda aqu, ya que Big Data
alcanza todos los mbitos: bolsa, climatologa, astronoma, la cantidad de datos que se genera
actualmente es abrumadora y solo el hecho de saber cmo se consigue captar y analizar dicha
organizaciones utilizando un software tan complejo como es el SAP y que con ello consiguen
4
Importancia
Con el trmino Big Data se hace referencia a la tendencia del avance de las tecnologas que han
abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es
utilizada para describir enormes cantidades de datos que llevara demasiado tiempo cargarlos en
una base de datos relacional para su posterior anlisis. Por lo tanto, el Big Data se aplicar para
toda aquella informacin que no pueda ser procesada por los mtodos tradicionales. Una base de
hace referencia a la teora del modelo de datos relacional obra del investigador de IBM Edgar
Codd en 1970 y que goza de una fuerte base matemtica. El modelo relacional se caracteriza a
muy grandes rasgos por disponer que toda la informacin que debe de estar contenida en tablas,
y las relaciones entre datos deben ser representadas explcitamente de ese mismo modo. Lo que
se consigue con este modelo es trabajar siempre sobre tablas relacionadas entre s. Evitando
registro, se eliminan todos los relacionados. El gran inconveniente que presenta es el tiempo
necesario para manejar grandes cantidades de datos, pero esto se logra gracias al Big Data. Por
otro lado lo que se consigue al trabajar con bases de datos es combinar diferentes tipos de datos y
de una manera formalizada. Por lo tanto las ventajas de una base de datos relacional se podran
definir en:
5
No obstante, tambin surgen desventajas de la utilizacin de bases de datos relacionales, aunque
Estas tres desventajas nombradas anteriormente las resuelve Big Data, gracias a que su estructura
es capaz de almacenar y procesar grandes cantidades de datos y de los tres tipos de datos
6
Desarrollo
Qu es Big Data?
Debido al gran avance que existe da con da en las tecnologas de informacin, las
organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar, descubrir
mismo tiempo que durante los ltimos aos el gran crecimiento de las aplicaciones disponibles
en internet (geo-referenciamiento, redes sociales, etc.) han sido parte importante en las
decisiones de negocio de las empresas. El presente artculo tiene como propsito introducir al
7
1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las redes
2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten conectarse a
otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algn
qumicas como la salinidad, etc.) los cuales transmiten a travs de redes almbricas, inalmbricas
detallados de las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en formatos
retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia, los datos
5.- Human Generated: Las personas generamos diversas cantidades de datos como la
informacin que guarda un call center al establecer una llamada telefnica, notas de voz, correos
Las organizaciones han atacado esta problemtica desde diferentes ngulos. Todas esas montaas
de informacin han generado un costo potencial al no descubrir el gran valor asociado. Desde
8
luego, el ngulo correcto que actualmente tiene el liderazgo en trminos de popularidad para
programacin MapReduce, el cual consiste en dividir en dos tareas (mapper reducer) para
procesamiento. Hadoop est compuesto de tres piezas: Hadoop Distributed File System (HDFS),
Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques y
distribuidas a travs del clster; de esta manera, las funciones map y reduce pueden ser
9
ejecutadas en pequeos subconjuntos y esto provee de la escalabilidad necesaria para el
La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que
cada bloque es almacenado tres veces y al menos un bloque se almacena en un diferente rack
Hadoop MapReduce
separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo
convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de
llave/valor). El proceso reduce obtiene la salida de map como datos de entrada y combina las
tuplas en un conjunto ms pequeo de las mismas. Una fase intermedia es la denominada Shuffle
la cual obtiene las tuplas del proceso map y determina que nodo procesar estos datos dirigiendo
10
Hadoop Common
Hadoop Common Components son un conjunto de libreras que soportan varios subproyectos de
Hadoop.
paralela.
Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que permite distribuir el
fichero en nodos, que no son otra cosa que ordenadores con commodity-hardware.
11
Para qu sirven Big Data y Hadoop?
Hadoop es un sistema que se puede implementar sobre hardware a un costo relativamente bajo,
Esta circunstancia comporta que, aquella informacin que antes las empresas no podan procesar
debido a los lmites de la tecnologa existente o a barreras de tipo econmico, que se hacan
insalvables en muchos casos; hoy pueda ser almacenada, gestionada y analizada, gracias
a Hadoop.
Cualquier organizacin que utilice Hadoop puede obtener informacin nueva, al mismo tiempo
que descubre y aplica cualquier otro tipo de anlisis a sus datos, como por ejemplo una regresin
12
Es precisamente por ello que se est expandiendo tanto su uso entre las empresas que se
benefician de:
distintas distribuciones de Hadoop con soporte 24/7, de esta forma ya no es necesario depender
de la comunidad Open Source para solucionar este tipo de cuestiones; lo que ha contribuido a
Cloudera Inc.
Es una compaa que proporciona software basado en Apache Hadoop, soporte y servicios, y
en el desarrollo de esta tecnologa para empresas. Segn Cloudera ms del 50% de los resultados
de su ingeniera son donados a diferentes proyectos open source (Apache Hive, Apache Avro,
Apache HBase, etc ...) que se suman para formar la plataforma Hadoop. Cloudera es tambin
13
Cloudera Enterprise
14
Caractersticas y Beneficios de Cloudera
Comparacin de Cloudera
15
Conclusin
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podran haber
tomado aos en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad
del anlisis, es posible que el analista de datos pueda cambiar sus ideas basndose en el resultado
obtenido y re trabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que
Como se pudo notar en el presente artculo, implementar una solucin alrededor de Big Data
Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente cdigo que permita
administrar cada uno de esos componentes como por ejemplo: manejo de eventos, conectividad,
IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM
Vivisimo, los cuales estn diseados para resolver este tipo de problemas. Estas herramientas
estn construidas para ser ejecutadas en sistemas distribuidos a gran escala diseados para tratar
estructurados.
16
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo recolectadas del
trabajo que se ha realizado internamente en la empresa para casos de uso e industrias especficas.
Estos aplicativos estn implementados dentro de la solucin de manera que las organizaciones
17
Recomendacin
18