Sunteți pe pagina 1din 18

Investigacin Big Data

David Villalobos Venegas

Jos Andrs Gonzles

Alejandro Arias

Julio 2017

Universidad Fidelitas.

Tecnologa de Base de Datos


Introduccin

El primer cuestionamiento que posiblemente llegue a su mente en este momento es Qu es Big

Data y porqu se ha vuelto tan importante? pues bien, en trminos generales podramos

referirnos como a la tendencia en el avance de la tecnologa que ha abierto las puertas hacia un

nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes

cantidades de datos (estructurados, no estructurados y semi estructurados) que tomara

demasiado tiempo y sera muy costoso cargarlos a un base de datos relacional para su anlisis.

De tal manera que, el concepto de Big Data aplica para toda aquella informacin que no puede

ser procesada o analizada utilizando procesos o herramientas tradicionales. Sin embargo, Big

Data no se refiere a alguna cantidad en especfico, ya que es usualmente utilizado cuando se

habla en trminos de petabytes y exabytes de datos. Entonces Cunto es demasiada informacin

de manera que sea elegible para ser procesada y analizada utilizando Big Data? Analicemos

primeramente en trminos de bytes:

Gigabyte = 109 = 1,000,000,000

Terabyte = 1012 = 1,000,000,000,000

Petabyte = 1015 = 1,000,000,000,000,000

Exabyte = 1018 = 1,000,000,000,000,000,000

Adems del gran volumen de informacin, esta existe en una gran variedad de datos que pueden

ser representados de diversas maneras en todo el mundo, por ejemplo de dispositivos mviles,

audio, video, sistemas GPS, incontables sensores digitales en equipos industriales, automviles,

medidores elctricos, veletas, anemmetros, etc., los cuales pueden medir y comunicar el

2
posicionamiento, movimiento, vibracin, temperatura, humedad y hasta los cambios qumicos

que sufre el aire, de tal forma que las aplicaciones que analizan estos datos requieren que la

velocidad de respuesta sea lo demasiado rpida para lograr obtener la informacin correcta en el

momento preciso. Estas son las caractersticas principales de una oportunidad para Big Data.

Es importante entender que las bases de datos convencionales son una parte importante y

relevante para una solucin analtica. De hecho, se vuelve mucho ms vital cuando se usa en

conjunto con la plataforma de Big Data. Pensemos en nuestras manos izquierda y derecha, cada

una ofrece fortalezas individuales para cada tarea en especfico. Por ejemplo, un beisbolista sabe

que una de sus manos es mejor para lanzar la pelota y la otra para atraparla; puede ser que cada

mano intente hacer la actividad de la otra, mas sin embargo, el resultado no ser el ms ptimo.

3
Justificacin

Debido a la gran notoriedad que est teniendo esta tecnologa actualmente. Cualquier persona

sin o con conocimientos tecnolgicos, se pregunta cmo se almacena toda la informacin que

se genera en el mundo: en Facebook, Twitter, Smartcities o como Google es capaz de manejar

todas las transacciones que se hacen a diario. Pero no solo se queda aqu, ya que Big Data

alcanza todos los mbitos: bolsa, climatologa, astronoma, la cantidad de datos que se genera

actualmente es abrumadora y solo el hecho de saber cmo se consigue captar y analizar dicha

informacin me parece una justificacin bastante razonable. Adems cuando tuve

conocimiento de dicha tecnologa, me record a la tecnologa Data Warehouse, la cual me

impresion junto con la utilizacin de Data Mining y Business Intelligence en grandes

organizaciones utilizando un software tan complejo como es el SAP y que con ello consiguen

obtener ventajas competitivas. Visto esto y sabiendo que yo vengo de la rama de

empresariales me entusiasmo la idea de averiguar cmo las organizaciones utilizaban Big

Data y para qu.

4
Importancia

Con el trmino Big Data se hace referencia a la tendencia del avance de las tecnologas que han

abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es

utilizada para describir enormes cantidades de datos que llevara demasiado tiempo cargarlos en

una base de datos relacional para su posterior anlisis. Por lo tanto, el Big Data se aplicar para

toda aquella informacin que no pueda ser procesada por los mtodos tradicionales. Una base de

datos es un conjunto de datos interrelacionados. Cuando se habla de base de datos relacional se

hace referencia a la teora del modelo de datos relacional obra del investigador de IBM Edgar

Codd en 1970 y que goza de una fuerte base matemtica. El modelo relacional se caracteriza a

muy grandes rasgos por disponer que toda la informacin que debe de estar contenida en tablas,

y las relaciones entre datos deben ser representadas explcitamente de ese mismo modo. Lo que

se consigue con este modelo es trabajar siempre sobre tablas relacionadas entre s. Evitando

duplicidad de registros y garantizando la integridad referencial, es decir que si se elimina un

registro, se eliminan todos los relacionados. El gran inconveniente que presenta es el tiempo

necesario para manejar grandes cantidades de datos, pero esto se logra gracias al Big Data. Por

otro lado lo que se consigue al trabajar con bases de datos es combinar diferentes tipos de datos y

de una manera formalizada. Por lo tanto las ventajas de una base de datos relacional se podran

definir en:

Integridad referencial (sin duplicidad).

Normalizacin (surgen estndar SQL...).

Permite establecer roles (permisos de entradas a tablas).

5
No obstante, tambin surgen desventajas de la utilizacin de bases de datos relacionales, aunque

en este trabajo solo se va a nombrar tres:

Cantidad de manejo de datos limitada.

Lectura exclusiva de lenguajes estructurados.

Orientadas a satisfacer objetivos de aplicaciones anteriores.

Estas tres desventajas nombradas anteriormente las resuelve Big Data, gracias a que su estructura

es capaz de almacenar y procesar grandes cantidades de datos y de los tres tipos de datos

posibles (estructurados, semi-estructurados y sin estructurar) adems es una arquitectura

orientada a los programas actuales.

6
Desarrollo

Qu es Big Data?

Debido al gran avance que existe da con da en las tecnologas de informacin, las

organizaciones se han tenido que enfrentar a nuevos desafos que les permitan analizar, descubrir

y entender ms all de lo que sus herramientas tradicionales reportan sobre su informacin, al

mismo tiempo que durante los ltimos aos el gran crecimiento de las aplicaciones disponibles

en internet (geo-referenciamiento, redes sociales, etc.) han sido parte importante en las

decisiones de negocio de las empresas. El presente artculo tiene como propsito introducir al

lector en el concepto de Big Data y describir algunas caractersticas de los componentes

principales que constituyen una solucin de este tipo.

Tipos de Big Data

7
1.- Web and Social Media: Incluye contenido web e informacin que es obtenida de las redes

sociales como Facebook, Twitter, LinkedIn, etc, blogs.

2.- Machine-to-Machine (M2M): M2M se refiere a las tecnologas que permiten conectarse a

otros dispositivos. M2M utiliza dispositivos como sensores o medidores que capturan algn

evento en particular (velocidad, temperatura, presin, variables meteorolgicas, variables

qumicas como la salinidad, etc.) los cuales transmiten a travs de redes almbricas, inalmbricas

o hbridas a otras aplicaciones que traducen estos eventos en informacin significativa.

3.- Big Transaction Data: Incluye registros de facturacin, en telecomunicaciones registros

detallados de las llamadas (CDR), etc. Estos datos transaccionales estn disponibles en formatos

tanto semiestructurados como no estructurados.

4.- Biometrics: Informacin biomtrica en la que se incluye huellas digitales, escaneo de la

retina, reconocimiento facial, gentica, etc. En el rea de seguridad e inteligencia, los datos

biomtricos han sido informacin importante para las agencias de investigacin.

5.- Human Generated: Las personas generamos diversas cantidades de datos como la

informacin que guarda un call center al establecer una llamada telefnica, notas de voz, correos

electrnicos, documentos electrnicos, estudios mdicos, etc.

Componentes de una plataforma Big Data

Las organizaciones han atacado esta problemtica desde diferentes ngulos. Todas esas montaas

de informacin han generado un costo potencial al no descubrir el gran valor asociado. Desde

8
luego, el ngulo correcto que actualmente tiene el liderazgo en trminos de popularidad para

analizar enormes cantidades de informacin es la plataforma de cdigo abierto Hadoop.

Hadoop est inspirado en el proyecto de Google File System(GFS) y en el paradigma de

programacin MapReduce, el cual consiste en dividir en dos tareas (mapper reducer) para

manipular los datos distribuidos a nodos de un clster logrando un alto paralelismo en el

procesamiento. Hadoop est compuesto de tres piezas: Hadoop Distributed File System (HDFS),

Hadoop MapReduce y Hadoop Common.

Hadoop Distributed File System(HDFS)

Los datos en el clster de Hadoop son divididos en pequeas piezas llamadas bloques y

distribuidas a travs del clster; de esta manera, las funciones map y reduce pueden ser

9
ejecutadas en pequeos subconjuntos y esto provee de la escalabilidad necesaria para el

procesamiento de grandes volmenes.

La siguiente figura ejemplifica como los bloques de datos son escritos hacia HDFS. Observe que

cada bloque es almacenado tres veces y al menos un bloque se almacena en un diferente rack

para lograr redundancia.

Hadoop MapReduce

MapReduce es el ncleo de Hadoop. El trmino MapReduce en realidad se refiere a dos procesos

separados que Hadoop ejecuta. El primer proceso map, el cual toma un conjunto de datos y lo

convierte en otro conjunto, donde los elementos individuales son separados en tuplas (pares de

llave/valor). El proceso reduce obtiene la salida de map como datos de entrada y combina las

tuplas en un conjunto ms pequeo de las mismas. Una fase intermedia es la denominada Shuffle

la cual obtiene las tuplas del proceso map y determina que nodo procesar estos datos dirigiendo

la salida a una tarea reduce en especfico.

La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.

10
Hadoop Common

Hadoop Common Components son un conjunto de libreras que soportan varios subproyectos de

Hadoop.

Ventajas del Hadoop

Asla a los desarrolladores de todas las dificultades presentes en la programacin

paralela.

Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que permite distribuir el

fichero en nodos, que no son otra cosa que ordenadores con commodity-hardware.

Es capaz de ejecutar procesos en paralelo en todo momento.

Dispone de mdulos de control para la monitorizacin de los datos.

Presenta una opcin que permite realizar consultas.

Tambin potencia la aparicin de distintos add- ons, que facilitan el trabajo,

manipulacin y seguimiento de toda la informacin que en l se almacena.

11
Para qu sirven Big Data y Hadoop?

Hadoop es un sistema que se puede implementar sobre hardware a un costo relativamente bajo,

siendo a su vez totalmente gratuito para software.

Esta circunstancia comporta que, aquella informacin que antes las empresas no podan procesar

debido a los lmites de la tecnologa existente o a barreras de tipo econmico, que se hacan

insalvables en muchos casos; hoy pueda ser almacenada, gestionada y analizada, gracias

a Hadoop.

Cualquier organizacin que utilice Hadoop puede obtener informacin nueva, al mismo tiempo

que descubre y aplica cualquier otro tipo de anlisis a sus datos, como por ejemplo una regresin

lineal sobre millones de registros de su histrico.

12
Es precisamente por ello que se est expandiendo tanto su uso entre las empresas que se

benefician de:

El costo relativamente bajo que implica.

El rpido retorno de la inversin que proporciona.

La posibilidad de afrontar nuevos retos y dar solucin a problemticas que antes no

podan asumir, o que quedaban sin respuesta.

A su vez, para minimizar los riesgos de su aplicacin, existen en el mercado

distintas distribuciones de Hadoop con soporte 24/7, de esta forma ya no es necesario depender

de la comunidad Open Source para solucionar este tipo de cuestiones; lo que ha contribuido a

impulsar en gran medida su adopcin en entornos productivos.

Cloudera Inc.

Es una compaa que proporciona software basado en Apache Hadoop, soporte y servicios, y

formacin para grandes clientes.

La distribucin open-source de Apache Hadoop, CDH (Cloudera Distribution Hadoop) se enfoca

en el desarrollo de esta tecnologa para empresas. Segn Cloudera ms del 50% de los resultados

de su ingeniera son donados a diferentes proyectos open source (Apache Hive, Apache Avro,

Apache HBase, etc ...) que se suman para formar la plataforma Hadoop. Cloudera es tambin

sponsor de la Apache Software Foundation.

13
Cloudera Enterprise

14
Caractersticas y Beneficios de Cloudera

Comparacin de Cloudera

15
Conclusin

El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podran haber

tomado aos en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad

del anlisis, es posible que el analista de datos pueda cambiar sus ideas basndose en el resultado

obtenido y re trabajar el procedimiento una y otra vez hasta encontrar el verdadero valor al que

se est tratando de llegar.

Como se pudo notar en el presente artculo, implementar una solucin alrededor de Big Data

implica de la integracin de diversos componentes y proyectos que en conjunto forman el

ecosistema necesario para analizar grandes cantidades de datos.

Sin una plataforma de Big Data se necesitara que desarrollar adicionalmente cdigo que permita

administrar cada uno de esos componentes como por ejemplo: manejo de eventos, conectividad,

alta disponibilidad, seguridad, optimizacin y desempeo, depuracin, monitoreo,

administracin de las aplicaciones, SQL y scripts personalizados.

IBM cuenta con una plataforma de Big Data basada en dos productos principales: IBM

InfoSphere BigInsights e IBM InfoSphere Streams, adems de su reciente adquisicin

Vivisimo, los cuales estn diseados para resolver este tipo de problemas. Estas herramientas

estn construidas para ser ejecutadas en sistemas distribuidos a gran escala diseados para tratar

con grandes volmenes de informacin, analizando tanto datos estructurados como no

estructurados.

16
Dentro de la plataforma de IBM existen ms de 100 aplicaciones de ejemplo recolectadas del

trabajo que se ha realizado internamente en la empresa para casos de uso e industrias especficas.

Estos aplicativos estn implementados dentro de la solucin de manera que las organizaciones

puedan dedicar su tiempo a analizar y no a implementar.

17
Recomendacin

18

S-ar putea să vă placă și