Sunteți pe pagina 1din 3

Resumen

Big date: Oracle y Hadoop


Por: Asturiano Jesús y Pérez Joel

El artículo habla del auge que tiene actualmente el Big data, el cual es un conjunto
de técnicas informáticas que nos permiten gestionar de una forma más eficaz
grandes cantidades de información. Cabe mencionar, que el concepto no es nuevo,
el término fue utilizado por primera vez por los científicos Michael Cox y David
Elisworth, quienes en su preocupación por el crecimiento acelerado de información
crearon en respuesta el Big data.

El concepto de Big data es de suma importancia en la inferencia que puede tener


en los negocios, debido a que genera una manera más eficiente de gestionar
información, dejando atrás los Gigabytes y sustituyéndolos por Terabytes y Peta
bytes.

A lo largo del artículo, se mencionan dos conceptos que también son claves:
Hadoop y Oracle. El primero consiste en un sistema distribuido de open source que
pertenece a Apache Foundation y que fue diseñado por java para alamcenar y
procesar grandes cantidades de información. Es importante señalar, que hadoop
tiene dos componentes importantes que son:

 HDFS o Hadoop File System:


Es la forma en que hadoop va almacenando la información (documentos
Json, Videos, SMS, Logs de cualquier tamaño, etc) dividiendo el archivo en
3 partes (64MB O 128MB) y distribuye los bloques entre los data-notes que
el name-nodes (servidores donde los archivos se van a distribuir) elija. Por
su lado, los name-nodes son muy importantes, debido a que almacenan los
metadatos y si se elimina, se pierde el clúster hadoop.
 MapReduce:
Tiene la función de procesar los archivos almacenados en HDFS, por medio
de un algoritmo que sirve para procesar grandes volúmenes de información
a través de procesos “batch” en el cual la información será distribuida en los
data-nodes, para que después se realice un ordenamiento de información y
sea organizada para presentarla al cliente (función reduce). Cabe mencionar,
que mapreduce puede ser escrito en java, Python, R o pig.
Por otro lado, mapreduce es un proceso importante, pero no suele ser tan
rápido. En este tenor, no es el proceso más adecuado para aplicaciones que
sean muy transaccionales y requieran alta disponibilidad y consistencia al
mismo tiempo.

Ahora bien, oracle y hadoop, pueden convivir en sistemas especialmente


diseñados para ofrecer soluciones big data/transaccionales. Sus diferencias
radican en que hadoop utiliza un hardware más barato, el lenguaje SQL
estándar y está orientado a Biga data (una escritura, muchas lecturas) y
oracle tiene una rutina más sencilla de mapreduce y esta especializado en
transacciones (lectura y escritura en tiempo real).

Es importante señalar que Oracle con el propósito de cumplir con distintos


conjuntos de datos y reducir la necesidad de movimiento de datos creó un
producto el cual puede procesar datos en hadoop y de manera paralela con
mapreduce usando estructuras en su memoria. En el ejemplo anterior se
vislumbra que Oracle y hadoop pueden trabajar de manera conjunta.

S-ar putea să vă placă și