Sunteți pe pagina 1din 4

MATERIA: BIG DATA

PROFESOR: RICARDO EMMANUEL REYES ACOSTA

ALUMNA: KAREN JAZMÍN JIMÉNEZ RODRÍGUEZ

CARRERA:
INGENIERÍA EN TIC’S
INTRODUCCIÓN
A continuación se detallara información relacionados con los sistemas de código
abierto Hadoop y Spark.

Hadoop

Definiciones:
 Es un sistema de código abierto que se utiliza para almacenar, procesar y
analizar grandes volúmenes de datos.

 Hadoop es una estructura de software de código abierto para almacenar


datos y ejecutar aplicaciones en clústeres de hardware comercial.
Proporciona almacenamiento masivo para cualquier tipo de datos, enorme
poder de procesamiento y la capacidad de procesar tareas o trabajos
concurrentes virtualmente ilimitados.

Características
 Escalabilidad
 Velocidad
 Efectividad en costes
 Flexibilidad
 Tolerancia a fallas

Descripción de su funcionamiento
Hadoop realiza el procesamiento distribuido de grandes conjuntos de datos en el
clúster de servidores de productos básicos y trabaja en varias máquinas
simultáneamente. Para procesar cualquier dato, el cliente envía los datos y el
programa a Hadoop. HDFS almacena los datos mientras Mapreduce procesa los
datos.

Ventajas y desventajas
 Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que
permite distribuir el fichero en nodos.
 Es capaz de ejecutar procesos en paralelo en todo momento.
 Dispone de módulos de control para la monitorización de los datos.
 Presenta una opción que permite realizar consultas.
 También potencia la aparición de distintos add- ons, que facilitan el trabajo,
manipulación y seguimiento de toda la información que en él se almacena.
Spark

Definiciones
 Apache Spark es un sistema de computación distribuida de software libre,
que permite procesar grandes conjuntos de datos sobre un conjunto de
máquinas de forma simultánea, proporcionando escalabilidad horizontal y
la tolerancia a fallos.
 Apache Spark combina un sistema de computación distribuida a través
de clusters de ordenadores con una manera sencilla y elegante de escribir
programas. Fue creado en la Universidad de Berkeley en California y es
considerado el primer software de código abierto que hace la
programación distribuida realmente accesible a los científicos de datos.
 Apache Spark es un sistema de computación que se basa en Hadoop Map
Reduce y que, principalmente, permite dividir o paralelizar el trabajo, ya que
normalmente se instala en un clúster de máquina. La idea es que tengamos
n máquinas, por ejemplo, diez máquinas, y cada una de esas instancias va
a tener instalada una versión de Apache Spark.

Características
 Velocidad: 100 veces más rápido que Hadoop para ejecuciones en la
memoria y 10 veces más rápido cuando se ejecuta en el disco. Esto se debe
a que reduce el número de operaciones de lectura y escritura de disco.
 Almacena los datos de procesamiento intermedio en la memoria.
 Soporta múltiples lenguajes de programación: Java, Scala, o Python.
 Compatibilidad: Compatible con Map/Reduce, consultas SQL, flujo de
datos, máquina de aprendizaje y algoritmos de grafos.

Descripción de su funcionamiento
Brinda un modelo de desarrollo de programas que permite ejecutar código de
forma distribuida de tal manera que cada máquina se ocupe de realizar una parte
de la tarea y entre todos realicen la tarea global.

Ventajas y desventajas
 Herramienta complementaria.
 Permite aumentar la velocidad de procesamiento de los datos.
Conclusiones
Apache Spark es una herramienta útil y eficiente para tareas de procesamiento
masivo de datos. Es una herramienta la cual se encuentra en constante desarrollo,
y actualización. Asi como contar con una documentación muy completo. Por esto
y mas la considero mejor que Hadoop

Fuentes de información

5 ventajas de la arquitectura de Hadoop


https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/402826/5-ventajas-de-la-arquitectura-de-
Hadoophttps://www.sas.com/es_pe/insights/big-data/hadoop.html

¿Qué es Hadoop?
https://momentotic.com/2013/05/16/que-es-hadoop/

¿Cómo se relacionan Big Data y Hadoop?


https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/328879/c-mo-se-relacionan-big-data-y-
hadoop

Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia


de Negocios
http://www.ceine.cl/cuando-usar-hadoop-y-cuando-no/

Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia


de Negocios
http://www.ceine.cl/cuando-usar-hadoop-y-cuando-no/

Spark vs Hadoop, ¿quién saldrá vencedor?


https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/spark-vs-hadoop-quien-saldra-vencedor

Qué es Apache Spark


https://openwebinars.net/blog/que-es-apache-spark/

Apache Spark - Diego Calvo


http://www.diegocalvo.es/spark/

S-ar putea să vă placă și