Ensayo Hadoop y Spark

MATERIA: BIG DATA
PROFESOR: RICARDO EMMANUEL REYES ACOSTA
ALUMNA: KAREN JAZMÍN JIMÉNEZ RODRÍGUEZ
CARRERA:
INGENIERÍA EN TIC’S
INTRODUCCIÓN
A continuación se detallara información relacionados con los sistemas de código
abierto Hadoop y Spark.
Hadoop
Definiciones:
 Es un sistema de código abierto que se utiliza para almacenar, procesar y
analizar grandes volúmenes de datos.
 Hadoop es una estructura de software de código abierto para almacenar

datos y ejecutar aplicaciones en clústeres de hardware comercial.
Proporciona almacenamiento masivo para cualquier tipo de datos, enorme
poder de procesamiento y la capacidad de procesar tareas o trabajos
concurrentes virtualmente ilimitados.
Características
 Escalabilidad
 Velocidad
 Efectividad en costes
 Flexibilidad
 Tolerancia a fallas
Descripción de su funcionamiento
Hadoop realiza el procesamiento distribuido de grandes conjuntos de datos en el
clúster de servidores de productos básicos y trabaja en varias máquinas
simultáneamente. Para procesar cualquier dato, el cliente envía los datos y el
programa a Hadoop. HDFS almacena los datos mientras Mapreduce procesa los
datos.
Ventajas y desventajas
 Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que
permite distribuir el fichero en nodos.
 Es capaz de ejecutar procesos en paralelo en todo momento.
 Dispone de módulos de control para la monitorización de los datos.
 Presenta una opción que permite realizar consultas.
 También potencia la aparición de distintos add- ons, que facilitan el trabajo,
manipulación y seguimiento de toda la información que en él se almacena.
Spark
Definiciones
 Apache Spark es un sistema de computación distribuida de software libre,
que permite procesar grandes conjuntos de datos sobre un conjunto de
máquinas de forma simultánea, proporcionando escalabilidad horizontal y
la tolerancia a fallos.
 Apache Spark combina un sistema de computación distribuida a través
de clusters de ordenadores con una manera sencilla y elegante de escribir
programas. Fue creado en la Universidad de Berkeley en California y es
considerado el primer software de código abierto que hace la
programación distribuida realmente accesible a los científicos de datos.
 Apache Spark es un sistema de computación que se basa en Hadoop Map
Reduce y que, principalmente, permite dividir o paralelizar el trabajo, ya que
normalmente se instala en un clúster de máquina. La idea es que tengamos
n máquinas, por ejemplo, diez máquinas, y cada una de esas instancias va
a tener instalada una versión de Apache Spark.
Características
 Velocidad: 100 veces más rápido que Hadoop para ejecuciones en la
memoria y 10 veces más rápido cuando se ejecuta en el disco. Esto se debe
a que reduce el número de operaciones de lectura y escritura de disco.
 Almacena los datos de procesamiento intermedio en la memoria.
 Soporta múltiples lenguajes de programación: Java, Scala, o Python.
 Compatibilidad: Compatible con Map/Reduce, consultas SQL, flujo de
datos, máquina de aprendizaje y algoritmos de grafos.
Descripción de su funcionamiento
Brinda un modelo de desarrollo de programas que permite ejecutar código de
forma distribuida de tal manera que cada máquina se ocupe de realizar una parte
de la tarea y entre todos realicen la tarea global.
Ventajas y desventajas
 Herramienta complementaria.
 Permite aumentar la velocidad de procesamiento de los datos.
Conclusiones
Apache Spark es una herramienta útil y eficiente para tareas de procesamiento
masivo de datos. Es una herramienta la cual se encuentra en constante desarrollo,
y actualización. Asi como contar con una documentación muy completo. Por esto
y mas la considero mejor que Hadoop
Fuentes de información
5 ventajas de la arquitectura de Hadoop

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/402826/5-ventajas-de-la-arquitectura-de-
Hadoophttps://www.sas.com/es_pe/insights/big-data/hadoop.html
¿Qué es Hadoop?
https://momentotic.com/2013/05/16/que-es-hadoop/
¿Cómo se relacionan Big Data y Hadoop?

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/328879/c-mo-se-relacionan-big-data-y-
hadoop
Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia

de Negocios
http://www.ceine.cl/cuando-usar-hadoop-y-cuando-no/
Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia

de Negocios
http://www.ceine.cl/cuando-usar-hadoop-y-cuando-no/
Spark vs Hadoop, ¿quién saldrá vencedor?

https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/spark-vs-hadoop-quien-saldra-vencedor
Qué es Apache Spark

https://openwebinars.net/blog/que-es-apache-spark/
Apache Spark - Diego Calvo

http://www.diegocalvo.es/spark/

Ensayo Hadoop y Spark

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Ensayo Hadoop y Spark

Încărcat de

Drepturi de autor:

Formate disponibile

MATERIA: BIG DATA

PROFESOR: RICARDO EMMANUEL REYES ACOSTA

ALUMNA: KAREN JAZMÍN JIMÉNEZ RODRÍGUEZ

 Hadoop es una estructura de software de código abierto para almacenar

5 ventajas de la arquitectura de Hadoop

¿Cómo se relacionan Big Data y Hadoop?

Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia

Cuando usar Hadoop y cuando No | CEINE – Centro de Investigación en Inteligencia

Spark vs Hadoop, ¿quién saldrá vencedor?

Qué es Apache Spark

Apache Spark - Diego Calvo

S-ar putea să vă placă și