Documente Academic
Documente Profesional
Documente Cultură
CARRERA:
INGENIERÍA EN TIC’S
INTRODUCCIÓN
A continuación se detallara información relacionados con los sistemas de código
abierto Hadoop y Spark.
Hadoop
Definiciones:
Es un sistema de código abierto que se utiliza para almacenar, procesar y
analizar grandes volúmenes de datos.
Características
Escalabilidad
Velocidad
Efectividad en costes
Flexibilidad
Tolerancia a fallas
Descripción de su funcionamiento
Hadoop realiza el procesamiento distribuido de grandes conjuntos de datos en el
clúster de servidores de productos básicos y trabaja en varias máquinas
simultáneamente. Para procesar cualquier dato, el cliente envía los datos y el
programa a Hadoop. HDFS almacena los datos mientras Mapreduce procesa los
datos.
Ventajas y desventajas
Cuenta con un ecosistema que sirve de gran ayuda al usuario, ya que
permite distribuir el fichero en nodos.
Es capaz de ejecutar procesos en paralelo en todo momento.
Dispone de módulos de control para la monitorización de los datos.
Presenta una opción que permite realizar consultas.
También potencia la aparición de distintos add- ons, que facilitan el trabajo,
manipulación y seguimiento de toda la información que en él se almacena.
Spark
Definiciones
Apache Spark es un sistema de computación distribuida de software libre,
que permite procesar grandes conjuntos de datos sobre un conjunto de
máquinas de forma simultánea, proporcionando escalabilidad horizontal y
la tolerancia a fallos.
Apache Spark combina un sistema de computación distribuida a través
de clusters de ordenadores con una manera sencilla y elegante de escribir
programas. Fue creado en la Universidad de Berkeley en California y es
considerado el primer software de código abierto que hace la
programación distribuida realmente accesible a los científicos de datos.
Apache Spark es un sistema de computación que se basa en Hadoop Map
Reduce y que, principalmente, permite dividir o paralelizar el trabajo, ya que
normalmente se instala en un clúster de máquina. La idea es que tengamos
n máquinas, por ejemplo, diez máquinas, y cada una de esas instancias va
a tener instalada una versión de Apache Spark.
Características
Velocidad: 100 veces más rápido que Hadoop para ejecuciones en la
memoria y 10 veces más rápido cuando se ejecuta en el disco. Esto se debe
a que reduce el número de operaciones de lectura y escritura de disco.
Almacena los datos de procesamiento intermedio en la memoria.
Soporta múltiples lenguajes de programación: Java, Scala, o Python.
Compatibilidad: Compatible con Map/Reduce, consultas SQL, flujo de
datos, máquina de aprendizaje y algoritmos de grafos.
Descripción de su funcionamiento
Brinda un modelo de desarrollo de programas que permite ejecutar código de
forma distribuida de tal manera que cada máquina se ocupe de realizar una parte
de la tarea y entre todos realicen la tarea global.
Ventajas y desventajas
Herramienta complementaria.
Permite aumentar la velocidad de procesamiento de los datos.
Conclusiones
Apache Spark es una herramienta útil y eficiente para tareas de procesamiento
masivo de datos. Es una herramienta la cual se encuentra en constante desarrollo,
y actualización. Asi como contar con una documentación muy completo. Por esto
y mas la considero mejor que Hadoop
Fuentes de información
¿Qué es Hadoop?
https://momentotic.com/2013/05/16/que-es-hadoop/