Sunteți pe pagina 1din 1

El acceso a los datos debe hacerse a la tasa de

transferencia y no debe estar determinado por el


"seek", el cuál es muy lento.

Debido a

Muy grande (128MB) por defecto

en comparación

La cuál suele ser


Sistema de archivos tradicional

Difrente a los tradiconales de los FL en que


Un archivo más pequeño que un bloque no va a
Almacenar acopuar el espacio entero de un bloque

Mínima cantidad de data que puede ser leída o


escrita
Bloques

es
Devolver
función Datanodes(workers)
Los archivos se pueden almacenar distribuídamente
beneficios Sabes de qué tamaño son
Cuándo? Lista de bloques que están almacenando porque
Periódicamente

Namenode Bloques Es más fácil lidiar con bloques


No hay que preocuparse de la metadata, la cual va estar
almacenada en un solo nodo
A quién? Reportar

Hace posible la alta disponibilidad


el namespace dell sistema de archivos y la metadata de los
en
Disco
archivos
Namenode(Master)

almacena

en
Memoria Es
La ubicación(en los datanodes) de los bloques pertenecientes a
los archivos

conceptos importantes
Backups de la metadata del filesystem a otros sistemas de puede implicar
archivos preferiblemente en un disco remoto Mayor probabilidad de falla en los nodos.
Perdida de datos
Single point of failure (SPF)
como
que hadoop soluciona mediante

tiene los todos los problemas de los sistemas


distribuidos
Un namenode alterno que une el namenode image con el edit log
y mantiene una copia del namenode image por si hay un fallo

Lectura HDFS (Hadoop Distributed FileSystem)


Diagrama

Escritura
Flujo de los datos
Diagrama

Algoritmo por defecto para escribir normalmente se hace mediante

En cambio HDFS está optimizado para


Throughput

Acceso a los datos con baja latencia

HBase
Una alternativa

Almacenar archivos muy grandes

No es recomendado para luego


La metadata de los archivos se almacena en la memoria de una EL tiempo de leer todo el dataset es más importanque que el
sola máquina, luego hay una restricción de hardware que limita la Muchos archivos pequeños se caracteriza por tiempo que tarda el disco en acceder al primer registro
cantidad de archivos. Debido a Patrón write-once, read-many-times

debido a
EL sistema tolerante a fallos hace que no se requiera hardware
muy sofisticado con poca probabilidad de fallo
Estar diseñado para correr en
Escribir varias veces en los archivos clusters baratos

S-ar putea să vă placă și