Sunteți pe pagina 1din 12

República Bolivariana de Venezuela

Ministerio del Poder Popular para la Educación Superior


I.U.P. Santiago Mariño
Sede Barcelona Edo- Anzoátegui
Escuela de Ing. Sistemas

Big Data
Profesor: Bachiller
Mayra Lanza Cristian López CI: 25.250.660.
Sección: “A”
Abril de 2018
Big Data
Big Data es un término que describe el gran volumen de datos, tanto
estructurados como no estructurados. Cuando hablamos de Big Data nos
referimos a conjuntos de datos o combinaciones de conjuntos de datos
cuyo tamaño (volumen), complejidad (variabilidad) y velocidad de
crecimiento (velocidad) dificultan su captura, gestión, procesamiento o
análisis mediante tecnologías y herramientas convencionales, tales como
bases de datos relacionales y estadísticas convencionales o paquetes de
visualización, dentro del tiempo necesario para que sean útiles.
Herramientas.
Uno de los objetivos del uso de las
tecnologías Big Data es el de transformar los
datos en conocimiento útil para la empresa, y
para ello se necesitan herramientas Big Data
que nos ayuden a analizar, procesar y
almacenar todos los datos recogidos.
Herramientas.
Hadoop : Esta herramienta Big Data open source se considera el
framework estándar para el almacenamiento de grandes volúmenes
de datos; se usa también para analizar y procesar, y es utilizado por
empresas como Facebook y Yahoo!.
Herramientas.
MongoDB: es una base de datos orientada a
documentos (guarda los datos en documentos, no en
registros). Estos documentos son almacenados en
BSON, que es una representación binaria de JSON.

Elasticsearch: es una potente herramienta para


la búsqueda entre grandes cantidades de datos,
especialmente cuando los datos son de tipo
complejo.
Herramientas.
Apache Spark: es un motor de procesamiento de datos de código abierto
realmente rápido. Se considera el primer software open source que hace la
programación distribuida (muy en esencia, consiste en distribuir el trabajo entre
un grupo de ordenadores, “cluster”, que trabajan como uno) realmente accesible a
los científicos de datos.

Apache Storm: es un sistema de computación distribuida en tiempo real orientado


a procesar flujos constantes de datos, por ejemplo, datos de sensores que se
emiten con una alta frecuencia o datos que provengan de las redes sociales,
donde a veces es importante saber qué se está compartiendo en este momento.
Herramientas.
Lenguaje R: es un lenguaje de programación y entorno de
software para cálculo estadístico y gráficos. El lenguaje R es de
los más usados por los estadistas y otros
profesionales interesados en la minería de datos, la
investigación bioinformática y las matemáticas financieras.

R se parece más al lenguaje de las


matemáticas que a otros lenguajes de
programación, lo que puede ser un
inconveniente para los programadores a la
hora de elegir programar en R para temas de
Big Data.
Herramientas.
Python: es un lenguaje avanzado de programación con la ventaja de ser
relativamente fácil de usar para usuarios que no estén familiarizados con la
informática de manera profesional, pero que necesitan trabajar con análisis
de datos (estadistas, biólogos, físicos, lingüistas…)

Es una herramienta para Big Data muy eficiente, en parte debido a la gran
comunidad existente, por lo que Python dispone de muchas librerías ya
hechas por otros usuarios.

Sin embargo, tiene en su contra que no es un lenguaje muy rápido en su


ejecución, por lo que suele ser empleado para tareas de integración o tareas
donde no haya cálculos pesados.
Características.
Los macro datos se pueden describir por las siguientes
características.

1) Volumen: la cantidad de datos generados y guardado. El


tamaño de los datos determina el valor y entendimiento potencial, y
si los puede considerar como auténticos macro datos.

2) Variedad: el tipo y naturaleza de los datos para ayudar a las


personas a analizar los datos y usar los resultados de forma eficaz.
Los macro datos usan textos imágenes, audio y vídeo. También
completan pedazos pedidos a través de la fusión de datos.
Características.
3) Velocidad: en este contexto, la velocidad a la cual
se generan y procesan los datos para cumplir las
exigencias y desafíos de su análisis.

4) Veracidad: la calidad de los datos capturados


puede variar mucho y así afectar a los resultados del
análisis.
Importancia.
Lo que hace que Big Data sea tan útil para muchas es el hecho de que
proporciona respuestas a muchas preguntas que saben que tienen. En
otras palabras, proporciona un punto de referencia. Con una cantidad tan
grande de información, los datos pueden ser moldeados o probados de
cualquier manera que la empresa considere adecuada. Al hacerlo, las
organizaciones son capaces de identificar los problemas de una forma más
comprensible.

La recopilación de grandes cantidades de datos y la búsqueda de


tendencias dentro de los datos permiten que las empresas se muevan
mucho más rápidamente, sin problemas y de manera eficiente. También les
permite eliminar las áreas problemáticas antes de que los problemas
acaben con sus beneficios o su reputación.
Muchas Gracias

S-ar putea să vă placă și