Sunteți pe pagina 1din 4

Alumna: Johanna Liseth Mendez Cartolin Código: u201211986

Trabajo de investigación: Big Data

1. Big Data:

Big Data describe cualquier cantidad grande de datos ya sean estructurados,


semiestructurados y no estructurados que tienen potencial de ser extraídos para obtener
información. Se encarga del tratamiento de grandes cantidades de datos que poseen unas
características muy concretas definidas como las tres V’s.

 Volumen: La gran cantidad de datos que provienen de múltiples fuentes


 Velocidad: Define la rapidez con que llegan los datos
 Variedad: Ya que los datos pueden ser de cualquier tipo

El concepto de Big Data aplica a toda aquella información que no puede ser procesada o
analizada utilizando proceso o herramientas tradicionales.

2. Beneficios de Big Data en las empresas:

 Ayuda a descubrir nuevas tendencias


 Permite actualizar optimizar y afinar inventarios en función de la demanda en
tiempo real.
 Implementación de mejoras tecnológicas que posibilitan la adquisición de datos y
permiten descubrir las necesidades y puntos de mejora en la compañía.
 Segmentación de los clientes para personalizar acciones. De esta forma las
empresas pueden orientar sus servicios y satisfacer las necesidades de sus
consumidores de forma específica. La personalización de productos y servicios es
una de las tendencias que pisa más fuerte actualmente.
 Mejora de la accesibilidad y la fluidez de la información dentro de la propia empresa.
Las empresas que digitalicen los datos y habiliten herramientas para facilitar la
búsqueda de información crearán una dinámica de trabajo más rápida y eficaz.
 Implementación de mejoras tecnológicas que posibilitan la adquisición de datos y
permiten descubrir las necesidades y puntos de mejora en la compañía.
 El análisis de los datos puede mejorar sustancialmente la toma de decisiones dentro
de una compañía reduciendo al mínimo los riegos.
Alumna: Johanna Liseth Mendez Cartolin Código: u201211986

 Big Data facilita que las compañías evalúen sus productos. Mediante el análisis de
datos, obtienen información muy valiosa que les permite crear nuevos productos o
rediseñar los ya existentes.

3. Herramientas que existen en el mercado para el Big Data:


o HADOOP

Hadoop, fue la plataforma de procesamiento de datos pionera en Big Data,


empezó hace nueve años, con licencia de código abierto y utilizada por gigantes
de Internet como Yahoo y Facebook. Hadoop sigue liderando la revolución de
datos masivos, pero ya ha sido desbancada en capacidad y rapidez de
procesamiento en determinadas situaciones por otras plataformas como Spark.
o Mongo DB

Es una base de datos orientada a documentos (guarda los datos en documentos,


no en registros). Estos documentos son almacenados en BSON, que es una
representación binaria de JSON

o Elasticsearch

Elasticsearch es una potente herramienta para la búsqueda entre grandes


cantidades de datos, especialmente cuando los datos son de tipo complejo.

Nos permite indexar y analizar en tiempo real un gran volumen de datos y hacer
consultas sobre ellos. Un ejemplo de uso son las consultas de texto completo; al
estar los datos indexados, los resultados se obtienen de forma muy rápida. En
el IIC utilizamos esta herramienta para indexar datos dentro de nuestras
soluciones de entorno digital.

o Apache Spark

Apache Spark es un motor de procesamiento de datos de código abierto


realmente rápido. Se considera el primer software open source que hace la
programación distribuida (muy en esencia, consiste en distribuir el trabajo
Alumna: Johanna Liseth Mendez Cartolin Código: u201211986

entre un grupo de ordenadores, “cluster”, que trabajan como uno) realmente


accesible a los científicos de datos.

o GRIDGAIN

Gridgrain proporciona métodos dinámicos de computación y almacenamiento


de datos tales como la agrupación dinámica, procesamiento MapReduce,
ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos,
mensajería distribuida y escalabilidad lineal.

o HPCC

HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido


por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta
herramienta está disponible tanto en versión gratuita y versión de pago. Tiene
un apoyo activo de la comunidad en todo el mundo.

o HANA

SAP ha sido el campeón del enfoque in-memory con su plataforma Hana, pero
Microsoft y Oracle están a punto de introducir opciones en memoria a sus
soluciones de bases de datos. Proveedores de bases de datos enfocados en
analítica como Actium, HP Vertica, y Teradata han introducido opciones para
relaciones de alto acceso RAM a disco, junto con herramientas para colocar
datos específicos en memoria para el análisis ultra-rápido.

o SPARK

Apache Spark es un motor de procesamiento de datos a gran escala rápido y


fácil de usar. Según las aplicaciones puede llegar a ser 100 veces más rápido
que Hadoop MapReduce en memoria o 10 veces más rápido en disco. Permite
combinar SQL, streaming y librerías analíticas avanzadas, MLlib para machine
learning, GraphX y Spark Streaming. Puede funcionar sobre Hadoop, Mesos,
Alumna: Johanna Liseth Mendez Cartolin Código: u201211986

formatostandalone, o en cloud. Permite acceder diversas fuentes de datos


como HDFS, Cassandra, HBase y S3.

o LENGUAJE R

R es un lenguaje de programación y entorno de software para cálculo estadístico


y gráficos. El lenguaje R es de los más usados por los estadistas y otros
profesionales interesados en la minería de datos, la investigación bioinformática
y las matemáticas financieras.

S-ar putea să vă placă și