Trabajo INV07-Mendez Cartolin Johanna Liseth

Alumna: Johanna Liseth Mendez Cartolin Código: u201211986
Trabajo de investigación: Big Data
1. Big Data:
Big Data describe cualquier cantidad grande de datos ya sean estructurados,

semiestructurados y no estructurados que tienen potencial de ser extraídos para obtener
información. Se encarga del tratamiento de grandes cantidades de datos que poseen unas
características muy concretas definidas como las tres V’s.
 Volumen: La gran cantidad de datos que provienen de múltiples fuentes

 Velocidad: Define la rapidez con que llegan los datos
 Variedad: Ya que los datos pueden ser de cualquier tipo
El concepto de Big Data aplica a toda aquella información que no puede ser procesada o
analizada utilizando proceso o herramientas tradicionales.
2. Beneficios de Big Data en las empresas:
 Ayuda a descubrir nuevas tendencias

 Permite actualizar optimizar y afinar inventarios en función de la demanda en
tiempo real.
 Implementación de mejoras tecnológicas que posibilitan la adquisición de datos y
permiten descubrir las necesidades y puntos de mejora en la compañía.
 Segmentación de los clientes para personalizar acciones. De esta forma las
empresas pueden orientar sus servicios y satisfacer las necesidades de sus
consumidores de forma específica. La personalización de productos y servicios es
una de las tendencias que pisa más fuerte actualmente.
 Mejora de la accesibilidad y la fluidez de la información dentro de la propia empresa.
Las empresas que digitalicen los datos y habiliten herramientas para facilitar la
búsqueda de información crearán una dinámica de trabajo más rápida y eficaz.
 Implementación de mejoras tecnológicas que posibilitan la adquisición de datos y
permiten descubrir las necesidades y puntos de mejora en la compañía.
 El análisis de los datos puede mejorar sustancialmente la toma de decisiones dentro
de una compañía reduciendo al mínimo los riegos.
 Big Data facilita que las compañías evalúen sus productos. Mediante el análisis de
datos, obtienen información muy valiosa que les permite crear nuevos productos o
rediseñar los ya existentes.
3. Herramientas que existen en el mercado para el Big Data:

o HADOOP
Hadoop, fue la plataforma de procesamiento de datos pionera en Big Data,

empezó hace nueve años, con licencia de código abierto y utilizada por gigantes
de Internet como Yahoo y Facebook. Hadoop sigue liderando la revolución de
datos masivos, pero ya ha sido desbancada en capacidad y rapidez de
procesamiento en determinadas situaciones por otras plataformas como Spark.
o Mongo DB
Es una base de datos orientada a documentos (guarda los datos en documentos,

no en registros). Estos documentos son almacenados en BSON, que es una
representación binaria de JSON
o Elasticsearch
Elasticsearch es una potente herramienta para la búsqueda entre grandes

cantidades de datos, especialmente cuando los datos son de tipo complejo.
Nos permite indexar y analizar en tiempo real un gran volumen de datos y hacer
consultas sobre ellos. Un ejemplo de uso son las consultas de texto completo; al
estar los datos indexados, los resultados se obtienen de forma muy rápida. En
el IIC utilizamos esta herramienta para indexar datos dentro de nuestras
soluciones de entorno digital.
o Apache Spark
Apache Spark es un motor de procesamiento de datos de código abierto

realmente rápido. Se considera el primer software open source que hace la
programación distribuida (muy en esencia, consiste en distribuir el trabajo
entre un grupo de ordenadores, “cluster”, que trabajan como uno) realmente

accesible a los científicos de datos.
o GRIDGAIN
Gridgrain proporciona métodos dinámicos de computación y almacenamiento

de datos tales como la agrupación dinámica, procesamiento MapReduce,
ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos,
mensajería distribuida y escalabilidad lineal.
o HPCC
HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido

por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta
herramienta está disponible tanto en versión gratuita y versión de pago. Tiene
un apoyo activo de la comunidad en todo el mundo.
o HANA
SAP ha sido el campeón del enfoque in-memory con su plataforma Hana, pero
Microsoft y Oracle están a punto de introducir opciones en memoria a sus
soluciones de bases de datos. Proveedores de bases de datos enfocados en
analítica como Actium, HP Vertica, y Teradata han introducido opciones para
relaciones de alto acceso RAM a disco, junto con herramientas para colocar
datos específicos en memoria para el análisis ultra-rápido.
o SPARK
Apache Spark es un motor de procesamiento de datos a gran escala rápido y

fácil de usar. Según las aplicaciones puede llegar a ser 100 veces más rápido
que Hadoop MapReduce en memoria o 10 veces más rápido en disco. Permite
combinar SQL, streaming y librerías analíticas avanzadas, MLlib para machine
learning, GraphX y Spark Streaming. Puede funcionar sobre Hadoop, Mesos,
formatostandalone, o en cloud. Permite acceder diversas fuentes de datos

como HDFS, Cassandra, HBase y S3.
o LENGUAJE R
R es un lenguaje de programación y entorno de software para cálculo estadístico

y gráficos. El lenguaje R es de los más usados por los estadistas y otros
profesionales interesados en la minería de datos, la investigación bioinformática
y las matemáticas financieras.

Trabajo INV07-Mendez Cartolin Johanna Liseth

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Trabajo INV07-Mendez Cartolin Johanna Liseth

Încărcat de

Drepturi de autor:

Formate disponibile

Alumna: Johanna Liseth Mendez Cartolin Código: u201211986

Trabajo de investigación: Big Data

Big Data describe cualquier cantidad grande de datos ya sean estructurados,

 Volumen: La gran cantidad de datos que provienen de múltiples fuentes

2. Beneficios de Big Data en las empresas:

 Ayuda a descubrir nuevas tendencias

3. Herramientas que existen en el mercado para el Big Data:

Hadoop, fue la plataforma de procesamiento de datos pionera en Big Data,

Es una base de datos orientada a documentos (guarda los datos en documentos,

Elasticsearch es una potente herramienta para la búsqueda entre grandes

Apache Spark es un motor de procesamiento de datos de código abierto

entre un grupo de ordenadores, “cluster”, que trabajan como uno) realmente

Gridgrain proporciona métodos dinámicos de computación y almacenamiento

HPCC, siglas de “clustering computacional de alto rendimiento “, es conocido

Apache Spark es un motor de procesamiento de datos a gran escala rápido y

formatostandalone, o en cloud. Permite acceder diversas fuentes de datos

R es un lenguaje de programación y entorno de software para cálculo estadístico

S-ar putea să vă placă și