Sunteți pe pagina 1din 9

UNIVERSIDAD ABIERTA PARA ADULTOS

(UAPA)

Asignatura:
Tecnología aplicada a los negocios

Tema:
Big data en las empresas

Facilitador:
Hilda Estrella

Participante:
Wilberto Ray Duarte

Mat. 201805267

Fecha:
02 de noviembre del 2019
Santiago de los Caballeros,
República Dominicana
INTRODUCCION
Big Data nació con el objetivo de cubrir unas necesidades no satisfechas por las
tecnologías existentes, como es el almacenamiento y tratamiento de grandes volúmenes
de datos que poseen unas características muy concretas definidas como las tres
V’s (puede haber más):
 Volumen, hace referencia al tamaño de los datos que pueden provenir de múltiples
fuentes.
 Velocidad, define la rapidez con que llegan los datos usando unidades como tera,
peta o exa bytes
 Variedad, hablamos de datos:
o Estructurados

o Semi-estructurados

o No estructurados

Una característica importante acerca de los datos, es que son considerados como la fuente
de la verdad, es decir, no se alteran durante su tratamiento.
La tecnología subyacente en Big Data es Apache Hadoop, en la actualidad cuenta con
ocho años de historia, ¿pero qué es Hadoop?
Hadoop es un sistema operativo distribuido que permite procesar en paralelo grandes
volúmenes de datos, sobre un hardware convencional. Es un tipo de sistema operativo
especial, ya que trabaja sobre otro como Linux o Windows (utilizando la implementación de
Hortonworks). Posee las siguientes características:
 Escalable, permite crear estructuras en cluster, a las que se les puede añadir
nuevos nodos fácilmente.
 Flexible, se adapta a múltiples formatos de datos, puede utilizar o no esquemas
para tratar información y permite que los usuarios lo usen en diferentes niveles.
 Fiable, ha sido diseñado, teniendo en cuenta que el hardware y software pueden
fallar.
 Rápido y lento, es muy rápido para tratar grandes cantidades de datos, pero
puedeser lento al trabajar con poca información.
Una pregunta que siempre nos asalta al principio, ¿es si no son suficientes las bases de
datos relacionales RDBMS?, la respuesta es que hacen tareas diferentes y que una no
excluye a la otra, son complementarias.
DESARROLLO
1. Elabora una tabla Informativa acerca de las principales
características del Big Data y describa como cada una de estas,
aporta a la gestión empresarial.
Big data Características Como se aplica a la gestión empresarial
Volumen Es la cantidad de datos generados En este caso pondré el ejemplo de un financiero o
y almacenados. El tamaño – un negocio de préstamos que al momento de
cantidad– de los datos determina prestarle dinero a una persona está generando un
el valor y la perspectiva potencial. archivo diminuto, pero al globalizarlo con los otros
prestamos de ese mes son mucho y si se compara
con los datos generados con todos los datos de
esa empresa en ese mes es mucho más.

Variedad El tipo y la naturaleza de los En este caso pondré a esta el KALEL GROUP que
datos. Se produce porque los en la REP. DOM este grupo se dedica a varias
datos recopilados no pertenecen a actividades comercial como vehículos, aeronaves,
una categoría específica ni a una embarcaciones, maquinarias y equipos pesados,
fuente única, porque existen corredurías, garantías, tecnología, computación,
numerosos formatos de datos en comunicaciones y financiamientos, y realizar todas
bruto, obtenidos de la web, textos, operaciones que directamente se relacionen con
video, sonido, imágenes, tales objetos y que sirvan de medios para la
sensores, correos electrónicos, realización de los fines de la sociedad y cada una
aplicaciones, sistemas de de ellas genera diferentes tipos de archivos ya sea
información, etc. y pueden estar imágenes, video y sonidos.
estructurados o no estructurados.

Velocida En el contexto de Big Data se En este caso las empresas deben tener los datos
d refiere a la velocidad (TB/seg) a la de manera rápida y como la cantidad de usuarios
que se generan y procesan los de las empresas obtienes los datos de manera
datos para satisfacer las rápida aunque sean muchos los usuarios.
demandas y los desafíos que
requieren las empresas para su
crecimiento y desarrollo.
1. Presenta cuáles han sido tus enfoques
En este documento se relata cómo funciona la big data en una
cooperativa de argentina en este caso me enfoque en las 5 v.
En relación al Volumen. Aprendí que una compañía con mucho volumen de información
puede perder velocidad de procesamiento.
En relación al Variedad. Aprendí que no solo hay variedad en los tipos de archivos también
hay sub variedad entre los archivos.
En relación al Velocidad. Aprendí que esta característica no solo hace referencia a la
velocidad con que los datos son generados y transferidos a su lugar de almacenamiento,
sino que también se refiere a la necesidad de analizarlos y obtener información de los
mismos en plazos cortos de tiempo.
En relación al Valor. Aprendí el valor potencial de los datos, es decir, no solo aquellos
datos que fueron tomados de manera premeditada para un objetivo particular tienen valor
para la empresa, si no que los datos pueden ser utilizados en nuevos usos o necesidades
que no eran conocidas con anterioridad y así tener una incidencia similar a los tomados
con un propósito dado.
En relación al Veracidad. Aprendí que la obtención de buena calidad de información para
gestores en todos los niveles jerárquicos de una organización. Y como esta calidad afecta
las buenas decisiones de las empresas.

2. Cuál es el objetivo de Big Data


El objetivo de Big Data, al igual que los sistemas analíticos convencionales,
es convertir los datos en información útil que facilite la toma de decisiones.
Esto inclusive en tiempo real, para brindar más oportunidades de negocio. El
poder de éste sistema radica en que permite descubrir nueva información
sobre las cadenas de valor de las instituciones o empresas para abordar
problemas antes irresolubles.
Algunas empresas están utilizando Big Data para entender el perfil, las
necesidades y el sentir de sus clientes respecto a los productos y/o servicios
que ofrecen. Esto les permite adecuar la forma en que interactúan con sus
clientes y como prestan sus servicios. No obstante, las predicciones son
aplicables a todas las ramas del quehacer humano.
¿Por qué es importante entender esto? Porque los Big Data -o Datos HD–
nos ayudan a entender mejor las interacciones del consumidor con la
compañía. Permiten un mejor entendimiento de lo que le gustaría conseguir al
cliente en cada fase del proceso, minimizando el riesgo de perderle entre una
fase y otra, y asegurándonos de que el contenido que se les ofrece es el
relevante.

3. Cómo denominas tu Bid Data


Para mi es el conjunto de datos de gran cantidad de una empresa en cuestión
la cual es muy importante ya que estos datos son los que brindan las
informaciones para las tomas de desiciones de las empresas.

4. Qué tipo de infraestrutura engloba


la infraestructura es la piedra angular de la arquitectura de Big Data. ¿Por qué? Porque el
almacenamiento, procesamiento y análisis de sus datos es imperativo en cualquier
proyecto de esta índole; para lo que es necesario contar con las herramientas adecuadas.
A continuación examinaremos algunos enfoques de infraestructura: qué son, cómo
funcionan y para qué se utiliza mejor cada uno.
Hadoop
No podemos hablar de Big Data, sin mencionar a Hadoop, un framework open source para
procesar, almacenar y analizar datos. El principio fundamental detrás de Hadoop es que en
lugar de abordar un bloque monolítico de datos en una sola oportunidad, es más eficiente
dividir y distribuir los datos en varias partes. Lo anterior ocasiona que se puedan procesar
y analizar diferentes partes de forma simultánea.
Aunque es común imaginar a Hadoop como una única entidad, esto es solo un mito. En
realidad, Hadoop es un ecosistema completo de diferentes productos; en buena medida
presididos por la fundación de software Apache. Algunos de sus componentes son HDFS,
MapReduce, YARN y Spark.
Las ventajas más importantes de Hadoop son su efectividad en tiempos y costos. En los
costos, ya que, como open source, es gratuito y está disponible para que cualquiera pueda
usarla. Además, puede correr con hardware de bajo costo. Por otra parte, puede procesar
múltiples partes del conjunto de datos al mismo tiempo, lo que lo hace una herramienta
relativamente rápida para el análisis retrospectivo y en profundidad. Si bien el código
abierto tiene algunos inconvenientes, la fundación Apache actualiza constantemente el
ecosistema de Hadoop. Pero, si aún así existiera un problema en el código, y no hay una
fuente para la resolución de problemas, existen versiones comerciales como Cloudera.
NoSQL
Este término viene de Not Only SQL y se utiliza para cubrir un rango de distintas
tecnologías de base de datos. Las bases de datos NoSQL son expertas en procesar datos
dinámicos, semi estructurados y con baja latencia, lo que hace que estén mejor adaptados
para un ambiente de Big Data.
Las diferentes fortalezas y usos de Hadoop y NoSQL frecuentemente se describen como
“operacional“ y “analítica“, respectivamente.
NoSQL es más adecuado para tareas operativas, cargas de trabajo interactivas basadas
en criterios selectivos donde los datos se pueden procesar en tiempo real. Mientras tanto,
Hadoop es más apropiado para el análisis en profundidad de alto rendimiento en
retrospectiva, donde se aprovechan la mayor parte o todos los datos. A pesar de que
Hadoop y NoSQL se utilizan para distintos propósitos es común que se comercialicen de
forma simultánea. Incluso, algunas bases de datos de NoSQL, como HBase, fueron
diseñadas primariamente para trabajar con Hadoop.
HDFS
HDFS (Hadoop distributed file system) es un sistema de ficheros con una tolerancia a
errores muy alta, diseñado para funcionar en hardware de bajo coste. Debido a su
relevancia, es ya un subproyecto dentro de Hadoop.
Como responsable del almacenamiento de los datos en el sistema, estos se dividen en
bloques de 64 Mb (por defecto) y son enviados a varios nodos del cluster dependiendo
del factor de replicación establecido.
Cabe destacar que HDFS está optimizado para la lectura de cantidades de datos muy
grandes con el objetivo de reducir al máximo la latencia.

Mapreduce

Mapreduce es un framework software que permite una escritura sencilla de aplicaciones


para el procesamiento de grandes cantidades de datos en paralelo en clusteres de gran
tamaño.
Mapreduce divide los datos de entradas en bloques independientes que son procesados
por los procesos de mapeo de una manera paralela. Posteriormente se reparten esos
bloques mapeados entre las tareas de ‘reduce’.
El objetivo del mapeo y la reducción es el de obtener un procesamiento de los datos más
rápido a partir de la división de los mismos para ser procesados en paralelo por distintos
nodos.
Infraestructura como servicio

Infraestructura como servicio (IaaS) se refiere a diversos productos que se venden como
servicios y se entregan en una red. Mientras que, con la nube, tus analistas sólo necesitan
acceso a una aplicación, un servicio basado en la web, donde están alojados todos los
recursos y programas necesarios. Una gran ventaja de tener la infraestructura en la nube
es que los costos se reducen significativamente, ya que generalmente solo pagas por lo
que usas y desde ahí puedes escalar hasta cubrir completamente tus necesidades. Es un
servicio que ofrece Amazon Web Services (AWS), Google Cloud Platform (GPC) y otras
compañías. Además, otra ventaja de la nube es que te permite saber más rápido lo que
está ocurriendo, para poder solucionarlo de manera más eficiente.
Claro que tener tus datos alojados en un servicio de terceros ocasiona que te preguntes
acerca de la seguridad. Ésta es la razón por la que muchos prefieren tener su información
confidencial en una ubicación privada y utilizan la nube para datos menos privados.
Además, es importante recordar que existen formas de elevar el nivel de seguridad de tus
datos que se encuentran en la nube.
Otra ventaja de contar con una infraestructura en la nube es que puedes utilizar servicios
de monitoreo, los cuales a través de una sola plataforma, como es el caso de inteligencia
de datos te permiten tener la información precisa que necesitas en cualquier momento, ya
que, mediante el uso de la auto-instrumentación se recolectan millones de métricas y
eventos que provienen del software, la infraestructura, los visitantes y el ecosistema
tecnológico. Al tener estos datos al alcance de la nube resulta sencillo también hacer
consultas que sean necesarias en muy poco tiempo.
5. como se relacionan estas tres palabras, las tres 'Vs' del Big Data:
Volumen, Variedad y Velocidad (3Vs).

Volumen

Variedad Velocidad

Volumen
 Grandes volúmenes de datos
 Muchos objetos (ejemplo: Clientes,).
 Muchos atributos (ejemplo: Edad, Ingreso,).
 Datos no balanceados

Velocidad
 Data Streams
 Llamadas telefónicas,
 Transacciones bancarias,
 Visitas en página web,

Variedad
 Distintos tipos de datos
 Textos,
 Imágenes
 Videos
En una red social como Facebook podemos ver la utilización de las 3 vs Big Data
Desde los comienzos, IBM y Gartner plantearon el Big Data como un modelo que abarca
tres dimensiones (volumen, velocidad y variedad) denominadas “Modelo de las tres V”.
Con las tres V es posible definir el Big Data como el conjunto de herramientas que trabajan
conjuntamente y permiten captar, almacenar y gestionar un gran volumen de información
variada a una alta velocidad, permitiendo obtener datos para la toma de decisiones.

CONCLUSIONES
La disponibilidad de Big Data, hardware de bajo costo y nuevo software de gestión y
análisis de información han producido un momento único en la historia del análisis de
datos. Estas tendencias significan que tenemos las capacidades necesarias para analizar
conjuntos de datos asombrosos de manera rápida y rentable por primera vez en la historia.
Representan un verdadero avance y una clara oportunidad de obtener enormes ganancias
en términos de eficiencia, productividad, ingresos y rentabilidad.

BIBLIOGRAFIA
Sistemas de información gerencial (7a. ed.). Libro de James A. O'Brien}
http://www.eumed.net/rev/caribe/2016/04/comercio.html
https://www.monografias.com/trabajos24/tics-empresas/tics-empresas.shtml#tipos

S-ar putea să vă placă și