Sunteți pe pagina 1din 14

Unidad 4

1 //Escenario
Escenario28
Lectura fundamental
Fundamental

Etapas de un plan de comunicación


Cloud Computing
estratégica

Contenido

1 Cloud Computing, Hadoop y relación con IoT

2 Herramientas de almacenamiento

3 Bases de datos en la nube (datacenters)

Palabras clave: cloud computing, almacenamiento distribuido, computación en la nube, IaaS, PaaS, SaaS, DBaaS.
Recuerde que big data es el conjunto de tecnologías y servicios a través de los cuales es posible
extraer información valiosa de grupos de datos caracterizados por su alto volumen, velocidad y
variedad, y que el internet de las cosas (IoT) es el encargado de automatizar la recopilación de datos.
Esta unidad trata sobre otras tecnologías que hacen posible que se puedan procesar los datos; en
primer lugar, expone cómo la “nube” (cloud computing) presta servicios más allá del almacenamiento
e integra soluciones como Hadoop, que hacen posible tratar y analizar los datos; luego, muestra en
detalle servicios de la nube, como el almacenamiento de los grandes volúmenes de datos, que se
generan a cada instante en todo el mundo, y nociones básicas de bases de datos; finalmente, habla
sobre los conceptos de virtualizacion y datacenters.

1. Cloud computing, Hadoop y relación con IoT

1.1. Cloud computing

El símbolo de una nube se empezó a utilizar para representar Internet. Debido a eso, a una variedad
de servicios prestados en esta red se les conoce como computación en la nube (cloud computing).
De nuevo, se retoman dos de las más importantes definiciones de cloud. Por una parte, la Unión
Internacional de las Telecomunicaciones UIT (2014), en la norma Y.3500, define cloud computing
como un “paradigma para dar acceso a la red a un conjunto elástico y ampliable de recursos físicos
o virtuales compartibles con administración y configuración en autoservicio previa solicitud” (p.5);
es decir, que es un modelo que permite el acceso de los usuarios a recursos tecnológicos bajo el
concepto de autoservicio. Por otra parte, Gartner (s.f.) define cloud computing como “un estilo
de computación en el cual las capacidades escalables y elásticas habilitadas por tecnologías de
procesamiento de información, se entregan como un servicio usando tecnologías de Internet”.

Los servicios ofrecidos por la computación en la nube se pueden clasificar en tres grupos o capas,
como se muestra en la siguiente tabla.

POLITÉCNICO GRANCOLOMBIANO 2
Tabla 1. Servicios de cloud computing

Fuente: Politécnico Grancolombiano

El diagrama de Venn, anidado de la figura 1, representa gráficamente la manera en que la nube presta
servicios. El más básico es IaaS y está contenido dentro del servicio de PaaS; es decir, que los servicios
de plataforma requieren almacenamiento y seguridad física. Finalmente, encontramos que SaaS
contiene tanto a PaaS como a IaaS.

Figura 1. Servicios de cloud computing


Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 3
Los servicios de computación en la nube (cloud computing) se clasifican en cuatro grupos, según la
norma Y3500 de la UIT (2014, p.7):

• Nube comunitaria: “Modelo de implantación de la nube en el que los servicios en la nube están
compartidos y destinados exclusivamente a un grupo específico de clientes de servicios en la
nube, que comparten requisitos y están relacionados unos con otros, y donde los recursos están
controlados al menos por un miembro de ese grupo”.

• Nube privada: “Modelo de implantación en la nube donde los servicios en la nube están
destinados exclusivamente a un solo cliente de servicios en la nube y donde los recursos están
controlados por dicho cliente de servicios en la nube”.

• Nube pública: “Modelo de implantación en la nube donde los servicios en la nube están
potencialmente disponibles para cualquier cliente de servicios en la nube y donde los recursos
están controlados por el proveedor de servicios en la nube”.

• Nube híbrida: “Modelo de implantación en la nube que utiliza dos tipos diferentes de modelos
de implantación en la nube”, específicamente nube privada y nube pública.

1.2. Hadoop

La historia de Hadoop está ligada a la de Google. Cuando este se convirtió en el buscador más usado
a nivel mundial y empezó a ofrecer un portafolio de servicios, dado el volumen de datos que requería
procesar, se vio en la necesidad de buscar una solución. Esta consistió en el uso de un sistema de
archivos distribuidos que se basa en un gran número de servidores, cada uno de los cuales se encarga
de procesar una parte de información. El secreto del sistema es que a pesar de que cada servidor es
una unidad independiente y autónoma, todos trabajan en conjunto, como si fueran un único servidor.
En 2006, Google publicó los detalles acerca del modelo y la comunidad Open Source vio una gran
oportunidad de explotarlo y maximizar sus beneficios, lo que los llevó a desarrollar e implementar el
paradigma llamado Hadoop. Posteriormente, Yahoo dio continuidad al trabajo de Open Source y puso
el modelo en práctica e hizo que aplicaciones, como Facebook, lo usaran. Actualmente, Apache es
quien continúa las investigaciones del proyecto Hadoop.

POLITÉCNICO GRANCOLOMBIANO 4
1.2.1. ¿Qué es Hadoop?

Según Gartner (s.f.), Hadoop es:

Un sistema de software de código abierto que admite el procesamiento y almacenamiento de conjuntos


de datos extremadamente grandes en un entorno informático distribuido. Todos los módulos en Hadoop
están diseñados con una suposición fundamental de que las fallas de hardware son una ocurrencia
común y deben ser manejadas automáticamente por el sistema. Es parte del proyecto Apache
patrocinado por Apache Software Foundation.

Los componentes básicos de Hadoop son los siguientes:

• Hadoop Distributed File System (HDFS): encargado de distribuir la información en distintos


nodos o dispositivos. El sistema almacena la misma información en servidores diferentes; por
eso es redundante y soporta fallos.

Los archivos se dividen en partes o bloques de 16 MB a 64 MB y cada uno es almacenado en


diferentes servidores (la información por defecto se replica en 3 nodos). El HDFS tiene, a su
vez, dos componentes:

• NameNode: informa al cliente dónde se almacenan los datos y si un nodo presenta fallas. Un
backup del NameNode se almacena periódicamente en un nodo secundario de respaldo.

• DataNode: nodo en el que se almacenan los bloques.

El NameNode y el DataNode , respectivamente, operan bajo una arquitectura maestro-esclavo.

Figura 2. HDFS
Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 5
• MapReduce: es el modelo de programación que hace posible procesar, de manera paralela,
grandes volúmenes de datos. Su nombre se debe a las tareas que realiza. A continuación, la
descripción de sus funciones:

• Map (mapeo): encargada de dividir y asignar el procesamiento a ejecutar en cada nodo y de su


distribución para su ejecución en paralelo. El map generalmente opera en los mismos nodos de
HDFS y como la misma arquitectura de maestro-esclavo.

• Reduce: toma los resultados del procesamiento de cada nodo y los organiza para concentrar un
solo resultado.

Figura 3. Funcionamiento de MapReduce


Fuente: elaboración propia

1.2.2. Ventajas de Hadoop

• Capacidad para almacenar y procesar grandes volúmenes de datos.

• Poder de procesamiento: big data

• Respaldo: los datos están protegidos con backups redundantes

• Soporta datos estructurados, no estructurados y semiestructurados

• Económico: código abierto gratuito

• Escalabilidad: el sistema crece solo con agregar un nodo

• Relación entre big data, Iot y cloud computing

POLITÉCNICO GRANCOLOMBIANO 6
Figura 4. Relación entre big data, IoT y cloud computing
Fuente: elaboración propia

El gráfico muestra cómo IoT, big data y cloud computing conforman un ecosistema en el cual cada
tecnología está relacionada con las demás, ya sea porque depende de otra para tener un óptimo
desempeño o porque depende de los servicios ofrecidos por dichas tecnologías.

2. Herramientas de almacenamiento
Las tecnologías de almacenamiento de datos se clasifican en dos: las centralizadas y las distribuidas.
Las distribuidas también se conocen como herramientas de almacenamiento masivo, ya que soportan
un alto volumen de datos proveniente de múltiples fuentes; en consecuencia, son muy convenientes
para tecnologías como Iot y big data.

En la siguiente tabla se exponen los tipos de almacenamiento, según las tecnologías de almacenamiento.

POLITÉCNICO GRANCOLOMBIANO 7
Tabla 2. Tecnologías de almacenamientos centralizadas. según Camargo, Camargo y Joyangues (2015)

Distribui
Red de área de almacenamiento (SAN, Storage
area network)
Almacenamiento en la nube

Almacenamiento de datos que utiliza una


Infraestructura virtual que, basada en el modelo
topología de red flexible, la cual ofrece la
de nodos de Internet, presta el servicio de
conmutación entre múltiples nodos.
almacenamiento.

Fuente: elaboración propia

Tabla 3. Tecnologías de almacenamientos distribuidas según Camargo, Camargo y Joyangues (2015)

Distribuidas
Almacenamiento en la nube
Red de área de almacenamiento (SAN, Storage
area network)
Infraestructura virtual que, basada en el modelo
de nodos de Internet, presta el servicio de
Almacenamiento de datos que utiliza una
almacenamiento.
topología de red flexible, la cual ofrece la
conmutación entre múltiples nodos.

I/O I/O

Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 8
Es importante profundizar en el almacenamiento en la nube porque es una de las tecnologías que
apalancan Iot y big data, ya que optimiza costos (los usuarios pagan por cada gigabyte almacenado y
ahorran en costos de mantenimiento de infraestructura); además, facilita el acceso de los usuarios
(porque permite buena extensibilidad y escalabilidad). Otra de sus ventajas es que hace posible el
almacenamiento de grandes volúmenes de datos y es independiente de los sistemas operativos de los
usuarios.

¿Qué desventajas o retos surgen con el almacenamiento en la nube? Podemos mencionar tres
de los retos más importantes: privacidad, seguridad e integridad, puesto que la información está
descentralizada. El modelo de distribuir la información en servidores implica manejar un sistema
de registro de los archivos, genera dependencia de la red y presenta un rendimiento menor que las
tecnologías de almacenamiento directo; sin embargo, estas desventajas deben ser comparadas con
ventajas, como la escalabilidad, ya que el almacenamiento en la nube puede crecer fácilmente según
la demanda y las necesidades que aumentan cada día.

El almacenamiento en la nube puede ser:

• Público. Proveedores que ponen a disposición de los usuarios servicios de almacenamiento


gratuitos a través de Internet. La infraestructura es compartida por un sinnúmero de usuarios y
organizaciones; su uso es fácil y económico, ya que el proveedor cubre los costos del hardware y
los clientes solo pagan por lo que utilizan.

• Privado. Las nubes privadas están dedicadas a prestar servicios a una única organización; por
ejemplo, bibliotecas, empresas o gobiernos, porque cuentan con una arquitectura propia. Esta
solución es ideal para organizaciones que quieren controlar la seguridad de sus datos y poner
recursos al alcance de todos sus usuarios, según sus prioridades. Este tipo de nube no Reduce
costos porque las organizaciones deben asumir los gastos de infraestructura y administración de
la red.

• Híbrido. Utiliza la infraestructura de la nube privada y nube pública, permitiendo que las cargas
se distribuyan entre ambas a medida que cambian las necesidades y los costos. Es ideal para
organizaciones que presentan altos volúmenes de tráfico en ciertas temporadas, es decir, que
tienen capacidad limitada en su nube privada y que en determinados momentos necesitan una
mayor. Su implementación es compleja, ya que requiere compatibilidad de recursos y una buena
conexión a la red.

POLITÉCNICO GRANCOLOMBIANO 9
Los principales proveedores de almacenamiento en la nube son:

• Amazon: ofrece Amazon Simple Storage Service (Amazon S3)

• IBM: ofrece Smart Business Storage Cloud

• Google: ofrece Google App

• Microsoft: ofrece Microsoft Azure

• Sun Microsystems (Oracle): ofrece The Sun Cloud Storage

Además de los anteriores, hay otros proveedores como: Dropbox, Zip Cloud, Openstack, Rackspace,
IDrive, Open Drive, Mozy, Box, JustCloud, ADrive, etc.

3. Bases de datos en la nube y data centers

3.1. Bases de datos en la nube

Una vez vistas las herramientas para almacenar información, hay que entender que esta, por sí
sola, no genera valor. Para que pueda ser valiosa, hay que clasificarla, ordenarla y permitir que esté
disponible fácilmente. Las bases de datos surgen en los años 60 como conjuntos de datos agrupados
y estructurados; en los últimos 70 años han evolucionado para facilitar a los usuarios el acceso y para
adaptarse a las condiciones cambiantes de los entornos de internet.

SQL
Primeras
bases de datos Semiestructurado
BD orientadas
a objetos
XML

Modelo Modelo No
relacional relacional estructurado

Figura 5. Evolución de bases de datos


Fuente: elaboración propia

POLITÉCNICO GRANCOLOMBIANO 10
Big data

Recopolación
Recopilación Almacenamiento Visualización
Gestión Análisis Almacenamiento Gestión Análisis

Visualización

IoT: Recopilación automatizada de


información metadata

PaaS

Hadoop: Almacenamiento y
procesamiento paralelo

SaaS
IoT PaaS SaaS
Automatiza la recopilación Hadoop: almacenamiento Software de Software de análisis
de Información Metadata y procesamiento paralelo análisis

Figura 6. Relación entre big data, IoT y cloud computing


Fuente: elaboración propia

Hay dos modelos de bases de datos en la nube:

• Bases de datos SQL: estas bases se ejecutan en la nube como una máquina virtual o a través de
un proveedor; no son escalables.

• Bases de datos NoSQL: diseñadas para soportar altas cargas de lectura y escritura de datos, y
son escalables.

Las bases de datos que están disponibles para usuarios como un servicio de la nube se conocen como
DBaaS (Database-as-a-service). Según las necesidades de cada organización, los proveedores
de plataformas como servicio (PaaS: Platfoms as a service) ofrecen bases SQL o NoSQL. Todas
garantizan la configuración, administración, consumo y operación sin que el usuario tenga que
preocuparse por la implementación y con la ventaja de pagar únicamente por los datos almacenados.

Algunos de los beneficios que se obtienen al utilizar el servicio de bases de datos en la nube son:

• Implementación. Un sencillo conjunto de pasos permite a los administradores crear y


administrar las bases sin la carga de gestionar el hardware y software en el que se configura la
base.

POLITÉCNICO GRANCOLOMBIANO 11
• Administración. Las tareas rutinarias que los administradores de base de datos (DBAs) deben
realizar - como ajuste, configuración, backups periódicos, actualizaciones, parches de seguridad
y, en general, todo lo relacionado con el mantenimiento de la base - se delegan al proveedor del
servicio; con ello, el administrador se concentra en otras tareas relacionadas con el desempeño
de la base de datos.

• Confiabilidad y seguridad. Los proveedores del servicio garantizan la implementación de las


mejores prácticas para que los datos siempre estén protegidos y respaldados.

3.2. Data centers

Según Gartner (s.f.), data center, o el centro de datos, “es el departamento de una empresa
que alberga y mantiene sistemas de tecnología de la información (TI) y almacenes de datos: sus
mainframes, servidores y bases de datos”. En los inicios de las áreas de TI, los sistemas residían en un
solo lugar físico; de ahí, el nombre del centro de datos. Aunque hoy en día las organizaciones utilizan
arquitecturas de red distribuidas y separadas por grandes distancias, se sigue usando el término
data center para referirse al lugar donde se almacenan y ejecutan el software y las aplicaciones que
requiere una organización para operar. Sin embargo, las arquitecturas convencionales presentan
muchos riesgos, como la obsolescencia de red, los costos de mantenimiento y la baja escalabilidad. La
virtualización es la solución para mitigar dichos riegos y ser competitivos en la era digital.

POLITÉCNICO GRANCOLOMBIANO 12
Referencias bibliográficas
Camargo Vega, J. y Camargo Ortega, J. y Joyanes Aguilar, L. (2015). Conociendo Big data. Facultad
de Ingeniería, 24(38), 63-77. Recuperado de http://www.redalyc.org/articulo.oa?id=413940775006

Gartner, Inc. (s.f.).IT Glossary. Recuperado de https://www.gartner.com/it-glossary/

Hernández Bravo, A. (2009). El SaaS y el Cloud-Computing: una opción innovadora para tiempos
de crisis. REICIS, 5(1), 38-41. Recuperado de http://www.redalyc.org/articulo.oa?id=92217154005

Unión Internacional de las Telecomunicaciones. (2015). Recomendación Y.3500. Recuperado de


http://handle.itu.int/11.1002/1000/12210

POLITÉCNICO GRANCOLOMBIANO 13
INFORMACIÓN TÉCNICA

Módulo: Internet de las cosas


Unidad 4: Industria 4.0 y big data
Escenario 8: Cloud computing

Autor: John Olarte Ramos

Asesor Pedagógico: Angie Laitón


Diseñador Gráfico: Henderson Jhoan Colmenares López
Asistente: Alejandra Morales Eslava

Este material pertenece al Politécnico Grancolombiano. Por


ende, es de uso exclusivo de las Instituciones adscritas a la Red
Ilumno. Prohibida su reproducción total o parcial.

POLITÉCNICO GRANCOLOMBIANO 14

S-ar putea să vă placă și