Documente Academic
Documente Profesional
Documente Cultură
1 //Escenario
Escenario28
Lectura fundamental
Fundamental
Contenido
2 Herramientas de almacenamiento
Palabras clave: cloud computing, almacenamiento distribuido, computación en la nube, IaaS, PaaS, SaaS, DBaaS.
Recuerde que big data es el conjunto de tecnologías y servicios a través de los cuales es posible
extraer información valiosa de grupos de datos caracterizados por su alto volumen, velocidad y
variedad, y que el internet de las cosas (IoT) es el encargado de automatizar la recopilación de datos.
Esta unidad trata sobre otras tecnologías que hacen posible que se puedan procesar los datos; en
primer lugar, expone cómo la “nube” (cloud computing) presta servicios más allá del almacenamiento
e integra soluciones como Hadoop, que hacen posible tratar y analizar los datos; luego, muestra en
detalle servicios de la nube, como el almacenamiento de los grandes volúmenes de datos, que se
generan a cada instante en todo el mundo, y nociones básicas de bases de datos; finalmente, habla
sobre los conceptos de virtualizacion y datacenters.
El símbolo de una nube se empezó a utilizar para representar Internet. Debido a eso, a una variedad
de servicios prestados en esta red se les conoce como computación en la nube (cloud computing).
De nuevo, se retoman dos de las más importantes definiciones de cloud. Por una parte, la Unión
Internacional de las Telecomunicaciones UIT (2014), en la norma Y.3500, define cloud computing
como un “paradigma para dar acceso a la red a un conjunto elástico y ampliable de recursos físicos
o virtuales compartibles con administración y configuración en autoservicio previa solicitud” (p.5);
es decir, que es un modelo que permite el acceso de los usuarios a recursos tecnológicos bajo el
concepto de autoservicio. Por otra parte, Gartner (s.f.) define cloud computing como “un estilo
de computación en el cual las capacidades escalables y elásticas habilitadas por tecnologías de
procesamiento de información, se entregan como un servicio usando tecnologías de Internet”.
Los servicios ofrecidos por la computación en la nube se pueden clasificar en tres grupos o capas,
como se muestra en la siguiente tabla.
POLITÉCNICO GRANCOLOMBIANO 2
Tabla 1. Servicios de cloud computing
El diagrama de Venn, anidado de la figura 1, representa gráficamente la manera en que la nube presta
servicios. El más básico es IaaS y está contenido dentro del servicio de PaaS; es decir, que los servicios
de plataforma requieren almacenamiento y seguridad física. Finalmente, encontramos que SaaS
contiene tanto a PaaS como a IaaS.
POLITÉCNICO GRANCOLOMBIANO 3
Los servicios de computación en la nube (cloud computing) se clasifican en cuatro grupos, según la
norma Y3500 de la UIT (2014, p.7):
• Nube comunitaria: “Modelo de implantación de la nube en el que los servicios en la nube están
compartidos y destinados exclusivamente a un grupo específico de clientes de servicios en la
nube, que comparten requisitos y están relacionados unos con otros, y donde los recursos están
controlados al menos por un miembro de ese grupo”.
• Nube privada: “Modelo de implantación en la nube donde los servicios en la nube están
destinados exclusivamente a un solo cliente de servicios en la nube y donde los recursos están
controlados por dicho cliente de servicios en la nube”.
• Nube pública: “Modelo de implantación en la nube donde los servicios en la nube están
potencialmente disponibles para cualquier cliente de servicios en la nube y donde los recursos
están controlados por el proveedor de servicios en la nube”.
• Nube híbrida: “Modelo de implantación en la nube que utiliza dos tipos diferentes de modelos
de implantación en la nube”, específicamente nube privada y nube pública.
1.2. Hadoop
La historia de Hadoop está ligada a la de Google. Cuando este se convirtió en el buscador más usado
a nivel mundial y empezó a ofrecer un portafolio de servicios, dado el volumen de datos que requería
procesar, se vio en la necesidad de buscar una solución. Esta consistió en el uso de un sistema de
archivos distribuidos que se basa en un gran número de servidores, cada uno de los cuales se encarga
de procesar una parte de información. El secreto del sistema es que a pesar de que cada servidor es
una unidad independiente y autónoma, todos trabajan en conjunto, como si fueran un único servidor.
En 2006, Google publicó los detalles acerca del modelo y la comunidad Open Source vio una gran
oportunidad de explotarlo y maximizar sus beneficios, lo que los llevó a desarrollar e implementar el
paradigma llamado Hadoop. Posteriormente, Yahoo dio continuidad al trabajo de Open Source y puso
el modelo en práctica e hizo que aplicaciones, como Facebook, lo usaran. Actualmente, Apache es
quien continúa las investigaciones del proyecto Hadoop.
POLITÉCNICO GRANCOLOMBIANO 4
1.2.1. ¿Qué es Hadoop?
• NameNode: informa al cliente dónde se almacenan los datos y si un nodo presenta fallas. Un
backup del NameNode se almacena periódicamente en un nodo secundario de respaldo.
Figura 2. HDFS
Fuente: elaboración propia
POLITÉCNICO GRANCOLOMBIANO 5
• MapReduce: es el modelo de programación que hace posible procesar, de manera paralela,
grandes volúmenes de datos. Su nombre se debe a las tareas que realiza. A continuación, la
descripción de sus funciones:
• Reduce: toma los resultados del procesamiento de cada nodo y los organiza para concentrar un
solo resultado.
POLITÉCNICO GRANCOLOMBIANO 6
Figura 4. Relación entre big data, IoT y cloud computing
Fuente: elaboración propia
El gráfico muestra cómo IoT, big data y cloud computing conforman un ecosistema en el cual cada
tecnología está relacionada con las demás, ya sea porque depende de otra para tener un óptimo
desempeño o porque depende de los servicios ofrecidos por dichas tecnologías.
2. Herramientas de almacenamiento
Las tecnologías de almacenamiento de datos se clasifican en dos: las centralizadas y las distribuidas.
Las distribuidas también se conocen como herramientas de almacenamiento masivo, ya que soportan
un alto volumen de datos proveniente de múltiples fuentes; en consecuencia, son muy convenientes
para tecnologías como Iot y big data.
En la siguiente tabla se exponen los tipos de almacenamiento, según las tecnologías de almacenamiento.
POLITÉCNICO GRANCOLOMBIANO 7
Tabla 2. Tecnologías de almacenamientos centralizadas. según Camargo, Camargo y Joyangues (2015)
Distribui
Red de área de almacenamiento (SAN, Storage
area network)
Almacenamiento en la nube
Distribuidas
Almacenamiento en la nube
Red de área de almacenamiento (SAN, Storage
area network)
Infraestructura virtual que, basada en el modelo
de nodos de Internet, presta el servicio de
Almacenamiento de datos que utiliza una
almacenamiento.
topología de red flexible, la cual ofrece la
conmutación entre múltiples nodos.
I/O I/O
POLITÉCNICO GRANCOLOMBIANO 8
Es importante profundizar en el almacenamiento en la nube porque es una de las tecnologías que
apalancan Iot y big data, ya que optimiza costos (los usuarios pagan por cada gigabyte almacenado y
ahorran en costos de mantenimiento de infraestructura); además, facilita el acceso de los usuarios
(porque permite buena extensibilidad y escalabilidad). Otra de sus ventajas es que hace posible el
almacenamiento de grandes volúmenes de datos y es independiente de los sistemas operativos de los
usuarios.
¿Qué desventajas o retos surgen con el almacenamiento en la nube? Podemos mencionar tres
de los retos más importantes: privacidad, seguridad e integridad, puesto que la información está
descentralizada. El modelo de distribuir la información en servidores implica manejar un sistema
de registro de los archivos, genera dependencia de la red y presenta un rendimiento menor que las
tecnologías de almacenamiento directo; sin embargo, estas desventajas deben ser comparadas con
ventajas, como la escalabilidad, ya que el almacenamiento en la nube puede crecer fácilmente según
la demanda y las necesidades que aumentan cada día.
• Privado. Las nubes privadas están dedicadas a prestar servicios a una única organización; por
ejemplo, bibliotecas, empresas o gobiernos, porque cuentan con una arquitectura propia. Esta
solución es ideal para organizaciones que quieren controlar la seguridad de sus datos y poner
recursos al alcance de todos sus usuarios, según sus prioridades. Este tipo de nube no Reduce
costos porque las organizaciones deben asumir los gastos de infraestructura y administración de
la red.
• Híbrido. Utiliza la infraestructura de la nube privada y nube pública, permitiendo que las cargas
se distribuyan entre ambas a medida que cambian las necesidades y los costos. Es ideal para
organizaciones que presentan altos volúmenes de tráfico en ciertas temporadas, es decir, que
tienen capacidad limitada en su nube privada y que en determinados momentos necesitan una
mayor. Su implementación es compleja, ya que requiere compatibilidad de recursos y una buena
conexión a la red.
POLITÉCNICO GRANCOLOMBIANO 9
Los principales proveedores de almacenamiento en la nube son:
Además de los anteriores, hay otros proveedores como: Dropbox, Zip Cloud, Openstack, Rackspace,
IDrive, Open Drive, Mozy, Box, JustCloud, ADrive, etc.
Una vez vistas las herramientas para almacenar información, hay que entender que esta, por sí
sola, no genera valor. Para que pueda ser valiosa, hay que clasificarla, ordenarla y permitir que esté
disponible fácilmente. Las bases de datos surgen en los años 60 como conjuntos de datos agrupados
y estructurados; en los últimos 70 años han evolucionado para facilitar a los usuarios el acceso y para
adaptarse a las condiciones cambiantes de los entornos de internet.
SQL
Primeras
bases de datos Semiestructurado
BD orientadas
a objetos
XML
Modelo Modelo No
relacional relacional estructurado
POLITÉCNICO GRANCOLOMBIANO 10
Big data
Recopolación
Recopilación Almacenamiento Visualización
Gestión Análisis Almacenamiento Gestión Análisis
Visualización
PaaS
Hadoop: Almacenamiento y
procesamiento paralelo
SaaS
IoT PaaS SaaS
Automatiza la recopilación Hadoop: almacenamiento Software de Software de análisis
de Información Metadata y procesamiento paralelo análisis
• Bases de datos SQL: estas bases se ejecutan en la nube como una máquina virtual o a través de
un proveedor; no son escalables.
• Bases de datos NoSQL: diseñadas para soportar altas cargas de lectura y escritura de datos, y
son escalables.
Las bases de datos que están disponibles para usuarios como un servicio de la nube se conocen como
DBaaS (Database-as-a-service). Según las necesidades de cada organización, los proveedores
de plataformas como servicio (PaaS: Platfoms as a service) ofrecen bases SQL o NoSQL. Todas
garantizan la configuración, administración, consumo y operación sin que el usuario tenga que
preocuparse por la implementación y con la ventaja de pagar únicamente por los datos almacenados.
Algunos de los beneficios que se obtienen al utilizar el servicio de bases de datos en la nube son:
POLITÉCNICO GRANCOLOMBIANO 11
• Administración. Las tareas rutinarias que los administradores de base de datos (DBAs) deben
realizar - como ajuste, configuración, backups periódicos, actualizaciones, parches de seguridad
y, en general, todo lo relacionado con el mantenimiento de la base - se delegan al proveedor del
servicio; con ello, el administrador se concentra en otras tareas relacionadas con el desempeño
de la base de datos.
Según Gartner (s.f.), data center, o el centro de datos, “es el departamento de una empresa
que alberga y mantiene sistemas de tecnología de la información (TI) y almacenes de datos: sus
mainframes, servidores y bases de datos”. En los inicios de las áreas de TI, los sistemas residían en un
solo lugar físico; de ahí, el nombre del centro de datos. Aunque hoy en día las organizaciones utilizan
arquitecturas de red distribuidas y separadas por grandes distancias, se sigue usando el término
data center para referirse al lugar donde se almacenan y ejecutan el software y las aplicaciones que
requiere una organización para operar. Sin embargo, las arquitecturas convencionales presentan
muchos riesgos, como la obsolescencia de red, los costos de mantenimiento y la baja escalabilidad. La
virtualización es la solución para mitigar dichos riegos y ser competitivos en la era digital.
POLITÉCNICO GRANCOLOMBIANO 12
Referencias bibliográficas
Camargo Vega, J. y Camargo Ortega, J. y Joyanes Aguilar, L. (2015). Conociendo Big data. Facultad
de Ingeniería, 24(38), 63-77. Recuperado de http://www.redalyc.org/articulo.oa?id=413940775006
Hernández Bravo, A. (2009). El SaaS y el Cloud-Computing: una opción innovadora para tiempos
de crisis. REICIS, 5(1), 38-41. Recuperado de http://www.redalyc.org/articulo.oa?id=92217154005
POLITÉCNICO GRANCOLOMBIANO 13
INFORMACIÓN TÉCNICA
POLITÉCNICO GRANCOLOMBIANO 14