Sunteți pe pagina 1din 7

Cómo se convierten los datos en conocimientos.

Parte 2: Lagos de datos y pantanos de datos


Vinay R. Rao 7 de marzo de 2018

Comprenda el concepto de lago y pantano de datos en este artículo esclarecedor y fácil de seguir.

El concepto de lago de datos se encuentra en uso hace unos años. En un principio, generó cierta
controversia y se calificó como una estrategia de marketing. El término lago de datos no formaba parte
de ninguna estructura de almacenamiento de datos tradicional, por lo que los proveedores lo utilizaban
libremente para referirse a distintos conceptos.

La terminología del almacenamiento de datos, como flujos, reservas, corrientes y nubes, se utilizan mucho en
la ciencia de datos. Inevitablemente, las personas comenzaron a establecer una analogía con el ecosistema
acuático natural, lo que generó que ahora también tengamos lagos de datos y pantanos de datos.

Las analogías son ideales para explicar ciertos conceptos, pero siempre existe el riesgo de extenderlas
demasiado y hacer que fracasen. Además, hacen que la terminología sea confusa para las personas que
no tienen experiencia en el campo y no saben a qué hace referencia realmente. Sin embargo, dado que el
concepto de lago de datos lentamente obtuvo aceptación, han habido intentos de definir una arquitectura
para formalizar los conceptos.

Aun así, voy a explicar estos conceptos con otra analogía. Vea las definiciones estándares de la
terminología abajo; la siguiente analogía las explica en términos conceptuales. Mi analogía se basa en
la preparación de un emparedado (en mi defensa, estoy escribiendo este artículo antes del almuerzo y
ya tengo mucha hambre). Comienzo la analogía en el supermercado, donde la mayoría compramos
los productos para hacer emparedados.

Algunas definiciones

Almacén de datos: Un almacén de datos es una arquitectura de almacenamiento diseñada para


contener datos extraídos de varias fuentes, incluidos los almacenes de datos operativos y
transaccionales, y los data marts departamentales de una empresa. El almacén de datos
combina los datos en una forma de resumen total que es adecuada para analizar los datos de
toda una empresa y para realizar informes adaptados a las necesidades de la empresa.

Lago de datos: Un lago de datos es un repositorio de almacenamiento que contiene una


enorme cantidad de datos procesados y no procesados en un formato nativo a fin de ofrecer
acceso bajo demanda. El término a veces se asocia con el almacenamiento de objetos de

© Copyright IBM Corporation 2018 Marcas comerciales


Cómo se convierten los datos en conocimientos. Parte 2: Lagos de Página 1 de 7
datos y pantanos de datos
developerWorks® ibm.com/developerWorks/

Apache Hadoop, pero los científicos de datos utilizan cada vez más el nombre lago de datos
para describir cualquier reserva de datos grande con requisitos y esquemas no definidos.
Los analistas definen estos parámetros solo al momento de consultar los datos.

Pantano de datos: Un pantano de datos es un lago de datos que presenta un diseño, una
documentación o un mantenimiento deficientes. Estas deficiencias vulneran la capacidad de
recuperar los datos e impiden que los usuarios puedan analizarlos y explotarlos de forma eficaz.
Si bien los datos existen, el pantano no puede recuperarlos sin metadatos contextuales.

Una simple analogía


Los supermercados tienen pasillos y estanterías en las cuales los empleados ordenan y almacenan los
artículos de forma prolija por categoría. Puede seleccionar los artículos que desee y comprarlos fácilmente.
El supermercado es similar a una base de datos que almacena activos de datos en filas y columnas de
tablas para su fácil recuperación.

La mercadería que ofrece el supermercado proviene de varios proveedores y fuentes, llega en distintos
momentos, y tiene diferentes fechas límite de venta. De forma similar, los datos pueden provenir de varias
fuentes en distintos momentos. Además, al igual que la mercadería, los datos pueden caducar. Como
muchos productos del supermercado que se necesitan para preparar un emparedado, la información
es una colección de datos catalogados en un contexto específico. En otras palabras, el emparedado es
análogo a la información.

Las verduras de hoja y los vegetales enteros son análogos a los datos no estructurados, mientras que
aquellos que están cortados y troceados son análogos a los datos estructurados. (Para lograr que funcione
esta analogía, doy por sentado que los vegetales enteros no están estructurados).

Ahora, suponga que la tienda de emparedados local selecciona y compra la mercadería en este
supermercado, lava y limpia los ingredientes, los corta para poder usarlos en los emparedados, y los
guarda por separado, lo cual se asemeja a depurar, estructurar y normalizar los datos antes de usarlos
para los análisis.

Cuando quiere comer un emparedado, se dirige a la tienda. Por su parte, la tienda de emparedados también
podría tener diferentes mostradores en los que usted puede comprar emparedados, burritos o ensaladas, lo
cual se asemeja a los data marts y los almacenes de datos. Así como un mostrador es una sección de la
tienda de emparedados, el data mart es un subconjunto del almacén de datos. Un data mart corresponde a un
departamento específico, mientras que un almacén de datos corresponde a toda la empresa.

En la tienda de emparedados, lee el menú y decide qué clase de emparedado desea; luego, hace su
pedido. El cocinero usa el mismo proceso repetitivo para hacer cada emparedado; de hecho, puede haber
emparedados ya hechos y envueltos que se pueden consumir al instante. La tienda de emparedados es
análoga al menú de herramientas de inteligencia empresarial (BI) que están integradas con el almacén de
datos. El análisis también utiliza procesos repetitivos para generar informes y brindarles a los usuarios
documentos que están listos para utilizarlos al instante.

La mayoría de las personas prefieren personalizar sus emparedados, por lo que omiten algunos de los
ingredientes, piden cambios en las cantidades o cambian los aderezos. Del mismo modo, con las herramientas
de BI, puede seleccionar datos específicos para personalizar los informes. De la misma manera en que puede
especificarle los ingredientes al cocinero y crear su propio emparedado, también puede especificar los datos y
los algoritmos en el menú de BI, y así crear informes de análisis personalizados.

Ahora, imagine que es un inspector bromatológico y que quiere asegurarse de que ninguno de los

Cómo se convierten los datos en conocimientos. Parte 2: Lagos de Página 2 de 7


datos y pantanos de datos
ibm.com/developerWorks/ developerWorks®

productos utilizados para preparar los emparedados esté contaminado. Además, quiere asegurarse de
que el proceso utilizado para la preparación de este platillo, como el lavado, la limpieza y el troceado,
sea coherente y se realice en buenas condiciones sanitarias. En ese caso, sería necesario que audite los
procesos utilizados en la cocina y que inspeccione periódicamente el área de preparación.

De manera similar, los auditores necesitan acceder a los datos no procesados a fin de verificar que no se
hayan contaminado durante el proceso de preparación a causa de la transcripción, la depuración, el formato
y la normalización. A diferencia de lo que ocurre con los productos de la tienda de emparedados, los datos
se pueden copiar y clonar. Por ende, para el cumplimiento de las normas y las auditorías, es posible
almacenar los datos no procesados.

Originalmente, el término lago de datos hacía referencia a una reserva de datos que contenía datos no
procesados y datos no estructurados, como textos, imágenes, audios y videos. Sin embargo, tal como se
mencionó, los proveedores tienen otras definiciones de lago de datos.

Para continuar con la analogía, imagine a un consumidor muy exigente que sospecha del origen y la
frescura de los ingredientes en los contenedores que están sobre el mostrador de emparedados. Además,
el consumidor puede exigir que a su emparedado se le agreguen vegetales o carnes que no están
disponibles en la tienda. Dado que la tienda no permite que los consumidores pasen detrás del mostrador
y preparen sus propios emparedados, el consumidor no tendrá más opción que ir al supermercado,
comprar los ingredientes y hacer el emparedado en su propia casa. Por lo general, los analistas
profesionales y los científicos de datos quieren acceder a los datos no procesados en vez que analizar los
datos de resumen totales que se encuentran en el almacén de datos: prefieren obtener los últimos datos
de la fuente a fin de garantizar su validez y relevancia. Es probable que también quieran consultar las
velocidades de llegada de los datos, las cuales pueden sufrir la aplicación de máscaras durante el proceso
de preparación. Si los analistas quieren ver otros datos que no estén contemplados en el almacén de
datos, deberán acceder directamente a las bases de datos no procesados. En vez de acceder
directamente a los datos de origen, un lago de datos conserva clones de las bases de datos no
procesados a fin de garantizar este tipo de accesos y brindar una zona de pruebas para los nuevos
análisis.

En ocasiones, los chefs profesionales pueden insistir en que se compren los ingredientes frescos de la
granja y no del supermercado. En ese caso, el chef debe duplicar las funciones del comprador de
productos de supermercado, lo cual es análogo a los datos en tiempo real, por ejemplo, de un dispositivo
de Internet de las cosas (Internet of Things - IoT). En ese caso, el lago de datos también debe realizar
funciones de extracción, transformación y carga (ETL) para esos flujos de datos en tiempo real.

Por último, imagine una tienda de emparedados con mala fama. Los contenedores que se encuentran sobre
el mostrador no tienen etiquetas. Los vegetales y las carnes están mezclados, e incluso el cocinero no sabe
bien qué tipo de carne hay exactamente en ese último contenedor. Es probable que los clientes se vayan
porque no saben con seguridad qué tipo de emparedado recibirán. Esta situación es análoga a un pantano
de datos, que es un lago de datos mal mantenido. Los datos son como carnes misteriosas, y no hay nadie
que pueda confirmar los antecedentes de algunos de los datos. Los datos buenos son inaccesibles, ya que
los pantanos de datos no documentan de forma apropiada (o, peor aún, documentan mal) las etiquetas de
los metadatos, o bien algunos de los datos tienen un formato que las herramientas integradas no pueden
leer o no se pueden recuperar con una consulta.

¿Por qué necesitamos lagos de datos realmente?


Ahora sabe que necesitamos lagos de datos por varios motivos:

• Como repositorios de datos no procesados para el cumplimiento de las normas y las auditorías

Cómo se convierten los datos en conocimientos. Parte 2: Lagos de Página 3 de 7


datos y pantanos de datos
developerWorks® ibm.com/developerWorks/

(por ejemplo, grabaciones de audio y video, documentos escaneados, y archivos de texto y registro)

• Como plataforma para que los analistas y los científicos de datos accedan a datos estructurados y
no estructurados con fines de validación y de zona de pruebas para nuevos modelos de análisis

• Como plataforma para integrar datos en tiempo real de sistemas operativos y transaccionales
y, cada vez más, para integrar datos de sensores de dispositivos de Internet de las cosas
(Internet of Things - IoT)

Los datos totales y de resumen que ofrece el almacén de datos son suficientes para la mayoría de los usuarios
de BI. Los usuarios de un lago de datos pueden ser auditores, analistas especializados y científicos de datos
(que son una minoría). ¿Qué otros motivos convincentes existen para que una empresa elija crear un lago de
datos? Por lo tanto, vale la pena examinar cómo el lago de datos difiere del almacén de datos.

¿Cuál es la diferencia entre un almacén de datos y un lago de datos?


Los almacenes de datos son una tecnología madura y segura con una arquitectura formal. Almacenan datos
estructurados y completamente procesados que están sujetos a procesos de gobernanza de datos. Los
almacenes combinan datos en forma de resumen global para su uso en toda la empresa y, además, escriben
definiciones de metadatos y esquemas, y realizan operaciones de escritura de datos. Por lo general, los
almacenes de datos tienen configuraciones con correcciones; asimismo, están altamente estructurados y, por lo
tanto, son menos flexibles y ágiles. Hay un costo asociado con procesar todos los datos antes del
almacenamiento, y el almacenamiento de grandes volúmenes es relativamente más costoso.

Los lagos de datos, en cambio, son una tecnología más moderna y tienen arquitecturas dinámicas. Los lagos de
datos almacenan datos no procesados en cualquier formato y forma, tanto estructurados como no
estructurados, incluidos imagen, texto, audio y video. Según su definición, un lago de datos no está sujeto a la
gobernanza, pero los expertos concuerdan en que una buena administración es fundamental para impedir que
un lago de datos se convierta en un pantano. Los lagos de datos crean esquemas durante las operaciones de
lectura de datos. Estos sistemas son menos estructurados y más flexibles; además, ofrecen mayor agilidad que
los almacenes de datos. El procesamiento no es necesario hasta la recuperación de los datos y, además, los
lagos de datos utilizan un almacenamiento económico por diseño.

Pese a sus ventajas, los lagos de datos aún deben actualizarse con respecto a la seguridad, la gobernanza y la
administración. Pero hay un problema obvio que muchos ignoran y es un impulsor persuasivo.

El aprendizaje automático y el aprendizaje profundo como impulsores


Uno de los motivos menos debatidos, pero probablemente más convincentes para adoptar los lagos de
datos es la creciente adopción de tecnologías de aprendizaje automático y aprendizaje profundo para la
extracción y el análisis de datos. Las auditorías de software son un dominio maduro con respecto a la
búsqueda y el análisis tradicionales, pero son muy básicas en relación con las tecnologías de aprendizaje
automático y aprendizaje profundo que se utilizan para la extracción y el análisis de datos.

La transcripción de voz, el reconocimiento de imagen y video, el reconocimiento óptico de caracteres,


y otros servicios ahora utilizan tecnologías de aprendizaje automático o aprendizaje profundo de manera
cotidiana. Los científicos de datos necesitan acceder a los datos no estructurados y no procesados, que se
utilizan para entrenar estos sistemas a fin de realizar la validación de los sistemas y garantizar una pista
de auditoría. De manera similar, el aprendizaje profundo realiza tareas como la extracción de datos para
encontrar patrones y relaciones entre datos de series temporales y dimensionales.

Otra aplicación del aprendizaje profundo es la extracción de datos que antes eran inaccesibles y que no se
pueden recuperar con consultas. Estos datos, llamados datos oscuros, son el eje del siguiente segmento de
esta serie. La llegada del aprendizaje automático y el aprendizaje profundo a las aplicaciones de extracción y
Cómo se convierten los datos en conocimientos. Parte 2: Lagos de Página 4 de 7
datos y pantanos de datos

análisis de datos es un motivo muy convincente para realizar el traspaso a las arquitecturas de lago de datos.

Las ventajas de los lagos de datos


Los lagos de datos tienen varias ventajas:

• Fácil recopilación e ingestión de datos: Todas las fuentes de datos de una empresa abastecen
el lago de datos. Por lo tanto, el lago de datos se convierte en un punto de acceso constante a los
datos estructurados y no estructurados que se almacenan en los servidores en la nube y los
servidores de las instalaciones. En este sentido, toda la recopilación de datos sin aislamiento está
fácilmente disponible para la ingestión que realizan las herramientas de análisis de datos. Además,
el lago puede contener datos en varios formatos, como texto, audio, video e imagen, y en varios
formatos de archivo. Esta flexibilidad simplifica la integración de los almacenes de datos heredados.
• Compatibilidad con fuentes de datos en tiempo real: Los lagos de datos admiten funciones de ETL
para flujos de datos de alta velocidad y en tiempo real, lo que permite la convergencia de los datos de
sensores de dispositivos de Internet de las cosas (Internet of Things – IoT) con otras fuentes de datos
que se encuentran dentro del lago.
• Preparación de datos más rápida: Los analistas y los científicos de datos no necesitan dedicar
tiempo a acceder a varias fuentes de manera directa y pueden buscar datos, encontrarlos y acceder
a ellos con mucha más facilidad, lo que agiliza el proceso de preparación y reutilización de los
datos. Los lagos también registran y confirman el origen de los datos, lo que ayuda a garantizar la
confiabilidad de los datos y produce una rápida BI para la toma de decisiones basada en datos.
• Mayor escalabilidad y agilidad: Los lagos de datos son altamente escalables, ya que pueden
aprovechar los sistemas de archivos distribuidos para obtener almacenamiento. El uso de
tecnologías de código abierto también reduce los costos de almacenamiento. Los lagos de datos
están estructurados de una forma menos rígida y, por ende, ofrecen intrínsecamente una mayor
flexibilidad que, a su vez, genera una mayor agilidad. Los científicos de datos pueden crear zonas
de pruebas dentro del lago de datos a fin de desarrollar y probar nuevos modelos de análisis.
• Análisis avanzado con inteligencia artificial: El acceso a los datos no procesados, la capacidad
para crear zonas de pruebas y la flexibilidad para redefinir la configuración convierten a los lagos de
datos en una sólida plataforma para desarrollar y usar rápidamente modelos de análisis avanzados.
Los lagos de datos están idealmente preparados para el uso del aprendizaje automático y el
aprendizaje profundo con el objetivo de realizar diferentes tareas, como la extracción y el análisis
de datos, y la extracción de datos no estructurados.

La evolución de los lagos de datos


La evolución de los lagos de datos es más una convergencia de tecnologías que una evolución. Los
almacenes de datos fueron la evolución de su antecesor, las bases de datos relacionales, pero no se
puede decir lo mismo de los lagos de datos y los almacenes de datos.

Los lagos de datos combinan tecnologías diversas, incluidos los almacenes de datos, las tecnologías de
transmisión de datos de alta velocidad, la extracción de datos, el aprendizaje profundo, el almacenamiento
distribuido y otras tecnologías. Sin embargo, se sospecha que los lagos de datos tienen un grupo de
usuarios limitado entre los analistas y los científicos de datos. Otro error habitual es atar el concepto de
lago de datos a una tecnología habilitante específica, como Hadoop.

Sin embargo, el concepto de lago de datos tiene un potencial mucho mayor que cualquier otra
tecnología subyacente y está en el proceso de evolución continua, ya que los proveedores agregan
funciones y capacidades. Entre las posibles áreas de crecimiento, se incluyen las siguientes:
• Interoperabilidad y estandarización de la arquitectura
• Selección, administración y gobernanza de datos
Cómo se convierten los datos en conocimientos. Parte 2: Lagos de Página 5 de 7
datos y pantanos de datos

• Seguridad integral de los datos

Al igual que con la mayoría de las tecnologías en desarrollo, la competencia entre los proveedores y
los motores del negocio empuja los límites. Es solo cuestión de tiempo hasta que los lagos de datos se
acepten por completo en el firmamento de las tecnologías de almacenamiento de datos.

La aplicación de los lagos de datos


Algunas funciones de los lagos de datos los vuelven muy adecuados para ciertas aplicaciones.
Esta sección analiza dos de esas aplicaciones.

Atención médica y ciencias biológicas


Los lagos de datos pueden ayudar a resolver los problemas de interoperabilidad de los registros médicos
electrónicos (EMR). La intención del mandato general para el uso de EMR era brindarles a los médicos la
capacidad para acceder a los registros médicos de los pacientes desde diferentes sistemas y ofrecer una
fácil transición del cuidado de los pacientes entre distintos proveedores. En la práctica, muchos de estos
registros, tanto las demandas de seguro como los datos clínicos, no son interoperables ni tienen la forma
de datos legibles por máquina. Los lagos de datos almacenan los registros en cualquier formato hasta su
recuperación. Por lo tanto, los registros de los pacientes también podrían incluir notas escritas a mano por
el médico, diagnósticos médicos por imágenes y demás. Los lagos de datos también tienen la capacidad
para extraer y almacenar contenido de flujos de datos en tiempo real que surjan a partir del creciente uso
de telemetría de dispositivos médicos y la IoT en la atención médica.

Operaciones bancarias y finanzas


El sector de las operaciones bancarias y las finanzas suele trabajar con varias fuentes de datos. También
maneja datos de transacciones de alta velocidad, desde mercados de valores hasta tarjetas de crédito, y
otras transacciones bancarias. Habitualmente, las instituciones bancarias y financieras almacenan
documentos legales y de otras índoles para cumplir las normas reglamentarias y los requisitos de auditoría.
Los lagos de datos son ideales para almacenar estos formatos de datos mixtos y para guardar datos
heredados de forma digital a fin de facilitar su recuperación. Además, los lagos de datos sirven como una
plataforma ágil que permite ingerir varios flujos de datos para el intenso uso de análisis que se evidencia
en esta vertical de la industria.

De cara al futuro
Los lagos de datos, cuando se diseñan y se implementan de forma correcta, son un método excelente
para almacenar grandes volúmenes de datos multiformato sin la necesidad de aislamientos. Reducen el
tiempo y los costos que suponen la ingestión y la transformación, por lo que ponen los datos rápidamente
a disposición de los usuarios. También permiten el uso del almacenamiento distribuido a un menor costo.
Desde el punto de vista arquitectónico, los lagos de datos aún deben seguir madurando y, además,
actualmente no hay estandarización entre las ofertas de los proveedores. Los lagos de datos siguen
evolucionando y sumando nuevas capacidades para mejorar las funciones y brindar control de acceso,
administración de datos, seguridad, tratamiento de datos y demás. La aparición de las tecnologías de
aprendizaje automático y aprendizaje profundo para el análisis y la extracción de datos introdujo la
necesidad de contar con una plataforma que brinde un acceso sencillo a los datos no procesados a
fin de poder entrenar estos sistemas, validarlos y garantizar una pista de auditoría. Los lagos de datos
son una respuesta elegante a esa necesidad. El aprendizaje profundo también habilita el acceso a los
datos heredados que el lago haya ingerido anteriormente y a los que no se puede acceder por medio de
mecanismos de consulta estándares.
ibm.com/developerWorks/ developerWorks®

© Copyright IBM Corporation 2018


(www.ibm.com/legal/copytrade.shtml)
Marcas comerciales
(www.ibm.com/developerworks/ibm/trademarks/)

Cómo se convierten los datos en conocimientos. Parte 2: Lagos de Página 7 de 7


datos y pantanos de datos

S-ar putea să vă placă și