Sunteți pe pagina 1din 8

Perspectiva del proceso de calidad de datos y análisis de herramientas sobre

perfilado de datos.
1
Carlos Eduardo Ossa-Quintero,
Carlosossa3@gmail.com,

1-2
Grupo de automática, Electrónica y Ciencias Computacionales - ITM

Resumen: Desde el semillero de Inteligencia de negocios se analiza la calidad de los datos, es así como en los
diferentes procesos que se llevan a cabo en las grandes o medianas empresas se utiliza información, y desde el
mismo momento de su recolección, el procesamiento y el almacenamiento se debe contemplar la calidad e
integridad de la misma. El objetivo del presente estado del arte, es realizar una traza de cuatro aspectos
significativos a tener en cuenta en el momento de realizar el proceso de la calidad del dato, como son: gestión,
dimensión, perfilamiento y enriquecimiento. Se tiene en cuenta también, la perspectiva de la gestión de la
información en los datos capturados, procesados, almacenados y entregados al usuario; el cual debe ser un fiel
reflejo de la realidad que se desea tratar con los sistemas informáticos, generalmente de administración como son
los SGBD. La metodología aplicada está enmarcada en el análisis de cuatro sistemas de gestión de bases de datos
que utilizan el data profile como son: Oracle Database 11g - Oracle Warehouse Builder Data Quality Option y
SQL Server 2012 data quality, además de otras dos herramientas de open source como SQL Power DQguru y
Talend Open Profiler, a partir de una o varias bases de datos que están normalizadas. Con el resultado del artículo
y el análisis de esté, es posible concluir que las empresas pueden apoyarse en estas plataformas para ser más
eficientes antes de realizar un proceso de inteligencia de negocios, ya que a mayor filtro, mayor la limpieza de la
información y por ende, mejor la calidad obtenida para una adecuada toma de decisiones.

Palabras Clave: Calidad de datos, Bases de datos (BD), proceso de calidad, herramientas de Limpieza, perfilado
y enriquecimiento.

Abstract: From the hotbed of business intelligence data quality is analyzed, this is how the different processes
that take place in large and medium-sized enterprises information is used, and from the time of collection,
processing and storage should be considered the quality and integrity of it. The aim of this state of the art is to
perform a trace of four significant aspects to take into account when making the process of data quality, such as:
management, dimension, profiling and enrichment. It is also necessary the perspective of the management of
information in the captured data, processed, stored and delivered to the user, it must be a true reflection of reality
treated with computer systems such as management usually DBMS. The applied methodology is framed to the
analysis of four management systems databases using the Profile data such as: Oracle Database 11g - Oracle
Warehouse Builder Data Quality Option and SQL Server 2012 data quality, and two other open source tools as
SQL Power DQguru and Talend Open Profiler, from one or more database are standardized. With the result of the
article and its analysis, it is possible to conclude that companies can lean in these platforms to be more effective
before a business intelligence process, a higher filter means more information is cleaned thus better quality is
obtained for a proper decision making.

Key words: Data Quality, Data bases (DB), Process quality, Cleaning tools, Profiling and enrichment.

1
1. INTRODUCCIÓN
Cada vez está tomando mayor fuerza la calidad de datos, a partir del impacto que está generando en las empresas
la pérdida de información, ante todo conozcamos que es calidad, en la real academia de la lengua es, la propiedad
o conjunto de propiedades inherentes a algo, que nos permite juzgar su valor, ahora planteamos ¿qué es dato?
“Son un término general para denotar alguno o todos los hechos, letras, símbolos y números referidos, o que
describen, idea, situación, condición u otro factor” [1]. Este artículo tiene como objetivo analizar cuatro
herramientas para el perfilamiento de datos derivadas de gestión, dimensión y enriquecimiento de la información.
Dos son licenciadas: Oracle Database 11g - Oracle Warehouse Builder Data Quality Option y SQL Server 2008
R2, mientras que las otras dos son open source: SQL Power DQguru y Talend Open Profiler.

1.1 Oracle Database 11g - Oracle Warehouse Builder Data Quality Option
“La opción Data Quality para Warehouse Builder es una de las opciones que pueden ser adquiridas con Oracle
Warehouse Builder como parte de la edición Enterprise del motor de base de datos de Oracle.” [2] Una de las
características más importantes de esta herramienta es la manipulación y administración que posee este, es la
capacidad de evaluar la calidad de los datos de un sistema u organización. Esta característica se conoce como el
perfilamiento de datos (Data Profiling), “Utilizando los resultados del perfilamiento, Warehouse Builder le
permite generar reglas de limpieza de datos, que usted puede aplicar a un conjunto de datos mediante rutinas de
extracción, transformación o carga (ETL), llamadas Correction Mappings. Esta integración en la creación de los
procesos ETL constituye el principal diferenciador de Warehouse Builder frente a las herramientas clásicas de
perfilamiento de datos. Adicionalmente, esta integración permite que la obtención y publicación de información
de alta calidad se efectúe de manera inmediata de acuerdo a los requerimientos del negocio.” [2].
1.2 SQL Server 2012
Las mejoras en SQL server en la parte de ETL Integration Services se ven reflejadas en su capacidad para realizar
perfilado de datos con su nueva Data Quality Services. “SQL Server Data Quality Services (DQS) es un producto
de calidad de datos controlado por conocimiento. Con DQS, podrá generar una base de conocimiento y usarla
para llevar a cabo diversas tareas fundamentales de calidad de datos, lo que incluye correcciones,
enriquecimiento, estandarización y eliminación de datos duplicados”, a la vez que el DQS viene alimentado por
la limpieza de los datos como se describen en la siguiente cita: “La limpieza de datos es el proceso de analizar la
calidad de los datos en un origen de datos; para ello, se aprueban o rechazan manualmente las sugerencias del
sistema y, de esta manera, se hacen modificaciones en los datos. La limpieza de datos en Data Quality Services
(DQS) incluye un proceso asistido por PC que analiza cómo se ajustan los datos al conocimiento de una base de
conocimiento y un proceso interactivo que permite al administrador de datos revisar y modificar los resultados
obtenidos en los procesos asistidos por PC con el fin de garantizar que la limpieza de datos resulta exactamente
como se deseaba efectuar.”
1.3 SQL Power DQguru
La herramienta de SQL Power DQGuro es predilecta ya que está integrada con varios SGBD y permite realizar
un modelo de perfilado y calidad de datos, siendo en esencia “ ideal para la limpieza de cualquier Data Warehouse
o base de datos CRM, permite realizar procesos de limpieza de datos y gestión de datos maestros, identificando
y eliminando los duplicados, construyendo referencias cruzadas entre las tablas de origen y destino. Esto les
proporciona a los usuarios los datos completos y precisos, una sola visión de 360 grados de todas las entidades
de negocio. Esta es una herramienta de Data Cleansing que SQLPower ha liberado convirtiendo la licencia en
Open Source. Su funcionamiento es sencillo, consta de crear un repositorio sobre una de las diferentes bases de
datos a trabajar con las que conecta por JDBC, y se pueden crear proyectos de 3 tipos diferentes: Deduplicación,
Datacleansing y Referencias cruzadas. La interfaz para realizar estas acciones es muy intuitiva y visual. Aunque
hay operadores como los de comparación fonética, se echan de menos funciones de fuzzy logic para comparar
palabras parecidas, o que se trabaje un porcentaje de similitud por campo y por registro. La herramienta muestra
de una manera muy visual las coincidencias encontradas, con un color para cada proceso definido, y permite ver
las diferencias entre registros, y descartar coincidencias, decidir cuál es el registro maestro (el que va a conservar
2
los datos tras la fusión), y qué es lo que se va a fusionar y cómo. Finalmente, en el proceso de fusión deja un log
y guarda los identificadores de lo que se fusiona en una tabla de resultados. Trabaja directamente sobre la tabla
origen, y borra los registros que se han marcado como duplicados." [3]
1.4 Talend Open Profiler
Herramienta ideal que permite navegar por los esquemas de tablas de una base de datos para realizar una serie de
análisis sobre la información de dependencias, número de registros, índices, valores nulos, longitud mínima o
máxima, valores duplicados y demás datos que permiten identificar patrones en validaciones y verificaciones de
la información. Con el análisis de la información, la herramienta genera gráficas de resultados que equivalen a
los análisis de campos o patrones predefinidos que establecen una visualización más amplia para el trato de la
información, de tal manera que tome medidas de corrección sobre ellos y tenga en cuenta en la definición de
procesos ETL. De manera comercial “Se trata de una herramienta para gestionar los datos de candidatos a
compañías. Los clientes se benefician de una solución de gestión de talento que se integra completamente con
sistemas de recursos humanos básicos de registro, y con el mayor ecosistema de ERP. Los módulos de gestión
del talento cubren todas las fases del ciclo del talento, como lo son la planificación, reclutamiento, el rendimiento,
el aprendizaje, el desarrollo profesional, compensación, opiniones sobre el talento, medición y presentación de
informes. Una de las características principales sobre la herramienta es la facilidad con la que el usuario puede
hacer un adecuado uso de los datos adquiridos. Mediante uno de los procesos de data cleansing que se emplean,
permite limpiar, validar y corregir datos de las fuentes de origen durante el proceso de incorporación y creación
del Data Warehuose.” [4]

2. METODOLOGÍA
2.1 Análisis
La metodología implementada parte de la recolección, procesamiento y almacenamiento de la información, es
entender la perspectiva desde gestión, dimensión y enriquecimiento de este para posteriormente analizarlas con
las herramientas de perfilamiento de datos como son: Oracle Database 11g - Oracle Warehouse Builder Data
Quality Option y SQL Server 2008 R2, SQL Power DQguru y Talend Open Profiler. Se anexo un modelo teórico
para el proceso de éste.

Para la implementación estratégica del análisis de las herramientas de perfilamiento de datos es indispensable
conocer las especificaciones a las cuales se ata el uso de las mismas. A continuación se presentan los requisitos
mínimos que se tienen en cuenta por cada una de las herramientas utilizadas:

Oracle Database 11g -


Herramientas Oracle Warehouse
Builder Data Quality SQL Server 2012 SQL Power DQguru Talend Open Profiler
Requisitos Option

Licencia -Basic ETL -Enterprise No tiene licencia, es una No tiene licencia, es una
-Enterprise ETL -Business Intelligence herramienta open source. herramienta open source.
-Application Adapters for -Standard
OWB -Developer
-Web
-Express
Sistema Operativo Linux x86-6Linux x86-64 Microsoft Windows 32-bits Cualquier SO que soporte la -OS X
bit / 64-bits versión 6.0 o superior de -Solaris
Microsoft Windows 64-bit JRE -Ubuntu Linux
-Microsoft Windows
Procesador Procesador dual core 2.0 -Procesador x86: 1,0 GHz Procesador dual core 2.0 Procesador dual core 2.0
Ghz o superior -Procesador x64: 1,4 GHz o Ghz o superior Ghz o superior
superior
Memoria 4GB de RAM 2GB de RAM 2GB de RAM 2GB de RAM
Almacenamiento 2GB o superior de espacio 2GB o superior de espacio 2GB o superior de espacio 2GB o superior de espacio
disponible disponible disponible disponible

3
Como material de insumo se tiene dos base de datos que son de acceso restringido, sin embargo sirvieron de apoyo
para el análisis que se realizaron con las herramientas a las cuales se está evaluando, cabe acotar que las BD están
normalizadas lo que permite aplicar reglas para obtener datos más organizados o limpios, donde se incluye la
creación de tablas y el establecimiento de relaciones entre ellas según reglas diseñadas tanto para proteger los
datos como para hacer que la base de datos sea más flexible al eliminar la redundancia y las dependencias
incoherentes.

Para establecer la conexión con diferentes bases de datos es necesario destinar un driver JDBC que permite la
interacción adecuada con las aplicaciones SQL DQGuru y Talend Open Profiler, por lo contrario las herramientas
de SQL server 2012 y Oracle Database 11g - Oracle Warehouse Builder Data Quality Option no requieren del
mismo para realizar el proceso de calidad de datos.

Después de la configuración de cada una de las herramientas se procede a analizar con las dos bases de datos:

A. SQL Power DQ Guru: En la cual se procede a realizar el diagrama de calidad de datos de esta herramienta
llamado “prueba de transformación” donde facilita la unión de las tablas, eligiendo las columnas según la
necesidad del proceso, concatenándose según los parámetros de estandarización que requiera la columna de
las tablas, ilustrándose como se muestra en la siguiente imagen.

Figura 1.Diagrama de analisis de transformación en SQL Power DQGuru

B. Talend Open Profiler: Se compone de dos diferentes sub-herramientas que realizan un proceso dependiente
dirigido a un mismo fin, para determinar cuál es la mejor forma de optimizar los datos de las BD. La primera
herramienta Data Profiler realiza todo el análisis de las estructuras de las tablas arrojando una serie de
estadísticas, donde se determina que columnas son las adecuadas para realizar todo el proceso de calidad de
datos. Posteriormente a partir de los resultados obtenidos del anterior análisis, la segunda herramienta Data
Quality realiza un proceso similiar al Power DQ Guru, concatenando cualquier tipo de dato donde se analiza
su estructura, luego se aplica las reglas de expresión regular y se definen los valores a reemplazar, por último,
ejecutando al nuevo cambio.

4
Figura 2. Analisis estadistico columna str_Dirección con Talend Open Studio

C. SQL Server 2012: Existen diferentes formas de realizar el proceso de calidad de datos con esta herramienta,
ya sea por una integración o una base de datos de conocimiento. Durante el análisis se optó por la base de
datos de conocimiento, que se basa en una sub-herramienta de calidad de datos llamada Data Quality Services
controlada por conocimiento, es decir, ésta genera reglas de dominio donde se parametriza cada estructura de
la tabla y la columna que se requiera cambiar. Dentro de DQS existe dos procesos, el primer llamado Data
base management, donde se alberga las reglas a utilizar en el perfilado de los datos, y el segundo llamado
Data Quality Projects, donde se realiza el proceso de calidad de datos a partir las reglas de dominio
proporcionadas por el data base management o la base de datos de conocimiento.

D. Oracle Database 11g - Oracle Warehouse Builder Data Quality Option: A partir del concepto teórico de
esta herramienta se contiene todos los elementos de integración y calidad de datos, comprendiendo desde el
modelado de datos, pasando por la transformación con ETL, hasta llegar al data profiling y data Quality. El
proceso que se realiza específicamente se enfoca en reestructurar el modelo relacional de la BD original, para
sacar un mejor provecho del manejo de los datos. A partir del anterior proceso se visualiza la transformación
ETL, donde se cargan los datos resultantes a partir de unas reglas de negocio previamente aplicadas, que se
complementan con los procesos de perfilamiento y calidad de datos.

2.2 Modelo teórico del proceso de calidad de datos

El concepto teórico del modelo describe que cualquier base de datos de una empresa puede utilizar las
herramientas anteriormente mencionadas, para realizar un proceso de calidad y perfilamiento de los datos. El
fin último es crear y mantener un Data Warehouse más óptimo, que permita el cruce de información depurada
de distintas fuentes, para luego analizarla desde infinidad de perspectivas.

5
Figura 1. Modelo de Calidad de datos

3. RESULTADOS
Los resultados generados a partir del proyecto de investigación se basan en las oportunidades de mejora desde la
gestión de la información hasta el perfilamiento de los datos, que contribuirán con la mejora de calidad de esté,
y por ende todos los procesos que se hagan en las empresas tendrán una mejor visión de la información que
permita la toma de decisiones a un nivel más exacto.
Como muestra de cuatro aplicaciones de calidad y perfilamiento de datos que se estudiaron en este artículo se ha
escogido cuatro entre muchos sectores empresariales que manejan gran volumen de información y baja
información en las cuales se representa en el siguiente cuadro:

Perfil y/o Sector de la empresa


Herramientas de Instituciones
Dirección de impuestos Almacenes de Entidades
Calidad de Datos educativas /
y aduanas cadena financieras
Universidades
Power DQGuru X

Talend Open Profiler X

Data Quality de SQL


Server
X

Oracle Warehouse
Builder Data Quality X X X
Option
Tabla 1. Análisis de perfilamiento y sector de empresa a la que aplicaría cada una de las herramientas

Según el cuadro anterior para el caso de dirección de aduanas, aplicaría Talend Open Profiler o Oracle Warehouse
Builder Data Quality Option, ya que las bases de datos que tienen suelen ser de uso gratuito, se analizó que
constantemente son alimentadas de datos nuevos y por ende la información que presentan son una cantidad
considerable para realizar un proceso de calidad de datos o perfilamiento continuo, sin dejar atrás un gran aporte
en la digitalización y limpieza de dicha información. En caso de los almacenes de cadena, el uso de Oracle
Warehouse Builder Data Quality Option puede brindar más estabilidad y rendimiento, conociendo el mercado

6
actual que manejan con una gran cantidad de información a diario y el potencial de transacciones realizadas, es
fundamental tener el apoyo de una herramienta más robusta para el perfilamiento de los datos. Power DQGuru
sería una gran alternativa para las instituciones educativas/universidades, ya que implicaría el uso de herramientas
open source, lo que aportaría más a la experimentación e innovación desde la academia. Por último, en el caso
de las entidades financieras elegir una sola herramienta no bastaría, ya que tanto grandes como medianas
empresas manejan determinada cantidad de información, es decir, para grandes empresas es preferible usar
Oracle Warehouse Builder Data Quality Option, mientras que para medianas empresas Data Quality de SQL
Server sería una gran opción.

Los resultados puntuales del análisis realizado con cuatro herramientas fue que existen métodos directos e
indirectos, es decir, con los métodos directos es un proceso delicado ya que la información se manipula sin tener
un previo análisis si es lo indicado a aplicar, mientras que con los métodos indirectos se requiere aplicar varios
procesos adicionales como el análisis y clasificación de la información, que obliga a impartir una toma de
decisiones previa.

Software Ventajas Desventajas


✓ Reducción de costos.  Lentitud en las bases
✓ Actuación más eficaz. de datos cuando se
✓ Mejora de la productividad realiza el perfilamiento
de IT. de datos.
✓ Integración completa cada  El alto costo del
Oracle Database 11g - Oracle sub-herramienta. soporte.
Warehouse Builder Data Quality ✓ Ejecución de procesos más  El alto costo de
Option robustos. adquisición para
✓ Realizan métodos indirectos. medianas empresas.
✓ Recibe diferentes fuentes de
datos.
✓ Genera salidas de archivos
planos, csv, Excel.
✓ Creación de reglas de  El alto costo de
dominio. adquisición para
medianas empresas.
✓ Tiene una base de datos de  El alto costo de
conocimiento como soporte.
SQL Server 2012
herramienta eficaz.  Las herramientas para
✓ Realizan métodos indirectos. realizar su proceso
✓ Genera salidas de archivos completo no son
integradas.
planos, csv, Excel.
✓ Es software libre.  El alto costo del
✓ Fácil integración con otros soporte.
sistemas de bases de datos.  No genera salidas de
archivos planos, csv,
✓ Realiza modelos de
SQL Power DQguru Excel.
perfilamiento y calidad de  Los cambios que se
datos. realicen son sobre la
✓ Es multiplataforma. misma base de datos de
✓ Realizan métodos directos. origen.
Talend Open Profiler ✓ Es software libre.  El alto costo de
✓ Gran disponibilidad de soporte.
componentes para conectarse  Sólo se e dispone de un
repositorio en base de
a múltiples sistemas y
7
orígenes de datos, y en datos para trabajo en
continua evolución. equipo con las
✓ Genera salidas de archivos versiones de pago.
planos, csv, Excel.
✓ Realizan métodos indirectos.
Tabla 2. Análisis de la perspectiva de cada una de las herramientas

4. CONCLUSIONES
Con el resultado del artículo y el estudio de esté, es posible concluir que las empresas pueden apoyarse en estas
plataformas para ser más eficaces antes de realizar un proceso de inteligencia de negocios, ya que a mayor filtro,
mayor la limpieza de la información y por ende, mejor la calidad obtenida para una adecuada toma de decisiones.

Mediante el análisis a los resultados puntuales de la experimentación, cada herramienta se clasificó por métodos
directos e indirectos a causa de la forma en que se manipulan los datos y los procesos por los cuales se deben
aplicar. Con base en el resultado se puede concluir que los métodos indirectos son más eficaces y complejos,
porque divide cada proceso en tareas específicas, lo cual garantiza la fiabilidad de la información de destino. Los
métodos directos no son altamente recomendables, ya que no tienen un previo análisis y no se puede realizar un
reproceso una vez hecho el cambio.

A través del análisis realizado con las distintas herramientas mencionadas, se destaca que la más óptima para
recomendar es Talend Open Profiler, ya que a diferencia de las otras tiene cierta cobertura de uso libre, cuenta
con la integración de otras fuentes de bases de datos, extracción de archivos planos y generación de nuevos
destinos de almacenamiento para los datos. Además, tiene una potente herramienta de perfilamiento de datos que
se liga a un proceso estructurado de la información por un método indirecto.

La primera línea de continuación de este trabajo de investigación es un estudio más detallado de la herramienta
Oracle Database 11g - Oracle Warehouse Builder Data Quality Option, indagar puntualmente sobre una mejora
en el proceso que se aplica en el perfilamiento y calidad de los datos. Para la herramienta SQL Server 2012 existe
un potencial estudio del proceso de calidad de datos a través de integración de servicios, siendo éste posiblemente
un proceso más completo que el realizado con el DQS y la base de datos de conocimiento. Finalmente, se propone
profundizar en el estudio del ciclo de vida de calidad de datos desde un enfoque teórico para analizar mejor el
proceso aplicado por las herramientas de perfilamiento de datos, posibilitando esclarecer conceptos desde el ciclo
hasta la experimentación.

5. REFERENCIAS

[1] J. Maynard-Smith, «Dictionary of Data Processing.,» 1982.


[2] Oracle, «ORACLE DATABASE 11G ORACLE WAREHOUSE BUILDER DATA QUALITY OPTION,»
vol. 1, p. 4, 2013.
[3] C. Fernández, «Dataprix,» 17 Agosot 2009. [En línea]. Available: http://www.dataprix.com/data-profiling-
sql-server-2008. [Último acceso: 26 septiembre 2013].
[4] Oracle, «Implementing Talent Management Base», 2015. [En línea]. Available:
https://docs.oracle.com/cd/E51367_01/talentop_gs/FAITM/F1460267AN10E61.htm#F1460267AN10E61 [Último
acceso: 2 de Agosto de 2015]

S-ar putea să vă placă și