Herramientas de Validación

AA5-Ev1-VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS
ETCL
Ficha N°: 1966127
POR:
Carlos Andres Bornachera Gomez
Jhonatan Luna Jaraba
Wendy Paola Tellez González
Yuranis Paola Arias Cano
Instructora:
Alexandra Marcela Villamil López
PROGRAMA: ESPECIALIZACION GESTIÓN Y SEGURIDAD DE BASES DE

DATOS
SENA
CENTRO AGROPECUARIO LA GRANJA
REGIONAL TOLIMA
IBAGUE-TOLIMA
2019
INTRODUCCIÓN
Cuando se encuentra ante el escenario de distintas maneras de disposición de la

información, se puede llegar a encontrar que esa información es ineficiente o no
sirve para nada, por ello, es importante que la información se encuentre disponible
para distintas plataformas y en todas signifique exactamente lo mismo.
Las bases de datos en las organizaciones en la actualidad requieren que la

tecnología que se implemente este acorde a las necesidades del negocio. Por eso
es necesario tener plataformas, programas y aplicaciones que se articulen entre sí
para poder gestionar de forma adecuada la información que es un activo
importante, lo que permite tener mayor seguridad en la conservación de los datos
y poder gestionar la base de datos adecuadamente en la organización con el
objetivo obtener eficacia y eficiencia permitiendo una mayor rapidez en sus
procesos con mayor agilidad en un mundo competitivo.
Lo que también se busca con estas nuevas tecnologías en poder aplicarlas en los
planes y estrategias para poder conservar los datos en caso de catástrofes ya
seas por fenómenos naturales o desatares humanos, este proceso es la migración
de datos que en la actualidad en muy común en las organizaciones y cada vez
más utilizado aplicando diferentes métodos y procesos para tomar estos datos
alojados en una espacio centralizado de almacenamiento y trasladarlo a otro con
mayor eficacia y seguridad para la conservación de la información. Lo que se
describe en este documento a continuación son las diferentes técnicas de
migración y herramientas ETCL.
OBJETIVOS
Objetivo general
Caracterizar las técnicas de migración y herramientas ETCL (extracción,

transformación, limpieza y carga de datos) y reconocer algunas aplicaciones para
la migración de datos, disponibles en el mercado.
objetivos específicos
Identificar los requerimientos para la utilización de cada técnica de

migración
Mostrar las ventajas de la utilización de las técnicas o herramientas
Mostrar las desventajas de la utilización de las técnicas o herramientas.
Identificar los tiempos y facilidad de uso de cada técnica
Describir al menos 2 herramientas ETCL
Describir las herramientas de propietario y de software propietario
MIGRACIÓN DE DATOS:
Llamamos migración de datos al proceso que necesitamos hacer para transferir

los datos de un sistema a otro mientras cambiamos el sistema de almacenamiento
donde se encuentran los datos, o bien mientras se practican las modificaciones
necesarias en la base de datos o la aplicación que los gestiona.
Dependiendo del tipo de iniciativa que se quiera llevar a cabo, es necesario un

planteamiento distinto. Así, podría hablarse de tres formas diferentes de abordar el
data migration:
1. Usando un software basado en matriz, que es la mejor opción para el

movimiento de datos entre sistemas similares.
2. Apoyándose en un software basado en el host: que sería la opción más

recomendable para las migraciones específicas de la aplicación. Es el caso de la
copia de archivos, las actualizaciones de la plataforma o la replicación de la base
de datos.
3. Empleando los dispositivos de red. De esta manera, se migran volúmenes,

archivos o bloques de datos del modo más apropiado, en función de su
configuración.
Hay algunos factores que se deben considerar en un proyecto de migración de

datos:
 Tiempo que llevará realizar la migración completa.

 Cantidad de tiempo de inactividad que se requerirá.
 Riesgo para el negocio derivado de problemas técnicos de compatibilidad,
corrupción de datos, problemas de rendimiento de aplicaciones y pérdida u
omisión de datos.
Para minimizar el riesgo inherente al movimiento de datos, es preciso:
1. Entender qué datos se está migrando, de qué tipo son, cuál es su srcen y qué
formato adquirirán en destino, una vez completado el traslado.
2. Aplicar los procesos ETL (extracción, transformación y carga) preferiblemente

antes de proceder a la migración.
3. Definir e implementar políticas de migración de datos para garantizar el orden
necesario a lo largo de todo el proceso.
4. Apostar por las pruebas y validación de los datos migrados, por ser la única
manera efectiva de asegurarse de que reúnen todos los a tributos de calidad
necesarios.
Qué es ETCL y cuál es su función
Las siglas en ingles Extract, Transform, Cleaning and Load) agrupa un conjunto de
concepciones, técnicas y subprocesos que se encargan de llevar a cabo las tareas
relacionadas con la obtención, depuración, manipulación y actualización del
almacén de datos en función de los requerimientos informacionales para
ulteriormente derivarla información necesaria.
El proceso ETCL implementado está compuesto por tres paquetes principales que
tienen a cargo el procesamiento de las dimensiones, los hechos comerciales y los
hechos contables. Estos paquetes son ejecutados de forma periódica desde el
paquete central, de modo que se actualice el repositorio de datos a partir del
estado resultante de la ejecución anterior.
Concepto de ETL
ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform
and Load).
Es el proceso que permite a las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart,
o data warehouse para analizar, o en otro sistema operacional para apoyar un
proceso de negocio.
Los procesos ETL también se pueden utilizar para la integración con sistemas
heredados (aplicaciones antiguas existentes en las organizaciones que se han de
integrar con los nuevos aplicativos, por ejemplo, ERP´s. La tecnología utilizada en
dichas aplicaciones puede hacer difícil la integración con los nuevos programas).
Funciones del ETL

- Control de la extracción de los datos y su automatización, disminuyendo el
tiempo empleado en el descubrimiento de procesos no documentados,
minimizando el margen de error y permitiendo mayor flexibilidad.
- Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware,

software, datos y
recursos humanos existentes.
- Proporcionar la gestión integrada del Data Warehouse y los Data Marts existente,
integrando la extracción, transformación y carga para la construcción del Data
Warehouse corporativo y de los Data Marts.
- Uso de la arquitectura de metadatos, facilitando la definición de los objetos de

negocio y las reglas de consolidación.
- Acceso a una gran variedad de fuentes de datos diferentes.

- Manejo de excepciones.
- Planificación, logs, interfaces a schedulers de terceros, que nos permitirán llevan
una gestión
de la planificación de todos los procesos necesarios para la carga del DW.
- Interfaz independiente de hardware.
- Soporte en la explotación del Data Warehouse.
COMPARACIÓN DE LAS DIFERENTES TÉCNICAS DE MIGRACIÓN DE

DATOS
Existen técnicas utilizadas en procesos de migración, los cuales consisten en

hacer que dos bases de datos sean equivalentes en el mismo tiempo. Algunas de
estas técnicas son:
REQUERIMIENTOS
TECNICA TECNICOS PARA VENTAJAS DESVENTAJAS FACILIDAD DE LIMPIEZA
SU UTILIZACIÓN
Sincronización Para cada tabla que se -Al estar en diferentes Una columna de La limpieza de datos puede
de bases de debe sincronizar debe servidores se asegura que identidad que detectar y solucionar los
datos contener una los datos estén disponibles si no es una problemas no resueltos
columna de clave se presentara algún fallo columna con
principal copia de datos natural o humano. una clave durante la integración.
y metadatos principal, no se
destino mediante una -Al estar en multiplex
herramienta servidores los datos hace puede usar en
tecnológica, en que al ser Consultados se las tablas que
la cual se configuran Congestionen deben
los -Nos permite olvidarnos de sincronizarse.
sistemas de gestión de los ficheros que forman la
bases de datos con base de datos. El tipo de datos
bases de datos datetime no se
srcen y destino puede utilizar
parametrizando la para una clave
ubicaciónde particiones principal.
y método de seguridad
Las tablas
máximas en un
grupo de
sincronización
son de 500.
Las columnas
máximas que
una tabla puede
tener en un
grupo de
sincronización
son de 1000.
El intervalo
mínimo de
sincronización
es de por lo
menos 5
minutos.
-La
sincronización
de datos SQL
no admite la
autenticación de
Directory Azure
Active
-Utiliza mucho
la memoria
RAM para las
instalaciones y
utilización
de software.
Importación/Exp Tener en cuando las El formato CSV considera No siempre los La limpieza de datos puede
(CSV) o XML tablas de uno de los formatos de formatos de detectar y solucionar los
exportación de exportación más sencillos exportación de problemas no resueltos durante la
Archivos la base de que se hayan diseñado información integración
datos de destino está nunca. CSV permite bibliográfica
configurada para representar todos los datos responden a
formatos UTF-8 en forma de tabla, de forma estos esquemas
Unicode. Es que se adapta por completo que la lógica
necesario que los a toda la casuística de impone. Es el
datostengan tipologías de bases de datos caso del
características de y especificaciones de cada formato
codificación para que campo, con independencia ISO2709
puedan ser desu naturaleza, ya sea (ormato
identificadas numérico, fecha, texto, etc. UNIMARC) ya
correctamente y evitar El formato CSV no requiere que emplea
una transformación de un set de caracteres delimitadores
inadecuada iniciales
de los caracteres concretos, por lo que tiene diferentes a los
especiales. una gran interoperabilidad en delimitadores
La migración de diferentes aplicaciones. finales. Por
datos,depende tanto en dicho
completamente de la El formato XML es uno de caso si bien se
manera en que los mejores para la cumple lo
representar la exportación de la propuesto en el
información. La información de un catálogo presente
delimitación bibliográfico. Destaca esquema,
de los datos y los fundamentalmente por ser también es
campos de completamente adaptable a verdad, que
información son cualquier esquema de datos está pensado
conceptos cruciales, de por complejo que pueda para que la
cara a facilitar la resultar. De esta forma se delimitación sea
importación/exportación puede definir por completo analizada de
de un catálogo las características de cada forma recursiva
bibliográfico de un uno de los campos de en función a las
sistema de gestión de descripción de un catálogo etiquetas que el
bibliotecas a otro, automatizado según las PARSER tenga
incluso para sistemas normas o reglas de definidas como
de gestión de archivos catalogación establecidas. variables
que utilicen otros XML, al establecer etiquetas permitidas.
modelos de descripción de inicio y cierre de los
no basados contenidos, permite definir
inicialmente en el de forma muy sencilla el
bibliográfico. nombre de los campos, sus
Los delimitadores como atributos y valores.
su propio nombre El formato CSV no requiere
indica, son marcas que de un set de
permiten identificar los caracteres concretos, por lo
segmentos de datos o que tieneuna gran
contenidos de un interoperabilidad en
determinado registro diferentes aplicaciones
Sentencia de Los procesos se El DML se clasifica Lentitud para La limpieza de datos puede
Lenguaje de orientan al uso de las Lenguajes de consulta las escrituras. detectar y solucionar los
procedimentales: En este tipo
manipulación sentencias DML , de lenguaje el usuario da
Los índices problemas no resueltos
de datos DML para realizar el paso instrucciones al sistema para que afectan el durante la integración
de datosde la base de realice una serie de rendimiento de
datos de origen a la procedimientos u operaciones en algunos
base de datos destino, la base de datos para calcular un comandos.
resultado final.
a través de los
entornos Lenguajes de consultano
administrativos de los procedimentales: El usuario
SMBD describe la información deseada
sin un procedimiento específico
para obtener esa información.
Para un script en SQL se pueden

realizar los siguientes
procedimientos.
Copias
reacióndedeseguridadtodoslospara
la usuarios, grupos e inicio de
sesión y permisos.
Creación y actualización de
código para la
implementación de una base

de datos.
Creación de un entorno de
pruebas
Migración de datos de una

aplicación a otra Replicación de
datos para copias de seguridad o
análisis de redundancia
Herramientas Se debe determinar Procesos operativos, como El costo es muy La limpieza se realiza, si es
entre la migración de datos desde alto en su posible, en cada fuente de datos
ETCL todas las fuentes de un CRM a un ODS (almacén implementación. de srcen. Si no en la tarea de
datos posibles cual es de datos operativos) para transformación. La limpieza se
la más adecuada para potenciar o enriquecer los No es muy efectúa en los datos Incompletos,
cada uno de los datos datos y luego devolverlos al conocido, por atributos sin valor, falta de
requeridos La CRM .Depositar los datos en este motivo son atributos interesantes para el
obtención de los datos un almacén de datos para muy pocos los contextoo el valor del atributo.
tiene dos fases. La ingerir, clasificar y usuarios que lo
obtención de los datos transformarlos en business manejan. Es En las herramientas ETL se
para la imagen inicial y intelligence Migración de muy compleja. cuenta con diferentes etapas
la obtención de los aplicaciones de para la limpieza
datos para la infraestructuras locales a Depurar los valores: Este
actualización. Su cloud, cloud híbrida o proceso localiza e identifica
clasificación de los multicloud
datos es: Datos de Sincronización de sistemas los elementos individuales de
estructura, datos clave
semiestructurados y información en las fuentes de
datos no datos y los aísla en los
esctructurados ficheros destino.
Corregir: Este proceso
corrige los valores
individuales de los atributos
usando algoritmos de
corrección y fuentes de datos

externas.
Estandarizar: Este proceso
aplica rutinas de conversión
para transformar valores en
formatos definidos y
consistentes aplicando
procedimientos de
estandarización y definidos
por las reglas del negocio.
Relacionar: Este proceso
busca y relaciona los valores
de los registros,
estandarizándolos,corrigiéndolosy
basándose
en reglas de negocio para
eliminar duplicados.
PROCESO DE MIGRACION
Fig. 1.
QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL SOFTWARE DE
ETL
Es necesario que al adquirir una herramienta para la migración de datos ETL la

organización deben realizar un diagnóstico con las características necesarias
aunque esto sea para un proyecto micro o macro, entre las cuales se debe tener en
cuenta las siguientes.
- Debería poder leer y escribir a partir del abanico completo de fuentes de

datos que necesite estén ubicadas en cloud o localmente.
- Debería poder realizar procesos de transformación de datos, como ordenar, filtrar

y agregar. - Debería contener capacidades de calidad y gobernanza de datos
integrados, como eliminación de duplicados, correspondencias y perfiles de datos.
- Debería incluir herramientas de colaboración. Con ello resultará más fácil reutilizar
elementos de desarrollo anteriores y los flujos de integración de datos resultantes
pueden ser más eficientes. Una única tarea puede alimentar varios destinos en
lugar de tener una serie de flujos de integración de datos haciendo prácticamente lo
mismo sin parar.
-Con el cambio a los sistemas cloud, la capacidad de adaptarse a procesos CI/CD

es una necesidad.
-Su herramienta de ETL debería poder operar en cualquier entorno, en

infraestructuras locales, cloud o híbridas.
-Una herramienta de ETL debería poder adaptarse a nuevos proveedores sin

problemas.
Es importante disponer de una herramienta de ETL que funcione en un entorno

multicloud y sepa adaptarse a nuevos proveedores y entornos de despliegue
modificando simplemente algunos componentes, pero conservando la lógica del
negocio y de la transformación.
-Una herramienta de ETL debería funcionar correctamente con las últimas

innovaciones y adaptarse fácilmente a nuevas tecnologías. Las buenas
herramientas de ETL podrán integrarse con tecnologías serverless, Spark,
Snowflake, machine learning, etc., y adaptarse rápidamente a nuevas tecnologías
que aún no conocemos.
- La escalabilidad es muy importante al elegir herramientas. Es tentador fijarse

en un proveedor de herramientas capaz sencillamente de manejar procesos
simples: son baratos y fáciles de usar. Sin embargo, no son aptas para
redimensionarse; están destinadas a la escala que la máquina soporte, así que
tendrá que plantearse cuánta RAM o cuántas CPU puede que se vea obligado a
utilizar. Esto significa que, a medida que su empresa crezca, estará fijando un límite
artificial para el crecimiento de su operativa de analíticas, lo que en este entorno
comercial hipercompetitivo puede suponer una desventaja para usted. También
cuesta más colaborar y volver a utilizar elementos de un proyecto otro, lo que
significa que muchas veces los proyectos de ETL tendrán que empezar de cero,
cosa que consume tiempo y recursos.
-La portabilidad es una capacidad importante de las herramientas de ETL, pero que
muchas veces se pasa por alto.
PROCEDIMIENTOS ETCL
Características proceso de migración
Procedimientos ETCL (extracción, transformación, limpieza y carga)
Este proceso tiene que ver con el diseño basado en los resultados del análisis de la
migración y el uso de mapeo detallado, de igual manera realizaremos una
verificación de los requerimientos del cliente para establecer los alcances
respectivos y configurar estas técnicas.
Extracción: Lectura de los datos sistema operacional
Durante la carga inicial
Mantenimiento
Proceso de extracción
El proceso ETL consiste en extraer los datos desde el sistema de srcen. Esta fase
consta de tres pasos:
- Análisis previo de las necesidades: normalmente, hay una primera etapa de

análisis donde Identificación de archivos: se evalúan las necesidades concretas de
la organización en cuanto a movimiento y transformación de datos. Por lo general,
no se comienza extrayendo toda la información, sino que se empieza con el
tratamiento de unos datos concretos según una necesidad puntual y luego se
realizan ampliaciones a medida que se van necesitando.
- antes de extraer los datos, se identifica de qué tipo son y en qué formato se
encuentran los sistemas fuente. Por ejemplo, si se trata de bases de datos
relacionales o no relacionales, archivos planos, archivos complejos, archivos VSAM,
WebServices, MainFrame, archivos en Excel, etc. Lo habitual es que los datos de
los sistemas de srcen provengan de formatos distintos, que tendrán que ser
fusionados.
- Extracción de los datos: en función de las necesidades detectadas, se procede a

la extracción en sí de dichos datos.
PROCESO DE TRANSFORMACIÓN
La fase de transformación de ETL es donde se produce la operación más crítica. El

resultado más destacado de la transformación pasa por aplicar las normas
necesarias del negocio a los datos para cumplir con los requisitos de notificación. La
transformación modifica los datos en bruto para que presenten los formatos de
notificación correctos. Si los datos no se limpian, resulta más complicado aplicar las
normas comerciales de notificación.
La transformación se efectúa mediante una serie de normas y reglamentos que se

esbozan. Estos son algunos de los estándares que garantizan la calidad de datos y
su accesibilidad durante esta fase:
- Normalización: definir qué datos entrarán en juego, cómo se formatearán y

almacenarán, y otras consideraciones básicas que definirán las etapas sucesivas.
- Eliminación de duplicados: notificar los duplicados a los administradores de datos;

excluyendo y/o eliminando los datos redundantes.
- Verificación: ejecutar comprobaciones automatizadas para cotejar información

similar, como tiempos de transacción o registros de acceso. Las tareas de
verificación permiten seguir cribando los datos no utilizables y pueden alertar sobre
anomalías en sus sistemas, aplicaciones o datos. - Clasificación: maximizar la
eficiencia de los almacenes de datos agrupando y clasificando elementos como los
datos en bruto, audios, archivos multimedia y otros objetos en categorías. Las
normas de transformación determinarán cómo se clasifica cada dato y dónde se
trasladará a continuación. A menudo el proceso de ETL se emplea para crear tablas
de agregación a efectos de informes resumidos. Para ello debemos clasificar y,
posteriormente, agregar.
- Las demás tareas las define usted y las configura para que se ejecuten
automáticamente.
PROCESO DE CARGA
Son cargados en el sistema de destino. Dependiendo de los requerimientos de la

organización, este proceso puede abarcar una amplia variedad de acciones
diferentes. Por ejemplo, en algunas
bases de datos será necesario sobreescribir la información antigua con nuevos
datos mientras que en otras, bastaría con resumir las transacciones y almacenar un
promedio de la magnitud considerada.
Los data warehouse mantienen un historial de los registros, de manera que es

posible en todo momento hacer una auditoría de los mismos. Esto permite disponer
de un rastro de toda la historia de un valor a lo largo del tiempo.
Existen dos formas básicas de desarrollar el proceso de carga:
- Acumulación simple: esta manera de cargar los datos consiste en realizar un

resumen de todas las transacciones comprendidas en el período de tiempo
seleccionado y transportar el resultado como una única transacción hacia el data
warehouse, almacenando un valor calculado que consistirá típicamente en un
sumatorio o un promedio de la magnitud considerada. Es la forma más sencilla y
común de llevar a cabo el proceso de carga.
- Rolling: este proceso sería el más recomendable en los casos en que se busque
mantener varios niveles de granularidad. Para ello se almacena información
resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad
de tiempo o diferentes niveles jerárquicos
en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo,

totales diarios, totales semanales, totales mensuales, etc.).
Herramientas ETL
En el mercado se encuentran diferentes herramientas ETL y cada una de ellas
con características específicas, y de igual manera esta se dividen por categorías
como son:
 Herramientas ETL Enterprise: se trata de productos propietarios, con

muchas funcionalidades incluidas y soporte para conexión con una gran
cantidad de fuentes y suelen ser elegidas por grandes empresas ya que
el coste de adquisición es elevado.
 Herramientas ETL open source: Se trata de herramientas de código libre
y de uso gratuito, lo que permite una mayor accesibilidad para empresas
de tamaño reducido. Al ser productos con un enfoque general, es
necesaria a menudo una personalización para que se adapten a objetivos
concretos, lo que requiere consultoría especializada.
 Herramientas ETL personalizadas: se trata de herramientas desarrolladas

a medida y de forma específica para una empresa o proyecto en concreto.
Requieren un grande esfuerzo inicial de desarrollo, pero el resultado se
ajusta mejor a los requerimientos.
 Herramientas ETL cloud: la nube nos puede proporcionar todas sus
ventajas como una alta flexibilidad y el pago por uso a la hora de elegir
herramientas ETL que se ofrecen como servicio.
Dentro del mercado se encuentran varias herramientas entre las cuales están las
siguientes:
 Ab Initio
 Benetl
 BITool – ETL Software
 CloverETL
 Cognos Decisionstream (IBM)
 IBM Cognos Data Manager
 Data Integrator (herramienta de Sap Business Objects)
 ETI*Extract (ahora llamada Eti Solution)
 IBM Websphere DataStage (antes Ascential DataStage)
 Microsoft Integration Services
 Oracle Warehouse Builder
 WebFocus-iWay DataMigrator Server

 Pervasive
 Informática PowerCenter
 Oracle Data Integrator (ODI)?
 Oxio Data Intelligence ETL full web
 SmartDB Workbench
 Sunopsis (Oracle)
 SAS Dataflux
 Sybase
 Syncsort: DMExpress.
Se hace el análisis de algunas herramientas más utilizadas en el proceso de

migración de datos y que son líderes en el mercado.
BENETL: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 –
2014, hecha en java y trabaja con base a lenguajes de base de datos PostgreSQL o
MySQL. Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o
archivos de fuente de datos XML. Para recuperar los datos que tendrán que definir
un dato de tiempo y una entidad, que estárepresentado por datos a calcular o para
mostrar. Todos los objetos útiles serán creados por Benetl dentro de una base de
datos MySQL o PostgreSQL.
La aplicación también es capaz de recuperar automáticamente los datos mediante

el uso de diversas tareas planificadas de su sistema. Mediante el uso de Benetl
podrá se ha podido recuperar fácilmente la información de los archivos de datos
planos, la organización y el filtrado de acuerdo con su dato de tiempo y entidad.
CARACTERSITICAS DE BENETL.FIG.5
 Tecnologías:
 Java 7 update 80
 PostgreSQL 9.5.0 (con el apoyo plpgsql)
 MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de

 usuario (para controlador suministrado) Con Windows (se utiliza "tareas
programadas")
 Benetl 4.7 funciona en Linux.
 Requerimientos Técnicos:
 ejecución de Java (JRE) 1.7
 base de datos PostgreSQL 9.5 con soporte plpgsql
 base de datos de MySQL 5.6 con OLD_PASSWORD la función de inicio

de sesión de usuario o el controlador oficial de MySQL (no incluido)
 Probado en sistemas de 64 bits
Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el
nombre de la tabla de PostgreSQL o tabla de MySQL donde se almacenan

las lineas de datos. un archivo llamado KEtl5ool.batK se creará en la carpeta
de srcen de datos. Se debe presionar enter para validar su nombre Etl5ool, y
luego se pueden guardarlos parámetros.
FIG. 6 Aplicación al smbd seleccionado.

Informática PowerCenter
PowerCenter sigue las metodologías de desarrollo basadas en componentes al

permitir construir un flujo de datos desde una fuente al destino, utilizando diferentes
componentes (llamados transformaciones) y vinculándolos entre sí según sea
necesario.
La herramienta Informática PowerCenter consta de 2 componentes que son:

- Componente del cliente
- Componente del servidor
Descripción
Descripción general de la arquitectura de informática
El componente de cliente de Informática se compone de 5 componentes como son:
- Informatica Repository Manager: administra repositorios (como son las ventanas

de Navegador, principal y salida).
- Informatica PowerCenter Designer: cliente donde especifica cómo mover los

datos entre varias fuentes y destinos.
- Informatica Workflow Manager: es un conjunto ordenado de una o más sesiones

y otras tareas, diseñado para lograr un propósito operativo general.
- Informatica Workflow Monitor: se usa para monitorear la ejecución de flujos de

trabajo y tareas.
- Informatica Administrator Console: es la herramienta de administración para

administrar el dominio de Informática y la seguridad de Informática, realizando las
siguientes tareas de domino: Gestión de servicios de aplicaciones, Configuración de
nodos, Gestión de objetos de dominio, Visualización y edición de propiedades de
objetos de dominio, Tareas administrativas de seguridad, Visualización de eventos
de registro.
Componentes del servidor de Informática PowerCenter
Los componentes del servidor PowerCenter se componen de los siguientes

servicios:
- Servicio de repositorio: el servicio de repositorio gestiona el repositorio.

Recupera, inserta y actualiza metadatos en las tablas de la base de datos del
repositorio.
- Servicio de integración: el servicio de integración ejecuta sesiones y flujos de

trabajo.
- Servicio SAP BW: el servicio SAP BW busca solicitudes RFC de SAP BW e inicia
flujos de trabajo para extraer datos o cargar datos en el SAP BW.
- Centro de servicios web: el centro de servicios web recibe solicitudes de clientes

de servicios web y expone los flujos de trabajo de PowerCenter como servicios.
Oracle Data Integrator (ODI)
Es una plataforma de integración completa que cubre los requisitos de integración

de datos. Maneja alto volumen, provee lotes de alto desempeño a procesos
dirigidos a eventos, a servicios de integración basados en una arquitectura
orientada a servicios y con la capacidad de procesar eventos en tiempo real.
Oracle Data Integrator maneja múltiples necesidades empresariales referentes a la

integración de datos:
-Data Warehousing e inteligencia de negocios: tiene la capacidad de manejar

grandes
volúmenes de datos con un desempeño óptimo para cargar Data Warehouse y Data
Mart. Maneja cargas incrementales, integridad de datos, reglas de negocio y
consistencia
-Arquitectura orientada a servicios: provee la funcionalidad de invocar servicios

externos para propósitos de integración e implementar servicios de integración y
transformación integrados a una arquitectura orientada a servicios.
-Master Data Management: es una combinación de aplicaciones y tecnologías que

consolidan, limpian, mejora los datos maestros de la empresa y los sincroniza con
aplicaciones, procesos de negocio y herramientas analíticas como Oracle BIEE+.
• Migración – Provee cargas masivas eficientemente de datos históricos,

incluyendo transformaciones complejas de sistemas legacy a sistemas nuevos.
Capacidades funcionales
Funcionales Oracle Data integrator ofrece las siguientes capacidades

funcionales:
-Data movement – Extraer datos y transferirlos de forma masiva
-Data syncronization - Capacidad de replicar y extraer los datos que sufrieron algún
cambio
-Data quality – Limpieza de datos y a tono con las reglas de negocio
-Data management – Manejo de metadata y modelamiento de datos
-Data services - Plataforma para una implementación SOA para cubrir el gap entre
los procesos de negocio y la infraestructura de aplicaciones.
ORACLE WAREHOUSE BUILDER
Es una completa herramienta para todos los aspectos de administración de datos y

metadatos.
Esta brinda características para asegurar la calidad de datos, que integran el

modelado relacional y multidimensional y que permiten la administración de todo el
ciclo de vida de datos y metadatos.
Enterprise ETL Option
La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una
opción que puede ser adquirida con Oracle Warehouse Builder como parte de la
edición empresarial del motor de base de datos (Oracle DB Enterprise Edition).
Opciones Avanzadas para Carga de Datos
En grandes implementaciones, más y más procesos se ejecutan en paralelo,

agotando los recursos debido a las grandes cantidades de datos que participan en
la carga. Como parte de la Enterprise ETL Option, Warehouse Builder permite
ejecutar cargas de datos usando métodos rápidos y eficientes tales como el Oracle
Data Pump y transportable tablespaces. Esta es una aproximación completamente
diferente al movimiento de datos que se realiza por medio de conjuntos de datos
controlados por el motor de base de datos. Los incrementos en velocidad de
carga se deben entonces a la omisión de las capas SQL tradicionales.
Soporte a Dimensiones Lentamente Cambiantes Integrado

En Warehouse Builder la lógica de dimensiones lentamente cambiantes es
diseñada en los metadatos de la dimensión. La dimensión captura toda la lógica que
será aplicada a los datos que se insertan dentro de la misma .
Una vez, los usuarios de negocio han decidido que atributos son importantes, el
modelador de datos diseña la dimensión. Con los pasos de ETL el desarrollador ve
esta dimensión como cualquier otra. El siguiente paso es definir cómo efectuar los
cambios y actualizaciones en la dimensión. Warehouse Builder automatiza esto
basado en la definición de la dimensión. La combinación entre estos pasos, el
diseño y la estandarización hacen que los procesos relacionados con dimensiones
lentamente cambiantes presente un alto desempeño en su ejecución.
Traza Lineal de Principio a Fin
Los servicios de administración de dependencias (Warehouse Builder Dependency

Management ) le permiten prever el efecto que puedan tener los cambios que se
hagan en cualquier lugar de los metadatos del sistema ETL antes de que estos
puedan afectarlo y deterióralo.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de

manera proactiva. Como un ejemplo, usted puede propagar los cambios a través de
su sistema haciendo uso el Mapping Editor.
SQL Server Servicios de integración
Microsoft Integration Services es una plataforma para crear soluciones de

integración y transformación de datos a nivel empresarial. Use Integration Services
para resolver problemas comerciales complejos copiando o descargando archivos,
cargando almacenes de datos, limpiando y minando datos, y administrando objetos
y datos de SQL Server.
Integration Services puede extraer y transformar datos de una amplia variedad de

fuentes, como archivos de datos XML, archivos planos y fuentes de datos
relacionales, y luego cargar los datos en uno o más destinos.
Integration Services incluye un amplio conjunto de tareas y transformaciones

integradas, herramientas gráficas para crear paquetes y la base de datos del
Catálogo de Integration Services, donde almacena, ejecuta y administra paquetes.
Puede usar las herramientas gráficas de Integration Services para crear soluciones
sin escribir una sola línea de código. También puede programar el extenso modelo
de objetos de Integration Services para crear paquetes mediante programación y
codificar tareas personalizadas y otros objetos de paquete.
VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS
Aplicación de uso libre

Software propietario
Precio: *$17.500´00 USD

*17.500´00 USD Por núcleo del procesador ó 3.500´00 USD por cada 10 usuarios.
BIBLIOGRAFIA
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/353132/ETL-tcnicas-
demigraci-n-y-tipos-de-software https://platzi.com/blog/que-espostgresql/
http://www.oracle.com/technology/products/warehouse/11gr1/datasheets/wareh
ousebuilder-11g-etldatasheet.pdf
Carisio, E. (s.f.b). Herramientas ETL: comparativa y principales categorías .

Recuperado el 21 de agosto de 2019, de https://blog.mdcloud.es/herramientas-etl-
comparativa-y-principalescategorias/
DataPrix. (2010). Herramientas ETL. ¿Que son, para que valen? Productos más
conocidos. ETL´s Open Source. Recuperado el 25 de agosto de 2019, de
https://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-que-
valenproductos- mas-conocidos-etl-s-open-sour
Microsoft Docs. (2018). SQL Server Integration Services. Recuperado el 25 de agosto

de 2019, de https://docs.microsoft.com/en-us/sql/integration-services/sql-server-
integrationservices? view=sql-server-2017

Herramientas de Validación

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Herramientas de Validación

Încărcat de

Drepturi de autor:

Formate disponibile

AA5-Ev1-VALIDACIÓN DE TÉCNICAS DE MIGRACIÓN Y HERRAMIENTAS

Ficha N°: 1966127

Carlos Andres Bornachera Gomez

Jhonatan Luna Jaraba

Wendy Paola Tellez González

Yuranis Paola Arias Cano

Alexandra Marcela Villamil López

PROGRAMA: ESPECIALIZACION GESTIÓN Y SEGURIDAD DE BASES DE

CENTRO AGROPECUARIO LA GRANJA

Cuando se encuentra ante el escenario de distintas maneras de disposición de la

Las bases de datos en las organizaciones en la actualidad requieren que la

Caracterizar las técnicas de migración y herramientas ETCL (extracción,

Identificar los requerimientos para la utilización de cada técnica de

Llamamos migración de datos al proceso que necesitamos hacer para transferir

Dependiendo del tipo de iniciativa que se quiera llevar a cabo, es necesario un

1. Usando un software basado en matriz, que es la mejor opción para el

2. Apoyándose en un software basado en el host: que sería la opción más

3. Empleando los dispositivos de red. De esta manera, se migran volúmenes,

Hay algunos factores que se deben considerar en un proyecto de migración de

 Tiempo que llevará realizar la migración completa.

Para minimizar el riesgo inherente al movimiento de datos, es preciso:

2. Aplicar los procesos ETL (extracción, transformación y carga) preferiblemente

Qué es ETCL y cuál es su función

Funciones del ETL

- Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware,

- Uso de la arquitectura de metadatos, facilitando la definición de los objetos de

- Acceso a una gran variedad de fuentes de datos diferentes.

COMPARACIÓN DE LAS DIFERENTES TÉCNICAS DE MIGRACIÓN DE

Existen técnicas utilizadas en procesos de migración, los cuales consisten en

Para un script en SQL se pueden

implementación de una base

Migración de datos de una

corrección y fuentes de datos

Es necesario que al adquirir una herramienta para la migración de datos ETL la

- Debería poder leer y escribir a partir del abanico completo de fuentes de

- Debería poder realizar procesos de transformación de datos, como ordenar, filtrar

-Con el cambio a los sistemas cloud, la capacidad de adaptarse a procesos CI/CD

-Su herramienta de ETL debería poder operar en cualquier entorno, en

-Una herramienta de ETL debería poder adaptarse a nuevos proveedores sin

Es importante disponer de una herramienta de ETL que funcione en un entorno

-Una herramienta de ETL debería funcionar correctamente con las últimas

- La escalabilidad es muy importante al elegir herramientas. Es tentador fijarse

Características proceso de migración

Procedimientos ETCL (extracción, transformación, limpieza y carga)

Extracción: Lectura de los datos sistema operacional

Durante la carga inicial

- Análisis previo de las necesidades: normalmente, hay una primera etapa de

- Extracción de los datos: en función de las necesidades detectadas, se procede a

La fase de transformación de ETL es donde se produce la operación más crítica. El

La transformación se efectúa mediante una serie de normas y reglamentos que se

- Normalización: definir qué datos entrarán en juego, cómo se formatearán y

- Eliminación de duplicados: notificar los duplicados a los administradores de datos;

- Verificación: ejecutar comprobaciones automatizadas para cotejar información

Son cargados en el sistema de destino. Dependiendo de los requerimientos de la

Los data warehouse mantienen un historial de los registros, de manera que es

Existen dos formas básicas de desarrollar el proceso de carga:

- Acumulación simple: esta manera de cargar los datos consiste en realizar un

en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo,

 Herramientas ETL Enterprise: se trata de productos propietarios, con

 Herramientas ETL personalizadas: se trata de herramientas desarrolladas

 Herramientas ETL cloud: la nube nos puede proporcionar todas sus

herramientas ETL que se ofrecen como servicio.

 BITool – ETL Software