Documente Academic
Documente Profesional
Documente Cultură
MIGRACIÓN DE DATOS
Llamamos migración de datos al proceso que necesitamos hacer para transferir los datos de un
sistema a otro mientras cambiamos el sistema de almacenamiento donde se encuentran los
datos, o bien mientras se practican las modificaciones necesarias en la base de datos o
la aplicación que los gestiona.
Dependiendo del tipo de iniciativa que se quiera llevar a cabo, es necesario un planteamiento
distinto. Así, podría hablarse de tres formas diferentes de abordar el data migration:
1. Usando un software basado en matriz, que es la mejor opción para el movimiento de datos
entre sistemas similares.
2. Apoyándose en un software basado en el host: que sería la opción más recomendable para
las migraciones específicas de la aplicación. Es el caso de la copia de archivos, las
actualizaciones de la plataforma o la replicación de la base de datos.
3. Empleando los dispositivos de red. De esta manera, se migran volúmenes, archivos o
bloques de datos del modo más apropiado, en función de su configuración.
1. Entender qué datos se está migrando, de qué tipo son, cuál es su origen y qué formato
adquirirán en destino, una vez completado el traslado.
2. Aplicar los procesos ETL (extracción, transformación y carga) preferiblemente antes de
proceder a la migración.
3. Definir e implementar políticas de migración de datos para garantizar el orden necesario a
lo largo de todo el proceso.
4. Apostar por las pruebas y validación de los datos migrados, por ser la única manera efectiva
de asegurarse de que reúnen todos los atributos de calidad necesarios.
Los formatos más utilizados en las migraciones de datos son el Commaseparated-values (que
son los valores separados por comas o los comúnmente .CVS donde para delimitarlos es usada
la coma el otro formato utilizado es el lenguaje de marcado extensible este es usado como
lenguaje o metalenguaje extensible de etiquetas las cuales sirven como estándar para el
intercambio de información o datos estructurados entre distintas plataformas. Su sigla en inglés
es .XML.
El otro formato utilizado es la tabulación, estos archivos con esta tabulación y esta extensión
solo son utilizados en ciertas aplicaciones es posible que sean archivos de datos mas no de
documentos o medios de comunicación lo que no se pueden ver en ciertas circunstancias o
programas, este formato de tipo de texto será utilizado en la tabulación o espacios para separar
las columnas o filas de los datos por esto no se recomienda este tipo de formato debido a que
generan muchos tipos de caracteres en blanco y para poder hacer coincidir las filas y las
columnas con las siguientes correspondiente al campo.
PROCEDIMIENTOS ETCL
Este proceso tiene que ver con el diseño basado en los resultados del análisis de la migración y
el uso de mapeo detallado, de igual manera realizaremos una verificación de los requerimientos
del cliente para establecer los alcances respectivos y configurar estas técnicas.
Entender los datos: Una vez identificado las fuentes se debe tener con claridad los elementos
requeridos para saber si hay errores en los datos u omisiones presentadas. Al determinar los
errores se podrá estimar tiempos requeridos y costos generados para hacer el análisis de datos.
Los aspectos que se deben tener en cuenta los siguientes niveles:
Los cambios de datos operacionales (Relevantes) que por cualquier motivo han sufrido una
modificación de fecha del último mantenimiento. Los métodos que se utilizaran son:
Carga Total
Comparación de instancias
Uso de marcas de tiempo
Uso de disipadores
Uso de ficheros de log
Sistema de operación
Uso de técnicas mixtas.
Transformación: En esta encontramos una serie de reglas de negocio o funciones sobre los datos
extraídos para convertirlos en datos que serán cargados, algunas requerirán alguna pequeña
manipulación de los datos, pero cuando es necesaria aplicaran las siguientes transformaciones.
Como se aprecia anteriormente, se realizarán los pasos de limpieza y transformación de los
datos de acuerdo lo presentado en los bases de datos origen.
Limpieza de datos: esta es la parte más importante en la migración de datos, es poder hacer
limpieza de datos para que en la base destino no llegue información basura o no necesaria. El
proceso contempla realizar varias actividades complejas con el objeto de identificar datos
desactualizados, información en blanco o faltantes registros con duplicados o cualquier tipo de
información que se deba eliminar o limpiar, de tal modo que se lleven los datos al nuevo sistema.
Transformación de los datos: aquí es donde miramos que se necesita y el proceso adecuado a
ejecutar. Las transformaciones de datos se deberán colocar en doble vía o realizar con las copias
de las bases de origen, de tal modo que la transformación no es consistente se pueda deshacer,
transformar y corregir de tal modo que se pueda garantizar la buena migración para un buen
resultado se debe garantizar la calidad de la transformación de los datos.
Cargue de datos: en este proceso se deberá hacer las actividades de mover, probar, auditar, y
validar los datos según los requerimientos estipulados.
Mover datos: aquí requeriremos herramientas técnicas de modo que la información de la base
de datos final sea consistente con la original. En este proceso tenemos programas o
herramientas de migración, códigos para la copia de datos, procesos almacenados para una
buena migración de base de datos.
HERRAMIENTAS ETCL
Benetl: Es una herramienta ETL de uso libre, desarrollada entre los años 2007 – 2014, hecha en
java y trabaja con base a lenguajes de base de datos PostgreSQL o MySQL.
Esta herramienta se creó para facilitar el trabajo con archivos TXT, CSV o archivos de fuente de
datos XML. Para recuperar los datos que tendrán que definir un dato de tiempo y una entidad,
que está representado por datos a calcular o para mostrar. Todos los objetos útiles serán
creados por Benetl dentro de una base de datos MySQL o PostgreSQL. La aplicación también es
capaz de recuperar automáticamente los datos mediante el uso de diversas tareas planificadas
de su sistema.
Caracteristicas Benetl
Tecnologías:
Java 7 update 80
PostgreSQL 9.5.0 (con el apoyo plpgsql)
MySQL 5.6 con función de OLD_PASSWORD de inicio de sesión de usuario (para
controlador suministrado)
Con Windows (se utiliza "tareas programadas")
Benetl 4.7 funciona en Linux.
Requerimientos Técnicos:
Ejemplo: Nombre EtlTool… Definir Nombre, Este nombre es también el nombre de la tabla de
PostgreSQL o tabla de MySQL donde se almacenan las líneas de datos.
El SSIS Import/Export Wizard permite mover datos de origen a destino sin modificar los datos
del origen y permitiendo hacer iteraciones y cambios de información antes de llegar al destino
dentro de tablas de ETL. Se pueden importar datos de fuentes diferentes a SQL Server.
Los paquetes, que son las unidades de almacenamiento de estas tareas de migración se pueden
guardar en archivos dtsx o en la base de datos en formato XML.
Una vez implementado el paquete puede ser depurado.
Características SSIS
Requerimientos Técnicos:
Instalar en un equipo de 64 bits
Instalar en un servidor dedicado para ETL
Si requiere las características en tiempo de diseño de Integration Services, también debe
instalar Business Intelligence Development Studio.
Si necesita las versiones de 32 bits de las herramientas y del motor en tiempo de
ejecución de Integration Services para ejecutar ciertos paquetes en modo de 32 bits,
también debe instalar Business Intelligence Development Studio.
Es una completa herramienta para todos los aspectos de administración de datos y metadatos.
Esta brinda características para asegurar la calidad de datos, que integran el modelado relacional
y multidimensional y que permiten la administración de todo el ciclo de vida de datos y
metadatos.
Enterprise ETL Option
La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una opción que
puede ser adquirida con Oracle Warehouse Builder como parte de la edición empresarial del
motor de base de datos (Oracle DB Enterprise Edition).
Opciones Avanzadas para Carga de Datos
Una vez, los usuarios de negocio han decidido que atributos son importantes, el modelador de
datos diseña la dimensión. Con los pasos de ETL el desarrollador ve esta dimensión como
cualquier otra. El siguiente paso es definir cómo efectuar los cambios y actualizaciones en la
dimensión. Warehouse Builder automatiza esto basado en la definición de la dimensión. La
combinación entre estos pasos, el diseño y la estandarización hacen que los procesos
relacionados con dimensiones lentamente cambiantes presente un alto desempeño en su
ejecución.
Por primera vez, tendrá la posibilidad de administrar los cambios de su sistema de manera
proactiva. Como un ejemplo, usted puede propagar los cambios a través de su sistema haciendo
uso el Mapping Editor.
Administración de Configuraciones Avanzadas
Tener que mover sistemas o aplicaciones de un ambiente a otro (por ejemplo de desarrollo a
producción) es un problema frecuente.
Con la Enterprise ETL Option de Warehouse Builder, es posible generar un modelo para
configurar los ambientes de desarrollo, pruebas y producción a niveles separados. Para mover
los cambios desde el ambiente de desarrollo a producción, el código generado en desarrollo es
modificado en producción solo en áreas específicas. Por ejemplo, la información sobre las
conexiones es substituida por la definida en desarrollo.