Sunteți pe pagina 1din 7

Antonio J.

Canchila Petro

Gestión y seguridad en bases de datos


1881803
AA5-EV1 Validación de técnicas de migración y herramientas ETCL
para la alcaldía de
San Antonio del SENA
Antonio J. Canchila Petro Introducción

En el proceso de administración de la información almacenada en las bases de datos, existe un


responsabilidad asignada al administrador de la Base, consistente en garantizar un plan de migración
en caso de cambio de versión o en caso de cambio del SMBD, ya sea en ambiente homogéneos o
heterogéneos.
El presente documento explica, fundamentalmente las principales técnicas para migración y el uso de
herramientas ETCL tanto libres como de licencia comercial.

Se parte del punto de vista de tener


los SMBD, adquiridos e instalados.


Antonio J. Canchila Petro I. Cuadro comparativo de técnicas de migración
Técnica Requerimientos técnicos Ventajas Desventajas Tiempo Facilidad de limpieza y Costos
transformación
Sincronización de bases de 1.Equipos con sistemas 1. Fiabilidad. Al estar los Cuando las peticiones El tiempo es una variable En el proceso de $0.00
datos. operativos homogéneos (2) datos distribuidos en atendidas impliquen una que tiene diferentes formas sincronización, no se Debido a que las
La sincronización también 2. SMBD, instalados y diferentes servidores actualización en el de ser evaluada. Si es la produce transformación del herramientas de
conocida como configurados. garantiza la estado de la aplicación, implementación después dato debido a que lo que se sincronización viene
REPLICACION , es un Preferiblemente en equipos disponibilidad. dicha actualización debe que estén dados las busca con eso es la embebidas con el SMBD y
proceso de migración de diferentes con el mismo 2. Mejora del realizarse en todas las condiciones mínimas y se duplicación de la están incluidas en el valor
base de datos consistente sistema operativo rendimiento. No réplicas, y esto debe cumplan los información a fin de inicial de inversión, por lo
en implementar dos 3. Red sobrecargas un solo hacerse de una manera requerimientos, se estima garantizar la disponibilidad tanto no incrementa los
equipos con el mismo 4. Definir un master y un servidor. ordenada para que todas aproximadamente entre del dato. costos
SMBD y a través de Slave 3. Seguridad de los datos. ellas mantengan tres y cinco horas. Si el
utilidades propias del 5. Configurar el proceso de Los datos se copian en un estado consistente. Esto tiempo es la latencia o
Manejador, se envían datos sincronización, entre los diferentes servidores al implica que inactividad del proceso es
de un servidor a otro . equipos. Adicionalmente a tiempo. las operaciones de variable debido agentes
Existen 3 tipos de esto se debe definir si la actualización tendrán un externos como por ejemplo
replicación. sincronización es online o tiempo de servicio mayor velocidad de la red,
a. Instantánea. es por lotes. que en el caso no replicado. ocupación de los servidores
b. Transaccional. ,etc.
c. Mezcla.

Importación /Exportación 1.Equipos configurados con 1. No requiere la 1. Al ser un archivo plano Depende del volumen de Debidos a que son datos en $0.00,
CSV o XML. separadores de lista la inversión de productos pueden ser alterados datos que se vayan a formato plano, los procesos Debido a que es un formato
Es un proceso mediante el coma(,) adicionales, ya que se en su estructura. importar o exportar. de transformación y de soportado por cualquier
cual, se exporta e importan 2. Plan de exportación usan las herramientas 2. Son lentos en los limpieza no están SMBD y no requiere de la
los datos hacia un archivo masiva o parcial, para ello del SMBD. procesos de carga soportados, los realiza el adquisición de nuevas
de texto donde los datos se usan herramientas o 2. Los archivos no tienen repositorio detino herramientas.
están perfectamente comandos del SMBD, que formato por lo tanto
separados ya sea por comas permitan exportar e son fácilmente
o por etiquetas. importar archivos CSV transportables entre
sistemas heterogéneos


Antonio J. Canchila Petro I. Cuadro comparativo de técnicas de migración
Técnica Requerimientos técnicos Ventajas Desventajas Tiempo Facilidad de limpieza y Costos
transformación
Sentencias DML. 1. Disponer de un front 1. Lenguaje universal de 1. Por ser un archivo plano Directamente proporcional Transformación manual, $0.00
Las sentencias DML, End o herramienta de Base de datos puede fácilmente permitir al volumen de los datos según los requerimientos Los SMBD tiene
pertenecientes al lenguaje administración que 2. Archivo plano, la alteración de la Y a la velocidad de carga del del SMBD destino. incorporado las
SQL, son soportadas por permita la generación fácilmente estructura de los datos. SMBD. instrucciones DML y los
todos los SMBD y son de Scripts. transportable a sistema Programas de
aplicadas de forma masiva 2. Editor de texto que heterogéneos. administración Front End,
a través de Scripts (Archivos permita el ajuste de los con el que se manipulan
de teto). script, para adaptarlos permiten la generación de
al SMBD destino los Scripts, en consecuencia
siempre y cuando se el costo adicional no esta
trate de otro SMBD o contemplado.
de otros Sistema
operativo.
Procedimientos ETCL. Requerimientos Generales • Son herramientas que 1. Algunas presentan Los tiempos de aplicación El proceso de Los costos en estos
Es un proceso que se data 1. Definir un plan de tiene predefinidos los mucha rigidez el cada del proceso esta transformación es procesos, suelen ser
fundamentalmente en tres Migración procesos de extracción una de sus etapas determinado por variables parametrizable, haciendo variables y elevados en la
etapas, 1. la extracción que 2. Tener los SMBD • El proceso de haciendo mas como por ejemplo: que la limpieza de igual medida en que use no solo
a su vez se da en dos fase, instalados transformación y traumático y lento el 1. Volumen de datos manera pueda herramientas con licencia
extracción inicial y 3. Seleccionar la limpieza esta optimizado proceso. 2. Planificación corresponder a ala comercial sino el uso de
extracción de datos herramienta ETL mas de acuerdo al SMBD 2. La depuración mal 3. Capacidad de aplicación de las mismas expertos en el uso y
modificados. 2. adecuada, de acuerdo a seleccionado, además planificada puede procesamiento de los reglas de transformación. aplicación de estos
Transformación y limpieza, los SMBD instalados. de permitir su resultar en perdida de equipos productos, las consultorías
la cual se produce una vez Requerimientos específicos parametrización información. 4. Método de carga en la aplicación de las
los datos han sido Los establecidos por la • Los procesos de carga 5. Estado de la herramientas ETL. Son
extraídos. 3. la carga, se herramienta ETL son mas acelerados. información, indicador costosas, sin embargo su
hace en el repositorio seleccionada. importante para el uso garantiza una migración
destino. proceso de segura, debido a la
transformación y aplicación de buenas
limpieza. herramientas y técnicas
apropiadas.


Antonio J. Canchila Petro II. Introducción a las herramientas ETCL
Herramientas ETCL
Extract, Transform clean and Load («extraer, transformar , limpiar y cargar», frecuentemente abreviado ETL) es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y
limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.
Esta compuesto por tres fases:
1. Extraer (Extract)
La primera parte del proceso ETL consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de origen.
Cada sistema separado puede usar una organización diferente de los datos o formatos distintos. Los formatos de las fuentes normalmente se encuentran en bases de datos relacionales o ficheros planos, pero pueden
incluir bases de datos no relacionales u otras estructuras diferentes. La extracción convierte los datos a un formato preparado para iniciar el proceso de transformación.
Una parte intrínseca del proceso de extracción es la de analizar los datos extraídos, de lo que resulta un chequeo que verifica si los datos cumplen la pauta o estructura que se esperaba. De no ser así los datos son
rechazados.
Un requerimiento importante que se debe exigir a la tarea de extracción es que ésta cause un impacto mínimo en el sistema origen. Si los datos a extraer son muchos, el sistema de origen se podría ralentizar e incluso
colapsar, provocando que éste no pueda utilizarse con normalidad para su uso cotidiano. Por esta razón, en sistemas grandes las operaciones de extracción suelen programarse en horarios o días donde este impacto
sea nulo o mínimo.
2. Transformación y Limpieza. (Tranformation and Clean)
La fase de transformación aplica una serie de reglas de negocio o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Algunas fuentes de datos requerirán alguna pequeña manipulación
de los datos. No obstante en otros casos pueden ser necesarias aplicar algunas de las siguientes transformaciones:
Seleccionar sólo ciertas columnas para su carga (por ejemplo, que las columnas con valores nulos no se carguen).
Traducir códigos (por ejemplo, si la fuente almacena una "H" para Hombre y "M" para Mujer pero el destino tiene que guardar "1" para Hombre y "2" para Mujer).
• Codificar valores libres (por ejemplo, convertir "Hombre" en "H" o "Sr" en "1").
• Obtener nuevos valores calculados (por ejemplo, total venta = cantidad * precio, o Beneficio = PVP - Coste).
• Unir datos de múltiples fuentes (por ejemplo, búsquedas, combinaciones, etc.).
• Calcular totales de múltiples filas de datos (por ejemplo, ventas totales de cada región).
• Generación de campos clave en el destino.
• Transponer o pivotar (girando múltiples columnas en filas o viceversa).
• Dividir una columna en varias (por ejemplo, columna "Nombre: García López, Miguel Ángel"; pasar a tres columnas "Nombre: Miguel Ángel", "Apellido1: García" y "Apellido2: López").
• La aplicación de cualquier forma, simple o compleja, de validación de datos, y la consiguiente aplicación de la acción que en cada caso se requiera:
• Datos OK: Entregar datos a la siguiente etapa (Carga).
• Datos erróneos: Ejecutar políticas de tratamiento de excepciones (por ejemplo, rechazar el registro completo, dar al campo erróneo un valor nulo o un valor centinela).
3. Carga (Load).
La fase de carga es el momento en el cual los datos de la fase anterior (transformación) son cargados en el sistema de destino. Dependiendo de los requerimientos de la organización, este proceso puede abarcar una
amplia variedad de acciones diferentes. En algunas bases de datos se sobrescribe la información antigua con nuevos datos. Los data warehouse mantienen un historial de los registros de manera que se pueda hacer
una auditoría de los mismos y disponer de un rastro de toda la historia de un valor a lo largo del tiempo.
Existe una única forma de cargar los datos:
Rolling
El proceso de Rolling por su parte, se aplica en los casos en que se opta por mantener varios niveles de granularidad (jerarquías). Para ello se almacena información resumida a distintos niveles,
correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por ejemplo, totales diarios, totales
semanales, totales mensuales, etc.).

Antonio J. Canchila Petro II. Herramientas ETCL
Característica/Nombre SQL Server Integration Services SQL Talend Open Studio for Data Integration . IBM Cognos DATA MANAGER.
Herramienta del producto SQL SERVER Open Source Licencia comercial
Versión del producto 2019 7.0.1 10.2.1
Herramienta del producto en uso X
Control de la extracción de los datos y su automatización, disminuyendo el
TAREAS DE UNA HERRAMIENTA ETCL

tiempo empleado en el descubrimiento de procesos no documentados, X X X


minimizando el margen de error y permitiendo mayor flexibilidad.
Acceso a diferentes tecnologías, haciendo un uso efectivo del hardware,
software, datos y recursos humanos existentes. X X X
Proporcionar la gestión integrada del Data Warehouse y los Data Marts
existentes, integrando la extracción, transformación y carga para la X X X
construcción del Data Warehouse corporativo y de los Data Marts.
Uso de la arquitectura de metadatos, facilitando la definición de los objetos
de negocio y las reglas de consolidación. X X X
Acceso a una gran variedad de fuentes de datos diferentes.

Manejo de excepciones. X X X
Planificación, log, interfaces a schedulers de terceros, que nos permitirán
llevan una gestión de la planificación de todos los procesos necesarios para X X X
la carga del DW.
Interfaz independiente de hardware. X X X
Soporte en la explotación del Data Warehouse.
X X X

Uso de líneas de comandos, funciones especiales X X X


Automatización de tareas X X X
Requerimientos técnicos para su utilización DBMS DBMS DBMS
SO –Windows SO- Windows, MAC SO- Windows, Linux, Unix


Antonio J. Canchila Petro Conclusión

Este documento muestra una comparación entre las distintas herramientas de integración y migración asi como un
comparativo entre 3 de las principales herramientas ETCL.
Con esta información podemos concluir, que el proceso de ETCL, requiere una planeación bien elaborada y el uso de las
herramientas adecuadas. Su uso inapropiado puede causar, perdida de información y paralisis en las operaciónes de las
empresas, el TimeDown en estas herramientas debe ser el mínimo.

S-ar putea să vă placă și