Documente Academic
Documente Profesional
Documente Cultură
ETCL
POR:
Instructora:
SENA
REGIONAL TOLIMA
IBAGUE-TOLIMA
2019
INTRODUCCIÓN
Lo que también se busca con estas nuevas tecnologías en poder aplicarlas en los
planes y estrategias para poder conservar los datos en caso de catástrofes ya
seas por fenómenos naturales o desatares humanos, este proceso es la migración
de datos que en la actualidad en muy común en las organizaciones y cada vez
más utilizado aplicando diferentes métodos y procesos para tomar estos datos
alojados en una espacio centralizado de almacenamiento y trasladarlo a otro con
mayor eficacia y seguridad para la conservación de la información. Lo que se
describe en este documento a continuación son las diferentes técnicas de
migración y herramientas ETCL.
OBJETIVOS
Objetivo general
objetivos específicos
1. Entender qué datos se está migrando, de qué tipo son, cuál es su srcen y qué
formato adquirirán en destino, una vez completado el traslado.
4. Apostar por las pruebas y validación de los datos migrados, por ser la única
manera efectiva de asegurarse de que reúnen todos los a tributos de calidad
necesarios.
Las siglas en ingles Extract, Transform, Cleaning and Load) agrupa un conjunto de
concepciones, técnicas y subprocesos que se encargan de llevar a cabo las tareas
relacionadas con la obtención, depuración, manipulación y actualización del
almacén de datos en función de los requerimientos informacionales para
ulteriormente derivarla información necesaria.
El proceso ETCL implementado está compuesto por tres paquetes principales que
tienen a cargo el procesamiento de las dimensiones, los hechos comerciales y los
hechos contables. Estos paquetes son ejecutados de forma periódica desde el
paquete central, de modo que se actualice el repositorio de datos a partir del
estado resultante de la ejecución anterior.
Concepto de ETL
ETL son las siglas en inglés de Extraer, Transformar y Cargar (Extract, Transform
and Load).
Es el proceso que permite a las organizaciones mover datos desde múltiples
fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart,
o data warehouse para analizar, o en otro sistema operacional para apoyar un
proceso de negocio.
Los procesos ETL también se pueden utilizar para la integración con sistemas
heredados (aplicaciones antiguas existentes en las organizaciones que se han de
integrar con los nuevos aplicativos, por ejemplo, ERP´s. La tecnología utilizada en
dichas aplicaciones puede hacer difícil la integración con los nuevos programas).
Sincronización Para cada tabla que se -Al estar en diferentes Una columna de La limpieza de datos puede
de bases de debe sincronizar debe servidores se asegura que identidad que detectar y solucionar los
datos contener una los datos estén disponibles si no es una problemas no resueltos
columna de clave se presentara algún fallo columna con
principal copia de datos natural o humano. una clave durante la integración.
y metadatos principal, no se
destino mediante una -Al estar en multiplex
herramienta servidores los datos hace puede usar en
tecnológica, en que al ser Consultados se las tablas que
la cual se configuran Congestionen deben
los -Nos permite olvidarnos de sincronizarse.
sistemas de gestión de los ficheros que forman la
bases de datos con base de datos. El tipo de datos
bases de datos datetime no se
srcen y destino puede utilizar
parametrizando la para una clave
ubicaciónde particiones principal.
y método de seguridad
Las tablas
máximas en un
grupo de
sincronización
son de 500.
Las columnas
máximas que
una tabla puede
tener en un
grupo de
sincronización
son de 1000.
El intervalo
mínimo de
sincronización
es de por lo
menos 5
minutos.
-La
sincronización
de datos SQL
no admite la
autenticación de
Directory Azure
Active
-Utiliza mucho
la memoria
RAM para las
instalaciones y
utilización
de software.
Importación/Exp Tener en cuando las El formato CSV considera No siempre los La limpieza de datos puede
(CSV) o XML tablas de uno de los formatos de formatos de detectar y solucionar los
exportación de exportación más sencillos exportación de problemas no resueltos durante la
Archivos la base de que se hayan diseñado información integración
datos de destino está nunca. CSV permite bibliográfica
configurada para representar todos los datos responden a
formatos UTF-8 en forma de tabla, de forma estos esquemas
Unicode. Es que se adapta por completo que la lógica
necesario que los a toda la casuística de impone. Es el
datostengan tipologías de bases de datos caso del
características de y especificaciones de cada formato
codificación para que campo, con independencia ISO2709
puedan ser desu naturaleza, ya sea (ormato
identificadas numérico, fecha, texto, etc. UNIMARC) ya
correctamente y evitar El formato CSV no requiere que emplea
una transformación de un set de caracteres delimitadores
inadecuada iniciales
de los caracteres concretos, por lo que tiene diferentes a los
especiales. una gran interoperabilidad en delimitadores
La migración de diferentes aplicaciones. finales. Por
datos,depende tanto en dicho
completamente de la El formato XML es uno de caso si bien se
manera en que los mejores para la cumple lo
representar la exportación de la propuesto en el
información. La información de un catálogo presente
delimitación bibliográfico. Destaca esquema,
de los datos y los fundamentalmente por ser también es
campos de completamente adaptable a verdad, que
información son cualquier esquema de datos está pensado
conceptos cruciales, de por complejo que pueda para que la
cara a facilitar la resultar. De esta forma se delimitación sea
importación/exportación puede definir por completo analizada de
de un catálogo las características de cada forma recursiva
bibliográfico de un uno de los campos de en función a las
sistema de gestión de descripción de un catálogo etiquetas que el
bibliotecas a otro, automatizado según las PARSER tenga
incluso para sistemas normas o reglas de definidas como
de gestión de archivos catalogación establecidas. variables
que utilicen otros XML, al establecer etiquetas permitidas.
modelos de descripción de inicio y cierre de los
no basados contenidos, permite definir
inicialmente en el de forma muy sencilla el
bibliográfico. nombre de los campos, sus
Los delimitadores como atributos y valores.
su propio nombre El formato CSV no requiere
indica, son marcas que de un set de
permiten identificar los caracteres concretos, por lo
segmentos de datos o que tieneuna gran
contenidos de un interoperabilidad en
determinado registro diferentes aplicaciones
Sentencia de Los procesos se El DML se clasifica Lentitud para La limpieza de datos puede
Lenguaje de orientan al uso de las Lenguajes de consulta las escrituras. detectar y solucionar los
procedimentales: En este tipo
manipulación sentencias DML , de lenguaje el usuario da
Los índices problemas no resueltos
de datos DML para realizar el paso instrucciones al sistema para que afectan el durante la integración
de datosde la base de realice una serie de rendimiento de
datos de origen a la procedimientos u operaciones en algunos
base de datos destino, la base de datos para calcular un comandos.
resultado final.
a través de los
entornos Lenguajes de consultano
administrativos de los procedimentales: El usuario
SMBD describe la información deseada
sin un procedimiento específico
para obtener esa información.
Creación de un entorno de
pruebas
Fig. 1.
QUÉ SE DEBE TENER EN CUENTA PARA LA ELECCIÓN DEL SOFTWARE DE
ETL
- Debería incluir herramientas de colaboración. Con ello resultará más fácil reutilizar
elementos de desarrollo anteriores y los flujos de integración de datos resultantes
pueden ser más eficientes. Una única tarea puede alimentar varios destinos en
lugar de tener una serie de flujos de integración de datos haciendo prácticamente lo
mismo sin parar.
-La portabilidad es una capacidad importante de las herramientas de ETL, pero que
muchas veces se pasa por alto.
PROCEDIMIENTOS ETCL
Este proceso tiene que ver con el diseño basado en los resultados del análisis de la
migración y el uso de mapeo detallado, de igual manera realizaremos una
verificación de los requerimientos del cliente para establecer los alcances
respectivos y configurar estas técnicas.
Mantenimiento
Proceso de extracción
El proceso ETL consiste en extraer los datos desde el sistema de srcen. Esta fase
consta de tres pasos:
- antes de extraer los datos, se identifica de qué tipo son y en qué formato se
encuentran los sistemas fuente. Por ejemplo, si se trata de bases de datos
relacionales o no relacionales, archivos planos, archivos complejos, archivos VSAM,
WebServices, MainFrame, archivos en Excel, etc. Lo habitual es que los datos de
los sistemas de srcen provengan de formatos distintos, que tendrán que ser
fusionados.
PROCESO DE TRANSFORMACIÓN
- Las demás tareas las define usted y las configura para que se ejecuten
automáticamente.
PROCESO DE CARGA
- Rolling: este proceso sería el más recomendable en los casos en que se busque
mantener varios niveles de granularidad. Para ello se almacena información
resumida a distintos niveles, correspondientes a distintas agrupaciones de la unidad
de tiempo o diferentes niveles jerárquicos
Herramientas ETL
En el mercado se encuentran diferentes herramientas ETL y cada una de ellas
con características específicas, y de igual manera esta se dividen por categorías
como son:
ventajas como una alta flexibilidad y el pago por uso a la hora de elegir
Dentro del mercado se encuentran varias herramientas entre las cuales están las
siguientes:
Ab Initio
Benetl
CloverETL
Informática PowerCenter
SmartDB Workbench
Sunopsis (Oracle)
SAS Dataflux
Sybase
Syncsort: DMExpress.
CARACTERSITICAS DE BENETL.FIG.5
Tecnologías:
Java 7 update 80
Requerimientos Técnicos:
Descripción
- Servicio SAP BW: el servicio SAP BW busca solicitudes RFC de SAP BW e inicia
flujos de trabajo para extraer datos o cargar datos en el SAP BW.
Capacidades funcionales
-Data syncronization - Capacidad de replicar y extraer los datos que sufrieron algún
cambio
-Data services - Plataforma para una implementación SOA para cubrir el gap entre
los procesos de negocio y la infraestructura de aplicaciones.
La opción empresarial ETL (Enterprise ETL Option) para Warehouse Builder es una
opción que puede ser adquirida con Oracle Warehouse Builder como parte de la
edición empresarial del motor de base de datos (Oracle DB Enterprise Edition).
Opciones Avanzadas para Carga de Datos
Puede usar las herramientas gráficas de Integration Services para crear soluciones
sin escribir una sola línea de código. También puede programar el extenso modelo
de objetos de Integration Services para crear paquetes mediante programación y
codificar tareas personalizadas y otros objetos de paquete.
VENTAJAS, DESVENTAJAS, TIEMPOS Y COSTO DE LAS HERRAMIENTAS
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/353132/ETL-tcnicas-
demigraci-n-y-tipos-de-software https://platzi.com/blog/que-espostgresql/
http://www.oracle.com/technology/products/warehouse/11gr1/datasheets/wareh
ousebuilder-11g-etldatasheet.pdf
DataPrix. (2010). Herramientas ETL. ¿Que son, para que valen? Productos más
conocidos. ETL´s Open Source. Recuperado el 25 de agosto de 2019, de
https://www.dataprix.com/blogs/respinosamilla/herramientas-etl-que-son-para-que-
valenproductos- mas-conocidos-etl-s-open-sour