Sunteți pe pagina 1din 8

ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO

FACULTAD DE INFORMÁTICA Y ELECTRÓNICA


ESCUELA DE INGENIERÍA EN SISTEMAS

SOLUCIONES TECNOLÓGICAS INTEGRALES DE EMPRESAS

TEMA: Integración de Datos con Procesos ETL

INTEGRANTES:

Carla Noriega 5186


Ángel Sigüenza 5020
Diego Cascante 5029
Fausto Cevallos 5212
Jayro Moscoso 5342
Belén Haro 5466

Fecha de Entrega: 04-06-2014

INTRODUCCIÓN
A principios de la década de los 60’s, los datos eran tomados de aplicaciones
independientes basadas en ficheros almacenados en cintas magnéticas, esto
representaba un acceso secuencial a los datos, con la aparición de los discos
magnéticos permitieron el acceso directos a estos datos favoreciendo el
surgimiento de nuevas organizaciones de ficheros mejorando la tecnología de
acceso a datos.

Toda la información que se considera estratégica se puede integrar gracias a


los procesos ETL, ya que permiten completar el desarrollo de la cohesión de las
aplicaciones y sistemas proporcionando una visión única y global de los datos
combinados.
Entre las actividades que realizan los procesos ETL es la captura de cambio en
los datos, validación de datos, limpieza de datos, renombrado en la adecuación
de los datos, Data Stating donde se guardan los datos de manera temporal
para posteriormente procesarlos.

Las organizaciones aumentan de forma orgánica y a su vez van agregando


más fuentes de datos provocando nuevas necesidades entre ellas integrar los
datos por ejemplo de un banking on line con datos antiguos de un sistema
legacy.

OBJETIVOS

GENERAL

➢ Caracterizar la integración de datos mediante procesos ETL para su


ejemplificación en un caso práctico con la herramienta Talend Open
Studio para la Integración de Datos (Talend para ID).

ESPECÍFICOS

● Determinar principales características de los procesos ETL para la


Integración de Datos con el objetivo de comprender su funcionamiento.

● Seleccionar un listado de herramientas que soporten la integración de


datos para determinar en base a las características del negocio la más
óptima.

● Realizar un caso práctico de integración de datos con la herramienta


Talend para ID con el fin de identificar el uso de los proceso ETL.
MARCO TEÓRICO

DEFINICIÓN

Los procesos ETL se refieren al movimiento y transformación de los datos, este


proceso permite mover datos desde múltiples fuentes, reformatearlos y
cargarlos en otra base de datos con el objeto de ser analizados o ser enviados
a otro sistema operacional para apoyar un proceso de negocio, integrando así
los sistemas y fuentes de organización.

Aunque estos procesos pueden resultar transparentes para los usuarios, son
los más importantes para la integración de varias fuentes de datos, utilizados
para su posterior procesado y recuperación.

Al igual que la mayoría de los procesos relacionados al área de la informática,


es fundamental realizar un análisis previo para el correcto diseño y análisis de
los datos .

ETL proviene de las siglas en inglés

Extract: extraer.
Transform: transformar.
Load: cargar.

Fases de un proceso ETL

1. Extracción de datos desde uno o varios sistemas fuente, los mismos que se
pueden desde cualquier base de datos a fin de obtener todos los datos
de interés.
2. Transformación de los datos extraídos con la posibilidad de limpiar y
reformatear los datos cuando sea necesario, donde la herramienta ETL
permite agregar, calcular y dirigir datos dentro de otras herramientas
análiticas de BI.
3. Carga de datos luego de extraer y transformar los datos, el usuario ya
dispone de una base de datos homogénea con el objetivo de analizar un
proceso de negocio y posteriormente cargarlos al Data Warehouse sin
ningún inconveniente.

Limpieza de Datos aunque se considera como una acción de la transformación


de datos se realiza esta etapa de forma separada a fin de ahorrar tiempo y
ganar efectividad con la unificación de criterios por ejemplo al empezar el
proceso ETL se puede cambiar avenida por av en todos los registros de la base
de datos de direcciones, siendo importante tener los datos de manera correcta
y con una visión única para los usuarios logrando así efectividad y optimización
en el análisis de los datos.
CARACTERÍSTICAS HERRAMIENTAS ETL

Según Gartner las principales características que se deben considerar , son las
siguientes:

Capacidad de adaptación

Es la capacidad de integrar o crear la conexión entre diferentes tipos de


estructuras de datos, mientras más completo sea el repositorio de estructuras
a las cuales sirva se dirá que tiene más capacidad de adaptación, las más
comunes son archivos XML, archivos CSV, y tipos de bases de datos relaciones,
incluso no relacionales y un sin fin de otros medios de destinos de datos
existentes.

Capacidad entrega de datos

También llamado migración de datos, es la capacidad de transmisión de una


estructura a otra, puede ser de una aplicación, de un proceso o de una base de
datos, sin importar la estructura que esta posea hacia otra estructura, esto se
realiza mayoritariamente cuando se desea migrar los datos de una base vieja a
una nueva.

Capacidades de transformación de datos

Como su nombre lo indica, es la capacidad de transformar los datos, para que


se puedan migrar sin problema desde su origen, pueden ser desde un cambio
de tipo de variable, con una pequeña validación, aumento de tamaño de una
variable, hasta llegar a procesos más complejos como por ejemplo una
agregación, sumarización o un lookup a nivel de tablas y relaciones completas.
Es importante recalcar que en este proceso se realiza la eliminación de los
datos duplicados, limpiando la base gracias a los controles y validaciones
propias del Data Mining o minería de datos.

Capacidades de metadatos y modelo de datos

Esta es la capacidad de extraer los modelos de datos de las bases de datos de


origen o de la estructura de almacenamiento de datos de origen; utilizar el
modelamiento de datos para su manejo e interacción con otras aplicaciones o
estructuras pasando por cambios, el mapeo del modelo físico a lógico,
mantenimiento y hasta creación de metadata y modelos nuevos.

Capacidad de diseño y entorno de desarrollo

Es la capacidad de representar gráficamente todos los objetos, modelos de


datos, sus flujos, brindando soporte para test y mejorando las capacidades del
trabajo en equipo en gestión de workflows en el proceso de desarrollo.
Capacidades de gestión de datos

Es la capacidad de gestionar o evaluar los datos, es decir su calidad, el perfil


que tienen su dirección y evolución, gracias a la minería de datos, con la cual
se sacan las muestras para realizar el análisis del origen y el destino de la
información.

Adaptación a las diferentes plataformas hardware y sistemas


operativos existentes

Una de las capacidades con más auge e importancia en el mercado actual, ya


que las empresas y la competencia entre ellas exige el uso de multiplataforma,
entre las más importantes se destaca Unix, Mainframes, Linux, y servidores
virtualizados, el más utilizado e importante actualmente.

Capacidad de Administración y Operación

La capacidad del monitoreo, gestión y control de procesos al momento de


realizar la integración de los datos, analizando errores, y tomando decisiones
para lograr un mejor control y seguridad.

Arquitectura e integración

Es la capacidad aplicativa en la cual se realiza el control, se monitorea la


interoperabilidad y compactación de los datos, todo esto basado en la
estructura y componentes que posee la herramienta con la cual se realice la
integración de los datos, teniendo como meta el desarrollo y producto único,
compacto, sin errores, e interoperable.

Capacidades SOA

Las capacidades SOA abarcan un conjunto de numerosas soluciones para los


procesos ETL, tales como: Mejora y toma de decisiones, satisfacción y fidelidad
de los clientes, reducción de tiempos de espera, reducción de la complejidad
de la integración y reducción de los costes aumentando la productividad.

Sistemas que se integran en un proceso ETL

❖ Sistemas legacy.- también llamados heredados, este tipo de sistemas se


caracterizan por ser cerrados es decir no permiten cambios y son de
difícil acceso por la utilización de algún driver especial, estos sistemas se
procesan hacia dentro sin permitir la agregación de una computadora
para que se pueda trabajar en paralelo.
❖ Sistemas Nuevos.- o modernos son abiertos, amplios e interconectados,
este tipo de sistemas están basados en Windows, Linux como por
ejemplo una granja de servidores y en redes sociales como Twitter,
Facebook, entre otras.

BENEFICIOS

❏ La seguridad de que se lograrán elaborar flujos de datos flexibles y


heterogéneos.
❏ La disminución también de la complejidad, al contar con un marco
uniforme para todas las técnicas y al brindar compatibilidad con una
gran variedad de fuentes de datos.
❏ Permite impulsar iniciativas empresariales para favorecer el enfoque
orientado al cliente.
❏ Aumentar la eficiencia operacional o reducir los riesgos mediante una
sólida estructura de control de riesgos y conformidad.
❏ Ofrecer una vista integral de los datos de la empresa, precisión y calidad
en los datos las mismas que son sometidas a auditorías y una entrega
rápida de los proyectos de integración de datos encaminados a una
mayor rentabilidad del producto.
❏ Mejores porcentajes de eficiencia, optimizando la asignación de capital y
menores costos afectando de manera positiva la conservación de la base
del negocio.
❏ Ganancias en términos de tiempo, procesos automatizados y
garantizando la fiabilidad de los datos generando éxito en cualquier
organización.

HERRAMIENTAS ETL

Herramientas y aplicaciones ETL del mercado:

●IBM Websphere DataStage (anteriormente Ascential DataStage y Ardent


DataStage)
● Pentaho Data Integration (Kettle ETL) - Una herramienta Open Source
Business Intelligence
● SAS ETL Studio
● Oracle Warehouse Builder
● Informatica PowerCenter
● Cognos Decisionstream
● Ab Initio
● BusinessObjects Data Integrator (BODI)
● Microsoft SQL Server Integration Services (SSIS)
● XMLLoader
● Talend
● Clover
CONCLUSIONES
● Los procesos ETL, se encargan de la extracción, transformación y carga
de los datos, en la etapa de extracción se encarga fundamentalmente de
la inclusión de las fuentes de información externas que posee la
solución, la transformación limpia la metadata haciendo que sea
universal para la integración (unificación) y la carga que migra los datos
de las fuentes externas a la solución.

● Dentro de las herramientas más usadas tenemos un listado de


aproximadamente 13, entre libres y pagadas, de las que se destacan por
sus entornos visuales, de allí las prestaciones varían y las empresas
pueden en base a sus necesidades acoplarse, en el caso de estudio
usamos Talend una herramienta muy simple y potente que ejemplifica el
uso de archivos de base de datos y su carga a un gestor de base de
datos, en este caso el gestor Mysql Workbench ambos libres.

● El caso práctico nos permite reconocer y entender cómo incluir las


fuentes de datos externas, como preparar los datos y en su fase final
como cargarlos en nuestro caso en una base de datos centralizada en
los que serán procesados. A más de ellos la herramienta permite que
definamos un modelo gráfico para la integración, y ejecutar una carga
de dos archivos distintos, con campos distintos y unificarlos que es el
objetivo de los ETL. La desventaja de la herramienta radica en que se
necesita un proceso de carga por archivo aunque su potencialidad basa
en que se pueden usar modelos relacionales como ficheros de carga.
En la parte final de la ejecución nos muestra un mensajes sobre las
conexiones de como han sido manejados los datos, que pueden ahora
ser consultados de forma conjunta de las sucursales de EEUU y Ecuador.

RECOMENDACIONES

● Se recomienda tener en cuenta todos los tipos de datos que se


encuentren en las fuentes externas, ya que si no se los transforma de
manera correcta no se procederán a hacer las cargas correspondiente.
● Determinar bien la creación de las fuentes externas porque un tipo de
archivo no es igual al otro, y puede presentar un mal uso de las
herramientas del Talend.
● En cuanto al mapeo de datos, verificar los campos y las relaciones que
irán a la base de datos, ya que si un campo va erróneo, generará
errores o inconsistencias en la carga.
● Tomar atención al proceso de carga o la sección de mapeo que es vital.

REFERENCIAS BIBLIOGRÁFICAS
http://www.carlosproal.com/dw/dw05.html http://etl-
tools.info/es/bi/proceso_etl.htm http://blog.powerdata.es/el-valor-de-la-
gestion-de-datos/bid/288844/Qu%C3%A9-son-los-procesos-ETL
http://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/312648/La-
Integraci%C3%B3n-de-Datos-otra-Posibilidad-de-los-Procesos-ETL
http://cdn2.hubspot.net/hub/239039/file-44151143-pdf/docs/PowerData_-
_Procesos_ETL.pdf
http://basesdatoscms.files.wordpress.com/2012/09/interacion-de-datos-y-
almacenes-de-datos.pdf

http://www.abast.es/etl.shtml http://pdfs.wke.es/6/7/9/3/pd0000016793.pdf
http://edirectivos.dev.nuatt.es/articulos/1000002477-herramientas-etl-una-
solucion-para-la-integracion-de-datos

http://www.stratebi.com/etl/data-quality

http://www.jecas.org/ponencias/viernes/manana/desarrollosIII/ArquitecturaIn
tegracionDatosICANE.pdf

http://books.google.com.ec/books?id=iU3RAXYQXMkC&pg=PA51&lpg=PA51&d
q=introduccion+integracion+de+datos+de+los+procesos+etl&source=bl&ots=
Nn7bkx37gs&sig=8A5hAvg76b31JUWnJXHp7caIVac&hl=es&sa=X&ei=44mHU-
HMLqnMsQT0wYHIDQ&ved=0CDwQ6AEwAg#v=onepage&q=introduccion%20i
ntegracion%20de%20datos%20de%20los%20procesos%20etl&f=false

Xufeng Zhang; Weiwei Sun; Wei Wang; Yahui Feng; Baile Shi, "Generating
Incremental ETL Processes Automatically," Computer and Computational
Sciences, 2006. IMSCCS '06. First International Multi-Symposiums on , vol.2,
no., pp.516,521, 20-24 June 2006
doi: 10.1109/IMSCCS.2006.229
keywords: {data warehouses;ETL tools;aggregation operator;automatic
incremental ETL process generation;data warehouses;difference
operator;incremental maintenance;join operator;materialized views;projection
operator;selection operator;Cost function;Data mining;Data
warehouses;Information analysis;Information technology;Process
design;Relational databases;Sun},
URL: http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=4673758&is
number=4673661

S-ar putea să vă placă și