Documente Academic
Documente Profesional
Documente Cultură
Somos su empresa de
www.adictosaltrabajo.com
Introducción a la tecnología
Talend Open Studio (TOS)
v1.0
Esta obra está licenciada bajo licencia
Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 1
Índice
www.autentia.com
• Introducción
• Instalación Talend Open Studio
• Diseño de un modelo de negocio
• Diseño de un trabajo
• Gestión de metadatos
• Componentes más utilizados
• Casos prácticos
• Preguntas
PROCESO ETL
• ¿Qué es ETL?
Es el acrónimo de Extract , Transform y Load.
• Procesos ETL :
– Extracción
• Proceso que consiste en extraer la información desde las fuentes de
datos de origen.
• En la mayoría de los casos esta fuentes de datos son heterogéneas
– Requiere un proceso de unión / fusión
• Convierte los datos a un “formato” de trabajo
• Tiene que causar el impacto mínimo sobre las fuentes de origen
– Uso de un planificador
• Tipos de fuentes de datos
– Base de datos
– Ficheros en diferentes formatos
– Otras aplicaciones
– Transformación
• Proceso de modificación de la información obtenida en el proceso de
extracción (modificación del dato).
• Fuente de datos origen → Fuente de datos final
• Requiere el uso de funcionalidades específicas o reglas de negocio
• Aspectos :
– Limpieza (Eliminación de errores e inconsistencias)
– Conversión a un formato estándar, integración con el resto de datos de
diferentes fuentes
– Modificaciones necesarias a nivel de esquema para introducir en el
almacén de datos final
– Carga
• Proceso de carga de la fuente de datos final con los datos generados
en el proceso de transformación .
• Este proceso puede tener asociada una gran variedad de acciones
diferentes :
– Sobrescritura de los datos
– Generación de copias de seguridad
– Generación de otro formato de ficheros
– Etc,
• Esto incluye la automatización de la actualización del almacén de datos
con una determinada frecuencia :semanal , diaria,...
• Características :
Conectividad y capacidad
Gestión de datos
de adaptación
Herramienta
Transformación de datos Adaptación SW
ETL
Metadatos y modelado de
Arquitectura e integración
dato
Diseño y entorno de
Capacidades SOA
desarrollo
Codificación específica
En cualquier proyecto que se tiene que (Java, procedimiento
realizar una integración / migración SQL, etc)
de datos la decisión más difícil es
determinar si usar :
Herramienta ETL
• Tipos de limpieza :
Tipo Descripción
.............
• Conceptos básicos :
– Repositorio : Lugar utilizado para almacenar todos los
elementos generados en los modelos de negocio y en los
diseños de trabajos.
– Workspace : Directorio donde se almacenan todos los
directorios de los proyectos.
– Proyecto : Colección estructurada de los elementos técnicos y
de la meta-información asociada
– Elemento (Item) : Unidad técnica básica en un proyecto
– Trabajo(Job) : Gráfico compuesto por componentes con una
funcionalidad
– Componente : Conector con una funcionalidad definida que
se utiliza para realizar un conjunto de operaciones de
integración sobre los datos indicados
Esta obra está licenciada bajo licencia
Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 14
Instalación Talend Open Studio (TOS)
www.autentia.com
Area Diseño
Menu Superior
Paleta
Repositorio
• Menus :
– Barra de acceso rápido
• Muestra las opciones más
comunes (guardar , crear ,...)
• Difiere entre diseño de
trabajos y modelos de
negocio
– Menu
• Muestra las opciones :
Archivo , Edición , View ,
Windows y Help
• Repositorio :
– Vista de árbol
– Incluye todos los
elementos técnicos
– Opciones :
• Business Models
• Job Designs
• Context
• Código
• SQL Templates
• Metadata
• Documentation
• Recycle bin
• Área de diseño :
– Zona de implementación
– Habilita la paleta de
componentes
• Paleta :
– Difiere entre el modelo de
negocio y el diseño de
trabajos
– Personalización
• Layout
• Presentación
• Esconder familias
• Crear” Favorita”
• .......
– Búsqueda
• Componentes
• Job que usan componente
• Línea de salida y
código:
– Muestra el código
generado en base a :
• Java
• Perl
• Conectar componentes
• Ejemplo:
• ¿Qué es un trabajo?
– Es la implementación del modelo de negocio.
• Representación gráfica y funcional de un proceso técnico
– El gráfico que representa la funcionalidad implementada tiene la
capacidad de ser ejecutado
– Representa : rutinas, programas y código
• Necesidades del negocio
– Un trabajo puede componerse de uno o más subtrabajos.
• Piezas Puzzle
– Uno o más componentes interconectados implementan
un trabajo.
• Ejemplo de trabajo
• Tarea menospreciada.
– Su mal uso provoca errores con una alta repercusión.
– Pérdida de información → perdida de dinero.
• Ejemplo