Sunteți pe pagina 1din 50

¿Qué ofrece Autentia?

Somos su empresa de

Soporte a Desarrollo Informático


Ese apoyo que siempre quiso tener ….

• Desarrollo de componentes y proyectos a medida.


• Auditoría de código y recomendaciones de mejora.
• Arranque de proyectos basados en nuevas tecnologías.
• Curso de Formación
Dirección de Proyectos Informáticos.
Gestión eficaz del Tiempo.
Arquitecturas de desarrollo Web: Web, J2EE, SOA, WebServices, BPM, etc.
Java/ J2EE a todos los niveles: JSPs, Servlets, EJBs, JMS, JNI, etc.
Análisis y diseño orientado a objeto.
UML y patrones de diseño.
Buenas prácticas en el desarrollo de aplicaciones
Técnicas avanzadas: Lucene, Hibernate, Spring, JSF, Struts, etc.

Nuestra mejor referencia son los conocimientos que

compartimos en nuestro web

www.adictosaltrabajo.com

Decenas de entidades cuentan ya con nosotros

Para más información visítenos en www.autentia.com


Tel. 91 675 33 06 - info@autentia.com
Autentia Real Business Solutions
www.autentia.com

Introducción a la tecnología
Talend Open Studio (TOS)

v1.0
Esta obra está licenciada bajo licencia
Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 1
Índice
www.autentia.com

• Introducción
• Instalación Talend Open Studio
• Diseño de un modelo de negocio
• Diseño de un trabajo
• Gestión de metadatos
• Componentes más utilizados
• Casos prácticos
• Preguntas

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 2
Introducción
www.autentia.com

PROCESO ETL

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 3
Conceptos ETL
www.autentia.com

• ¿Qué es ETL?
Es el acrónimo de Extract , Transform y Load.

Definición : “Proceso que permite obtener información de


múltiples fuentes , procesarla y utilizarla en otras fuentes
de información (Ficheros ,Bases de datos, DataMart o Data
Warehouse)”

Forma parte de la Inteligencia Empresarial (Business


Intelligence o BI)
• DATOS → INFORMACIÓN → CONOCIMIENTO

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 4
Conceptos ETL
www.autentia.com

• Procesos ETL :
– Extracción
• Proceso que consiste en extraer la información desde las fuentes de
datos de origen.
• En la mayoría de los casos esta fuentes de datos son heterogéneas
– Requiere un proceso de unión / fusión
• Convierte los datos a un “formato” de trabajo
• Tiene que causar el impacto mínimo sobre las fuentes de origen
– Uso de un planificador
• Tipos de fuentes de datos
– Base de datos
– Ficheros en diferentes formatos
– Otras aplicaciones

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 5
Conceptos ETL
www.autentia.com

– Transformación
• Proceso de modificación de la información obtenida en el proceso de
extracción (modificación del dato).
• Fuente de datos origen → Fuente de datos final
• Requiere el uso de funcionalidades específicas o reglas de negocio
• Aspectos :
– Limpieza (Eliminación de errores e inconsistencias)
– Conversión a un formato estándar, integración con el resto de datos de
diferentes fuentes
– Modificaciones necesarias a nivel de esquema para introducir en el
almacén de datos final

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 6
Conceptos ETL
www.autentia.com

– Carga
• Proceso de carga de la fuente de datos final con los datos generados
en el proceso de transformación .
• Este proceso puede tener asociada una gran variedad de acciones
diferentes :
– Sobrescritura de los datos
– Generación de copias de seguridad
– Generación de otro formato de ficheros
– Etc,
• Esto incluye la automatización de la actualización del almacén de datos
con una determinada frecuencia :semanal , diaria,...

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 7
¿Qué hace una herramienta ETL?
www.autentia.com

• Características :
Conectividad y capacidad
Gestión de datos
de adaptación

Entrega de datos Adaptación HW

Herramienta
Transformación de datos Adaptación SW

ETL
Metadatos y modelado de
Arquitectura e integración
dato

Diseño y entorno de
Capacidades SOA
desarrollo

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 8
¿Qué hace una herramienta ETL?
www.autentia.com

• La mejor herramienta NO existe


• Duelo clásico : Propietarias vs Open Source
– Propietarias
• Oracle Warehouse Builder
• IBM DB2 Warehouse Manager
• Microsoft Integration Services
• Data Integrator & Data Services (SAP)
• SAS Data Integration Studio
– Open source
• Talend
• Pentaho Data Integration (Kettle)
• Clover ETL
• Enhydra Octopus

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 9
¿Por qué usar una herramienta ETL?
www.autentia.com

Codificación específica
En cualquier proyecto que se tiene que (Java, procedimiento
realizar una integración / migración SQL, etc)
de datos la decisión más difícil es
determinar si usar :

Herramienta ETL

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 10
¿Por qué usar una herramienta ETL?
www.autentia.com

• Ahorran tiempo y dinero al reducir / suprimir la necesidad de


codificación “Hand-Coding”.
• No “requiere” grandes conocimientos informáticos
• Hoy por hoy la codificación manual sigue siendo la forma
más común de integrar datos.
• Facilitan la integración de bases de datos de diferentes
suministradores
• El proceso ETL :
– Es el proceso más subestimado en el desarrollo de DW
– Es el proceso que más tiempo consume en el desarrollo de DW
• Estimacion → 80% del tiempo de desarrollo

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 11
Análisis de datos
www.autentia.com

• Calidad de los datos :


– Los datos casi nunca tienen una calidad decente
– Recordar : La información es poder
– Los datos deberían de cumplir :
Precisos Completos Consistentes
Únicos Temporales (actualizados)

• Limpieza de los datos :


– Proceso que garantiza datos correctos y exactos
– Los datos por regla general suelen tener incoherencias
– Propiedades : Sin duplicados / Sin inconsistencias / Sin errores
– Problemas de incoherencia :
• Datos incompletos
• Datos inconsistentes
• Datos con ruido
Esta obra está licenciada bajo licencia
Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 12
Análisis de datos
www.autentia.com

• Tipos de limpieza :
Tipo Descripción

Conversión Proceso que permite cambiar de tipo

Parseo Proceso que realiza un análisis de sintaxis

Normalización Proceso de ajuste estructura a un esquema determinado

Ortografía Proceso de revisión ortográfica

Eliminar duplicados Proceso que elimina los elementos repetidos

Aproximaciones Procesos de reajuste de los datos

.............

• Sin datos de calidad no hay decisiones de calidad

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 13
Instalación Talend Open Studio (TOS)
www.autentia.com

• Conceptos básicos :
– Repositorio : Lugar utilizado para almacenar todos los
elementos generados en los modelos de negocio y en los
diseños de trabajos.
– Workspace : Directorio donde se almacenan todos los
directorios de los proyectos.
– Proyecto : Colección estructurada de los elementos técnicos y
de la meta-información asociada
– Elemento (Item) : Unidad técnica básica en un proyecto
– Trabajo(Job) : Gráfico compuesto por componentes con una
funcionalidad
– Componente : Conector con una funcionalidad definida que
se utiliza para realizar un conjunto de operaciones de
integración sobre los datos indicados
Esta obra está licenciada bajo licencia
Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 14
Instalación Talend Open Studio (TOS)
www.autentia.com

• Ayuda para la instalación :


http://www.adictosaltrabajo.com/tutoriales/tutoriales.php?
pagina=TOS4.0
• Tipos de licencias :
– Página de comparación :
http://www.talend.com/products-data-integration/matrix.php

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 15
Interfaz
www.autentia.com

Area Diseño

Menu Superior

Paleta
Repositorio

Línea de Salida Pestañas info


Y
Código

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 16
Interfaz
www.autentia.com

• Menus :
– Barra de acceso rápido
• Muestra las opciones más
comunes (guardar , crear ,...)
• Difiere entre diseño de
trabajos y modelos de
negocio
– Menu
• Muestra las opciones :
Archivo , Edición , View ,
Windows y Help

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 17
Interfaz
www.autentia.com

• Repositorio :
– Vista de árbol
– Incluye todos los
elementos técnicos
– Opciones :
• Business Models
• Job Designs
• Context
• Código
• SQL Templates
• Metadata
• Documentation
• Recycle bin

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 18
Interfaz
www.autentia.com

• Área de diseño :
– Zona de implementación
– Habilita la paleta de
componentes

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 19
Interfaz
www.autentia.com

• Paleta :
– Difiere entre el modelo de
negocio y el diseño de
trabajos
– Personalización
• Layout
• Presentación
• Esconder familias
• Crear” Favorita”
• .......
– Búsqueda
• Componentes
• Job que usan componente

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 20
Interfaz
www.autentia.com

• Línea de salida y
código:

– Permite mostrar de forma


rápida los elementos que
componente el job

– Muestra el código
generado en base a :
• Java
• Perl

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 21
Diseño de un modelo de negocio
www.autentia.com

• Representación del flujo de trabajo evitando los


conceptos técnicos que dificulten su comprensión.
– Representación gráfica de los datos de interés para el negocio

• Ayudan a entender las necesidades y favorecen su


traducción en procesos técnicos.

• Su diseño permite detectar / resolver de forma rápida


los cuellos de botella y puntos críticos.

• A la hora de la verdad se suelen usar “poco”


Esta obra está licenciada bajo licencia
Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 22
Gestión de un modelo de negocio
www.autentia.com

• Elementos del modelo de negocio

• Conectar componentes

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 23
Modelo de negocio
www.autentia.com

• Ejemplo:

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 24
Diseño de un trabajo
www.autentia.com

• ¿Qué es un trabajo?
– Es la implementación del modelo de negocio.
• Representación gráfica y funcional de un proceso técnico
– El gráfico que representa la funcionalidad implementada tiene la
capacidad de ser ejecutado
– Representa : rutinas, programas y código
• Necesidades del negocio
– Un trabajo puede componerse de uno o más subtrabajos.
• Piezas Puzzle
– Uno o más componentes interconectados implementan
un trabajo.

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 25
Diseño de un trabajo
www.autentia.com

• Ejemplo de trabajo

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 26
Conexión de Componentes.
www.autentia.com

• Determina el orden de ejecución


de los trabajos
– Secuencialidad

• Propiedades de las conexiones:


– Definen los datos a procesar (Input).
– Definen los datos de salida (Output).
– Definen la secuencia lógica del trabajo (Orden).

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 27
Tipos de Conexión de Componentes
www.autentia.com

• Fila (Row): maneja los datos actuales.


– Main: flujo de datos de un componente a otro.
– Lookup: sub-flujo para flujo principal.
– Filter: conecta un componente específico tFilterRow con otro de salida.
– Reject: conecta un componente de procesamiento a un componente de
salida.
– Output: conecta un componente tMap a uno o varios componentes de
salida.
– Uniques/Duplicates: conectan componentes tUniqRow a componentes de
salida.

• Iterativa: recorre un conjunto de datos (ficheros de un directorio,


entradas de una base de datos, etc.)
– Permite concurrencia.

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 28
Tipos de Conexión de Componentes
www.autentia.com

• Trigger: define la secuencia del procesamiento.


Similar al Trigger en base de datos.
– Trigger de SubTrabajo
• On SubJob Ok
• On SubJob Error
– Trigger de Componente
• On Component Ok
• On Component Error
• Run if

• Link: solo se puede utilizada con componentes ELT.


Este tipo de conexión transfiere la información sobre el
esquema.

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 29
Pre-Trabajo y Post-Trabajo
www.autentia.com

• Pre-Trabajo (tPrejob): conjunto de acciones que


“preparan” el entorno para su ejecución.(Opcional)
– Ejemplo:
• Abrir una conexión a la base de datos antes de leer los registros.
• Post-Trabajo (tPostjob): conjunto de acciones que
“liberan” el entorno tras su ejecución. (Opcional)
– Ejemplo:
• Cerrar una conexión a la base de datos tras leer los registros.
• No pueden pertenecer a tareas multiproceso. ( Varios
hilos ejecutándose a la vez )
• Organizadores.

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 30
Ejecución de un trabajo
www.autentia.com

• Definición del entorno


– Desarrollo
– Pruebas
– Producción
– ..... (Entornos propios)
• Ejecución de un trabajo
– Normal
– Debug
• Generación de resultado y estadísticas
• Versionado
• Exportación : Autónomo , Servicio web, etc

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 31
Rutinas
www.autentia.com

• Es una función Java / Perl


• Permite refactorizar el código
– Similar a Metadatos
• Funciones :
– Procesamiento
– Conversión
– Generación de datos de prueba
• Hay dos tipos de rutinas:
– Rutinas del sistema: Se facilitan una serie de rutinas.
• Clasificación :numéricas , manejo de cadenas, datos, etc.
– Rutinas propias : Definidas por el usuario.

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 32
Rutinas
www.autentia.com

• Ejemplo de rutinas propias :

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 33
Contexto
www.autentia.com

• Es un conjunto de circunstancias que determinan el


ámbito de ejecución
• Suelen determinar la configuración de dicho entorno
• Tipos : Propio / Usuario
• Por regla general se suele disponer de varios entorno
de ejecución
– Desarrollo
– Producción
– Pruebas

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 34
Contexto
www.autentia.com

• Ejemplo de contexto definido por el usuario

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 35
Contexto
www.autentia.com

• Ejemplo de contexto propio

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 36
Contexto
www.autentia.com

• Uso del contexto :


– Cargar el contexto en el propio componente que vayamos a
utilizar
• Para usar el contexto dentro del componente : CTRL + ESPACIO

– Solicitar un elemento del contexto a través del PROMPT con


F5 dentro del contexto

– Cargar el contexto antes de realizar la ejecución

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 37
Gestión de Metadatos
www.autentia.com

• Metadata: “Información sobre la información”


– Estructurados
– Almacenables

“Datos estructurados y codificados que describen


características de instancias conteniendo informaciones para
ayudar a identificar, descubrir, valorar y administrar las
instancias descritas”

• Esquema: guarda la descripción de los datos siguiendo


una estructura definida.

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 38
Metadata en el Repositorio
www.autentia.com

• En el nodo Metadata del repositorio tenemos el soporte


que nos permite configurar conexiones a ficheros, bases
de datos y/o sistemas a los que necesitemos
conectarnos.
– Plantillas de acceso común.
– CTRL y ALT (Entrada y salida)
• Reutilización de las plantillas creadas.
• Configuración en el contexto (opcional)
• Asistente de creación

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 39
Mapeos
www.autentia.com

• Proceso que relaciona “entidades” en base a unas


condiciones establecidas.
Ej.: unificación en único campo.

• Tarea menospreciada.
– Su mal uso provoca errores con una alta repercusión.
– Pérdida de información → perdida de dinero.

• Definición correcta de los esquemas.


– Facilitan:
• Mantenimiento
• Comprensión
• Integridad
Esta obra está licenciada bajo licencia
Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 40
Componente tMap
www.autentia.com

• Componente preferente para manipular múltiples flujos


de entrada y salida.
• Tipos de operaciones soportadas:
– Multiplexación/Demultiplexación de datos
– Transformación de cualquier tipo de campos
– Concatenación e intercambio de campos
– Filtrado de campos
– Descarte de campos
• No puede ser el componente inicial/final de un trabajo.

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 41
Componente tMap
www.autentia.com

• Ejemplo

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 42
Componentes de Log y Error
www.autentia.com

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 43
Componentes: gestión de ficheros
www.autentia.com

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 44
Componentes de sistema
www.autentia.com

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 45
Componentes personalizados
www.autentia.com

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 46
Componentes organizativos
www.autentia.com

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 47
Ejemplos prácticos
www.autentia.com

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 48
Preguntas
www.autentia.com

Esta obra está licenciada bajo licencia


Creative Commons de Reconocimiento-No comercial-Sin obras derivadas 2.5. 1– 49

S-ar putea să vă placă și