Documente Academic
Documente Profesional
Documente Cultură
Versin 8 Release 5
Gua de aprendizaje
SC11-3566-03
Gua de aprendizaje
SC11-3566-03
Nota Antes de utilizar esta informacin y el producto al que da soporte, lea la informacin de la seccin Avisos y marcas registradas en la pgina 51.
Contenido
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage . . . . . . . . . . . . . 1
Acerca de IBM InfoSphere QualityStage . . . . . 1 Proyectos en IBM InfoSphere QualityStage . . . 1 Acerca de los trabajos de InfoSphere QualityStage 2 Etapas de IBM InfoSphere DataStage y QualityStage . . . . . . . . . . . . . 2 Componentes servidor y cliente . . . . . . . 3 Objetivos del proyecto de la gua de aprendizaje . . 3 Configurar la gua de aprendizaje . . . . . . . 4 Crear una carpeta para los archivos de la gua de aprendizaje . . . . . . . . . . . . . . 5 Crear proyecto de la gua de aprendizaje . . . . 5 Copiar datos de la gua de aprendizaje . . . . 5 Iniciar un proyecto . . . . . . . . . . . 6 Mdulo 1: Investigar los de datos de origen . . . . 7 Leccin 1.1: Configurar y enlazar un trabajo Investigate . . . . . . . . . . . . . . 8 Leccin 1.2: Renombrar enlaces y etapas en un trabajo Investigate . . . . . . . . . . . 9 Leccin 1.3: Configurar el archivo de origen . . 10 Leccin 1.4: Configurar la etapa Copy . . . . 11 Leccin 1.5: Etapa Investigate, configurar para revisar nombres . . . . . . . . . . . . 12 Leccin 1.6: Etapa Investigate, configurar para revisar regiones geogrficas . . . . . . . . 14 Leccin 1.7: Configurar informes de destino . . 16 Leccin 1.8: Compilar y ejecutar trabajos . . . 16 Mdulo 1: Resumen . . . . . . . . . . 17 Mdulo 2: Estandarizar datos . . . . . . . . 17 Leccin 2.1: Configurar un trabajo Standardize 18 Leccin 2.2: Configurar las propiedades de etapa del trabajo Standardize . . . . . . . . . 20 Leccin 2.3: Configurar los conjuntos de datos de destino . . . . . . . . . . . . . . . Mdulo 2: Resumen . . . . . . . . . . Mdulo 3: Agrupar registros con atributos comunes Leccin 3.1: Configurar un trabajo Unduplicate Match . . . . . . . . . . . . . . . Leccin 3.2: Configurar las propiedades de etapa del trabajo Unduplicate Match . . . . . . . Leccin 3.3: Configurar archivos de destino de un trabajo Unduplicate. . . . . . . . . . . Mdulo 3: Resumen . . . . . . . . . . Mdulo 4: Crear un registro nico . . . . . . . Leccin 4.1: Configurar un trabajo Survive . . . Leccin 4.2: Configurar las propiedades de etapa del trabajo Survive . . . . . . . . . . . Mdulo 4: Resumen . . . . . . . . . . Gua de aprendizaje de IBM InfoSphere QualityStage: resumen . . . . . . . . . . . 27 28 28 29 31 34 36 36 37 38 41 41
Cmo ponerse en contacto con IBM . . 43 Documentacin del producto . . . . . 45 Cmo leer los diagramas de sintaxis 47
iii
iv
Objetivos de aprendizaje
Los puntos clave que debe tener en cuenta al completar esta gua de aprendizaje incluyen los siguientes temas: v Cmo mejoran la calidad de los datos los procesos de estandarizacin y coincidencia v La facilidad de combinar las dos etapas de cliente de Diseador de InfoSphere DataStage y QualityStage en un mismo trabajo v Cmo fluyen los datos en un proceso interactivo entre dos trabajos v Los datos supervivientes tienen como resultado el mejor registro disponible
datos reorganizados. Usted puede definir etapas y archivos de datos, y crear trabajos dentro de un proyecto concreto. IBM InfoSphere QualityStage utiliza estos proyectos para crear y almacenar archivos en el cliente y en el servidor. Cada proyecto de InfoSphere QualityStage contiene los siguientes componentes: v Trabajos de InfoSphere QualityStage v Etapas utilizadas para crear cada trabajo v Especificacin de coincidencia v Reglas de estandarizacin v Definiciones de tablas En esta gua de aprendizaje usted crear un proyecto utilizando los datos facilitados.
Adems puede aadir a su trabajo cualquier etapa de IBM InfoSphere DataStage. En algunas de las lecciones puede aadir etapas de InfoSphere DataStage para ampliar los tipos de herramientas para procesar los datos.
Objetivos de aprendizaje
La finalidad de esta gua de aprendizaje es proporcionar un conocimiento del sistema de trabajo que se utiliza en el flujo de procesos de InfoSphere QualityStage a travs de los distintos trabajos. Adems, aprender a llevar a cabo las siguientes tareas: v Configurar los trabajos del proyecto v Configurar las etapas del proyecto v Valorar los resultados de cada trabajo v Aplicar los resultados a sus prcticas empresariales Una vez completadas estas tareas, debera entender cmo las etapas de InfoSphere QualityStage reestructuran y limpian los datos a travs de reglas empresariales aplicadas. El tiempo para completar esta gua de aprendizaje es de 2'5 horas aproximadamente.
Nivel de habilidad
Para entender esta gua de aprendizaje necesita tener un nivel de comprensin de anlisis de datos intermedio-avanzado.
Audiencia
Esta gua de aprendizaje est destinada a analistas empresariales y analistas de sistemas que tengan inters en entender InfoSphere QualityStage.
Requisitos previos
Para completar esta gua de aprendizaje debe saber utilizar v Diseador de IBM InfoSphere DataStage y QualityStage v Sistemas personales
Resultados esperados
Una vez completada esta gua de aprendizaje, debera poder crear sus propios proyectos de InfoSphere QualityStage a travs del cliente del Diseador para cumplir los requisitos empresariales y los estndares de calidad de datos de su empresa.
v Para un servidor de UNIX o Linux: opt/IBM/InformationServer/Server/ Projects/tutorial_project 3. Copie el archivo .csv a la carpeta del proyecto en el servidor.
Iniciar un proyecto
Utilice un proyecto del cliente del Diseador de IBM InfoSphere DataStage y QualityStage como contenedor para sus trabajos de IBM InfoSphere QualityStage. Abra el cliente del Diseador para iniciar la gua de aprendizaje. El trabajo paralelo del Diseador proporciona un archivo ejecutable que ejecuta sus trabajos de InfoSphere QualityStage. Para iniciar un proyecto: 1. Pulse Iniciar Todos los programas IBM InfoSphere Information Server Diseador de IBM InfoSphere DataStage y QualityStage. Se abrir la ventana Adjuntar a Proyecto. 2. En el campo Dominio introduzca el nombre del servidor al que est conectado. 3. En el campo Nombre de usuario introduzca su nombre de usuario. 4. En el campo Contrasea introduzca su contrasea. 5. En el campo Proyecto seleccione el proyecto que ha creado (por ejemplo, Gua de aprendizaje). 6. Pulse Aceptar. Se abrir la ventana Nuevo en el cliente del Diseador.
Creacin de un trabajo
El cliente del Diseador de IBM InfoSphere DataStage y QualityStage proporciona una interfaz al motor paralelo que procesa los trabajos. En este paso usted guardar un trabajo en una carpeta en el repositorio de metadatos. Si no lo tiene ya abierto, abra el cliente. Para crear un trabajo nuevo: 1. En la ventana Nuevo seleccione la carpeta Trabajos en el panel de la izquierda y, a continuacin, seleccione el icono Trabajo paralelo en el panel de la derecha. 2. Pulse Aceptar. En el rea Diseo de trabajo aparecer una nueva ventana de diseo de trabajo vaca. 3. Pulse Guardar Archivo. 4. En la ventana Guardar trabajo paralelo como pulse con el botn derecho del ratn la carpeta Trabajos y seleccione Nueva Carpeta en el men de atajos. 5. Introduzca un nombre para la carpeta (por ejemplo, MyTutorial). 6. Pulse la nueva carpeta (MyTutorial) e introduzca Investigate1 en el campo Nombre del elemento . 7. Pulse Guardar para guardar el trabajo. Ha creado un nuevo trabajo paralelo llamado Investigate y lo ha guardado en la carpeta Jobs\MyTutorial del repositorio. Utilice los procedimientos anteriores para crear 3 trabajos paralelos ms en esta carpeta y denomnelos Standardize1, Unduplicate1 y Survive1. Ahora importe los datos de la gua de aprendizaje a su proyecto.
Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir etapas y enlaces a un trabajo IBM InfoSphere DataStage y QualityStage 2. Configurar propiedades de etapa para especificar qu accin realizan al ejecutar el trabajo 3. Cargar y procesar datos y metadatos de clientes 4. Compilar y ejecutar un trabajo
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage
5. Generar datos para informes El tiempo para completar este mdulo es de 30 minutos aproximadamente.
3. 4. 5. 6. 7.
a. Pulse con el botn derecho del ratn en el nombre genrico del enlace DSLinkXX que conecta el ArchivoOrigen a la etapa Copy y seleccione Renombrar en el men de atajo. Aparecer un recuadro resaltado alrededor del nombre predeterminado. b. Introduzca Cliente y pulse fuera del recuadro. El nombre del enlace predeterminado cambiar a Cliente. Pulse con el botn derecho del ratn el nombre genrico del enlace que conecta la etapa Copy a la primera etapa Investigate. Repita el paso 2, pero introduzca ToName en el recuadro. Pulse con el botn derecho del ratn el nombre genrico del enlace que conecta la etapa Copy a la segunda etapa Investigate. Repita el paso 2, pero introduzca ACityStateZip en el recuadro. Pulse en los nombres de las siguientes etapas e introduzca el nombre nuevo de la etapa en el recuadro resaltado:
Cambiar a Copiar NombreInvestigate InvestigateCiudadEstadoZip
8. Renombre los tres archivos de destino de la parte superior en el orden siguiente: a. InformeSealesNombre b. InformePatrnCiudadEstadoZip c. InformeSealesCiudadEstadoZip 9. En los nombres de los siguientes enlaces, seleccione Renombrar e introduzca el nuevo nombre del enlace en el recuadro resaltado:
Cambiar a InvestigacinNombre InformePatrn InformeSeales
Renombrar los elementos del lienzo del Diseador ayuda a una mejor organizacin del trabajo Investigate.
10
El objetivo de esta leccin es adjuntar los datos de entrada de nombres y direcciones de clientes y cargar los metadatos. Para aadir datos y metadatos al trabajo Investigate debe configurar el archivo de origen para ubicar el archivo de datos de entrada input.csv almacenado en su sistema y cargar las columnas de metadatos. Para configurar el archivo de origen: 1. Efecte una doble pulsacin en el icono ArchivoOrigen para abrir el separador Propiedades en la ventana ArchivoOrigen - Archivo secuencial. 2. Seleccione el archivo de datos de la gua de aprendizaje: a. Pulse Origen Archivo para activar el campo Archivo. en el campo Archivo y seleccione Localizar Archivo. b. Pulse el c. Ubique el directorio en el servidor donde ha copiado el archivo input.csv del DVD (por ejemplo, C:\IBM\InformationServer\Server\Projects\ tutorial). d. Pulse input.csv para seleccionar el archivo y, a continuacin, pulse Aceptar. 3. Pulse el separador Columnas. 4. Pulse Cargar. 5. En la ventana Definiciones de tabla pulse la carpeta Gua de aprendizaje de QualityStage Definiciones de tabla. Esta carpeta ha sido creada al importar los metadatos ejemplo de la gua de aprendizaje. 6. Pulse Entrada en la carpeta Definiciones de tabla y pulse Aceptar. 7. Pulse Aceptar en la ventana Seleccionar columnas para cargar los metadatos de ejemplo. 8. Pulse Ver datos para visualizar la calidad de los datos de entrada. 9. En la primera ventana Investigate1 seleccione el nmero filas para visualizar y pulse Aceptar. Puede dejar el nmero de filas como 100. 10. En la segunda Investigate1 puede ver los nombres y direcciones de los clientes del banco. Las direcciones aparecen desordenadas, complicando as la tarea del banco de analizar los datos. 11. Pulse Cerrar para cerrar la ventana Investigate1. 12. Pulse Aceptar para descargar los datos de entrada en su sistema y cerrar la ventana Archivo de origen - Archivo secuencial.
11
Para configurar una etapa Copy: 1. Efecte una doble pulsacin en el icono de la etapa Copy para abrir el separador Propiedades en la ventana Copy - Copy. 2. Pulse el separador Entrada Columnas. Los metadatos que ha cargado en el ArchivoOrigen se han propagado a la etapa Copy. 3. Pulse el separador Salida Correlacionar para correlacionar las columnas del panel Columnas de la izquierda con el panel ToName. 4. En el campo Nombre de salida sobre el panel Columnas de la pantalla, seleccione ToName en caso de que no est ya seleccionado. Seleccionar el nombre de salida correcto asegura que los datos van a la etapa Investigate, InvestigateName, o InvestigateCityStateZip correcta. 5. Copie los datos del panel Columnas en el panel Nombrar: a. Coloque el cursor en el panel Columnas, pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. b. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. c. Coloque el cursor en el panel ToName, pulse el botn derecho del ratn y seleccione Pegar columna en el men de atajos. Los metadatos de columna se copian en el panel ToName y las lneas muestran el enlace del panel Columnas al panel ToName. 6. En el campo Nombre de salida sobre el panel Columnas, seleccione ToCityStateZip en el men desplegable. 7. Repita el paso 5 para correlacionar el panel Columnas con el panel ToCityStateZip. 8. Pulse Aceptar para guardar la etapa Copy actualizada. Este proceso le muestra cmo correlacionar columnas a dos salidas diferentes.
12
2. Pulse el separador Word Investigate para abrir la ventana Word Investigate. La columna Nombre propagada a la etapa InvestigateName desde la etapa Copy aparece en la seccin Columnas de datos disponibles. 3. Seleccione Nombre en la seccin Columnas de datos disponibles y pulse el para mover la columna Nombre al panel Columnas estndar. La etapa InvestigateName analiza la columna Nombre utilizando el conjunto de reglas que usted mismo ha seleccionado en el paso 4. para seleccionar un conjunto de 4. En el campo Conjunto de reglas:, pulse reglas para la etapa InvestigateName. a. En la ventana Conjuntos de reglas efecte una doble pulsacin en la carpeta Reglas de estandarizacin para abrir el rbol Reglas de estandarizacin. b. Efecte una doble pulsacin en la carpeta USA, una doble pulsacin en la carpeta USNAME y, a continuacin, seleccione USNAME. El conjunto de reglas USNAME analiza la columna Nombre de conformidad con la normativa postal de los Estados Unidos para los nombres. c. Pulse con el botn derecho del ratn en el archivo USNAME y seleccione Suministrar todo en el men de atajo. d. Pulse Aceptar para salir de la ventana Conjuntos de reglas. 5. Pulse el recuadro de seleccin Informe de seales en la seccin Conjunto de datos de salida de la ventana. 6. Pulse el separador Propiedades de etapa Salida Correlacin. 7. Correlacione las columnas de salida: a. Pulse el panel Columnas. b. Pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. c. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. d. Pulse en el panel NameInvestigation. e. Pulse el botn derecho del ratn y seleccione Pegar columna en el men de atajos. Las columnas de la izquierda estn correlacionadas con las columnas de la derecha. La correlacin de NameInvestigation debera tener el siguiente aspecto:
8. Pulse el separador Columnas. Fjese en que las columnas de Salida se llenan al correlacionar las columnas en el separadorCorrelacin. Pulse Aceptar. 9. Pulse Aceptar y, a continuacin, pulse Archivo Guardar para guardar la etapa Investigate actualizada.
13
Resumen de la leccin
Esta leccin explica cmo configurar la etapa Investigate a travs del conjunto de reglas USNAME. Usted ha aprendido a configurar la etapa Investigate del trabajo Investigate a travs de las siguientes tareas: v Seleccionar las columnas a investigar v Seleccionar una regla del conjunto de reglas v Correlacionar las columnas de salida
para ubicar un conjunto de 5. En el campo Conjunto de reglas:, pulse reglas para InvestigateCityStateZip. a. En la ventana Conjuntos de reglas efecte una doble pulsacin en la carpeta Reglas de estandarizacin para abrir el rbol Reglas de estandarizacin. b. Efecte una doble pulsacin en la carpeta USA y efecte otra doble pulsacin en la carpeta USAREA y seleccione el archivo USAREA. El conjunto de reglas USAREA analiza las columnas Ciudad, Estado, Zip5 y Zip4 de conformidad con la normativa postal de los Estados Unidos. c. Pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. d. Pulse Aceptar para salir de la ventana Conjuntos de reglas. Aparecer USAREA.SET en el campo Conjunto de reglas.
14
6. Pulse los recuadros de seleccin Informe de seales y Informe de patrones en la seccin Conjunto de datos de salida de la ventana. Al asignar datos a 2 salidas debe verificar que la ordenacin de enlaces es correcta. La ordenacin de enlaces garantiza que los datos son enviados a los informes correctos a travs de los enlaces asignados que usted mismo ha nombrado en la Leccin 1.2. El separador Ordenacin de enlaces no se muestra si solamente hay un enlace. 7. Si necesita cambiar el orden de visualizacin de los enlaces, pulse el separador Propiedades de etapa Ordenacin de enlaces y seleccione el enlace de salida que desea mover. 8. Desplace los enlaces hacia arriba o hacia abajo tal y como se describe a continuacin:
v Pulse el
v Pulse el
9. Pulse el separador Salida Correlacin. Puesto que existen dos enlaces de salida desde la segunda etapa Investigate, debe correlacionar las columnas a cada enlace: a. En el campo Nombre de salida encima del panel Columnas, seleccione PatternReport. b. Seleccione el panel Columnas. c. Pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. d. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. e. Seleccione el panel PatternReport, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajo. Las columnas estn correlacionadas con el enlace de salida PatternReport. f. En el campo Nombre de salida encima del panel Columnas, seleccione TokenReport. g. Repita los pasos de b a e, excepto el paso e, donde debe seleccionar el panel TokenReport. 10. Pulse Aceptar hasta cerrar la ventana InvestigateCityStateZip.
Resumen de la leccin
Esta leccin le ha explicado cmo configurar la segunda etapa Investigate al conjunto de reglas AREA. Ha aprendido a configurar la segunda etapa Investigate del trabajo Investigate mediante los siguientes temas: v Seleccionar las columnas a investigar v Seleccionar una regla del conjunto de reglas
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage
15
v Verificar la ordenacin de enlaces de los informes de salida v Correlacionar las columnas de salida a dos enlaces de salida
16
3. Pulse Herramientas Ejecutar Director. Se abrir la aplicacin del Director mostrando el trabajo en la vista de estado. para abrir la ventana Opciones de ejecucin del trabajo. 4. Pulse el 5. Pulse Ejecutar. Tras ejecutar el trabajo, aparecer Finalizado en la columna Estado.
Mdulo 1: Resumen
En el Mdulo 1 ha establecido, configurado y procesado un trabajo Investigate en Diseador de IBM InfoSphere DataStage y QualityStage. Un trabajo Investigate busca cada registro columna por columna y analiza el contenido de los datos de las columnas que usted ha seleccionado. El trabajo Investigate carga los datos de origen de nombres y direcciones almacenados en la base de datos del banco, analiza las columnas en un formato que pueda ser analizado y organiza los datos en tres archivos de datos. El trabajo Investigate convierte los datos de origen sin formato en datos legibles que puede configurar como informes Investigation mediante Consola web de IBM InfoSphere Information Server. Debe seleccionar los Informes de QualityStage para acceder a la interfaz de informes de la consola Web. El siguiente mdulo organiza los datos sin formato en datos estandarizados que proporcionan datos utilizables para la coincidencia y la supervivencia.
Lecciones aprendidas
Una vez completado este mdulo, usted habr aprendido los siguientes conceptos y tareas: v Cmo establecer y enlazar etapas en un trabajo de manera que los datos se propaguen de una etapa a la etapa posterior v Cmo configurar las propiedades de la etapa para aplicar el conjunto de reglas correcto al analizar los datos v Cmo compilar y ejecutar un trabajo v Cmo generar datos para anlisis
17
duplicadas y garantizar que una direccin corresponde a un cliente en concreto sera muy difcil si no se estandarizaran antes los datos. La estandarizacin o el condicionamiento garantizan que los datos de origen son coherentes internamente, es decir, cada tipo de datos incluye el mismo tipo de contenido y est en el mismo formato. Cuando utiliza datos coherentes el sistema puede hacer coincidir los datos de direcciones con mayor precisin utilizando una de las etapas Match.
Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir etapas y enlaces a un trabajo Standardize 2. Configurar las propiedades de las distintas etapas para procesar correctamente los datos al ejecutar el trabajo 3. Trabajar con nulos de manejo mediante derivaciones 4. Generar la distribucin de frecuencia para datos estandarizados El tiempo para completar este mdulo es de 60 minutos aproximadamente.
18
3. Pulse con el botn derecho del ratn el icono Archivo secuencial y arrstrelo para crear un enlace del icono Archivo secuencial al icono de la etapa Standardize. 4. Arrastre los enlaces a las etapas restantes, del mismo modo que en el paso 3. Si el enlace es rojo, plselo para activarlo y arrstrelo hasta que llegue a la etapa. Tiene que volverse de color negro. Una vez enlazados todos los iconos del lienzo, puede pulsar sobre una etapa y arrastrarla para cambiar su posicin. 5. Pulse en los nombres de las siguientes etapas e introduzca el nombre nuevo de la etapa en el recuadro resaltado:
Etapa SequentialFile etapa Standardize Etapa Transformer Etapa Copy Archivo Conjunto_Datos (la salida de la etapa Copy) etapa Match Frequency Archivo Conjunto_Datos (la salida de la etapa Match Frequency) Cambiar a Cliente Estandarizar CrearColumnasAdicionales Copiar Estndar FrecuenciaCoincidencia Frecuencias
6. Pulse con el botn derecho del ratn los nombres de los siguientes enlaces, seleccione Renombrar e introduzca el nuevo nombre del enlace en el recuadro resaltado:
Enlace De Cliente a Standardize De Standardize a CreateAdditionalColumns De CreateAdditionalColumns a Copiar De Copy a Stan De Copy a MatchFrecuency De MatchFrequency a Frequencies Cambiar a Entrada Estandarizado Copiar DatosEstandarizados MatchFrequency Frequencies
19
20
5. Pulse el separador Nuevo Proceso para abrir la ventana Proceso de reglas Standardize. 6. En el campo Conjunto de reglas pulse Reglas Standardize EEUU y seleccione el conjunto de reglas USADDR. 7. Seleccione los siguientes nombres de columnas en el panel Columnas Disponibles y muvalas al panel Columnas Seleccionadas: v LneaDireccin1 v LneaDireccin2 8. Pulse Aceptar.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage
21
9. Pulse el separador Nuevo Proceso para abrir la ventana Proceso de reglas Standardize. 10. En el campo Conjunto de reglas pulse Reglas Standardize USA y seleccione el conjunto de reglas USAREA. 11. Seleccione los siguientes nombres de columnas en el panel Columnas Disponibles y muvalas al panel Columnas Seleccionadas: v v v v Ciudad Regin Zip5 Zip4
Nota: Mantenga el orden de las columnas. Zip5 debe preceder a Zip4. 12. Pulse Aceptar. 13. Pulse el separador Nuevo Proceso para abrir la ventana Proceso de reglas Standardize. 14. En el campo Conjunto de reglas, pulse Reglas de estandarizacin EEUU y seleccione el conjunto de reglas USTAXID. 15. Seleccione el siguiente nombre de columna en el panel Columnas disponibles y muvalas al panel Columnas seleccionadas: v ApplicantSSN 16. Pulse Aceptar. 17. Correlacione las columnas de salida de la etapa Standardize. a. Pulse el separador Propiedades de etapa. b. Pulse el separador Salida Correlacin. c. En el panel Columnas pulse el botn derecho del ratn y seleccione Seleccionar todo en el men de atajos. d. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. e. Vaya al panel Standardizado, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 18. Guarde las definiciones de tabla en la carpeta Definiciones de tabla a. Pulse el separador Columnas. b. Pulse Guardar para abrir la ventana Guardar definiciones de tabla con el nombre del archivo que aparece en el campo Nombre de archivo/tabla. c. En el campo Tipo de origen de datos introduzca Definiciones de Tabla. d. En el campo Nombre origen de datos introduzca QualityStage. e. En el campo Nombre de archivo/tabla introduzca Standardized. f. Guarde las definiciones de tabla de Standardization en la carpeta Definicin de tabla que est en un nivel inferior a la carpeta del proyecto, por ejemplo, Gua de aprendizaje Definiciones de tabla. g. Confirme los cambios y salga de las ventanas. Ha configurado la etapa Standardize para aplicar los conjuntos de reglas USNAME, USADDR, USAREA y USTAXID a los datos de cliente y ha guardado las definiciones de tabla.
22
Para configurar las propiedades de la etapa Transformer: 1. Efecte una doble pulsacin sobre el icono de la etapa CreateAdditionalColumns para abrir la ventana Etapa Transformer. 2. En la seccin superior de la ventana, pulse con el botn derecho del ratn en la columna Standardized y seleccione Seleccionar todo en el men de atajo para resaltar todas las columnas de la columna Standardized. 3. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. 4. Vaya al panel ACopia en la seccin superior de la ventana, pulse el botn derecho del ratn y seleccione Pegar columna en el men de atajos. La correlacin de columnas de entrada a derivaciones especificadas debera tener este aspecto:
5. En la seccin inferior derecha de la ventana seleccione la fila superior, fila 1, del panel ACopia y aada tres derivaciones y columnas a la etapa CreateAdditionalColumns: a. Pulse con el botn derecho del ratn la fila y seleccione Insertar fila en el men de atajos. b. Aada dos filas ms mediante el procedimiento explicado en el paso a. c. Pulse con el botn derecho del ratn la fila insertada superior y seleccione Editar fila en el men de atajos para abrir la ventana Editar Metadatos de Columna. d. En el campo Nombre de columna introduzca MatchFirst1. e. En el campo Tipo de SQL seleccione VarChar. En el campo Longitud seleccione 1. En el campo Posibilidades de nulos seleccione S. Pulse Aplicar y, posteriormente, pulse Cerrar para cerrar la ventana. Pulse con el botn derecho del ratn la siguiente fila y seleccione Editar fila en el men de atajos. j. En el campo Nombre de columna introduzca HouseNumberFirstChar. k. Repita los subpasos del e hasta el h. f. g. h. i.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage
23
l. Pulse con el botn derecho del ratn la ltima fila nueva y seleccione Editar fila en el men de atajos. m. En el campo Nombre de columna introduzcaZipCode3. n. Repita los subpasos del e hasta el h, pero en el campo Longitud seleccione 3. La correlacin de columnas de entrada a derivaciones especificadas debera tener este aspecto:
6. Aadir derivaciones a las columnas: a. Efecte una doble pulsacin en la celda que se encuentra en la columna Derivacin y en la misma fila que la columna MatchFirst1, en la ventana ACopia. Escriba la derivacin: if IsNull(Standardized.MatchFirstName_USNAME) then Setnull() Else Standardized.MatchFirstName_USNAME[1,1]. Esta expresin detecta si la columna MatchFirstName contiene un nulo. Si la columna contiene un nulo, lo maneja. Si la columna contiene una serie, extrae el primer carcter y lo graba en la columna MatchFirst1.
24
b. Repita el subpaso a en la columna HouseNumberFirstChar y escriba el derivativo: if IsNull(Standardized.HouseNumber_USADDR) then Setnull() Else Standardized.HouseNumber_USADDR[1,1]. c. Repita el subpaso a en la columna ZipCode3 y escriba el derivativo: if IsNull(Standardized.ZipCode_USAREA) then Setnull() Else Standardized.ZipCode_USAREA[1,3]. 7. Correlacione las tres derivaciones y las columnas a las columnas de entrada. a. Vaya al panel superior izquierdo y desplace el panel Standardized hasta que localice MatchFirstName_USNAME. b. Pulse y arrastre la celda al panel ToCopy y a la celda que contiene Standardized.MatchFirstName_USNAME. c. Cuando se le solicite que ignore los datos existentes, pulse S. d. Repita los pasos del a al c para HouseNumber_USADDR y ZipCode_USAREA, emparejando los nombres de columna del panel Standardized con las columnas de nombre similar en el panel ToCopy. e. Pulse Aceptar para cerrar la ventana Etapa Transformer.
25
v qsFreqColumnID v qsFreqHeaderFlag Para configurar la etapa Match Frequency: 1. Efecte una doble pulsacin en el icono de etapa Match Frequency para abrir la ventana Etapa Match Frequency. 2. Seleccione el recuadro de seleccin No utilizar una especificacin de coincidencia. En este momento usted desconoce qu columnas se utilizan en la especificacin de coincidencia. 3. Pulse el separador Propiedades de etapa. 4. Pulse el separador Salida Correlacin. a. En el campo Nombre de salida seleccione Frecuencias. b. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. c. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. d. Vaya al panel Frecuencias, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 5. Crear las definiciones de tabla de Match Frequency: a. Pulse el separador Columnas. b. Pulse Guardar. Se abrir la ventana Guardar definiciones de tabla. c. Pulse Aceptar para abrir la ventana Guardar definiciones de tabla como. d. En el campo Nombre de elemento, escriba ToFrequencies. El cliente del Diseador puede recuperar la definicin de tabla de cualquier carpeta en la que guarde las definiciones de tabla. Para esta gua de aprendizaje, se guardan las definiciones de tabla en la carpeta Definicin de tabla que est en un nivel inferior a la carpeta del proyecto, por ejemplo, Gua de aprendizaje Definiciones de tabla. e. Pulse Guardar. 6. Pulse Aceptar para cerrar el separador Salida Columna y la etapa Match Frequency. 7. Pulse Aceptar para cerrar la etapa.
26
El trabajo estandariza los datos de acuerdo con las reglas aplicadas y aade columnas de coincidencia adicionales a los metadatos. Los datos se graban en dos conjuntos de datos de destino, que sirven como archivos de origen para un trabajo posterior.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage
27
Mdulo 2: Resumen
En el Mdulo 2 usted ha establecido y configurado un trabajo Standardize. La ejecucin de un trabajo de Standardize condiciona los datos a fin de garantizar que todos los datos de nombres y direcciones de clientes incluyen el mismo contenido y estn en el mismo formato. El trabajo de Standardize carga los datos de origen de nombres y direcciones almacenados en la base de datos del banco y aade definiciones de tabla a fin de organizar los datos en un formato que pueda ser analizado por el conjunto de reglas. El proceso de la etapa Transformer aumenta el nmero de columnas y se generan datos de frecuencia para su entrada en el trabajo de coincidencia.
Lecciones aprendidas
Una vez completado este mdulo, usted habr aprendido los siguientes conceptos y tareas: v Cmo generar datos estandarizados de manera que los registros coincidan correctamente v Cmo ejecutar las etapas de IBM InfoSphere DataStage y Data Quality conjuntamente en un trabajo v Cmo aplicar conjuntos de reglas de pas o regin para analizar los datos de direcciones v Cmo utilizar derivaciones para manejar nulos v Cmo generar datos que puedan utilizarse luego como datos de origen en un trabajo posterior
28
La etapa de coincidencia asegura la integridad de los datos, ya que se aplica tecnologa de coincidencia probabilstica. Esta tecnologa se aplica a los atributos relevantes para evaluar columnas, componentes de columnas o caracteres individuales definidos por usted. Adems, puede aplicar pesos de acuerdo o desacuerdo a elementos de datos clave.
Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir enlaces y etapas de IBM InfoSphere DataStage a un trabajo 2. Aadir datos estandarizados y de frecuencia como archivos de origen 3. Configurar propiedades de etapa para especificar qu accin realizan al ejecutar el trabajo 4. Eliminar las direcciones duplicadas despus del primer pase 5. Aplicar una especificacin de coincidencia para determinar cmo se seleccionan las coincidencias 6. Canalizar los datos de atributos comunes a un archivo de destino independiente El tiempo para completar este mdulo es de 30 minutos aproximadamente.
29
3. Pulse con el botn derecho del ratn el icono Conjunto de datos de la parte superior y arrstrelo para crear un enlace de este conjunto de datos a la etapa Unduplicate Match. Nota: El orden en que cree los enlaces afectar a la ejecucin satisfactoria del trabajo. Ms adelante en esta gua de aprendizaje, modificar propiedades de etapas para poder cambiar el orden de algunos de los enlaces. 4. Arrastre los enlaces a las etapas restantes. Arrastre dos enlaces desde la etapa Unduplicate Match a la etapa Funnel. 5. Pulse en los nombres de las siguientes etapas e introduzca el nombre nuevo de la etapa en el recuadro resaltado:
Etapa Conjunto de datos de la parte superior izquierda Conjunto de datos de la parte inferior izquierda Coincidencia sin duplicados Funnel Archivo secuencial de la parte superior derecha Archivo secuencial de la parte central derecha Archivo secuencial de la parte inferior derecha Cambiar a Frecuencias Standardized Unduplicate CollectMatched MatchedOutput_csv ClericalOutput_csv NonMatchedOutput_csv
6. Pulse con el botn derecho del ratn los nombres de los siguientes enlaces, seleccione Renombrar en el men de atajos e introduzca el nombre nuevo de cada enlace en el recuadro resaltado:
Enlaces De Frequencies a Unduplicate De Standardized a Unduplicate De Unduplicate a CollectMatched De Unduplicate a CollectMatched De CollectMatched a MatchOutput_csv De Unduplicate a ClericalOutput_csv De Unduplicate a NonMatchedOutput_csv Cambiar a MatchFrequencies StandardizedData MatchedData Duplicates MatchedOutput Clerical NonMatched
30
Leccin 3.2: Configurar las propiedades de etapa del trabajo Unduplicate Match
Configure las propiedades de cada etapa del trabajo Unduplicate Match en el lienzo del Diseador. Complete las siguientes tareas para configurar el trabajo Unduplicate Match: v Cargue los datos y metadatos de los dos archivos de origen v Aplique una Especificacin de coincidencia al trabajo Unduplicate Match y seleccione los enlaces de salida v Combine los registros sin ordenar Para configurar los conjutos de datos Frequencies y Standarized: 1. Efecte una doble pulsacin en el icono de conjunto de datos Frequencies para abrir el separador Propiedades en la ventana Frequencies - Conjunto de datos. 2. Pulse Archivo Origen. y vaya hasta la va de acceso de la carpeta 3. En el campo Archivo, pulse en el sistema servidor donde reside el archivo de datos de entrada. 4. En el campo Nombre del archivo introduzca Frequencies. (Por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\Frequencies). 5. Pulse Aceptar para abrir la ventana.
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage
31
6. Pulse el separador Columnas y pulse Cargar. Se abrir la ventana Definiciones de tabla. 7. Seleccione el archivo Carpeta_proyecto Definiciones de tabla ToFrequencies1 y pulse Aceptar. 8. Confirme los cambios y salga de las ventanas. Las definiciones de tabla se cargan en el separador Columnas del archivo de origen. 9. Efecte una doble pulsacin en el icono de conjunto de datos Standardized. 10. Repita los pasos del 2 al 9, pero introduzca Stan en el paso 4 y seleccione el archivo StandardizedData1 en el paso 7. Los datos del trabajo Standardize se cargan en los archivos de origen del trabajo Unduplicate Match.
32
9. Pulse el separador Salida Correlacin y correlacione las siguientes columnas con los enlaces correctos: a. En el campo Nombre de la salida sobre el panel Columnas seleccione MatchedData . b. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. c. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. d. Vaya al panel MatchedData, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. e. Seleccione Duplicates en el campo Nombre de la salida sobre el panel Columnas. f. Repita los pasos del b al d con los datos de Duplicates. g. Seleccione Clerical en el campo Nombre de la salida sobre el panel Columnas. h. Repita los pasos del b al d con los datos de Clerical. i. Seleccione NonMatched en el campo Nombre de la salida sobre el panel Columnas. j. Repita los pasos del b al d con los datos de Nonmatched. 10. Pulse Aceptar para cerrar la ventana Propiedades de etapa. 11. Pulse Aceptar para cerrar la etapa.
33
9. Pulse el separador Salida Correlacin. 10. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. 11. Pulse el botn derecho del ratn y seleccione Copiar en el men de atajos. 12. Vaya a la columna MatchedOutput, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 13. Pulse Aceptar para cerrar la ventana de la etapa.
34
3. En el campo Archivo pulse el y examine la carpeta en el sistema servidor donde reside el archivo de datos de entrada. 4. En el campo Nombre del archivo introduzca MatchedOutput.csv para visualizar la va de acceso y el nombre del archivo en el campo Archivo, (por ejemplo, C:\IBM\InformationServer\Server\Projects\tutorial\ MatchedOutput.csv). 5. Pulse Opciones , la primera lnea es Nombres de columna y cambie el valor a True. 6. Pulse el separador Formato, pulse con el botn derecho Valores predeterminados del campo en el campo Propiedades. 7. Pulse Aadir subpropiedad en el men y seleccione Valor de campo nulo. 8. Escriba unas comillas dobles (sin espacios) en el campo Valor de campo nulo. 9. Guarde las definiciones de tabla. a. Pulse el separador Columnas. b. Pulse Guardar para abrir la ventana Guardar definiciones de tabla. c. En el campo Tipo de origen de datos introduzca Definiciones de Tabla. d. En el campo Nombre de origen de datos introduzca MatchedOutput1. e. En el campo Tabla/nombre del archivo introduzca MatchedOutput1. f. Pulse Aceptar para abrir la ventana Guardar definicin de tabla como . g. Pulse Guardar para guardar la definicin de tabla y cerrar la ventana Guardar definicin de tabla como. h. Pulse Aceptar para cerrar la ventana de la etapa. 10. Repita los pasos del 1 al 9 con cada uno de los archivos de destino siguientes: v Para el archivo ClericalOutput_csv, introduzca ClericalOutput.csv y Clerical1 en los campos correspondientes. v Para el archivo NonMatchedOutput_csv, escriba NonMatchedOutput.csv y NonMatched1 en los campos adecuados. 11. Pulse Archivo Guardar para guardar el trabajo. para compilar el trabajo en el cliente del Diseador de IBM 12. Pulse el InfoSphere DataStage y QualityStage. 13. Pulse Herramientas Ejecutar Director para abrir el Director de Director de IBM InfoSphere DataStage y QualityStage. Se abrir el Director mostrando el trabajo Unduplicate en la ventana del Director con el estado Compilado. 14. Pulse el .
35
Usted ha aprendido a separar los registros de salida de la etapa Unduplicate Match en varios archivos de destino.
Mdulo 3: Resumen
En el Mdulo 3 ha establecido y configurado un trabajo utilizando la etapa de Unduplicate Match para consolidar los datos de nombres y direcciones coincidentes y duplicados en un archivo. Al crear un trabajo de etapasUnduplicate, usted ha aadido una especificacin de coincidencia para aplicar los criterios de bloqueo y coincidencia a los datos estandarizados y de frecuencia creados en el trabajo Standardize. Tras haber aplicado la especificacin de coincidencia, los registros resultantes se envan a travs de cuatro enlaces de salida, uno por cada tipo de registro. Las coincidencias y duplicados se envan a una etapa Funnel que combina los registros en una salida que se graba en un archivo. Los registros no coincidentes o residuales se envan a un archivo, ya que son registros de salida administrativos.
Lecciones aprendidas
Una vez completado el Mdulo 3, usted habr aprendido los siguientes conceptos y tareas: v Cmo aplicar una especificacin de coincidencia a la etapa Unduplicate v Cmo agrupa la etapa Unduplicate registros con atributos similares v Cmo asegurar la integridad de los datos aplicando la tecnologa de coincidencia probabilstica
Objetivos de aprendizaje
Una vez completadas las lecciones de este mdulo, deber saber cmo llevar a cabo las siguientes tareas: 1. Aadir etapas y enlaces a un trabajo Survive
36
2. Elegir la columna seleccionada 3. Aadir las reglas 4. Correlacionar las columnas de salida El tiempo para completar este mdulo es de 20 minutos aproximadamente.
6. Pulse con el botn derecho del ratn los nombres de los siguientes enlaces, seleccione Renombrar en el men de atajos e introduzca el nombre nuevo de cada enlace en el recuadro resaltado:
Enlaces De MatchedOutput a Survive De Survive a Survived_csv Cambiar a MatchesAndDuplicates Survived
37
38
10. Pulse el archivo Carpeta_proyecto Definiciones de tabla MatchedOutput1. Las definiciones de tabla se cargan en el separador Columnas del archivo de origen. 11. Confirme los cambios y salga de las ventanas. Usted ha adjuntado el archivo MatchedOutput.csv y ha cargado las Definiciones de tabla al archivo MatchedOutput.
Puede visualizar las reglas que ha aadido en la cuadrcula Survive. 9. En la seccin Seleccionar columna de datos de identificacin del grupo pulse la Columna seleccionada qsMatchSetID de la lista 10. Pulse el separador Propiedades de etapa Salida Correlacin .
Gua de aprendizaje de trabajos paralelos de IBM InfoSphere QualityStage
39
11. Pulse con el botn derecho del ratn el panel Columnas y seleccione Seleccionar todo en el men de atajos. 12. Seleccione Copiar en el men de atajos. 13. Vaya al panel Survived, pulse el botn derecho del ratn y seleccione Pegar Columna en el men de atajos. 14. Confirme los cambios y salga de las ventanas.
10. Pulse el
40
11. Pulse Herramientas Ejecutar Director para abrir el Director de DataStage. Se abrir el Director mostrando el trabajo Standardize en la ventana del Director con el estado Compilado. 12. Pulse Ejecutar.
Mdulo 4: Resumen
En el Mdulo 4 ha completado el ltimo trabajo del flujo de trabajo de IBM InfoSphere QualityStage. En este mdulo usted ha establecido y configurado el trabajo Survive para seleccionar el mejor registro de datos de nombres y direcciones coincidentes y duplicados que usted mismo ha creado en la etapa Unduplicate Match. Al configurar la etapa Survive, usted ha seleccionado una regla, ha incluido columnas del archivo de origen, ha aadido una regla a cada columna y ha aplicado los datos. Una vez la etapa Survive ha procesado los registros para seleccionar el mejor registro, la informacin se enva al archivo de salida.
Lecciones aprendidas
Al completar el Mdulo 4, habr aprendido los siguientes conceptos y tareas: v Cmo utilizar la etapa Survive para crear el mejor candidato de un registro v Cmo aplicar reglas simples a los valores de columna
41
Lecciones aprendidas
Una vez completada esta gua de aprendizaje, usted habr aprendido los siguientes conceptos y tareas: v Acerca del flujo de trabajo de InfoSphere QualityStage v Cmo configurar un trabajo de InfoSphere QualityStage v Cmo sirven los datos creados en un trabajo como datos de origen para el trabajo siguiente v Cmo crear datos de calidad mediante InfoSphere QualityStage
42
Soporte al cliente
Para obtener soporte al cliente para productos de IBM y para obtener informacin para la descarga de productos, vaya al sitio de soporte y descargas: www.ibm.com/support/. Puede abrir una solicitud de soporte accediendo al sitio de solicitud de servicio de software: www.ibm.com/software/support/probsub.html.
Mi IBM
Puede gestionar enlaces a sitios web de IBM y a informacin que satisfaga sus necesidades especficas de soporte tcnico creando una cuenta en el sitio Mi IBM: www.ibm.com/account/.
Servicios de software
Para obtener informacin sobre servicios de software, de tecnologas de la informacin y de consultora empresarial, vaya el sitio de soluciones: www.ibm.com/businesssolutions/.
Informacin general
Para encontrar informacin general sobre IBM, vaya a www.ibm.com.
43
Tambin puede enviar sus comentarios sobre los manuales en archivos PDF, el Information Center o cualquier otra documentacin de los siguientes modos: v Formulario de comentarios del lector en lnea: www.ibm.com/software/data/ rcf/ v Correo electrnico: comments@us.ibm.com
44
45
Puede enviar sus comentarios sobre la documentacin de los modos siguientes: v Formulario de comentarios del lector en lnea: www.ibm.com/software/data/ rcf/ v Correo electrnico: comments@us.ibm.com
46
Si aparece un elemento opcional sobre la lnea principal, dicho elemento no tendr efecto sobre el elemento de sintaxis y slo se utilizar para facilitar la lectura.
elemento_opcional elemento_necesario
v Si se puede elegir entre dos o ms elementos, stos aparecern apilados verticalmente. Si se debe elegir uno de los elementos, un elemento de la pila aparece en la lnea principal.
elemento_necesario opcin_necesaria1 opcin_necesaria2
Si la eleccin de uno de los elementos es opcional, toda la pila aparecer por debajo de la lnea principal.
elemento_necesario opcin_opcional1 opcin_opcional2
Si uno de los elementos es el predeterminado, aparecer por encima de la lnea principal y las opciones restantes se mostrarn por debajo.
opcin_predeterminada elemento_necesario opcin_opcional1 opcin_opcional2
47
v Una flecha que vuelve hacia la izquierda, sobre la lnea principal, indica un elemento que se puede repetir.
elemento_necesario
elemento_repetible
Si la flecha de repeticin contiene una coma, los elementos repetidos se deben separar mediante una coma.
, elemento_necesario elemento_repetible
Una flecha de repeticin sobre una pila indica que los elementos de la pila se pueden repetir. v A veces, un diagrama se debe dividir en fragmentos. El fragmento de sintaxis se muestra por separado del diagrama de sintaxis principal, pero el contenido del fragmento se debe leer como si formara parte de la lnea principal del diagrama.
elemento_necesario nombre-fragmento
Nombre-fragmento:
elemento_necesario elemento_opcional
v Las palabras clave, y sus abreviaturas mnimas si las hay, aparecen en maysculas. Se deben escribir exactamente tal como se muestran. v Las variables aparecen en letras minsculas en cursiva (por ejemplo, nombre-columna). Representan nombres o valores proporcionados por el usuario. v Separe las palabras clave y los parmetros con un espacio como mnimo si no se muestra ningn signo de puntuacin en el diagrama. v Entre los signos de puntuacin, parntesis, operadores aritmticos y otros smbolos exactamente como se muestran en el diagrama. v Las notas a pie de pgina se muestran mediante un nmero entre parntesis, por ejemplo (1).
48
Documentacin accesible
Se proporciona documentacin accesible sobre los productos de InfoSphere Information Server en un Information Center. El Information Center presenta la documentacin en formato XHTML 1.0, que se puede ver en la mayora de navegadores web. El formato XHTML permite establecer propiedades de visualizacin en el navegador. Tambin permite utilizar lectores de pantalla y otras tecnologas de asistencia para acceder a la documentacin.
IBM y la accesibilidad
Consulte el IBM Human Ability and Accessibility Center para obtener ms informacin sobre el compromiso de IBM con respecto a la accesibilidad:
49
50
Avisos
Es posible que IBM no comercialice en otros pases los productos, servicios o caractersticas que se describen en este manual. Consulte al representante local de IBM para obtener informacin sobre los productos y servicios que actualmente pueden adquirirse en su zona. Cualquier referencia a un producto, programa o servicio de IBM no pretende afirmar ni implicar que slo se pueda utilizar dicho producto, programa o servicio de IBM. En su lugar se puede utilizar cualquier producto, programa o servicio funcionalmente equivalente que no vulnere ninguno de los derechos de propiedad intelectual de IBM. Sin embargo, es responsabilidad del usuario evaluar y verificar el funcionamiento de cualquier producto, programa o servicio que no sea de IBM. IBM puede tener patentes o solicitudes de patentes en tramitacin que afecten al tema tratado en este documento. La posesin de este documento no otorga ninguna licencia sobre dichas patentes. Puede enviar consultas sobre licencias, por escrito, a la siguiente direccin: IBM Director of Licensing IBM Corporation North Castle Drive Armonk, NY 10504-1785 EE. UU. Para formular consultas relacionadas con el juego de caracteres de doble byte (DBCS), pngase en contacto con el departamento de la propiedad intelectual de IBM de su pas o enve las consultas, por escrito, a la siguiente direccin: Intellectual Property Licensing Legal and Intellectual Property Law IBM Japan Ltd. 1623-14, Shimotsuruma, Yamato-shi Kanagawa 242-8502 Japn El prrafo siguiente no es aplicable al Reino Unido ni a ningn pas en donde tales disposiciones sean incompatibles con la legislacin local: INTERNATIONAL BUSINESS MACHINES CORPORATION PROPORCIONA ESTA PUBLICACIN TAL CUAL, SIN GARANTA DE NINGUNA CLASE, NI EXPLCITA NI IMPLCITA, INCLUIDAS, PERO SIN LIMITARSE A ELLAS, LAS GARANTAS IMPLCITAS DE NO VULNERACIN DE DERECHOS, COMERCIALIZACIN O IDONEIDAD PARA UN FIN DETERMINADO. Algunos estados no permiten la declaracin de limitacin de responsabilidad de garantas expresas o implcitas en determinadas transacciones. Por consiguiente, es posible que esta declaracin no se aplique en su caso. Esta informacin podra contener imprecisiones tcnicas o errores tipogrficos. La informacin de este documento est sujeta a cambios peridicos; dichos cambios se incorporarn en nuevas ediciones de la publicacin. Es posible que IBM realice
51
mejoras o efecte cambios en el(los) producto(s) y/o el(los) programa(s) descritos en esta publicacin en cualquier momento sin previo aviso. Las referencias hechas en esta publicacin a sitios Web que no son de IBM se proporcionan slo para la comodidad del usuario y no constituyen un aval de esos sitios Web. La informacin contenida en estos sitios Web no forma parte de la informacin del presente producto IBM, y el usuario es responsable de la utilizacin de dichos sitios. IBM puede utilizar o distribuir cualquier informacin que se le facilite de la manera que considere adecuada, sin contraer por ello ninguna obligacin con el remitente. Los licenciatarios de este programa que deseen obtener informacin sobre l con el fin de habilitar: (i) el intercambio de informacin entre programas creados de forma independiente y otros programas (incluido ste) y (ii) el uso mutuo de la informacin intercambiada, deben ponerse en contacto con: IBM Corporation J46A/G4 555 Bailey Avenue San Jos, CA 95141-1003 EE.UU. Dicha informacin puede estar disponible, sujeta a los trminos y condiciones apropiados, incluido en algunos casos el pago de una tarifa. El programa bajo licencia descrito en este documento y todo el material bajo licencia asociado a l los proporciona IBM segn los trminos del Acuerdo de Cliente de IBM, el Acuerdo Internacional de Programas Bajo Licencia de IBM o cualquier acuerdo equivalente entre el usuario e IBM. Los datos de rendimiento contenidos en este documento se obtuvieron en un entorno controlado. Por consiguiente, es posible que los resultados obtenidos en otros entornos operativos varen de forma significativa. Algunas mediciones pueden haberse realizado en sistemas experimentales y no es seguro que estas mediciones sean las mismas en los sistemas disponibles comercialmente. Adems, algunas mediciones pueden haberse calculado mediante extrapolacin. Los resultados reales pueden variar. Los usuarios del presente manual deben verificar los datos aplicables para su entorno especfico. La informacin relacionada con productos ajenos a IBM se ha obtenido a partir de los proveedores de dichos productos, los anuncios que han publicado u otras fuentes de dominio pblico. IBM no ha probado dichos productos ni puede confirmar la precisin del rendimiento, la compatibilidad ni ninguna otra afirmacin sobre productos ajenos a IBM. Las preguntas sobre las prestaciones de productos que no son de IBM deben dirigirse a los proveedores de esos productos. Todas las declaraciones de intenciones de IBM estn sujetas a cambio o cancelacin sin previo aviso, y slo representan objetivos. Esta informacin slo tiene como objeto la planificacin. La informacin de este documento est sujeta a cambios antes de que los productos descritos estn disponibles. Este manual contiene ejemplos de datos e informes que se utilizan en operaciones comerciales diarias. Para ilustrarlos de la forma ms completa posible, los ejemplos
52
incluyen nombres de personas, empresas, marcas y productos. Todos estos nombres son ficticios y cualquier similitud con nombres y direcciones utilizados por una empresa real es totalmente fortuita. LICENCIA DE COPYRIGHT: Esta informacin contiene programas de aplicacin de ejemplo en cdigo fuente que ilustran tcnicas de programacin en diferentes plataformas operativas. Puede copiar, modificar y distribuir estos programas de ejemplo de cualquier forma, sin pagar a IBM, con la finalidad de desarrollar, utilizar o distribuir programas de aplicacin que se ajusten a la interfaz de programacin de aplicaciones para la plataforma operativa para la que se han escrito los programas de ejemplo. Estos ejemplos no se han probado exhaustivamente bajo todas las condiciones. Por lo tanto, IBM no puede asegurar ni implicar la fiabilidad, utilidad o funcin de estos programas. Los programas de ejemplo se proporcionan "tal como estn", sin garantas de ningn tipo. IBM no se hace responsable de los daos que se hayan podido causar debido al uso de los programas de ejemplo. Todas las copias o partes de estos programas de ejemplo, o cualquier trabajo derivado, debern incluir un aviso de copyright como el siguiente: (nombre de la empresa) (ao). Partes de este cdigo provienen de programas de ejemplo de IBM Corp. Copyright IBM Corp. _entrar el ao o los aos_. Reservados todos los derechos. Si est visualizando esta informacin en copia software, es posible que las fotografas o las ilustraciones en color no aparezcan.
Marcas registradas
IBM, el logotipo de IBM e ibm.com son marcas registradas de International Business Machines Corp. en muchos pases o regiones de alrededor del mundo. Otros nombres de productos y servicios pueden ser marcas registradas de IBM u otras empresas. Encontrar una lista actualizada de las marcas registradas de IBM en www.ibm.com/legal/copytrade.shtml. Los trminos siguientes son marcas registradas de otras compaas: Adobe es una marca registrada de Adobe Systems Incorporated en los Estados Unidos y/o en otros pases. Linux es una marca registrada de Linus Torvalds en los Estados Unidos y/o otros pases. Microsoft, Windows, Windows NT y el logotipo de Windows son marcas registradas de Microsoft Corporation en los Estados Unidos y/o otros pases. UNIX es una marca registrada de The Open Group en Estados Unidos y en otros pases. Java y todas las marcas basadas en Java son marcas registradas de Sun Microsystems, Inc. en los EE.UU. y/o otros pases. El servicio postal de los Estados Unidos (United States Postal Service) es propietario de las siguientes marcas registradas: CASS, CASS Certified, DPV, LACSLink, ZIP, ZIP + 4, ZIP Code, Post Office, Postal Service, USPS y United States
Avisos y marcas registradas
53
Postal Service. IBM Corporation tiene titularidad no exclusiva de licencias de DPV y LACSLink de United States Postal Service. Otros nombres de empresas, productos o servicios pueden ser marcas registradas o marcas de servicio de otros.
54
ndice A
accesibilidad documentacin 45 accesibilidad de los productos accesibilidad 49 anlisis de direcciones 14 analizar datos que estn en formato libre 7 analizar direcciones 14 archivo origen 11 Secuencial 11 archivo de origen configurar 11 renombrar 11 Archivo secuencial 16, 18 Archivos de destino de trabajo Unduplicate configuracin 34 atributos comunes, agrupar registros avisos legales 51 documentacin accesible 45 InfoSphere QualityStage etapa Survive 37, 38 etapa Unduplicate Match 29, 31 etapas 2 proyectos 2 Trabajo de etapas Survive 36 resumen 41 trabajo de etapas Unduplicate 33 resumen 36 trabajos 2 valor 1 investigacin de columnas de dominio nico 7
E
elementos del proyecto 2 enlaces, renombrar 9 Etapa Copy configuracin 11, 25 etapa Funnel, configuracin 33 etapa Investigate 7 configurar 12, 14 etapa Match Frequency columnas 25 configuracin 25 etapa Standardize configuracin 20 datos de condicionamiento 17 Estandarizar conjuntos de reglas 20 etapa Survive configuracin 37 renombrar enlaces y etapas 37 Etapa Unduplicate configuracin de archivos de destino 34 etapa Unduplicate Match configuracin 32 etapas Copiar 11, 18, 25 Frecuencia de coincidencia 18, 25 Investigate 7, 12 Standardize 18, 20 Transformer 18 etapas, renombrar 9
L
Leccin 1.1 8 Leccin 3.1, configurar un trabajo Unduplicate Match 29 Leccin 3.2, configuracin de los archivos de origen no duplicados 31 Leccin 3.3, configurar archivos de destino de un trabajo Unduplicate 34 Leccin 3.4, configuracin de la etapa Funnel 33 Leccin 4.2, configuracin del trabajo Survive 38 lectores de pantalla documentacin del producto 45 limpiar datos 1 limpieza de datos 1
28
C
carpeta de datos de la gua de aprendizaje crear 5 caso de ejemplo del proyecto de la gua de aprendizaje 3 columnas, correlacin 11 componentes cliente 3 componentes de la gua de aprendizaje importacin 7 componentes servidor 3 configuracin etapa Match Frequency 25 trabajo de etapa Investigate 8 trabajo Standardize 18 configurar etapa Copy 25 configurar gua de aprendizaje 5 Conjunto de reglas seleccionar 12 copiando metadatos 25 copiar datos de la gua de aprendizaje 5 correlacin de columnas 25 Correlacionar columnas 12 crear carpeta de datos de la gua de aprendizaje 5 crear proyecto de la gua de aprendizaje 5
M
metadatos 11 carga 11 Mdulo 2, acerca de 17 Mdulo 3 etapa Unduplicate Match 28 resumen del trabajo de etapas Unduplicate 36 Mdulo 4 resumen 41
G
gua de aprendizaje configuracin 5
I
importar componentes de la gua de aprendizaje 7 informe de patrones 8, 16 Informe de patrones de palabra 8 informe de seales 8, 16 informes configurar salida 16 patrn 7, 16 Patrn de palabra 8 seal 7, 16 Seal de palabra 8 informes de salida, configurar 16 InfoSphere DataStage Cliente del Diseador 1 crear un trabajo 6 etapa Copy 25 Etapa Copy 11
O
objetivos del proyecto de la gua de aprendizaje 3
P
Palabra 7 Paleta de herramientas del Diseador grupo de calidad de datos 2 proyecto de la gua de aprendizaje crear 5 proyectos 2 apertura 6 Puntos clave de la leccin 3.2 34
D
data analizar formato libre 7 standardize 17 datos de la gua de aprendizaje copiar 5 Diseador de InfoSphere DataStage
55
R
registros con atributos comunes 28
S
seleccionar Conjunto de reglas servicios de software 43 soporte cliente 43 soporte al cliente 43 12
T
trabajo de etapa Investigate configuracin 8 renombrar enlaces y etapas 9 trabajo de etapa Standardize configuracin 18 Trabajo de etapas Survive Mdulo 4 crear un registro nico 36 Mdulo 4: crear un registro nico resumen 41 Trabajo de etapas Unduplicate resumen 36 trabajo de etapas Unduplicate Match agrupar registros con atributos comunes 28 Trabajo de Supervivencia, configuracin 37 Trabajo paralelo guardar 6 trabajo Survive configuracin 38 Trabajo Unduplicate Match configuracin 29 configuracin de archivos de origen 31 Punto de comprobacin de la leccin 31 trabajos visin general 2
36
56
Impreso en Espaa
SC11-3566-03