Sunteți pe pagina 1din 276

Talend Open Studio for Big Data

Guide utilisateur

5.2.2

Talend Open Studio for Big Data

Convient la version 5.2.2. Annule et remplace toute version antrieure du Guide utilisateur.

Copyleft
Cette documentation est mise disposition selon les termes du Contrat Public Creative Commons (CPCC). Pour plus dinformations concernant votre utilisation de cette documentation en accord avec le Contrat CPCC, consultez : http://creativecommons.org/licenses/by-nc-sa/2.0/

Mentions lgales
Tous les noms de marques, de produits, les noms de socits, les marques de commerce et de service sont la proprit de leurs dtenteurs respectifs.

Table des matires


Prface ............................................... vii
1. Informations gnrales . . . . . . . . . . . . . . . . . . . . . . 1.1. Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Public vis . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Conventions typographiques . . . . . . . . 2. Remarques et Support . . . . . . . . . . . . . . . . . . . . . . vii vii vii vii vii

chapitre 1. Intgration de donnes et Studio Talend ....................................... 1


1.1. Intgration dcisionnelle avec Talend Open Studio for Big Data . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2. Intgration oprationnelle avec Talend Open Studio for Big Data . . . . . . . . . . . . . . . . 2 1.3. Monitoring de lexcution . . . . . . . . . . . . . . . . . . 3

chapitre 2. Prsentation du Studio Talend .................................................. 5


2.1. Concepts importants dans Talend Open Studio for Big Data . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2. Lancement de Talend Open Studio for Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.1. Lancer le Studio pour la premire fois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.2. Configurer un projet . . . . . . . . . . . . . . . 11 2.3. Travailler avec diffrents rpertoires workspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.1. Crer un nouveau rpertoire workspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.4. Travailler avec les projets . . . . . . . . . . . . . . . . . 12 2.4.1. Crer un projet . . . . . . . . . . . . . . . . . . . . 13 2.4.2. Importer le projet Dmo . . . . . . . . . . . 15 2.4.3. Importer un projet . . . . . . . . . . . . . . . . . 16 2.4.4. Ouvrir un projet . . . . . . . . . . . . . . . . . . . 18 2.4.5. Supprimer un projet . . . . . . . . . . . . . . . 18 2.4.6. Exporter un projet . . . . . . . . . . . . . . . . . 19 2.4.7. Tches de migration . . . . . . . . . . . . . . . 20 2.5. Configuration des prfrences de Talend Open Studio for Big Data . . . . . . . . . . . . . . . 21 2.5.1. Interprteur Java (Talend) . . . . . . . . . 21 2.5.2. Prfrences du Designer (Talend > Appearance) . . . . . . . . . . . . . . . . . . 22 2.5.3. Prfrences de BPM Runtime (Talend > BPM Runtime Configuration) . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.5.4. Composants externes ou utilisateur (Talend > Components) . . . . . . . 24 2.5.5. Prfrence Exchange (Talend > Exchange) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.5.6. Ajouter du code par dfaut (Talend > Import/Export) . . . . . . . . . . . . . . . . 26 2.5.7. Prfrences de langue (Talend > Internationalization) . . . . . . . . . . . . . . . . . . . 26 2.5.8. Prfrences de Performance (Talend > Performance) . . . . . . . . . . . . . . . . . . 27 2.5.9. Prfrences dexcution et de dbogage (Talend > Run/Debug) . . . . . . . . 28 2.5.10. Afficher des caractres spciaux dans les colonnes de schmas (Talend > Specific settings). . . . 30 2.5.11. Prfrences des schmas (Talend > Specific Settings) . . . . . . . . . . . . . 30 2.5.12. Prfrences des bibliothques (Talend > Specific Settings) . . . . . . . . . . . . . 31 2.5.13. Prfrences des conversions de type (Talend > Specific Settings). . . . . 32 2.5.14. Prfrences du SQL Builder (Talend > Specific Settings) . . . . . . . . . . . . . 33 2.5.15. Prfrences du collecteur de donnes d'utilisation (Talend > Usage Data Collector) . . . . . . . . . . . . . . . . . . . 33

2.6. Personnalisation des paramtres du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1. Personnaliser la Palette . . . . . . . . . . . . 2.6.2. Grer les statuts . . . . . . . . . . . . . . . . . . . 2.6.3. Personnaliser les paramtres du Job . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4. Configurer les informations de logs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.5. Dfinir les paramtres de contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.6. Appliquer les paramtres du projet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.7. Dfinir les paramtres des Statuts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.8. Paramtres de scurit . . . . . . . . . . . . . 2.7. Filtrage des entres listes dans la vue Repository . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7.1. Filtrer avec le nom du Job . . . . . . . . . 2.7.2. Filtrer avec lutilisateur . . . . . . . . . . . 2.7.3. Filtrer avec le statut du Job . . . . . . . . 2.7.4. Slectionner les nuds du Repository afficher . . . . . . . . . . . . . . . . . . . . .

35 35 37 38 38 39 40 41 43 43 43 45 47 48

chapitre 3. Conception dun Job dintgration de donnes ....................... 51


3.1. Qu'est-ce qu'un Job ? . . . . . . . . . . . . . . . . . . . . . . 52 3.2. Utilisation dun Job Design simple . . . . . . . . 52 3.2.1. Crer un Job . . . . . . . . . . . . . . . . . . . . . . . 52 3.2.2. Dposer des composants dans l'espace de modlisation graphique . . . . . . 55 3.2.3. Chercher des composants dans la Palette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.2.4. Connecter des composants . . . . . . . . 56 3.2.5. Cliquer et dposer des composants au milieu dune connexion de type Row . . . . . . . . . . . . . . . . . . 57 3.2.6. Dfinir les proprits dun composant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.2.7. Excuter un Job . . . . . . . . . . . . . . . . . . . 63 3.2.8. Personnaliser lespace de travail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.3. Utilisation des connexions . . . . . . . . . . . . . . . . . 79 3.3.1. Types de connexions . . . . . . . . . . . . . . 79 3.3.2. Dfinir les paramtres des connexions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 3.4. Utilisation du Metadata Manager . . . . . . . . . 86 3.4.1. Centraliser les Contextes et les Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 3.4.2. Utiliser les SQL Templates . . . . . . . . 97 3.5. Gestion des Jobs : Utilisation avance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 3.5.1. Mapper des flux de donnes . . . . . . . 98 3.5.2. Crer une requte laide de SQLBuilder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.5.3. Tlcharger/charger des composants de la communaut . . . . . . . . . 101 3.5.4. Installer des modules externes. . . 108 3.5.5. Utiliser les composants tPrejob et tPostjob . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.5.6. Utiliser la fonctionnalit Use Output Stream . . . . . . . . . . . . . . . . . . . . . . . . . . 112 3.6. Gestion des Jobs : Autres fonctions . . . . . . 112 3.6.1. Partager une connexion une base de donnes . . . . . . . . . . . . . . . . . . . . . . . . 112 3.6.2. Configurer un composant Start . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 3.6.3. Grer les icnes davertissement/derreur sur les composants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 3.6.4. Ajouter une Note au Job . . . . . . . . . 116 3.6.5. Afficher les onglets Code ou Outline de votre Job . . . . . . . . . . . . . . . . . . . . 117

Guide utilisateur de Talend Open Studio for Big Data

Talend Open Studio for Big Data

3.6.6. Grer laffichage dun sous-job ........................................... 3.6.7. Paramtrage des options dans la vue Job . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6.8. Chercher un Job utilisant un composant particulier . . . . . . . . . . . . . . . . . . . 3.6.9. Configurer les valeurs par dfaut dans le schma d'un composant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

118 120 122

7.3.1. Les types de SQL Templates systme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 7.3.2. Accder aux SQL Templates systme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 7.3.3. Crer des SQL Templates personnaliss . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

123

annexe A. Interface de Talend Open Studio for Big Data ............................. 213
A.1. Fentre principale . . . . . . . . . . . . . . . . . . . . . . . . . A.2. Barre doutils et Menus . . . . . . . . . . . . . . . . . . . A.2.1. Barre de menu de Talend Open Studio for Big Data . . . . . . . . . . . . . . A.2.2. Barre doutils de Talend Open Studio for Big Data . . . . . . . . . . . . . . . . . . . . . A.3. Repository . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.4. Espace de modlisation graphique . . . . . . . . A.5. Palette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.6. Onglets de configuration . . . . . . . . . . . . . . . . . . A.7. Panneau des onglets outline et code . . . . . . . A.8. Raccourcis clavier . . . . . . . . . . . . . . . . . . . . . . . . . 214 215 215 216 217 218 219 219 221 222

chapitre 4. Gestion des Jobs dintgration de donnes ..................... 127


4.1. Activation/Dsactivation dun Job ou dun sous-job . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.1.1. Dsactiver un composant de dbut (Start) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.1.2. Dsactiver un composant intermdiaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 4.2. Import/export dlments ou de Jobs. . . . 129 4.2.1. Import dlments . . . . . . . . . . . . . . . . 129 4.2.2. Export de Jobs . . . . . . . . . . . . . . . . . . . 131 4.2.3. Export dlments . . . . . . . . . . . . . . . . 143 4.2.4. Changer les paramtres de contexte dans des Jobs . . . . . . . . . . . . . . . . . . 144 4.3. Gestion des lments du Repository . . . . . 145 4.3.1. Grer les mises jour des lments du Repository . . . . . . . . . . . . . . . . . 145 4.4. Recherche dun Job dans le rfrentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

annexe B. De la thorie la pratique, exemple de Job .................................. 223


B.1. Utilisation de la fonctionnalit Output Stream . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.1.1. Prsentation du scnario . . . . . . . . . B.1.2. Cration du Job . . . . . . . . . . . . . . . . . . B.2. Exemple de Job comprenant un tMap . . . . . B.2.1. Prsentation du scnario . . . . . . . . . B.2.2. Du scnario au Job . . . . . . . . . . . . . . B.3. Retrouver qui visite votre site Web le plus souvent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3.1. Dcouvrir le scnario . . . . . . . . . . . . B.3.2. Transformer le scnario en Jobs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 224 224 230 230 232 239 239 239

chapitre 5. Mapping de flux de donnes ......................................................... 151


5.1. Interface du tMap et du tXMLMap. . . . . 152 5.2. Prsentation du fonctionnement du tMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 5.2.1. Configuration du flux dentre dans le Map Editor . . . . . . . . . . . . . . . . . . . . . 154 5.2.2. Mapping de variables . . . . . . . . . . . . 161 5.2.3. Utilisation de lExpression editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 5.2.4. Paramtres Output . . . . . . . . . . . . . . . 167 5.2.5. Configuration des schmas dans le Map Editor . . . . . . . . . . . . . . . . . . . . . 172 5.2.6. Rsolution des problmes de mmoire lors de lutilisation du tMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 5.2.7. Gestion des rfrences . . . . . . . . . . . 176 5.3. Prsentation du fonctionnement du tXMLMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 5.3.1. Utiliser le type Document pour crer l'arborescence XML . . . . . . . . . . . . . . 178 5.3.2. Dfinir le mode de sortie . . . . . . . . . 187 5.3.3. Utiliser le Tree schema editor. . . . 192

annexe C. Routines systme ................. 251


C.1. Routines de type Numeric . . . . . . . . . . . . . . . . . 252 C.1.1. Exemple de cration squentielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 C.1.2. Exemple de conversion dcimale implicite . . . . . . . . . . . . . . . . . . . . . . 252 C.2. Routines de type Relational . . . . . . . . . . . . . . . 252 C.3. Routines de type StringHandling . . . . . . . . . . 253 C.3.1. Exemple de vrification de tri alphabtique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 C.3.2. Exemple de vrification de type alphabtique . . . . . . . . . . . . . . . . . . . . . . . 254 C.3.3. Exemple de remplacement de chane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 C.3.4. Exemple de vrification de chane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 C.3.5. Exemple de calcul de longueur de chane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 C.3.6. Exemple de nettoyage despaces inutiles . . . . . . . . . . . . . . . . . . . . . . . 255 C.4. Routines de type TalendDataGenerator. . . . 256 C.4.1. Exemple de gnration de donnes factices . . . . . . . . . . . . . . . . . . . . . . . . 256 C.5. Routines de type TalendDate . . . . . . . . . . . . . . 257 C.5.1. Exemple de formatage dune Date . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 C.5.2. Exemple de vrification dune Date . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 C.5.3. Exemple de comparaison de Dates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258 C.5.4. Exemple de configuration de Date . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 C.5.5. Exemple de parsage de Date . . . . . 259 C.5.6. Exemple de rcupration dune partie dune Date . . . . . . . . . . . . . . . . . 259 C.5.7. Exemple de formatage de la Date courante . . . . . . . . . . . . . . . . . . . . . . . . . . . 260

chapitre 6. Gestion des routines ............ 195


6.1. Dfinition des routines . . . . . . . . . . . . . . . . . . . 6.2. Accs aux routines systme . . . . . . . . . . . . . . 6.3. Personnalisation des routines systme ................................................... 6.4. Gestion des routines personnalises . . . . . 6.4.1. Crer des routines personnalises . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.2. diter des routines . . . . . . . . . . . . . . . 6.4.3. diter les bibliothques des routines utilisateur . . . . . . . . . . . . . . . . . . . . . . 6.5. Appel dune routine partir dun Job ................................................... 6.6. Cas dutilisation : crer un fichier la date du jour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 196 197 198 198 200 200 202 202

chapitre 7. SQL Templates .................. 205


7.1. Quest-ce que lELT ? . . . . . . . . . . . . . . . . . . . . 206 7.2. Dfinition des SQL Templates Talend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206 7.3. Grer les SQL Templates Talend . . . . . . . . 207

iv

Guide utilisateur de Talend Open Studio for Big Data

Talend Open Studio for Big Data

C.6. Routines de type TalendString . . . . . . . . . . . . C.6.1. Exemple de formatage XML dune chane . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.6.2. Exemple de trimming dune chane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . C.6.3. Exemple de dsaccentuation dune chane . . . . . . . . . . . . . . . . . . . . . . . . . . . .

260 261 261 262

annexe D. Rgles dcriture des SQL Templates .......................................... 263


D.1. Instructions SQL . . . . . . . . . . . . . . . . . . . . . . . . . . D.2. Lignes de commentaire . . . . . . . . . . . . . . . . . . . D.3. La syntaxe <%...%> . . . . . . . . . . . . . . . . . . . . D.4. La syntaxe <%=...%> . . . . . . . . . . . . . . . . . . . D.5. La syntaxe </.../> . . . . . . . . . . . . . . . . . . . . D.6. Le code pour accder aux lments du schma des composants . . . . . . . . . . . . . . . . . . . . . . . . D.7. Le code pour accder aux proprits de la matrice du composant . . . . . . . . . . . . . . . . . . . . . . . 264 264 264 265 265 266 266

Guide utilisateur de Talend Open Studio for Big Data

Guide utilisateur de Talend Open Studio for Big Data

Prface
1. Informations gnrales
1.1. Objectif
Le prsent Guide utilisateur explique comment utiliser les fonctions de Talend Open Studio for Big Data dans un contexte oprationnel normal. Les informations contenues dans ce document sappliquent la version 5.2.2 de Talend Open Studio for Big Data.

1.2. Public vis


Ce guide sadresse aux utilisateurs et aux administrateurs de Talend Open Studio for Big Data.
Dans ce document, linterface prsente par le biais des captures dcran peut tre lgrement diffrente de la vtre.

1.3. Conventions typographiques


Ce guide utilise les conventions typographiques suivantes : texte en gras : boutons et champs dune fentre ou dune bote de dialogue, touches du clavier, menus et options des menus ; texte en [gras] : titre des fentres, assistants et botes de dialogue ; texte en courier : paramtres systme renseigns par lutilisateur ; texte en italique : nom des fichiers, schmas, colonnes, lignes ou variables dont il est question dans les exemples utiliss. Licne introduit un paragraphe apportant une information supplmentaire sur un point important. Elle introduit galement les commentaires relatifs un tableau ou une image. Licne introduit un message apportant une information relative aux modalits dexcution, ou des recommandations particulires. Elle est galement utilise pour attirer lattention de lutilisateur sur certaines informations ou situations particulirement importantes.

2. Remarques et Support
Votre opinion nous intresse, nhsitez pas nous faire part de vos remarques, suggestions, requtes concernant la documentation ou le produit, et obtenez le support de notre quipe Talend, sur le Forum Talend (en anglais) disponible ladresse :

Guide utilisateur de Talend Open Studio for Big Data

Remarques et Support

http://talendforge.org/forum

viii

Guide utilisateur de Talend Open Studio for Big Data

Chapitre 1. Intgration de donnes et Studio Talend


Le fait que les systmes dinformation des entreprises deviennent de plus en plus complexes nest pas vraiment nouveau. Une premire raison cela tient au fait que les entreprises dploient gnralement de nouvelles applications tout en maintenant les anciennes solutions (empilage de couches). En outre les entreprises sont contraintes douvrir de plus en plus leur systmes dinformation leur fournisseurs, leurs partenaires et leurs clients. Enfin cette complexification sexplique aussi par la multiplication des formats de stockage de donnes (fichiers XML, plats positionnels, plats dlimits, multi-valus, etc.), des protocoles (FTP, HTTP, SOAP, SCP, etc.) et des technologies des bases de donnes. Une question ressort de ces trois constats : Comment russir son intgration de donnes lorsque ses donnes sont parpilles dans tous ces types de systmes dinformation ? Les fonctions qui se cachent derrire le principe dintgration de donnes sont varies : lintgration dcisionnelle (alimentation dentrepts de donnes) et lintgration oprationnelle (capture et migration de donnes, synchronisation de bases de donnes, changes interapplicatifs, etc.). Talend Open Studio for Big Data couvre tous ces besoins quil sagisse dintgration dcisionnelle ou oprationnelle.

Guide utilisateur de Talend Open Studio for Big Data

Intgration dcisionnelle avec Talend Open Studio for Big Data

1.1. Intgration dcisionnelle avec Talend Open Studio for Big Data
Bien quils soient gnralement invisibles pour les utilisateurs de la plate-forme BI, les processus ETL reprennent les donnes de tous les systmes oprationnels et les pr-traitent pour les outils danalyse et de reporting.

Talend Open Studio for Big Data offre une trs grande connectivit aux : Progiciels (ERP, CRM, etc.), bases de donnes, serveurs centraux, fichiers, Web Services, etc. pour couvrir la disparit grandissante des sources. Entrepts de donnes, magasins de donnes, applications OLAP (Online Analytical Processing) pour analyse, reporting, dashboarding, scorecarding, etc. Composants ETL avancs stocks localement, incluant des manipulations de chanes, Dimensions volution lente, traitement automatique des rfrences, support de charges en vrac, etc. La plupart des connecteurs dont il est question ci-dessus sont dtaills dans le Guide de rfrence des Composants de Talend Open Studio for Big Data.

1.2. Intgration oprationnelle avec Talend Open Studio for Big Data
Lintgration oprationnelle de donnes est souvent utilise pour implmenter les programmes et routines habituels, complte en fonction des besoins spcifiques.

Les applications de chargement/migration de donnes et de synchronisation/rplication de donnes sont les plus rpandues en matire dintgration oprationnelle de donnes. Elles requirent : des mappings et transformations complexes avec fonctions dagrgation, calculs, etc. pour pallier les diffrences dans la structure des donnes. le traitement et la rsolution des conflits de donnes en tenant compte des mises jour des enregistrements ou des propritaires des enregistrements.

Guide utilisateur de Talend Open Studio for Big Data

Monitoring de lexcution

la synchronisation de donnes en quasi temps rel tant donn que les systmes impliquent une latence lente. La plupart des connecteurs dont il est question ci-dessus sont dtaills dans le Guide de rfrence des Composants de Talend Open Studio for Big Data. Pour plus d'informations concernant un Job d'intgration de donnes utilisant la fonctionnalit Output Stream, consultez section Utilisation de la fonctionnalit Output Stream.

1.3. Monitoring de lexcution


Un des plus grands challenges des dveloppeurs de processus dintgration et des responsables informatiques chargs de contrler leur excution, est de contrler et monitorer lexcution de ces processus mission critique. En effet, la gestion et la notification derreurs peuvent et devraient tre inclus dans lintgration de donnes. De plus, au del des notifications derreurs, il est aussi crucial de monitorer lintgrit des processus dintgration et de surveiller toute dgradation des performances. La console Talend Activity Monitoring Console surveille lexcution du Job (succs, checs, avertissements, etc.), le temps dexcution et les volumes de donnes, tout ceci en une seule console, entirement intgre Talend Open Studio for Big Data ou disponible en environnement indpendant. Pour plus dinformations concernant le fonctionnement de Talend Activity Monitoring Console, consultez le Guide utilisateur de Talend Activity Monitoring Console. Talend Activity Monitoring Console est galement disponible comme l'un des modules de Dashboard dans .

Guide utilisateur de Talend Open Studio for Big Data

Guide utilisateur de Talend Open Studio for Big Data

Chapitre 2. Prsentation du Studio Talend


Ce chapitre est une introduction Talend Open Studio for Big Data. Il fournit des informations de configuration de base ncessaires au dmarrage de Talend Open Studio for Big Data. Ce chapitre vous guide dans vos premiers pas dans la cration de projets en local la personnalisation des prfrences et de votre espace de travail dans Talend Open Studio for Big Data. Avant de commencer un processus mtier, vous devez vous tre familiaris avec linterface graphique de Talend Open Studio for Big Data. Pour plus dinformations, consultez annexe Interface de Talend Open Studio for Big Data .

Guide utilisateur de Talend Open Studio for Big Data

Concepts importants dans Talend Open Studio for Big Data

2.1. Concepts importants dans Talend Open Studio for Big Data
Lorsque vous travaillez avec Talend Open Studio for Big Data, vous rencontrez les mots : rfrentiel, projet, rpertoire workspace, Job, composant et lment. Il est important de comprendre lapplication de chacun de ses mots pour saisir le fonctionnement de Talend Open Studio for Big Data. Quest-ce quun rfrentiel ? Un rfrentiel, repository en anglais, est un espace de stockage utilis par Talend Open Studio for Big Data pour regrouper toutes les donnes lies aux lments techniques utiliss pour crer les Jobs. Quest-ce quun projet ? Un projet est un ensemble structur dlments techniques et de leurs mtadonnes associes. Ce qui signifie que tous les Jobs que vous crez sont organiss en Projets. Vous pouvez crer autant de projets que vous le souhaitez dans un rfrentiel. Pour plus dinformations concernant les projets, consultez section Configurer un projet . Quest-ce quun rpertoire workspace ? Un rpertoire workspace est un rpertoire dans lequel sont stocks tous les dossiers de vos projets. Vous devez avoir un rpertoire workspace par connexion (connexion au rfrentiel). Talend Open Studio for Big Data vous permet de vous connecter diffrents rpertoires workspace, si vous ne souhaitez pas utiliser celui crer par dfaut. Pour plus dinformations concernant le rpertoire workspace, consultez section Travailler avec diffrents rpertoires workspace. Quest-ce quun Job ? Un Job est un concept graphique, compos dun ou plusieurs composants relis entre eux. Il vous permet de mettre en place des processus oprationnels de gestion des flux. Il traduit des besoins mtier en code, routines et programmes. Les Jobs utilisent les diffrentes sources et cibles ncessaires aux processus dintgration de donnes ou tout autre processus li. Pour plus dinformations concernant la cration de processus dintgration de donnes dans Talend Open Studio for Big Data, consultez le chapitre Conception dun Job dintgration de donnes. Quest-ce quun composant ? Un composant, component en anglais, est un connecteur pr-configur excutant une opration dintgration de donnes spcifique, quel que soit le type de donnes que vous souhaitez intgrer (bases de donnes, applications, fichiers plats, services Web, etc.). Un composant permet dviter le plus possible le codage manuel ncessaire au traitement des donnes provenant de sources multiples et htrognes. Les composants sont regroups dans des familles en fonction de leur utilisation et apparaissent dans la Palette de Talend Open Studio for Big Data. Pour plus dinformations concernant les diffrents types de composants et leurs utilisations, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data. Quest-ce quun lment ? Les lments, item en anglais, sont les units techniques constituant un projet. Ces lments sont regroups en fonction de leur type : Job Design,, Context, Code, , etc. Un lment peut comprendre plusieurs autres lments. Ainsi, les Jobs que vous crez sont des lments, tout comme les contextes que vous utilisez dans les Jobs.

Guide utilisateur de Talend Open Studio for Big Data

Lancement de Talend Open Studio for Big Data

2.2. Lancement de Talend Open Studio for Big Data


2.2.1. Lancer le Studio pour la premire fois
Pour ouvrir Talend Open Studio for Big Data pour la premire fois, procdez comme suit : 1. Dzippez le fichier zip Talend Open Studio for Big Data et, dans le dossier, double-cliquez sur le fichier excutable correspondant votre systme dexploitation. Dans la bote de dialogue [Licence] qui apparat, lisez et acceptez les termes de la licence afin de passer ltape suivante. Une fentre de dmarrage s'affiche.

2.

Cet cran apparat uniquement lorsque vous lancez Talend Open Studio for Big Data pour la premire fois ou si tous les projets existants ont t supprims.

3.

Cliquez sur le bouton Import afin d'importer le projet Dmo slectionn, ou saisissez un nom de projet dans le champ Create A New Project, puis cliquez sur le bouton Create pour crer le nouveau projet, ou sur le bouton Advanced... pour aller la fentre de login. Pour cette procdure, cliquez sur Advanced... pour accder la fentre de connexion. Pour plus d'informations sur les deux autres options, consultez section Crer un projet et section Importer le projet Dmo.

Guide utilisateur de Talend Open Studio for Big Data

Lancer le Studio pour la premire fois

4.

A partir de la de la fentre de connexion du Studio


Cliquez sur... Create... Pour... crer un nouveau projet qui contiendra tous les Jobs conus dans le Studio. Pour plus d'informations, consultez section Crer un projet. Import... importer tout projet stock . Pour plus d'informations, consultez section Importer un projet. Demo Project... importer un Projet dmo incluant de nombreux Jobs prts tre utiliss. Ce Projet dmo peut vous aider comprendre les fonctionnalits des diffrents composantsTalend. Pour plus d'informations, consultez section Importer le projet Dmo. Open ouvrir le projet existant slectionn. Pour plus d'informations, consultez section Ouvrir un projet . Delete... ouvre une bote de dialogue de laquelle vous pouvez supprimer tout projet cr ou import dont vous n'avez plus besoin. Pour plus d'informations, consultez section Supprimer un projet.

Cette procdure ayant pour but de crer un nouveau projet , cliquez sur Create pour ouvrir la bote de dialogue [New project]. 5. Dans la bote de dialogue, saisissez un nom pour votre projet et cliquez sur Finish pour fermer la bote de dialogue. Le nom du nouveau projet s'affiche dans la liste Project.

Guide utilisateur de Talend Open Studio for Big Data

Lancer le Studio pour la premire fois

6.

Slectionnez le projet et cliquez sur Open. La page Connect to TalendForge apparat, vous invitant vous connecter la Communaut Talend afin que vous puissiez regarder, tlcharger et installer des composants externes, charger vos propres composants afin de les partager avec les autres utilisateurs de Talend, le tout directement partir de la vue Exchange de la cration de Job dans le Studio. Pour en apprendre plus sur la Communaut Talend, cliquez sur le lien en savoir plus. Pour plus d'informations sur l'utilisation et le partage des composants avec la Communaut, consultez section Tlcharger/charger des composants de la communaut.

7.

Si vous souhaitez vous connecter la Communaut Talend ultrieurement, cliquez sur le bouton Skip pour continuer. Si vous travaillez derrire un proxy, cliquez sur Proxy settings... et renseignez les champs Proxy Host et Proxy Port dans la bote de dialogue Network setting. Par dfaut, le Studio collecte automatiquement les donnes d'utilisation et les envoie priodiquement aux serveurs hbergs par Talend, dans un but d'amlioration. Si vous ne souhaitez pas que le Studio effectue ces envois, dcochez la case I want to help to improve Talend by sharing anonymous usage statistics. Pour plus d'informations concernant le collecteur de donnes d'utilisation, consultez section Prfrences du collecteur de donnes d'utilisation (Talend > Usage Data Collector).

8.

9.

10. Renseignez les informations requises, cochez la case I Agree to the TalendForge Terms of Use et cliquez sur Create Account afin de crer votre compte et de vous connecter automatiquement la Communaut Talend. Si vous avez dj un compte sur http://www.talendforge.org/, cliquez sur le lien or connect on existing account afin de vous connecter.
Soyez assur quaucune information personnelle que vous communiquez Talend ne sera transmise des tiers ou utilise dautres fins que celles de vous connecter la Communaut ou de vous informer sur Talend des dernires mises jour de Talend.

Guide utilisateur de Talend Open Studio for Big Data

Lancer le Studio pour la premire fois

Cette page n'apparat plus l'ouverture du Studio une fois que vous vous tes connect avec succs la Communaut Talend, ou si vous cliquez six fois d'affile sur le bouton Skip lorsque vous ouvrez le Studio. Dans ce cas, pour afficher de nouveau la page, ouvrez la bote de dialogue [Preferences], slectionnez Talend > Exchange puis cliquez sur Logon Exchange. Pour plus d'informations, consultez section Prfrence Exchange (Talend > Exchange).

Une barre de progression et une fentre de bienvenue s'ouvrent conscutivement. Dans cette page, des liens directs vers la documentation, les tutoriels, le forum Talend, Talend Exchange et les dernires nouvelles de Talend sont affichs. 11. Cliquez sur Start now afin douvrir la fentre principale de Talend Open Studio for Big Data qui contient des astuces utiles pour les dbutants concernant le fonctionnement du Studio. Cliquer sur un lien soulign vous amne la vue ou l'onglet correspondant, ou ouvre la bote de dialogue relative. Pour plus dinformations concernant louverture dun projet , consultez section Ouvrir un projet .

10

Guide utilisateur de Talend Open Studio for Big Data

Configurer un projet

2.2.2. Configurer un projet


Pour ouvrir Talend Open Studio for Big Data, vous devez dabord configurer un projet . Pour configurer un projet, vous pouvez : crer un nouveau projet. Pour plus dinformations, consultez section Crer un projet. importer un ou plusieurs projets que vous avez dj cr dans une autre instance de Talend Open Studio for Big Data. Pour plus dinformations, consultez section Importer un projet. importer le projet Dmo. Pour plus dinformations, consultez section Importer le projet Dmo.

2.3. Travailler avec diffrents rpertoires workspace


Dans Talend Open Studio for Big Data, vous pouvez crer plusieurs rpertoires workspace et vous connectez un workspace diffrent de celui auquel vous tes actuellement connect, si ncessaire. Cette flexibilit vous permet de stocker les rpertoires o vous le souhaitez et vous permet de nommer deux ou plusieurs projets de la mme manire, du moment que vous stockez les projets dans diffrents rpertoires.

Guide utilisateur de Talend Open Studio for Big Data

11

Crer un nouveau rpertoire workspace

2.3.1. Crer un nouveau rpertoire workspace


Talend Open Studio for Big Data est livr avec un rpertoire workspace par dfaut. Cependant, vous pouvez crer autant de rpertoires que vous le souhaitez et y stocker vos projets en fonction de vos prfrences. Pour crer un nouveau rpertoire workspace : 1. Dans la fentre de connexion au projet, cliquez sur Change pour ouvrir la bote de dialogue vous permettant de slectionner le rpertoire du nouveau workspace.

2.

Dans la bote de dialogue, configurez le chemin daccs vers ce nouveau rpertoire workspace que vous souhaitez crer et cliquez sur OK pour fermer la vue. Dans la fentre de login, un message davertissement saffiche vous demandant de redmarrer le Studio.

3. 4.

Cliquez sur Restart pour redmarrer le Studio. Dans la fentre de login rinitialise, configurez un projet pour ce nouveau rpertoire workspace. Pour plus dinformations, consultez section Configurer un projet .

5.

Slectionnez le projet dans la liste Project et cliquez sur Open pour ouvrir Talend Open Studio for Big Data.

Tous les Jobs que vous crez dans linstance courante du Studio seront stocks dans le nouveau rpertoire workspace que vous venez de crer. Si vous souhaitez vous connecter l'un des workspaces que vous avez crs, rptez la procdure dcrite dans cette section.

2.4. Travailler avec les projets


Dans Talend Open Studio for Big Data, le projet correspond au nud racine stockant les diffrents types de Jobs de donnes, routines, etc. A partir de la fentre de login de Talend Open Studio for Big Data, vous pouvez : importer le projet Demo pour dcouvrir les fonctionnalits de Talend Open Studio for Big Data grce des exemples de Jobs prts l'emploi. Lorsque vous importez le projet Demo, il est automatiquement install dans le workspace de votre instance courante du Studio. Pour plus dinformations, consultez section Importer le projet Dmo.

12

Guide utilisateur de Talend Open Studio for Big Data

Crer un projet

crer un projet local. Lorsque vous vous connectez Talend Open Studio for Big Data pour la premire fois, aucun projet par dfaut napparat dans la liste. Vous devez crer un projet et louvrir dans le Studio pour stocker tous les Jobs que vous crez. Lorsque vous crez un nouveau projet, une arborescence est automatiquement cre dans le rpertoire workspace du serveur de votre repository. Il correspond la vue Repository de la fentre principale de Talend Open Studio for Big Data. Pour plus dinformations, consultez section Crer un projet. importer des projets que vous avez dj crs dans une version antrieure de Talend Open Studio for Big Data vous pouvez limporter dans le workspace courant de Talend Open Studio for Big Data Import... . Pour plus dinformations, consultez section Importer un projet. ouvrir un projet que vous avez cr ou import dans le Studio.. Pour plus dinformations concernant louverture dun projet , consultez section Ouvrir un projet . supprimer des projets locaux que vous avez dj crs ou imports et dont vous navez plus besoin. Pour plus dinformations, consultez section Supprimer un projet. Une fois que vous avez lanc Talend Open Studio for Big Data, vous pouvez exporter les ressources dun ou de plusieurs projets crs partir de linstance courante du Studio. Pour plus dinformations, consultez section Exporter un projet.

2.4.1. Crer un projet


Lorsque vouslancez le Studio pour la premire fois, aucun projet par dfaut napparat dans la liste. Vous devez crer un projet qui contiendra les Jobs dintgration de donnes que vous avez crs partir de linstance courante du Studio. Pour crer un projet : 1. 2. Lancez Talend Open Studio for Big Data . Utilisez l'une des deux options suivantes: Saisissez le nom du nouveau projet dans le champ Create A New Project, puis cliquez sur Create pour ouvrir la fentre de dialogue contenant le champ[Project name] rempli avec le nom spcifi. Cliquez sur [Advanced] et cliquez sur Create... partir de la fentre de connexion pour ouvrir la bote de dialogue [New project] contenant le champ Project Name vide.

Guide utilisateur de Talend Open Studio for Big Data

13

Crer un projet

3.

Dans le champ Project name, saisissez un nom pour le nouveau projet ou si besoin modifiez le nom de projet prcdemment saisi. Ce champ est obligatoire Selon l'endroit o se trouve votre curseur, un message en haut de l'assistant vous informe sur la nature des donnes saisir, comme les caractres interdits.
Le champ Technical Name est en lecture seule et contient le nom technique du projet. Il est utilis par lapplication pour crer le nom du fichier correspondant au projet. Il correspond gnralement au nom du projet saisi, mis en majuscule et concatn laide de tirets souligns si ncessaire.

4.

Cliquez sur Finish. Le nom de nouveau projet cr apparat dans la liste Project de la fentre de login de Talend Open Studio for Big Data.

Depuis la version 5.0, seul le langage Java est gnr.

14

Guide utilisateur de Talend Open Studio for Big Data

Importer le projet Dmo

Pour ouvrir le nouveau projet cr dans Talend Open Studio for Big Data, slectionnez-le dans la liste Project et cliquez sur Open. Une fentre montrant la progression de linitialisation du gnrateur apparat. Attendez que linitialisation se termine. Dans le Studio, si vous souhaitez passer dun projet un autre, cliquez sur File > Switch Projects dans la barre de menu. Si vous avez dj cr un projet dans une version antrieure de Talend Open Studio for Big Data et que vous souhaitez limporter dans la version courantesection Importer un projet.

2.4.2. Importer le projet Dmo


Dans Talend Open Studio for Big Data, vous pouvez importer, dans votre workspace, le projet Dmo contenant de nombreux exemples de Jobs prts utiliser. Ce projet Dmo peut vous aider comprendre les fonctionnalits des diffrents composants Talend. Au premier lancement de Talend Open Studio for Big Data, vous pouvez: crer un nouveau projet dans votre rpertoire en utilisant le projet dmo comme modle, importer le projet dmo TALENDDEMOSJAVA dans votre rpertoire. Pour crer un nouveau projet partir du projet dmo 1. Cliquez sur Import, situ ct de la liste Select A Demo Project. La bote de dialogue [Import demo Project] s'affiche.

2.

Saisissez un nom pour votre nouveau projet, et cliquez sur Finish> pour crer le projet. Un message de confirmation saffiche vous indiquant que limport a t ralis avec succs dans linstance courante du Studio.

Guide utilisateur de Talend Open Studio for Big Data

15

Importer un projet

3.

Cliquez sur OK pour fermer le message de confirmation. Tous les exemples du projet dmo sont imports dans le projet nouvellement cr, et le nom du nouveau projet est affich dans la liste Projet de l'cran de connexion.

Pour importer le projet dmo TALENDDEMOSJAVA dans votre rpertoire: 1. Cliquez sur Advanced et, de la fentre de connexion cliquez sur Demo Project....La bote de dialogue [Import demo project] s'ouvre.

2.

Slectionnez le projet dmo et cliquez sur Finish> pour fermer la bote de dialogue. Un message de confirmation saffiche vous indiquant que limport a t ralis avec succs dans linstance courante du Studio.

3.

Cliquez sur OK pour fermer le message de confirmation.

Pour ouvrir le projet Dmo import dans Talend Open Studio for Big Data, slectionnez-le dans la liste Project et cliquez sur Open. Une fentre montrant la progression de linitialisation du gnrateur apparat. Attendez que linitialisation se termine. Les exemples de Jobs du projet Dmo sont automatiquement imports dans votre workspace et sont disponibles partir de la vue Repository sous le nud Job Designs. Vous pouvez utiliser ces exemples comme base pour vos propres Job designs.

2.4.3. Importer un projet


Dans Talend Open Studio for Big Data, vous pouvez importer les projets que vous avez dj crs dans une version antrieure du Studio.

16

Guide utilisateur de Talend Open Studio for Big Data

Importer un projet

1.

Si vous lancez Talend Open Studio for Big Data pour la premire fois, cliquez sur Advanced... pour ouvrir la fentre de connexion. A partir de la fentre connexion, cliquez sur Import... pour ouvrir l'assistant [Import].

2.

3. 4.

Cliquez sur Import several projects si vous souhaitez importer plus dun projet la fois. Cliquez sur Select root directory ou Select archive file en fonction du type de source partir de laquelle vous souhaitez faire limport : respectivement une rpertoire ou un fichier archive. Cliquez sur Browse... pour slectionner le rpertoire workspace ou le fichier archive contenant les projets importer. Par dfaut, le workspace slectionn est le dossier workspace courant de votre Studio. Remontez larborescence vers le rpertoire workspace de la version antrieure de Talend Open Studio for Big Data ou le fichier archive contenant le ou les projets importer et slectionnez-le. Cochez la case Copy projects into workspace pour faire une copie des projets imports dans le nouveau workspace.
Si vous ne souhaitez pas dplacer les projets de leur emplacement initial vers le nouveau workspace, dcochez cette case. Nous vous recommandons de conserver une version de sauvegarde.

5.

6.

7.

Dans la liste Projects, slectionnez les projets importer et cliquez sur Finish pour valider. Dans la fentre de login, le ou les nom(s) des projet(s) import(s) apparaissent dsormais dans la liste Project.

Guide utilisateur de Talend Open Studio for Big Data

17

Ouvrir un projet

Vous pouvez donc slectionner le projet import que vous souhaitez ouvrir dans Talend Open Studio for Big Data et cliquer sur Open pour lancer le Studio.
Une fentre dinitialisation du gnrateur de code peut apparatre lors du lancement de lapplication. Il est recommand dattendre que linitialisation se termine.

2.4.4. Ouvrir un projet


Lorsque vous lancez Talend Open Studio for Big Data pour la premire fois, aucun projet napparat dans la liste Project. Vous devez donc crer ou importer un projet ou un projet Dmo afin dalimenter la liste Project avec des projets que vous pouvez ouvrir dans le Studio.

Pour ouvrir un projet dans Talend Open Studio for Big Data : Dans la fentre de login du Studio, slectionnez le projet partir de la liste Project et cliquez sur Open.

Une barre de progression apparat puis la fentre principale de Talend Open Studio for Big Data souvre. Une fentre dinitialisation du gnrateur de code apparat. Il est recommand dattendre que linitialisation se termine.
Lorsque vous ouvrez un projet import dune version prcdente du Studio, une fentre dinformation souvre et affiche une courte description des tches de migration ralises avec succs. Pour plus dinformations, consultez section Tches de migration.

2.4.5. Supprimer un projet


1. Dans la fentre de connexion, cliquez sur Delete pour ouvrir la bote de dialogue [Select Project].

18

Guide utilisateur de Talend Open Studio for Big Data

Exporter un projet

2. 3.

Cochez la ou les cases correspondant aux projets que vous souhaitez supprimer. Cliquez sur OK pour valider la suppression. La liste des projets est rafrachie automatiquement.
Faites attention lorsque vous cliquez sur OK, car aucune fentre de confirmation napparat. De plus, les projets supprims ne peuvent pas tre rcuprs. Si vous cochez la case Do not delete projects physically, le ou les projet(s) slectionn(s) seront uniquement supprims de la liste et seront donc toujours prsents dans le rpertoire workspace de Talend Open Studio for Big Data. De plus, vous pouvez, tout moment, rcuprer un projet supprim de cette manire via loption Import local project(s) de la liste Or de la fentre de login.

2.4.6. Exporter un projet


Talend Open Studio for Big Data vous permet dexporter les projets crs ou imports dans linstance courante de Talend Open Studio for Big Data. 1. Dans la barre doutils du Studio, cliquez sur file]. pour ouvrir lassistant [Export Talend projects in archive

Guide utilisateur de Talend Open Studio for Big Data

19

Tches de migration

2.

Cochez les cases correspondant aux projets que vous souhaitez exporter. Vous pouvez, en fonction de vos besoins, slectionner une partie dun projet partir du bouton Filter Types... (pour les utilisateurs expriments). Dans le champ To archive file, cliquez sur le bouton Browse... pour spcifier le rpertoire dans lequel exporter votre ou vos projet(s) et saisissez le nom que vous souhaitez donner au fichier archive. Dans la zone Options, slectionnez le format de compression et le type de structure que vous souhaitez utiliser. Cliquez sur Finish pour valider.

3.

4.

5.

Le fichier archive contenant les projets exports est cr dans le rpertoire spcifi.

2.4.7. Tches de migration


Les tches de migration servent assurer la compatibilit des projets crs dans une version antrieure de Talend Open Studio for Big Data avec la version courante. Afin que les modifications soient plus visibles, nous avons dcid de partager ces mises jour avec vous grce une fentre dinformation. Cette fentre dinformation souvre lorsque vous lancez le projet que vous avez import (cr) dune version antrieure de Talend Open Studio for Big Data. Elle liste et fournit une courte description des tches qui ont t ralises avec succs afin que vous puissiez excuter vos projets normalement.

20

Guide utilisateur de Talend Open Studio for Big Data

Configuration des prfrences de Talend Open Studio for Big Data

Parmi les modifications affectant lutilisation de Talend Open Studio for Big Data, voici quelques exemples : tDBInput utilis avec une base de donnes MySQL, devient un composant spcifique tDBMysqlInput. Son aspect est ainsi modifi dans les Jobs o il est utilis. tUniqRow tait bas sur les cls de schma Input, alors que lactuel tUniqRow permet lutilisateur de slectionner la colonne o faire la correspondance.

2.5. Configuration des prfrences de Talend Open Studio for Big Data
Vous pouvez dfinir les proprits daffichage de la fentre principale de Talend Open Studio for Big Data pour les adapter vos besoins et vos prfrences. Un grand nombre des configurations que vous avez dfinies peuvent tre enregistres dans Preferences et seront donc utilises par dfaut pour tous les nouveaux Jobs que vous crerez. La section suivante dcrit les configurations spcifiques que vous pouvez dfinir en tant que prfrences. Cliquez sur le menu Window de Talend Open Studio for Big Data, puis slectionnez Preferences.

2.5.1. Interprteur Java (Talend)


Le chemin de l'interprteur Java est dfini par dfaut dans le fichier Java de votre ordinateur (Program Files\Java \jre6\bin\java.exe par dfaut).

Guide utilisateur de Talend Open Studio for Big Data

21

Prfrences du Designer (Talend > Appearance)

Pour personnaliser votre chemin d'accs l'interprteur Java : 1. 2. Si ncessaire, cliquez sur Talend dans larborescence de la bote de dialogue [Preferences]. Si le rpertoire dinstallation Java par dfaut nest pas correct, rectifiez le chemin daccs.

Dans la mme vue, vous pouvez galement modifier le nombre de lignes de donnes affiches dans laperu et le chemin daccs vers les fichiers temporaires.

2.5.2. Prfrences du Designer (Talend > Appearance)


Vous pouvez configurer les prfrences daffichage des composants et des Jobs de manire permanente dans le Studio. 1. 2. 3. Dans le menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dveloppez le nud Talend > Appearance. Cliquez sur Designer pour afficher les prfrences daffichage de lespace de modlisation. A partir de cette vue, vous pouvez dfinir laffichage des noms et des aides contextuelles de chaque composant.

22

Guide utilisateur de Talend Open Studio for Big Data

Prfrences de BPM Runtime (Talend > BPM Runtime Configuration)

4.

Cochez les cases adquates pour personnaliser lespace de modlisation de Talend Open Studio for Big Data en fonction de votre utilisation.

2.5.3. Prfrences de BPM Runtime (Talend > BPM Runtime Configuration)


Lorsque vous crez un service BPM, vous pouvez configurer son URI ainsi que les informations de connexion la console Web de BPM. 1. 2. Dans la barre de menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dans l'arborescence, dveloppez les nuds Talend > BPM Runtime Configuration.

Guide utilisateur de Talend Open Studio for Big Data

23

Composants externes ou utilisateur (Talend > Components)

3.

Saisissez les informations comme suit.

Field Name Username and Password REST Address REST Username and REST Password Service URI

Action Saisissez le nom d'utilisateur et le mot de passe de connexion la console Web de BPM, admin et bpm par dfaut. Saisissez l'URL du serveur REST de BPM, http:// localhost:8040/bonita-server-rest/ par dfaut. Saisissez le nom d'utilisateur et le mot de passe de connexion au serveur REST de BPM, restuser et restbpm par dfaut. Saisissez l'URI du service BPM, http://127.0.0.1:8090 par dfaut. Notez que cet URI par dfaut sera utilise si aucun URI de service n'est spcifi.

4.

Cliquez sur Apply puis sur OK afin de valider les prfrences dfinies et fermer la bote de dialogue.

2.5.4. Composants externes ou utilisateur (Talend > Components)


Vous pouvez crer ou dvelopper vos propres composants et les utiliser dans Talend Open Studio for Big Data. Pour plus dinformations concernant la cration et le dveloppement de composants utilisateur, consultez la page wiki (en anglais) Component creation tutorial section. 1. Dans larborescence de la bote de dialogue [Preferences], dveloppez le nud Talend, puis slectionnez Components.

24

Guide utilisateur de Talend Open Studio for Big Data

Prfrence Exchange (Talend > Exchange)

2.

Renseignez le champ User components folder pour indiquer le chemin daccs aux composants ajouter la Palette de Talend Open Studio for Big Data. Dans le champ Default mapping links dispaly as, slectionnez le type de liens que vous souhaitez utiliser pour la mise en correspondance dans le tMap. Cochez la case Dont show corresponding job after double click on a tRunJob component si vous ne souhaitez pas que le Job fils appel par le tRunJob souvre lorsque vous double-cliquez sur le composant.
Vous pourrez toujours ouvrir le Job correspondant en cliquant-droit sur le composant tRunJob et en slectionnant Open tRunJob Component.

3.

4.

5.

Cliquez sur Apply puis sur OK afin de valider les prfrences dfinies et fermer la bote de dialogue. Les composants externes sont ajouts la Palette.

2.5.5. Prfrence Exchange (Talend > Exchange)


Vous pouvez configurer les prfrences relatives votre connexion Talend Exchange, site faisant partie de la Communaut Talend, dans Talend Open Studio for Big Data. Pour ce faire : 1. 2. Dans la barre de menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dveloppez le nud Talend et cliquez sur Exchange afin d'afficher la vue Exchange.

3.

Configurez les prfrences d'Exchange selon vos besoins : Si vous n'tes pas encore connect la Communaut Talend, cliquez sur Sign In pour vous rendre sur la page Connect to TalendForge afin de vous connecter la Communaut Talend l'aide de votre identifiant/mot de passe ou pour vous crer un compte et de vous y connecter.

Guide utilisateur de Talend Open Studio for Big Data

25

Ajouter du code par dfaut (Talend > Import/Export)

Si vous tes dj connect la Communaut Talend, votre compte s'affiche et le bouton Sign In devient Sign Out. Pour vous dconnecter de la Communaut Talend, cliquez sur Sign Out. Par dfaut, lorsque vous tes connect la Communaut Talend, lorsqu'une mise jour d'un produit install est disponible, une bote de dialogue apparat pour vous le signaler. Si vous vrifiez frquemment les mises jour disponibles et que vous ne souhaitez pas que cette bote de dialogue rapparaisse, dcochez la case Notify me when updated extensions are available. Pour plus d'informations concernant la connexion la Communaut Talend, consultez section Lancement de Talend Open Studio for Big Data. Pour plus d'informations concernant l'utilisation des composants de la communaut dans le Studio, consultez la section Tlcharger/charger des composants de la communaut.

2.5.6. Ajouter du code par dfaut (Talend > Import/ Export)


Dans les prfrences, vous pouvez ajouter du code par dfaut au dbut ou la fin du code de votre Job. 1. 2. Dans le menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dveloppez les nuds Talend et Import/Export et cliquez sur Shell Settings pour afficher le champ permettant dajouter du code par dfaut.

3.

Dans le champ Command, ajoutez votre/vos ligne(s) de code avant ou aprs le code %GENERATED_TOS_CALL % pour quelles apparaissent respectivement au dbut ou la fin du code de votre Job.

2.5.7. Prfrences de langue (Talend > Internationalization)


Vous pouvez configurer les prfrences de langue dans Talend Open Studio for Big Data. 1. Dans le menu Window > Preferences, dveloppez le nud Talend pour ouvrir la bote de dialogue [Preferences]. Dveloppez le nud Talend et cliquez sur Internationalization pour afficher les prfrences de langue.

2.

26

Guide utilisateur de Talend Open Studio for Big Data

Prfrences de Performance (Talend > Performance)

3. 4. 5.

Dans le champ Local Language, slectionnez la langue que vous souhaitez utiliser pour linterface de Talend Open Studio for Big Data. Cliquez sur Apply, puis sur OK pour valider vos changements et fermer la bote de dialogue [Preferences]. Redmarrez Talend Open Studio for Big Data pour que ce changement soit pris en compte.

2.5.8. Prfrences de Performance (Talend > Performance)


Dans les prfrences, vous pouvez dfinir les options de rafrachissement du Repository en fonction de votre utilisation de Talend Open Studio for Big Data. 1. 2. Dans le menu, cliquez sur Window > Preferences, pour ouvrir la bote de dialogue [Preferences]. Dveloppez le nud Talend et cliquez sur Performance pour afficher les prfrences de Performance.

La dsactivation du rafrachissement automatique permet un gain de performance.

3.

Paramtrez les prfrences de performance de Talend Open Studio for Big Data en fonction de votre utilisation :

Guide utilisateur de Talend Open Studio for Big Data

27

Prfrences dexcution et de dbogage (Talend > Run/Debug)

Cochez la case Deactivate auto detect/update after a modification in the repository pour dsactiver la dtection et la mise jour automatique du Repository aprs modification. Cochez la case Check the property fields when generating code pour activer la vrification des champs de proprits des composants. Lorsque lun des champs de proprits dun composant est mal renseign, le composant est entour en rouge.
La dsactivation de la vrification des champs de proprits des composants permet un gain de performance. Dcochez la case Check the property fields when generating code.

Cochez la case Generate code when opening the job pour gnrer le code louverture du Job. Cochez la case Check only the last version when updating jobs or joblets pour ne vrifier que la dernire version des Jobs . Cochez la case Propagate add/delete variable changes in repository contexts pour propager les ajouts et suppressions de variables dans les mtadonnes Contexts du Repository. Cochez la case Activate the timeout for database connection pour mettre en place un dlai dexpiration des connexions aux bases de donnes. Puis dans le champ Connection timeout (seconds), saisissez, en secondes, la dure souhaite avant expiration. Cochez la case Add all user routines to job dependencies, when create new job, afin dajouter toutes les routines utilisateur dans les dpendances des Jobs lors de la cration de nouveaux Jobs. Cochez la case Add all system routines to job dependencies, when create job, pour ajouter toutes les routines systme lors de la cration de nouveaux Jobs.

2.5.9. Prfrences dexcution et de dbogage (Talend > Run/Debug)


Vous pouvez configurer les prfrences dexcution et de dbogage dans Talend Open Studio for Big Data. 1. 2. Dans le menu, cliquez sur Window > Preferences pour afficher la bote de dialogue [Preferences]. Dveloppez le nud Talend et cliquez sur Run/Debug pour afficher les prfrences.

28

Guide utilisateur de Talend Open Studio for Big Data

Prfrences dexcution et de dbogage (Talend > Run/Debug)

Dans la zone Talend client configuration, vous pouvez dfinir les options dexcution utiliser par dfaut.

Stats port range Trace port range Save before run Clear before run Exec time Statistics Traces Pause time

Spcifiez une plage pour les ports utiliss pour la gnration des Statistics, notamment si les ports dfinis par dfaut sont dj occups par dautres applications. Spcifiez une plage pour les ports utiliss pour la gnration des Traces, notamment si les ports dfinis par dfaut sont dj occups par dautres applications. Cochez cette case pour automatiquement enregistrer votre Job avant de lexcuter. Cochez cette case pour nettoyer les rsultats dune excution prcdente avant dexcuter de nouveau le Job. Cochez cette case pour afficher la dure dexcution du Job. Cochez cette case le suivi de flux au cours de lexcution du Job. Cochez cette case pour afficher le suivi du traitement des donnes au cours de lexcution du Job. Indiquez le temps de pause souhaite entre chaque ligne de donnes du tableau Traces.

Dans la liste Job Run VM arguments, vous pouvez dfinir les paramtres de votre JVM en fonction de votre utilisation. Les paramtres par dfaut, -Xms256M et -Xmx1024M correspondent respectivement la mmoire rserve minimale et maximale pour lexcution de vos Jobs. Si vous souhaitez utiliser des paramtres spcifiques pour lexcution dun Job, par exemple si vous voulez afficher les rsultats dexcution de ce Job en japonais, vous devez ouvrir la vue Run. Dans cette vue, configurez les paramtres dexcution avancs correspondants. Pour plus dinformations concernant les paramtres dexcution consultez section Configurer les paramtres dexcution avancs. avancs dun Job spcifique,

Pour plus dinformations sur les paramtres possibles, consultez le site (en anglais)http://www.oracle.com/ technetwork/java/javase/tech/vmoptions-jsp-140102.html.

Guide utilisateur de Talend Open Studio for Big Data

29

Afficher des caractres spciaux dans les colonnes de schmas (Talend > Specific settings)

2.5.10. Afficher des caractres spciaux dans les colonnes de schmas (Talend > Specific settings)
Vous pouvez avoir besoin de rcuprer le schma dune table contenant des colonnes avec caractres spciaux comme des caractres chinois, japonais ou corens. Dans ce cas, vous devez activer loption permettant de lire les caractres spciaux dans Talend Open Studio for Big Data. Pour ce faire : 1. 2. 3. Dans la barre de menu, cliquez sur Window > Preferences afin douvrir la bote de dialogue [Preferences]. Dans larborescence de la bote de dialogue, dveloppez le nud Talend. Cliquez sur le nud Specific settings pour afficher la vue correspondante dans la partie droite de la bote de dialogue. Cochez la case Allow specific characters (UTF8,...) for columns of schemas.

4.

2.5.11. Prfrences des schmas (Talend > Specific Settings)


Dans les prfrences, vous pouvez dfinir la longueur et le type de donnes par dfaut des champs des schmas de vos composants. 1. 2. Dans le menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dveloppez les nuds Talend et Specific Settings et cliquez sur Default Type and Length pour afficher les prfrences de longueur et de type des champs de vos schmas.

30

Guide utilisateur de Talend Open Studio for Big Data

Prfrences des bibliothques (Talend > Specific Settings)

3.

Paramtrez ces prfrences en fonction de vos besoins : Dans la zone Default Settings for Fields with Null Values, renseignez le type de donnes et la longueur du champ attribuer par dfaut aux champs de valeurs nulles. Dans la zone Default Settings for All Fields, renseignez le type de donnes et la longueur du champ attribuer tous les champs du schma. Dans la zone Default Length for Data Type, renseignez la longueur attribuer en fonction du type de donnes du champ.

2.5.12. Prfrences des bibliothques (Talend > Specific Settings)


Dans les prfrences, vous pouvez dfinir le rpertoire dans lequel stocker les diffrentes bibliothques utilises dans Talend Open Studio for Big Data. 1. 2. Dans le menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dveloppez les nuds Talend et Specific Settings et cliquez sur Libraries pour afficher les prfrences des bibliothques.

Guide utilisateur de Talend Open Studio for Big Data

31

Prfrences des conversions de type (Talend > Specific Settings)

3.

Le chemin daccs peut tre indiqu dans le champ External libraries path en cliquant sur le bouton Browse.... Le chemin par dfaut est celui de la version actuelle que vous utilisez.

2.5.13. Prfrences des conversions de type (Talend > Specific Settings)


Dans les prfrences, vous pouvez paramtrer les prfrences de conversion de type dans Talend Open Studio for Big Data, de Java vers les bases de donnes et des bases de donnes vers le langage Java. 1. 2. Dans le menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dveloppez les nuds Talend et Specific Settings et cliquez sur Metadata of Talend Type pour afficher les prfrences des conversions.

Dans la liste Metadata Mapping File, un fichier xml contenant les paramtres de conversion apparat pour chaque type de base de donnes utilis dans Talend Open Studio for Big Data. Vous pouvez importer, exporter ou supprimer chaque fichier de conversion en cliquant respectivement sur les boutons Import, Export et Remove. Vous pouvez ouvrir et modifier chaque fichier afin daffiner les conversions en fonction de votre utilisation en cliquant sur le bouton Edit et en modifiant le code XML directement dans la fentre [Edit mapping file].

32

Guide utilisateur de Talend Open Studio for Big Data

Prfrences du SQL Builder (Talend > Specific Settings)

2.5.14. Prfrences du SQL Builder (Talend > Specific Settings)


Dans les prfrences, vous pouvez dfinir les prfrences du SQL Builder. 1. 2. Dans le menu, cliquez sur Window > Preferences pour ouvrir la bote de dialogue [Preferences]. Dveloppez les nuds Talend et Specific Settings et cliquez sur SqlBuilder pour afficher les prfrences du SQL Builder.

3.

Personnalisez les performances du SQL Builder selon vos besoins : Cochez la case add quotes, when you generated sql statement pour protger le nom des colonnes et des tables par des guillemets dans vos requtes SQL. Pour le champ AS400 SQL generation, slectionnez Standard SQL Statement pour utiliser des commandes SQL standard ou System SQL Statement pour des commandes SQL system lorsque vous utilisez des bases de donnes de type AS400. Dcochez la case Enable check queries in the database components (disable to avoid warnings for specific queries) pour dsactiver la vrification des requtes dans les composants base de donnes.

2.5.15. Prfrences du collecteur de donnes d'utilisation (Talend > Usage Data Collector)
En autorisant Talend Open Studio for Big Data collecter vos statistiques d'utilisation du Studio, vous permettez aux utilisateurs de mieux comprendre les produits Talend et vous permettez Talend de savoir comment les utilisateurs utilisent les produits. Cela rend possible l'amlioration de la qualit des produits et des performances afin de mieux rpondre aux besoins des utilisateurs Par dfaut, Talend Open Studio for Big Data collecte automatiquement vos donnes d'utilisation et les envoie rgulirement aux serveurs hbergs par Talend. Vous pouvez voir la collection de donnes d'utilisation et le chargement d'informations, ainsi que personnaliser les performances du collecteur de donnes selon vos besoins.
Soyez assur que seules les statistiques d'utilisation du Studio sont collectes. Aucune de vos informations prives ne sera collecte et transmise Talend.

1. 2.

Dans la barre de menu, cliquez sur Window > Preferences afin d'afficher la bote de dialogue [Preferences]. Dveloppez le nud Talend et cliquez sur Usage Data Collector pour afficher la vue Usage Data Collector.

Guide utilisateur de Talend Open Studio for Big Data

33

Prfrences du collecteur de donnes d'utilisation (Talend > Usage Data Collector)

3. 4.

Lisez le message concernant le collecteur de donnes d'utilisation et, si vous ne souhaitez pas que le collecteur collecte et envoie vos informations d'utilisation du Studio, dcochez la case Enable capture. Pour obtenir un aperu des donns d'utilisation captures par le collecteur de donnes, dveloppez le nud Usage Data Collector et cliquez sur Preview.

5.

Pour personnaliser l'intervalle d'envoi des donnes d'utilisation et voir la date du dernier envoi, cliquez sur Uploading sous le nud Usage Data Collector.

Par dfaut, s'il est activ, le collecteur de donnes collecte les donnes d'utilisation du produit et les envoie aux serveurs Talend tous les dix jours. Pour modifier l'intervalle, saisissez une nouvelle valeur entire (en jours) dans le champ Upload Period.

34

Guide utilisateur de Talend Open Studio for Big Data

Personnalisation des paramtres du projet

Le champ Last Upload en lecture seule affiche la date et l'heure du dernier envoi de donnes aux serveurs Talend.

2.6. Personnalisation des paramtres du projet


Talend Open Studio for Big Data vous permet de personnaliser les informations et les paramtres du projet en cours, notamment les paramtres de la Palette et du Job. 1. Pour accder aux paramtres du projet, cliquez sur Edit Project Properties dans la barre de menu. La bote de dialogue [Project Settings] souvre. dans la barre doutils du Studio ou cliquez sur File >

2.

Dans larborescence gauche de la bote de dialogue, slectionnez le paramtre que vous souhaitez personnaliser et personnalisez-le dans la partie droite de la bote de dialogue.

A partir de cette bote de dialogue, vous pouvez aussi exporter ou importer lintgralit des paramtres de votre projet. Pour exporter les paramtres, cliquez sur le bouton Export. Lexport gnrera un fichier XML contenant tous les paramtres de votre projet. Pour importer les paramtres, cliquez sur le bouton Import et slectionnez le fichier XML contenant les paramtres dun autre projet appliquer au projet en cours.

2.6.1. Personnaliser la Palette


Vous pouvez personnaliser laffichage de la Palette, afin de ne charger que les composants que vous utilisez dans votre Projet, ce qui permet de lancer votre Studio plus rapidement.

Guide utilisateur de Talend Open Studio for Big Data

35

Personnaliser la Palette

Pour personnaliser l'affichage de la Palette, procdez comme suit : 1. Dans la barre doutils du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans la barre de menu pour ouvrir la bote de dialogue [Project Settings].

Dans la vue General de la bote de dialogue [Project Settings], ajoutez une description du projet en cours si vous ne lavez pas fait lors de sa cration.

2.

Dans larborescence de la fentre [Project Settings], dveloppez le nud Designer et cliquez sur Palette Settings. Les paramtres de la Palette en cours sont affichs dans la partie droite de la fentre. Slectionnez un ou plusieurs composants, ou un ou plusieurs groupes de composants pour les supprimer de la Palette en cours. Puis utilisez la flche vers la gauche pour dplacer la slection vers la Palette de composants cachs, gauche de la fentre. Notez que larborescence de la Palette est conserve dans la zone de gauche. Pour afficher de nouveau un composant cach, slectionnez-le dans la zone de gauche et faites-la passer dans la zone de droite en cliquant sur la flche vers la droite. Cliquez sur Apply pour valider les modifications effectues la Palette du projet en cours et cliquez sur OK pour fermer la bote de dialogue.
Pour revenir aux paramtres par dfaut, cliquez sur le bouton Restore Defaults.

3.

4.

5.

6.

Pour plus dinformations concernant la Palette, consultez section Modifier la disposition et les paramtres de la Palette.

36

Guide utilisateur de Talend Open Studio for Big Data

Grer les statuts

2.6.2. Grer les statuts


Vous pouvez galement grer le statut de chaque lment dans la vue Repository via le chemin General > Status Management de la bote de dialogue [Project Settings]. 1. Dans la barre doutils de la fentre principale du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans la barre de menu afin douvrir la bote de dialogue [Project Settings]. 2. Dans larborescence de la bote de dialogue, dveloppez le nud General puis slectionnez Status Management afin douvrir la vue correspondante.

3.

Dans la vue Repository, dveloppez le nud contenant les lments dont vous souhaitez grer le statut et cochez la case de ces lments. Les lments slectionns saffichent dans la liste Items de droite, avec leur statut, dans la colonne Status. Le nouveau statut dfini saffiche dans la colonne New Status.

4. 5. 6. 7.

Dans la zone Options, cochez la case Change all technical items to a fixed status pour changer le statut de tous les lments slectionns en un mme statut fixe. Cliquez sur Revert si vous souhaitez annuler les modifications. Pour mettre jour le statut des lments, slectionnez loption Update the version of each item et changezle manuellement. Cliquez sur Apply afin dappliquer vos modifications, puis sur OK pour fermer la bote de dialogue.
Pour plus dinformations concernant les statuts des Jobs, consultez section Personnaliser les paramtres du Job.

Guide utilisateur de Talend Open Studio for Big Data

37

Personnaliser les paramtres du Job

2.6.3. Personnaliser les paramtres du Job


Vous pouvez automatiquement utiliser les paramtres Implicit Context Load et Stats and Logs dfinis dans les Project Settings du projet en cours lorsque vous crez un nouveau Job. Pour cela : 1. Dans la barre doutils du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans la barre de menu pour ouvrir la bote de dialogue [Project Settings]. 2. Dans larborescence de la bote de dialogue, cliquez sur le noeud Job Settings pour ouvrir la vue correspondante. Cochez la case Use project settings when create a new job des zones Implicit Context Load et Stats and Logs.

3.

4.

Cliquez sur Apply pour valider les changements et cliquez sur OK pour fermer la bote de dialogue.

2.6.4. Configurer les informations de logs


Lorsque vous excutez un Job, vous avez la possibilit de monitorer son excution laide de loption tStatCatcher Statistics ou des composants de log adquats. Vous pouvez ensuite collecter les donnes recueillies dans des fichiers CSV ou dans une base de donnes. Vous pouvez dfinir le chemin daccs ces fichiers et/ou cette base de donnes de log de votre projet de manire permanente, afin que les donnes de log soient toujours stockes dans le mme rpertoire. Pour ce faire : 1. Dans la barre doutils du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans la barre doutils pour ouvrir la bote de dialogue [Project Settings]. 2. Dans larborescence de la bote de dialogue, dveloppez le nud Job Settings et cliquez sur Stats & Logs pour afficher la vue correspondante.

38

Guide utilisateur de Talend Open Studio for Big Data

Dfinir les paramtres de contexte

Si les paramtres des Stats & Logs ne varient pas en fonction du contexte dexcution, vous pouvez les dfinir de manire permanente. Si vous souhaitez appliquer les mmes paramtres de Stats & Logs en fonction de chaque Job, faites-le directement partir de la vue Stats & Logs du Job. Pour plus dinformations sur cette vue, consultez section Automatiser lutilisation des statistiques & logs.

3. 4. 5.

Cochez les cases Use statistics, Use logs et Use volumetrics en fonction de vos besoins, puis renseignez le chemin daccs des donnes de log. Slectionnez le format de stockage des donnes de log : cochez On Files ou On Database, ou cochez la case On Console pour afficher les donnes dans la console. Cliquez sur Apply pour appliquer les changements et sur OK pour fermer la bote de dialogue.

Les champs apparaissent en fonction des paramtres slectionns. Dans les champs File Name ou DB Name, saisissez respectivement le nom du fichier ou de la base de donnes entre guillemets en fonction du type de format choisi.
Si vous avez sauv les informations de connexion dans une variable de contexte, vous pouvez y accder via le raccourci Ctrl+Espace.

2.6.5. Dfinir les paramtres de contexte


Dans les paramtres du projet, vous pouvez dfinir des paramtres de contexte automatiques utiliss par dfaut dans vos Jobs. Pour ce faire : 1. Dans la barre doutils du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans la barre de menu pour ouvrir la bote de dialogue [Project Settings].

Guide utilisateur de Talend Open Studio for Big Data

39

Appliquer les paramtres du projet

2.

Dans larborescence de la bote de dialogue, dveloppez le nud Job Settings et cochez la case Implicit tContextLoad pour afficher les paramtres de configuration de loption Implicit tContextLoad.

3.

Slectionnez le type de fichier dans lequel les donnes de contextes seront conserves, soit sous forme de fichier en slectionnant le champ From File, soit sous forme de base de donnes en slectionnant From Database. Pour un fichier, renseignez le chemin daccs et le sparateur de champ du fichier contenant les paramtres de contexte dans les champs From File et Field Separator. Pour une base de donnes, slectionnez le mode adquat, Built-in ou Repository, dans le champ Property type et renseignez les champs suivants. Dans les champs Table Name et Query Condition, renseignez le nom de la table contenant les paramtres de contexte et la requte utiliser. Dans les champs If a variable loaded, but not in the context et If a variable in the context, but not loaded, slectionnez le type davertissement que vous souhaitez recevoir en fonction de votre utilisation des variables. Cliquez sur Apply pour valider les changements et cliquez sur OK pour fermer la bote de dialogue.

4.

5.

6.

7.

8.

2.6.6. Appliquer les paramtres du projet


Dans les paramtres du projet, vous pouvez dfinir quels Jobs du Repository vous souhaitez appliquer les paramtres Implicit Context Load et Stats and Logs. Pour cela : 1. Dans la barre doutils du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans la barre de menu pour ouvrir la bote de dialogue [Project Settings]. 2. Dans larborescence de la bote de dialogue, dveloppez le nud Job Settings et cliquez sur Use Project Settings pour afficher lutilisation des options Implicit Context Load et Stats and Logs dans les Jobs.

40

Guide utilisateur de Talend Open Studio for Big Data

Dfinir les paramtres des Statuts

3.

Dans la zone Implicit Context Load Settings, cochez les cases correspondant aux Jobs auxquels vous souhaitez appliquer loption Implicit Context Load. Dans la zone Stats Logs Settings, cochez les cases correspondant aux Jobs auxquels vous souhaitez appliquer loption Stats and Logs. Cliquez sur Apply pour valider les changements et sur OK pour fermer la bote de dialogue.

4.

5.

2.6.7. Dfinir les paramtres des Statuts


Dans les paramtres du projet, vous pouvez dfinir des niveaux de statuts. Pour cela : 1. Dans la barre doutils du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans la barre de menu pour ouvrir la bote de dialogue [Project Settings]. 2. Dans larborescence, cliquez sur le nud Status pour paramtrer les proprits principales des lments du Repository. Les proprits principales dun lment du repository comprend des informations telles que Name, Purpose, Description, Author, Version and Status de llment slectionn. La plupart des proprits sont des champs de saisie, cependant le champ Status est une liste droulante.

Guide utilisateur de Talend Open Studio for Big Data

41

Dfinir les paramtres des Statuts

3.

Cliquez sur le bouton New... pour afficher un bote de dialogue et alimenter la liste Status avec les valeurs appropries aux besoins de votre entreprise. Notez que le champ Code ne peut pas dpasser trois caractres et le champ Label contenant le libell de votre statut est obligatoire.

Talend fait la diffrence entre deux types de statuts : Technical status et Documentation status. La liste de statuts Technical status affiche les codes de classification des lments qui sont utiliss lors de lexcution de Jobs, de dfinition de mtadonnes ou de routines. La liste de statuts Documentation status permet de classer les lments du rfrentiel qui sont utiliss pour documenter les process. 4. Une fois le statut renseign, cliquez sur OK sauvegarder. Dsormais la liste Status vous permet dappliquer vos paramtres de classification personnaliss aux Jobs. 5. Dans la bote de dialogue [Project Settings], cliquez sur Apply pour valider vos changements et sur OK pour fermer la bote de dialogue.

42

Guide utilisateur de Talend Open Studio for Big Data

Paramtres de scurit

2.6.8. Paramtres de scurit


Dans les paramtres de projet, vous pouvez afficher ou masquer les mots de passe de vos contextes, etc. lorsquils sont centraliss dans le Repository. Pour masquer votre mot de passe : 1. Dans la barre doutils du Studio, cliquez sur ou cliquez sur File > Edit Project Properties dans le menu pour ouvrir la bote de dialogue [Project Settings]. 2. 3. 4. Dans larborescence, cliquez sur le nud Security pour ouvrir la vue correspondante. Cochez la case Hide passwords pour masquer vos mots de passe. Dans la bote de dialogue [Project Settings], cliquez sur Apply pour valider vos changements et sur OK pour fermer la bote de dialogue.

2.7. Filtrage des entres listes dans la vue Repository


Talend Open Studio for Big Data offre la possibilit de choisir les nuds, les Jobs ou lments que vous souhaitez lister dans la vue Repository. Vous pouvez filtrer la vue Repository par le nom du Job, le statut du Job ou lutilisateur ayant cr le Job ou les lments, simplement en cochant ou dcochant la case situe ct du nud ou de llment que vous souhaitez afficher ou cacher dans la vue. Vous pouvez aussi dfinir simultanment plusieurs filtres.

2.7.1. Filtrer avec le nom du Job


Pour filtrer les Jobs lists dans la vue Repository par le nom du Job, procdez comme suit : 1. Dans le Studio, cliquez-droit sur licne Filter settings partir du menu contextuel. La bote de dialogue [Repository Filter] souvre. dans la vue Repository en haut droite et slectionnez

Guide utilisateur de Talend Open Studio for Big Data

43

Filtrer avec le nom du Job

2.

Cochez la case Filter By Name. Le champ correspondant devient accessible.

3.

Suivez les rgles affiches sous le champ lorsque vous entrez les lments que vous souhaitez utiliser pour filtrer les Jobs. Dans cet exemple, nous souhaitons lister tous les Jobs de larborescence commenant par tMap ou test.

4.

Dans la case [Repository Filter], cliquez sur OK pour valider vos modifications, ensuite fermer la bote de dialogue. Seuls les Jobs correspondants au filtre que vous avez dfini apparatront dans larborescence, ceux commenant par tMap et test dans cet exemple.

44

Guide utilisateur de Talend Open Studio for Big Data

Filtrer avec lutilisateur

Vous pouvez retourner larborescence par dfaut, listant tous les nuds, Jobs et lments, simplement en cliquant sur licne . Alors le signe plus vert se change en signe moins rouge ( ).

2.7.2. Filtrer avec lutilisateur


Pour filtrer des entres dans la vue Repository avec lutilisateur qui a cr les Jobs ou les lments, procdez comme suit : 1. Dans le Studio, cliquez-droit sur licne Filter settings partir du menu contextuel. La bote de dialogue [Repository Filter] souvre. dans la vue Repository en haut droite et slectionnez

Guide utilisateur de Talend Open Studio for Big Data

45

Filtrer avec lutilisateur

2.

Dcochez la case All Users. Les champs correspondants dans la table ci-dessous deviennent accessibles.

La table liste les informations authentification de tous les utilisateurs qui se sont connects Talend Open Studio for Big Data et qui ont cr un Job ou un lment. 3. Dcochez la case ct du nom de lutilisateur si vous souhaitez cacher dans la vue Repository tous les Jobs ou lments crs par lutilisateur. Cliquez sur OK pour valider vos modifications, ensuite fermer la bote de dialogue. Tous les Jobs ou lments crs par lutilisateur slectionn disparatront de larborescence.
Vous pouvez retourner larborescence par dfaut, listant tous les nuds, Jobs et lments, simplement en cliquant sur licne . Alors le signe plus vert se change en signe moins rouge ( ).

4.

46

Guide utilisateur de Talend Open Studio for Big Data

Filtrer avec le statut du Job

2.7.3. Filtrer avec le statut du Job


Pour filtrer les Jobs dans la vue Repository par le statut du Job, procdez comme suit : 1. Dans le Studio, cliquez-droit sur licne Filter settings partir du menu contextuel. La bote de dialogue [Repository Filter] souvre. dans la vue Repository en haut droite et slectionnez

Guide utilisateur de Talend Open Studio for Big Data

47

Slectionner les nuds du Repository afficher

2.

Dans la zone Filter By Status, dcochez la case situe ct de statut si vous souhaitez cacher tous les Jobs ayant le statut slectionn. 3. Cliquez sur OK pour valider vos modifications, ensuite fermer la bote de dialogue. Tous les Jobs ayant le statut slectionn disparatront de larborescence.
Vous pouvez retourner larborescence par dfaut, listant tous les nuds, Jobs et lments, simplement en cliquant sur licne . Alors le signe plus vert se change en signe moins rouge ( ).

2.7.4. Slectionner les nuds du Repository afficher


Pour filtrer les nuds du Repository, procdez comme suit : 1. Dans le Studio, cliquez-droit sur licne Filter settings partir du menu contextuel. La bote de dialogue [Repository Filter] souvre. dans la vue Repository en haut droite et slectionnez

48

Guide utilisateur de Talend Open Studio for Big Data

Slectionner les nuds du Repository afficher

2.

Cochez la case situe ct des nuds que vous souhaitez afficher dans la vue Repository.

Par exemple, vous souhaitez montrer dans larborescence tous les Jobs lists sous le nud Job Designs. Trois des dossiers lists sous le nud SQL Templates et lun des lments des mtadonnes list sous le nud Metadata. 3. Cliquez sur OK pour valider vos modifications et fermer la bote de dialogue. Seuls les nuds/dossiers dont vous avez coch la case apparaissent dans larborescence.

Guide utilisateur de Talend Open Studio for Big Data

49

Slectionner les nuds du Repository afficher

Si vous ne souhaitez pas afficher tous les Jobs lists sous le nud Job Designs, vous pouvez filtrer les Jobs en cochant la case Filter By Name. Pour plus dinformations sur le filtrage des Jobs, consultez section Filtrer avec le nom du Job.

50

Guide utilisateur de Talend Open Studio for Big Data

Chapitre 3. Conception dun Job dintgration de donnes


Les fonctionnalits de Talend Open Studio for Big Data permettent de traiter toutes les sources et les cibles utilises dans un processus dintgration de donnes, ainsi que tous les oprations associes. Les Jobs d'intgration de donnes que vous modlisez dans ce chapitre vous permettent de mettre en place des processus de gestion des flux de donnes directement excutables. Avant de commencer un processus d'intgration de donnes, vous devez vous tre familiaris avec linterface graphique de Talend Open Studio for Big Data. Pour plus dinformations, consultez annexe Interface de Talend Open Studio for Big Data .

Guide utilisateur de Talend Open Studio for Big Data

Qu'est-ce qu'un Job ?

3.1. Qu'est-ce qu'un Job ?


Un Job est la reprsentation graphique fonctionnelle dun ou plusieurs composants connects, permettant de dfinir et dexcuter des processus de gestion de flux de donnes. Il traduit les besoins mtier en code, en routines ou en programmes, puis se charge dexcuter ces derniers. En dautres termes, le Job permet de mettre en place votre flux de donnes. Les Jobs que vous crez peuvent grer les diffrentes sources et cibles dont vous avez besoin lors de vos processus dintgration de donnes, ou lors de tout autre processus li. Avec Talend Open Studio for Big Data, vous pouvez : modliser des actions d'intgration de donnes grce la bibliothque de composants techniques, changer les paramtres par dfaut des composants et mme crer de nouveaux composants ou familles de composants qui correspondent au mieux vos besoins, paramtrer les connexions et les relations entre composants afin de dfinir la nature des actions et leur droulement, accder au code gnr pour le programme ou les composants afin de le modifier ou de le documenter, crer et ajouter des lments au Repository (Rfrentiel) des fins de rutilisation et de partage (avec dautres projets, dautres processus ou, moyen terme, avec dautres utilisateurs).
Pour pouvoir excuter les Jobs que vous avez crs dans Talend Open Studio for Big Data, vous devez installer une JVM Oracle 1.6 ou une version ultrieure (les JVM IBM ne sont pas supportes). Vous pouvez la tlcharger sur http:// www.oracle.com/technetwork/java/javase/downloads/index.html.

3.2. Utilisation dun Job Design simple


Jusqu ce quun Job soit cr, lespace de modlisation graphique est indisponible, et la Palette ne saffiche pas.

Un Job Design est compos dun ou plusieurs sous-job(s), eux-mmes dfinis par un ou, plus vraisemblablement, par plusieurs composants relis les uns aux autres. Les proprits de chaque composant doivent tre configures individuellement, afin que tout fonctionne correctement. Pour plus dinformations, consultez la section Types de connexions et la section Dfinir les proprits dun composant.

3.2.1. Crer un Job


Talend Open Studio for Big Data vous permet de crer un Job dintgration de donnes en dposant diffrents composants techniques de la Palette dans lespace de modlisation graphique, puis en connectant ces composants les uns aux autres. Vous pouvez galement crer diffrents dossiers pour mieux classifier ces Jobs. Pour crer un Job dintgration de donnes, procdez comme suit : 1. 2. Ouvrez Talend Open Studio for Big Data en suivant la procdure dtaille dans la section Lancement de Talend Open Studio for Big Data. Dans la vue Repository, cliquez-droit sur le nud Job Designs, et slectionnez Create job dans le menu contextuel.

52

Guide utilisateur de Talend Open Studio for Big Data

Crer un Job

Lassistant de cration [New Job] vous guide dans les tapes de dfinition des proprits de votre nouveau Job.

3.

Renseignez les proprits du Job comme suit :


Champ Name Purpose Description Author Locker Description Saisissez un nom pour le nouveau Job. Un message saffiche si vous saisissez des caractres interdits. Saisissez toute information que vous jugerez utile concernant lutilisation du Job. Saisissez une description si ncessaire. Ce champ est en lecture seule car il reprend par dfaut l'identifiant de l'utilisateur courant. Ce champ est en lecture seule car il reprend par dfaut le login utilisateur ayant verrouill le Job courant. Ce champ est vide lorsque vous crez un Job, et na des donnes que lorsque vous ditez les proprits dun Job existant. Slectionnez dans la liste le statut du Job que vous crez. Slectionnez le dossier dans lequel vous souhaitez crer le Job.

Status Path

Guide utilisateur de Talend Open Studio for Big Data

53

Crer un Job

Le Designer souvre sur un onglet de modlisation vide, indiquant simplement le nom du nouveau Job. 4. Glissez-dposez les composants que vous souhaitez utiliser de la Palette dans lespace de modlisation graphique, et connectez-les. Pour plus dinformations, consultez la section Dposer des composants dans l'espace de modlisation graphique et la section Types de connexions. Dfinissez les proprits de chaque composant utilis dans le Job. Pour plus dinformations, consultez la section Dfinir les proprits dun composant. Sauvegardez votre Job et appuyez sur F6 pour lexcuter. Pour plus dinformations, consultez la section Excuter un Job. Le Job que vous avez cr saffiche sous le nud Job Designs, dans la vue Repository.
Vous pouvez ouvrir autant de Jobs crs que vous le souhaitez, simplement en double-cliquant sur le nom du Job dans le Repository.

5.

6.

Pour crer diffrents dossiers afin de classer vos Jobs, procdez comme suit : 1. Dans la vue Repository, cliquez-droit sur Job Designs et slectionnez Create Folder dans le menu contextuel. La bote de dialogue [New Folder] apparat.

2.

Dans le champ Label, saisissez un nom pour le dossier puis cliquez sur Finish pour confirmer vos modifications et fermer la bote de dialogue. Le dossier cr saffiche sous le nud Job Designs, dans la vue Repository.
Si vous avez dj cr les Jobs que vous souhaitez dplacer dans ce nouveau dossier, glissez-les simplement dans le dossier.

Pour un scnario expliquant comment crer un vrai Job dintgration de donnes, consultez la annexe De la thorie la pratique, exemple de Job.

54

Guide utilisateur de Talend Open Studio for Big Data

Dposer des composants dans l'espace de modlisation graphique

3.2.2. Dposer des composants dans l'espace de modlisation graphique


3.2.2.1. Dposer des composants partir de la Palette
Pour commencer la cration dun Job, cliquez sur un composant de la Palette. Puis cliquez dans lespace de modlisation pour le dposer et ainsi lajouter votre Job Design.
Si la Palette nest pas visible, consultez section Afficher, cacher et dplacer la Palette.

Vous pouvez galement dposer une Note de la mme faon que vous dposez des composants. Pour plus dinformations, consultez la section Ajouter une Note au Job.

Chaque composant ajout au Job apparat gnralement dans un rectangle bleu symbolisant le sous-job.

Connectez les composants les uns aux autres dans un ordre logique laide des connexions disponibles, afin de crer un Job ou un sous-job complet. Pour plus dinformations concernant les diffrents types de connexion, consultez la section Types de connexions. Les Jobs ou sous-jobs sont mis en vidence par un seul rectangle bleu. Pour plus dinformations concernant le surlignage des Jobs et des sous-jobs, consultez la section Personnaliser les sous-jobs. Plusieurs types dicnes dinformation et davertissement peuvent safficher ct du composant. Placez le pointeur sur licne pour faire apparatre la bulle dinformation. Ces icnes saffichent tant que vous navez pas termin de paramtrer toutes les proprits de base (et parfois avances) des composants partir de la vue Component.
Vous devrez utiliser le code Java pour votre projet.

Voir galement : section Types de connexions. section Grer les icnes davertissement/derreur sur les composants. section Dfinir les proprits dun composant.

Guide utilisateur de Talend Open Studio for Big Data

55

Chercher des composants dans la Palette

3.2.3. Chercher des composants dans la Palette


Si vous ne voulez pas parcourir les familles de composants dans la Palette pour trouver les composants que vous souhaitez utiliser dans votre Job, vous pouvez chercher le composant directement dans le champ de recherche en haut de la Palette.

Pour chercher un composant, procdez comme suit : 1. 2. Cliquez sur le bouton pour effacer tout texte du champ de recherche.

Saisissez le nom du composant que vous cherchez puis cliquez sur OK. La Palette naffiche plus que la (les) famille(s) contenant le composant.

Pour retourner la Palette par dfaut, cliquez nouveau sur le bouton

3.2.4. Connecter des composants


Un Job ou un sous-job est compos par un groupe de composants interconnects de manire logique. Un Job peut tre compos de plusieurs sous-jobs chargs de diffrents traitements de donnes. Le composant formant un sous-job, ainsi que les sous-jobs sont connects entre eux via diffrents types de connexion. De plus, un Job (compos dun ou plusieurs sous-jobs) peut tre prcd par un Pr-Job et suivit dun Post-Job, afin de sassurer que certaines tches spcifiques (souvent sans lien avec le traitement de donnes en cours) sont effectues un tout premier ou en tout dernier. Pour plus dinformations, consultez la section Utiliser les composants tPrejob et tPostjob. Pour connecter deux composants, cliquez-droit sur le composant source dans votre espace de modlisation graphique, slectionnez le type de connexion dans le menu contextuel, puis cliquez sur le composant cible. Dans lditeur graphique, lorsque vous glissez le pointeur du composant source vers le composant cible, une prise lectrique symbolise le branchement en cours et un signe interdit indique que le composant cible nest pas valide. Le signe interdit ne disparat quune fois le composant valide atteint. Seules les connexions autorises pour le composant slectionn dans lditeur graphique sont proposes dans la liste du menu contextuel.

56

Guide utilisateur de Talend Open Studio for Big Data

Cliquer et dposer des composants au milieu dune connexion de type Row

Les types de connexions diffrent selon la nature du composant et son rle dans le Job. Les types de connexions disponibles varient galement si les donnes proviennent dun ou plusieurs fichiers dentre et si elles sont transmises vers un ou plusieurs fichiers de sortie. Slectionnez un composant dans lditeur graphique et cliquez-droit pour afficher le menu contextuel. Tous les liens disponibles pour ce composant particulier apparaissent lcran. Pour plus d'informations concernant les diffrents types de connexions disponibles, consultez la section Utilisation des connexions.

3.2.5. Cliquer et dposer des composants au milieu dune connexion de type Row
Lorsque vous crez un Job, Talend Open Studio for Big Data vous permet dinsrer un composant au milieu dune connexion de type Row > Main, Row > Reject ou de type Row > Combine. Pour ce faire, procdez comme suit : 1. 2. A partir de la Palette, cliquez et dposez deux composants Combine et deux composants File (un dentre et un de sortie) dans l'espace de modlisation graphique. Connectez les paires de composants en utilisant soit une connexion de type Row > Main (ou Row > Reject), soit une connexion de type Row > Reject.

3.

Cliquez et dposez le composant que vous souhaitez insrer au milieu de la connexion. La connexion saffiche en gras puis une bote de dialogue souvre, vous demandant de saisir un nom pour le lien de sortie.

4.

Saisissez un nom puis cliquez sur OK pour fermer la bote de dialogue.

Guide utilisateur de Talend Open Studio for Big Data

57

Dfinir les proprits dun composant

Il est possible qu'un message vous propose de rcuprer le schma du composant cible. Cliquez sur OK pour accepter ou sur No pour refuser.

Le composant est insr au milieu de la connexion, dsormais divise en deux.

3.2.6. Dfinir les proprits dun composant


Les proprits de chacun des composants formant un Job ou un sous-job permettent de paramtrer lexcution technique du Job actif. Les proprits de chaque composant sont dfinies dans la vue Component, dans longlet Basic settings pour les proprits de base et dans longlet Advanced settings pour les proprits avances. La vue Component regroupe aussi les vues View et Documentation qui contiennent des informations secondaires sur le composant slectionn. Pour plus dinformations concernant les composants prsents dans la Palette, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

3.2.6.1. Onglet Basic settings


Longlet Basic settings fait partie de la vue Component, qui est situe en bas de la fentre de Talend Open Studio for Big Data.

Les paramtres de base des composants sont diffrents en fonction de ces exigences fonctionnelles dans le job. Pour une description dtaille des proprits et de lutilisation de chaque composant, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

58

Guide utilisateur de Talend Open Studio for Big Data

Dfinir les proprits dun composant

Certains composants sont paramtrs laide de code ou de fonctions. Veillez bien utiliser le code Java dans les proprits en Java.

Paramtrer un schma
Cliquez sur Edit Schema. Ensuite, crez votre schma en y ajoutant des colonnes et en dcrivant leur contenu selon la structure du fichier dentre.

Vous pouvez rcuprer le schma ponctuel dun fichier dentre pour alimenter le schma de sortie. Pour ce faire, cliquez sur le bouton Sync columns dans les proprits du composant Output.
Des informations supplmentaires sont ncessaires. Pour plus dinformations sur les formats de date par exemple, visitez le site : http://docs.oracle.com/javase/6/docs/api/index.html

Afficher un champ de manire dynamique (Ctrl+Espace)


Dans tous les champs de longlet Component, vous pouvez accder la liste des variables globales et de contexte et afficher de manire dynamique les valeurs contenues dans chaque champ laide du raccourci clavier Ctrl +Barre despace. 1. 2. 3. Placez le curseur de votre souris dans nimporte quel champ de longlet Component. Appuyez sur Ctrl+Barre despace pour accder la liste des variables. Slectionnez les paramtres adquats dans la liste. En plus de la liste des variables, un panneau dinformation fournit des dtails sur les paramtres slectionns.

Guide utilisateur de Talend Open Studio for Big Data

59

Dfinir les proprits dun composant

Les paramtres affichs peuvent tre : des messages derreur, le nombre de lignes traites, etc. La liste varie en fonction des composants slectionns ou du contexte sur lequel vous travaillez. Voir galement : section Centraliser les Contextes et les Variables.

3.2.6.2. Onglet Advanced settings


Certains composants, notamment les composants File et Database, offrent de nombreuses fonctions avances.

Le contenu de longlet Advanced Settings change en fonction du composant slectionn. Gnralement, cet onglet regroupe les paramtres qui ne sont pas requis pour une utilisation de base ou habituelle du composant, mais ils sont requis pour les utilisations avances.

Mesurer les flux de donnes


Longlet Advanced settings propose aussi les fonctionnalits de statistiques avec loption tStatCatcher. Si vous slectionnez cette option, elle vous permet dafficher les statistiques et les donnes de log sur le Job en cours sans avoir recours aux composants ddis. Pour plus dinformations concernant les fonctionnalits Stats & Log, consultez section Automatiser lutilisation des statistiques & logs.

3.2.6.3. Onglet Dynamic settings


Les vues Basic et Advanced settings de tous les composants comportent divers cases cocher et listes droulantes permettant de paramtrer chaque composant. Dune manire gnrale, les valeurs de ces types de paramtres sont soit true (vrai), soit false (faux) et ne peuvent tre dites quau moment de la cration. Longlet Dynamic settings, dans la vue Component, vous permet de personnaliser ces paramtres sous la forme de code ou de variable. Cette fonctionnalit vous permet par exemple de configurer ces paramtres comme des variables qui deviendront donc dpendant des contextes, alors quils ne sont pas censs tre par dfaut.

60

Guide utilisateur de Talend Open Studio for Big Data

Dfinir les proprits dun composant

Un autre avantage de cette fonctionnalit rside dans le fait que vous tes maintenant capable de changer les paramtres de contexte au moment de lexcution, ce qui est trs utile lorsque vous exporter votre Job script afin de le dployer sur un serveur dexcution par exemple.

Pour personnaliser ces types de paramtres, notamment les variables de contexte, suivez les tapes qui suivent : 1. Slectionnez le composant dont les onglets Basic et Advanced settings contiennent les paramtres que vous souhaitez dfinir comme variable. Cliquez sur longlet Dynamic settings Cliquez sur le bouton [+] pour crer une nouvelle ligne de paramtres dans le tableau. Cliquez dans la cellule Name du paramtre pour afficher la liste des paramtres disponibles. Par exemple : Print operations. Puis cliquez dans la cellule Code en face du paramtre et paramtrez le code utiliser. Par exemple : context.verbose si vous avez cr la variable de contexte que vous avez appele verbose.
Dans la cellule Code, vous pouvez entrer une variable de contexte mais aussi un bout de code Java.

2. 3. 4.

5.

Les listes ou cases cocher correspondantes deviennent donc indisponibles et sont surlignes en jaune dans les onglets Basic ou Advanced settings.

Si vous souhaitez configurer un paramtre comme variable de contexte, assurez-vous davoir bien cr la variable dans la vue Context. Pour plus dinformations concernant la dfinition des variables de contexte, consultez section Dfinir les variables partir de la vue Contexts.

Vous pouvez aussi utiliser une variable globale ou des bouts de code Java pour stocker les valeurs utiliser pour chaque paramtre.

Guide utilisateur de Talend Open Studio for Big Data

61

Dfinir les proprits dun composant

Par exemple, utilisez certaines variables globales disponibles laide du raccourci clavier Ctrl+Espace, et adaptezles votre contexte.

3.2.6.4. Onglet View


Longlet View de la fentre Component vous permet de changer le format daffichage par dfaut dun composant dans lditeur graphique.

Champ Label format

Description Libell libre qui saffiche au niveau de lditeur graphique. Des variables peuvent tre utilises pour retrouver et afficher des valeurs dautres champs. Laide contextuelle de ce champ fournit gnralement la variable correspondante o la valeur du champ est stocke. Bulle contextuelle apparaissant lorsque vous passez la souris au dessus du composant. Cochez cette case pour activer la fonctionnalit dindication contextuelle.

Hint format Show hint

Vous pouvez personnaliser les textes des Label et Hint laide des balises HTML suivantes : Gras : <b> LibellOuBulle </b> Italique : <i> LibellOuBulle </i> Retour chariot : LibellOuBulle <br> ContinueLigneSuiv Couleur : <Font color= #RGBcolor> LibellOuBulle </Font> Pour changer vos prfrences de longlet View, cliquez sur Window > Preferences > Talend > Appearance > Designer.

3.2.6.5. Onglet Documentation


Nhsitez pas ajouter tout commentaire ou morceau de texte que vous jugerez utile dans le champ Comment.

62

Guide utilisateur de Talend Open Studio for Big Data

Excuter un Job

Le contenu de ce champ Comment sera format laide du markup Pod et sera intgr au code gnr sous forme de commentaires. Vous pouvez visualiser votre commentaire sous longlet Code de lditeur graphique. Vous pouvez galement ajouter le contenu de votre commentaire, ou documentation, dans laide contextuelle dun composant en utilisant la variable associe (_COMMENT_). Pour une utilisation avance de la fonction Documentation, il est prfrable dutiliser la partie Documentation du rfrentiel, qui vous permet de conserver et rutiliser tout type de documentation de faon centralise.

3.2.7. Excuter un Job


Vous disposez de plusieurs manires pour excuter votre Job. Le choix du type dexcution dpend de lobjectif ainsi que de votre niveau utilisateur. Si vous avez un niveau utilisateur Java avanc et souhaitez excuter votre Job pas pas, consultez la section Excuter un Job en mode Java debug. Si vous navez pas de connaissances avances en Java et souhaitez excuter votre Job en mode normal, consultez la section Excuter en mode normal. Pour savoir comment excuter un Job sur un serveur Hadoop via Oozie scheduler, consultez

3.2.7.1. Excuter en mode normal


Veillez sauvegarder votre Job avant de lexcuter, afin que toutes les proprits puissent tre prises en compte.

Pour excuter votre Job en mode normal, procdez comme suit :

Guide utilisateur de Talend Open Studio for Big Data

63

Excuter un Job

1. 2. 3.

Cliquez sur la vue Run pour l'ouvrir. Cliquez sur longlet Run Job pour accder au mode normal d'excution. Dans la zone Context, slectionnez le contexte appropri pour ce processus. Vrifiez galement les valeurs de variables si ncessaire.

Si vous navez pas dfini de contexte dexcution, le tableau des paramtres de contexte est vide et le contexte est celui par dfaut. Voir galement : section Dfinir les variables partir de la vue Contexts. 1. 2. Cliquez sur Run pour lancer lexcution. Sur le mme panneau, la console de log affiche la progression de lexcution. La console inclut les messages derreurs ainsi que les messages de dbut et de fin de processus. Elle affiche galement le rsultat du processus si le composant terminal le prvoit, notamment le tLogRow. Pour paramtrer le nombre de lignes afficher dans la console lors de lavancement de lexcution, cochez la case Line limit et saisissez une valeur dans le champ. Cochez la case Wrap pour activer les retours automatiques la ligne. Cette case est coche par dfaut. Lorsquelle est dcoche, une barre de dfilement horizontale apparat, vous permettant de voir la fin des lignes.

3.

4.

Avant dexcuter nouveau un Job, vous pouvez vider le contenu de la vue de log, en cliquant sur la case cocher Clear before run. La vue de log sera dsormais vide chaque excution. Si pour une raison quelconque, vous souhaitez stopper la progression du job, cliquez simplement sur le bouton Kill. Vous devrez cliquer sur Run nouveau pour reprendre lexcution du job. Talend Open Studio for Big Data offre dautres fonctionnalits informatives, notamment Statistics et Traces, qui facilitent la supervision du Job ainsi que le travail de dbogage. Pour plus dinformations, consultez les sections suivantes.

3.2.7.2. Excuter un Job en mode Java debug


Pour suivre pas pas les tapes de lexcution dun Job afin didentifier les bugs possibles, vous pouvez excuter ce Job en mode Debug. Pour accder au mode Debug : 1. Cliquez sur longlet Run pour accder cette vue.

64

Guide utilisateur de Talend Open Studio for Big Data

Excuter un Job

2.

Cliquez sur longlet Debug Run pour accder aux modes dexcution Debug.
Avant dexcuter un Job en mode Debug, vrifiez que le module EPIC est install.

Dans un premier temps, nous vous recommandons dajouter des points de pause au niveau des tapes principales de votre processus.

De cette manire, le processus sarrtera automatiquement rgulirement, vous permettant ainsi de vrifier pas pas les composants et leurs variables respectives et de corriger les bugs ventuels. Pour ajouter des pauses (breakpoints) au niveau dun composant, cliquez droit sur le composant dans lespace de modlisation puis slectionnez Add breakpoint dans le menu contextuel. Licne pause saffiche gauche du composant dans lditeur graphique. Pour passer en mode Debug, cliquez sur le bouton Debug dans le panneau Run Job. Talend Open Studio for Big Data ouvre lditeur en mode de dbogage. Vous pouvez excuter le Job pas pas et vrifier le comportement de chacun des composants ainsi que les valeurs des variables utilises. Pour revenir en mode normal Talend Open Studio for Big Data, cliquez sur Window, puis Perspective et slectionnez Talend Open Studio for Big Data.

3.2.7.3. Excuter un Job en mode Traces Debug


La fonctionnalit Traces permet un suivi du traitement des donnes au cours de lexcution du Job dans Talend Open Studio for Big Data. Cette option fournit un aperu ligne par ligne du comportement du composant et affiche le rsultat dynamique de cette vue ct de la connexion Row.

Cette fonctionnalit vous permet de surveiller tous les composants dun Job, sans avoir besoin de passer en mode Debug, et par consquent sans avoir besoin de connaissances Java particulires. La fonction Traces affiche le contenu des lignes traites dans un tableau.
Les composants externes ne peuvent offrir cette fonctionnalit que si leur conception le prvoit.

Guide utilisateur de Talend Open Studio for Big Data

65

Excuter un Job

Vous pouvez activer ou dsactiver le mode Traces ou dcider quelles colonnes traites afficher dans le tableau des traces qui saffichera dans lespace de modlisation graphique lors de lexcution du Job. Pour activer le mode Traces dans un Job :

1. 2. 3. 4.

Cliquez sur la vue Run. Cliquez sur longlet Debug Run pour accder aux modes dexcution Debug et Traces. Cliquez sur la flche descendante du bouton Java Debug puis slectionnez loption Traces. Une icne apparat sous chaque flux de votre Job pour indiquer que la fonction de suivi du traitement est active. Cliquez sur Traces Debug pour excuter le Job en mode Traces.

Pour dsactiver le mode Traces dun flux de votre Job :

1. 2.

Cliquez-droit sur licne de Traces du flux concern. Slectionnez Disable Traces dans le menu contextuel. Un signe moins rouge vient remplacer le signe plus vert sur licne pour indiquer que le mode Traces a t dsactiv pour ce flux.

Pour choisir quelles colonnes des donnes traites afficher dans le tableau des traces, procdez comme suit : 1. Cliquez-droit sur licne de Traces du flux concern et slectionnez Setup Traces dans le menu contextuel. La bote de dialogue [Setup Traces] souvre.

2. 3.

Dans la bote de dialogue, dcochez les cases correspondant aux colonnes que vous ne souhaitez pas afficher dans le tableau Traces. Cliquez sur OK pour fermer la bote de dialogue.

66

Guide utilisateur de Talend Open Studio for Big Data

Excuter un Job

La fonction Traces ne sexcute qu lexcution du Job et sarrte la fin de celui-ci. Cliquez sur le bouton Clear dans l'onglet Debug Run pour effacer les statistiques affiches.

3.2.7.4. Configurer les paramtres dexcution avancs


Plusieurs paramtres dexcution avancs sont disponibles pour rendre lexcution des Jobs plus pratique : Statistics, cette fonction affiche le taux de performance de traitement. Pour plus dinformations, consultez section Afficher les Statistiques. Exec time, cette fonction affiche le temps dexcution dans la console, la fin de lexcution. Pour plus dinformations, consultez section Afficher la dure dexcution et dautres options. Save Job before execution, cette fonction permet de sauvegarder automatiquement le Job avant son excution. Clear before run, cette fonction efface tous les rsultats de lexcution prcdente avant de r-excuter le Job. JVM Setting, cette fonction vous permet de dfinir les paramtres de votre JVM selon vos besoins, par exemple les paramtres utiliss pour afficher des caractres spciaux.

Afficher les Statistiques


La fonction Statistics affiche pour chacun des composants son taux de performance, en dessous des connexions dans lespace de modlisation.

Sont indiqus le nombre de lignes traites et la vitesse de traitement en ligne par seconde. Vous pouvez ainsi plus facilement reprer dventuels goulots dtranglement dans le traitement de votre flux de donnes. Pour les liens de dclenchement de type If, OnComponentOk, OnComponentError, OnSubjobOk et OnSubjobError, loption Statistics affiche ltat de ce dclenchement durant lexcution de votre Job : Ok ou Error et True ou False.
Cette option est disponible pour tous les composants, lexception des composants externes, qui ne peuvent offrir cette fonctionnalit que si leur conception le prvoit.

Dans la vue Run, cochez la case Statistics pour activer la fonction Statistiques et dcoche la case pour la dsactiver.

Guide utilisateur de Talend Open Studio for Big Data

67

Excuter un Job

Le calcul des statistiques ne commence quau dbut de lexcution du Job et sarrte lorsque lexcution sarrte. Cliquez sur le bouton Clear pour effacer les statistiques affiches. Cochez la case Clear before Run pour que la fonction de statistiques se rinitialise automatiquement avant chaque excution.
Les statistiques peuvent ralentir sensiblement les performances dexcution du Job car il doit envoyer ces donnes lapplication afin quelles soient affiches.

Vous pouvez galement sauvegarder votre Job avant le dbut de lexcution. Cochez la case de loption correspondante, Save Job before execution.

Afficher la dure dexcution et dautres options


Il vous suffit de cocher la case Exec time avant de lancer votre Job pour qu la fin de lexcution de votre Job, sa dure totale saffiche. De cette manire vous pouvez vrifier les rsultats ou tester votre Job avant de lenvoyer en production. Vous pouvez aussi nettoyer votre espace de modlisation avant chaque excution en cochant la case Clear before run. Vous pouvez aussi enregistrer votre Job avant que lexcution ne commence, en cochant la case Save Job before run.

Afficher des caractres spciaux dans la console


Talend Open Studio for Big Data peut afficher des caractres spciaux dans la console, comme les caractres chinois, japonais ou corens, par exemple. Pour les afficher, procdez comme suit, avant dexcuter le Job :

1. 2. 3.

Cliquez sur longlet Advanced settings. Dans la zone JVM settings, cochez la case Use specific JVM arguments afin dactiver le tableau Argument. A ct du tableau Argument, cliquez sur le bouton New..., afin douvrir la bote de dialogue [Set the VM argument].

68

Guide utilisateur de Talend Open Studio for Big Data

Excuter un Job

4. 5.

Dans la bote de dialogue, saisissez -Dfile.encoding=UTF-8. Cliquez sur OK pour fermer la bote de dialogue.

Cet argument peut tre appliqu toutes vos excutions de Jobs dans Talend Open Studio for Big Data. Pour plus dinformations concernant lapplication dun argument JVM toutes les excutions de Jobs, consultez la section Prfrences dexcution et de dbogage (Talend > Run/Debug).

3.2.7.5. Excuter un Job distance dans un serveur HDFS


Talend Open Studio for Big Data fournit un Oozie scheduler, une fonctionnalit qui vous permet de planifier les excutions d'un Job que vous avez cr ou de l'excuter directement sur un serveur distant Hadoop Distributed File System (HDFS) et de monitorer le statut d'excution de votre Job. Plus plus d'informations concernant Apache Oozie et Hadoop, consultez http://oozie.apache.org/ et http://hadoop.apache.org/ (en anglais). Avant d'excuter ou de planifier les excutions d'un Job sur un serveur HDFS, vous devez d'abord configurer les dtails de la connexion HDFS, soit dans la vue Oozie scheduler, soit dans les prfrences de Talend Open Studio for Big Data, puis spcifier l'emplacement o sera dploy votre Job.

Configurer les informations de la connexion HDFS

Dfinir les dtails de la connexion HDFS dans la vue Oozie scheduler Afin de configurer les dtails de la connexion HDFS dans la vue Oozie scheduler procdez comme suit : 1. Cliquez sur la vue Oozie scheduler en bas de l'espace de modlisation graphique.

2.

Cliquez sur Setting pour ouvrir la bote de dialogue de la connexion.

Guide utilisateur de Talend Open Studio for Big Data

69

Excuter un Job

Les paramtres de connexion affichs ci-dessus sont donns titre d'exemple.

3.

Renseignez les informations dans les champs correspondants et cliquez sur OK pour fermer la bote de dialogue.
Champ Name node end point Job tracker end point Oozie end point User Name Description URI du nom du nud, le cur du systme de fichier HDFS. URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques du cluster. URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job. Nom d'utilisateur.

Une fois que les dtails de la connexion sont dfinis dans la vue Oozie scheduler, les prfrences d'Oozie sont automatiquement mises jour, et vice versa. Pour plus d'informations concernant le paramtrage des prfrences d'Oozie, consultez la section Dfinir les dtails de la connexion HDFS dans les paramtres des prfrences.

Une fois que les dtails de la connexion sont dfinis dans la vue Oozie scheduler, les paramtres de la connexion HDFS dans la fentre [Preferences] sont automatiquement mis jour, et vice versa. Une fois configur le chemin de dploiement dans la vue Oozie scheduler, vous pouvez planifier les excutions de votre Job, ou l'excuter immdiatement sur le serveur HDFS.

Dfinir les dtails de la connexion HDFS dans les paramtres des prfrences Afin de configurer les dtails de la connexion HDFS dans les paramtres des prfrences de Talend Open Studio for Big Data procdez comme suit : 1. 2. Dans la barre de menu, cliquez sur Window > Preferences pour ouvrir la fentre [Preferences]. Dveloppez le nud Talend puis cliquez sur Oozie pour afficher la vue des prfrences d'Oozie.

Les paramtres Oozie affichs ci-dessus sont donns titre d'exemple.

3.

Renseignez les informations dans les champs correspondants :

70

Guide utilisateur de Talend Open Studio for Big Data

Excuter un Job

Champ User Name Name Node End Point Job Tracker End Point Oozie End Point

Description Nom d'utilisateur. URI du nom du nud, le cur du systme de fichier HDFS. URI du nud Job Tracker, qui sous-traite les tches MapReduce dans des nuds spcifiques du cluster. URI de l'endpoint d'Oozie, pour le monitoring de l'excution du Job.

Une fois les informations de connexion dfinie dans les [Preferences], les paramtres de la connexion HDFS dans la vue Oozie scheduler sont automatiquement mis jour et vice versa. Pour plus d'informations concernant la vue Oozie scheduler, consultez la section Excuter un Job distance dans un serveur HDFS.

Excuter un Job sur le serveur HDFS


Pour excuter un Job sur le serveur HDFS, procdez comme suit : 1. Dans le champ Path, dans l'onglet Oozie scheduler, saisissez le chemin o dployer votre Job sur le serveur HDFS. Cliquez sur le bouton Run pour commencer le dploiement et l'excution du Job sur le serveur HDFS.

2.

Les donnes de votre Job sont zippes, envoyes et dployes sur le serveur HDFS selon les paramtres de connexion du serveur et sont automatiquement excutes. Selon votre connectivit, l'opration peut prendre du temps. La console affiche le statut du dploiement et de l'excution du Job. Pour arrter l'excution du Job avant sa fin, cliquez sur le bouton Kill.

Planifier les excutions d'un Job


La fonctionnalit Oozie scheduler intgre dans Talend Open Studio for Big Data vous permet de planifier les excutions de votre Job sur le serveur HDFS. Votre Job est excut selon la frquence dfinie, durant le laps de temps configur. Pour configurer la planification du Job, procdez comme suit : 1. Dans le champ Path de l'onglet Oozie scheduler, saisissez le chemin o dployer votre Job sur le serveur HDFS, si le chemin de dploiement n'est pas encore dfini. Cliquez sur le bouton Schedule de l'onglet Oozie scheduler pour ouvrir la bote de dialogue de planification.

2.

Guide utilisateur de Talend Open Studio for Big Data

71

Excuter un Job

3.

Dans le champ Frequency, saisissez un entier et slectionnez une unit de temps dans la liste Time Unit afin de configurer la frquence d'excution du Job. Cliquez sur le bouton [...] ct du champ Start Time pour ouvrir la bote de dialogue [Select Date & Time] et slectionnez la date, l'heure, la minute et la seconde. Cliquez sur OK pour configurer l'heure de dbut de l'excution du Job. De la mme manire, configurez l'heure de fin d'excution du Job.

4.

5.

Cliquez sur OK pour fermer la bote de dialogue et commencer les excutions planifies de votre Job. Le Job s'excute automatiquement selon les paramtres dfinis. Pour arrter le Job, cliquez sur Kill.

72

Guide utilisateur de Talend Open Studio for Big Data

Excuter un Job

Monitorer le statut des excutions de Job


Pour monitorer le statut et les rsultats des excutions de Job, cliquez sur le bouton Monitor de l'onglet Oozie scheduler. L'URI de l'endpoint Oozie s'ouvre dans votre navigateur Web, affichant les informations d'excution des Jobs sur le serveur HDFS.

Pour afficher les informations dtailles d'un Job particulier, cliquez sur l'un des champs du Job, pour ouvrir une page spare affichant les dtails du Job.

Guide utilisateur de Talend Open Studio for Big Data

73

Personnaliser lespace de travail

3.2.8. Personnaliser lespace de travail


Lorsque vous utilisez Talend Open Studio for Big Data pour crer un Job dintgration de donnes, vous pouvez personnaliser la disposition et les paramtres de la Palette selon vos besoins. Vous pouvez galement modifier la position de tous les onglets existants dans le Studio afin de rpondre vos besoins.
Tous les panneaux, onglets et vues dcrites dans cette documentation son spcifiques Talend Open Studio for Big Data. Certaines vues listes dans la bote de dialogue [Show view] sont spcifiques Eclipse et ne concernent pas cette documentation. Pour plus d'informations sur ces vues, veuillez consulter la documentation Eclipse sur http:// www.eclipse.org/documentation/

3.2.8.1. Modifier la disposition et les paramtres de la Palette


La Palette contient tous les composants techniques de base ncessaire la cration de Jobs complexes dans lespace de modlisation graphique. Ces composants sont regroups par familles et sous-familles. Pour la configuration dun composant spcifique, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data. Talend Open Studio for Big Data vous permet de changer la disposition et la position de votre Palette selon vos besoins. Les sections suivantes expliquent toutes les options de gestion disponibles pour la Palette.

Afficher, cacher et dplacer la Palette


La Palette contient tous les lments ncessaires la cration des Jobs les plus complexes. Ces composants sont regroups en familles et sous-familles.

74

Guide utilisateur de Talend Open Studio for Big Data

Personnaliser lespace de travail

Par dfaut, la Palette peut tre cache sur le ct droit de lespace de modlisation.

Si vous souhaitez que la Palette soit visible en permanence, cliquez sur la flche de gauche dans le coin suprieur droit de lditeur graphique. Pour connatre les proprits spcifiques chacun des composants, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data. Vous pouvez aussi dtacher la Palette de lespace de modlisation dans Talend Open Studio for Big Data. Pour dtacher longlet Palette, cliquez sur le menu Window > Show View... > General > Palette.

Afficher/masquer les familles de composants


Vous pouvez masquer ou afficher les familles de composants selon vos besoins, dans un souci de visibilit, par exemple. Pour ce faire, cliquez-droit sur la Palette et slectionnez loption Display folder pour afficher les dossiers et Hide folder pour masquer les dossiers.

Loption display/hide (afficher/masquer) peut tre trs utile lorsque vous tes dans la vue Favorite de la Palette. Dans cette vue, vous avez gnralement un nombre limit de composants. Si vous les affichez sans les familles, ils seront affichs par ordre alphabtique pour faciliter leur utilisation. Pour plus dinformations concernant la Palette favorite, consultez section Configurer la Palette favorite.

Maintenir ouverte une famille de composants


Si vous utilisez souvent une ou plusieurs famille(s) de composants, vous pouvez ajouter une punaise sur leur nom pour les empcher de se rduire lorsque vous slectionnez des composants dautres familles.

Guide utilisateur de Talend Open Studio for Big Data

75

Personnaliser lespace de travail

Pour ajouter une punaise, cliquez sur licne de punaise dans langle en haut droite du nom de la famille.

Filtrer la Palette
Vous pouvez slectionner les composants afficher ou masquer dans votre Palette. Vous pouvez galement ajouter la Palette les composants que vous avez dvelopp vous-mme. Pour plus dinformations sur comment filtrer la Palette, consultez la section Personnaliser la Palette. Pour plus dinformations concernant lajout de composants la Palette, partir de Talend Exchange ou dvelopps par vous-mme, consultez la section Tlcharger/charger des composants de la communaut et/ou la section Composants externes ou utilisateur (Talend > Components).

Configurer la Palette favorite


La Palette offre des fonctionnalits de recherche et de favoris facilitant son utilisation. Vous pouvez ajouter et retirer des composants votre Palette favorite de Talend Open Studio for Big Data, afin daccder plus rapidement aux composants que vous utilisez le plus souvent. Pour ce faire : 1. Dans la Palette, cliquez-droit sur le composant que vous souhaitez ajouter vos favoris et slectionnez loption Add To Favorite.

2.

Rptez cette action pour tous les composants que vous souhaitez ajouter votre Palette favorite, puis cliquez sur le bouton Favorite en haut de la Palette pour afficher la Palette favorite.

76

Guide utilisateur de Talend Open Studio for Big Data

Personnaliser lespace de travail

Seuls les composants ajouts aux Favoris apparaissent. Pour retirer un composant de la Palette favorite, cliquez-droit sur le composant et slectionnez Remove From Favorite. Pour retourner la Palette standard, cliquez sur le bouton Standard en haut de la Palette.

Modifier la disposition des composants dans la Palette


Vous pouvez modifier la disposition de la liste des composants dans la Palette pour les afficher en colonnes ou en listes, avec seulement une icne ou une icne avec une courte description. Vous pouvez galement agrandir licne des composants pour une meilleure lisibilit de la liste des composants. Pour ce faire, cliquez-droit sur une famille de composants dans la Palette et slectionnez loption dsire dans le menu contextuel ou cliquez sur Settings pour ouvrir la fentre [Palette Settings] et personnaliser la disposition.

Ajouter des composants externes la Palette


Talend Open Studio for Big Data vous permet dajouter des composants externes la Palette de votre Studio et des les utiliser dans vos Jobs. Pour plus dinformations concernant la cration et le dveloppement de composants utilisateurs, consultez notre section wiki Component creation tutorial section (en anglais). Pour plus dinformations concernant le tlchargement de composants utilisateur dans votre Studio, consultez la section Composants externes ou utilisateur (Talend > Components).

3.2.8.2. Rorganiser les onglets dun Job


Vous pouvez dplacer tous les onglets de Talend Open Studio for Big Data selon vos besoins.

Guide utilisateur de Talend Open Studio for Big Data

77

Personnaliser lespace de travail

Cliquez sur la bordure ou sur longlet, maintenez le bouton de la souris enfonc pendant que vous dplacez la fentre vers lemplacement cible, puis relchez. Cliquez sur licne minimiser/maximiser ( / ) pour rduire ou agrandir le panneau correspondant. Pour plus dinformations sur comment afficher ou masquer un panneau ou une vue, consultez la section Afficher les onglets/ vues de configuration des Jobs. Cliquez sur la croix ( ) pour fermer une vue. Pour restaurer une vue, cliquez sur Window > Show View... > Talend, puis cliquez sur le nom de la vue que vous souhaitez afficher ou consultez la section Raccourcis clavier . Si la Palette nest pas visible ou si vous souhaitez la dtacher, cliquez sur le menu Window > Show view... > General > Palette. La Palette souvrira alors dans une vue spare qui peut tre dplace dans la fentre principale de Talend Open Studio for Big Data.

3.2.8.3. Afficher les onglets/vues de configuration des Jobs


Les onglets de configuration sont situs dans la partie infrieure de lespace de modlisation graphique. Chaque onglet ouvre une vue affichant des informations prcises concernant llment slectionn dans lespace de modlisation graphique.

78

Guide utilisateur de Talend Open Studio for Big Data

Utilisation des connexions

Les onglets Component, Run JobContextet Oozie scheduler rassemblent toutes les informations relatives aux lments graphiques slectionns dans lespace de modlisation ou lexcution du Job ouvert.
Par dfaut, lorsque vous lancez Talend Open Studio for Big Data pour la premire fois, longlet Problems ne saffichera quau moment o vous crerez votre premier Job. Ensuite, cet onglet saffichera automatiquement.

Les onglets Modules et Scheduler[deprecated] se trouvent dans la mme zone que les onglets Component, Logs et Run Job. Ces deux vues sont indpendantes des Jobs, actifs ou inactifs, ouverts dans lespace de modlisation. Certains onglets de configuration sont masqus par dfaut, comme les onglets Error Log, Navigator, Job Hierarchy, Problems, Modules et Scheduler[deprecated]. Vous pouvez afficher les onglets masqus dans la mme zone que les autres, et ouvrir directement la vue correspondantesi vous slectionnez Window > Show view, puis, dans la bote de dialogue, dveloppez le nud correspondant et slectionnez llment que vous souhaitez afficher. Pour une description dtaille concernant ces onglets, consultez la section Onglets de configuration .

3.3. Utilisation des connexions


Dans Talend Open Studio for Big Data, un Job ou un sous-job comprend un groupe de composants relis logiquement les uns aux autres via des connexions. Cette section dcrit les types de connexions et les paramtres correspondants.

3.3.1. Types de connexions


Il y a de nombreux types de connexions qui dfinissent les donnes traiter, la sortie des donnes, ou bien la squence logique du Job. Cliquez-droit sur un composant dans lespace de modlisation graphique afin dafficher un menu contextuel listant tous les liens disponibles pour le composant slectionn. Les sections suivantes dcrivent tous les types de connexions disponibles.

3.3.1.1. Connexion de type Row


La connexion de type Row manipule les donnes elles-mmes. Les liens de type Row sont Main, Lookup, Reject ou Output selon la nature du flux de donnes trait.

Guide utilisateur de Talend Open Studio for Big Data

79

Types de connexions

Main
La connexion Row de type Main est la connexion la plus courante. Elle transmet les flux de donnes dun composant lautre, en faisant un boucle sur chacune des lignes pour lire ou extraire les donnes selon la dfinition des proprits du composant. Les donnes transfres travers les connexions de type Row sont caractrises par une dfinition du schma qui dcrit la structure des donnes dans le fichier dentre.
Vous ne pouvez pas connecter deux composants dentre laide dune connexion de type main Row. Une seule connexion entrante de type Row est possible par composant. La seconde connexion Row se transforme en connexion Lookup (de rfrence) automatiquement.

Cliquez droit sur le composant dentre et slectionnez Row > Main dans la liste des connexions. Sinon, cliquez sur le composant pour le slectionner, puis, tout en cliquant droit, dplacez votre curseur vers le composant de destination. Une connexion de type Row > Main sera automatiquement cre. Pour en savoir plus sur les cas spcifiques de connexions Row multiples, consultez section Job entres/sorties multiples.

Lookup
La connexion de type Lookup est une connexion Row reliant un composant dun flux secondaire un composant dun flux principal (ce composant doit tre capable de recevoir plus dun flux dentre). Cette connexion est uniquement disponible dans le cas dutilisation de flux multiples.

80

Guide utilisateur de Talend Open Studio for Big Data

Types de connexions

Vous pouvez transformer une connexion de type Lookup en connexion de type Main row, et inversement vous pouvez changer une connexion Lookup en Main row. Pour ce faire, cliquez droit et slectionnez Set this connection as Main. Voir galement : section Job entres/sorties multiples.

Filter
La connexion de type Filter relie le composant spcifique tFilterRow un composant de sortie. Cette connexion Row regroupe les donnes rpondant aux critres du filtre. Ce composant particulier permet aussi une connexion de Rejet pour traiter le flux de donnes ne rpondant pas aux critres.

Rejects
La connexion de type Rejects est une connexion reliant un composant de traitement un composant de sortie. Cette connexion Row regroupe les donnes NE rpondant PAS aux critres du filtre ou qui ne sont pas compatibles avec la sortie attendue. Cette connexion vous permet disoler les donnes ne pouvant pas tre traites pour diffrentes raisons (type de donnes inappropri, valeur Null non dfinie, etc.). Pour certains composants, ce lien est activ lorsque loption Die on error est dsactive. Pour plus dinformations, rfrez-vous aux proprits du composant correspondant, disponibles dans le Guide de rfrence des Composants de Talend Open Studio for Big Data.

ErrorReject
ErrorReject : La connexion ErrorReject est une connexion Row reliant un composant tMap un composant de sortie. Cette connexion est active lorsque vous dcochez la case Die on error dans lditeur du tMap, et elle rassemble les donnes impossibles traiter (type de donnes inappropri, valeur Null non dfinie, format de date erron, etc.). Consultez galement : section Gestion des erreurs.

Guide utilisateur de Talend Open Studio for Big Data

81

Types de connexions

Output
La connexion de type Output est une connexion Row, traitant de la donne, et qui relie un composant tMap un ou plusieurs composants de sortie. Les sorties dun Job pouvant tre multiples, une bote de dialogue saffiche pour vous demander de nommer chacune des connexions.
Le systme se souvient galement des noms des connexions de sortie supprimes (ainsi que les proprits dfinies). Dans la liste des connexions output suggres, vous retrouvez ainsi les connexions supprimes. Cette fonctionnalit vous permet de ne pas avoir ressaisir toutes les informations de proprits.

Voir galement : section Job entres/sorties multiples.

Uniques/Duplicates
Les connexions de type Uniques et Duplicates relient un composant tUniqRow des composants de sortie. La connexion de type Uniques regroupe les premires lignes rencontres dans un flux dentre. Ce flux de donnes uniques est ensuite dirig vers le composant de sortie appropri ou vers un autre sous-job de traitement. La connexion de type Duplicates regroupe les doublons possibles des premires lignes rencontres. Ce flux de rejet est dirig vers le composant adquat, pour tre analys par exemple.

Job entres/sorties multiples


Certains composants permettent de manipuler des donnes de sources multiples et/ou vers des sorties multiples. Le plus souvent se sont des composants de traitement de donnes, notamment le tMap. Si vous avez besoin deffectuer une jointure ou des transformations sur un flux, il est prfrable dutiliser le composant tMap, qui est conu pour ce type de besoin. Pour plus dinformations concernant le mapping et la transformation de donnes, consultez chapitre Mapping de flux de donnes. Pour plus dinformations concernant le composant tMap et son utilisation, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

3.3.1.2. Connexion de type Iterate


La connexion de type Iterate sert faire une boucle sur plusieurs fichiers dun rpertoire donn, sur les lignes dun fichier ou sur les entres dune base de donnes. Un composant ne peut tre la cible que dun seul lien ditration, Iterate. La connexion Iterate est gnralement utilis sur le composant de dbut (Start) dun flux dun Job ou dun sous-job. Certains composants ne peuvent fonctionner avec dautres composants qu laide dun lien ditration, cest le cas du composant tFilelist. Pour plus dinformations concernant la configuration dune connexion Iterate, consultez section Paramtres dune connexion Iterate.
A la diffrence des autres types de connexions, le nom du lien Iterate est en lecture seule.

82

Guide utilisateur de Talend Open Studio for Big Data

Types de connexions

3.3.1.3. Connexion de type Trigger


Les connexions de dclenchement, Trigger, aident dfinir le processus de traitement. Les connexions de type Trigger ne servent pas au transfert de donnes. La connexion utilise met en place une relation de dpendance entre un Job principal et ses sous-jobs. De cette manire, lun ou lautre des Jobs est dclench en fonction de la nature de cette connexion de dclenchement.

Les connexions de dclenchement (Trigger) sont rparties en deux catgories : dclenchements de sous-job : On Subjob Ok, On Subjob Error et Run if, dclenchements de composant : On Component Ok, On Component Error et Run if.

OnSubjobOK (prcdemment Then Run) : Cette connexion est utilise pour dclencher le sous-job qui suit condition que le sous-job principal se soit excut sans erreur. Cette connexion sutilise uniquement avec le composant de dbut (Start) de votre Job. Ces connexions sont utilises pour orchestrer et vrifier plus facilement les sous-jobs composant le Job ou traiter les erreurs qui ntaient pas prvues. OnSubjobError : Cette connexion est utilis pour dclencher le sous-job qui suit lorsque le premier sous-job (principal) ne sest pas droul correctement. Ce sous-job on error vous permet didentifier les ventuels goulots dtranglement ou de corriger lerreur si cela est possible. Voir galement : section Configurer un composant Start. OnComponentOK et OnComponentError sont des dclencheurs de composants. Ils peuvent dclencher nimporte quel composant source dans un sous-job. OnComponentOK ne dclenche lexcution du composant cible quune fois lexcution du composant source termine correctement. Il peut servir dclencher un sous-job de notification par exemple. OnComponentError dclenche le sous-job ou composant cible lorsquune erreur a t rencontre dans le processus initial.

Guide utilisateur de Talend Open Studio for Big Data

83

Dfinir les paramtres des connexions

Run if dclenche un sous-job ou un composant si les conditions dfinies sont runies. Pour plus dinformations concernant la configuration dune connexion Trigger, consultez section Paramtres dune connexion Trigger.

3.3.1.4. Connexion de type Link


La connexion Link nest utilise quavec les composants ELT. Ces liens transmettent les informations de schmas au composant de mapping ELT afin dutiliser ces informations dans la construction des requtes de base de donnes spcifiques. Voir galement le Guide de rfrence des Composants de Talend Open Studio for Big Data. La connexion Link ne transmet donc pas de donnes en tant que telles, mais simplement les mtadonnes des tables faisant lobjet de la requte. Pour slectionner une connexion Link, cliquez-droit sur un composant ELT, puis cliquez sur Link > New Output.
Le nom que vous affectez la connexion Link doit imprativement reprendre le nom de la table requter.

En effet, le nom du lien tant utilis dans la formulation de la requte SQL gnr par le composant ELT tMap, un mme nom ne devrait jamais tre utilis deux fois.

3.3.2. Dfinir les paramtres des connexions


Vous pouvez afficher les proprits dune connexion en la slectionnant et en cliquant sur longlet Component, ou bien en cliquant-droit sur la connexion et en slectionnant Settings dans le menu contextuel. Cette section rsume la configuration des proprits des connexions.

3.3.2.1. Paramtres dune connexion Row


Longlet Basic settings de la vue Component de la connexion affiche le schma du flux de donnes gr par la connexion. Vous pouvez modifier le schma en cliquant sur le bouton Edit schema. Une fois le schma du flux de donnes modifi, le schma type des deux composants aux deux extrmits de la connexion devient Built-In. Pour plus dinformations, consultez section Paramtrer un schma .

Longlet Advanced settings vous permet de monitorer le flux de donnes dune connexion dans un Job, sans avoir utiliser un composant tFlowMeter. les informations mesures seront interprtes et affiches dans un outil

84

Guide utilisateur de Talend Open Studio for Big Data

Dfinir les paramtres des connexions

de supervision, comme Talend Activity Monitoring Console. Pour plus dinformations concernant Talend Activity Monitoring Console, consultez le Guide utilisateur de Talend Activity Monitoring Console.

Pour monitorer les donnes dans la connexion, renseignez les paramtres suivants dans longlet Advanced settings : 1. 2. Cochez la case Monitor this connection. Cochez la case Use input connection name as label afin dutiliser le nom du flux dentre comme libell des donnes enregistrer dans le log, ou saisissez le libell dans le champ Label. Dans la liste Mode, slectionnez Absolute pour enregistrer dans le log le nombre de lignes passant dans la connexion, ou Relative pour valuer le ratio (%) du nombre de lignes pass dans cette connexion par rapport une connexion de rfrence. Si vous slectionnez Relative, vous devez galement slectionner une connexion de rfrence dans la liste Connections List. Cliquez sur le bouton [+] pour ajouter une ligne au tableau Thresholds et dfinir une plage pour le nombre lignes enregistrer dans le log.

3.

4.

Consultez galement le Guide de rfrence des Composants de Talend Open Studio for Big Data et le Guide utilisateur de Talend Activity Monitoring Console.

3.3.2.2. Paramtres dune connexion Iterate


Vous pouvez utiliser un lien Iterate pour excuter des itrations en parallle : 1. 2. Slectionnez le lien Iterate de votre sous-job puis affichez longlet Basic settings de la vue Component. Cochez la case Enable parallel execution et configurez le nombre dexcutions effectuer en parallle.

Lors de lexcution de votre Job, les itrations effectues en parallle seront rparties sur les diffrents processeurs disponibles.

Guide utilisateur de Talend Open Studio for Big Data

85

Utilisation du Metadata Manager

3.

Cochez la case Statistics de longlet Run, pour afficher, en temps rel, les excutions en parallles dans lespace de modlisation.

3.3.2.3. Paramtres dune connexion Trigger

Paramtres dune connexion Run if


Cliquez sur la connexion pour afficher les proprits de votre connexion If, puis dfinissez les conditions de votre projet en Java. Le raccourci clavier Ctrl+Barre despace vous donne accs toutes les variables globales et de contexte.

3.4. Utilisation du Metadata Manager


Talend Open Studio for Big Data est une solution oriente mtadonnes et peut donc vous permettre dassurer la cohrence et la qualit du Job complet travers le gestionnaire Metadata dans le Repository. Durant le processus d'intgration, le Metadata Manager consolide toutes les informations des projets dans un rfrentiel.

3.4.1. Centraliser les Contextes et les Variables


Les contextes vous donnent la possibilit de grer diffremment vos Jobs selon les conditions dutilisation. Par exemple, vous pouvez intgrer dans votre cycle de validation plusieurs phases de test avant que votre Job Design soit mis en production. Talend Open Studio for Big Data vous offre la possibilit de crer des contextes multiples. De plus, vous pouvez crer des contextes ponctuels partir de longlet Context ou vous avez la possibilit de regrouper tous vos contextes sous le nud Contexts du Repository afin de les rutiliser dans diffrents jobs.

86

Guide utilisateur de Talend Open Studio for Big Data

Centraliser les Contextes et les Variables

Un contexte est dfini par des paramtres. Ces derniers sont gnralement des variables sensibles au contexte qui seront par la suite ajoutes la liste des variables disponibles laide du raccourci clavier Ctrl+Espace dans les proprits du composant dans la vue Component.

3.4.1.1. Utiliser les variables dans un Job


Les variables reprsentent des valeurs qui changent tout au long de lexcution dun programme. Une variable globale est une variable systme laquelle vous pouvez accder par tout module ou toute fonction. Elle conserve sa valeur mme aprs la fin de lexcution du programme ou de la fonction. Une variable de contexte est une variable dfinie par lutilisateur pour un contexte particulier. Dans tous les champs de longlet Component dfinissant les proprits dun composant, vous pouvez utiliser une variable globale dfinie ou des variables de contexte. Appuyez sur les touches Ctrl+Espace pour afficher la liste complte des variables globales et de contexte utilises dans les fonctions prdfinies.

La liste sallonge au fur et mesure que vous dfinissez des variables (variables de contexte). Voir galement : section Dfinir les variables partir de la vue Component. section Dfinir les variables partir de la vue Contexts.

3.4.1.2. Dfinir les variables partir de la vue Contexts


Les variables peuvent tre cres et dfinies de diffrentes manires : soit partir de la vue Component, soit directement partir de la vue Context. Pour plus dinformations concernant la dfinition des variables directement partir de la vue Component, consultez section Dfinir les variables partir de la vue Component. La vue Contexts se situe dans la partie infrieure de lespace de modlisation et se compose de trois onglets : Variables, Values as tree et Values as table.
Si la vue Contexts napparat pas dans le fentre de Talend Open Studio for Big Data, cliquez sur le menu Window > Show view > Talend, puis slectionnez Contexts.

Onglet Variables
Longlet Variables fait partie de longlet Contexts et affiche toutes les variables dfinies pour chaque composant du Job en cours.

Guide utilisateur de Talend Open Studio for Big Data

87

Centraliser les Contextes et les Variables

A partir de cette vue, vous pouvez grer vos variables built-in (local) : Cliquez sur le bouton [+] pour ajouter une ligne de paramtre au tableau. Editez le nom Name de la nouvelle variable et saisissez le nouveau nom <Newvariable>. Supprimez les variables built-in. (Rappel : les variables stockes dans le Repository sont en lecture seule.) Importez les variables partir dune source contexte du Repository laide du bouton Repository variables. Vrifiez lordre initial des variables de contexte dans lequel elles sont automatiquement classes dans le studio lors de leur cration ou de leur importation partir du Repository. Pour ce faire, vous devez cocher la case Original order. Rorganisez les variables de contexte selon lordre initial en utilisant les boutons vous devez cocher la case Original order afin dactiver ces deux boutons. et . Pour ce faire,

Pour dfinir la valeur actuelle de la variable nouvellement cre, cliquez sur longlet Value as tree. Vous pouvez ajouter autant dentres que ncessaire dans longlet Variables. Par dfaut, la variable cre est de type built-in.
Champs Name Source Description Nom de la variable. Vous pouvez diter ce champ, condition que la variable soit de type Built-in. En effet, les variables de type Repository sont en lecture seule. Built-in : La variable est cre pour ce Job et sera utilise uniquement dans ce Job. <Repository entry name> : La variable a t dfinie dans un contexte stock sur le Repository. Ainsi, la source est le groupe de contexte actuel que vous avez cr dans le Repository. Type Script code Slectionnez le type de donnes traites. Ce champ est obligatoire en Java. Le code correspondant la valeur de la variable. Le script affich sera :
context.VotreNomDeParametre Ce Script de code se gnre automatiquement lorsque

vous dfinissez la variable dans la vue Component du composant. Comment Ajoutez un commentaire utile.

Vous ne pouvez pas crer de contexte partir de longlet Variables, mais seulement partir des onglets Values as table et as tree.

Pour plus dinformations concernant la dfinition des variables partir de la vue Component, consultez section Dfinir les variables partir de la vue Component.

88

Guide utilisateur de Talend Open Studio for Big Data

Centraliser les Contextes et les Variables

Pour plus dinformations concernant les variables du Repository, consultez section Centraliser les contextes dans le Repository.

Onglet Values as tree


Cet onglet affiche les variables, ainsi que leurs valeurs, sous forme darbre.

A partir de cet onglet, vous pouvez : Dfinir la valeur dune variable built-in directement dans le champ Value. Notez que les valeurs des variables de type Repository sont en lecture seule et ne peuvent dites uniquement dans le contexte Repository adquat. Dfinir un message qui apparatra lutilisateur afin quil confirme la valeur de la variable lors de lexcution. Crer ou diter un contexte laide du bouton ddi en haut droite. Rorganiser les variables/contextes.
Champs Variable Context Prompt Description Nom des variables. Nom des contextes. Cochez cette case, si vous souhaitez que la variable saffiche dans la bote de dialogue de confirmation lors de lexcution. Si vous avez coch loption Prompt, renseignez le champ associ qui correspond au message qui saffichera dans la bote de dialogue. Value La valeur correspondant la variable. Dfinissez la valeur des variables built-in. Notez que les variables de type Repository sont en lecture seule.

Grez vos contextes partir de cet onglet, laide du bouton correspondant situ en haut droite de longlet Contexts. Pour plus dinformations concernant la gestion des contextes, consultez section Configurer les contextes. Dans longlet Values as tree, vous pouvez afficher les valeurs en fonction des contextes ou des variables pour plus de clart. Pour modifier laffichage des valeurs dans larbre, cliquez sur la petite flche vers le bas, puis slectionnez loption de rorganisation group by qui vous souhaitez.

Guide utilisateur de Talend Open Studio for Big Data

89

Centraliser les Contextes et les Variables

Pour plus dinformations concernant la dfinition des variables, consultez section Dfinir les variables partir de la vue Component et section Centraliser les contextes dans le Repository.

Onglet Values as table


Longlet Values as table affiche les paramtres des contextes et des variables sous forme de tableau.
Champs Name <YourContextName> Description Le nom de la variable. La valeur correspondant la variable.

Grez vos contextes partir de cet onglet, laide du bouton Configure contexts situ en haut droite de longlet Contexts. Pour plus dinformations concernant la gestion des contextes, consultez section Configurer les contextes. Pour plus dinformations concernant la dfinition des variables, consultez section Dfinir les variables partir de la vue Component et section Centraliser les contextes dans le Repository.

3.4.1.3. Configurer les contextes


Vos contextes peuvent tre grs uniquement partir des onglets Values as table ou Values as tree laide du bouton correspondant en haut droite de longlet Contexts.

Slectionnez Configure Contexts... pour ouvrir la fentre de gestion.

Le contexte par dfaut ne peut tre supprim, cest pourquoi le bouton Remove est gris. Pour le rendre accessible, slectionnez un autre contexte dans la liste Default Context dans longlet Contexts.

Crer un contexte
Vous pouvez crer autant de contextes que vous le souhaitez. Ces contextes seront bass sur les paramtres des contextes par dfaut.

90

Guide utilisateur de Talend Open Studio for Big Data

Centraliser les Contextes et les Variables

1. 2.

Pour crer un nouveau contexte, cliquez sur New dans la bote de dialogue [Configure Contexts]. Saisissez le nom de votre nouveau contexte.

3.

Cliquez sur OK pour valider votre cration.

Lorsque vous crez un nouveau contexte, la totalit des informations par dfaut est copie vers le nouveau contexte. Il vous suffit donc dditer les champs ncessaires dans longlet Value as tree pour modifier votre contexte comme vous le souhaitez. La liste droulante Default Context propose tous les contextes crs pour ce Job Design. Vous avez la possibilit de changer de contexte par dfaut en slectionnant un nouveau contexte dans la liste Default Context dans longlet Variable de la vue Contexts. Notez quil est impossible de supprimer le contexte par dfaut (ou le dernier) car lexcution dun Job requiert toujours un contexte. Laissez-lui le nom de Default.

Renommer et diter un contexte


Pour renommer un contexte existant : 1. 2. Cliquez sur Edit dans la bote de dialogue [Configure contexts] et saisissez le nouveau nom. Cliquez sur OK pour valider les changements.

Les changements des valeurs des variables de contexte se font partir des onglets Values as tree ou Values as table. Pour plus dinformations sur ces onglets, consultez section Dfinir les variables partir de la vue Contexts.

3.4.1.4. Dfinir les variables partir de la vue Component


Les variables de contexte peuvent tre cres et dfinies de diffrentes manires : soit partir de la vue Contexts, soit directement partir de la vue Component. Pour plus dinformations concernant la dfinition des variables partir de la vue Contexts, consultez section Dfinir les variables partir de la vue Contexts. Pour plus dinformations concernant la dfinition des variables du Repository, consultez section Centraliser les contextes dans le Repository.

Cration rapide des variables de contexte


Appuyez sur la touche F5 pour crer rapidement des variables de contexte :

Guide utilisateur de Talend Open Studio for Big Data

91

Centraliser les Contextes et les Variables

1. 2.

Dans la vue Component correspondante, placez votre curseur dans le champ que vous souhaitez paramtrer. Appuyez sur F5 pour afficher la bote de dialogue de paramtrage de contexte :

3. 4.

Donnez un nom cette nouvelle variable dans le champ Name, renseignez le champ Comment et choisissez le Type. Saisissez un message Prompt afficher pour confirmer lutilisation de cette variable lors de lexcution du Job courant (gnralement utilis comme test). Cochez la case Prompt for value pour rendre le champ ditable. Si vous avez dj renseign le champ correspondant dans la vue Component du composant, cette valeur est automatiquement reprise dans le champ Default value. Sinon, saisissez la valeur par dfaut que vous souhaitez utiliser. Cliquez sur Finish pour valider. Les nouvelles variables que vous venez de crer apparaissent dans la liste des variables de contexte de longlet Contexts.
Le nom de la variable doit respecter certaines rgles de saisie et ne doit contenir aucun caractre interdit, notamment les espaces.

5.

6. 7.

La variable cre est automatiquement stocke dans tous les contextes existants, mais vous pourrez par la suite changer la valeur de manire indpendante dans chaque contexte. Pour plus dinformations concernant la cration ou ldition dun contexte, consultez section Configurer les contextes.

StoreSQLQuery
StoreSQLQuery est une variable dfinie par lutilisateur. Elle est principalement ddie au dbogage.

92

Guide utilisateur de Talend Open Studio for Big Data

Centraliser les Contextes et les Variables

StoreSQLQuery diffre des autres variables de contexte dans le fait quelle sert principalement de paramtre pour une variable globale spcifique, dite Query. Elle vous permet dalimenter dynamiquement la variable globale de requte. La variable globale Query est disponible dans la liste dautocompltion (Ctrl+Espace) des proprits des composants de type DB input. Pour plus dinformations concernant le paramtrage de StoreSQLQuery, reportez-vous au Guide de rfrence des Composants de Talend Open Studio for Big Data, et plus particulirement le composant tDBInput.

3.4.1.5. Centraliser les contextes dans le Repository


Vous avez la possibilit de centraliser tous les contextes si vous avez besoin de les rutiliser dans plusieurs Jobs.

Crer un groupe de contextes


Pour crer un groupe de contextes, procdez comme suit :

Crer le groupe de contextes et ajouter les informations requises


1. Cliquez droit sur le nud Contexts du Repository et slectionnez Create new context group dans le menu contextuel.

Lassistant vous aide dfinir les diffrents contextes et leurs paramtres, que vous pourrez slectionner partir de la vue Contexts de votre espace de modlisation. 2. 3. Etape 1/2 : renseignez le nom du context group que vous tes en train de crer et ajoutez des informations gnrales, comme une description, si ncessaire. Cliquez sur Next pour passer l'tape 2/2, qui vous permet de dfinir les diffrents contextes et les diffrentes variables dont vous avez besoin.

Guide utilisateur de Talend Open Studio for Big Data

93

Centraliser les Contextes et les Variables

Dfinir les variables de contexte utiliser comme base pour vos autres contextes
1. Dans longlet Variables, cliquez sur le bouton [+] pour ajouter autant de lignes de variable que ncessaire et nommez ces variables. Dans cette exemple, vous avez dfini les variables partir de longlet Variable de la vue Context. Slectionnez le Type de variable dans la liste. Le Script code varie en fonction du type de variable slectionn. La capture dcran ci-dessous vous montre le code Java gnr. 3. Dans les onglets Tree ou Table, dfinissez les diffrents contextes et les valeurs des variables.

2.

Dfinissez dabord les valeurs des variables de contexte par dfaut, puis crez un nouveau contexte qui sera bas sur les valeurs des variables que vous venez juste de crer. Pour plus dinformations concernant la cration de nouveau contexte, consultez section Configurer les contextes. 4. Dans longlet Values as tree, vous pouvez cocher la case Prompt si vous souhaitez que la variable soit modifiable au moment dexcuter le processus.

5.

Pour ajouter un message Prompt, cochez la case qui prcde votre message, puis saisissez le message afficher lors de lexcution.

Une fois que vous avez cr et adapt autant de contextes que ncessaire, cliquez sur Finish pour valider. Le groupe de contextes configurs apparat sous le nud Contexts du Repository.

3.4.1.6. Appliquer des variables de contexte dans un Job du Repository


Une fois le groupe de contexte cr et stock dans le Repository, vous pouvez lappliquer un Job par deux moyens : 1. Dposez un groupe de contexte. Ainsi, le groupe sera appliqu comme un tout.

94

Guide utilisateur de Talend Open Studio for Big Data

Centraliser les Contextes et les Variables

2. Utilisez licne de contexte appliques sparment. . De cette manire, les variables dun groupe de contexte pourront tre

Dposer un groupe de contexte dans un Job


Pour dposer un groupe de contexte dans un Job, procdez comme suit : 1. 2. Double-cliquez sur le Job auquel jouter un groupe de contexte. Une fois le Job ouvert, glissez le groupe de contexte de votre choix, soit dans lespace de modlisation graphique du Job, soit dans la vue Contexts sous lespace de travail.

Utiliser licne de contexte


Pour utiliser licne de contexte 1. afin dappliquer les variables de contexte dans un Job, procdez comme suit :

Double-cliquez sur le Job auquel ajouter une variable de contexte.

Guide utilisateur de Talend Open Studio for Big Data

95

Centraliser les Contextes et les Variables

2. 3.

Une fois le Job ouvert dans lespace de modlisation graphique, cliquez sur la vue Contexts sous lespace de travail afin de louvrir. Au bas de la vue Contexts, cliquez sur licne de contexte appliquer. afin douvrir lassistant pour slectionner les variables

4.

Dans lassistant, slectionnez les variables de contexte que vous souhaitez appliquer, ou effacez celles dont vous navez pas besoin.
Les variables de contexte appliques sont automatiquement coches et ne peuvent tre supprimes.

5.

Cliquez sur OK pour appliquer les variables de contexte dans le Job.

3.4.1.7. Excuter un Job dans un contexte dfini


Vous pouvez slectionner le contexte dans lequel vous souhaitez excuter votre Job.

Cliquez sur la vue Run Job, et dans la zone Context, slectionnez le contexte appropri. Si vous navez pas cr de contexte, seul le contexte par dfaut, Default, est propos dans la liste. Toutes les variables de contexte que vous avez cres pour le contexte en slection, ainsi que leur valeur associe apparaissent dans un tableau. Si vous avez coch la case Prompt lors de la dfinition du contexte, une bote de dialogue saffiche pour vous demander de confirmer ou modifier la valeur de la variable utilise pour cette excution.

96

Guide utilisateur de Talend Open Studio for Big Data

Utiliser les SQL Templates

Pour rendre permanent une modification de valeur de variable, vous devez la changer dans la vue Context si votre variable est de type built-in ou slectionnez un autre groupe de contexte du Repository. Voir galement : section Dfinir les variables partir de la vue Contexts. section Centraliser les contextes dans le Repository.

3.4.2. Utiliser les SQL Templates


Talend Open Studio for Big Data vous permet de bnficier des modles SQL systme puisque beaucoup de structures de requtes sont standardises partir des mmes approches. Les modles SQL du systme sont regroups sous le nud SQL Templates dans le Repository de Talend Open Studio for Big Data. Diffrents types de modles SQL standardiss sont disponibles pour Hive.

Vous pouvez crer vos propres modles SQL dans chacune des catgories ci-dessus grce lassistant [SQL Template]. Pour plus dinformations concernant lutilisation des SQL Templates dans Talend Open Studio for Big Data, consultez le chapitre SQL Templates. Pour plus dinformations concernant la cration de modles SQL personnaliss et leur utilisation dans un Job, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

3.5. Gestion des Jobs : Utilisation avance


Les sections ci-dessous donnent des informations prcises concernant diffrentes situations de configuration avance des Jobs dintgration de donnes, comme la gestion de flux multiples dentre et de sortie, lutilisation de requtes SQL, lutilisation de composants externes au Job, la planification dune tche pour excuter votre Job.

Guide utilisateur de Talend Open Studio for Big Data

97

Mapper des flux de donnes

3.5.1. Mapper des flux de donnes


Le moyen le plus courant de grer de multiples flux dentre et de sortie dans votre Job, y compris les transformations et la redirection des donnes est dutiliser le composant tMap. Pour plus dinformations concernant les principes dutilisation de ce composant, consultez le chapitre Mapping de flux de donnes. Pour des exemples de Jobs utilisant ce composant, consultez le composant tMap dans le Guide de rfrence des Composants de Talend Open Studio for Big Data.

3.5.2. Crer une requte laide de SQLBuilder


SQLBuilder vous permet de construire des requtes SQL et de contrler les modifications et carts entre tables de base de donnes et tables de mtadonnes. Cet diteur est disponible pour DBInput et DBSQLRow. Renseignez les informations de connexion DB et slectionnez lentre de rfrentiel approprie si vous lavez dfinie. Supprimez la dclaration de requte prsente par dfaut dans le champ Query des proprits du composant. Puis ouvrez lditeur de requte SQL Builder en cliquant sur le bouton [...].

Lditeur de requtes SQL est compos de quatre vues :

98

Guide utilisateur de Talend Open Studio for Big Data

Crer une requte laide de SQLBuilder

Database structure : Arborescence de la base de donnes Query editor : Editeur de requtes SQL Query execution view : Rsultat des requtes de lditeur Schema view : Vue du schma La structure de la base de donnes indique les tables pour lesquelles un schma a t dfini directement dans votre connexion . La vue Schema, en bas droite de la fentre, fournit une description des colonnes.

3.5.2.1. Comparer les structures de base de donnes


Dans la vue Database Structure saffichent toutes les tables de la base de donnes .
La connexion la base de donnes peut prendre du temps.

Cliquez sur licne de rafrachissement pour afficher les diffrences entre les tables de mtadonnes dune DB connection et les tables de la base de donnes elle-mme.

Licne de la colonne Diff indique la prsence de diffrences ou dcarts entre les tables. Dveloppez larborescence dune table pour identifier la colonne exacte prsentant des diffrences. Le surlignage rouge indique que le contenu de la colonne comporte des diffrences ou que cette colonne nest pas prsente dans la table quivalente de la base de donnes elle-mme.

3.5.2.2. Construire une requte


Lditeur de requte est un systme multi-onglet vous permettant de construire autant de requtes que vous le souhaitez.

Guide utilisateur de Talend Open Studio for Big Data

99

Crer une requte laide de SQLBuilder

Pour crer une nouvelle requte, procdez comme suit : 1. Cliquez-droit sur la table ou sur une colonne de la table et slectionnez Generate Select Statement dans le menu contextuel. Cliquez sur longlet vide prsent par dfaut et saisissez votre requte directement, ou accdez la liste dauto-compltion par Ctrl+Espace. Loutil daide la compltion vous propose une liste de dclarations SQL courantes (Select, From, And, Groupby, etc.) ainsi que les colonnes de la table qui peuvent faire lobjet dune requte.

2.

Alternativement, le Designer graphique de requte vous permet de manipuler facilement des tables et de gnrer en temps rel la requte correspondante dans longlet Edit. 3. Cliquez sur longlet Designer pour passer du mode Edit manuel au mode graphique.
Certaines dclarations SQL ne peuvent tre interprtes par dfaut. Dcochez la case correspondant aux colonnes que vous souhaitez exclure de la slection.

4.

Si vous avez slectionn une table, toutes les colonnes sont slectionnes par dfaut. Dcochez la case correspondant aux colonnes que vous souhaitez exclure de la slection. Dans longlet Designer, ajoutez dautres tables en slectionnant Add tables dans le menu contextuel puis en choisissant la table ajouter dans la liste. Si des jointures existent dj entre ces tables, elles apparaissent automatiquement dans lditeur. Vous pouvez galement crer facilement une jointure entre deux tables. Cliquez-droit sur les colonnes de la premire table lier et slectionnez Equal dans le menu contextuel. Le champ en slection est automatiquement li au champ de la seconde table.

5.

100

Guide utilisateur de Talend Open Studio for Big Data

Tlcharger/charger des composants de la communaut

La requte SQL correspondante saffiche galement dans la vue daperu. Sinon, cliquez sur longlet Edit pour revenir au mode ddition manuelle de requte.
En mode Designer, vous ne pouvez pas ajouter graphiquement de critre de filtre. Pour ce faire, vous devez tre en mode Edit.

6.

Lorsque votre requte est termine, excutez-la en cliquant sur licne du coureur. La barre doutils au-dessus de lditeur de requte vous permet daccder rapidement aux commandes principales, notamment : excuter, ouvrir, enregistrer et effacer. Les rsultats de la requte active saffichent dans la vue Results.

3.5.3. Tlcharger/charger des composants de la communaut


Talend Open Studio for Big Data vous permet d'accder une liste de composants communautaires dans Talend Exchange qui sont compatibles avec votre version de Talend Open Studio for Big Data. Vous pouvez tlcharger ces composants pour les rutiliser dans les Jobs Designs de votre Studio. Depuis Talend Open Studio for Big Data, vous pouvez galement charger les composants que vous avez crs vers Talend Exchange afin de les partager avec les autres utilisateurs de la Communaut. Un clic sur le lien Talend Exchange dans la barre d'outils de Talend Open Studio for Big Data ouvre la vue Exchange dans l'espace de travail, dans laquelle vous pouvez voir les listes de : composants compatibles dans Talend Exchange que vous pouvez tlcharger et installer, composants que vous avez tlchargs et installs dans une version prcdente de Talend Open Studio for Big Data, mais pas encore dans votre version actuelle du Studio, composants que vous avez crs, pouvant tre dans Talend Exchange, pour les partager avec les autres utilisateurs de la Communaut.

Guide utilisateur de Talend Open Studio for Big Data

101

Tlcharger/charger des composants de la communaut

Avant de pouvoir tlcharger des composants de ou charger vos propres composants vers la Communaut, vous devez vous connecter Talend Exchange depuis votre Studio. Si vous ne vous connectez pas Talend Exchange au lancement du Studio, vous pouvez toujours vous y connecter depuis la page de prfrences Talend Exchange. Pour plus d'informations, consultez la section Prfrence Exchange (Talend > Exchange). Les composants disponibles au tlchargement dans la vue Talend Exchange ne sont pas valids par Talend. Il est possible que vous soyez confronts des erreurs de chargement lors de l'installation de certains composants partir de Talend Exchange, que le nom d'un composant soit diffrent dans la Palette de celui dans la vue Exchange, ou que vous ne trouviez pas certains composants dans votre Palette aprs une installation apparemment russie.

3.5.3.1. Installer des composants de la communaut partir de Talend Exchange


Pour installer des composants de la communaut partir de Talend Exchange dans la Palette de votre Talend Open Studio for Big Data actuel : 1. Cliquez sur le lien Exchange dans la barre d'outils de Talend Open Studio for Big Data pour ouvrir la vue Exchange dans l'espace de travail.

2.

Dans la vue Available Extensions, dans le champ droite, si ncessaire, saisissez le nom complet d'un composant ou une partie du nom dans le champ et cliquez sur le bouton Refresh afin de trouver rapidement le composant qui vous intresse. Cliquez sur le lien view/download pour afficher la page de tlchargement du composant.

3.

102

Guide utilisateur de Talend Open Studio for Big Data

Tlcharger/charger des composants de la communaut

4.

Lisez les informations relatives au composant, notamment sa description et les commentaires des utilisateurs, ou crivez votre propre commentaire, et/ou notez le composant, si vous le souhaitez. Pour plus d'informations concernant les remarques et les notes des composants de la Communaut, consultez la section Commenter et noter un composant de la Communaut. Si ncessaire, cliquez sur la flche pointant vers la gauche afin de retourner la liste des composants.

5.

Cliquez sur le bouton Install droite de la page de tlchargement des composants pour commencer le tlchargement puis l'installation. Un indicateur de progression apparat pour vous montrer l'avancement du tlchargement et de l'installation. Lorsque l'installation est termine avec succs, la vue Downloaded Extensions s'ouvre et affiche le statut du composant, Installed.

Guide utilisateur de Talend Open Studio for Big Data

103

Tlcharger/charger des composants de la communaut

3.5.3.2. Rinstaller ou mettre jour des composants de la Communaut


Dans la vue Exchange , vous pouvez rinstaller des composants dj tlchargs et installs dans une version prcdente de votre Talend Open Studio for Big Data ou installer la version mise jour de Talend Open Studio for Big Data ou des composants dans votre Studio.
Par dfaut, lorsque vous tes connect Talend Exchange, une bote de dialogue apparat pour vous notifier lorsqu'une mise jour d'un composant de la communaut install est disponible. Si vous vrifiez souvent les mises jour des composants communautaires et que vous ne souhaitez pas que cette bote de dialogue apparaisse nouveau, vous pouvez la dsactiver dans les prfrences de Talend Exchange. Pour plus d'informations, consultez la section Prfrence Exchange (Talend > Exchange).

Pour rinstaller un composant de la communaut que vous avez dj tlcharg ou mettre jour un composant install, procdez comme suit : 1. Dans la vue Exchange, cliquez sur Downloaded Extensions pour afficher une liste des composants dj tlchargs depuis Talend Exchange. Dans la vue Downloaded Extensions, les composants que vous avez installs dans votre version prcdente de Talend Open Studio for Big Data mais pas encore dans votre Studio actuel affichent un lien Install dans la colonne Install/Update. Les composants dont une mise jour est disponible dans Talend Exchange ont un lien Update. 2. Cliquez sur le lien Install ou Update du composant qui vous intresse afin de commencer l'installation. Un indicateur de progression apparat pour vous montrer l'avancement du tlchargement et de l'installation. Lorsque l'installation est termine avec succs, la vue Downloaded Extensions s'ouvre et affiche le statut du composant, Installed.

3.5.3.3. Commenter et noter un composant de la Communaut


Pour commenter et noter un composant de la Communaut : 1. Dans la vue Available Extensions, cliquez sur le lien view/download du composant que vous souhaitez commenter ou noter, afin d'ouvrir la page de tlchargement des composants communautaires.

104

Guide utilisateur de Talend Open Studio for Big Data

Tlcharger/charger des composants de la communaut

2.

Dans la page de tlchargement des composants, cliquez sur le lien write a review pour ouvrir la bote de dialogue [Review the component].

3.

Renseignez les information requises, un titre et un commentaire, cliquez sur l'une des cinq toiles afin de noter le composant, puis cliquez sur Submit Review afin de soumettre votre commentaire au serveur Talend Exchange. Aprs validation par le modrateur de Talend Exchange, votre commentaire est publi sur Talend Exchange et affich dans la zone User Review de la page de tlchargement des composants.

3.5.3.4. Charger dans Talend Exchange un composant cr


Vous pouvez crer vos propres composants afin de les utiliser dans vos Jobs, dans Talend Open Studio for Big Data et les charger dans Talend Exchange pour les partager avec les autres utilisateurs de Talend. Pour plus d'informations concernant la cration et le dploiement de vos propres composants dans Talend Open Studio for Big Data, consultez section Composants externes ou utilisateur (Talend > Components). Pour charger dans Talend Exchange un composant que vous avez cr, procdez comme suit : 1. Dans la vue Exchange, cliquez sur My Extensions pour ouvrir la vue My Extensions.

2.

Cliquez sur le lien Add New Extension dans la partie suprieure droite de la vue pour ouvrir la page de tlchargement du composant.

Guide utilisateur de Talend Open Studio for Big Data

105

Tlcharger/charger des composants de la communaut

3.

Renseignez les informations requises, notamment le titre, la version initiale, les informations de compatibilit avec les Studios et la description du composant, renseignez le chemin d'accs au paquetage source dans le champ File puis cliquez sur le bouton Upload Extension. Aprs russite du chargement, le composant s'affiche dans la vue My Extensions, dans laquelle vous pouvez mettre jour, modifier et supprimer tout composant charg dans Talend Exchange.

3.5.3.5. Grer les composants chargs dans Talend Exchange


Dans la vue Exchange, vous pouvez grer les composants que vous avez chargs dans Talend Exchange, notamment mettre jour leur version, modifier leurs informations et supprimer des composants dans Talend Exchange. Pour mettre jour la version d'un composant, procdez comme suit : 1. Dans la vue My Extensions, cliquez sur l'icne dans la colonne Operation du composant que vous souhaitez mettre jour afin d'ouvrir la page de mise jour du composant.

106

Guide utilisateur de Talend Open Studio for Big Data

Tlcharger/charger des composants de la communaut

2.

Renseignez la version initiale et la compatibilit des Studios, renseignez le chemin d'accs au paquetage source, dans le champ File, puis cliquez sur le bouton Update Extension. Lorsque le chargement du composant mis jour est russi, le composant est remplac par sa nouvelle version dans Talend Exchange et la vue My Extension affiche la nouvelle version du composant et sa date de mise jour.

Pour modifier les informations d'un composant charg dans Talend Exchange, procdez comme suit : 1. Dans la vue My Extensions, cliquez sur l'icne dans la colonne Operation du composant dont vous souhaitez modifier les informations, pour ouvrir la page d'dition des informations du composant.

2.

Renseignez les informations de compatibilit du Studio ainsi que la description du composant, puis cliquez sur le bouton Modify Extension pour mettre jour les informations du composant dans Talend Exchange.

Guide utilisateur de Talend Open Studio for Big Data

107

Installer des modules externes

Pour supprimer un composant que vous avez charg dans Talend Exchange, cliquez sur l'icne du composant, dans la vue My Extensions. Le composant est supprim de Talend Exchange et ne s'affiche plus dans la liste des composants de la vue My Extensions.

3.5.4. Installer des modules externes


Talend Open Studio for Big Data requiert linstallation de bibliothques Java tierces ou de pilotes de bases de donnes spcifiques afin de se connecter des sources et des cibles. Ces bibliothques ou pilotes, connus en tant que modules externes, peuvent tre requis par certains composants Talend. A cause de restrictions de licence Talend peut tre dans l'impossibilit d'embarquer certains modules externes dans Talend Open Studio for Big Data.

3.5.4.1. Identifier des modules externes requis


Dans votre Studio, si un composant requiert l'installation d'un module externe avec de pouvoir fonctionner correctement, un indicateur d'erreur rouge apparat sur le composant. Lorsque vous passez votre curseur sur l'indicateur d'erreur, une info-bulle s'affiche et vous indique le module externe manquant. Pour plus d'informations concernant la gestion des icnes d'erreurs, consultez la section Grer les icnes davertissement/derreur sur les composants. La vue Modules liste tous les modules requis pour utiliser les composants embarqus dans le Studio, notamment ceux pour lesquels des bibliothques Java et des pilotes sont manquants. Vous devez les installer afin de faire fonctionner les composants correspondants.
Si longlet Modules ne saffiche pas dans votre espace de modlisation, cliquez sur le menu Window > Show View... > Talend, puis slectionnez Modules dans la liste.

Pour accder la vue Modules, cliquez sur longlet Modules dans lespace de modlisation graphique.

Le tableau ci-dessous dcrit les informations prsentes dans la vue Modules.


Colonne Status Description Indique si un module est install ou non sur votre systme. Licne indique que le module est recommand, mais non requis pour lutilisation du composant list dans la colonne Context. Licne Context signifie que le module est indispensable lutilisation du composant correspondant.

Liste le nom des composant Talend utilisant le module. Si cette colonne est vide, le module est requis pour lutilisation gnrale de Talend Open Studio for Big Data.

108

Guide utilisateur de Talend Open Studio for Big Data

Installer des modules externes

Colonne

Description Cette colonne liste les librairies externes ajoutes aux routines cres et sauvegardes dans le dossier des librairies de votre Studio. Pour plus dinformations, consultez la section diter les bibliothques des routines utilisateur. Affiche le nom exact du module. Explique pourquoi le module/la librairie est requis(e). La case coche indique que le module est requis.

Module Description Required

En plus de la vue Modules, Talend Open Studio for Big Data fournit un mcanisme qui vous permet d'identifier, de tlcharger et d'installer facilement la plupart des modules tiers partir du site de Talend et vous dirige vers les sites Web concerns pour les autres. Un assistant d'installation de Jar apparat lorsque vous : dposez un composant de la Palette pour lequel un ou des module(s) externe(s) requis sont manquants, ou cliquez sur le bouton Guess schema dans la vue Component d'un composant pour lequel un ou des module(s) externe(s) requis sont manquants, ou cliquez sur le bouton dans l'onglet Modules.

Lorsque vous cliquez sur ce bouton, l'assistant qui apparat liste tous les modules externes requis non intgrs dans Talend Open Studio for Big Data.

Le tableau ci-dessous dcrit les informations prsentes dans l'assistant.


Elment Jar Module Required by component Required License More information Action Description Nom du fichier du module externe. Courte description concernant la nature du module. Liste des composants pour lesquels le module externe est requis. La case coche indique que le module est requis. Licence sous laquelle le module et fourni. Fournit l'URL du site Web valide partir duquel vous pouvez trouver plus d'informations concernant ce module et tlcharger manuellement le module. Cette colonne prsente un bouton Download and Install si le module est disponible sur le site Web de Talend, cliquez sur ce bouton pour tlcharger et installer le module. Sinon, la colonne affiche un lien vous dirigeant vers le site Web correspondant afin que vous puissiez tlcharger le module s'il n'est pas disponible sur le site Web de Talend.

Guide utilisateur de Talend Open Studio for Big Data

109

Utiliser les composants tPrejob et tPostjob

Elment Download and install modules available Do not show again

Description all Cliquez pour tlcharger et installer les modules requis disponibles sur le site Web de Talend. Cochez cette case afin que l'assistant n'apparaisse plus, moins que vous ne cliquiez sur le bouton dans la vue Modules. Cette case s'affiche uniquement lorsque vous dposez un composant ou rcuprez le schma d'une base de donnes, qui ncessite un module externe manquant. Cliquez sur ce bouton pour accder la documentation en ligne concernant l'installation de modules tiers.

Lorsque vous dposez un composant, ou rcuprez le schma d'une base de donnes, ncessitant un module externe, si le fichier Jar et l'URL de tlchargement ne sont pas disponibles sur le site de Talend, l'assistant d'installation de Jar n'apparat pas, mais la vue Error Log affiche une erreur vous informant que l'URL de tlchargement pour ce module n'est pas disponible. Cependant, vous pouvez la rechercher et tlcharger le Jar par vous-mme. Pour plus d'informations concernant la vue Error Log, consultez la section Onglets de configuration .

3.5.4.2. Installer des modules externes


Pour tlcharger et installer les modules manquants automatiquement, procdez comme suit : 1. Dans l'assistant d'installation de Jar, cliquez sur le bouton Download and Install pour installer un module particulier, ou cliquez sur le bouton Download and install all modules available, pour installer tous les modules disponibles manquants. Cliquez sur Accept dans la bote de dialogue [License] qui apparat, afin de continuer l'installation.
La bote de dialogue [License] apparat pour chaque licence sous laquelle sont fournis les modules correspondants, jusqu' ce que la licence soit accepte.

2.

Aprs l'installation des modules externes, une bote de dialogue apparat et vous informe du nombre de modules installs avec succs et/ou des modules dont l'installation a chou, s'il y en a. Pour installer manuellement un module externe manquant que vous avez tlcharg, procdez comme suit : 1. Dans la vue Modules, cliquez sur licne systme. dans le coin suprieur droit de la vue afin de parcourir votre

2.

Dans la bote de dialogue [Open], parcourez jusquau module que vous souhaitez installer.
Pour Oracle9i, le pilote JDBC tlchargeable depuis le site Web d'Oracle se nomme ojdbc14.jar, c'est le mme que pour Oracle 10g. Afin de faire fonctionner dans Talend Open Studio for Big Data le pilote JDBC tlcharg pour Oracle9i, vous devez modifier le nom du fichier en ojdbc14-9i.jar avant de l'installer dans le Studio.

3.

Double-cliquez sur le fichier Jar ou slectionnez-le, puis cliquez sur Open pour l'installer. La bote de dialogue se ferme et le module slectionn est install dans le dossier des librairies de votre Studio. Vous pouvez maintenant utiliser le composant ncessitant le module dans vos Jobs.

3.5.5. Utiliser les composants tPrejob et tPostjob


Les composants tPrejob et tPostjob sont conus pour dclencher l'excution de tches avant et aprs un l'excution d'un Job plus simple utiliser. Ces composants sont diffrents des autres car ils ne traitent en effet pas les

110

Guide utilisateur de Talend Open Studio for Big Data

Utiliser les composants tPrejob et tPostjob

donnes ne sont pas configurables. L'une des proprits-clef de ces composants est l'assurance qu'ils seront toujours excuts mme si le Job contenant les donnes principales choue. Ils sont donc trs utiles pour dmarrer et arrter des actions pour un Job donn.
Puisque les composants tPrejob et tPostjob nont pas t crs pour le traitement de donnes, ils ne peuvent tre excuts en multi thread. Les tches du tPrejob et du tPostjob sont excutes une fois pour les sous-jobs suivants, quils soient excuts en squence ou en parallle.

Les parties pr-job et post-job saffichent en tant que composants dans lespace de modlisation graphique, ils sont donc disponibles dans la Palette de composants. Pour utiliser les composants tPrejob et tPostjob, dposez-les simplement dans lespace de modlisation graphique comme vous le feriez avec dautres composants et connectezles ceux-ci l'aide d'une connexion Trigger. Un carr orange affiche les parties pr et post-job qui sont des types diffrents de sous-jobs. Connectez aux tPrejob et tPostjob tous les composants organisant les tches qui ne sont pas directement relies au traitement des donnes, ou le sous-job principal pour permettre lorchestration du traitement qui suivra.

Les tches ncessitant lutilisation dun composant tPrejob sont par exemple : le chargement dinformations de contexte requises pour lexcution du sous-job, louverture dune connexion une base de donnes, la vrification quun fichier existe. Les tches ncessitant lutilisation dun composant tPostjob sont par exemple : la suppression des fichiers temporaires crs durant lexcution du Job principal, fermer la connexion une base de donnes ou un service extrieur, toute tche devant tre excute mme si le sous-job prcdent a chou.

Guide utilisateur de Talend Open Studio for Big Data

111

Utiliser la fonctionnalit Use Output Stream

3.5.6. Utiliser la fonctionnalit Use Output Stream


La fonctionnalit Use Output Stream vous permet de traiter les donnes au niveau des octets via une classe java.io.outputstream() crivant les donnes l'aide d'un flux binaire sans charger les donnes en mmoire. Lors du traitement des donnes en un format linraire, par exemple, lorsque toutes les donnes sont de format String, cette fonctionnalit vous permet d'amliorer les performances globales en sortie.

La fonctionnalit Use Output Stream se trouve dans la vue Basic settings d'un grand nombre de composants, comme le tFileOutputDelimited. Pour utiliser cette fonctionnalit, cochez la case Use Output Stream de la vue Basic settings d'un composant contenant cette option. Dans le champ Output Stream ainsi activ, dfinissez votre flux de sortie l'aide d'une commande.
Avant d'utiliser la fonctionnalit de flux de sortie, vous devez avoir ouvert un flux. Pour un exemple dtaill de ce prrequis et de l'utilisation de cette fonctionnalit, consultez section Utilisation de la fonctionnalit Output Stream. Pour un exemple de Job utilisant cette fonctionnalit, consultez le second scnario du composant tFileOutputDelimited, dans le Guide de rfrence des Composants de Talend Open Studio for Big Data.

Pour un exemple dtaill de l'utilisation de cette fonctionnalit, consultez section Utilisation de la fonctionnalit Output Stream. Pour un exemple de Job utilisant cette fonctionnalit, consultez le composant tFileOutputDelimited dans le Guide de rfrence des Composants de Talend Open Studio for Big Data.

3.6. Gestion des Jobs : Autres fonctions


Les sections suivantes fournissent des informations dtailles concernant divers sujets lis la gestion de Jobs dintgration de donnes, comme la dfinition des composants de dbut (start), la gestion des erreurs, ainsi que la recherche de Jobs utilisant des composants spcifiques.

3.6.1. Partager une connexion une base de donnes


Si vous avez plusieurs Jobs utilisant une connexion la mme base de donnes, vous pouvez factoriser cette connexion en utilisant loption Use or Register a shared connection. Cette option a t ajoute tous les composants de connexion aux bases de donnes afin de rduire le nombre de connexions ouvrir et fermer.
L'option Use or Register a shared connection de tous les composants de connexion aux bases de donnes est incompatible avec les options Use dynamic job et Use an independent process to run subjob du composant tRunJob. Utiliser une connexion partage une base de donnes avec un tRunJob ayant l'une de ces options active fera chouer votre Job.

112

Guide utilisateur de Talend Open Studio for Big Data

Configurer un composant Start

Considrons, par exemple, deux Jobs lis (un Job parent et un Job fils) devant se connecter votre bases de donnes MySQL distante. Pour utiliser dans deux Jobs une connexion partage une base de donnes, procdez comme suit : 1. 2. Cliquez-glissez un composant tMysqlConnection (si vous travaillez avec une base de donnes MySQL). Connectez-le au premier composant de votre Job pre l'aide d'un lien Trigger > OnSubjobOk.

3. 4.

Dans la vue Component du composant tMysqlConnection, saisissez les informations de connexion la base de donnes. Cochez la case Use or Register a shared connection et saisissez un nom pour la connexion dans le champ Shared DB Connection Name.

Vous pouvez rutiliser cette connexion dans votre Job fils. 5. Dans la vue Basic settings du composant tMysqlConnection dans le Job fils, cochez la case Use or Register a shared connection, puis saisissez dans le champ Shared DB Connection Name le mme nom que dans le Job pre.
Parmi les diffrents Jobs partageant une mme connexion une base de donnes, vous devez configurer les informations de connexion uniquement dans le premier Job ouvrant la connexion la base de donnes.

Pour plus dinformations concernant lutilisation des composants de connexion, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

3.6.2. Configurer un composant Start


Le composant Start est le composant dclencheur des processus. Il peut y avoir plusieurs composants Start dans un Job Design si plusieurs traitements de flux sexcutent en parallle. Mais pour un mme flux ainsi que les flux secondaires connects, un seul composant peut tre Start.

Guide utilisateur de Talend Open Studio for Big Data

113

Grer les icnes davertissement/derreur sur les composants

Dposez un composant dans lditeur graphique. Tous les composants susceptibles dtre un composant Start, prennent une couleur darrire-plan distinctive (vert). Vous pouvez remarquer que la plupart des composants peuvent tre des composants Start et dbuter un processus. Seuls certains composants ne peuvent tre de type start, notamment le composant tMap, par exemple.

Pour identifier quel composant dbutera le processus, distinguez dabord le flux principal des flux secondaires de votre job. Le flux principal doit connecter un composant un autre laide dune connexion de type Row main. Le composant Start est alors automatiquement dfini sur le premier composant du flux principal (icne dont larrire-plan est vert). Les flux secondaires sont connects laide de connexion de type Row lookup et non plus main. Cette connexion Lookup tient lieu de rfrence, qui enrichit le flux principal de nouvelles donnes. Vous pouvez changer le statut du composant Start et par consquent le flux principal et secondaire, en modifiant une connexion Row Main en connexion Lookup, simplement via un simple clic droit sur la connexion. Voir galement : section Types de connexions. section Activation/Dsactivation dun Job ou dun sous-job.

3.6.3. Grer les icnes davertissement/derreur sur les composants


Lorsque les proprits dun composant ne sont pas correctement dfinies et contiennent une ou plusieurs erreur(s) empchant le code du Job de se compiler correctement, des icnes derreur safficheront automatiquement ct de licne du composant dans lespace de modlisation graphique, et ct du nom du Job dans la vue Repository.

3.6.3.1. Icnes derreur et davertissement sur les composants


Lorsquun composant nest pas correctement configur, ou si une connexion vers un autre composant manque, un cercle rouge contenant une croix blanche (icne derreur), ou un triangle avec un point dexclamation (icne davertissement) est plac sur licne du composant.

114

Guide utilisateur de Talend Open Studio for Big Data

Grer les icnes davertissement/derreur sur les composants

Placez votre souris sur le composant pour faire apparatre les messages derreur et davertissement. Cette aide contextuelle vous informe sur les donnes manquantes ou le statut du composant.

Lorsque les bulles daide dun composant indiquent quun module est requis, vous devez installer ce module pour ce composant via la vue Module. Cette vue est masque par dfaut. Pour plus dinformations concernant linstallation de modules externes laide de cette vue, consultez la section Installer des modules externes.

3.6.3.2. Icne derreur sur un Job


Lorsque les paramtres dun composant contiennent une ou plusieurs erreurs pouvant empcher le code du Job de se compiler correctement, une croix blanche sur fond rouge apparat sur licne du Job ct de son nom dans le Repository.

Licne derreur apparat aussi ct du nom du Job dans longlet de lespace de modlisation. La compilation ou la gnration de code a uniquement lieu dans les cas suivants : louverture dun Job, le passage longlet Code viewer, lexcution du Job (en cliquant sur Run), lenregistrement du Job. Licne derreur apparatra lorsque vous effectuerez lune de ces actions. De plus, lexcution du Job, la bote de dialogue [Find Errors in Jobs] affichera la source et une courte description de chaque erreur rencontre.

Guide utilisateur de Talend Open Studio for Big Data

115

Ajouter une Note au Job

Cliquez sur Cancel pour arrter lexcution ou sur Continue pour continuer lexcution de votre Job. Pour plus dinformations concernant les erreurs dans les composants, consultez la section Grer les icnes davertissement/derreur sur les composants.

3.6.4. Ajouter une Note au Job


Slectionnez llment Note dans la famille Misc de la Palette puis dposez llment Note dans lditeur pour ajouter un commentaire sur un composant particulier ou sur lensemble de votre Job.

Vous pouvez modifier la mise en forme de vos notes. Pour cela, slectionnez la note puis cliquez sur longlet Basic settings de la vue Component.

La case Opacity permet dafficher ou non la couleur de fond de la note. Elle est coche par dfaut lorsque vous ajoutez une note. Si vous dcochez cette case, le fond de la note devient transparent. Les options Fonts and Colors permettent de modifier le style, la taille, la couleur, etc. de la police, ainsi que la couleur du fond et des bordures de votre note. Les options Adjust horizontal et Adjust vertical permettent de dfinir lalignement vertical et horizontal du texte dans la note. Le champ Text contient le texte apparaissant dans la note.

116

Guide utilisateur de Talend Open Studio for Big Data

Afficher les onglets Code ou Outline de votre Job

3.6.5. Afficher les onglets Code ou Outline de votre Job


Ce panneau est situ sous la vue Repository. Il fournit des informations prcises concernant le Job ouvert dans lespace de modlisation graphique. Cette zone d'information est compose de deux onglets, Outline et Code Viewer, qui fournissent des informations concernant le diagramme affich dans lespace de modlisation.

3.6.5.1. Outline
Longlet Outline offre un aperu rapide du Job Design ouvert dans lespace de modlisation graphique mais aussi une arborescence de tous les lments utiliss dans le Job. Comme lespace de modlisation graphique, et comme toute zone de toute fentre peut tre rduit(e) ou agrandi(e) selon vos besoins, la vue Outline est utile pour savoir o vous tes dans lespace de modlisation graphique.

La partie du diagramme visible dans lespace de modlisation est mise en vidence laide dun rectangle bleu. Cliquez sur la zone bleue de laperu et dplacez-la pour afficher une autre partie du processus. Remarquez que la vue de lespace de travail se dplace de la mme manire. La vue Outline peut galement afficher un arborescence des composants utiliss dans le diagramme. Dveloppez le nud dun composant pour afficher la liste des variables disponibles pour ce composant. Pour passer dun aperu un autre, cliquez sur les icnes correspondantes en haut droite.

Guide utilisateur de Talend Open Studio for Big Data

117

Grer laffichage dun sous-job

3.6.5.2. Code viewer


Longlet Code viewer donne un aperu des lignes de code gnres pour le composant slectionn, sous la vue active du Job Design, ainsi que le menu dexcution, comprenant les lments Start, Body et End correspondant aux phases dexcution de ce composant. A laide de laperu de code en couleur, vous pouvez distinguer les diverses parties dun code dun composant slectionn dans lespace de modlisation. Cet aperu est une vue partielle de longlet principal Code, situ en bas de lditeur graphique, qui lui, affiche le code gnr pour lensemble du Job.

3.6.6. Grer laffichage dun sous-job


Un sous-job est reprsent par un rectangle bleu regroupant tous les composants constituant ce sous-job. Chaque composant peut tre considr comme un sous-job lorsquil nest pas connect un autre composant.

Ce surlignage bleu vous permet de distinguer plus facilement un sous-job dun autre.
Un Job peut tre compos dun seul sous-job. Les rectangles oranges correspondent aux pr-jobs et aux post-jobs, qui sont diffrents des sous-jobs. Pour plus dinformations sur les pr-jobs et les post-jobs, consultez section Utiliser les composants tPrejob et tPostjob.

3.6.6.1. Personnaliser les sous-jobs


Les rectangles reprsentant vos sous-jobs peuvent tre mis en forme dans un soucis de clart. Pour cela, slectionnez votre sous-job et cliquez sur la vue Component.

Dans la vue Basic settings, cochez la case Show subjob title si vous souhaitez ajouter un titre au sous-job et dans le champ Title, saisissez le titre. Pour modifier la couleur du titre ou du sous-job : 1. 2. Dans la vue Basic settings, cliquez sur le bouton Title color/Subjob color pour afficher la bote de dialogue [Colors]. Slectionnez la couleur que vous souhaitez. Par dfaut, le titre est bleu et le sous-job bleu transparent.

118

Guide utilisateur de Talend Open Studio for Big Data

Grer laffichage dun sous-job

3.6.6.2. Rduire laffichage des sous-jobs


Si votre Job est compos de nombreux sous-jobs, vous pouvez les rduire dans un soucis de lisibilit. Des signes moins [-] et plus [+] en haut droite de vos sous-jobs vous permettent de rduire et de restaurer laffichage de vos sous-jobs.

Cliquez sur le signe moins [-] pour rduire le sous-job (capture dcran de gauche). Quand il est rduit, seul le premier composant du sous-job apparat. Cliquez sur le signe [+] pour le restaurer (capture dcran de droite).

3.6.6.3. Supprimer le surlignage dun sous-job


Si vous ne souhaitez surligner vos sous-jobs, vous pouvez enlever le surlignage de tous vos sous-jobs ou dun sous-jobs prcis. Pour enlever le surlignage de tous vos sous-jobs, cliquez sur licne Toggle Subjobs dans la barre doutils de Talend Open Studio for Big Data.

Pour enlever le surlignage dun sous-job, cliquez-droit sur ce sous-job et slectionnez loption Hide subjob dans le menu contextuel.

Guide utilisateur de Talend Open Studio for Big Data

119

Paramtrage des options dans la vue Job

3.6.7. Paramtrage des options dans la vue Job


Dans la vue Job, situe un bas de lditeur, vous pouvez dfinir des fonctions optionnelles du Job. Cette vue est compose de quatre onglets, dont les onglets Stats & Logs et Extra. Longlet Stats & Logs vous permet dutiliser de manire automatique les fonctions Stats & Logs et la fonction dautomatisation des paramtres de Contexte. Pour plus dinformations, consultez section Automatiser lutilisation des statistiques & logs. Longlet Extra liste les diffrentes options disponibles pour automatiser certaines fonctions, notamment lutilisation des paramtres de contexte dans la zone Implicit Context Loading. Pour plus dinformations, consultez section Fonctions Extra.

3.6.7.1. Automatiser lutilisation des statistiques & logs


Si vous utilisez souvent les fonctions Logs, Statistics et toute autre mesure de votre flux de donnes, vous devez grer beaucoup de composants lis aux logs dans vos Job Designs. A laide de longlet Stats & Logs, vous pouvez automatiser lutilisation des fonctionnalits de tFlowMeterCatcher, tStatCatcher et tLogCatcher sans utiliser ses composants dans votre Job. Pour plus dinformations sur les composants de Log, consultez le Guide de Rfrence des Composants de Talend Open Studio for Big Data. Longlet Stats & Logs est situ dans la vue Job sous lespace de modlisation et vous permet dviter de surcharger vos Jobs avec des composants.
Cette configuration a les mmes proprits gnrales de log que les composants de Log.

Pour paramtrer les proprits Stats & Logs : 1. 2. Cliquez sur la vue Job. Slectionnez longlet Stats & Logs pour afficher la vue de configuration.

120

Guide utilisateur de Talend Open Studio for Big Data

Paramtrage des options dans la vue Job

3. 4.

Renseignez les informations en fonction de votre composant de sortie (console, fichier ou base de donnes). Vrifiez que loption Catch correspond bien vos besoins.
Vous pouvez enregistrer automatiquement ces configurations dans vos paramtres de projets en cliquant sur le bouton . Sinon, vous pouvez accder ces paramtres via File > Edit project settings > Talend > Stats & Logs.

Lorsque vous utilisez les options Stats & Logs pour lun de vos jobs, vous avez la possibilit dappliquer ces mmes options ses sous-jobs.

Pour cela, cliquez sur le bouton Apply to sub jobs dans longlet Stats & Logs de la vue Job. Ainsi, les options slectionnes pour votre Job principal seront slectionnes pour tous ses sous-jobs.

3.6.7.2. Fonctions Extra


Longlet Extra vous offre des options de paramtrage des donnes de contexte. Cochez la case Multithread execution pour lancer deux Jobs au mme moment. Vous pouvez cocher loption Implicit tContextLoad pour viter dutiliser le composant tContextLoad dans votre Job et ainsi automatiser lutilisation des paramtres de contexte.

Guide utilisateur de Talend Open Studio for Big Data

121

Chercher un Job utilisant un composant particulier

Choisissez la source de vos paramtres de contexte : File ou Database et configurez manuellement laccs aux fichiers ou la base de donnes. Configurez les messages (erreur/warning/info) lorsque des comportements inattendus lis aux paramtres de contexte surviennent. Si vous avez renseign manuellement loption Implicit tContextLoad, vous avez la possibilit denregistrer ces paramtres dans les paramtres de votre projet en cliquant sur le bouton Save to project settings, et, ainsi, rutiliser ces paramtres pour dautres composants et dans dautres jobs. Vous avez la possibilit de rcuprer les paramtres de contexte dj dfinis dans les paramtres du projet (Project Settings) en cochant la case Use Project Settings. En cochant cette case, loption Implicit tContextLoad sera active et tous les champs seront renseigns automatiquement. Pour plus dinformations sur les paramtres de contexte, consultez section Dfinir les paramtres de contexte. Vous avez aussi la possibilit de rafrachir les paramtres de contexte rcuprs des paramtres du projet en cliquant sur le bouton Reload from project settings.

3.6.8. Chercher un Job utilisant un composant particulier


Vous devez ouvrir au moins un Job dans votre Studio afin dafficher la Palette droite de lespace de modlisation graphique et lancer la recherche.

A partir de la Palette, vous avez la possibilit de rechercher tous les Jobs utilisant le composant slectionn. Pour ce faire : 1. Dans la Palette, cliquez-droit sur le composant que vous cherchez et slectionnez loption Find Component in Jobs.

Une barre de progression saffiche pour vous indiquer lvolution de la recherche en pourcentage, puis la bote de dialogue [Find a Job] saffiche lcran et donne la liste de tous les Jobs utilisant ledit composant.

122

Guide utilisateur de Talend Open Studio for Big Data

Configurer les valeurs par dfaut dans le schma d'un composant

2.

Dans la liste des Jobs, slectionnez celui qui vous intresse puis cliquez sur OK pour louvrir dans lespace de modlisation graphique.

3.6.9. Configurer les valeurs par dfaut dans le schma d'un composant
Vous pouvez configurer des valeurs par dfaut dans le schma de certains composants pour remplacer des valeurs nulles rcupres de la source de donnes.
Pour le moment, seuls les tFileInputDelimited, tFileInputExcel et tFixedFlowInput supportent les valeurs par dfaut dans le schma.

Dans l'exemple suivant, les champs company et city de certains enregistrements du fichier CSV source sont laisss blancs, comme dans la capture d'cran ci-dessous. Le composant d'entre lit des donnes du fichier source et complte les informations manquantes l'aide des valeurs par dfaut dans le schma, Talend et Paris respectivement.
id;firstName;lastName;company;city;phone 1;Michael;Jackson;IBM;Roma;2323 2;Elisa;Black;Microsoft;London;4499 3;Michael;Dujardin;;;8872 4;Marie;Dolvina;;;6655 5;Jean;Perfide;;;3344 6;Emilie;Taldor;Oracle;Madrid;2266 7;Anne-Laure;Paldufier;Apple;;4422

Guide utilisateur de Talend Open Studio for Big Data

123

Configurer les valeurs par dfaut dans le schma d'un composant

Pour configurer des valeurs par dfaut : 1. Double-cliquez sur le composant d'entre afin d'afficher sa vue Basic settings.

2.

Cliquez sur le bouton [...] ct du champ Edit schema et slectionnez l'option Change to built-in property dans la bote de dialogue afin d'ouvrir l'diteur du schma. Saisissez Talend entre guillemets dans le champ Default pour la colonne company. Saisissez Paris entre guillemets dans le champ Default pour la colonne city et cliquez sur OK pour fermer l'diteur de schma.

3.

4.

Configurez le composant de sortie tLogRow pour afficher les rsultats d'excution comme vous le souhaitez et excutez le Job.

124

Guide utilisateur de Talend Open Studio for Big Data

Configurer les valeurs par dfaut dans le schma d'un composant

Dans le flux de donnes de sortie, les informations manquantes sont compltes selon les valeurs configures par dfaut.

Guide utilisateur de Talend Open Studio for Big Data

125

Guide utilisateur de Talend Open Studio for Big Data

Chapitre 4. Gestion des Jobs dintgration de donnes


Ce chapitre dcrit les procdures de gestion des Jobs crs dans Talend Open Studio for Big Data, ainsi que des autres lments inclus dans un projet, par exemple les routines ou les mtadonnes. Ces procdures de gestion comprennent limport et lexport de Jobs et dlments entre diffrents projets ou ordinateurs, ainsi que la programmation de lexcution des Jobs. Avant de commencer un processus mtier d'intgration de donnes, vous devez vous tre familiaris avec linterface graphique de Talend Open Studio for Big Data. Pour plus dinformations, consultez la annexe Interface de Talend Open Studio for Big Data .

Guide utilisateur de Talend Open Studio for Big Data

Activation/Dsactivation dun Job ou dun sous-job

4.1. Activation/Dsactivation dun Job ou dun sous-job


Vous pouvez activer ou dsactiver un composant, et par ce biais, un Job entier ou un Job secondaire (subjob) directement connect au composant slectionn. Par dfaut, le composant est activ. Dans la fentre de Proprits Main du composant slectionn, cochez ou dcochez la case Activate.

Vous pouvez aussi faire un clic-droit sur le composant et slectionnez la commande Activate/Deactivate qui saffiche en fonction du statut courant du composant. Si vous dsactivez un composant, aucun code ne sera gnr et vous ne pourrez ni ajouter ni modifier de liens partir de ce composant vers des composants actifs ou nouveaux. Voir galement : section Configurer un composant Start.

4.1.1. Dsactiver un composant de dbut (Start)


Dans le cas o un composant Start est dsactiv, les composants de tout type, ainsi que les connexions de toute nature, relis directement et indirectement lui, seront dsactivs galement.

4.1.2. Dsactiver un composant intermdiaire


Lorsque vous dcochez la case Activate dun composant standard (non Start), seul le composant en question et ses connexions directes sont dsactivs. Si le lien reliant un composant dsactiv un sous-job est un lien direct de type Row main (principal), alors tous les composants de ce sous-job seront galement dsactivs.

128

Guide utilisateur de Talend Open Studio for Big Data

Import/export dlments ou de Jobs

4.2. Import/export dlments ou de Jobs


Talend Open Studio for Big Data vous permet dimporter/exporter vos Jobs ou vos lments partir de/vers diffrents projets ou diffrentes versions du Studio. Il vous offre galement la possibilit dexporter des Jobs et ainsi de dployer et dexcuter les Jobs crs dans le Studio sur nimporte quel serveur.

4.2.1. Import dlments


Vous pouvez prsent importer des lments stocks dans le workspace des versions antrieures de Talend Open Studio for Big Data ou dun autre projet de votre workspace courant. Les lments que vous pouvez importer sont : Jobs Designs Routines Pour importer des lments vers un Rfrentiel, suivez les tapes suivantes : 1. Dans le Repository, cliquez-droit sur nimporte quelle entre, notamment Job Designs ou puis, dans le menu contextuel, slectionnez loption Import Items.

Vous pouvez galement cliquer sur l'icne 2.

dans la barre d'outils.

Dans la bote de dialogue qui s'ouvre, slectionnez le rpertoire ou le fichier archive contenant les lments que vous souhaitez extraire. Si vous avez export les lments de votre rfrentiel local dans un fichier archive (fichiers source et scripts inclus), utilisez l'option Select archive file, slectionnez le dossier contenant larchive puis passez l'tape suivante. Si les lments importer sont encore stocks sur le rfrentiel local, utilisez l'option Select root directory et slectionnez le dossier du projet dans votre systme puis passez l'tape suivante.

3.

Slectionnez le dossier correspondant au Projet dans le rpertoire Workspace. Il correspond au nom du projet que vous crez auparavant.

Guide utilisateur de Talend Open Studio for Big Data

129

Import dlments

4.

Si vous souhaitez importer des lments spcifiques, notamment les Job Designs, slectionnez le dossier correspondant, tel que Process dans lequel tous les Job designs du projet sont stocks.. Mais si votre projet regroupe diffrents types dlments (Jobs Designs, Routines...), nous vous conseillons de slectionner le Projet en entier afin de tout importer en une seule fois. Cliquez sur OK pour continuer.

5.

130

Guide utilisateur de Talend Open Studio for Big Data

Export de Jobs

6.

Cochez la case overwrite existing items si vous souhaitez craser les lments existants par ceux ayant le mme nom et devant tre imports. Cela va rafrachir la liste Items List. Tous les lments valides pouvant tre exports sont affichs dans la liste Items List. Par dfaut, tous les lments sont slectionns mais vous pouvez les dslectionner tous ou individuellement. Cliquez sur Finish pour valider limport. Les lments imports seront sauvegards dans le dossier correspondant sur le rfrentiel en fonction de leur nature.

7.

8.

4.2.2. Export de Jobs


La fonction Export Job vous permet de dployer et dexcuter un Job partir de nimporte quel serveur, indpendamment de Talend Open Studio for Big Data. Lexport de Job ajoute larchive tous les fichiers ncessaires lexcution dun Job, savoir les fichiers .bat et .sh, ainsi que tous les fichiers de paramtres de contexte ou fichiers lis.

Guide utilisateur de Talend Open Studio for Big Data

131

Export de Jobs

Par dfaut, lorsqu'un Job est export, tous les fichiers Jars requis sont inclus dans la commande .bat ou .sh. Pour un Job complexe impliquant de nombreux Jars, le nombre de caractres dans la commande batch peut dpasser la longueur autorise par certains systmes d'exploitation. Pour viter l'chec de l'excution de la commande batch cause de cette limitation, avant d'exporter votre Job, cliquez sur Window > Preferences. Slectionnez Talend > Import/Export et cochez la case Add classpath Jar, when export job, afin de regrouper les Jars dans un fichier classpath.jar ajout au Job export. Pour exporter des Jobs, procdez comme suit : 1. Dans larborescence Repository, cliquez-droit sur le Job que vous voulez exporter et slectionnez Export Job pour ouvrir la bote de dialogue [Export Job].
Vous pouvez directement afficher ou cacher, dans la bote de dialogue [Export Job], larborescence de tous les Jobs ayant t crs dans Talend Open Studio for Big Data, en cliquant respectivement sur les boutons et . Les Jobs que vous avez prcdemment slectionns dans larborescence du Studio saffichent, prcds dune case coche. Cette fonctionnalit permet de modifier les lments slectionns pour les exporter directement partir de la bote de dialogue, sans avoir la fermer et retourner larborescence Repository dans Talend Open Studio for Big Data.

2. 3.

Dans le champ To archive file, cliquez sur le bouton Browse... et parcourez jusquau rpertoire dans lequel vous souhaitez sauvegardez votre Job export. Dans la liste Export Type, slectionnez le type dexport. Les diffrents types sont : Autonomous Job, Autonomous Route, Axis WebService (WAR), Axis WebService (Zip),JBoss ESB, Petals ESB et OSGI Bundle For ESB. Cochez la case Extract the zip file, si vous souhaitez extraire automatiquement le fichier dans le rpertoire cible. Dans la zone Options, slectionnez le type de fichiers que vous souhaitez ajouter larchive. Les options correspondant aux fichiers ncessaires lexcution du Job sont coches par dfaut, vous pouvez nanmoins les dcocher en fonction de ce que vous souhaitez exporter.

4. 5.

132

Guide utilisateur de Talend Open Studio for Big Data

Export de Jobs

Option Shell launcher

Description Cochez cette case pour exporter les fichiers .bat et/ou .sh ncessaires au lancement du Job export. All : exporte les fichiers .bat et .sh, Unix : exporte le fichier .sh, Windows : exporte le fichier .bat.

Context scripts

Cochez cette case pour exporter TOUS les fichiers de paramtres de contexte et pas uniquement ceux slectionns dans la liste correspondante. Pour exporter un contexte, slectionnez le contexte rpondant vos besoins dans la liste Context scripts, notamment les fichiers .bat ou .sh contenant les paramtres de contexte appropris. Vous pouvez ensuite, si vous le souhaitez, ditez les fichiers .bat et .sh pour modifier manuellement le type de contexte.

Apply to children Java sources Items/Source files

Cochez cette case si vous souhaitez appliquer le contexte slectionn dans la liste tous les Jobs fils. Cochez cette case pour exporter le fichier .java contenant les classes Java gnres par le Job lors de sa cration. Cochez cette case pour exporter les sources utiliss par le Job durant son excution, notamment les fichiers .item et .properties, ainsi que les sources Java et Talend. Si vous cochez la case Items ou Source files, vous pouvez rutiliser le Job export dans un Talend Open Studio for Big Data install sur une autre machine. Ces fichiers source sont uniquement utiliss dans Talend Open Studio for Big Data.

6.

Cliquez sur le bouton Override parameters values, si ncessaire. Une fentre souvre, dans laquelle vous pouvez mettre jour les paramtres et les valeurs de contexte du Job slectionn ou ajouter de nouveaux paramtres ou de nouvelles valeurs, selon vos besoins.

7.

Cliquez sur Finish pour valider les changements effectus, finaliser lexport et fermer la bote de dialogue.

Un fichier zip des Jobs est alors cr lendroit prdfini.


Si le Job exporter appelle une Routine personnalise contenant une ou plusieurs classe(s) Java en parallle avec la classe publique nomme de la mme faon que la routine utilisateur, la ou les classe(s) supplmentaire(s) ne sera (seront) pas incluse(s) dans le fichier export. Pour exporter ces classes, vous devez les inclure en tant que sous-classes dans la classe ayant le mme nom que la routine. Pour plus dinformations concernant les routines utilisateur, consultez section Gestion des routines personnalises. Pour plus dinformations concernant les classes et les sous-classes, consultez les manuels Java correspondants.

4.2.2.1. Exporter un Job en Autonomous Job


Dans le cas d'un export de Plain Old Java Object, si vous souhaitez rutiliser le Job dans Talend Open Studio for Big Data install sur une autre machine, cochez la case Items. Ces fichiers source (.item et .properties) sont uniquement utiliss dans Talend Open Studio for Big Data. Lorsque que plusieurs contextes sont proposs dans la liste Context script, slectionnez celui qui correspond vos besoins. Ensuite, cliquez sur le bouton Override parameters values, sous la case Context script. Une fentre souvre alors et affiche tous les paramtres du contexte slectionn. Dans cette fentre, vous pouvez configurer le contexte slectionn selon vos besoins. Tous les fichiers de paramtres de contexte sont exports et pas uniquement celui que vous avez slectionn dans la liste.
Aprs lexport, les informations de contexte slectionnes sont stockes dans le fichier .bat ou.sh. Les paramtres de contexte sont stocks dans le fichier de contextes .properties.

Guide utilisateur de Talend Open Studio for Big Data

133

Export de Jobs

4.2.2.2. Exporter des Jobs en tant que WebService


Dans la bote de dialogue [Export Job], vous pouvez modifier le type dexport afin dexporter le Job slectionn dans une archive Webservice.

Slectionnez le type darchive que vous souhaitez utiliser dans votre application Web.
Type darchive WAR Description Les options sont en lecture seule. En effet, larchive WAR gnre comprend tous les fichiers de configuration ncessaires lexcution ou au dploiement partir dune application Web. Toutes les options sont disponibles. Si tous les fichiers de configuration de votre application Web sont configurs, vous avez la possibilit de ne slectionner que les paramtres de contexte et de nexporter que les Classes dans larchive.

ZIP

Une fois que larchive est gnre, placez le fichier WAR ou le dossier Class du ZIP (ou des fichiers dcompresss) dans le rpertoire souhait de votre serveur dapplication Web. LURL utilise pour dployer votre Job ressemble la suivante :
http://localhost:8080/NomAppWeb/services/NomJob?method=runJob&args=null

Les paramtres sont les suivants :


Paramtres de lURL http://localhost:8080/ /NomAppWeb/ /services/ /NomJob ?method=runJob&args=null Description Saisissez les hte et port de votre application Web. Saisissez le nom de votre application Web. Saisissez services comme terme dappel standard pour les services Web. Saisissez le nom exact du Job que vous souhaitez excuter. La mthode utilise pour excuter le Job est RunJob.

Le retour dappel de lapplication Web sest droul sans erreur (0), en cas derreur le chiffre affich sera diffrent de 0. Pour un cas rel de cration et dexport de Job en tant que service Web et de dploiement de ce Job partir dun navigateur Web, consultez la section Exemple dexport de Job en tant que service Web. Le composant tBufferOutput a t conu spcialement pour ce type de dploiement. Pour plus dinformations concernant ce composant, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

4.2.2.3. Exemple dexport de Job en tant que service Web


Ce scnario dcrit, en premier temps, un simple Job crant un fichier .txt contenant la date en cours, ainsi que des noms et prnoms. En deuxime temps, ce Job est export en tant que service Web partir dun navigateur Web. Le Job export en tant que service Web renverra simplement le retour dappel fourni par le systme dexploitation.

Crer le Job
1. Dposez les composants suivants de la Palette dans lespace de modlisation : tFixedFlowInput et tFileOutputDelimited.

134

Guide utilisateur de Talend Open Studio for Big Data

Export de Jobs

2.

Connectez le tFixedFlowInput au tFileOutputDelimited laide dun lien Row Main.

3.

Dans lespace de modlisation, slectionnez le tFixedFlowInput et cliquez sur l'onglet Component pour paramtrer les proprits du tFixedFlowInput. Dans le champ Schema, slectionnez loption Built-In et cliquez sur le bouton [...] ct du champ Edit Schema afin de dcrire la structure des donnes que vous souhaitez crer partir des variables internes. Dans ce scnario, le schma est compos de trois colonnes : now, firstname et lastname.

4.

5.

Cliquez sur le bouton [+] pour ajouter vos trois lignes de paramtres et dfinir vos variables. Cliquez sur OK pour fermer la bote de dialogue et acceptez la propagation des modifications lorsque le message de confirmation vous le demande. Les trois colonnes dfinies apparaissent dans le tableau Values de longlet Basic settings du composant tFixedFlowInput.

6.

Cliquez sur la cellule Value de chaque colonne dfinie et appuyez sur Ctrl+Espace pour accder la liste des variables globales et slectionnez TalendDate.getCurrentDate() pour la colonne now, talendDatagenerator.getFirstName pour la colonne firstname, talendDataGenerator.getLastName pour la colonne lastname. Dans le champ Number of rows, saisissez le nombre de lignes gnrer.

7.

Guide utilisateur de Talend Open Studio for Big Data

135

Export de Jobs

8.

Dans lespace de modlisation, slectionnez le composant tFileOutputDelimited, cliquez sur l'onglet Component et, dans le champ File name, slectionnez le fichier de sortie. Paramtrez les autres proprits du composant, si ncessaire.

9.

Si vous appuyez sur F6 pour excuter le Job, trois lignes contenant la date en cours et des noms et prnoms seront crits dans le fichier de sortie dfini.

Exporter le Job en tant que service Web


1. Dans la vue Repository, cliquez-droit sur le Job que vous venez de crer et slectionnez Export Job Scripts. La bote de dialogue Export Job Scripts apparat :

136

Guide utilisateur de Talend Open Studio for Big Data

Export de Jobs

2.

Dans le champ To archive file, cliquez sur le bouton Browse... et slectionnez un rpertoire dans lequel enregistrer le fichier archive contenant votre Job. Dans la liste Export type, slectionnez le type dexport que vous souhaitez utiliser dans votre application Web (WAR pour cet exemple) et cliquez sur Finish. La bote de dialogue [Export Job Scripts] disparat. Copiez le dossier War et collez-le dans le rpertoire du serveur dapplication Tomcat.

3.

4.

Invoquer le Job partir dun navigateur Web :


1. Saisissez lURL suivante dans votre navigateur : http://localhost:8080//export_job/services/export_job2? method=runJob dans lequel export_job correspond au nom de lapplication Web utilise pour le dploiement sur le Tomcat et export_job2 correspond au nom de votre job.

2.

Cliquez sur Enter pour excuter le Job partir de votre navigateur Web.

Guide utilisateur de Talend Open Studio for Big Data

137

Export de Jobs

Le code retourn partir de votre application Web est 0 lorsquil ny a pas derreur et 1 si une erreur est apparue. Pour un cas rel de cration et dexport dun Job en tant que service Web via le composant tBufferOutput, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

4.2.2.4. Exporter un Job en tant que JBoss ESB


Talend Open Studio for Big Data vous permet dexposer des Jobs Talend en tant que services dans JBoss ESB (Enterprise Service Bus) afin dexcuter ces Jobs dans le moteur de messagerie (le bus).
Si vous souhaitez dployer et excuter votre Job sur un serveur JBoss ESB, assurez-vous que le jar spcifique JBoss ESB est bien install dans la bibliothque Java et apparat comme tel dans la vue Modules de Talend Open Studio for Big Data. Pour plus dinformations concernant la vue Modules, consultez la section Installer des modules externes.

Dans la bote de dialogue [Export Job Scripts], vous pouvez modifier le type dexport afin dexporter le Job slectionn dans une archive ESB. Le Job contenu dans cette archive peut ensuite tre automatiquement dploy sur le serveur JBoss. Pour exporter un Job en ESB : 1. 2. 3. Dans la zone Job Version, slectionnez la version du Job que vous souhaitez excuter sur le serveur JBoss ESB. Dans la liste Select export type de la zone Export type, slectionnez JBoss ESB. Dans la zone Option, slectionnez le type de fichiers que vous souhaitez ajouter larchive. Lorsque plusieurs contextes sont proposs dans la liste Context script, slectionnez celui qui correspond vos besoins. Cochez la case Apply to children si vous souhaitez appliquer le contexte slectionn dans la liste tous les Jobs fils. Pour exporter les sources utilises par le Job durant son excution, y compris les fichiers .item, .properties et les sources Java des Jobs et des routines, cochez la case Source files.
Si vous cochez la case Source files, vous pouvez rutiliser le Job export dans un Talend Open Studio for Big Data install sur une autre machine. Ces fichiers source sont utiliss uniquement dans Talend Open Studio for Big Data.

4.

5. 6. 7.

Dans la liste ESB Export type, slectionnez soit JBoss MQ, soit JBoss Messaging. Dans le champ Service name, saisissez le nom du service sur lequel dployer votre Job. Dans le champ Category, saisissez le nom de la catgorie du service sur lequel le Job sera dploy.

138

Guide utilisateur de Talend Open Studio for Big Data

Export de Jobs

8. 9.

Dans le champ Message Queue Name, saisissez le nom de la queue utilise pour le dploiement du Job. Cliquez sur le bouton Browse... ct du champ To archive file et dfinissez le chemin daccs au fichier archive dans lequel vous souhaitez exporter le Job. Cliquez sur Finish. La bote de dialogue se ferme. Un indicateur de progression saffiche et vous montre le pourcentage davancement de lopration dexport. Le Job est export dans larchive slectionne.

Au lancement du serveur, une fois larchive ESB copie dans le rpertoire de dploiement, le Job est automatiquement dploy et prt tre excut sur le serveur ESB.

4.2.2.5. Exporter un Job en tant que Petals ESB


Avec Talend Open Studio for Big Data, il est possible dexporter des Jobs Talend en tant que services dans Petals ESB, afin de les excuter dans le serveur de messagerie applicative (le bus).

Intgrer Petals ESB dans Talend


Talend fournit une mthode aise pour exposer des services dans Petals ESB, et permet : lintgration de lapplication dans le bus : ceci permettra lintgration des systmes et applications dans toute lentreprise. linteraction des services : lESB tablit la connectivit entre les services, cest--dire quil permet la communication entre les services, mme si ceux-ci possdent diffrentes interfaces. LIntgration Mtier Java (Java Business Integration, JBI) est lapproche utilise pour implmenter une architecture oriente service (service-oriented architecture, SOA) et exporter des Jobs Talend dans Petals ESB. Petals ESB est complt par des Binding Components (BC) et le Service Engine (SE) Talend pour fournir : dabord, laccs aux mthodes inhrentes aux diffrents types de services comme le transfert de fichier(s), les services Web, le MOM, et ensuite, le moteur permettant de dployer le service. Pour plus dinformations concernant les interactions entre Petals et les Jobs Talend, consultez : http://doc.petalslink.com/display/petalsesb/ A+Simple+ Talend+Job. Avec lintgration de Talend et Petals ESB, vous pouvez excuter les Jobs crs dans Talend Open Studio for Big Data dans Petals ESB. Pour plus dinformations, consultez la section Exporter un Job en tant que Petals ESB. Diffrents mcanismes sont fournis pour passer les informations et les donnes un Job et pour rcuprer des informations et des donnes partir dun Job. A laide de Talend Open Studio for Big Data et de Petals ESB, vous pouvez excuter un Job nayant aucune interaction spcifique avec Petals. Vous pouvez : exposer un contexte en tant que paramtre dans le service WSDL, passer des fichiers joints un Job, passer des paramtres et options natifs un Job, obtenir les rsultats dexcution du Job.

Comment exporter des Jobs vers Petals ESB


Dans la bote de dialogue [Export Jobs], vous pouvez exporter un Job slectionn en tant quarchive Petals ESB. Vous pouvez excuter le Job export dans le bus (le serveur de messagerie applicative). Pour exporter un Job en tant quarchive Petals ESB, procdez comme suit :

Guide utilisateur de Talend Open Studio for Big Data

139

Export de Jobs

1.

Dans la vue Repository, cliquez-droit sur le Job que vous souhaitez exporter, puis slectionnez Export Job dans le menu contextuel. La bote de dialogue [Export Jobs] souvre.

2.

Dans le champ To archive file, parcourez votre rpertoire afin de dfinir le chemin daccs larchive dans laquelle vous souhaitez exporter le script. Dans la liste Select the job version, slectionnez la version du Job que vous voulez exporter. Dans la liste Select export type, dans la zone Export type, slectionnez Petals ESB. Les trois options suivantes, dans la zone Options sont slectionnes par dfaut : Singleton job et Source file. Vous pouvez slectionner toute autre option qui vous parat ncessaire. Le tableau ci-dessous vous explique les options dexport :
Option Singleton job Description Exporter le Job en tant que singleton : un Job singleton ne peut avoir quune seule instance lance la fois sur un serveur de messagerie applicative Talend dans Petals ESB.
Guide utilisateur de Talend Open Studio for Big Data

3. 4.

140

Export de Jobs

Option Generate the end-point Validate Petals messages

Description Gnre lend-point au moment du dploiement. Si cette option nest pas slectionne, le nom de lend-point sera le mme nom que le Job, avec le suffixe Endpoint. Valide tous les messages / requtes par rapport au WSDL. Slectionner cette option rduit les performances de votre systme (accs au disque).

Source files Jobs contexts

Embarque les fichiers source dans le service-unit gnr. Liste dans laquelle slectionner le contexte qui sera utilis par dfaut dans le Job.

5.

Dans la bote de dialogue [Export Job], cliquez sur le lien Edit the exposed contexts afin douvrir la bote de dialogue [Context Export].

La bote de dialogue affichera une liste des toutes les variables de contexte utilises dans le Job export. Vous pouvez ici spcifier comment chaque variable de contexte doit tre exporte dans le fichier WSDL gnr. 6. Cliquez dans le champ Export Mode et slectionnez dans la liste le mode dexport pour chaque variable de contexte. Le tableau ci-dessous prsente les diffrentes options dexport :

Export Mode Not exported Parameter In-Attachment Out-Attachment

Description Le contexte nest pas export (non visible en tant que paramtre). Le contexte pourra toujours tre export en utilisant les paramtres natifs (options) du Job. Le contexte est export en tant que paramtre dans lopration WSDL. Le contexte transmettra l'emplacement d'un fichier temporaire dont le contexte tait joint au message d'entre. Le contexte sera lu aprs excution du Job. -Ce contexte doit indiquer un fichier, -Le contenu du fichier sera lu par le serveur de messagerie applicative et joint la rponse, -Le nom du contexte sera utilis comme nom de pice jointe, -Le fichier sera supprim par le serveur de messagerie applicative juste aprs le chargement de son contenu.

Parameter Attachment

and

Out- Cette option est un mlange des modes Parameter et Out-Attachment. -Le contexte est expos en tant que paramtre, Il sera galement lu aprs excution du Job, -Le fichier sera supprim dans tous les cas,
Guide utilisateur de Talend Open Studio for Big Data 141

Export de Jobs

Export Mode

Description -Lavantage de ce mode dexport est la dfinition dynamique du fichier de sortie.

7. 8.

Cliquez sur OK afin de valider votre choix et fermer la bote de dialogue [Context Export]. Dans la bote de dialogue [Export Jobs], cliquez sur Finish. La bote de dialogue se ferme. Un indicateur de progression saffiche, afin de montrer le pourcentage davancement de lexport. Le Job est export dans larchive slectionne.

Le Job Talend est maintenant expos en tant que service dans lESB Petals et peut tre excut dans le bus.

4.2.2.6. Exporter un Job en tant que bundle OSGI pour ESB


Dans la bote de dialogue [Export Jobs], vous pouvez changer le type d'export pour exporter le Job slectionn en tant que bundle OSGI, afin de dployer votre Job dans votre conteneur Talend ESB Container.

1.

Dans la zone Export type, slectionnez OSGI Bundle For ESB afin d'exporter votre Job en tant que bundle OSGI. L'extension de votre export change automatiquement en .jar puisque c'est l'extension attendue par Talend ESB Container.

2.

Cliquez sur le bouton Browse... pour spcifier le dossier dans lequel exporter votre Job.

142

Guide utilisateur de Talend Open Studio for Big Data

Export dlments

3.

Cliquez sur Finish afin de l'exporter.

4.2.3. Export dlments


Vous pouvez exporter plusieurs lments du Repository dans un rpertoire ou dans un fichier archive. Pour ce faire : 1. 2. Dans le Repository, slectionnez les lments que vous souhaitez exporter Pour une slection multiple, maintenez la touche Ctrl enfonce puis slectionnez les lments souhaits.

3.

Maintenez la touche Ctrl enfonce et cliquez-droit sur llment exporter, puis slectionnez Export items dans le menu contextuel :

Guide utilisateur de Talend Open Studio for Big Data

143

Changer les paramtres de contexte dans des Jobs

Au besoin, vous pouvez slectionner des lments supplmentaires exporter. 4. Slectionnez le rpertoire dans lequel vous souhaitez enregistrer les lments exports en cliquant sur Browse.... Sinon, dfinissez le fichier archive dans lequel les fichiers des lments slectionns seront compresss.
Cochez la case Export Dependencies si vous souhaitez dfinir et exporter les dpendances des routines avec les Jobs que vous exportez. Par dfaut, toutes les routines utilisateur sont slectionnes. Pour plus dinformations, consultez section Dfinition des routines

5.

Cliquez sur Finish pour fermer la bote de dialogue et exporter les lments.

4.2.4. Changer les paramtres de contexte dans des Jobs


Comme expliqu dans les sections section Export de Jobs, vous pouvez diter les paramtres de contexte : Si vous souhaitez changer le contexte slectionn, il vous suffit dditer les fichiers .bat ou.sh et de modifier le paramtre suivant : --context=Prod, pour le contexte correspondant. Si vous souhaitez changer des paramtres particuliers dun contexte, ditez le fichier .bat ou .sh et ajouter le paramtre dont vous avez besoin parmi ceux du tableau suivant :
Pour... Changer la valeur1 pour le paramtre key1 Paramtre
--context_param key1=valeur1

144

Guide utilisateur de Talend Open Studio for Big Data

Gestion des lments du Repository

Pour...

Paramtre

Changer valeur1 et valeur2 des paramtres --context_param key1=valeur1 --context_param key2=valeur2 respectifs key1 et key2 Changer une valeur contenant des caractres --context_param key1=chemin daccs despace comme dans les chemins daccs

4.3. Gestion des lments du Repository


Talend Open Studio for Big Data vous permet dditer les lments centraliss dans le Repository et de mettre jour les Jobs qui utilisent ces lments.

4.3.1. Grer les mises jour des lments du Repository


Vous pouvez mettre jour les paramtres des contextes centraliss chaque fois dans la vue Repository, afin dactualiser ou par exemple les dtails du groupe de contexte. Lorsque vous modifiez lun des paramtres dune entre de la vue Repository, tous les Jobs utilisant cette entre seront impacts par cette modification. Cest pourquoi le systme vous proposera de propager ces modifications tous les Jobs utilisant lentre du Repository. Les sections ci-dessous expliquent comment modifier les paramtres dentre du Repository et comment propager les modifications pour tous les Jobs ou une partie dentre eux utilisant lentre en question.

4.3.1.1. Modifier un lment du Repository


Pour actualiser les paramtres dun lment du Repository,par exemple un contexte, procdez comme suit : 1. Dveloppez le nud , Contexts dans la vue Repository et parcourez jusqu lentre correspondante que vous voulez actualiser. Cliquez-droit sur lentre et slectionnez dans le menu contextuel loption edit correspondante. Lassistant respectif apparat, vos permettant dditer chaque tape de la dfinition des paramtres dentre. Pour mettre jour les paramtres dentre, vous devez propager les modifications de plusieurs Jobs ou de tous les Jobs utilisant cette entre. Une bote de dialogue apparat automatiquement la fin de votre mise jour ou de vos modifications, quand vous cliquez sur le bouton Finish dans lassistant.

2.

Guide utilisateur de Talend Open Studio for Big Data

145

Grer les mises jour des lments du Repository

3.

Cliquez sur Yes (Oui) pour fermer la bote de dialogue et excuter les modifications apportes tous les Jobs concerns. Pour plus dinformations concernant la premire mthode de propagation des modifications, consultez la section Mettre jour manuellement les Jobs impacts. Cliquez sur No (Non) si vous voulez fermer la bote de dialogue sans propager les changements. Cela vous permettra de propager manuellement, une par une, les modifications apportes aux Jobs concerns. Pour plus dinformations concernant la deuxime mthode de propagation des modifications, consultez la section Mettre jour manuellement les Jobs impacts.

4.3.1.2. Mettre jour automatiquement les Jobs impacts


Aprs avoir mis jour les paramtres de chaque lment centralis dans la vue Repository et utiliss dans diffrents Jobs, une bote de dialogue souvre et vous demande si vous souhaitez propager les modifications tous les Jobs utilisant ces paramtres. Pour mettre jour les Jobs impacts, procdez comme suit : 1. Cliquez sur Yes (Oui), si vous voulez que le systme cherche dans votre Repository les Jobs impacts par les modifications que vous venez de faire. Ceci a pour but de propager automatiquement la mise jour dans tous les Jobs (ouverts ou non), en un seul clic. La bote de dialogue [Update Detection] souvre et affiche tous les Jobs impacts par les changements.

Vous pouvez ouvrir la bote de dialogue [Update Detection] tout moment, si vous cliquez-droit sur llment centralis dans le Repository et que vous slectionnez Manage Dependencies dans le menu contextuel. Pour plus dinformations, consultez la section Mettre jour manuellement les Jobs impacts.

2.

Dcochez la case correspondant aux Jobs que vous ne souhaitez pas mettre jour. Vous pouvez les mettre jour manuellement ultrieurement. Pour plus dinformations, consultez la section Mettre jour manuellement les Jobs impacts. Cliquez sur OK pour fermer la bote de dialogue et mettre jour les Jobs slectionns.

3.

146

Guide utilisateur de Talend Open Studio for Big Data

Recherche dun Job dans le rfrentiel

4.3.1.3. Mettre jour manuellement les Jobs impacts


Avant de propager les modifications des Mtadonnes ou Contextes du Repository dans tous vos Jobs, vous souhaitez peut-tre voir les impacts que cela peut entraner. Pour ce faire, effectuez les oprations suivantes : 1. Dans la vue Repository, dveloppez le nud contenant lentre dans laquelle vous souhaitez vrifier les Jobs lutilisant. Puis cliquez-droit sur cette mtadonne ou ce contexte et slectionnez loption Detect Dependencies dans le menu contextuel. Une barre de progression indique le processus de vrification de tous les Jobs utilisant les paramtres de contexte modifis. Une bote de dialogue souvre et affiche tous les Jobs utilisant cet lment mis jour.

2.

3.

Cochez les cases des Jobs mettre jour avec ou les paramtres de contexte modifis et dcochez les cases des Jobs que vous ne souhaitez pas mettre jour. Cliquez sur OK pour valider et fermer la bote de dialogue.
Les Jobs que vous naurez pas mis jour passeront automatiquement en Built-in, puisque le lien vers le Repository ne pourra pas tre maintenu. Cependant, les paramtres resteront les mmes que ceux dfinis avant les modifications.

4.

4.4. Recherche dun Job dans le rfrentiel


Si vous souhaitez ouvrir un Job prcis dans Talend Open Studio for Big Data et que vous narrivez pas le retrouver dans la vue Repository, cliquez simplement sur le bouton Pour chercher un Job dans la vue Repository : 1. Dans la barre doutils de Talend Open Studio for Big Data, cliquez sur le bouton pour ouvrir la bote de dialogue [Find a Job] listant automatiquement tous les Jobs crs dans le Studio courant. de la barre doutils.

Guide utilisateur de Talend Open Studio for Big Data

147

Recherche dun Job dans le rfrentiel

2.

Saisissez le nom ou une partie du nom du Job dans le champ en haut de la fentre. Lorsque vous commencez saisir le nom dans le champ, la liste des Jobs est automatiquement mise jour afin de nafficher que le ou les Job(s) dont le nom correspond aux lettres saisies.

3.

Slectionnez le Job souhait dans la liste et cliquez sur Link Repository pour afficher automatiquement le Job slectionn dans larborescence de la vue Repository. Si ncessaire, cliquez sur Cancel pour fermer la bote de dialogue et cliquez-droit sur le Job slectionn dans le Repository pour effectuer lune des oprations disponibles dans le menu contextuel.

4.

148

Guide utilisateur de Talend Open Studio for Big Data

Recherche dun Job dans le rfrentiel

Sinon, cliquez sur OK pour fermer la bote de dialogue et ouvrir le Job slectionn dans lespace de modlisation.

Guide utilisateur de Talend Open Studio for Big Data

149

Guide utilisateur de Talend Open Studio for Big Data

Chapitre 5. Mapping de flux de donnes


Le moyen le plus courant de grer des flux multiples en entre et en sortie, ainsi que les transformations et redirection des donnes est dutiliser les composants de mapping tMap et tXMLMap. Ce chapitre fournit sparment les informations concernant les principes dusage de ces composants. Pour plus dinformations, ou pour des cas dutilisation, consultez le Guide de Rfrence des Composants de Talend Open Studio for Big Data. Avant de commencer un processus dintgration de donnes, vous devez vous tre familiaris avec linterface graphique de Talend Open Studio for Big Data. Pour plus dinformations, consultez l'annexe Interface de Talend Open Studio for Big Data .

Guide utilisateur de Talend Open Studio for Big Data

Interface du tMap et du tXMLMap

5.1. Interface du tMap et du tXMLMap


Le tMap et le tXMLMap sont des composants avancs qui requirent plus dinformations de proprits que les autres composants. En effet, le [Map Editor] est un outil complet vous permettant de dfinir tous les paramtres ncessaires au mapping, la transformation et laiguillage des donnes dans votre processus, grce son interface graphique conviviale. Vous pouvez rduire et restaurer les fentres de toutes les tables et la fentre [Map Editor] contenus dans lditeur de mapping, laide des boutons ddis situs dans le coin suprieur gauche de chacune des fentres.

La capture dcran prsente linterface du tMap. Celle du tXMLMap a une apparence lgrement diffrente. Par exemple, en plus des onglets Schema editor et Expression editor dans la partie infrieure de linterface, le tXMLMap contient un troisime onglet nomm Tree schema editor. Pour plus dinformations concernant le composant tXMLMap, consultez la section Prsentation du fonctionnement du tXMLMap.

Le Map Editor est compos de plusieurs zones : La zone Input sur le ct gauche de lditeur. Les tableaux Input offrent une reprsentation structure (schmas) de tous les flux entrants (main et lookup). Les donnes sont regroupes dans plusieurs colonnes des schmas Input. Notez que le nom de la table reflte le nom du lien Main ou Lookup dans lespace de modlisation graphique du Job. La zone Variables est au centre de lditeur. Ce tableau de variables permet de centraliser des informations redondantes et de raliser les transformations.

152

Guide utilisateur de Talend Open Studio for Big Data

Prsentation du fonctionnement du tMap

La zone Output est situe droite de la fentre. Les tableaux Output permettent daiguiller les donnes et les champs provenant des schmas Input et des variables vers les schmas de sortie Output. Les deux panneaux situs en bas de la fentre sont les descriptions des schmas dentre et de sortie. Longlet Schema editor dtaille les schmas Input et Output slectionns. Longlet Expression editor est loutil de rdaction des cls dexpression des schmas Input/Output, des variables ou des conditions de filtre. Le nom des schmas Input/Output dans le Map Editor reflte le nom des connexions entrantes et sortantes (connexion de type Row). Les sections suivantes prsentent sparment le tMap et le tXMLMap.

5.2. Prsentation du fonctionnement du tMap


Le tMap permet de raliser les oprations suivantes : multiplexage et dmultiplexage des donnes transformation des donnes sur tout type de champs ; concatnation et inversion de champs ; filtrage de champs laide de contraintes ; gestion des rejets de donnes. Etant donn que toutes ces oprations de transformation et/ou routage sont ralises par le tMap, ce composant ne peut tre ni un composant de dbut ni un composant de fin de process dans un Job Design.

Le tMap utilise les connexions entrantes pour pr-remplir les schmas dentre dans le [Map Editor]. Par consquent, vous ne pouvez pas crer directement dans le [Map Editor], de nouveaux schmas dentre. Par contre, il vous faut mettre en place autant de connexions de type Row entrantes que ncessaire, pour que leur schma saffiche dans le [Map Editor]. De la mme faon, crez autant de connexions de sortie que ncessaire dans lespace de modlisation. Cependant, vous pouvez dfinir le type de donnes en sortie directement dans le [Map Editor] via un outil graphique de mapping.

Guide utilisateur de Talend Open Studio for Big Data

153

Configuration du flux dentre dans le Map Editor

Il ne peut y avoir quune seule connexion de type Main row. Toute connexion entrante supplmentaire devient automatiquement une connexion Lookup. Voir : section Connexion de type Row. Les connexions Lookup sont des connexions entrantes secondaires (ou de rfrence). Ces donnes de rfrence peuvent dpendre directement ou indirectement du flux principal. Cette relation de dpendance se traduit graphiquement par une jointure (Join) et la cration de cls dexpression. Bien que le tMap requiert que les connexions soient mises en place pour dfinir les flux dentre et de sortie (respectivement Input et Output), vous devez galement implmenter un mapping pour que la fonction daperu de lditeur de mapping soit disponible dans la vue Component de lespace de modlisation.

Double-cliquez sur licne tMap dans lespace de modlisation ou cliquez sur le bouton [...] ct du champ Map Editor de longlet Basic settings , dans la vue Component du composant tMap. Lditeur de mapping souvre dans une nouvelle fentre. Les sections suivantes vous donnent les informations ncessaires lutilisation du composant tMap dans vos Job Designs.

5.2.1. Configuration du flux dentre dans le Map Editor


Lordre des tables Input (ou schmas) est essentiel. La premire table reflte la connexion de flux principal (Main row), et pour cette raison, est traite en priorit dans le composant tMap. Par consquent, vous ne pouvez pas dplacer ce schma vers un niveau infrieur, sans risquer de perdre les ventuelles relations de dpendance (Join) que vous avez cres.

154

Guide utilisateur de Talend Open Studio for Big Data

Configuration du flux dentre dans le Map Editor

Vous pouvez utiliser les flches haut et bas pour intervertir les tables secondaires (provenant de connexions Lookup), mais vrifiez quelles ne sont pas lies par un lien Join. Si elles le sont, veillez ce que ce lien Join ne soit pas perdu. Voir galement : section Utiliser les jointures explicites.

Guide utilisateur de Talend Open Studio for Big Data

155

Configuration du flux dentre dans le Map Editor

5.2.1.1. Renseigner les tables Input laide dun schma


Pour renseigner les tables Input, dfinissez les schmas de tous les composants dentre connects au composant tMap de votre Job, partir du Map Editor. Pour plus dinformations sur la configuration dun schma dun composant, consultez la section Dfinir les proprits dun composant. Pour plus dinformations sur la configuration dun schma dentre dans le Map Editor, consultez la section Configuration des schmas dans le Map Editor .

Contenu des tables Main et Lookup


Lordre des tables Input (ou schmas) est essentiel. La connexion Main Row dtermine le contenu de la table Main. Ce flux entrant est reprsent dans la premire table de la zone Input du [Map Editor]. Le contenu des connexions secondaires (Lookup) est reprsent dans les autres tables apparaissant en dessous de la table Main. Si vous navez pas encore dfini de schma pour un composant dentre, la table correspondante du [Map Editor] apparatra comme vide. La cl (Key) est galement reprise du schma dfini dans les proprits du composant Input. Cette Cl correspond la cl dfinie dans le schma dentre, le cas chant. La cl de hachage (interne au [Map Editor]) se diffrencie de la cl primaire en apparaissant dans une couleur diffrente.

Variables
Vous pouvez utiliser ou rutiliser les variables globales ou de contexte dfinies dans la zone Variables. Appuyez sur Ctrl+Espace pour accder la liste complte des variables, regroupant les variables globales, de contexte et de mapping. La liste des variables varie selon le contexte et saccrot au fur et mesure des nouvelles crations. Seules les variables pour le mapping en cours sont affiches dans la liste dauto-compltion.

Une fentre de mtadonnes est attache la liste de semi-compltion des variables. Elle fournit des informations concernant la colonne slectionne. Voir galement : section Mapping de variables

156

Guide utilisateur de Talend Open Studio for Big Data

Configuration du flux dentre dans le Map Editor

5.2.1.2. Utiliser les jointures explicites


En effet, un lien Joins vous permet de slectionner des donnes dune table input via une autre table input. Dans le contexte dun mapping, les donnes Main et Lookup peuvent tre lies laide des cls dexpression (expression keys). Cest pourquoi lordre des tables a de limportance. Dposez les noms des colonnes dune table vers sa table subordonne, afin de crer une jointure Join entre les deux tables. Ainsi, vous pouvez appeler des donnes partir dentres multiples. Les jointures apparaissent sous forme de liens violets et cre automatiquement une cl qui aura la mme fonction quune cl de hachage, cest--dire dacclrer le processus de recherche. Vous pouvez crer des Joins directs entre la table principale et les tables secondaires. Mais vous pouvez galement crer des Joins indirects partir dune table principale vers une table secondaire, elle-mme relie une autre table secondaire. Pour cela, il faut que vous ayez cr une jointure entre ses tables.
Vous ne pouvez pas crer un Join partir dune table subordonne vers une table de niveau suprieur de la zone Input.

Le champ Expression key peut tre renseign par glisser-dposer des donnes en Join. Ce champ est modifiable dans la table de la zone Input ou partir de la vue Schema editor. Par contre, le nom des colonnes est modifiable uniquement partir du Schema editor, correspondant la table Input slectionne. Lors de votre glisser-dposer, vous avez la possibilit soit dinsrer les donnes slectionnes dans une nouvelle entre, soit de remplacer une entre existante ou encore de concatner une slection multiple dans une seule cellule.

Guide utilisateur de Talend Open Studio for Big Data

157

Configuration du flux dentre dans le Map Editor

Pour plus dinformations concernant les types de glisser-dposer possibles, consultez la section Paramtres Output .
Si vous avez beaucoup de tables input, vous pouvez les rduire ou les restaurer laide de licne correspondante dans la zone Input. La jointure liant les deux tables reste visible mme lorsque la table est rduite.

La cration dun Join assigne automatiquement une cl de hachage au niveau du nom de champ de la table relie. Le symbole dune cl violette apparat sur la table Input et disparat quand la jointure est supprime. Voir galement : section Utiliser le Schema editor . section Utiliser la fonction Inner Join. Avec une jointure explicite, vous pouvez choisir de mettre un filtre pour limiter le nombre de correspondances. Vous pouvez soit prendre en compte une seule correspondance (la dernire), soit la premire, soit toutes les correspondances. Pour dfinir le modle de mise en correspondance de la jointure explicite : 1. Cliquez sur le bouton tMap settings en haut de la table laquelle la jointure est relie afin dafficher les proprits de la table.

158

Guide utilisateur de Talend Open Studio for Big Data

Configuration du flux dentre dans le Map Editor

2. 3.

Cliquez dans le champ Value correspondant Match Model puis cliquez sur le bouton [...] qui apparat afin douvrir la bote de dialogue [Options]. Dans la bote de dialogue [Options], double-cliquez sur le modle souhait ou slectionnez-le et cliquez sur OK pour valider les paramtres et fermer la bote de dialogue.

Unique Match
Elle correspond loption par dfaut lorsque vous effectuez une jointure explicite. Cela signifie que seulement la dernire correspondance du flux secondaire sera prise en compte et passera dans la table de sortie. Les autres correspondances seront donc ignores.

First Match
Cette option signifie que plusieurs correspondances peuvent tre attendues dans le flux secondaire. Loption First signifie que seulement la premire correspondance du flux secondaire sera prise en compte et passera dans le flux principal de sortie. Les autres correspondances seront donc ignores.

All Matches
Cette option signifie que plusieurs correspondances sont attendues dans le flux secondaire. Ainsi, toutes les correspondances sont prises en compte et passent dans le flux principal de sortie.

5.2.1.3. Utiliser la fonction Inner Join


La jointure interne Inner join est un type particulier de jointure qui se distingue par la faon dont les rejets sont traits.

Guide utilisateur de Talend Open Studio for Big Data

159

Configuration du flux dentre dans le Map Editor

Cette fonction empche les valeurs nulles de passer dans le flux principal de sortie. Elle permet aussi de faire passer les donnes rejetes dans une table dfinie comme table de rejet Inner Join Reject. Si les donnes cherches ne peuvent tre rcupres avec la jointure explicite ou un filtre de jointure (Inner join), en dautres termes la jointure interne ne peut tre tablie quelle quen soit la raison, dans ce cas, les donnes demandes sont rejetes vers une table de sortie appele Inner Join Reject. Dposez simplement le nom des colonnes dune table vers une table subordonne, afin de crer une relation de jointure entre les deux tables. La jointure saffiche graphiquement comme un lien violet, et cre automatiquement une cl qui sera utilise comme une cl de hachage pour augmenter la vitesse de correspondance. Pour dfinir le type de jointure explicite : 1. Cliquez sur le bouton tMap settings situ en haut de la table de rfrence vers laquelle pointe la jointure pour afficher les proprits du tableau. Cliquez dans le champ Value correspondant loption Join Model pour faire apparatre le bouton [...] et cliquez dessus pour ouvrir la bote de dialogue [Options]. Dans la bote de dialogue [Options], double-cliquez sur le type de jointure souhait, ou slectionnez-le et cliquez sur OK pour activer loption et fermer la bote de dialogue.

2.

3.

Une table Inner Join devrait toujours tre associe une table de rejet Inner Join Reject. Pour savoir comment dfinir une table de sortie comme table Inner Join Reject, consultez section Utiliser les Rejets Inner Join.

Vous pouvez utiliser le bouton de filtre pour diminuer le nombre de lignes traiter et ainsi amliorer les performances. Voir galement : section Utiliser les Rejets Inner Join.

160

Guide utilisateur de Talend Open Studio for Big Data

Mapping de variables

section Filtrer un flux dentre.

5.2.1.4. Utiliser la fonction All Rows


Par dfaut, dans chaque table dentre de la zone dentre de lditeur du tMap, le modle de correspondance All rows est slectionn. Cette option All rows signifie que toutes les lignes sont charges partir du flux Lookup, et compares au flux Main. La sortie correspond au produit cartsien des deux tables (ou plus, selon vos besoins).
Si vous crez une jointure explicite ou une jointure Inner Join entre deux tables, loption All rows nest plus disponible. Vous devez choisir entre les modles Unique match, First match et All matches. Pour plus dinformations, consultez la section Utiliser les jointures explicites et la section Utiliser la fonction Inner Join.

5.2.1.5. Filtrer un flux dentre


Cliquez sur le bouton Filter ct du bouton Inner join pour ajouter une zone de Filtre.

Dans la zone de Filtre, saisissez les conditions que vous souhaitez appliquer, ce qui vous permet de rduire le nombre de lignes traiter en fonction du flux principal et ainsi amliorer les performances sur des flux importants et htrognes. Vous pouvez utiliser loutil dauto-compltion via le raccourci Ctrl+Espace pour reprendre les colonnes du schma dans la dclaration des variables.

5.2.1.6. Retirer des entres de la table Input


Pour enlever des entres de la table Input, cliquez sur la croix rouge, en bas, dans le Schema Editor de la table slectionne. Appuyez sur Ctrl ou Maj pour slectionner les champs/colonnes retirer de la table.
Vous pouvez enlever des entres Input dun schma dans le [Map Editor], cependant, cette suppression se rpercutera sur la dfinition du schma au niveau des proprits du composant dentre.

5.2.2. Mapping de variables


La table Var regroupe toutes les variables de mapping qui peuvent tre utilises diffrents endroits du [Map Editor].

Guide utilisateur de Talend Open Studio for Big Data

161

Mapping de variables

Vous pouvez galement utiliser le champ Expression de la table Var pour raliser des transformations en langage Java. Les variables vous permettent de gagner du temps et vous vitent davoir ressaisir plusieurs fois les mmes donnes.

Il existe plusieurs possibilits pour crer des variables : Saisissez librement vos variables en Java. Saisissez les chanes de caractres entre guillemets simples ou concatnez plusieurs fonctions laide de loprateur appropri. Ajoutez de nouvelles lignes la table laide du bouton [+] et retirez des lignes laide du bouton [x]. Puis appuyez sur Ctrl+Espace pour rcuprer les variables globales et de contexte dj existantes. Dposez une ou plusieurs entres Input dans la table Var.

Slectionnez une entre dans la zone Input ou appuyez sur la touche Maj pour effectuer une slection multiple. Appuyez sur la touche Ctrl pour slectionner des entres disperses dans une table ou pour slectionner des entres de diverses tables. Lorsque vous slectionnez plusieurs entres, la premire slection peut prendre une couleur grise. Maintenez la touche Ctrl enfonce pour glisser-dposer toutes les entres en une fois. Une bulle daide contextuelle vous indique le nombre dentres slectionnes. Puis dposez la slection vers la table Var. Plusieurs types de glisser-dposer sont possibles, notamment :
Comment faire pour... Actions associes

Insrer toutes les entres slectionnes comme Faites simplement un glisser-dposer vers la table Var. Des flches latrales variables spares. vous indiquent o la nouvelle entre Var peut tre insre. Chacune des Input est insre dans une cellule spare. Concatner toutes les entres slectionnes avec une Dposez vers lentre Var concatner, elle se met alors en surbrillance. entre Var existante. Toutes les entres sont concatnes dans une seule cellule. Ajoutez les oprateurs requis laide des signes oprateurs Java appropris. Le point permet la concatnation. Ecraser une entre Var par les entres Input Dposez vers lentre Var approprie qui se met alors en surbrillance. slectionnes, et les concatner. Puis appuyez sur Ctrl et relchez. Toutes les entres slectionnes sont concatnes et crasent la variable slectionne. Concatner les entres Input slectionnes, avec Dposez vers des Var existantes puis appuyez sur Maj. Les premires entres plusieurs entres Var mises en surbrillance. Crer de sont concatnes avec les entres Var en surbrillance, et si ncessaire, de nouvelles lignes en cas de besoin. nouvelles lignes sont cres pour contenir les entres restantes.

5.2.2.1. Accder aux variables globales ou de contexte


Appuyez sur Ctrl+Espace pour accder la liste de semi-compltion des variables globales et de contexte. Une fentre de mtadonnes est annexe la liste de semi-compltion des variables. Elle fournit des informations concernant la colonne slectionne.

162

Guide utilisateur de Talend Open Studio for Big Data

Utilisation de lExpression editor

5.2.2.2. Supprimer des variables


Pour retirer une entre Var slectionne, cliquez sur la croix rouge. La ligne entire est supprime ainsi que tous les liens avec des tables Input ou Output. Utilisez les touches Ctrl ou Maj pour effectuer une slection multiple, puis cliquez sur la croix rouge pour supprimer lensemble des lignes slectionnes.

5.2.3. Utilisation de lExpression editor


Toutes les dclarations dexpressions (Input, Var ou Output) et de filtres peuvent tre visualises et modifies partir de lditeur dexpression. Cet diteur fournit le confort dune fentre ddie pour crire des fonctions ou des commandes de transformation.

5.2.3.1. Accder lExpression editor


Vous pouvez crire les expressions dont vous avez besoin pour la transformation de donnes directement dans la vue Expression editor situe dans la partie infrieure de lExpression editor, ou vous pouvez ouvrir la bote de dialogue [Expression Builder] dans laquelle vous pouvez crire les expressions pour la transformation de donnes. Pour ouvrir la vue Expression editor, procdez comme suit : 1. 2. Double-cliquez sur le composant tMap dans votre Job pour ouvrir le Map Editor. Dans la partie infrieure de lditeur, cliquez sur longlet Expression editor afin douvrir la vue correspondante.
Pour diter une expression, slectionnez-la dans le panneau Input puis cliquez sur longlet Expression editor et modifiez lexpression comme ncessaire.

3.

Saisissez le code Java selon vos besoins. Lexpression correspondante dans le panneau output est synchronise.
Rfrez-vous la documentation Java adquate pour plus dinformations concernant les fonctions et les oprations.

Pour ouvrir la bote de dialogue [Expression Builder], dans les panneaux Var ou Output dans le Map Editor, cliquez sur le bouton [...] ct de lexpression que vous souhaitez ouvrir.

Guide utilisateur de Talend Open Studio for Big Data

163

Utilisation de lExpression editor

La bote de dialogue [Expression Builder] souvre sur lexpression slectionne.

Pour un exemple dutilisation de lExpression editor, consultez la section suivante.

5.2.3.2. Crer du code laide de lExpression Builder


Pour certains Jobs, il est ncessaire de rdiger du code afin de paramtrer les composants. Dans la vue Component de certains composants, une fentre Expression Builder peut vous aider la construction de ce code (en Java). Lexemple suivant vous montre lutilisation de lExpression Builder pour le composant tMap.

164

Guide utilisateur de Talend Open Studio for Big Data

Utilisation de lExpression editor

Deux flux dentre sont connects au tMap. Un premier flux DB input, contenant une liste de personnes dont le nom et le prnom sont spars par un espace. Un autre flux File input, contenant la liste des tats des Etats-Unis, en minuscule. Dans le [Map Editor], utilisez lExpression builder pour : 1) Remplacer lespace entre le nom et le prnom par un tiret soulign ; 2) Mettre en majuscules le nom des tats. 1. 2. 3. Dans le [Map Editor], crez la jointure Inner Join correspondante pour crer le mapping de rfrence. Dposez la colonne Name du flux dentre principal Main (row1) de la zone Input dans la zone Output, et la colonne State du flux dentre secondaire Lookup (row2) vers la mme zone Output. Puis cliquez sur le premier champ Expression (row1.Name) pour afficher le bouton [...].

La fentre [Expression Builder] souvre.

4. 5.

Dans la liste Category, slectionnez laction que vous souhaitez effectuer. Pour cet exemple, choisissez StringHandling, puis slectionnez la fonction EREPLACE dans la liste Functions. Dans row1.Name la place du texte, pour obtenir : ","_"). Cette expression remplacera lespace par un tiret soulign dans la chane de caractres fournie.
StringHandling.EREPLACE(row1.Name,"

la

zone

Expression,

collez

6. 7.

Vrifiez votre code en renseignant le champ Value correspondant dans la zone Test, par exemple saisissez Chuck Norris puis cliquez sur Test! et vrifiez que les changements ont bien t effectus, ici : Chuck_Norris Cliquez sur OK pour valider et rptez la mme opration pour la deuxime colonne (State).

Guide utilisateur de Talend Open Studio for Big Data

165

Utilisation de lExpression editor

8.

Dans le tMap de sortie, slectionnez lexpression row2.State et cliquez sur le bouton [...] pour ouvrir de nouveau lExpression builder.

Cette fois, la fonction StringHandling utiliser est UPCASE. Lexpression complte est : StringHandling.UPCASE(row2.State). 9. Vrifiez que la syntaxe de votre code est correcte, en saisissant par exemple indiana dans le champ Value de la zone Test. Cliquez sur Test! et le rsultat affich est INDIANA. Cliquez sur OK pour valider. Les deux expressions sont maintenant affiches dans le champ tMap Expression.

Ces changements seront reports tout au long du processus et le flux de sortie est affich ci-dessous. La sortie de cet exemple saffiche comme suit :

166

Guide utilisateur de Talend Open Studio for Big Data

Paramtres Output

5.2.4. Paramtres Output


Dans lespace de modlisation de Talend Open Studio for Big Data, la cration dune connexion Row partir du composant tMap vers des composants en sortie, a pour effet dajouter les schmas Output correspondants dans la zone Output du [Map Editor]. Vous pouvez galement ajouter un schma Output dans votre [Map Editor], laide du signe [+] de la barre doutils de la zone Output. Vous pouvez aussi effectuer une jointure entre vos tables de sortie. La jointure sur les tables de sortie permet de traiter les flux sparment, mais de les unifier en sortie. Pour plus dinformations concernant cette fonction, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.
La table de jointure rcupre le schma de la table source.

Lorsque vous cliquez sur le bouton [+], afin dajouter un schma Output ou deffectuer une jointure entre vos tables de sortie, une bote de dialogue souvre, vous proposant deux possibilits.

Slectionnez... New output Create join table from

Pour... Ajouter une table de sortie. Effectuer une jointure entre vos tables de sortie. Dans la liste droulante, slectionnez la table partir de laquelle effectuer la jointure, puis dans le champ Named, saisissez le nom de la table crer.

A la diffrence de la zone Input, lordre des tables de schmas Output na pas une grande importance, car il nexiste aucune relation de subordination (Join) entre les sorties. Une fois que vous avez cr toutes les connexions de sortie, et de ce fait, tous les schmas Output, vous pouvez slectionner et organiser les donnes de ces sorties. Dposez une ou plusieurs entres partir de la zone Input directement vers la table Output approprie. Appuyez sur Ctrl ou Maj pour une slection multiple. Ou vous pouvez utiliser des expressions de la zone Var par glisser-dposer dans la table Output avec les donnes rutilisables appropries. Notez que si vous apportez des modifications la colonne Input du Schema Editor, une bote de dialogue vous demande de confirmer la propagation des modifications sur toutes les entres Input/Variable/Output concernes.
Action Glisser-dposer vers des expressions existantes Glisser-dposer vers une ligne dinsertion Glisser-dposer + Ctrl Glisser-dposer + Maj Glisser-dposer + Ctrl + Maj Rsultat Concatne lexpression slectionne, vers des expressions existantes. Insre une ou plusieurs nouvelle(s) entre(s) en dbut ou en fin de table ou entre deux lignes existantes. Remplace les expressions en surbrillance par les expressions slectionnes. Ajoute les champs slectionns toutes les expressions en surbrillance. Insre de nouvelles lignes si ncessaire. Remplace toutes les expressions en surbrillance par les champs slectionns. Insre de nouvelles lignes si ncessaire.

Guide utilisateur de Talend Open Studio for Big Data

167

Paramtres Output

Vous pouvez ajouter des filtres et un rejet pour personnaliser vos sorties.

5.2.4.1. Construire des expressions complexes


Si vous devez construire des expressions complexes ou faire des changements majeurs sur le flux de sortie, utilisez la fentre Expression Builder. Cliquez sur le champ Expression de votre table Input ou Output pour afficher le bouton [...]. Puis cliquez sur ce bouton pour ouvrir lExpression Builder. Pour plus dinformations concernant lExpression Builder, consultez la section Crer du code laide de lExpression Builder

5.2.4.2. Utiliser les filtres


Les conditions de filtre vous permettent de slectionner les champs et de les envoyer vers les sorties appropries. Cliquez sur le bouton [+] pour ajouter une ligne de filtre.

Vous pouvez saisir librement vos conditions de filtre laide doprateurs et de fonctions Java. Dposez des expressions dune zone Input ou dune zone Var vers lentre de Filtre de la table Output approprie.

Un lien graphique de couleur orange apparat. Ajoutez loprateur Java ncessaire pour finaliser votre formule de filtre. Vous pouvez crer plusieurs filtres sur diffrentes lignes. Loprateur AND est la conjonction logique de tous les filtres formuls.

5.2.4.3. Utiliser la fonction Rejet


Loption Reject dfinit la nature dune table Output particulire. Cette table de rejet rassemble toutes les donnes qui ne satisfont pas un ou plusieurs des filtres dfinis dans les tables Output standard. Notez que par table standard sont dsignes toutes les tables qui ne sont pas des tables de rejet. Ainsi les donnes rejetes des tables de sortie rgulires sont regroupes dans une ou plusieurs tables ddies, vous permettant par consquent didentifier les erreurs ou les cas imprvus.

168

Guide utilisateur de Talend Open Studio for Big Data

Paramtres Output

Le principe de rejet (Reject) concatne tous les filtres des tables non-rejet et les dfinit comme formulation ELSE. Pour dfinir une table de sortie comme la partie ELSE des tables rgulires : 1. 2. Cliquez sur le bouton tMap settings en haut de la table de sortie pour afficher le tableau des proprits. Cliquez sur le champ Value correspondant loption Catch output reject et cliquez sur le bouton [...] qui apparat pour ouvrir la bote de dialogue [Options]. Dans la bote de dialogue [Options], double-cliquez sur true, ou slectionnez-le et cliquez sur OK pour activer loption et fermer la bote de dialogue.

3.

Vous pouvez dfinir plusieurs tables Reject afin daffiner les sorties multiples. Pour diffrencier les variantes de rejets, ajoutez des tables Reject, des lignes de filtre en cliquant sur la flche au bouton [+]. Une fois quune table est dfinie comme table de rejet, le processus de vrification des donnes commencera par les tables rgulires avant de prendre en considration les filtres possibles des tables de rejet. Les donnes ne sont pas exclusivement traites vers une seule sortie. Mme si une donne satisfait le filtre de sortie et quelle est donc route vers elle, elle est galement vrifie contre les autres filtres et peut tre galement route vers dautres sorties.

5.2.4.4. Utiliser les Rejets Inner Join


LInner Join est un Join Lookup. La table de rejet Inner Join est un type particulier de table de rejet de sortie. Elle regroupe les donnes rejetes de la table du flux principal lorsquun Inner Join na pu tre tabli. Pour configurer un flux de sortie (Output) afin quil transmette les donnes de rejet dun Inner Join, dposez un nouveau composant Output dans votre Job Design et connectez-le au tMap. Dans le [Map Editor], suivez les tapes suivantes : 1. 2. Cliquez sur le bouton tMap settings en haut de la table de sortie pour afficher le tableau des proprits. Cliquez sur le champ Value correspondant loption Catch lookup inner join reject et cliquez sur le bouton [...] qui apparat pour ouvrir la bote de dialogue [Options]. Dans la bote de dialogue [Options], double-cliquez sur true, ou slectionnez-le et cliquez sur OK pour activer loption et fermer la bote de dialogue.

3.

Guide utilisateur de Talend Open Studio for Big Data

169

Paramtres Output

5.2.4.5. Retirer des entres de la table Output


Pour retirer des entres dune table Output, cliquez sur la croix rouge, en bas, dans le Schema Editor de la table slectionne.

5.2.4.6. Gestion des erreurs


Loption Die on error empche le traitement des erreurs. Pour ce faire, elle arrte lexcution du Job aussitt quune erreur est rencontre. Le composant tMap fournit cette option afin dempcher le traitement des donnes errones. Loption Die on error est active par dfaut dans le tMap. Dsactiver loption Die on error vous permettra dignorer les lignes en erreur et de terminer le processus pour les lignes sans erreur. Cela vous permettra galement de retrouver les lignes en erreur et de les grer, si ncessaire. Pour dsactiver loption Die on error : 1. 2. Double-cliquez sur le composant tMap dans lespace de modlisation pour ouvrir le Map Editor. Cliquez sur le bouton Property Settings en haut de la zone input pour ouvrir la bote de dialogue [Property Settings]. Dans la bote de dialogue [Property Settings], dcochez la case Die on error et cliquez sur OK.

3.

170

Guide utilisateur de Talend Open Studio for Big Data

Paramtres Output

Une nouvelle table appele ErrorReject saffiche dans lditeur du tMap, dans la zone de sortie. Cette table de sortie comprend automatiquement deux colonnes : errorMessage et errorStackTrace, qui retrouvent le message et la trace de la pile de lerreur rencontre durant lexcution du Job. Les erreurs peuvent tre des erreurs de format de dates, des null pointer exceptions, des problmes de conversion, etc. Vous pouvez galement glisser-dposer des colonnes (ici id et date) des tables dentre vers cette table de sortie de rejets. Ces donnes en erreur peuvent tre retrouves avec le message derreur correspondant et tre corriges ensuite.

Une fois la table ErrorReject dfinie, les flux correspondants peuvent tre envoys vers un composant de sortie.

Guide utilisateur de Talend Open Studio for Big Data

171

Configuration des schmas dans le Map Editor

Pour ce faire, dans lespace de modlisation graphique, cliquez-droit sur le composant tMap, slectionnez Row > ErrorReject dans le menu, et cliquez sur le composant de sortie correspondant, ici, le tLogRow. Lorsque vous excutez le Job, les erreurs sont retournes via le flux ErrorReject.

Le rsultat contient le message derreur, la trace de sa pile, et les deux colonnes id et date, glisses et dposes dans la table ErrorReject, spares par une barre verticale |.

5.2.5. Configuration des schmas dans le Map Editor


Dans le Map Editor, vous pouvez dfinir le type de schma dune table comme Built-In afin de pouvoir modifier la structure des donnes dans le panneau Schema editor.

5.2.5.1. Utiliser le Schema editor


Le Schema Editor fournit les informations concernant les champs dune table slectionne. Lorsque le type du schma est dfini comme Built-in, vous pouvez modifier ce schma partir du Schema Editor.

172

Guide utilisateur de Talend Open Studio for Big Data

Rsolution des problmes de mmoire lors de lutilisation du tMap

Utilisez la barre doutils place sous la table de schma pour ajouter, dplacer et supprimer des colonnes du schma. Vous pouvez galement charger un schma partir du rfrentiel ou exporter le schma courant vers un fichier.
Mtadonnes Column Key Type Description Nom de colonne tel que dfini dans le schma du [Map Editor] et dans le schma du composant Input ou Output correspondant. La cl indique si la valeur de la cl dexpression devrait tre utilise pour retrouver les donnes dune autre table travers un lien Join. Si cette case est dcoche, la relation Join est dsactive. Type de donnes : Chane de caractres (String) ou entier (Integer). Cette colonne est obligatoire dans la version Java. Length Precision Nullable Default Comment -1 indique quaucune valeur de longueur na t dfinie dans le schma. Prcise le nombre de chiffres, droite de la virgule. Dcochez cette case si vous ne souhaitez pas autoriser les valeurs de champs nulles. Indique les valeurs par dfaut, si elles sont dfinies. Champ texte libre. Saisissez tout commentaire que vous jugerez utile.

Les schmas Input et Output sont indpendants les uns des autres. Vous pouvez par exemple changer le libell dune colonne Output sans que le libell du schma Input ne change.

Cependant, toute modification apporte au schma est immdiatement reporte sur le schma correspondant de la zone Input ou Output approprie, mais galement au niveau des proprits elles-mmes du composant Input ou Output concern. Un arrire-plan rouge saffiche lorsquun caractre non valide a t saisi. La plupart des caractres spciaux sont interdits pour rduire les risques de mauvaise interprtation dans le code. Les caractres autoriss sont : les minuscules et les majuscules, les chiffres ( lexception du caractre de dbut de chane).

5.2.6. Rsolution des problmes de mmoire lors de lutilisation du tMap


Lorsque vous devez traiter un nombre important de donnes, par exemple, de nombreuses colonnes, diffrents types de colonnes ou lignes, votre systme peut rencontrer des problmes de mmoire insuffisante empchant votre Job de sexcuter correctement, et plus particulirement lorsque vous utilisez un composant tMap pour effectuer des transformations. Une option (uniquement disponible en Java pour le moment) a t ajoute au composant tMap, pour utiliser moins de mmoire lors du traitement des donnes de rfrence (lookup). En effet, au lieu de stocker les donnes de

Guide utilisateur de Talend Open Studio for Big Data

173

Rsolution des problmes de mmoire lors de lutilisation du tMap

rfrence dans la mmoire systme et ainsi en atteindre les limites, loption Store temp data vous permet de stocker les donnes de rfrence dans un dossier temporaire sur votre disque dur. Cette option peut tre slectionne sur la table Lookup de la zone Input ( gauche) de lditeur du tMap, le [Map Editor]. Pour activer loption Store temp data, suivez les tapes suivantes : 1. 2. Double-cliquez sur le composant tMap de votre Job pour lancer le [Map Editor]. Dans le panneau de gauche, correspondant aux sources Input et Lookup, cliquez sur la table Lookup affichant les donnes de Lookup que vous souhaitez charger sur le disque pour ne pas encombrer la mmoire. Cliquez sur le bouton tMap settings pour afficher le tableau des proprits. Cliquez sur le champ Value correspondant loption Store temp data, et cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Options]. Dans la bote de dialogue [Options], double-cliquez sur true, ou slectionnez-le et cliquez sur OK pour activer loption et fermer la bote de dialogue.

3. 4.

5.

Pour que cette option soit totalement active, vous devez dfinir le rpertoire de votre disque dans lequel les donnes seront stockes, et la taille du buffer, savoir le nombre de lignes de donnes stockes dans chaque fichier temporaire. Vous pouvez spcifier le rpertoire de stockage temporaire des donnes et la taille du buffer la fois partir du Map Editor et de la vue Component du tMap. Pour paramtrer le rpertoire de stockage temporaire et la taille du buffer partir du Map Editor : 1. Cliquez sur le bouton Property Settings en haut de la zone Input pour ouvrir la bote de dialogue [Property Settings]. Dans la bote de dialogue [Property Settings], renseignez le chemin daccs complet vers le dossier dans lequel les donnes temporaire seront stockes dans le champ Temp data directory path. Dans le champ Max buffer size (nb of rows), spcifiez le nombre maximum de lignes contenues dans chaque fichier temporaire. La valeur par dfaut est de 2 000 000 lignes. Cliquez sur OK pour valider les paramtres et fermer la bote de dialogue [Property Settings].

2.

3.

4.

174

Guide utilisateur de Talend Open Studio for Big Data

Rsolution des problmes de mmoire lors de lutilisation du tMap

Pour paramtrer le rpertoire de stockage temporaire du composant tMap sans avoir ouvrir le Map Editor : 1. Cliquez sur le composant tMap dans lespace de modlisation pour le slectionner, puis slectionnez la vue Component pour afficher longlet Basic settings. Dans la zone Store on disk, renseignez le chemin daccs complet vers le dossier dans lequel les donnes temporaires seront stockes dans le champ Temp data directory path. Vous pouvez aussi utiliser une variable de contexte laide du raccourci Ctrl+Espace si vous avez configur une variable dans un groupe de contexte dans le Repository. Pour plus dinformations sur les contextes, consultez la section Centraliser les Contextes et les Variables

2.

A la fin de votre sous-job, les fichiers temporaires seront nettoys. Ainsi, vous limitez lutilisation de mmoire ddie pour le traitement des donnes de rfrence (lookup) sur votre disque.
Etant donn que lcriture du flux principal sur le disque ncessite le stockage de donnes, lordre des lignes en sortie peut ne pas tre respect.

Guide utilisateur de Talend Open Studio for Big Data

175

Gestion des rfrences

Dans la vue Advanced settings, vous pouvez aussi ajouter un buffer, au besoin. Pour cela, renseignez le champ Max. buffer size (Nb of rows) afin de sparer les donnes stockes sur le disque en autant de fichiers que ncessaire.

5.2.7. Gestion des rfrences


Le composant tMap offre diffrents types de chargements possibles des donnes de rfrence pour vous adapter aux diffrents types de traitements, ainsi que pour grer les problmes de performance lorsque vous devez traiter de gros volumes de donnes dans vos bases de donnes de rfrence. Load once : Paramtre par dfaut. Slectionnez cette option pour charger la totalit du flux de rfrence avant de traiter le flux principal. Slectionnez cette option si un nombre important de donnes de votre flux principal est sollicit par votre flux de rfrence (lookup), ou si vos donnes de rfrence proviennent dun fichier qui peut tre charg facilement. Reload at each row : Le flux de rfrence est charg chaque ligne. Slectionnez cette option lorsque vous utilisez une base de donnes de rfrence de gros volume, et que le flux principal est trs petit. Notez que cette option vous permet dutiliser des paramtres dynamiques de variable (de votre composant base de donnes), notamment la commande WHERE, pour modifier la vole le flux de rfrence au moment o il est charg, et avant que le flux principal ne soit trait. Cette option peut tre considre comme lquivalent de loption Store temp data, permettant de stocker les donnes de rfrence dans un dossier temporaire sur votre disque dur, disponible pour les fichiers de rfrence. Reload at each row (cache) : Les expressions (de la table de rfrence) sont dabord values et interroges dans le cache. Le rsultat des jointures ayant dj t cres, est stock dans le cache afin dviter de charger les mmes rsultats une deuxime fois. Cette option permet doptimiser le temps de traitement et damliorer les performances de traitement du composant tMap.
Notez que, pour le moment, vous ne pouvez pas utiliser les options Reload at each row (cache) et Store temp data en mme temps.

Pour configurer le mode de chargement du flux de rfrence : 1. Cliquez sur le bouton tMap settings en haut de la table de rfrence (lookup) pour afficher le tableau des proprits. Cliquez sur le champ Value correspondant loption Lookup Model, et cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Options]. Dans la bote de dialogue [Options], double-cliquez sur le mode de chargement souhait, ou slectionnez-le et cliquez sur OK pour activer loption et fermer la bote de dialogue.

2.

3.

176

Guide utilisateur de Talend Open Studio for Big Data

Prsentation du fonctionnement du tXMLMap

Pour un exemple dutilisation de ces options, consultez la section tMap du Guide de rfrence des Composants de Talend Open Studio for Big Data.
Lorsque vous utilisez une table en flux de rfrence, nous vous conseillons douvrir une connexion la base de donnes au dbut de votre Job, afin doptimiser les performances. Pour un exemple de scnario utilisant cette option, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

5.3. Prsentation du fonctionnement du tXMLMap


Avant de lire les sections suivantes, il est recommand de lire les sections prcdentes concernant le tMap afin d'avoir les connaissances des base du composant Talend de mapping.

Le tXMLMap est conu pour utiliser le type de donnes Document afin de traiter des donnes XML, en cas de transformation mlangeant souvent des donnes hirarchiques (XML) et des donnes plates. Il vous permet dajouter autant de flux dentre et de sortie que ncessaire dans un diteur graphique de mapping dans lequel vous pouvez effectuez des oprations, comme : multiplexage et dmultiplexage des donnes, transformation des donnes sur tout type de champs, particulirement sur le type Document, mise en correspondance de donnes via diffrents modes, par exemple le mode Unique match (consultez la section Utiliser les jointures explicites), construction automatise darbre XML des cts dentre et de sortie, jointures Inner Join et Left Outer Join (consultez la section Utiliser la fonction Inner Join), flux lookup entre tous types de sources de donnes, XML ou plates l'aide de modles comme Load once (consultez la section Gestion des rfrences), concatnation et inversion de champs, filtrage de champs laide de contraintes, gestion des rejets de donnes.

Guide utilisateur de Talend Open Studio for Big Data

177

Utiliser le type Document pour crer l'arborescence XML

Comme pour le tMap, un diteur de mapping est requis pour configurer ces oprations. Pour ouvrir cet diteur, vous pouvez double-cliquer sur l'icne du tXMLMap dans l'espace de modlisation graphique ou bien cliquer sur le bouton [...] ct du Map Editor dans la vue Basic settings du composant tXMLMap. Les composants tXMLMap et tMap ont un fonctionnement quasiment identique. Ainsi, les sections qui suivent ne couvriront que le fonctionnement spcifique au tXMLMap, savoir le traitement des donnes hirarchiques. Les oprations relatives aux donnes hirarchiques sont : lutilisation du type Document. Pour plus dinformations, consultez la section Utiliser le type Document pour crer l'arborescence XML. la gestion des donnes XML de sortie. Pour plus d'informations, consultez la section Dfinir le mode de sortie. ldition de schmas darborescence XML. Pour plus dinformations, consultez la section Utiliser le Tree schema editor. Les sections suivantes reprennent plus en dtails les diverses fonctionnalits du tXMLMap.
A la diffrence du tMap, le tXMLMap ne possde pas l'option Store temp data pour stocker les donnes temporaires dans un rpertoire de votre disque. Pour plus d'informations concernant cette option du tMap, consultez la section Rsolution des problmes de mmoire lors de lutilisation du tMap.

5.3.1. Utiliser le type Document pour crer l'arborescence XML


Le type de donnes Document correspond parfaitement au concept de donnes structures de type XML. Lorsque vous devez utiliser la structure XML pour mapper le flux d'entre ou de sortie, ou les deux, utilisez ce type. Vous pouvez importer des arborescences XML de plusieurs sources XML et de les diter directement dans son diteur de mapping, afin de vous viter de les diter manuellement un un.

5.3.1.1. Configurer le type Document


Le type de donnes Document est un des types de donnes fournis par Talend. Le type Document se slectionne lorsque vous dfinissez le schma correspondant vos donnes dans le panneau Schema editor. Pour plus dinformations sur le Schema editor, consultez la section Utiliser le Schema editor . La capture d'cran ci-dessous montre un exemple de flux d'entre, Customer, de type Document. Afin de le reproduire dans le Map editor, cliquez sur le bouton [+] pour ajouter une ligne du ct de l'entre du schma, renommez-la et slectionnez Document dans la liste des types.

178

Guide utilisateur de Talend Open Studio for Big Data

Utiliser le type Document pour crer l'arborescence XML

Dans la plupart des cas, le tXMLMap rcupre le schma du composant prcdent ou suivant, par exemple, d'un tFileInputXML ou d'un scnario ESB, d'un tESBProviderRequest. Cela permet d'viter les efforts manuels lors de la dfinition du type Document dans le flux XML traiter. Cependant, pour continuer modifier la structure XML ainsi que le contenu d'une ligne de type Document, vous devez utiliser le Map editor.
Un flux Document comporte une arborescence XML personnalise et reprsente un seul champ du schma, pouvant contenir plusieurs champs de types diffrents. Pour plus d'informations concernant la configuration d'un schma, consultez section Onglet Basic settings.

Une fois une ligne de donnes dfinie comme type Document dans la table du flux de donnes correspondante, une arborescence XML de base est cre automatiquement pour reflter les dtails de la structure. L'arborescence reprsente le nombre d'lments minimum requis pour une arborescence XML valide, dans le tXMLMap : L'lment root (racine) : il est l'lment requis par une arborescence XML traiter et, si ncessaire, il est la base d'une arborescence XML plus sophistique. L'lment loop (de boucle) : il dtermine l'lment sur lequel s'effectue l'itration, afin de lire les donnes hirarchiques dans une arborescence XML. Par dfaut, l'lment racine est dfini comme l'lment de boucle.

Cette capture d'cran vous montre un exemple du flux dentre XML, Customer. A partir de la racine XML cre, vous pouvez dvelopper l'arborescence XML qui vous intresse. Pour ce faire, vous devez : 1. importer l'arborescence XML personnalise partir de sources de type : fichiers XML ou XSD (consultez la section Importer une structure XML partir de fichiers XML et XSD).
Lorsque vous importez un fichier XSD, vous crez la structure XML que dcrit le fichier XSD.

Si ncessaire, vous pouvez dvelopper manuellement l'arborescence XML qui vous intresse, l'aide des options fournies dans le menu contextuel.

2.

Dfinir l'lment de boucle pour l'arborescence XML que vous crez. Si vous avez cr plusieurs arborescences XML, vous devez dfinir un lment de boucle pour chacune d'entre elles. Si ncessaire, vous pouvez continuer modifier l'arborescence XML l'aide des options fournies dans le menu contextuel. Le tableau suivant prsente les oprations que vous pouvez effectuer via ces options.
Options Create Sub-element et Create Attribute Oprations Ajoute des lments ou des attributs l'arborescence XML importe. Consultez galement la section Ajouter un sous-lment ou un attribut une structure XML. Ajoute et gre des espaces de nommage donns dans la structure XML importe. Consultez galement la section Grer un espace de nommage. Supprime un lment ou un attribut. Consultez galement la section Supprimer un lment ou un attribut depuis la structure XML. Renomme un lment ou un attribut.

Set a namespace Delete Rename

Guide utilisateur de Talend Open Studio for Big Data

179

Utiliser le type Document pour crer l'arborescence XML

Options As loop element As optional loop

Oprations Dfinit ou rinitialise un lment de boucle. Cette option est disponible uniquement sur l'lment de boucle que vous avez dfini. Lorsque l'lment correspondant existe dans le fichier source, l'lment de boucle facultatif fonctionne de la mme manire qu'un lment de boucle normal. Sinon, il dfinit automatiquement son lment pre comme lment de boucle. En l'absence d'lment pre dans le fichier source, il prend l'lment du plus haut niveau hirarchique, avant l'lment racine. Cependant, dans des cas d'utilisation relle, avec des diffrences entre l'arborescence XML et la structure du fichier source, il est recommand d'adapter l'arborescence XML au fichier source, pour amliorer les performances.

As group element As aggregate element Add Choice

Dans la structure XML de sortie, dfinit un lment comme group element. Consultez galement la section Grouper les donnes de sortie. Dans la structure XML de sortie, Dfinit un lment aggregate. Consultez galement la section Agrger les donnes de sortie. Configure l'lment Choice. Tous ses lments fils dvelopps seront contenus dans cette dclaration. Cet lment provient des concepts XSD. Il permet au tXMLMap d'excuter la fonction de l'lment Choice XSD afin de lire ou d'crire un flux Document. Lorsque le tXMLMap traite un lment Choice, les lments contenus dans sa dclaration ne sont pas crits en sortie, moins que leurs expressions de mapping soient dfinies de manire approprie. Le composant tXMLMap dclare automatiquement tout lment Choice dfini dans le fichier XSD import.

Set as Substitution

Configure l'lment Substitution afin de spcifier l'lment substituable pour un lment Head donn, dfini dans le XSD correspondant. L'lment de substitution permet au tXMLMap d'excuter la fonction de l'lment Substitution XSD afin de lire ou d'crire un flux Document. Lorsque le tXMLMap traite un lment de substitution, les lments contenus dans sa dclaration ne sont pas crits en sortie, moins que leurs expressions de mapping soient dfinies de manire approprie. Le composant tXMLMap dclare automatiquement tout lment Substitution dfini dans le fichier XSD import.

Les sections suivantes prsentent de manire dtaille les processus de cration d'arborescence XML.

5.3.1.2. Importer une structure XML partir de fichiers XML et XSD


Pour importer une structure XML partir dun fichier XML, suivez la procdure suivante : 1. Dans la table dentre correspondante, cliquez-droit sur le nom de la colonne pour ouvrir le menu contextuel. Dans cet exemple, cliquez-droit sur la colonne Customer.

2.

Dans le menu contextuel, slectionnez loption Import From File.

180

Guide utilisateur de Talend Open Studio for Big Data

Utiliser le type Document pour crer l'arborescence XML

3.

Dans la bote de dialogue, parcourez votre systme jusqu'au fichier XML que vous souhaitez utiliser pour fournir la structure XML, puis double-cliquez sur le fichier.

Pour importer la structure XML d'un fichier XSD, procdez comme suit : 1. Dans la table dentre correspondante, cliquez-droit sur le nom de la colonne pour ouvrir le menu contextuel. Dans cet exemple, cliquez-droit sur la colonne Customer.

2. 3. 4.

Dans ce menu, slect Import From File. Dans la bote de dialogue, parcourez votre systme jusqu'au fichier XSD que vous souhaitez utiliser pour fournir la structure XML, puis double-cliquez sur le fichier. Dans la bote de dialogue qui apparat, slectionnez un lment racine dans la liste Root pour tre la racine de votre arborescence XML puis cliquez sur OK. L'arborescence XML dcrite par le fichier XSD importe est tablie.

La racine de l'arborescence XML est adaptable : Lorsque vous importez une structure XML d'entre ou de sortie partir d'un fichier XSD, vous pouvez choisir l'lment racine de votre arborescence XML. Une fois qu'une structure XML a t importe, la balise root est automatiquement renomme avec le nom de la source XML. Pour modifier le nom de la racine manuellement, vous devez utiliser l'diteur de schma. Pour plus d'informations concernant cet diteur, consultez la section Utiliser le Tree schema editor.

Puis spcifiez llment de boucle de cette structure XML. Pour plus dinformations sur le paramtrage de llment de boucle, consultez la section Dfinir ou rinitialiser un lment de boucle pour une structure XML cre.

5.3.1.3. Dfinir ou rinitialiser un lment de boucle pour une structure XML cre
Vous devez dfinir un minimum un lment de boucle pour tous les flux de donnes XML nayant pas dlment boucle dj dfini. S'ils en ont dj un, vous devez rinitialiser l'lment de boucle lorsque c'est ncessaire. Pour dfinir ou rinitialiser un lment de boucle, procdez comme suit : 1. Dans la structure XML cre, cliquez-droit sur llment que vous souhaitez dfinir comme lment boucle. Par exemple, vous souhaitez dfinir le nud Customer comme lment boucle.

2.

Dans le menu contextuel, slectionnez As loop element afin de dfinir l'lment slectionn comme lment boucle.

Guide utilisateur de Talend Open Studio for Big Data

181

Utiliser le type Document pour crer l'arborescence XML

Une fois ceci effectu, l'lment slectionn se voit ajouter le texte suivant : loop : true.

Si vous fermez le Map Editor sans avoir dfini les lments de boucle ncessaires, comme expliqu plus tt dans ce scnario, l'lment racine est automatiquement dfini comme lment de boucle.

5.3.1.4. Ajouter un sous-lment ou un attribut une structure XML


Dans la structure XML, vous pouvez ajouter manuellement un sous-lment ou un attribut la racine ou l'un des lments. Pour effectuer une de ces oprations, procdez comme suit : 1. Dans la structure que vous souhaitez modifier, cliquez-droit sur llment sur lequel vous souhaitez ajouter un sous-lment ou un attribut et slectionnez Create Sub-Element ou Create Attribute en fonction de ce que vous souhaitez ajouter.

2.

Dans lassistant [Create New Element], saisissez le nom du sous-lment ou de lattribut ajouter.

182

Guide utilisateur de Talend Open Studio for Big Data

Utiliser le type Document pour crer l'arborescence XML

3.

Cliquez OK pour valider la cration du nouvel lment. Ce nouveau sous-lment ou attribut apparat alors dans la structure XML.

5.3.1.5. Supprimer un lment ou un attribut depuis la structure XML


Pour supprimer un lment ou un attribut d'une structure XML existante, procdez comme suit : 1. Dans larborescence XML que vous souhaitez modifier, cliquez-droit sur llment ou lattribut que vous souhaitez supprimer.

2.

Dans le menu contextuel, slectionnez Delete.

Llment ou lattribut slectionn est supprim, ainsi que tous les sous-lments ou attributs quil contenait.

5.3.1.6. Grer un espace de nommage


Vous pouvez dfinir et modifier un espace de nommage pour chacun des lments des arborescences XML de ces flux d'entre ou de sortie.

Dfinir un espace de nommage


Pour dfinir un espace de nommage : 1. Dans la structure XML du flux d'entre ou de sortie que vous souhaitez modifier, cliquez-droit sur llment auquel vous souhaitez associer un espace de nommage. Par exemple, dans larborescence XML de Customer, vous devez crer un espace de nommage pour le nud racine.

Guide utilisateur de Talend Open Studio for Big Data

183

Utiliser le type Document pour crer l'arborescence XML

2. 3.

Dans le menu contextuel, slectionnez Set A Namespace et lassistant [Namespace dialog] souvre. Dans cet assistant, saisissez lURI utiliser.

4.

Si vous devez ajouter un prfixe cet espace de nommage, cochez la case Prefix dans lassistant et saisissez le prfixe utiliser. Dans cet exemple, cochez la case et saisissez xhtml.

5.

Cliquez sur OK pour valider lespace de nommage.

184

Guide utilisateur de Talend Open Studio for Big Data

Utiliser le type Document pour crer l'arborescence XML

Modifier la valeur par dfaut dun espace de nommage


Pour modifier la valeur par dfaut dun espace de nommage, procdez comme suit : 1. Dans larborescence XML contenant lespace de nommage modifier, cliquez-droit sur lespace de nommage pour ouvrir le menu contextuel.

2. 3. 4.

Dans le menu, slectionnez Set A Fixed Prefix pour ouvrir lassistant correspondant. Saisissez la nouvelle valeur dans cet assistant. Cliquez sur OK pour valider cette modification.

Supprimer un espace de nommage


Pour supprimer un espace de nommage, procdez comme suit : 1. Dans larborescence XML contenant lespace de nommage, cliquez-droit sur cet espace de nommage pour ouvrir le menu contextuel.

2.

Dans le menu, cliquez sur Delete pour valider cette suppression.

5.3.1.7. Grouper les donnes de sortie


Le composant tXMLMap utilise un "group element" pour regrouper les donnes de sortie selon certaines conditions donnes. Cela vous permet d'entourer de balises "group element" les lments rpondant la condition. Pour dfinir un group element, deux restrictions doivent tre respectes : 1. le nud racine ne peut tre dfini en tant que group element ; 2. le group element doit tre dfini sur llment dont le sous-lment de boucle dpend directement.
L'option de group element est visible partir du moment o vous avez dfini un lment de boucle. Cette option est galement invisible lorsqu'un lment n'est pas autoris tre un lment de groupe.

Une fois le group element dfini, tous ses sous-lments sauf la boucle sont utiliss comme conditions pour regrouper les donnes de sortie. Vous devez crer avec soin larborescence XML pour une utilisation optimale dun group element donn. Pour plus dinformations concernant lutilisation dun group element, consultez le tXMLMap dans le Guide de rfrence des Composants de Talend Open Studio for Big Data.
Le tXMLMap propose des lments "group" et "aggregate" afin de classer les donnes dans la structure XML. Lorsque vous grez une ligne de donnes XML, la diffrence de comportement est la suivante :

Guide utilisateur de Talend Open Studio for Big Data

185

Utiliser le type Document pour crer l'arborescence XML

L'lment "group" traite toujours les donnes en un seul flux. L'lment "aggregate" spare ce flux en diffrents flux XML complets.

Dfinir un group element


Pour dfinir un group element, procdez comme suit : 1. Dans larborescence XML de la sortie dans le Map editor, cliquez-droit sur llment que vous voulez dfinir comme as group element. Dans le menu contextuel qui souvre, slectionnez As group element.

2.

Cet lment de la slection devient le group element. La capture dcran vous montre un exemple de larborescence XML avec le group element.

Rvoquer un group element dfini


Pour rvoquer un group element dfini, procdez comme suit : 1. Dans larborescence XML de la sortie dans le Map editor, cliquez-droit sur llment que vous avez dfini comme group element. Dans le menu contextuel, slectionnez Remove group element.

2.

Le group element dfini est rvoqu.

5.3.1.8. Agrger les donnes de sortie


Avec le tXMLMap, vous pouvez dfinir autant d'lments "aggregate" que ncessaire dans l'arborescence XML de sortie afin de classer les donnes XML. Ce composant crit les donnes classes, chaque classification devenant un flux XML complet.

186

Guide utilisateur de Talend Open Studio for Big Data

Dfinir le mode de sortie

1.

Pour dfinir un lment en tant qu'lment "aggregate", cliquez-droit sur l'lment concern dans l'arborescence XML du ct droit du Map editor, puis, dans le menu contextuel, slectionnez As aggregate element. Cet lment devient l'lment "aggregate". Un texte lui est ajout : aggregate : true.

2.

Pour rvoquer la dfinition de l'lment "aggregate", cliquez-droit sur cet lment puis slectionnez Remove aggregate element, dans le menu contextuel.
Pour dfinir un lment "aggregate", assurez-vous que cet lment n'a pas d'enfant et que la fonctionnalit All in one est dsactive. L'option As aggregate element est disponible dans le menu contextuel si les deux conditions sont respectes. Pour plus d'informations concernant la fonctionnalit All in one, consultez la section Ecrire dans un document les lments en sortie.

Pour un exemple d'utilisation de l'lment "aggregate" avec le tXMLMap, consultez le Guide de rfrence desComposants de Talend Open Studio for Big Data.
Le composant tXMLMap propose les lments "group" et "aggregate" pour classer les donnes dans une structure XML. Lors de la gestion d'une ligne de donnes (flux XML complet), la diffrence de comportement est la suivante : L'lment "group" traite toujours les donnes dans un flux unique. L'lment "aggregate" spare ce flux en diffrents flux XML complets.

5.3.2. Dfinir le mode de sortie


Pour dfinir le mode de sortie des donnes de type Document, vous devez regrouper tous les lments XML en un seul flux XML, et, lorsqu'un lment vide existe, choisir o les crire. Ainsi, vous ne modifiez pas la structure de l'arborescence XML cre.

5.3.2.1. Ecrire dans un document les lments en sortie


Sauf si vous utilisez l'lment "aggregate" qui spare toujours un flux XML, vous devez tre capable de dterminer si un flux XML est crit en un seul flux ou dans des flux spars, l'aide de la fonctionnalit All in one de l'diteur du tXMLMap. Pour ce faire, dans la partie droite du Map editor, procdez comme suit : 1. Cliquez sur l'icne de cl anglaise afin d'ouvrir le panneau de paramtrage du mapping. La capture d'cran suivante vous montre un exemple.

Guide utilisateur de Talend Open Studio for Big Data

187

Dfinir le mode de sortie

2.

Cliquez sur le champ All in one et, dans la liste droulante, slectionnez true ou false afin de choisir si le flux XML doit tre crit en un flux unique. Si vous slectionnez true, les donnes XML sont crites en un seul flux. Dans cet exemple, le flux unique s'affiche comme suit :

La structure de ce flux est la suivante :

188

Guide utilisateur de Talend Open Studio for Big Data

Dfinir le mode de sortie

Si vous slectionnez false, les donnes XML sont crites dans des flux spars, chaque boucle reprsentant un flux. Dans cet exemple, les flux sont les suivants :

Guide utilisateur de Talend Open Studio for Big Data

189

Dfinir le mode de sortie

Chaque flux contient une structure XML complte. La structure du premier flux, par exemple est la suivante :

La fonctionnalit All in one est dsactive si vous utilisez l'lment "aggregate". Pour plus d'informations concernant l'lment "aggregate", consultez la section Agrger les donnes de sortie.

5.3.2.2. Grer les lments vides dans le Map editor


Il peut tre ncessaire de crer des lments de sortie vides durant le processus de transformation des donnes en un flux XML, par exemple quand le tXMLMap est associ un tWriteXMLField crant des lments vides ou lorsqu'il n'y a pas de colonne associe un certain nud XML dans le flux de donnes XML de sortie. Vous pouvez garder ces lments vides dans l'arborescence XML selon vos besoins, mme si vous ne souhaitez pas les crire en sortie. Le composant tXMLMap vous permet de dfinir le boolen pour la cration de l'lment vide. pour ce faire, dans la partie droite du Map editor, effectuez les oprations suivantes : 1. Cliquez sur la cl anglaise afin d'ouvrir le panneau de paramtrage du mapping.

190

Guide utilisateur de Talend Open Studio for Big Data

Dfinir le mode de sortie

2.

Dans le panneau, cliquez sur le champ Create empty element et, dans la liste droulante, slectionnez true ou false afin de choisir d'crire ou non l'lment vide. Si vous slectionnez true, l'lment vide est cr dans le flux XML de sortie et crit, par exemple, comme suit <customer><LabelState/></customer>. Si vous slectionnez false, l'lment vide n'est pas crit.

5.3.2.3. Dfinir la squence des diffrents boucles en entre


Si un lment de boucle, ou si le flux de donnes plat reoit des mappings d'un ou plusieurs lment(s) de boucle du flux d'entre, vous devez dfinir la squence des boucles en entre. Le premier lment de boucle de cette squence sera la boucle primaire. Le processus de transformation relatif cette squence effectuera d'abord une boucle sur cet lment, afin que les donnes crites en sortie soient tries selon la valeur de cet lment.

Par exemple, dans cette capture d'cran, l'lment types est la boucle primaire et les donnes crites en sortie seront tries selon la valeur de cet lment.

Guide utilisateur de Talend Open Studio for Big Data

191

Utiliser le Tree schema editor

Dans le cas d'une rception de plusieurs lments de boucle en entre, un bouton [...] apparat ct de l'lment recevant la boucle, ou dans le cas de donnes plates, apparat en haut de la table reprsentant le flux de donnes plat. Pour dfinir la squence des boucles, procdez comme suit : 1. Cliquez sur le bouton [...] pour ouvrir la fentre de configuration de squence comme dans la capture d'cran prsente prcdemment dans cette section. Utilisez les boutons de monte ou de descente afin de dfinir l'ordre de votre squence.

2.

5.3.3. Utiliser le Tree schema editor


En plus des vues Schema editor et Expression editor proposes par lditeur du tMap, lditeur du composant tXMLMap fournit la vue Tree schema editor permettant de modifier le schma de larborescence XML des flux dentre et de sortie. Pour accder au Tree schema editor, cliquez sur longlet correspondant en bas de lditeur.

192

Guide utilisateur de Talend Open Studio for Big Data

Utiliser le Tree schema editor

Le schma de larborescence XML du flux dentre apparat gauche de longlet Tree schema editor, et celui du flux de sortie apparat droite. Le tableau suivant fournit des informations concernant cet diteur de schma.
Mtadonne XPath Key Type Description Le chemin absolu pointant sur chaque lment ou attribut de larborescence XML et ditez le nom de l'lment ou attribut correspondant. La cl indique si la valeur de la cl dexpression devrait tre utilise pour retrouver les donnes dune autre table travers un lien Join. Si cette case est dcoche, la relation Join est dsactive. Type de donnes : String, Integer, Document, etc. Cette colonne est obligatoire. Nullable Pattern Indique si les valeurs de champs nulles sont autorises. Indique si un modle est utilis pour les donnes de type Date. Les schmas dentre et de sortie sont indpendants les uns des autres. Vous pouvez par exemple changer le libell dune colonne de sortie sans que le libell dentre ne change.

Cependant, toute modification apporte au schma est immdiatement reporte sur le schma correspondant dans la zone Input ou Output correspondante dans lditeur du tXMLMap, mais aussi au niveau des proprits ellesmmes des composants Input et Output concern. Pour des scnarios dtaills concernant les nombreuses oprations que vous pouvez effectuer laide du tXMLMap, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

Guide utilisateur de Talend Open Studio for Big Data

193

Guide utilisateur de Talend Open Studio for Big Data

Chapitre 6. Gestion des routines


Ce chapitre dfinit les routines, fournit des cas dutilisation et explique comment crer et grer vos propres routines ou personnaliser les routines systme. Pour avoir un aperu des routines principales ainsi que dautres exemples dutilisation, consultez l'annexe Routines systme. Avant de commencer un processus mtier, vous devez vous tre familiaris avec linterface graphique de Talend Open Studio for Big Data. Pour plus dinformations, consultez lannexe Interface de Talend Open Studio for Big Data .

Guide utilisateur de Talend Open Studio for Big Data

Dfinition des routines

6.1. Dfinition des routines


Les routines sont des fonctions Java plus ou moins complexes, gnralement utilises pour factoriser du code et ainsi tendre les possibilits de traitement des donnes dans un ou plusieurs Job(s) technique(s). Vous pouvez ainsi centraliser dans la vue Repository tous les morceaux de codes utiliss frquemment ou tirer parti des mthodes dj en place dans votre entreprise en les appelant via les routines. Cette factorisation facilite galement la rsolution des problmes ventuels et permet la mise jour la vole du code utilis dans des Jobs multiples. En outre, certaines routines systme reprennent les mthodes Java les plus courantes, dans une syntaxe Talend, qui vous permettent de faire remonter les erreurs Java directement dans le Studio, facilitant ainsi lidentification et la rsolution des problmes au cours du dveloppement de vos processus dintgration avec Talend. Les routines peuvent tre de deux types : les routines systme : un certain nombre de routines systme sont fournies par dfaut. Elles sont classes selon le type de donnes quelles traitent : numrique, chane de caractres, date... les routines utilisateur : ce sont les routines que vous crez ou adaptez partir de routines existantes.
Il nest pas ncessaire de connatre le langage Java pour crer et utiliser les routines Talend.

Toutes les routines sont conserves sous le nud Code > Routines de la vue Repository sur la gauche du Studio. Pour plus dinformations concernant les routines systme, consultez la section Accs aux routines systme. Pour plus dinformations concernant la cration des routines utilisateur, consultez la section Crer des routines personnalises.
Vous pouvez galement dfinir les dpendances des routines dans des Jobs. Pour ce faire, cliquez-droit sur un Job dans la vue Repository et slectionnez Set up routine dependencies. Dans la bote de dialogue qui souvre, toutes les routines sont dfinies par dfaut. Vous pouvez utiliser la barre doutils afin de supprimer les routines, si ncessaire.

6.2. Accs aux routines systme


Pour accder aux routines systme, cliquez sur Code > Routines > system. Les routines ou fonctions systme sont regroupes par classe selon leur usage.
Le dossier system, ainsi que son contenu est en lecture seule.

196

Guide utilisateur de Talend Open Studio for Big Data

Personnalisation des routines systme

Chaque classe rpertorie dans le dossier system contient plusieurs routines (fonctions). Double-cliquez sur la classe que vous souhaitez ouvrir. Toutes les routines, autrement dit toutes les fonctions prsentes dans une classe, se composent d'un commentaire explicatif suivi du code correspondant Java. 1. Appuyez sur Ctrl + O dans la routine ouverte. Une bote de dialogue affiche une liste des diffrentes routines de la catgorie. 2. Cliquez sur la routine souhaite. La vue bascule vers la section comprenant le texte descriptif de la routine et le code correspondant.
La syntaxe dappel des routines est sensible la casse.

Pour plus dinformations concernant une slection des routines les plus courantes (en Java), consultez l'annexe Routines systme.

6.3. Personnalisation des routines systme


Si les routines systme ne rpondent pas exactement vos besoins, vous pouvez les personnaliser en copiant leur contenu dans des routines utilisateur que vous crez. Pour personnaliser une routine systme : 1. Crez dabord une routine utilisateur en suivant les tapes dcrites dans la section Crer des routines personnalises.Cette routine souvre dans lespace de travail et contient lexemple de base de routine. Puis dans Code > Routines > system, slectionnez une classe de routines systme qui contient la ou les routine(s) que vous souhaitez personnaliser. Double-cliquez sur la classe contenant la routine pour louvrir dans lespace de travail. Retrouvez la routine/fonction dont vous souhaitez copier tout ou partie, laide du panneau Outline sur la gauche du studio.

2.

3. 4.

Guide utilisateur de Talend Open Studio for Big Data

197

Gestion des routines personnalises

5. 6. 7.

Dans lespace de travail, slectionnez tout ou partie du code, et copiez-le via Ctrl+C Cliquez sur longlet correspondant votre routine utilisateur et collez le code du presse-papier (Ctrl+V). Adaptez ensuite le code vos besoins, et appuyez sur Ctrl+S afin de lenregistrer.

Nous vous recommandons dutiliser la partie commentaire (en bleu) pour dtailler les paramtres dentre et de sortie de votre routine et ainsi en faciliter la maintenance et la rutilisation.

6.4. Gestion des routines personnalises


Talend Open Studio for Big Data vous offre la possibilit de crer des routines personnalises, de les modifier, ou de modifier des routines existantes, afin de rpondre vos besoins spcifiques.

6.4.1. Crer des routines personnalises


Vous pouvez crer vos propres routines pour rpondre vos besoins particuliers de factorisation. Comme les routines systme, ces routines utilisateur seront centralises dans la vue Repository (rfrentiel) sous Code > Routines. Vous pourrez ainsi les organiser par dossier selon vos besoins et les appeler facilement dans tous vos Jobs. Pour crer un nouvelle routine : 1. Dans la vue Repository, cliquez sur Code pour accder aux Routines,

198

Guide utilisateur de Talend Open Studio for Big Data

Crer des routines personnalises

2. 3.

Puis cliquez-droit sur Routines et slectionnez Create Routine. Lassistant [New routine] souvre. Saisissez les informations ncessaires la cration de la routine, telles que son nom, sa description... Cliquez sur Finish pour valider la cration et accder lditeur.

4.

La routine utilisateur nouvellement cre apparat directement sous le nud Routines dans la vue Repository. Lespace de travail souvre sur un modle de routine contenant par dfaut un exemple simple, compos dun commentaire en bleu, suivi du code correspondant.
Nous vous recommandons de documenter votre routine utilisateur laide dun commentaire dtaill. Ce commentaire inclut gnralement les paramtres dentre et de sortie attendus pour lutilisation de votre routine, ainsi que le rsultat retourn par la routine et un exemple dillustration. Ces informations sont gnralement utiles pour la maintenance des routines et le travail collaboratif.

Lexemple de code suivant est fourni par dfaut :

Guide utilisateur de Talend Open Studio for Big Data

199

diter des routines

public static void helloExample(String message) { if (message == null) { message = "World"; //$NON-NLS-1$ } System.out.println("Hello " + message + " !");

5.

Adaptez ou remplacez ce modle par votre propre code et sauvegardez-le laide de Ctrl+S, ou refermez le fichier pour lenregistrer automatiquement.
Vous pouvez galement copier tout ou partie dune classe ou routine systme vers une routine utilisateur laide des raccourcis du presse-papier : Ctrl+C et Ctrl+V afin de les adapter vos besoins. Pour plus dinformations concernant la personnalisation des routines, consultez la section Personnalisation des routines systme.

6.4.2. diter des routines


Vous pouvez tout moment modifier les routines que vous avez cres.
Rappel : Le dossier system, ainsi que toutes les routines systme, est en lecture seule.

Pour diter vos routines utilisateur : 1. 2. 3. Cliquez-droit sur la routine que vous souhaitez diter, puis slectionnez Edit Routine. La routine souvre dans lespace de travail, et vous pouvez la modifier. Une fois adapte vos besoins, appuyez sur Ctrl+S afin de lenregistrer.

Si vous souhaitez rutiliser une routine systme pour vos besoins spcifiques, consultez la section Personnalisation des routines systme.

6.4.3. diter les bibliothques des routines utilisateur


Vous pouvez diter la bibliothque de chaque routine utilisateur en important des fichiers .jar externes pour la routine slectionne. Ces fichiers externes seront affichs, comme les modules, dans la vue Modules de votre Studio. Pour plus dinformations concernant la vue Modules, consultez la section Installer des modules externes. Le fichier .jar de la bibliothque importe sera galement list dans le fichier bibliothque de votre Studio. Pour diter une bibliothque de routine utilisateur, procdez comme suit : 1. 2. Dans la vue Repository, dveloppez les nuds Code > Routines. Cliquez-droit sur la routine utilisateur dont vous souhaitez diter la bibliothque, puis slectionnez Edit Routine Library. La bote de dialogue [Import External Library] souvre.

200

Guide utilisateur de Talend Open Studio for Big Data

diter les bibliothques des routines utilisateur

3.

Cliquez sur New pour ouvrir une nouvelle bote de dialogue dans laquelle vous pourrez importer la bibliothque externe.
Vous pouvez supprimer tout fichier de routine dj import en slectionnant le fichier dans la liste Library File et en cliquant sur le bouton Remove.

4. 5. 6.

Saisissez le nom du fichier bibliothque dans le champ Input a librarys name suivi du format de fichier (.jar), ou Slectionnez loption Browse a library file et cliquez sur Browse pour dfinir le chemin daccs au fichier dans le champ correspondant. Au besoin, saisissez une description dans le champ Description puis cliquez sur OK afin de confirmer vos modifications. Le fichier bibliothque import est affich dans la liste Library File, dans la bote de dialogue [Import External Library].

7.

Cliquez sur Finish pour fermer la bote de dialogue.

Le fichier bibliothque est import dans le dossier bibliothque de votre Studio et saffiche dans la vue Module de votre Studio.

Guide utilisateur de Talend Open Studio for Big Data

201

Appel dune routine partir dun Job

Pour plus dinformations concernant la vue Modules, consultez la section Installer des modules externes.

6.5. Appel dune routine partir dun Job


Prrequis : Pour pouvoir excuter votre routine, vous devez avoir cr au minimum un Job. Pour plus dinformations sur la cration dun Job, consultez la section Crer un Job du Guide utilisateur de Talend Open Studio for Big Data. Vous avez la possibilit dappeler toutes les routines (utilisateur et systme) partir des composants de vos Jobs afin dexcuter automatiquement votre routine lors de lexcution du Job qui la contient. Les routines enregistres dans le dossier Routines du rfrentiel sont accessibles dans tous les champs de saisie (texte ou code) des composants Talend utiliss dans vos Jobs, via la liste dauto-compltion (Ctrl+Espace).

Pour faire appel lune de ces routines, il vous suffit dappeler le nom de la classe suivi du nom de la routine puis des paramtres attendus, tel que :
<ClassName>.<RoutineName>

6.6. Cas dutilisation : crer un fichier la date du jour


Le scnario suivant illustre lutilisation dune routine. Le Job se compose dun composant unique qui appelle une routine systme.

1.

Dans la Palette, cliquez sur le dossier File > Management, puis glissez un tFileTouch dans lditeur graphique. Ce composant permet de crer un fichier vide.

202

Guide utilisateur de Talend Open Studio for Big Data

Cas dutilisation : crer un fichier la date du jour

2. 3.

Double-cliquez sur le composant afin dafficher sa vue Basic settings dans longlet Component. Dans le champ FileName, saisissez le chemin daccs votre fichier, ou cliquez sur le bouton [...] afin de parcourir votre rpertoire.

4. 5. 6.

Fermez les guillemets avant lextension de votre fichier, tel que : "D:/Input/customer".txt. Ajoutez le signe plus (+) entre les guillemets fermants et lextension du fichier. Puis appuyez sur Ctrl+Espace pour ouvrir la liste exhaustive des routines. Dans la liste dauto-compltion qui saffiche, slectionnez TalendDate.getDate pour utiliser la routine de Talend qui permet dobtenir la date courante. Modifiez le format de date fourni par dfaut si besoin. Saisissez + aprs la variable getDate pour terminer lappel de routine, puis entourez de guillemets lextension du fichier.

7. 8.

Si vous tes sous Windows, les : entre les heures et les minutes, et entre les minutes et les secondes doivent tre retirs.

9.

Appuyez sur F6 afin dexcuter votre Job. Le composant tFileTouch a cr un fichier vide qui porte la date du jour, telle que rcupre lors de lexcution de la routine appele GetDate.

Guide utilisateur de Talend Open Studio for Big Data

203

Guide utilisateur de Talend Open Studio for Big Data

Chapitre 7. SQL Templates


Les modles SQL sont des groupes darguments de requtes prdfinis, excuts en mode ELT. Ce chapitre donne une dfinition du mode ELT, indique ce que sont les modles SQL et fournit lutilisateur des exemples de scnarios, afin dexpliquer comment utiliser les modles SQL existants, ou comment crer vos modles SQL personnaliss. Avant de commencer un processus mtier, vous devez vous tre familiaris avec linterface graphique de Talend Open Studio for Big Data. Pour plus dinformations, consultez l'annexe Interface de Talend Open Studio for Big Data .

Guide utilisateur de Talend Open Studio for Big Data

Quest-ce que lELT ?

7.1. Quest-ce que lELT ?


Extract, Load and Transform (ELT), ou, en franais, Extraire, Charger et Transformer, est un processus de manipulation de donnes li aux bases de donnes, et plus particulirement aux data warehouses. Ce mode est diffrent du mode ETL habituel (Extract, Transform, Load). En mode ELT, les donnes sont extraites, charges dans la base de donnes, puis transformes dans la base de donnes, lemplacement dfini, avant toute utilisation. Ces donnes sont migres en masse et le processus de transformation seffectue aprs le chargement des donnes dans le SGBD cible, en format brut. Cela permet de librer de la bande passante. Cependant, le mode ELT nest pas optimal dans toutes les situations. Par exemple : SQL est moins puissant que Java, le nombre de transformations de donnes est limit. les utilisateurs du mode ELT doivent avoir des comptences en personnalisation de SQL et de SGBD. Si vous utilisez le mode ELT avec Talend Open Studio for Big Data, vous ne pouvez ni passer ni rejeter une ligne de donnes, comme vous pouvez le faire avec lETL. Pour plus dinformations concernant le rejet de lignes, consultez la section Types de connexions. Les modles SQL sont conus pour faciliter lutilisation du mode ELT.

7.2. Dfinition des SQL Templates Talend


Le SQL est un langage standardis de requtes, utilis pour accder aux informations des bases de donnes et les grer. Le SQL peut tre utilis pour les requtes sur les donnes, les mises jour, la cration et la modification de schmas et le contrle daccs aux donnes. Talend Open Studio for Big Data fournit de nombreux modles SQL pour simplifier les tches les plus communes. Il comprend galement un diteur SQL vous permettant de personnaliser ou de crer vos propres modles SQL, afin de rpondre vos besoins. Ces modles SQL sont utiliss avec les composants de la famille Talend ELT, tels que le tSQLTemplate, le tSQLTemplateFilterColumns, le tSQLTemplateCommit, le tSQLTemplateFilterRows, le tSQLTemplateRollback, le tSQLTemplateAggregate et le tSQLTemplateMerge. Ces composants excutent les instructions SQL slectionnes. A laide des oprateurs UNION, EXCEPT et INTERSECT, vous pouvez modifier les donnes directement dans le SGBD sans utiliser le systme de mmoire. De plus, avec ces modles SQL, vous pouvez optimiser les performances de votre SGBD, en stockant et en rcuprant vos donnes selon vos besoins structurels. Talend Open Studio for Big Data fournit les types suivants de modles SQL, sous le nud SQL templates de la vue Repository : Modles SQL system : ils sont classs selon le type de base de donnes. Modles SQL personnaliss : ce sont les modles que vous avez crs ou adapts des modles existants. Des informations plus prcises concernant les modles SQL sont prsentes dans les sections suivantes. Pour plus dinformations concernant les composants de la famille ELT, consultez le Guide de Rfrence des composants de Talend Open Studio for Big Data.
Comme la plupart des modles SQL sont crs pour une base de donnes spcifique, si vous changez de base de donnes dans votre systme, vous devrez galement changer de modles, ou en dvelopper de nouveaux.

206

Guide utilisateur de Talend Open Studio for Big Data

Grer les SQL Templates Talend

7.3. Grer les SQL Templates Talend


Talend Open Studio for Big Data vous permet, via le dossier SQL Templates de la vue Repository, dutiliser des modles SQL systme ou personnaliss dans les Jobs que vous crez dans le Studio, laide des composants de la famille ELT. Les sections suivantes vous expliquent comment grer ces deux types de modles SQL.

7.3.1. Les types de SQL Templates systme


Cette section fournit des informations dtailles concernant les diffrents types de modles SQL prdfinis. Les instructions de chaque groupe de modles varient dune base de donnes lautre, selon les oprations effectuer. Elles sont galement groupes dans chaque dossier, selon leur type. Le tableau ci-dessous prsente ces types ainsi que les informations lies chacun.
Nom Aggregate Fonction Composants associs Paramtres requis dans le composant Nom de la base de donnes Nom de la table source Nom de la table cible Commit Envoie une instruction Commit au SGBDR. de tSQLTemplate tSQLTemplateAggregate tSQLTemplateCommit tSQLTemplateFilterColumns tSQLTemplateFilterRows tSQLTemplateMerge tSQLTemplateRollback Null

Ralise lagrgation (sum, tSQLTemplateAggregate average, count, etc.) dun ensemble de donnes.

Rollback

Envoie une instruction Rollback tSQLTemplate au SGBDR. tSQLTemplateAggregate tSQLTemplateCommit tSQLTemplateFilterColumns tSQLTemplateFilterRows tSQLTemplateMerge tSQLTemplateRollback Supprime une source table. tSQLTemplate tSQLTemplateAggregate tSQLTemplateFilterColumns tSQLTemplateFilterRows tSQLTemplateAggregate tSQLTemplateFilterColumns tSQLTemplateFilterRows

Null

DropSourceTable

Nom de la table (lors de lutilisation du tSQLTemplate) Nom de la table source

DropTargetTable

Supprime une table cible.

Nom de la table cible

FilterColumns

Slectionne et extrait un tSQLTemplateAggregate ensemble de donnes dans des tSQLTemplateFilterColumns colonnes donnes du SGBDR. tSQLTemplateFilterRows

Nom de la table cible (et schma) Nom de la table source (et schma)

FilterRow

Slectionne et extrait un tSQLTemplateFilterRows ensemble de donnes dans des lignes donnes du SGBDR.

Nom de la table cible (et schma) Nom de la table source (et schma) Conditions

MergeInsert

Insre des enregistrements dune tSQLTemplateMerge table source vers une table cible. tSQLTemplateCommit

Nom de la table cible (et schma)

Guide utilisateur de Talend Open Studio for Big Data

207

Accder aux SQL Templates systme

Nom de la table source (et schma) Conditions MergeUpdate Met jour la table cible avec tSQLTemplateMerge les enregistrements de la table tSQLTemplateCommit source. Nom de la table cible (et schma) Nom de la table source (et schma) Conditions

7.3.2. Accder aux SQL Templates systme


Pour accder un modle SQL systme, dveloppez le nud SQL Templates de la vue Repository.

Chaque dossier contient un sous-dossier system, dans lequel se trouvent des instructions SQL prdfinies, et un sous-dossier UserDefined dans lequel vous pouvez stocker les instructions SQL que vous avez cres ou personnalises. Chaque dossier systme contient diffrents types de modles SQL, chaque modle tant cr pour accomplir une tche ddie. A lexception du dossier Generic, les modles SQL sont groups dans diffrents dossiers, selon le type de base de donnes avec lequel les utiliser. Les modles du dossier Generic ne sont ddis aucune base de donnes, ils sont standards et conviennent toutes. A partir de ceux-ci, vous pouvez dvelopper des modles SQL plus spcifiques que ceux dfinis par Talend Open Studio for Big Data.
Les dossiers system et leur contenu sont en lecture seule.

Dans la vue Repository, procdez comme suit pour ouvrir un modle SQL : 1. Dans la vue Repository, dveloppez le nud SQL Templates et parcourez jusquau modle que vous souhaitez ouvrir. Double-cliquez sur la classe que vous voulez ouvrir, par exemple aggregate, dans le dossier Generic. La vue du modle aggregate saffiche dans lespace de travail.

2.

208

Guide utilisateur de Talend Open Studio for Big Data

Accder aux SQL Templates systme

Vous pouvez lire les instructions aggregate prdfinies dans la vue du modle, ainsi que les paramtres, tels que TABLE_NAME_TARGET, operation, qui sont dfinir lors de la cration de Jobs lis. La configuration peut ensuite facilement tre paramtre, via les composants associs, comme expliqu dans la section Dfinition des SQL Templates Talend. A chaque fois que vous cliquez sur un modle SQL ou que vous ouvrez un modle SQL, la vue des proprits correspondante ce modle saffiche en bas du Studio. Par exemple, vous cliquez le modle aggregate ou vous louvrez, ses proprits seront prsentes comme suit :

Pour plus dinformations concernant les types de modles SQL, consultez la section Les types de SQL Templates systme. Pour plus dinformations concernant lutilisation des modles SQL avec les composants associs, consultez la section Utiliser les SQL Templates.

Guide utilisateur de Talend Open Studio for Big Data

209

Crer des SQL Templates personnaliss

7.3.3. Crer des SQL Templates personnaliss


Comme la transformation que vous devez effectuer en mode ELT peut dpasser les possibilits des modles SQL, Talend Open Studio for Big Data vous permet de dvelopper vos propres modles SQL, condition de respecter quelques rgles dcriture. Ces modles SQL sont stocks dans les dossiers User-defined, regroups selon la base de donnes dans laquelle ils seront utiliss. Pour plus dinformations concernant les rgles dcriture des modles SQL, consultez lannexe Rgles dcriture des SQL Templates. Pour crer un modle SQL personnalis : 1. Dans la vue Repository, dveloppez le nud SQL Templates, puis la catgorie dans laquelle vous souhaitez crer le modle SQL.

2.

Cliquez-droit sur UserDefined et slectionnez Create SQL Template pour ouvrir lassistant [SQL Templates].

210

Guide utilisateur de Talend Open Studio for Big Data

Crer des SQL Templates personnaliss

3.

Saisissez les informations requises pour crer le modle, puis cliquez sur Finish pour fermer lassistant. Le nouveau modle apparat sous le nud UserDefined, dans la vue Repository. Un diteur de modles SQL souvre dans lespace de modlisation graphique. Vous pouvez saisir le code du nouveau modle.

Guide utilisateur de Talend Open Studio for Big Data

211

Guide utilisateur de Talend Open Studio for Big Data

Annexe A. Interface de Talend Open Studio for Big Data


Cette annexe dcrit linterface de Talend Open Studio for Big Data.

Guide utilisateur de Talend Open Studio for Big Data

Fentre principale

A.1. Fentre principale


La fentre principale de Talend Open Studio for Big Data est linterface partir de laquelle vous pouvez grer tous les types de processus dintgration de donnes. La fentre multi-panneaux de Talend Open Studio for Big Data est compose des vues suivantes : Menus Barres doutils Rfrentiel (Repository) Espace de modlisation (Design workspace) Diverses vues de configuration organises en onglets pour chaque lment du Job dintgration de donnes cr dans lespace de modlisation Aperu schma (Outline) et Aperu du code (Code Viewer) Les vues Outline view et Code Viewer. La capture dcran ci-dessous vous montre la fentre principale de Talend Open Studio for Big Data, ses panneaux et ses vues.

214

Guide utilisateur de Talend Open Studio for Big Data

Barre doutils et Menus

Les diffrentes vues et leurs fonctionnalits associes sont dcrites dans la suite de ce manuel.
Tous les panneaux, onglets et vues dcrites dans cette documentation son spcifiques Talend Open Studio for Big Data. Certaines vues listes dans la bote de dialogue [Show view] sont spcifiques Eclipse et ne concernent pas cette documentation. Pour plus d'informations sur ces vues, veuillez consulter la documentation Eclipse sur http:// www.eclipse.org/documentation/

A.2. Barre doutils et Menus


En haut de la fentre principale de Talend Open Studio for Big Data, les barres doutils et menus rassemblent les fonctionnalits communes Talend ainsi que certaines fonctionnalits Eclipse.

A.2.1. Barre de menu de Talend Open Studio for Big Data


Les menus de Talend Open Studio for Big Data permettent daccder : la plupart des fonctionnalits standard, notamment Enregistrer (Save), Imprimer (Print), Quitter (Exit), accessibles au niveau de lapplication. certaines fonctions natives dEclipse utiliser principalement au niveau du workspace, ainsi que certaines fonctions spcifiques Talend Open Studio for Big Data. Le tableau ci-dessous dcrit les menus et sous-menus disponible dans la barre de menu de Talend Open Studio for Big Data.
Menu File Sous-menu Close Close All Save Save as Save All Print Switch project Edit properties Description Ferme la vue courante ouverte dans lespace de modlisation du Studio. Ferme toutes les vues ouvertes dans lespace de modlisation du Studio. Enregistre toutes les modifications apportes dans la vue courante. Enregistre en tant que nouveau Job. Enregistre toutes les modifications apportes dans toutes les vues ouvertes. Option indisponible. Ferme le projet courant et ouvre la fentre de login permettant douvrir un nouveau projet dans le Studio.

project Ouvre un bote de dialogue permettant de personnaliser les proprits du projet. Pour plus dinformations, consultez la section Personnalisation des paramtres du projet.

Import Export Exit Open File Edit Undo Move Node Redo Cut

Ouvre un assistant permettant dimporter diffrents types de ressources (fichiers, lments, prfrences, catalogues XML, etc.) de diffrentes sources. Ouvre un assistant permettant dexporter diffrents types de ressources (fichiers, lments, prfrences, catalogues XML, etc.) vers diffrentes destinations. Ferme la fentre principale du Studio. Ouvre un fichier partir du Studio. Annule la dernire action effectue dans lespace de modlisation du Studio. Reproduit la dernire action effectue dans lespace de modlisation du Studio. Coupe lobjet slectionn dans lespace de modlisation du Studio.

Guide utilisateur de Talend Open Studio for Big Data

215

Barre doutils de Talend Open Studio for Big Data

Menu

Sous-menu Copy Paste Delete Select All

Description Copie lobjet slectionn dans lespace de modlisation du Studio. Colle lobjet pralablement copi dans lespace de modlisation du Studio. Supprime lobjet slectionn dans lespace de modlisation du Studio. Slectionne tous les composants prsents dans lespace de modlisation du Studio. Affiche limage du Job ouvert en plus grand. Affiche limage du Job ouvert en plus petit. Affiche la grille dans lespace de modlisation graphique. Tous les lments salignent alors sur la grille. Active la fonction Snap to Geometry (Aligner sur la grille). Ouvre une liste de diffrentes perspectives selon les lments de la liste. Ouvre la bote de dialogue [Show View] permettant dafficher les diffrentes vues dans le Studio.

View

Zoom In Zoom Out Grid Snap to Geometry

Window

Perspective Show View...

Maximize Active Agrandit la vue courante. View or Editor... Preferences Ouvre la bote de dialogue [Preferences] permettant de paramtrer les prfrences de Talend Open Studio for Big Data. Pour plus dinformations concernant les prfrences, consultez section Configuration des prfrences de Talend Open Studio for Big Data. Help Welcome Help Contents la

Ouvre une page daccueil contenant des liens vers la documentation de Talend Open Studio for Big Data et vers les sites pratiques de Talend. Ouvre laide en ligne dEclipse.

About Talend Open Affiche : Studio for Big Data -la version du logiciel utilis -des informations dtailles sur la configuration du logiciel pouvant tre utile en cas de problme -des informations dtailles sur le(s) plug-in(s) -des informations dtailles concernant les fonctionnalits de Talend Open Studio for Big Data. Export logs Ouvre un assistant vous permettant dexporter tous les fichiers .log gnrs par le Studio et des informations sur la configuration de votre ordinateur dans un fichier archive. Find and Install... : Ouvre un assistant [Install/Update] permettant de chercher les mises jour des fonctionnalits installes ou de chercher de nouvelles fonctionnalits installer. Manage Configuration... : Ouvre une bote de dialogue [Product Configuration] dans laquelle grer la configuration de Talend Open Studio for Big Data.

Software Updates

A.2.2. Barre doutils de Talend Open Studio for Big Data


La barre doutils vous permet un accs rapide aux fonctions les plus courantes de Talend Open Studio for Big Data. Le tableau ci-dessous dcrit les icnes de la barre doutils et leurs fonctions.
Nom Save Icne Description Enregistre le Job Design courant.

216

Guide utilisateur de Talend Open Studio for Big Data

Repository

Nom Save as Export items

Icne

Description Enregistre en tant que nouveau Job. Exporte les lments du Repository dans un fichier archive, pour les dployer en dehors de Talend Open Studio for Big Data. Si vous souhaitez importer les lments exports dans une version plus rcente de Talend Open Studio for Big Data ou dun autre ordinateur, assurez-vous davoir inclu les fichiers source dans larchive, en cochant la case adquate. Importe les lments du Repository dun fichier archive dans la version courant de Talend Open Studio for Big Data. Pour plus dinformations, consultez la section Import dlments. Lance lassistant de recherche de Job vous permettant douvrir tout Job list dans la vue Repository. Excute le Job courant ouvert dans lespace de modlisation. Pour plus dinformations, consultez la section Excuter un Job Lance lassistant de cration. A partir de ce menu, vous pouvez crer nimporte quel lment du Repository :, Job Designs, contextes, routines, etc. Lance la fentre [Project Settings] des paramtres du projet. A partir de cette fentre, vous pouvez ajouter une description au projet en cours et personnaliser laffichage de la Palette. Pour plus dinformations, consultez la section Personnalisation des paramtres du projet. Cherche les mises jour disponibles pour vos Jobs. Lance lassistant [Export Talend projects] dExport de projet. Pour plus dinformations concernant lExport de projet, consultez la section Exporter un projet.

Import items

Find a specific job Run job Create Project settings

Detect and update all jobs Export projects Talend

A.3. Repository
Le rfrentiel, Repository, est une arborescence regroupant les lments techniques disponibles la conception des Job Designs. Le Repository vous donne accs aux Job Designs ainsi qu toutes les routines rutilisables pour leur conception. Ce Repository centralise et conserve localement tous les lments ncessaires la conception d'un Job contenus dans un projet. La capture dcran ci-dessous montre les lments stocks dans le Repository.

Le bouton

vous permet de mettre jour l'arborescence et d'y inclure les dernires modifications.

Le bouton Activate filter du Repository.

vous permet d'ouvrir la vue de paramtres de filtrage pour configurer l'affichage

Guide utilisateur de Talend Open Studio for Big Data

217

Espace de modlisation graphique

Le Repository stocke tous vos projets (Jobs ) . Le tableau ci-dessous dcrit les nuds de la vue Repository.

Nud Job Designs

Description Le dossier Job Designs montre larborescence des Jobs crs dans le projet courant. Double-cliquez sur le nom dun Job pour louvrir dans lespace de modlisation graphique. Pour plus dinformations, consultez le chapitre Conception dun Job dintgration de donnes. Le dossier Context groupe les fichiers contenant les variables de contextes que vous souhaitez rutiliser dans diffrents Jobs, comme les chemin daccs ou les informations de connexion. Pour plus dinformations, consultez section Centraliser les Contextes et les Variables. Le dossier Code est une librairie regroupant les routines disponibles dans ce projet et les autres pices de code pouvant tre rutilises dans le projet. Cliquez sur lentre de larborescence afin de dvelopper la pice de code correspondante. Pour plus dinformations, consultez le chapitre Conception dun Job dintgration de donnes.

Contexts

Code

SQL Templates Recycle bin

Le dossier SQL Templates regroupe tous les modles SQL systme et offre la possibilit de crer des modles SQL personnaliss. Pour plus dinformations, consultez section Utiliser les SQL Templates. Recycle bin, la Corbeille rassemble tous les lments supprims partir de tout dossier du Repository. Les lments supprims sont toujours prsents dans vos fichiers systme, dans la Corbeille, jusqu ce que vous cliquiez-droit sur licne de la Corbeille et slectionnez Empty Recycle bin. Dveloppez la Corbeille afin de voir les dossiers, les sous-dossiers ou lments qu'elle contient. Vous pouvez agir directement sur un lment depuis la Corbeille, le restaurer ou le supprimer dfinitivement en cliquant-droit dessus et en slectionnant l'action souhaite dans la liste.

A.4. Espace de modlisation graphique


Lespace de modlisation graphique de Talend Open Studio for Big Data vous permet de concevoir graphiquement les les Job Designs (processus techniques). Pour plus dinformations, consultez la section Crer un Job. Pour les Job Designs : les Job Designs et Business Models ouverts sont organiss par un systme donglets audessus de cet espace de modlisation. Sous cet espace de modlisation, plusieurs onglets sont galement disponibles : longlet Designer : cest longlet ouvert par dfaut lors de la cration dun Job. Il affiche le Job en mode graphique ; longlet Code : il permet de visualiser le code et met en vidence les ventuelles erreurs de langage ;
Les avertissements sont indiqus en jaune tandis que les erreurs sont indiques en rouge.

218

Guide utilisateur de Talend Open Studio for Big Data

Palette

Une Palette est rattache lespace de modlisation pour vous permettre daccder rapidement tous les lments graphiques (formes et composants techniques) rpondant vos besoins.

A.5. Palette
A partir de la Palette, dposez lesnotes ou composants techniques dans lespace de modlisation. Puis dfinissez et formatez les lments graphiques laide des paramtres de proprits disponibles dans la vue Component pour les Job Designs. Voir galement : chapitre Conception dun Job dintgration de donnes. section Personnaliser lespace de travail.

A.6. Onglets de configuration


Les onglets de configuration sont situs dans la partie infrieure de lespace de modlisation graphique. Chaque onglet ouvre une vue affichant les proprits de llment slectionn dans lespace de modlisation graphique. Ces proprits peuvent tre dites pour modifier ou dfinir les paramtres relatifs un composant prcis ou un Job complet.

Guide utilisateur de Talend Open Studio for Big Data

219

Onglets de configuration

Les onglets Component, Run Job et Error Log regroupent toutes les informations relatives aux lments graphiques slectionns dans lespace de modlisation ou lexcution elle-mme du Job complet. Les onglets Modules et Scheduler se trouvent dans la mme zone que les onglets Component, Run Job et Error Log. Ces deux vues sont indpendantes des Jobs, actifs ou inactifs, ouverts dans lespace de modlisation.
Vous pouvez afficher plus donglets et ouvrir la vue correspondante directement si vous slectionnez Window > Show view puis, dans la bote de dialogue, dveloppez un nud et slectionnez llment que vous souhaitez afficher.

Les sections ci-dessous dcrivent la vue de chaque onglet de configuration.


Onglet Component Description Cette vue fournit des informations spcifiques sur les paramtres de chaque composant de la Palette. Pour crer un Job qui fonctionne, vous devez renseigner les champs de cette vue Component, et ce pour tous les composants du Job. Pour plus dinformations concernant la vue Component, consultez section Dfinir les proprits dun composant. Run Job Cet onglet, comme son nom le suggre, affiche lexcution du Job technique. Cet onglet joue le rle dune console de log pour afficher le rsultat dune excution. Pour plus dinformations concernant lexcution dun Job, consultez section Excuter un Job. Oozie scheduler Cette vue vous permet d'excuter le Job ouvert ou de planifier son excution de faon priodique sur un serveur HDFS distant. Pour plus d'information, consultez la section Excuter un Job distance dans un serveur HDFS. Error Log Cette vue est gnralement utilise lors de lexcution des Jobs, car elle affiche les ventuelles erreurs dexcution. Longlet Error Log a galement une fonction informative, notamment pour indiquer quun composant Java est en cours dexcution. Longlet Error Log est masqu par dfaut. Comme pour tout autre onglet, cliquez sur Window > Show views, puis dveloppez le nud General et slectionnez Error Log pour lafficher. Modules Cette vue indique quel module est requis pour lutilisation du composant correspondant.. Consultez la vue Modules pour vrifier les modules prsents ou manquants pour lexcution de vos Jobs.

220

Guide utilisateur de Talend Open Studio for Big Data

Panneau des onglets outline et code

Onglet Vue Job

Description Pour plus dinformations, consultez section Installer des modules externes. La vue Job affiche de nombreuses informations relatives au Job ouvert dans lespace de modlisation graphique. Cette vue contient les onglets suivants : Onglet Main Cet onglet affiche des informations simples concernant le Job ouvert dans lespace de modlisation graphique, cest--dire son nom, son auteur, son numro de version, etc. Ces informations sont en lecture seule. Pour les diter, vous devez fermer votre Job, cliquer-droit sur son libell dans la vue Repository et cliquez sur Edit properties dans le menu contextuel. Onglet Extra Cet onglet affiche les paramtres supplmentaires comme les fonctions de multi thread et de chargement de contexte implicite. Pour plus dinformations, consultez section Fonctions Extra Onglet Stats & Logs Cet onglet vous permet dactiver/dsactiver les statistiques et les logs du Job complet. Vous pouviez dj utiliser ces fonctions pour chaque composant de votre Job, en utilisant et configurant les composants adquats : tFlowMeterCatcher, tStatCatcher, tLogCatcher. Pour plus dinformations concernant ces composants, consultez le Guide de Rfrence des Composants de Talend Open Studio for Big Data. De plus, vous pouvez dornavant appliquer ces fonctionnalits la totalit de votre Job actif (cest--dire tous les composants de votre Job) en une seule fois, sans utiliser les composants Catcher mentionns plus haut. Ainsi, tous les composants sont rcuprs et transfrs dans un fichier log ou une table de donnes en fonction de votre Job. Vous pouvez galement sauvegarder les paramtres courants comme paramtres de projet en cliquant sur le bouton .

Pour plus dinformations concernant le fonctionnement automatique des Stats & Logs, consultez section Automatiser lutilisation des statistiques & logs Onglet Version Cet onglet regroupe les diffrentes versions du Job ouvert, ainsi que leurs date et heure de cration et de modification. Problems Cette vue affiche tous les messages lis aux icnes lies aux composants en cas de problme, par exemple lorsquil manque une partie de la configuration. Trois types dicnes/messages existent : Error, Warning et Infos. Pour plus dinformations, consultez section Grer les icnes davertissement/derreur sur les composants. Job Hierarchy Cette vue affiche, sous forme darborescence, les Jobs enfant du Job parent slectionn. Pour faire apparatre cette vue, cliquez-droit sur un Job parent dans le Repository et slectionnez loption Open Job Hierarchy dans le menu contextuel. Vous pouvez galement afficher cette vue en suivant le chemin Window > Show view... > Talend > Job Hierarchy. La hirarchie dun Job napparatra que si vous crez un Job parent et un ou plusieurs enfant(s) laide du composant tRunJob. Pour plus dinformations concernant le tRunJob, consultez le Guide de Rfrence des Composants de Talend Open Studio for Big Data.

A.7. Panneau des onglets outline et code


Ce panneau est situ sous la vue Repository. Il affiche des informations dtailles concernant le Job ouvert dans lespace de modlisation graphique. Ce panneau est compos de deux onglets, Outline et Code Viewer, qui fournissent des informations dtailles concernant le diagramme, ainsi que le code gnr.

Guide utilisateur de Talend Open Studio for Big Data

221

Raccourcis clavier

Pour plus dinformations, consultez la section Afficher les onglets Code ou Outline de votre Job.

A.8. Raccourcis clavier


Le tableau ci-dessous rassemble tous les raccourcis clavier utiliss dans Talend Open Studio for Big Data :
Raccourci F2 F4 F6 Ctrl + F2 Ctrl + F3 Ctrl + H Ctrl + G Ctrl + R Ctrl + Shift + F3 Ctrl + Shift + J F7 F5 F8 F5 Ctrl+L Ctrl+Barre despace Pour Afficher la vue Component. Afficher la vue Run Job. Contexte Application globale Application globale

Excuter le Job courant ou afficher la vue Run Job si aucun Job nest Application globale ouvert. Afficher la vue Module. Afficher la vue Problems. Affiche longlet Designer du Job courant. Afficher longlet Code du Job courant. Restaurer la vue Repository initiale. Synchroniser les templates javajet. Ouvrir un Job. Passer en mode Debug. Rafrachir la vue Repository. Arrter le Job courant. Rafrachir le statut dinstallation des Modules. Excuter les requtes SQL. Application globale Application globale Application globale Application globale Dans la vue Repository Application globale Application Windows) globale (sous

Dans la vue Run Job Dans la vue Repository Dans la vue Run Job Dans la vue Modules Commande Windows) Talend de la (sous vue

Accder aux variables globales et de contexte. Cela peut tre des Dans un champ messages derreur ou le numro de ligne, en fonction du composant Component slectionn.

222

Guide utilisateur de Talend Open Studio for Big Data

Annexe B. De la thorie la pratique, exemple de Job


Ce chapitre est destin aux utilisateurs de Talend Open Studio for Big Data qui cherchent des cas rels dutilisation de Talend Open Studio for Big Data afin de matriser le produit le mieux possible. Ce chapitre est un complment du Guide de rfrence des Composants de Talend Open Studio for Big Data.

Guide utilisateur de Talend Open Studio for Big Data

Utilisation de la fonctionnalit Output Stream

B.1. Utilisation de la fonctionnalit Output Stream


B.1.1. Prsentation du scnario
Le scnario suivant a pour objectif de montrer comment utiliser la fonctionnalit de flux de sortie dans un certain nombre de composants, afin d'amliorer considrablement les performances en sortie. Dans ce scnario, un fichier .csv prdfini contenant des informations client est charg dans une table d'une base de donnes. Les donnes charges sont slectionnes l'aide d'un composant tMap et crites dans un fichier de sortie local, ainsi que dans la console, via la fonctionnalit Output stream.

B.1.1.1. Donnes d'entre


Le fichier d'entre, dont les donnes seront charges dans la table de la base de donnes, contient des informations clients varies. La structure du fichier appele Schema dans Talend Open Studio for Big Data comprend les colonnes suivantes : id (Type : Integer) CustomerName (Type : String) CustomerAge (Type : Integer) CustomerAddress (Type : String) CustomerCity (Type : String) RegisterTime (Type : Date)

B.1.1.2. Donnes de sortie


Le composant tMap est utilis pour slectionner les colonnes id, CustomerName et CustomerAge dans les donnes d'entre. Les donnes slectionnes sont crites en sortie via la fonctionnalit de flux de sortie. Les donnes attendues en sortie doivent avoir la structure suivante : id (Type : Integer) CustomerName (Type : String) CustomerAge (Type : Integer) Ces trois colonnes proviennent des colonnes des donnes d'entre.

B.1.2. Cration du Job


Pour crer ce Job, vous devez effectuer les quatre tapes suivantes :

224

Guide utilisateur de Talend Open Studio for Big Data

Cration du Job

1. Cration du Job, configuration du schma d'entre et lecture du fichier d'entre selon le schma dfini. 2. Dfinition de la commande activant la fonctionnalit de flux de sortie. 3. Mapping des donnes via le composant tMap. 4. Ecriture en sortie du flux de donnes slectionn. Vous pouvez voir le Job termin dans la capture d'cran ci-dessous. Pour consulter les instructions dtailles relatives la cration du Job, lisez les sections suivantes.

B.1.2.1. tape 1 : Lire les donnes d'entre d'un fichier local


Utilisez le composant tFileInputDelimited pour lire le fichier customers.csv contenant les donnes d'entre. Ce composant se trouve dans la famille File/Input de la Palette. Cliquez sur ce puis dposez-le dans l'espace de modlisation graphique. 1. Double-cliquez sur le composant tFileInputDelimited afin d'ouvrir sa vue Basic settings et dfinir ses proprits de base.

2. 3. 4.

Cliquez sur le bouton [...] ct du champ File name/Stream et parcourez votre systme jusqu' votre fichier d'entre. Vous pouvez galement saisir manuellement le chemin d'accs ce fichier. Cliquez sur Edit schema pour ouvrir une bote de dialogue dans laquelle configurer la structure du fichier d'entre. Cliquez six fois sur le bouton [+] pour ajouter six colonnes, puis, dans la colonne Type, slectionnez Integer pour les colonnes id et CustomerAge, String pour les colonnes CustomerName, CustomerAddress et CustomerCity. Slectionnez Date pour la colonne RegisterTime.

Guide utilisateur de Talend Open Studio for Big Data

225

Cration du Job

5.

Cliquez sur OK pour fermer la bote de dialogue.

B.1.2.2. tape 2 : Configurer la commande pour activer la fonctionnalit Output Stream


Utilisez le tJava pour dfinir la commande de cration d'un fichier de sortie et un rpertoire contenant le fichier de sortie. Pour ce faire, dposez un composant tJava dans l'espace de modlisation graphique. 1. Double-cliquez sur le tJava pour ouvrir sa vue Basic settings et dfinir ses proprits.

2.

Dans le champ Code, saisissez la commande suivante :


new java.io.File("C:/myFolder").mkdirs(); globalMap.put("out_file",new customerselection.txt",false)); java.io.FileOutputStream("C:/myFolder/

La commande saisie ci-dessus cr un nouveau rpertoire C:/myFolder pour sauvegarder le fichier de sortie customerselection.txt. Vous pouvez personnaliser la commande selon vos besoins.

3.

Reliez le tJava au tFileInputDelimited l'aide d'un lien Trigger > On Subjob Ok. Cela dclenche le tJava lorsque le sous-job commenant par le tFileInputDelimited est correctement excut.

B.1.2.3. tape 3 : Mapper les donnes l'aide du composant tMap


Dposez un composant tMap dans l'espace de modlisation graphique. 1. Double-cliquez sur le tMap afin d'afficher sa vue Basic settings et configurer ses proprits de base.

226

Guide utilisateur de Talend Open Studio for Big Data

Cration du Job

2.

Cliquez sur le bouton [...] ct du Map Editor pour ouvrir une bote de dialogue dans laquelle configurer le mapping. Cliquez sur le bouton [+] de gauche pour ajouter six colonnes au schma d'entre, ces colonnes devant tre id, CustomerName, CustomerAge, CustomerAddress, CustomerCity, RegisterTime.

3.

4.

Cliquez sur le bouton [+] droite pour ajouter un schma de sortie.

Guide utilisateur de Talend Open Studio for Big Data

227

Cration du Job

5.

Slectionnez New output et cliquez sur OK pour sauvegarder votre schma de sortie. Le schma de sortie est vide. Cliquez sur le bouton [+] sous la table out1 pour ajouter trois colonnes aux donnes de sortie.

6.

7.

Dposez les colonnes id, CustomerName et CustomerAge de la gauche la droite, dans leurs lignes respectives.

8.

Cliquez sur OK pour sauvegarder les paramtres.

B.1.2.4. tape 4 : Ecrire en sortie le flux de donnes slectionn


Dposez un composant tFileOutputDelimited dans l'espace de modlisation graphique. 1. Double-cliquez sur le tFileOutputDelimited afin d'ouvrir sa vue Basic settings et configurer ses proprits de base. Cochez la case Use Output Stream pour activer le champ Output Stream et saisissez dans le champ Output Stream la commande suivante :
(java.io.OutputStream)globalMap.get("out_file") Vous pouvez personnaliser la commande dans le champ Output Stream en appuyant sur les touches Ctrl+Espace pour utiliser l'autocompltion et slectionner des commandes built-in. Vous pouvez galement saisir manuellement votre commande. Dans ce scnario, la commande utilise dans le champ Output Stream appelle la classe java.io.OutputStream pour crire le flux de donnes filtr dans un fichier local, spcifi dans la zone Code du tJava.

2.

228

Guide utilisateur de Talend Open Studio for Big Data

Cration du Job

3.

Reliez le tFileInputDelimited au tMap l'aide d'un lien Row > Main puis reliez le tMap au tFileOutputDelimited l'aide du lien Row > out1, dfini dans le Map Editor du tMap. Cliquez sur le bouton Sync columns pour rcuprer le schma du composant prcdent.

4.

Pour crire dans la console les donnes slectionnes : 1. Dposez un tLogRow de la famille Logs & Errors dans l'espace de modlisation graphique. Double-cliquez sur ce composant afin d'ouvrir sa vue Basic settings Slectionnez l'option Table dans la zone Mode.

2.

3. 4.

Reliez le tFileOutputDelimited au tLogRow l'aide d'un lien Row > Main. Cliquez sur Sync columns pour rcuprer le schma dfini dans le composant prcdent.

Ce Job est maintenant prt tre excut.

Appuyez sur les touches Ctrl+S afin de sauvegarder votre Job et appuyez sur F6 pour l'excuter.

Guide utilisateur de Talend Open Studio for Big Data

229

Exemple de Job comprenant un tMap

Le contenu de donnes slectionnes s'affiche dans la console.

Les donnes slectionnes sont galement crites dans le fichier local customerselection.txt.

Pour un exemple de Job utilisant cette fonctionnalit, consultez le composant tFileOutputDelimited du Guide de rfrence des Composants de Talend Open Studio for Big Data. Pour consulter les principes de la fonctionnalit Use Output Stream, consultez la section Utiliser la fonctionnalit Use Output Stream.

B.2. Exemple de Job comprenant un tMap


B.2.1. Prsentation du scnario
Pour illustrer le fonctionnement de Talend Open Studio for Big Data, vous trouverez ci-dessous un scnario refltant un cas dutilisation rel. Dans ce scnario, vous devez charger un fichier dans une table MySQL en appliquant des transformations la vole. Et dans une tape suivante, vous slectionnez les donnes charger en appliquant un filtre dynamique. Avant de commencer le Job, vrifiez les donnes en entre (Input) et les donnes attendues en sortie (Output).

230

Guide utilisateur de Talend Open Studio for Big Data

Prsentation du scnario

B.2.1.1. Donnes en entre


Le contenu du fichier en entre est une liste des clients de toutes les rgions de ltat de Californie. Ces donnes seront donc charges dans une table de donnes. La structure du fichier, communment appele Schma dans Talend Open Studio for Big Data comprend les colonnes suivantes : First name (prnom) Last name (nom) Address (adresse) City (ville)

B.2.1.2. Donnes en sortie


Vous souhaitez charger uniquement les donnes des clients habitant dans certaines rgions (Counties) de la Californie dans la nouvelle base de donnes : les rgions dOrange et de Los Angeles. La structure de la table est lgrement diffrente, ainsi les donnes devant tre charges dans la table de donnes doivent tre structures de la manire suivante : Key (Cl, Type entier) Name (Type chane, longueur max. 40) Address (Type chane, longueur max. 40) County (Type chane, longueur max. 40) Pour charger cette table, vous devez utiliser les processus de mapping suivants : La colonne Key est alimente par un entier auto-incrment. La colonne Name est renseigne avec une concatnation des donnes First Name et Last Name. Les donnes de la colonne Address sont les mmes que celles de la colonne Address du fichier dentre et elles seront mises en majuscule avant dtre charges. La colonne County est alimente par le nom de la rgion dans laquelle se situe la ville. Un fichier de rfrence vous aidera filtrer les villes des rgions dOrange et de Los Angeles.

B.2.1.3. Donnes de rfrence


Etant donn que les donnes des rgions dOrange et de Los Angeles doivent tre charges dans la base de donnes, vous devez mapper les villes de Californie avec leur rgion respective, afin de pouvoir filtrer uniquement les villes dOrange et de Los Angeles. Pour cela, utilisez un fichier de rfrence contenant la liste des villes situes dans ces rgions, par exemple :
City Agoura Hills Alhambra County Los Angeles Los Angeles

Guide utilisateur de Talend Open Studio for Big Data

231

Du scnario au Job

Aliso Viejo Anaheim Arcadia

Orange Orange Los Angeles

Le fichier de rfrence de ce Job se nomme LosAngelesandOrangeCounties.txt.

B.2.2. Du scnario au Job


Pour mettre ce scnario en pratique, sparez ce Job en quatre tapes. 1. Cration du Job, configuration des paramtres et lecture du fichier dentre 2. Mapping et transformations de donnes 3. Dfinition des paramtres du fichier de rfrence, mapping correspondant laide du composant tMap et slection du mode Inner Join. 4. Redirection des donnes en sortie dans une table MySQL

B.2.2.1. Etape 1 : Cration du Job, dfinition des donnes dentre, lecture du fichier
Aprs avoir lanc Talend Open Studio for Big Data, crez un projet en local ou importez un projet dmo si vous lancez Talend Open Studio for Big Data pour la premire fois. Pour plus d'informations, veuillez vous rfrer section Lancement de Talend Open Studio for Big Data et section Travailler avec les projets. Cette fentre est divise en plusieurs espaces : A gauche : le Rfrentiel (Repository) dans lequel sont rfrencs tous les Jobs, Code partag, etc. Au centre : lEditor (l'Editeur, espace de modlisation principal) En bas : les onglets Component et Job, etc. A droite : la Palette des composants techniques . Sur la gauche du Studio, le Rfrentiel donne accs aux trois principaux outils de Talend Open Studio for Big Data: Le Job Designer : Pour plus dinformations, consultez la section Crer un Job. Pour crer le Job, cliquez dabord sur llment Job Designs du Rfrentiel avec le bouton droit de la souris et slectionnez la premire option du menu : Create Job. Dans la bote de dialogue qui apparat alors lcran, seul le premier champ Name est obligatoire. Saisissez California1 et cliquez sur Finish. Un Job vide souvre ensuite dans la fentre principale et la Palette de composants techniques apparat (par dfaut, droite du Studio) affichant une dizaine de familles de composants, notamment : Databases, Files, Internet, Data Quality, etc. Plus de 400 composants sont disponibles actuellement. Pour lire le fichier California_Clients, utilisez le composant tFileInputDelimited. Ce composant se trouve dans la famille File > Input de la Palette. Cliquez sur ce composant et placez-le la gauche de lespace de modlisation. Dfinissez maintenant les proprits de lecture de ce composant : chemin daccs, sparateur de colonnes, encodage, etc.

232

Guide utilisateur de Talend Open Studio for Big Data

Du scnario au Job

Pour ce faire : 1. 2. 3. 4. 5. Glissez le tFileInputDelimited du groupe File de la Palette dans l'espace de modlisation graphique. Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Basic settings dans l'onglet Component. Dans le champ File name/Stream, dfinissez le chemin d'accs au fichier d'entre. Dans le champ Header, dfinissez le nombre de lignes que vous ne souahitez pas voir apparatre en lisant le fichier d'entre. Cliquez sur le bouton [...] prs du bouton Edit schema pour ouvrir la bote de dialogue [Schema] pour dfinir la structure du fichier d'entre. Cliquez ensuite sur OK pour fermer la bote de dialogue.

Les paramtres de base du composants d'entre sont dfinis.

Guide utilisateur de Talend Open Studio for Big Data

233

Du scnario au Job

A cette tape, terminez votre flux en envoyant tout simplement les donnes lues dans le fichier dentre vers une sortie standard (StdOut). Pour ce faire, ajoutez un composant tLogRow (de la famille Logs & Errors). Pour lier ces deux composants, cliquez-droit sur le composant dentre et slectionnez Row > Main. Puis cliquez sur le composant de sortie tLogRow. Ce Job est maintenant prt tre excut. Pour lexcuter, slectionnez la vue Run dans le bas de la fentre. Activez les statistiques en cochant la case Statistics dans longlet Advanced settings de la vue Run, puis excutez le Job en cliquant sur le bouton Run, dans longlet Basic Run.

Le contenu du fichier dentre apparat dans la console de la vue Run.

B.2.2.2. Etape 2 : Mapping et transformations


Vous allez maintenant enrichir votre Job en ajoutant des transformations la vole. Pour effectuer ses transformations, utilisez le composant tMap dans votre Job. Ce composant est multiple et peut grer des : entres et sorties multiples, recherches de rfrence (simple, produit cartsien, premire et dernire correspondance, etc.), jointures (inner join, outer join), transformations, rejets , etc.

234

Guide utilisateur de Talend Open Studio for Big Data

Du scnario au Job

Supprimez la connexion reliant vos deux composants via un clic-droit sur cette connexion et en slectionnant loption Delete. Puis placez le tMap entre les deux autres composants et reliez-le au composant dentre comme vous lavez fait prcdemment. Enfin, pour lier le composant tMap la sortie standard, cliquez-droit sur le tMap et slectionnez Row > *New Output* (Main). Saisissez out1 dans la bote de dialogue et cliquez sur le composant tLogRow pour crer la connexion. Logiquement, une bote de dialogue apparat (pour la rtro-propagation des schmas), ignorez-la en cliquant sur No. Maintenant, double-cliquez sur le tMap pour accder son interface. A gauche, vous trouverez le schma (description) de votre fichier dentre (row1). A droite, votre sortie est encore vide pour le moment (out1). Dposez les colonnes FirstName et LastName de la gauche vers la droite dans la colonne Name, comme le montre la capture dcran suivant. Puis dposez les autres colonnes Address et City dans leur ligne respective.

Puis effectuez les transformations suivantes sur chaque colonne : Changez les donnes de la colonne Name de la manire suivante : row1.Firstname + " " + row1.LastName Cette action concatne les colonnes Firstname et Lastname dans une seule colonne en respectant la syntaxe Java employe. Changez les donnes de la colonne Address de la manire suivante : row1.Address.toUpperCase()Cette action met ladresse en majuscule. Puis supprimez la colonne LastName de la table out1, et augmentez la longueur des colonnes restantes. Pour cela, cliquez sur longlet Schema Editor situ en bas de lditeur du [Map Editor] et procdez comme suit :

1. 2. 3.

Slectionnez la colonne supprimer du schma, et cliquez sur licne reprsentant une croix rouge. Slectionnez la colonne dont vous souhaitez augmenter la longueur. Saisissez la longueur que vous voulez dans la colonne Length. Dans cet exemple, modifiez la longueur de chaque colonne restante en 40.
Comme les noms et prnoms des clients sont concatns, il est ncessaire daugmenter la longueur de la colonne name, afin de prendre en compte la longueur complte du nom.

Aucune transformation nest effectue sur la colonne City. Cliquez sur OK pour valider les modifications et fermer lditeur. Si vous excutez votre Job cette tape (via longlet Run, comme prcdemment), vous remarquerez que les changements que vous avez apports ont t implments.

Guide utilisateur de Talend Open Studio for Big Data

235

Du scnario au Job

Ladresse a t mise en majuscule et les prnoms et noms ont t regroups dans une seule colonne.

B.2.2.3. Etape 3 : Dfinition du fichier de rfrence, mapping des donnes de rfrence, slection du mode Inner Join
Dfinissez la mtadonne correspondant au fichier LosAngelesandOrangeCounties.txt comme vous lavez fait dans ltape 1 avec le fichier California_clients. Commencez par glisser un autre composant tFileInputDelimited dans l'espace de modlisation graphique et dfinissez ses proprits de base : le chemin d'accs au fichier d'entre, le nombre de lignes faire disparatre et la dfinition du schma. Reliez ce composant au tMap.

236

Guide utilisateur de Talend Open Studio for Big Data

Du scnario au Job

Double-cliquez de nouveau sur le composant tMap pour ouvrir son interface. Notez que la table de rfrence (row2) correspondant au fichier LosAngelesandOrangeCounties.txt, apparat gauche de la fentre dans la zone Input dentre, juste en dessus de votre flux dentre principal (row1). Maintenant, dfinissez la jointure entre le flux principal et le flux de rfrence. Dans ce scnario, la jointure est simple dfinir puisque la colonne City est prsente dans les deux fichiers dentre et que les donnes correspondent parfaitement. Mais si a navait pas t le cas, il aurait t possible de rapprocher les donnes (padding, changement de casse, etc.) directement ce niveau. Pour tablir la jointure, dposez la colonne City de la premire table dentre vers la colonne City de la table de rfrence. Un lien violet apparat pour matrialiser cette jointure.

Maintenant, vous pouvez utiliser la colonne County de la table de rfrence dans la table de sortie (out1).

Enfin, cliquez sur le bouton OK pour valider les modifications et excutez ce nouveau job. La sortie suivante saffichera dans la console :

Guide utilisateur de Talend Open Studio for Big Data

237

Du scnario au Job

Comme vous pouvez le voir, la dernire colonne ne contient que les villes des rgions dOrange et de Los Angeles. Pour les autres villes, cette colonne reste vide. Ceci est d au fait que par dfaut le tMap tablit une jointure Left Outer Join. Si vous souhaitez appliquer un filtre permettant de nafficher que les donnes pour lesquelles une correspondance a t trouve par le tMap, cliquez sur le bouton tMap settings et slectionnez Inner Join dans la liste Join Model sur la table de rfrence (row2).

B.2.2.4. Etape 4 : Sortie vers une table MySQL


Votre Job fonctionne merveille. Pour le finaliser, redirigez le flux de sortie vers une table MySQL. Pour cela, crez tout dabord une mtadonne dcrivant la connexion la base de donnes MySQL. Double-cliquez sur DemoMySQL dans le rpertoire Metadata > MySQL du Rfrentiel ( condition que vous ayez bien import le projet Demo) pour lancer lassistant Metadata. A ltape 2 de lassistant, renseignez les paramtres de connexion la base de donnes. Vrifiez la validit de cette connexion en cliquant sur le bouton Check. Enfin, validez vos modifications en cliquant sur Finish. Dposez cette mtadonne droite de lespace de modlisation en maintenant la touche Ctrl enfonce pour crer automatiquement un composant tMysqlOutput. Supprimez le composant tLogRow de votre job. Reconnectez le flux de sortie out1 du tMap vers le composant tMysqlOutput (Clic-droit > Row > out1) :

Dans longlet Basic Settings de ce composant : 1. 2. 3. Saisissez LA_Orange_clients dans le champ Table pour nommer votre table cible qui va tre cre la vole. Slectionnez loption Drop table if exists and create dans le champ Action on table. Cliquez sur Edit Schema et sur le bouton Reset DB type (le bouton en forme de base de donnes dans la barre doutils) pour renseigner automatiquement le type de base de donnes, si ncessaire.

Excutez nouveau le Job. La table cible devrait tre automatiquement cre et remplie en moins dune seconde. Dans ce scnario, seuls quatre composants diffrents sont utiliss, mais la Palette en contient plus de 450 (bases de donnes, Webservices, FTP, etc.). Dautres composants, raliss cette fois par la communaut, sont disponibles sur le site communautaire : talendforge.org. Pour plus dinformations concernant les composants, consultez le Guide de rfrence des Composants de Talend Open Studio for Big Data.

238

Guide utilisateur de Talend Open Studio for Big Data

Retrouver qui visite votre site Web le plus souvent

B.3. Retrouver qui visite votre site Web le plus souvent


Pour conduire une campagne marketing concernant les habitudes et les profils de vos clients ou utilisateurs, vous devez pouvoir rcuprer des donnes selon leurs habitudes ou leur comportement sur votre site Web afin de crer des profils utilisateur et de leur envoyer les publicits adquates, par exemple. Cette section fournit un exemple permettant de retrouver les utilisateurs ayant le plus souvent visit un site Web, en triant les adresses IP partir d'un grand nombre d'enregistrements dans le fichier de registre d'accs pour un serveur Apache HTTP, afin de faire d'autres analyses sur le comportement des utilisateurs sur le site Web.

B.3.1. Dcouvrir le scnario


Dans cet exemple, certains composants Big Data Talend sont utiliss pour tirer parti de la plateforme Open source Hadoop, dans le domaine de la gestion des Big Data. Dans ce scnario, vous utilisez quatre Jobs : le premier Job configure une base de donnes et une table HCatalog comprenant une partition, dans HDFS le deuxime Job charge le registre d'accs analyser dans le systme de fichiers HDFS. le troisime Job analyse le fichier charg. Il filtre notamment tout enregistrement contenant une erreur "404", compte le nombre d'appels de services vers le site Web excuts avec succs, trie les donnes de rsultats et les sauvegarde dans le systme de fichiers HDFS. le dernier Job lit les rsultats depuis HDFS et affiche les adresses IP ainsi que les appels de services russis et le nombre de visites du site Web dans la console standard du systme.

B.3.2. Transformer le scnario en Jobs

B.3.2.1. Configurer la base de donnes HCatalog


Dans la premire tape, vous allez configurer un environnement HCatalog permettant de grer le fichier de registre d'accs analyser.

Choisir les composants et construire le premier Job


1. 2. Dposez deux composants tHCatalogOperation de la Palette dans l'espace de modlisation graphique. Reliez les deux tHCatalogOperation l'aide d'un lien Trigger > OnSubjobOk. Ces deux sous-jobs crent une base de donnes HCatalog ainsi qu'une table HCatalog et une partition dans la table HCatalog cre, respectivement. Renommez les composants afin de mieux identifier leur rle au sein du Job.

3.

Guide utilisateur de Talend Open Studio for Big Data

239

Transformer le scnario en Jobs

Crer une base de donnes HCatalog


1. Double-cliquez sur le premier composant tHCatalogOperation pour ouvrir sa vue Basic settings.

2.

Dans les listes correspondantes, slectionnez la distribution Hadoop ainsi que sa version. Dans cet exemple, utilisez les paramtres par dfaut : distribution HortonWorks avec le numro de version HortonWorks Data Platform V1. Renseignez, entre guillemets doubles, le nom de l'hte ou l'adresse IP de votre serveur Templeton ainsi que le port de Templeton. Dans la liste Operation on, slectionnez Database. Dans la liste Operation, slectionnez Create. Dans le champDatabase, saisissez un nom pour la base de donnes que vous crez, talenddb_hadoop dans cet exemple. Dans le champ Username, saisissez l'identifiant d'authentification la base de donnes. Dans le champ Database location, saisissez l'emplacement du fichier de base de donnes crer dans HDFS.

3.

4. 5.

6. 7.

240

Guide utilisateur de Talend Open Studio for Big Data

Transformer le scnario en Jobs

Configurer la table HCatalog et sa partition


1. Double-cliquez sur le second tHCatalogOperation pour ouvrir sa vue Basic settings.

2.

Comme dans le premier tHCatalogOperation, spcifiez votre distribution et sa version, l'hte ou l'adresse IP de Templeton, ainsi que son port. Dans la liste Operation on, slectionnez Table. Dans la liste Operation, slectionnez Create. Lorsque vous travaillez sur une table, HCatalog vous demande de dfinir un schma pour cette table. Ce schma, cependant, n'intervient pas dans les oprations suivantes, vous pouvez donc simplement cliquer sur le bouton [...] et ajouter une colonne au schma. Donnez-lui un nom diffrent de celui que vous allez utiliser pour la colonne de partition.

3.

4.

Spcifiez la mme base de donnes et le mme identifiant que dans le premier composant tHCatalogOperation. Dans le champ Table, saisissez un nom pour la table crer, weblog dans cet exemple. Cochez la case Set partitions et cliquez sur le bouton [...] ct du champ Edit schema afin de configurer une partition et un schma de partition. Notez que le schma de partition ne doit contenir aucun nom de colonne dfini dans le schma de la table. Dans cet exemple, la colonne du schma de partition se nomme ipaddresses.

5. 6.

B.3.2.2. Charger le fichier de registre d'accs dans le systme Hadoop


Dans la deuxime tape, vous allez construire et configurer le deuxime Job permettant de charger le fichier de registre dans le systme Hadoop, puis vrifier le fichier charg.

Guide utilisateur de Talend Open Studio for Big Data

241

Transformer le scnario en Jobs

Choisir les composants et construire le deuxime Job


1. De la Palette, dposez un tApacheLogInput, un tHCatalogOutput, un tHCatalogInput et un tLogRow dans l'espace de modlisation graphique. Connectez le composant tApacheLogInput au tHCatalogOutput l'aide d'un lien Row > Main. Ce sousjob lit le fichier de registre d'accs analyser et le charge dans la base de donnes HCatalog. Reliez le composant tHCatalogInput au tLogRow, l'aide d'un lien Row > Main. Ce sous-job vrifie le chargement du fichier en lisant le fichier de regsitre depuis le systme HCatalog et affiche son contenu dans la console. Reliez le tApacheLogInput au tHCatalogInput l'aide d'un lien Trigger > OnSubjobOk. Renommez les composants afin de mieux identifier leur rle au sein du Job.

2.

3.

4. 5.

Charger le fichier de log dans HDFS


1. Double-cliquez sur le composant tApacheLogInput pour ouvrir sa vue Basic settings et spcifiez le chemin d'accs au fichier de log charger, dans le champ File Name.

2.

Double-cliquez sur le tHCatalogOutput pour ouvrir la vue Basic settings.

242

Guide utilisateur de Talend Open Studio for Big Data

Transformer le scnario en Jobs

3.

Cliquez sur le bouton [...] pour vrifier que le schma a bien t propag depuis le composant prcdent. Si ncessaire, cliquez sur le bouton Sync columns afin de rcuprer le schma. Pour les renseignements suivants, utilisez les mmes informations que dans le premier Job : Distribution et version de Hadoop Hte ou adresse IP de Templeton et numro de son port Table de la base de donnes HCatalog et identifiant

4.

5. 6. 7. 8.

Dans le champ NameNode URI, saisissez l'URI du NameNode de HDFS. Dans le champ File name, spcifiez le chemin d'accs et le nom du fichier de sortie dans HDFS. Dans la liste Action, slectionnez Create poru crer le fichier, ou Overwrite si le fichier existe dj. Dans le champ Partition, saisissez la paire de partition nom-valeur, ipaddresses='192.168.1.15' dans cet exemple. Dans le champ File location, saisissez l'emplacement o sauvegarder les donnes, /user/hcat/access_log dans cet exemple.

9.

Vrifier le fichier de registre d'accs charg


1. Double-cliquez sur le composant tHCatalogInput pour ouvrir sa vue Basic settings.

Guide utilisateur de Talend Open Studio for Big Data

243

Transformer le scnario en Jobs

2.

Cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Schema] et dfinir le schma d'entre. Dans cet exemple, copiez simplement le schma du composant tApacheLogInput ou tHCatalogOutput. Pour toutes les autres options, utilisez les mmes paramtres que dans le composant tHCatalogOutput. Dans la vue Basic settings du tLogRow, slectionnez le mode Vertical afin d'afficher pour chaque ligne la cl et la valeur, l'excution du Job.

3. 4.

B.3.2.3. Analyser le fichier de registre d'accs sur la plateforme Hadoop


Dans cette tape, vous allez construire et configurer le troisime Job, utilisant plusieurs composants Pig pour analyser le fichier de registre charg, dans une chane Pig, afin d'obtenir les adresses IP ainsi que les appels de services excuts avec succs et le nombre de visite sur le site Web.

Choisir les composants et contruire le troisime Job


1. Dposez les composants suivants de la Palette dans l'espace de modlisation graphique : un tPigLoad, pour charger les donnes analyser, un tPigFilterRow, pour supprimer les enregistrements contenant une erreur "404" du flux d'entre, un tPigFilterColumns, pour slectionner les colonnes inclure dans les rsultats, un tPigAggregate, pour compter le nombre de visites sur le site de chaque hte, un tPigSort, pour trier les rsultats, un tPigStoreResult, pour sauvegarder les rsultats dans HDFS. 2. Connectez ces composants l'aide de liens Row > Pig Combine afin de fermer une chane. Nommez-les de manire identifier leur rle.

244

Guide utilisateur de Talend Open Studio for Big Data

Transformer le scnario en Jobs

Configurer la chane Pig


1. Double-cliquez sur le composant tPigLoad pour ouvrir sa vue Basic settings et configurer les lments suivants afin de charger le fichier analyser dans la chane Pig : Schma : copiez-le du Job prcdent, et propagez-le au composant suivant. Mode de Pig : slectionnez Map/Reduce. Distribution et version de Hadoop : les mmes que dans le Job prcdent, HortonWorks et HortonWorks Data Platform V1. URI du NameNode : la mme que dans le Job prcdent, hdfs://talend-hdp:8020. Hte du JobTracker : talend-hdp:50300. Fonction de chargement : slectionnez PigStorage. URI du fichier d'entre : saisissez le nom du fichier de sortie dfini dans le Job prcdent, /user/hcat/ access_log/out.log.

Guide utilisateur de Talend Open Studio for Big Data

245

Transformer le scnario en Jobs

2.

Dans la vue Basic settings du composant tPigFilterRow, cliquez sur le bouton [+] pour ajouter une ligne la table Filter configuration et configurez les paramtres de filtre, afin de supprimer les enregistrements contenant le code 404 et de passer les autres enregistrements dans le flux de sortie : Dans le champ Logical, slectionnez AND. Dans le champ Column, slectionnez la colonne code du schma. Cochez la case NOT Dans le champ Operator, slectionnez equal. Dans le champ Value, saisissez 404.

3.

Dans la vue Basic settings du tPigFilterColumns, cliquez sur le bouton [...] pour ouvrir la bote de dialogue [Schema]. Dans le panneau Output, configurez deux colonnes, host et count, stockant les informations des adresses IP ainsi que le nombre de visites sur le site Web, respectivement.

246

Guide utilisateur de Talend Open Studio for Big Data

Transformer le scnario en Jobs

4. 5.

Dans la vue Basic settings du composant tPigAggregate, cliquez sur le bouton Sync columns afin de rcuprer le schma du composant prcdent et propagez-le au composant suivant. Configurez les paramtres suivants afin de compter le nombre d'occurrences de chaque adresse IP : Dans la zone Group by, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez la colonne count dans le champ Column. Dans la zone Operations, cliquez sur le bouton [+] pour ajouter une ligne la table et slectionnez la colonne count dans le champ Additional Output Column, slectionnez count dans la fonction Function et slectionnez la colonne host dans le champ Input Column.

6.

Dans la vue Basic settings du composant tPigSort, configurez les paramtres de tri, afin de trier les donnes passer : Cliquez sur le bouton [+] pour ajouter une ligne la table Sort key.

Guide utilisateur de Talend Open Studio for Big Data

247

Transformer le scnario en Jobs

Dans le champ Column, slectionnez count pour dfinir la colonne count comme cl. Dans le champ Order, slectionnez DESC pour trier les donnes en ordre descendant.

7.

Dans la vue Basic settings du tPigStoreResult, configurez les proprits du composant afin de charger les donnes de rsultats l'emplacement spcifi dans le systme Hadoop : Vrifiez le schma, rcuprez-le du composant prcdent si ncessaire. Dans le champ Result file, saisissez le chemin d'accs au fichier de rsultats. Dans la liste Store function, slectionnez PigStorage. Si ncessaire, cochez la case Remove result directory if exists.

B.3.2.4. Vrifier les rsultats d'analyse


Dans cette tape, vous construisez de dernier Job, comprenant deux composants, qui lit les donnes de rsultats depuis Hadoop et les affiche dans la console du systme. Vous allez ensuite excuter tous les Jobs un par un et vrifier les rsultats dans la console.

Choisir les composants et construire le dernier Job


1. 2. De la Palette, dposez un tHDFSInput et un tLogRow dans l'espace de modlisation graphique. Connectez les composants l'aide d'un lien Row > Main et nommez-les de manire identifier leur rle.

248

Guide utilisateur de Talend Open Studio for Big Data

Transformer le scnario en Jobs

Configurer le dernier Job


1. Double-cliquez sur le composant tHDFSInput pour ouvrir sa vue Basic settings.

2.

Pour les options suivantes, utilisez les mmes paramtres que dans le Job prcdent : Le schma doit contenir deux colonnes, host et count, selon la structure du fichier charg dans HDFS via la chane Pig dans le Job prcdent. La distribution et la version de Hadoop, HortonWorks et HortonWorks Data Platform V1. URI du NameNode, hdfs://talend-hdp:8020/.

3. 4. 5.

Dans le champ User name, saisissez un identifient pouvant accder au fichier dans HDFS. Dans le champ File Name, saisissez le chemin d'accs et le nom du fichier dans HDFS. Dans la vue Basic settings du tLogRow, slectionnez l'option Table.

Aprs avoir configur les quatre Jobs, vous pouvez les excuter un par un. Aprs russite de l'excution du dernier Job, la console systme affiche les adresses IP ainsi que les appels de services correctement excuts et le nombre de visites sur le site Web pour chaque adresse IP.
Guide utilisateur de Talend Open Studio for Big Data 249

Transformer le scnario en Jobs

250

Guide utilisateur de Talend Open Studio for Big Data

Annexe C. Routines systme


Cette annexe donne un aperu dune slection des routines les plus couramment employes, ainsi que des exemples dutilisation. Dans cette annexe, les routines sont prsentes dans lordre dans lequel elles apparaissent dans le Repository. Elles sont rassembles selon leur type et chaque type est dtaill dans une section diffrente. Pour plus dinformations concernant la dfinition des routines, laccs aux routines systme ou la gestion des routines systme ou personnalises, consultez le chapitre Gestion des routines. Avant de commencer un processus mtier (Job), vous devez vous tre familiaris avec linterface graphique de Talend Open Studio for Big Data. Pour plus dinformations, consultez la annexe Interface de Talend Open Studio for Big Data .

Guide utilisateur de Talend Open Studio for Big Data

Routines de type Numeric

C.1. Routines de type Numeric


Les routines numriques permettent de retourner des nombres entiers ou dcimaux afin de les utiliser comme paramtres dans un ou plusieurs composant(s) dun Job, par exemple pour ajouter un identifiant numrique. Pour accder ces routines, double-cliquez sur la classe Numeric du dossier system. La classe Numeric contient plusieurs routines, notamment : squentielle (sequence), alatoire (random) et dcimale (convertImpliedDecimalFormat) :
Routine sequence resetSequence removeSequence random convertImplied DecimalFormat Description Retourne un identifiant numrique incrment. Syntaxe
Numeric.sequence("Nom du Paramtre", valeur de dbut, valeur dincrment) de la

Cre une squence si elle nexiste pas et attribue Numeric.resetSequence (Identifiant une nouvelle valeur de dbut. squence, valeur de dbut) Supprime une squence.
Numeric.RemoveSequence squence) (Identifiant

de

la

Retourne un entier au hasard entre les valeurs Numeric.random(valeur minimale et maximale. valeur limite de fin)

limite

de

dbut,

Retourne un dcimal laide dun modle dcimal Numeric.convertImpliedDecimal implicite. Format("Format Cible", valeur convertir)

C.1.1. Exemple de cration squentielle


Vous pouvez tester simplement la routine sequence, laide dun composant tJava par exemple, pour contrler la cration dun identifiant incrment automatiquement :

Lidentifiant numrique est gnr et incrment automatiquement par la routine :

C.1.2. Exemple de conversion dcimale implicite


Vous pouvez tester simplement la routine convertImpliedDecimalFormat laide dun composant tJava, pour vrifier la conversion dun nombre dcimal implicite :

La valeur saisie en paramtre est convertie automatiquement par la routine selon le format dcimal implicite fourni :

C.2. Routines de type Relational


Les routines relationnelles permettent de vrifier une affirmation base sur des boolens.

252

Guide utilisateur de Talend Open Studio for Big Data

Routines de type StringHandling

Pour accder ces routines, double-cliquez sur la classe Relational du dossier system. La classe Relational contient plusieurs routines notamment :
Routine ISNULL Description vrifie si la variable donne est de valeur nulle. Syntaxe
Relational.ISNULL(variable vrifier)

Vous pouvez tester une routine Relational, comme la routine ISNULL, laide dun composant tJava par exemple :

Dans cet exemple, le rsultat de la vrification saffiche dans la vue Run :

C.3. Routines de type StringHandling


Les routines de traitement des chanes de caractres permettent deffectuer diffrents types doprations et de vrifications, bases sur des mthodes Java, sur des expressions alphanumriques. Pour accder ces routines, double-cliquez sur la classe StringHandling du dossier system. La classe StringHandling contient notamment les routines suivantes :
Routine ALPHA Description Syntaxe

vrifie si lexpression est trie par ordre StringHandling.ALPHA("chane vrifier") alphabtique. Retourne le boolen true si lordre alphabtique est vrifi, et false, dans le cas inverse. vrifie si lexpression ne contient que des StringHandling.IS_ALPHA("chane vrifier") caractres alphabtiques. Retourne le boolen true si cest le cas, et false dans le cas inverse. remplace un lment dune chane de caractres StringHandling.CHANGE("chane vrifier", par llment de remplacement dfini et retourne "chane remplacer","chane de la nouvelle chane. remplacement") retourne le nombre doccurrences dune sous- StringHandling.COUNT("chane chane dans une chane de caractres. "chane compter")
vrifier",

IS_ALPHA

CHANGE

COUNT DOWNCASE UPCASE DQUOTE INDEX

convertit toutes les majuscules dune expression en StringHandling.DOWNCASE("chane minuscules et retourne la nouvelle chane. convertir") convertit toutes les minuscules dune expression en StringHandling.UPCASE("chane convertir") majuscules et retourne la nouvelle chane. entoure une expression de guillemets doubles.
StringHandling.DQUOTE("chane traiter")

retourne la position, dans une chane de caractres, StringHandling.INDEX("chane du premier caractre de la sous-chane recherche. "sous-chane recherche") Si la sous-chane recherche nexiste pas dans la chaine, -1 est retourn.

vrifier",

Guide utilisateur de Talend Open Studio for Big Data

253

Exemple de vrification de tri alphabtique

Routine LEFT RIGHT LEN SPACE SQUOTE STR TRIM

Description

Syntaxe
vrifier",

retourne une sous-chane correspondant aux n StringHandling.LEFT("chane premiers caractres dune chane de caractres. nombre de caractres) retourne une sous-chane correspondant aux n StringHandling.RIGHT("chane derniers caractres dune chane de caractres. nombre de caractres) retourne la longueur dune chane de caractres.

vrifier",

StringHandling.LEN("chane vrifier") despaces

retourne une chane faite du nombre de caractres StringHandling.SPACE(nombre vides indiqu. crer) entoure une expression de guillemets simples.

StringHandling.SQUOTE("chane traiter") gnrer,

retourne un caractre rpt le nombre de fois StringHandling.STR(caractre indiqu. nombre de rptition)

supprime les espaces et les tabulations en dbut StringHandling.TRIM("chane traiter") et fin dune chane de caractres et retourne la nouvelle chane. supprime tous les espaces et les tabulations aprs StringHandling.BTRIM("chane traiter") le dernier caractre non vide dune chane de caractres et retourne la nouvelle chane. supprime tous les espaces et les tabulations StringHandling.FTRIM("chane traiter") jusquau premier caractre non vide dune chane de caractres et retourne la nouvelle chane.

BTRIM

FTRIM

C.3.1. Exemple de vrification de tri alphabtique


Vous pouvez tester simplement la routine ALPHA, laide dun composant tJava par exemple, pour vrifier si la chane est trie dans lordre alphabtique :

La vrification retourne un boolen.

C.3.2. Exemple de vrification de type alphabtique


Vous pouvez tester simplement la routine IS_ALPHA, laide dun composant tJava par exemple, pour vrifier si la chane est de type alphabtique ou non :

La vrification retourne un boolen.

254

Guide utilisateur de Talend Open Studio for Big Data

Exemple de remplacement de chane

C.3.3. Exemple de remplacement de chane


Vous pouvez tester simplement la routine CHANGE, laide dun composant tJava par exemple, pour contrler le remplacement dune chane par une autre :

La vrification retourne un boolen.

C.3.4. Exemple de vrification de chane


Vous pouvez tester simplement la routine INDEX, laide dun composant tJava par exemple, pour vrifier si la chane contient ou pas un caractre ou une chane de caractres :

La routine retourne un entier qui correspond la position du premier caractre de la chane recherche, ou retourne -1 si la chane recherche na pu tre trouve :

C.3.5. Exemple de calcul de longueur de chane


Vous pouvez tester simplement la routine LEN, laide dun composant tJava par exemple, pour contrler la longueur dune chane :

La vrification retourne un entier correspondant la longueur de la chane, y compris les espaces et caractres vides :

C.3.6. Exemple de nettoyage despaces inutiles


Vous pouvez tester simplement la routine FTRIM, laide dun composant tJava par exemple, afin de retirer, entre autres, une tabulation en tte de chane :

Guide utilisateur de Talend Open Studio for Big Data

255

Routines de type TalendDataGenerator

La vrification retourne la chane nettoye des espaces/tabulations prsents en dbut de chane.

C.4. Routines de type TalendDataGenerator


Les routines de gnration de donnes factices sont des fonctions qui permettent de gnrer des ensembles de donnes de test. Elles se basent sur les listes (factices) de noms, prnoms, adresses, villes et Etats fournies par Talend. Ces routines sont gnralement utilises au moment du dveloppement des Jobs, laide dun tRowGenerator par exemple, pour viter dutiliser des donnes de production ou de lentreprise. Pour accder ces routines, double-cliquez sur la classe TalendDataGenerator du dossier system :
Routine getFirstName Description Syntaxe

retourne un prnom pris alatoirement dans TalendDataGenerator.getFirstName() une liste factice de prnoms amricains courants. retourne un nom de famille pris TalendDataGenerator.getLastName() alatoirement dans une liste factice de noms de famille amricains courants. retourne une adresse prise alatoirement TalendDataGenerator.getUsStreet() dans une liste factice de rues amricaines courantes. retourne une ville prise alatoirement dans TalendDataGenerator.getUsCity() une liste de villes connues des Etats-Unis. retourne le nom dun Etat pris alatoirement TalendDataGenerator.getUsState() dans une liste des Etats amricains. retourne le code pris alatoirement dans une TalendDataGenerator.getUsStateId() liste dabrviations correspondant aux Etats amricains.

getLastName

getUsStreet

getUsCity getUsState getUsStateId

Aucun paramtre dentre nest attendu car la liste des donnes factices est fournie par Talend.

Vous pouvez personnaliser les donnes factices en modifiant les routines de gnration de donnes. Pour plus dinformations concernant la personnalisation des routines, consultez section Personnalisation des routines systme.

C.4.1. Exemple de gnration de donnes factices


Vous pouvez tester simplement les diffrentes fonctions de gnration de donnes alatoires, telles que getFirstName, getLastName, getUSCity, etc. laide dun composant tJava, pour tester, par exemple, la cration dune liste de donnes dun client factice :

256

Guide utilisateur de Talend Open Studio for Big Data

Routines de type TalendDate

Lensemble des donnes prises alatoirement dans les listes de donnes factices est affich dans la vue Run :

C.5. Routines de type TalendDate


Les routines de traitement de dates permettent deffectuer diffrents types dopration et de vrification sur le format des expressions de type Date. Pour accder ces routines, double-cliquez sur la classe TalendDate du dossier system :
Routine addDate Description Syntaxe

ajoute n jours, n mois, n heures, n minutes ou n TalendDate.addDate("String date initiale", secondes une Date Java et retourne la nouvelle "format Date - ex: yyyy/MM/dd", entier date. n,"format de la donne ajouter - ex :yyyy"). Le paramtre de format de donne Date est : "yyyy", "MM", "dd", "HH", "mm", "ss" ou "SSS".

compareDate

compare tout ou partie de deux dates, selon le TalendDate.compareDate(Date date1, Date modle date si spcifi. Retourne 0 si les dates sont date2, "format comparer - ex : yyyy-MM-dd ") identiques, 1 si la premire date est ultrieure la deuxime et -1 si elle est antrieure la deuxime. retourne la diffrence entre deux dates, en nombre TalendDate.diffDate(Date1(), Date2(), de jours, mois ou annes selon le paramtre de "format de donnes comparer - ex yyyy") comparaison spcifi. retourne la diffrence entre deux dates, en TalendDate.diffDateFloor(Date1(), Date2(), nombre dannes, mois, jours, heures, minutes, "format de donnes comparer - ex MM") secondes ou millisecondes selon le paramtre de comparaison spcifi. retourne une expression de type date formate TalendDate.formatDate("format de date - ex : selon le modle date spcifi. yyyy-MM-dd HH:mm:ss ", Date() formater) transforme une date en une chane de caractres TalendDate.formatDateLocale("format cible", de type date/heure selon le modle et la locale java.util.Date date, "code de la langue ou spcifis. Retourne la nouvelle date formate. du pays") retourne la date courante. Aucun paramtre TalendDate.getCurrentDate() dentre nest attendu. retourne les date et heure courantes dans le format TalendDate.getDate("Format de spcifi (optionnel). Cette chane peut contenir des caractre - ex : CCYY-MM-DD") chanes de caractres fixes, ou des variables lies la date. Par dfaut, le format de la chane de caractres attendu est DD/MM/CCYY. change le jour dune date en premier jour du mois TalendDate.getFirstDayMonth(Date) courant et retourne la nouvelle date. change le jour dune date en dernier jour du mois TalendDate.getLastDayMonth(Date) courant et retourne la nouvelle date. retourne une partie dune date dans le format TalendDate.getPartOfDate("Chane de spcifi. Cette chane peut contenir des chanes de caractres indiquant la partie de la date caractres fixes, ou des variables lies la date.
chane de

diffDate

diffDateFloor

formatDate formatDateLocale

getCurrentDate getDate

getFirstDayOf Month getLastDayOf Month getPartOfDate

Guide utilisateur de Talend Open Studio for Big Data

257

Exemple de formatage dune Date

Routine

Description

Syntaxe
rcuprer", "Chane de caractres au format date parser")

getRandomDate isDate

retourne une date alatoire, au format ISO.

TalendDate.getRandomDate("Chane de caractre de type Date, de ", String maxDate)

vrifie si lexpression est de type Date et TalendDate.isDate(Date() vrifier, "format correspond au modle spcifi. Retourne le de date cible - ex : yyyy-MM-dd HH:mm:ss ") boolen true si cest le cas, et false dans le cas inverse. transforme une chane de caractres en Date. TalendDate.parseDate("format date de la Retourne une date formate en standard. chane parser", "Chane de caractres au
format date parser")

parseDate

parseDateLocale

parse une chane de caractres correspondant un TalendDate.parseDateLocale("format date de la modle spcifi, et en extrait une date. Retourne chane parser", "Chane de caractres au une date formate selon la locale spcifie. format date parser", "code de la langue ou
du pays")

setDate

modifie une partie de la date en entre par un entier TalendDate.setDate(Date, entier n, "format de spcifi et bas sur le format spcifi. la donne changer - ex :yyyy")

C.5.1. Exemple de formatage dune Date


Vous pouvez tester simplement la routine formatDate, laide dun composant tJava par exemple, pour vrifier quune expression de type date est dans le format spcifi :

La date du jour est instancie par la fonction Java new date()et saffiche dans la vue Run :

C.5.2. Exemple de vrification dune Date


Vous pouvez tester simplement la routine isDate, laide dun composant tJava par exemple, pour vrifier quune expression de type date est dans le format spcifi :

Un boolen saffiche dans la vue Run :

C.5.3. Exemple de comparaison de Dates


Vous pouvez tester simplement la routine formatDate, laide dun composant tJava par exemple, pour vrifier si la date du jour est ultrieure une date spcifie, selon le format dfini :

258

Guide utilisateur de Talend Open Studio for Big Data

Exemple de configuration de Date

La date du jour est instancie par la fonction Java new date()et la valeur -1 saffiche dans la vue Run pour indiquer que la date du jour est en fait antrieure la date de rfrence :

C.5.4. Exemple de configuration de Date


Vous pouvez tester simplement la routine setDate, laide dun composant tJava, pour changer lanne de la date courante par exemple :

La date courante suivie de la nouvelle date configure saffiche dans la vue Run :

C.5.5. Exemple de parsage de Date


Vous pouvez tester simplement la routine parseDate, laide dun composant tJava, pour mettre une chane de type date au format Date par exemple :

La chane de caractres est transforme en Date et la date est retourne :

C.5.6. Exemple de rcupration dune partie dune Date


Vous pouvez tester simplement la routine getPartOfDate, laide dun composant tJava, pour rcuprer une partie dune date, par exemple :

Guide utilisateur de Talend Open Studio for Big Data

259

Exemple de formatage de la Date courante

Dans cet exemple, sont retourns le jour du mois (DAY_OF_MONTH), le mois (MONTH), lanne (YEAR), le numro de jour de lanne (DAY_OF_YEAR) et le numro de jour de la semaine (DAY_OF_WEEK). Toutes les donnes retournes sont de type numrique.

Dans la console de la vue Run, la chane de caractres qui renvoie aux mois (MONTH) va de 0 11 : 0 correspondant janvier, et 11 correspondant dcembre.

C.5.7. Exemple de formatage de la Date courante


Vous pouvez tester simplement la routine getDate, laide dun composant tJava, pour rcuprer la date courante et la formater selon un modle spcifi, par exemple :

La date courante est retourne selon le format spcifi (optionnel) :

C.6. Routines de type TalendString


Les routines de traitement de chanes de caractres Talend permettent deffectuer diverses oprations sur des expressions alphanumriques. Pour accder ces routines, double-cliquez sur la classe TalendString du dossier system. La classe TalendString contient notamment les routines suivantes :
Routine replaceSpecial CharForXML Description Syntaxe

retourne une chane de caractres o les TalendString.replaceSpecialCharForXML ("chane de caractres spciaux (ex : <, >, &...) ont caractres contenant les caractres spciaux - ex:
Thelma & Louise")

260

Guide utilisateur de Talend Open Studio for Big Data

Exemple de formatage XML dune chane

Routine

Description Syntaxe t remplacs par des caractres XML quivalents. identifie les chanes de caractres TalendString.checkCDATAForXML("chane commenant par <![CDATA[ et se caractres parser") terminant par ]]> en tant que XML et les retourne sans modification. Transforme les chanes identifies comme non-XML sous une forme compatible XML et les retourne ainsi formates.
de

checkCDATAFor XML

talendTrim

parse la chane de caractres en entre et TalendString.talendTrim("chane de caractres en retire le/les caractres de remplissage parser", "caractre de remplissage retirer", en dbut ou en fin de chane selon la position du caractre) valeur dalignement spcifie: -1 pour les caractres de remplissage de fin de chane, 1 pour ceux de dbut de chane et 0 pour les deux. Puis retourne la chane nettoye.

removeAccents

enlve les accents dune chane de TalendString.removeAccents("Chane caractres et retourne cette chane non caractres") accentue.

de

getAsciiRandom String

gnre une chane de caractres alatoire, TalendString.getAsciiRandomString (entier de la du nombre de caractres spcifis. longueur de chane)

C.6.1. Exemple de formatage XML dune chane


Vous pouvez tester simplement la routine replaceSpecialCharForXML, laide dun composant tJava, pour formater une chane de caractres pour le XML, par exemple :

Dans cet exemple, le caractre "&" est remplac pour tre intelligible en XML :

C.6.2. Exemple de trimming dune chane


Vous pouvez tester simplement la routine talendTrim, laide dun composant tJava, pour retirer des caractres de remplissage en dbut et en fin de chane, par exemple :

Les caractres toiles sont retirs alternativement en dbut puis en fin de chane, et enfin des deux cts :

Guide utilisateur de Talend Open Studio for Big Data

261

Exemple de dsaccentuation dune chane

C.6.3. Exemple de dsaccentuation dune chane


Vous pouvez tester simplement la routine removeAccents, laide dun composant tJava, pour remplacer les caractres accentus, par exemple :

Les caractres avec accent sont remplacs par des caractres sans accent :

262

Guide utilisateur de Talend Open Studio for Big Data

Annexe D. Rgles dcriture des SQL Templates


Ce chapitre illustre les rgles appliques la cration des modles SQL, dont le but est de permettre aux utilisateurs de Talend Open Studio for Big Data de lire, de comprendre et de dvelopper les modles SQL pour une utilisation plus personnelle de leur Studio. Ces rgles fournissent des informations que vous devez respecter lors de lcriture dune instruction modle, dune ligne de commentaire et dune syntaxe. Ces rgles fournissent galement des guides pour lutilisation du code SQL dans des exemples dutilisation prcis, comme par exemple laccs aux nombreux paramtres dfinis dans les composants.

Guide utilisateur de Talend Open Studio for Big Data

Instructions SQL

D.1. Instructions SQL


Une instruction SQL peut tre nimporte quelle instruction SQL valide excutable par la JDBC lie. Le code des modles SQL est un groupe dinstructions SQL. Les rgles de base pour crire une instruction SQL dans lditeur de modles SQL sont : Une instruction SQL doit se terminer par ;. Une instruction SQL peut stendre sur plusieurs lignes. Dans ce cas, seule la dernire ligne doit se terminer par ;.

D.2. Lignes de commentaire


Une ligne de commentaire commence par # ou --. Chaque ligne dbutant par # ou -- sera ignore lors de la gnration du code.
Aucune exception nest faite pour les lignes dans la partie du milieu dune instruction SQL, ou lintrieur de la syntaxe <%... %>.

D.3. La syntaxe <%...%>


Cette syntaxe peut stendre sur plusieurs lignes. Les points suivants listent ce que vous pouvez faire avec cette syntaxe, et ce quoi vous devez faire attention. Vous pouvez dfinir de nouvelles variables, utiliser le code logique Java, comme if, for et while et galement obtenir les valeurs des paramtres. Par exemple, si vous souhaitez obtenir le paramtre FILE_NAME, utilisez le code comme suit :
<% String filename = __FILE_NAME__; %>

Cette syntaxe ne peut tre utilise dans une instruction SQL. Elle doit tre utilise entre deux instructions SQL spares. Par exemple, la syntaxe dans le code suivant est valide :
#sql sentence DROP TABLE temp_0; <% #loop for (int i=1; i<10; i++) ( %> #sql sentence DROP TABLE temp_<%=i %>; <% ) %> #sql sentence DROP TABLE temp_10;

Dans cet exemple, la syntaxe est utilise entre deux modles SQL spars : DROP TABLE temp_0; et DROP TABLE temp_<%=i%>;.

264

Guide utilisateur de Talend Open Studio for Big Data

La syntaxe <%=...%>

Les instructions SQL ont pour but de supprimer plusieurs tables, en commenant par temp_0. Le code entre <% et %> gnre un nombre de squences dans la boucle, afin d'identifier les tables supprimer et fermer la boucle aprs la gnration du nombre de squences. A l'intrieur de cette syntaxe, la syntaxe <%=...%> ou </.../> ne doit pas tre utilise.
<%=%> et </.../>, sont galement des syntaxes lies aux modles SQL. Les sections suivantes donnent des

informations relatives ces syntaxes.


Les paramtres auxquels les modles SQL peuvent accder grce cette syntaxe sont simples. Ils sont souvent utiliss lors de connexions et peuvent tre facilement dfinis dans les composants, par exemple TABLE_NAME, DB_VERSION, SCHEMA_TYPE, etc.

D.4. La syntaxe <%=...%>


Cette syntaxe ne peut stendre sur plusieurs lignes et elle est utilise dans des instructions SQL. Les points suivants listent ce que vous pouvez faire avec cette syntaxe, et ce quoi vous devez faire attention. Elle peut tre utilise pour gnrer toute valeur de variable et toute valeur des paramtres existants. Les caractres despacement sont autoriss aprs <%=. A lintrieur de la syntaxe, la syntaxe <%%> ou <//> ne doit pas tre utilise. Linstruction dans lexemple ci-dessous est valide :
#sql sentence DROP TABLE temp_<%=__TABLE_NAME__ %>;

Le code est utilis pour supprimer la table dfinie laide dun composant associ. Pour plus dinformations concernant les composants associs aux modles SQL, consultez le chapitre chapitre Conception dun Job dintgration de donnes. Pour plus dinformations concernant la syntaxe <%...%>, consultez la section section La syntaxe <%...%>. Pour plus dinformations concernant la syntaxe </.../>, consultez la section suivante.
Les paramtres auxquels les modles SQL peuvent accder grce cette syntaxe sont simples. Ils sont souvent utiliss lors de connexions et peuvent tre facilement dfinis dans les composants, par exemple TABLE_NAME, DB_VERSION, SCHEMA_TYPE, etc.

D.5. La syntaxe </.../>


Cette syntaxe ne peut stendre sur plusieurs lignes. Les points suivants listent ce que vous pouvez faire avec cette syntaxe, et ce quoi vous devez faire attention. Elle peut tre utilise pour gnrer la valeur des paramtres existants. La valeur gnre ne doit pas tre entoure de guillemets. Aucun caractre despacement n'est autoris aprs </ ou avant />. A lintrieur de cette syntaxe, la syntaxe <%%> ou <%=%> ne doit pas tre utilise. Linstruction crite dans lexemple ci-dessous est valide :

Guide utilisateur de Talend Open Studio for Big Data

265

Le code pour accder aux lments du schma des composants

#sql sentence DROP TABLE temp_</TABLE_NAME/>;

L'instruction accde au paramtre TABLE_NAME et supprime la table correspondante. Pour plus dinformations concernant la syntaxe <%...%>, consultez la section La syntaxe <%...%>. Pour plus dinformations concernant la syntaxe <%=...%>, consultez la section prcdente. Les sections suivantes prsentent un code plus spcifique pour accder des paramtres plus complexes.
Les paramtres auxquels les modles SQL peuvent accder grce cette syntaxe sont simples. Ils sont souvent utiliss lors de connexions et peuvent tre facilement dfinis dans les composants, par exemple TABLE_NAME, DB_VERSION, SCHEMA_TYPE, etc.

D.6. Le code pour accder aux lments du schma des composants


Les lments du schma des composants sont prsents dans une liste comprenant le nom des colonnes des schmas (spars par un point .). Ces lments sont crs et dfinis par les utilisateurs dans les composants. Le code ci-dessous propose un exemple daccs certains lments du schma des composants. Dans cet exemple, le nom de la variable ELT_METADATA_SHEMA est utilis pour obtenir le schma du composant.
<% String query = "select "; SCHEMA(__ELT_METADATA_SHEMA__); for (int i=0; i < __ELT_METADATA_SHEMA__.length ; i++) { query += (__ELT_METADATA_SHEMA__[i].name + ","); } query += " from " + __TABLE_NAME__; %> <%=query %>;

Dans cet exemple, selon vos objectifs, le code __ELT_METADATA_SHEMA__[i].name peut tre remplac par __ELT_METADATA_SHEMA__[i].dbType, __ELT_METADATA_SHEMA__ [i].isKey, __ELT_METADATA_SHEMA__[i].length ou __ELT_METADATA_SHEMA__[i].nullable pour accder aux autres champs des colonnes du schma. Linstruction extraite est SCHEMA(__ELT_METADATA_SHEMA__);. Dans cette instruction, ELT_METADATA_SHEMA est le nom de la variable reprsentant les paramtres du schma extraire. Le nom utilis dans ce code est simplement un exemple. Vous pouvez changer ce nom en nom dune autre variable, afin de reprsenter les paramtres de schma, selon votre systme de nommage. Vrifiez que le nom que vous saisissez nentrera en conflit avec aucun autre paramtre. Pour plus dinformations concernant les schmas des composants, consultez la section Onglet Basic settings.

D.7. Le code pour accder aux proprits de la matrice du composant


Les proprits de la matrice du composant sont cres et modifies par les utilisateurs selon les diffrents objectifs de transformation des donnes. Ces proprits sont dfinies par des paramtres dans des tableaux. Par exemple, les paramtres operation ou groupby peuvent tre dfinis par les utilisateurs dans le composant tSQLTemplateAggregate.

266

Guide utilisateur de Talend Open Studio for Big Data

Le code pour accder aux proprits de la matrice du composant

Vous pouvez accder ces paramtres de transformation, naturellement plus flexibles et complexes, de deux faons diffrentes. Lapproche </.../>.
</.../> est lune des syntaxes utilises par les modles SQL. Cette approche ncessite souvent du code dur pour

chaque paramtre extraire. Par exemple, un nouveau paramtre est cr par lutilisateur et nomm NEW_PROPERTY. Si vous souhaitez y accder en utilisant </NEW_PROPERTY/>, le code ci-dessous est requis.
else if (paramName.equals("NEW_PROPERTY")) { List<Map<String, String>> newPropertyTableValue = (List<Map<String, String>>) ElementParameterParser.getObjectValue(node, "__NEW_PROPERTY__"); for (int ii = 0; ii <newPropertyTableValue.size(); ii++) { Map<String, String> newPropertyMap =newPropertyTableValue.get(ii); realValue += ...;//append generated codes } }

Lapproche EXTRACT(__GROUPBY__);. Le code ci-dessous montre la seconde mthode daccs au paramtre de transformation (GROUPBY).
<% String query = "insert into " + __TABLE_NAME__ + "(id, name, date_birth) select sum(id), name, date_birth from cust_teradata group by"; EXTRACT(__GROUPBY__); for (int i=0; i < __GROUPBY_LENGTH__ ; i++) { query += (__GROUPBY_INPUT_COLUMN__[i] + " "); } %> <%=query %>;

Lors de lencodage des instructions, respectez les rgles comme suit : Linstruction extraite doit utiliser EXTRACT(__GROUPBY__);. Les majuscules sont requises, et les caractres despacement ne sont pas autoriss. Cette instruction doit tre utilise entre <% et %>. Utilisez le code __GROUPBY_LENGTH__, dans lequel le nom du paramtre, suivi de _LENGTH, permet dobtenir le numro de ligne des paramtres du tableau GROUPBY dfinis dans la zone Groupby de la vue Component. Il peut tre utilis entre <% et %> ou <%= et %>. Utilisez le code __GROUPBY_INPUT_COLUMN__[i] afin dextraire les valeurs des paramtres. Il peut tre utilis entre <% et %> ou entre <%= et %>. Pour accder aux paramtres correctement, nutilisez pas le mme prfixe pour le nom de plusieurs paramtres. Par exemple, dans un composant, vitez de dfinir deux paramtres avec le nom PARAMETER_NAME et PARAMETER_NAME_2, car plusieurs prfixes semblables produisent des erreurs lors de la gnration du code.

Guide utilisateur de Talend Open Studio for Big Data

267

Guide utilisateur de Talend Open Studio for Big Data