Documente Academic
Documente Profesional
Documente Cultură
Classification Niveau 1
ITESOFT - Confidentiel
Page de Rfrence
Rfrence
Nom du manuel : Cahier dexercices Classification Niveau 1 .
Nom du fichier : FME_N1_Classif_Exercices_FR
Description
Ce manuel contient les exercices de la formation de transfert de comptences de la classification
niveau 1 de ITESOFT.FreeMind Enterprise. Il est constitu d'une srie d'exercices, suivis de leurs
corrections. Ces dernires pouvant tre masques selon les options d'impression.
Contexte
Produit : ITESOFT.FreeMind Enterprise, version 2.5.4.
Documentation associe
Plan de formation du transfert de comptences (FME_Training_Plans_FR.doc)
Diaporama du support de cours (FME_N1_Classif_Presentation_FR.pptm)
Manuel utilisateur de production (ManUti
Manuel d'optimisation FME (ManUtiFMEOptim_FR.pdf)
Toolkit FreeMind (Itesoft FreeMind Toolkit.chm)
Toolkit FME (FME.chm)
Manuel utilisateur FreeLearn (ManUtiFreeLearn_FR.pdf)
Auteur
Frdric Allin, ITESOFT
2/13
05/06/2014
ITESOFT - Confidentiel
3/13
05/06/2014
ITESOFT - Confidentiel
4/13
05/06/2014
ITESOFT - Confidentiel
1. Terminologie
Modle, Modle de lecture, Modle LAD : masque d'extraction des champs (index) par
positions gographique fixes (zones rectangles).
(Lecture) Full-Text : Extraction (par OCR) brute de la totalit des mots d'un document.
(Extraction) Full-Text : Technologie d'extraction non contrainte des champs (index). Le moteur
Full-Text recherche, dans un rsultat de lecture Full-Text, des mots ou expressions
remplissant des critres pr-dfinis (distance et direction par rapport un ou plusieurs motcls, format).
5/13
05/06/2014
ITESOFT - Confidentiel
2. Exercices
Pr-requis stagiaire : formation "Prsentation Fonctionnelle"
Pr-requis technique : La plate-forme FME installe, sans base de connaissance.
5 formulaires (seuls les 2 premiers seront traits dans le module de formation N1. Les
autres seront traits dans le module N2), suivis de 1 2 PJ.
Type Lot
Type Pli
Doc matre
PJ1
PJ2
Demandes
d'aide
DA Energie
Justif frais
(facture GDF
ou EDF)
DA Scolarit
IA Scolarit
Certif. Scolarit
2. Questions se poser :
- "Vaut-il mieux une seule classe de doc IA ou une par type d'IA ?"
- "Vaut-il mieux une seule classe de pli DA ou une par type de DA ?"
Avantages : permet des rgles de composition plus stricte (ex : formulaire obligatoire en
1er position, Avis d'Impt en 2e )
>> Dcision dpend du besoin client ! (fichier fournir en sortie, habitudes de travail )
6/13
05/06/2014
ITESOFT - Confidentiel
Chaque document est constitu de 2 pages (paramtre Nombre fixe de fichiers = 2).
Source : %NomFamille%\%NomEchantillon%
Renommage : %NomFamille%_%NomEchantillon%_%Sequence%
Utilisez l'explorateur de mtadonnes pour crer des regroupements par famille et vrifiez
sur quelques chantillons que l'tiquetage (nom de la famille) et le contenu (2 pages) sont
corrects.
Explorez les autres fonctionnalits de cet onglet (filtre, tri, grille, affichage du rsultat de
lecture, "fil d'Ariane").
Menu Outils :
7/13
05/06/2014
ITESOFT - Confidentiel
Pas d'historique des traitements : il n'est pas possible de savoir a posteriori quels
traitements ont t appliqus sur un chantillon. Le 2e bouton permet de les appliquer
seulement sur les chantillons de la slection sur lesquels ils n'ont pas encore t
appliqus.
Un chantillon (Avis Impt) tait dans le mauvais rpertoire (Fac-Energie) : corrigez son
tiquetage (Type danalyse "Diagnostic", Panneau "Outils", lavertissement peut ensuite
tre effac).
Diffrence entre "contrle qualit" et "FreeText Mining" :
Contrle qualit : faire une qualification du rfrentiel dchantillons. Le systme va proposer
une organisation (sans tenir compte des familles d'appartenance) qui sera compare avec
lorganisation des familles initiales.
Objectif : dtecter des erreurs d'tiquetage, dtecter des familles semblables.
Text mining : rechercher une "signature" caractrisant chaque famille. Le systme va tenir
compte des familles dappartenance pour lanalyse statistique.
Objectif : tre capable d'identifier un nouveau document en comparant sa signature aux
signatures connues.
Alimentez le jeu d'apprentissage des librairies FreeShape et FreeText Mining avec les
chantillons imports. (98 chantillons imports, en fait 2 x 49 dont 80 partiellement=ils
avaient une page blanche qui n'a pas t importe.)
2. Classification|Stratgie
Utilisez la stratgie standard pour mettre jour la stratgie de la classe de lots : "Lot par
dfaut".
8/13
05/06/2014
ITESOFT - Confidentiel
2. Analysez les rsultats et retrouvez la raison des hsitations (Onglet "Dtails", regroupement
par statut).
Score par famille : Nombreuses hsitations et confusions sur les IAEnergie et IAScol
(normal, ils sont identiques !).
Alertes : les objectifs sont dfinis dans les proprits de chaque classe (onglet
Apprentissage).
Aucun rsultat de classification de page car les pages des chantillons ne sont pas tiquetes.
Graphique
Hsitations entre les IA Energie et les IA Scolarit (ces hsitations avaient t dtectes
par le contrle qualit). Les deux types de formulaires ne pourront tre distingus qu'en
utilisant la troisime technologie qui recherche des groupes de mots dans des zones
gographiques restreintes : FreeText.
Sur les premires pages, ajoutez une zone de recherche du titre du document.
Parcourez les chantillons pour vrifier que le titre est toujours dans la zone de recherche.
Il est possible de ne dfinir qu'une seule fois la zone de recherche et d'y faire rfrence avec
une expression boolenne. Nanmoins, il est recommand de re-crer la zone pour chaque
classe car cela facilite la comprhension visuelle du paramtrage.
9/13
05/06/2014
ITESOFT - Confidentiel
Si vous parcourez les images de l'lment, vous constatez, dans le volet de visualisation, que
le mot recherch s'affiche en surbrillance sur l'image. C'est une recherche simplifie qui n'est
pas l'exact reflet du rsultat complet d'extraction. Par exemple cette recherche simplifie ne
retient que les mots qui correspondent 100%, sans tenir compte du taux de confiance. Cette
recherche simplifie ne doit tre utilise que comme une indication. Seule l'excution d'un test
fera appel au rel moteur d'extraction.
Fusionnez les deuximes pages car elles ne peuvent pas tre distingues.
Bien que les deuximes pages ne contiennent pas d'informations utiles l'exploitation,
paramtrer leur classification a deux avantages :
- Renforcer la classification du document en "s'ajoutant" la classification des premires pages.
- Faciliter la structuration en dlimitant la fin du document.
Sur les deuximes pages, ajoutez une zone de recherche sur le texte "Comment remplir
votre demande".
Dans FreeLearn Shape, slectionnez la 1re page IAScol, puis choisissez Fusionner
avec dans le menu contextuel.
Dans FreeText Mining, vous pouvez sparer les factures EDF et GDF en deux lments
distincts. Cela permet de rendre l'apprentissage plus spcifique donc plus robuste. (Dans
FreeShape cela est fait automatiquement par l'apprentissage.)
Par contre, elles ne doivent pas tre scindes en deux familles (ni dans FreeText Mining, ni
dans FreeShape), sauf si un traitement d'extraction spcifique chacune tait requis.
10/13
05/06/2014
ITESOFT - Confidentiel
3. Crez une collection appele "Validation" qui regroupe tous les chantillons "non appris".
4. Lancez la simulation sur les chantillons de validation .
Hsitations. L'un des chantillons IAScol avait t mal tiquet. Corrigez son nom de
famille (clic droit "Aller l'chantillon" => il est slectionn dans l'tape Organisation).
11/13
05/06/2014
ITESOFT - Confidentiel
3. Liez ces classes de plis la classe de lots par dfaut (sans contrainte, multi-selection
possible). Retirez la classe de pli par dfaut de la classe de lots par dfaut.
4. Mettre en production toutes les classes + les librairies FreeLearn (Menu contextuel de la
classe de lot-> Envoyer en production).
Comparer les images prsentes avec les images d'origine (pages blanches supprimes,
rotation des images, Avis d'impt A3 rduit en A4 reconnu, AI 2010 reconnu bien que non
appris).
Un avis d'imposition non requis dans un pli DAscol : supprimez ou classifiez comme pice
jointe.
Deux document "Certificat de scolarit" non reconnu : non conforme avec le jeu
d'apprentissage des nouveaux chantillons d'apprentissage sont ncessaires.
Aprs avoir corrig les erreurs, vrifiez les fichiers d'export produits par dfaut dans le
rpertoire \sle\exchange\Output\Export\SI (1 multi-tif/doc + 1 XML/pli).
12/13
05/06/2014
ITESOFT - Confidentiel
Exclure l'chantillon.
Diffrence entre "chantillons exclus" et "jeu d'exclusion" :
- les chantillons exclus appartiennent une famille classifier mais ne sont pas pertinents
pour l'apprentissage (trop diffrents, trop singuliers)
- les chantillons du jeu d'exclusion reprsentent des documents qui peuvent se rencontrer
dans le flux, mais que lon ne souhaite pas classifier automatiquement car ce sont des familles
trs peu frquentes (faible pourcentage du flux entrant).
6. Dans Studio, crez une nouvelle stratgie de classification base sur l'existante. Dans cette
nouvelle stratgie, au niveau Pages et Documents, remplacez la librairie FTM.
7. Lancez une simulation en utilisant cette nouvelle stratgie sur tous les nouveaux Certificats de
scolarit (49 chantillons - 30s). Il y a plus d'chantillons "inconnus" que lors du test dans
FreeLearn, pourquoi ?
8. Mettez en production la nouvelle librairie et mettez jour la classe de lots avec la nouvelle
stratgie.
9. Refaites un test sur le lot de recette.
13/13
05/06/2014