Sunteți pe pagina 1din 13

Cahier dexercices

Classification Niveau 1

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

Page de Rfrence

Rfrence
Nom du manuel : Cahier dexercices Classification Niveau 1 .
Nom du fichier : FME_N1_Classif_Exercices_FR
Description
Ce manuel contient les exercices de la formation de transfert de comptences de la classification
niveau 1 de ITESOFT.FreeMind Enterprise. Il est constitu d'une srie d'exercices, suivis de leurs
corrections. Ces dernires pouvant tre masques selon les options d'impression.
Contexte
Produit : ITESOFT.FreeMind Enterprise, version 2.5.4.
Documentation associe
Plan de formation du transfert de comptences (FME_Training_Plans_FR.doc)
Diaporama du support de cours (FME_N1_Classif_Presentation_FR.pptm)
Manuel utilisateur de production (ManUti
Manuel d'optimisation FME (ManUtiFMEOptim_FR.pdf)
Toolkit FreeMind (Itesoft FreeMind Toolkit.chm)
Toolkit FME (FME.chm)
Manuel utilisateur FreeLearn (ManUtiFreeLearn_FR.pdf)
Auteur
Frdric Allin, ITESOFT

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

2/13

05/06/2014

ITESOFT - Confidentiel

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

ITESOFT.FreeMind Enterprise V2.5.4

3/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

Table des matires


1. Terminologie .................................................................................................................................... 5
2. Exercices ......................................................................................................................................... 6
2.1. Analyse pralable du projet ................................................................................................... 6
2.2. Importer les chantillons d'exemple fournis ........................................................................... 6
2.3. Apprendre les chantillons d'apprentissage .......................................................................... 8
2.4. Simuler la classification du jeu d'apprentissage .................................................................... 8
2.5. Paramtrer la troisime technologie de classification : FreeText .......................................... 9
2.6. Valider l'apprentissage sur des chantillons "non appris" ................................................... 11
2.7. Mettre la base de connaissance en production ................................................................... 11
2.8. Tester un lot de recette dans le flux de production .............................................................. 12
2.9. Mettre jour la base de connaissance ................................................................................ 13
2.10. (Optionnel) utiliser FreeText pour amliorer la reconnaissance des certificats de
scolarit ...................................................................................................................................... 13

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

4/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

1. Terminologie

Lecture Automatique de Document (LAD) : technologie traditionnelle d'extraction de champs


(index) par modle.

Modle, Modle de lecture, Modle LAD : masque d'extraction des champs (index) par
positions gographique fixes (zones rectangles).

(Lecture) Full-Text : Extraction (par OCR) brute de la totalit des mots d'un document.

(Extraction) Full-Text : Technologie d'extraction non contrainte des champs (index). Le moteur
Full-Text recherche, dans un rsultat de lecture Full-Text, des mots ou expressions
remplissant des critres pr-dfinis (distance et direction par rapport un ou plusieurs motcls, format).

Video-codage : action utilisateur de validation et correction des champs (types de document


ou index).

Masque de video-codage, masque de validation : interface de saisie des champs, compose


gnralement d'une fentre image, d'un arbre de composition de l'entit en cours, d'un
formulaire de saisie des champs.

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

5/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

2. Exercices
Pr-requis stagiaire : formation "Prsentation Fonctionnelle"
Pr-requis technique : La plate-forme FME installe, sans base de connaissance.

2.1. Analyse pralable du projet


1. Analysez les spcifications et les images d'exemple fournis.

5 formulaires (seuls les 2 premiers seront traits dans le module de formation N1. Les
autres seront traits dans le module N2), suivis de 1 2 PJ.

Type Lot

Type Pli

Doc matre

PJ1

PJ2

Demandes
d'aide

DA Energie

Imprim Aide (IA)


Energie

Avis Impt (AI)

Justif frais
(facture GDF
ou EDF)

DA Scolarit

IA Scolarit

Certif. Scolarit

2. Questions se poser :
- "Vaut-il mieux une seule classe de doc IA ou une par type d'IA ?"
- "Vaut-il mieux une seule classe de pli DA ou une par type de DA ?"

Une seule classe :

Avantages : 1 seul pli dclarer, possibilit de factoriser

Inconvnients : rgle de construction de pli, affichage indiffrenci

Un pli par type d'aide :

Avantages : permet des rgles de composition plus stricte (ex : formulaire obligatoire en
1er position, Avis d'Impt en 2e )

Inconvnients : rpter le paramtrage pour chaque type d'aide

>> Dcision dpend du besoin client ! (fichier fournir en sortie, habitudes de travail )

2.2. Importer les chantillons d'exemple fournis


1. Prparation des chantillons (fournis).
2. Lancez Studio depuis ClassManage.

Crez un catalogue (par exemple : "FMECatalog").

Explorez/Dcouvrez les diffrents crans.

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

6/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

3. Dans l'tape Traitement, dsactivez la binarisation et crez un nouveau profil de traitement


("FMEClassif -no binarize").
Partir du profil FME Classification pour crer le nouveau profil.
4. Importez les chantillons depuis les rpertoires fournis :

Ajoutez le rpertoire source "N1 Classif\1-Apprentissage". Il contient un sous-rpertoire


par famille.

Les images ont t scannes recto/verso.

Chaque document est constitu de 2 pages (paramtre Nombre fixe de fichiers = 2).

Source : %NomFamille%\%NomEchantillon%

Renommage : %NomFamille%_%NomEchantillon%_%Sequence%

Appliquez le profil de traitement cr prcdemment.

Slectionnez toutes les images (CTRL+A)

Lancez l'import (178 fichiers/89 documents ; environ 5mn).

5. Dans l'tape Organisation, vrifiez les chantillons imports.

Utilisez l'explorateur de mtadonnes pour crer des regroupements par famille et vrifiez
sur quelques chantillons que l'tiquetage (nom de la famille) et le contenu (2 pages) sont
corrects.

Explorez les autres fonctionnalits de cet onglet (filtre, tri, grille, affichage du rsultat de
lecture, "fil d'Ariane").

6. Crez les classes de documents partir des tiquettes de familles.

Menu Outils :

Vrifiez la cration des classes de documents dans ClassManage.

Dfinissez les IA comme sparateurs de plis (proprits des classes de documents).

7. Etape Traitement : les traitements ont dj t appliqus l'import en utilisant le profil.

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

7/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

Pas d'historique des traitements : il n'est pas possible de savoir a posteriori quels
traitements ont t appliqus sur un chantillon. Le 2e bouton permet de les appliquer
seulement sur les chantillons de la slection sur lesquels ils n'ont pas encore t
appliqus.

8. Lancez le contrle qualit sur tous les chantillons .

Classes IAEnergie et IAScolarit semblables (ok, seront spares par FreeText).

Un chantillon (Avis Impt) tait dans le mauvais rpertoire (Fac-Energie) : corrigez son
tiquetage (Type danalyse "Diagnostic", Panneau "Outils", lavertissement peut ensuite
tre effac).
Diffrence entre "contrle qualit" et "FreeText Mining" :
Contrle qualit : faire une qualification du rfrentiel dchantillons. Le systme va proposer
une organisation (sans tenir compte des familles d'appartenance) qui sera compare avec
lorganisation des familles initiales.
Objectif : dtecter des erreurs d'tiquetage, dtecter des familles semblables.
Text mining : rechercher une "signature" caractrisant chaque famille. Le systme va tenir
compte des familles dappartenance pour lanalyse statistique.
Objectif : tre capable d'identifier un nouveau document en comparant sa signature aux
signatures connues.

9. Etape Export : permet d'exporter des chantillons (sauvegarde, transfert).

2.3. Apprendre les chantillons d'apprentissage


1. Classification|Librairie

Alimentez le jeu d'apprentissage des librairies FreeShape et FreeText Mining avec les
chantillons imports. (98 chantillons imports, en fait 2 x 49 dont 80 partiellement=ils
avaient une page blanche qui n'a pas t importe.)

Apprenez les librairies Shape+TMI.

2. Classification|Stratgie

Etudiez la stratgie standard, sans la modifier.

Utilisez la stratgie standard pour mettre jour la stratgie de la classe de lots : "Lot par
dfaut".

2.4. Simuler la classification du jeu d'apprentissage


1. Lancez la simulation sur tous les chantillons avec la stratgie standard .

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

8/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

2. Analysez les rsultats et retrouvez la raison des hsitations (Onglet "Dtails", regroupement
par statut).

Vue de synthse globale

Score par famille : Nombreuses hsitations et confusions sur les IAEnergie et IAScol
(normal, ils sont identiques !).

Alertes : les objectifs sont dfinis dans les proprits de chaque classe (onglet
Apprentissage).

Niveau de vote : "Pourcentage de rponses" (rpartition des candidats trouvs selon


les 3 niveaux de la stratgie : Shape, Text et Text Mining)

Aucun rsultat de classification de page car les pages des chantillons ne sont pas tiquetes.

Vue "Classification des documents" (Filtre par famille possible)

Graphique

Dtail : regroupez ou filtrez par t


confusion)

at (4 possibles :russite, hsitation, inconnu,

Hsitations entre les IA Energie et les IA Scolarit (ces hsitations avaient t dtectes
par le contrle qualit). Les deux types de formulaires ne pourront tre distingus qu'en
utilisant la troisime technologie qui recherche des groupes de mots dans des zones
gographiques restreintes : FreeText.

2.5. Paramtrer la troisime technologie de classification : FreeText


1. Alimentez la librairie FreeText avec les chantillons d'apprentissage.
2. Ouvrez la librairie.
3. Dans l'outil FreeLearn, supprimez les classes techniques autres que IAEnergie et IAScol (les
chantillons sont dplacs dans la corbeille. Si vous les supprimez de la corbeille, une boite
de dialogue vous demande si vous souhaitez les supprimer galement du catalogue).
Vous auriez galement pu filtrer le jeu d'apprentissage pour n'alimenter la librairie qu'avec les
chantillons IAEnergie et IAScol.

4. Configurez les classes IAEnergie et IAScol.

Sur les premires pages, ajoutez une zone de recherche du titre du document.

Parcourez les chantillons pour vrifier que le titre est toujours dans la zone de recherche.

Il est possible de ne dfinir qu'une seule fois la zone de recherche et d'y faire rfrence avec
une expression boolenne. Nanmoins, il est recommand de re-crer la zone pour chaque
classe car cela facilite la comprhension visuelle du paramtrage.

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

9/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

Si vous parcourez les images de l'lment, vous constatez, dans le volet de visualisation, que
le mot recherch s'affiche en surbrillance sur l'image. C'est une recherche simplifie qui n'est
pas l'exact reflet du rsultat complet d'extraction. Par exemple cette recherche simplifie ne
retient que les mots qui correspondent 100%, sans tenir compte du taux de confiance. Cette
recherche simplifie ne doit tre utilise que comme une indication. Seule l'excution d'un test
fera appel au rel moteur d'extraction.

Fusionnez les deuximes pages car elles ne peuvent pas tre distingues.
Bien que les deuximes pages ne contiennent pas d'informations utiles l'exploitation,
paramtrer leur classification a deux avantages :
- Renforcer la classification du document en "s'ajoutant" la classification des premires pages.
- Faciliter la structuration en dlimitant la fin du document.

Sur les deuximes pages, ajoutez une zone de recherche sur le texte "Comment remplir
votre demande".

Apprenez la librairie puis testez le jeu d'apprentissage dans FreeLearn (Diagramme|Taux


de russite par classe ou Dtail|Regrouper par classe = 100% de russite pour les IA).

5. Dans Studio, re-lancez une simulation sur le jeu d'apprentissage complet .

Il reste des hsitations et des confusions . Pourquoi ? Analysez les rsultats.


Les IA Energie et les IA Scolarit ne peuvent pas tre spares par les technologies
FreeShape et FreeText Mining

6. Pour ces deux librairies, fusionnez les classes et renommez-les.

Dans FreeLearn Shape, slectionnez la 1re page IAScol, puis choisissez Fusionner
avec dans le menu contextuel.

Dans la liste affiche, choisissez la 1re page IAEnergie et fusionnez.

Renommez en IAide_R dans les proprits de la classe.

Rptez ces oprations pour les 2imes pages et renommez en IAide_V.

Refaites lapprentissage et lancez le test.

Dans FreeLearn TextMining, fusionnez les classes techniques IAEnergie et IAScol et


renommez la classe qui en rsulte en IAide.

Refaites galement lapprentissage et lancez le test.

Dans FreeText Mining, vous pouvez sparer les factures EDF et GDF en deux lments
distincts. Cela permet de rendre l'apprentissage plus spcifique donc plus robuste. (Dans
FreeShape cela est fait automatiquement par l'apprentissage.)
Par contre, elles ne doivent pas tre scindes en deux familles (ni dans FreeText Mining, ni
dans FreeShape), sauf si un traitement d'extraction spcifique chacune tait requis.

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

10/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

2.6. Valider l'apprentissage sur des chantillons "non appris"


1. Crez une collection "Apprentissage" qui regroupe tous les chantillons utiliss pour
l'apprentissage.
Vous pouvez aussi utiliser les couleurs pour distinguer certains chantillons (exemple : utilisez le
vert pour marquer les chantillons d'apprentissage).

Il n'existe pas de lien formel entre la collection "Apprentissage" et "jeu d'apprentissage"


dans les librairies FreeLearn. Il n'est pas possible de synchroniser un jeu
d'apprentissage FreeLearn avec une collection Studio.

2. Importez les chantillons depuis les rpertoires fournis :

Ajoutez le rpertoire source "Classif N1\2-Validation". Il contient un sous-rpertoire par


famille (184 chantillons recto/verso de 2 pages).

3. Crez une collection appele "Validation" qui regroupe tous les chantillons "non appris".
4. Lancez la simulation sur les chantillons de validation .

Hsitations. L'un des chantillons IAScol avait t mal tiquet. Corrigez son nom de
famille (clic droit "Aller l'chantillon" => il est slectionn dans l'tape Organisation).

Inconnus. Documents trop diffrents de ceux appris.

Constatez la robustesse de l'apprentissage FreeText Mining : malgr la forte variabilit,


presque tous les avis d'impt sont reconnus.

2.7. Mettre la base de connaissance en production


1. Dans ClassManage, crez deux classes de plis : DAEnergie et DAScol (cochez "rpertoire de
sortie").
2. Liez ces classes de plis leurs classes de documents correspondantes. Reliez-les galement
la classe "Pice jointes" (sans contrainte).

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

11/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

3. Liez ces classes de plis la classe de lots par dfaut (sans contrainte, multi-selection
possible). Retirez la classe de pli par dfaut de la classe de lots par dfaut.
4. Mettre en production toutes les classes + les librairies FreeLearn (Menu contextuel de la
classe de lot-> Envoyer en production).

2.8. Tester un lot de recette dans le flux de production


1. Placez les images dans le rpertoire E.CAPF (\N1 Classif\3-Recette).
2. Capturez le lot depuis le module Launch (Capture Scanner, options par dfaut).
3. Analysez les rsultats en videocodage (WebCheck-Classification manuelle).

Comparer les images prsentes avec les images d'origine (pages blanches supprimes,
rotation des images, Avis d'impt A3 rduit en A4 reconnu, AI 2010 reconnu bien que non
appris).

Un avis d'imposition non requis dans un pli DAscol : supprimez ou classifiez comme pice
jointe.

Deux document "Certificat de scolarit" non reconnu : non conforme avec le jeu
d'apprentissage des nouveaux chantillons d'apprentissage sont ncessaires.

Aprs avoir corrig les erreurs, vrifiez les fichiers d'export produits par dfaut dans le
rpertoire \sle\exchange\Output\Export\SI (1 multi-tif/doc + 1 XML/pli).

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

12/13

05/06/2014

ITESOFT - Confidentiel

ITESOFT.FreeMind Enterprise V2.5.4

2.9. Mettre jour la base de connaissance


1. Importez les nouveaux chantillons (Classif N1\4-Complment d'apprentissage ; 49
chantillons d'1 page = recto seul).

2. Quelle technologie est la plus pertinente sur ce type de documents ?


3. Dupliquez la librairie dj en production ("Enregistrer sous").
4. Alimentez la nouvelle librairie avec le jeu d'apprentissage qui contient les nouveaux
chantillons CS.
5. Faites l'apprentissage. Depuis FreeLearn, lancez un test sur le jeu d'apprentissage. Un
chantillon non reconnu, pourquoi ? (Utilisez la vue "Dtail". Comparez avec les proprits de
la librairie).

Exclure l'chantillon.
Diffrence entre "chantillons exclus" et "jeu d'exclusion" :
- les chantillons exclus appartiennent une famille classifier mais ne sont pas pertinents
pour l'apprentissage (trop diffrents, trop singuliers)
- les chantillons du jeu d'exclusion reprsentent des documents qui peuvent se rencontrer
dans le flux, mais que lon ne souhaite pas classifier automatiquement car ce sont des familles
trs peu frquentes (faible pourcentage du flux entrant).

6. Dans Studio, crez une nouvelle stratgie de classification base sur l'existante. Dans cette
nouvelle stratgie, au niveau Pages et Documents, remplacez la librairie FTM.
7. Lancez une simulation en utilisant cette nouvelle stratgie sur tous les nouveaux Certificats de
scolarit (49 chantillons - 30s). Il y a plus d'chantillons "inconnus" que lors du test dans
FreeLearn, pourquoi ?
8. Mettez en production la nouvelle librairie et mettez jour la classe de lots avec la nouvelle
stratgie.
9. Refaites un test sur le lot de recette.

2.10. (Optionnel) utiliser FreeText pour amliorer la reconnaissance des


certificats de scolarit

Cahier dexercices Classification Niveau 1 - v. 2.5.4.0

13/13

05/06/2014

S-ar putea să vă placă și