Sunteți pe pagina 1din 8

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

1. Une analyse linguistique du problme de la segmentation en phrases (entre 1 et 3 pages). Cette analyse sappuiera sur des travaux de linguistiques rfrencs. Vous tudierez les problmes poss par le genre textuel. (texte journalistique, texte juridiq ue, texte gopolitique). La segmentation La segmentation de texte est une phase ncessaire en traitement automatique du langage afin de prparer les corpus de texte pour l'analyse syntaxique, pour le rsum automatique, ou encore pour le filtrage de textes La segmentation des textes peut se faire au niveau des phrases (segments textuels). La phrase apparait comme une unit danalyse ncessaire sur le plan statistique, syntaxe, corfrences, etc La phrase Sur le plan linguistique la dfinition de phrase fait dbat, il existe plus de trois cents dfinitions. Il reste toutefois ais de sentendre sur laspect graphique dune phrase. En effet lusage orthographique fait dbuter une phrase par une majuscule et la conclut par une marque de ponctuation particulire : un point, un point dexclamation, un point dinterrogation, des points de suspension. Cependant, comme le souligne Catherine Fuchs ces marques ne sont pas fiable 100%, de plus certaines dentre elles peuvent tre absentes (texte ancien, langue spcifique, erreur de lauteur). Catherine Fush parle dambigut spcifique. Le point, en tant que sparateur de segment textuel, peut avoir diffrents rles. Il peut tre point de siglaison, point sparateur des chiffres et des dates, point des numrations hirarchiques, et non plus point comme fin de phrase. Il en est de mme pour les points dexclamation et dinterrogation qui peuvent exprimer, en dehors des phrases exclamatives, le doute, lironie, Comment segmenter un texte en phrase ? Il est indniable que la segmentation en phrase sera base premirement sur des marques de ponctuation. Il faudra prendre en compte les marques typographiques telles que les phrases qui commencent par des chiffres arabes, par des parenthses, par des guillemets, ainsi que les segments textuels qui se terminent par deux-points ou par un point-virgule. Les marques typographiques retenues dpendront majoritairement du corpus analyser.

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

Le corpus Le corpus segmenter est constitu de 3 textes. Le texte 1 est un texte juridique, le texte 2 est un article de presse qui tire vers le reportage, enfin le texte 3 est un extrait dun ouvrage en gopolitique. A la lecture de ces diffrents textes on peut dj sapercevoir que les marqueurs typographiques de fin de phrase diffrent. Le texte juridique na pratiquement pas de point mais un nombre important de ; pour marquer les fins de phrases. Quant au texte journalistique, il possde normment de citation, ce qui implique une forte prsence de guillemets prcd ou suivi dun marqueur de phrase. Les genres textuels Afin dadapter les rgles de segmentation au corpus allou, il est important de connaitre quel genre de texte nous avons affaire. Quest-ce quun genre et comment le reconnaitre ? Sans que lon me donne le genre auquel appartient le texte, je suis plus ou moins capable de laffecter moi-mme un genre.Noam Chomsky explique cela en mettant en avant deux notions, la comptence : la connaissance que le locuteur a de sa langue allie la performance : l'usage effectif de la langue dans des situations concrtes . Pour ce qui est de la dfinition dun genre, Emile Beneviste a dit Dans la langue, il y a plusieurs niveaux (phonme, mot, phrase) ; un mme niveau, les relations entre les lments sont distributionnelles ; entre un niveau et le niveau suprieur, les relations entre les lments sont intgratives. Le mot est l'unit intgrative des phonmes ; la phrase est l'unit intgrative des mots. Mais la phrase est la limite suprieure de l'analyse linguistique ; elle ne peut intgrer aucune unit linguistique plus haute. 1 Il semblerait selon lui, que lunit linguistique suprieure pour la segmentation soit la phrase, et quau-del on touche un ensemble qui appartient au discours2. Selon Franois Rastier les discours correspondraient aux domaines dactivit comme la littrature, la science, le droit. Il continue et affirme : chaque type de pratique sociale correspond un domaine smantique et un discours qui larticule . Un genre textuel serait donc un alliage de notions sociales, cognitives et linguistiques permettant de diffrencier des textes entre eux. Je finirai par cette citation de Franois Rastier il nexiste pas de texte sans genre et tout genre relve dun discours 3

1 Les niveaux de l'analyse linguistique , Problmes de linguistique gnrale I - mile Benveniste 2 Ensemble d'usages linguistiques codifis attach un type de pratique sociale. Ex. : discours juridique, mdical, religieux. 3 par exemple, dans le discours juridique, on peut distinguer des genres crits dont dispose un avocat dans sa pratique professionnelle : larticle de loi, le procs-verbal et les correspondances professionnelles.

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

2. Une prsentation des ressources linguistiques exploites par vos transducteurs Caractres terminaux4 : . point ; point virgule ! point dexclamation ? point dinterrogation de supsension Caractres non terminaux5 : <MAJ> mot en lettres majuscules <PRE> mot commencant par une majuscule <MIN> mot en lettres minuscules <NB> suite de chiffres continue <^> saut de ligne <#> espace possible guillemets Partant de ces lments je considre : quun titre nest pas une phrase, une phrase peut se terminer par un point-virgule, une citation peut avoir une ou plusieurs phrases, une phrase contenant des parenthses avec des phrases lintrieur nauront pas de sparateurs, les points de suspension suivis dun mot en minuscule ou dune virgule, ne signifie pas la fin dune phrase, un point suivi dun guillemet ouvrant se voit attribuer un sparateur de phrase au mme titre quun point suivi dun guillemet fermant.

3. Une brve prsentation des transducteurs dvelopps (copies cran des transducteurs accompagns des fichiers fournis au format Unitext). Unitex fournit un transducteur assez labor. Partant de cet existant, je lai adapt afin damliorer le dcoupage de mes textes en phrases. Jai effectu des modifications aussi bien pour le modle de ponctuation gnrale que pour les cas particuliers. Le graphe sentence.grf que nous pouvons voir ci-dessous a subi quelques modifications ou ajouts. - <^> (saut de ligne) ne se situe plus au mme niveau quun point, point-virgule, point dexclamation ou point dinterrogation. Auparavant un saut de ligne suivit dune majuscule tait considre comme une phrase. Dornavant sil y a un
4 5

Dtermine la fin dune phrase. lments ne dterminant pas la fin dune phrase, mais essentiels dans les rgles du dcoupage de textes en phrases.

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

point suivi dun saut de ligne, cela est considr comme phrase. Cette modification a permis de prendre en compte les dernires phrases de textes ou encore dviter de prendre les titres pour des phrases. Le problme des guillemets ouvrants ou fermants suivis ou prcds dun point, point dexclamation, point dinterrogation, point-virgule, et points de suspension a t pris en compte. Lajout de <NB> avant un point, point dexclamation, point dinterrogation, point-virgule, et points de suspension suivi de <MAJ><PRE><MIN><NB><^>, permet dviter la prise en compte dune phrase se terminant par un nombres.

Le graphe sigles_prenoms.grf, ci dessous a lui aussi reu un complment de direction. Ainsi, si une lettre majuscule suivie dun point (espace entre la lettre et le point possible) sont suivis dune squence de chiffres, ou dun nom commenant par une lettre majuscule, cela nest pas considr comme une phrase. (voir les exemples sur le graphe) Cet ajout permet damliorer le dcoupage et dviter le bruit sur R.{S}351, qui ne correspond pas une phrase ou encore M.{S}Jean GRAVIER ( exemples tirs du texte juridique). Ce graphe est un sous graphe de cas2.grf qui est lui-mme un sous graphe de sentence.grf.

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

Le graphe nombres.grf a a t modifi afin de prendre en compte les listes numrotes. Le texte 2 a ce genre de typographie.Sans cette prise en compte, Unitex considre que 1. est une phrase. Si un des chiffres ci-dessous est suivis dun point qui est lui-mme suivi dun mot en majuscule ou dun mot commenant par une majuscule, alors ceci fait partie dune liste numrote.

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

4. Analyse des rsultats (Rappel et Prcision) fournis par Unitext (sur les trois textes) sans la prise en compte de vos transducteurs.

Prcision6 Rappel7

Texte 1 15/56= 0.27 15/19=0.79

Texte 2 224/248=0.90 224/278=0.80

Texte 3 288/297=0.97 288/290=0.993

5. Analyse des rsultats (Rappel et Prcision) fournis par Unitext (sur les quatre textes) avec la prise en compte de vos transducteurs. Texte 1 16/20=0.80 16/19=0.84 Texte 2 278/278=1 278/278=1 Texte 3 289/292=0.99 289/290=0.99

Prcision Rappel

Le rappel et la prcision sont largement amliors, surtout dans le texte 1. Ceci sexplique par la trs grande quantit de sauts de lignes prsents dans ce texte et dsormais corrige. Il y avait auparavant trop de bruit, 73% contre 20% aprs modifications du graphe. Aprs revrifications du corpus, on peut distinguer des erreurs qui subsistent et qui maintiennent le bruit : - La prise en compte des titres possdant des lments terminaux Ex : propos de l'opportunit manque...{S} - Les coquilles ou fautes de frappes (ces erreurs, selon leurs types, accentuent le bruit ou le silence) Ex : Par exemple : Que fait le pouvoir ? me dit Villepin un matin de mars 1997 ? S'enferme-t-il dans une pice dcid n'en sortir qu'une fois prises un certain nombre de dcisions ? Ou Ex : 702-1 et 703./ L'exclusion de la mention

6 7

Prcision : nombre de phrase correctement trouves/ nombre de phrases correctes et incorrectes trouves. Rappel : nombre de phrases correctes trouves / nombre de phrases qui auraient d tre trouves.

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

6. Discussion finale sur les limites de ce type dapproche (une page maximum) La segmentation en phrase est une mthode pas toujours fiable, chronophage et qui demande de ladaptation. La dfinition dune phrase est propre chacun. Certaines personnes considrerons quun point-virgule nest pas un lment terminal dune phrase, quun titre est une phrase.autant de marqueurs typographiques prendre ou non en compte. Le postulat : Une phrase commence par une Majuscule et se termine par un point ne suffit pas dtecter la fin ou le dbut dune phrase. Une segmentation de texte implique une tude du corpus sur la prpondrance des marqueurs de phrases. Afin dadapter les rgles de segmentation celui-ci. Comme le montre les rsultats prcdents en termes de prcision et rappel, les rgles de segmentation de base proposes par Unitex, nous donnent des rsultats moyennement corrects. En cherchant lamliorer, en ayant au pralable parcouru les textes, jai pu ladapter et tendre vers des chiffres satisfaisants. Il faut savoir sadapter aux diffrentes ambiguts typographiques. Par exemple on retrouve dans notre corpus des phrases se terminant par . ou . Et de ce fait ajuster les rgles du graphe sans que cela ait un impact ailleurs et dstabilise dautres rgles. Il faut savoir sadapter au genre textuel. Notre corpus est compos de 3 textes dont lun est trs diffrent des autres. Il ny a pratiquement pas de point. Les phrases sont termines par des ; Il faut aussi savoir accepter les coquilles, qui faussent nos rgles et nos calculs. Cest le cas pour le texte juridique qui contient, il me semble, une ou deux fautes de frappes : les articles 432?10 432-16, ou 702-1 et 703./ L'exclusion de la mention Enfin ltude du corpus, la mise en place de rgles et le calcul de la prcision et du rappel prennent un temps considrable. Nous avions que 3 textes segmenter et pourtant jai cru ne pas men sortir. Jai finalement trouv une solution plus ou moins efficace avec lditeur Notepad ++ qui permet de marquer les lments et de faire des comparaisons.

Angelique Renier Master DEFI 2

Devoir TAL n1 - 30 novembre 2011

Rfrences :
La segmentation de textes par exploration contextuelle automatique, prsentation du module SegATex, [En ligne]. Adresse URL : http://lalic.paris-sorbonne.fr/PUBLICATIONS/20012002/mourad/ISLsp02.pdf UNITEXT : Manuel dutilisation, [En ligne]. Adresse URL : http://www-igm.univmlv.fr/~unitex/download.html Genres et variations morphosyntaxiques-Quelles variables pertinentes? , [En ligne]. Adresse URL : http://atala.biomath.jussieu.fr/je/010428/Malrieu.pdf Notion thorique : Genre de textes, [En ligne]. Adresse URL : http://www.uvp5.univparis5.fr/TFL/Ac/AffFicheT.asp?CleFiche=5206&Org=QUTH Dictionnaire de grammaire et des difficults grammaticales, Pougeoise, Michel, Paris : A. Colin , 1998 La linguistique textuelle, Adam, Jean-Michel, Paris : A. Colin , impr. 2011

S-ar putea să vă placă și