Elayeb

THSE
En vue de l'obtention du
DOCTORAT DE LUNIVERSIT DE TOULOUSE

Dlivr par Institut National Polytechnique de Toulouse (INPT) Discipline ou spcialit : Informatique
Prsente et soutenue par Elayeb Bilel Le 26 juin 2009 Titre : SARIPOD: Systme multi-Agent de Recherche Intelligente POssibiliste de Documents Web
JURY M. Jean-Paul Haton: Prsident de jury M.Fabrice Evrard: Examinateur M. Montaceur Zaghdoud: Examinateur
Ecole doctorale : Mathmatiques, Informatique, Tlcommunications de Toulouse (MITT) Unit de recherche : Institut de Recherche en Informatique de Toulouse (IRIT) Directeur(s) de Thse : M. Mohamed Ben Ahmed et M. Andras Herzig Rapporteurs : M. Salem Benferhat et Mme. Henda Hajjami Ben Ghezala
A ma femme Myriam et ma petite fille Issr, En tmoignage de leurs respects et de mon amour A ma grande mre, A ma mre, mon pre et ma tante Aicha En tmoignage de leurs sacrifices et de mon amour A Mes frres et soeurs, En tmoignage de mon amour
Remerciements
Je suis trs reconnaissant mon directeur de thse, le Professeur Mohamed BEN AHMED pour ses prcieuses directives, ses ides scientifiques, sa disponibilit et son soutient perptuel. Quil trouve ici le fruit de mes efforts comme tmoignage de mon trs grand respect. Je tiens exprimer ma profonde gratitude Monsieur Fabrice EVRARD pour lintrt et la disponibilit quil a manifest lgard de mes recherches ainsi que pour son soutien et sa patience au cours de mes nombreux sjours Toulouse. Quil soit ici assur de mon trs grand respect et du plaisir que jai travailler avec lui. Je souhaite galement exprimer toute ma reconnaissance Monsieur Montaceur ZAGHDOUD pour lintrt et la disponibilit quil a manifest lgard de mes recherches ainsi que pour ses encouragements continus durant ces trois annes de thse. Quil soit ici assur de mon trs grand respect et du plaisir que jai travailler avec lui depuis mon PFE lENSI. Je suis aussi trs reconnaissant Monsieur Andras HERZIG de mavoir accueillie au sein de lquipe LILAC de lInstitut de Recherche en Informatique de Toulouse (IRIT). Mes remerciements sadressent galement tous les membres du jury qui mont honor davoir accept dvaluer ce travail. En particulier, je remercie: Professeur Jean-Paul HATON davoir accept de prsider le jury de cette thse. Professeure Henda HAJJAMI BEN GHEZALA, la Prsidente de LUniversit de la Manouba en Tunisie, pour lhonneur quelle ma fait en acceptant dtre le rapporteur de cette thse. Professeur Salem BENFERHAT pour lhonneur quil ma fait en acceptant dtre le rapporteur de cette thse. Jadresse aussi mes remerciements au Professeur Michel DAYDE de mavoir bien accueillie au sein du Laboratoire IRIT site ENSEEIHT, ainsi quau Professeur Louis FERAUD, le Directeur de lEcole Doctorale MITT pour ses encouragements continus. Mes remerciements sadressent galement au Professeur Khaled GHEDIRA, lex-directeur de lENSI pour ses encouragements. Je tiens remercier aussi tous les enseignants de lENSI, particulirement Monsieur Yassine JAMOUSSI et Madame Narjs BELLAMINE-BENSAOUD pour leur soutien et encouragements. Remercier tous ceux qui mont aid finaliser ce travail est pour moi un plaisir, je pense particulirement Madame Myriam BOUNHAS et Monsieur Ibrahim BOUNHAS. Quils trouvent ici ma reconnaissance pour leurs disponibilits et encouragements. Je tiens remercier aussi tous les membres du laboratoire RIADI-GDL, en particulier Messieurs Tarek BEN MENA, Youssef BEN HALIMA, Riadh HADJ MTIR et Ahmed HADAD et Mesdames Olfa DRIDI et Samia Sonia SELLMI pour leur collaboration, soutien et encouragements continus. Je remercie aussi tous les personnels de lIRIT site ENSEEIHT ainsi que de lINPT, je pense particulirement Madame Sylvie EICHEN et Monsieur Jean-Claude DARCOS de lIRIT site ENSEEIHT, Mesdames Catherine GARCIA, Sylvie CARCASSES et Martine LACOSTE de
lINPT ainsi que Madame Martine LABRUYERE, la secrtaire de lEDMITT et Madame Christiane JOURDAA, charge des relations internationales lENSEEIHT pour leurs aides et encouragements. Je remercie aussi tous les personnels de lENSI, je pense particulirement Madame Hdia OMRANI, la secrtaire du laboratoire RIADI-GDL, et Monsieur Rachid MZOUGHI, charg de finance lENSI, pour leurs aides et encouragements continus durant toutes mes missions scientifiques ltranger. Mes remerciements vont galement vers mes amis de toujours, Hdi SMIDA, Houcine SGHAIER, Abdelrahman ETTIH, Taieb ETTIH, Ramzi LAMLOUM, Mohamed KHELFA, Soufien ELMOKHTAR, Mohamed MOUTIA, Salah HADJ SALEM, Khaled BEN SMIDA, Malek BEN SMIDA, Moncef BEN SMIDA, Hichem OMRANI et Imed BALTI qui ont toujours t l pour partager les soucis, les joies et les moments de dtente. Un grand merci la famille BOUNHAS, je pense particulirement Madame Aicha ELGATTOUFI et Messieurs Said, Salem, Mohamed, Ahmed et le petit Khalil (Lil !) et Mesdames Yemna, Mariem, Jazia et Khdija pour leurs aides et encouragements durant toutes les priodes de mes absences ltranger. Je tiens accorder une pense particulire ma petite fille Issr (Cha !), ma femme, mes parents, mes frres Sami et Nidhal et mes surs Samiha, Imen et les deux Meriems Elayeb et Handoura. Que vous soyez ici rcompenss pour toutes vos coutes et vos encouragements durant toutes mes tudes.
Rsum
Rsum
La prsente thse de doctorat en informatique propose un modle pour une recherche dinformation intelligente possibiliste des documents Web et son implmentation. Ce modle est base de deux Rseaux Petits Mondes Hirarchiques (RPMH) et dun Rseau Possibiliste (RP) : Le premier RPMH consiste structurer les documents retrouvs en zones denses de pages Web thmatiquement lies les unes aux autres. Nous faisons ainsi apparatre des nuages denses de pages qui traitent dun sujet et des sujets connexes (assez similaires smantiquement) et qui rpondent toutes fortement une requte. Le second RPMH est celui qui consiste ne pas prendre les mots-cls tels quels mais considrer une requte comme multiple en ce sens quon ne cherche pas seulement le mot-cl dans les pages Web mais aussi les substantifs qui lui sont smantiquement proches. Les Rseaux Possibilistes combinent les deux RPMH afin dorganiser les documents recherchs selon les prfrences de lutilisateur. En effet, loriginalit du modle propos se dcline selon les trois volets suivants qui synthtisent nos contributions : Le premier volet sintresse au processus itratif de la reformulation smantique de requtes. Cette technique est base de relations de dpendance entre les termes de la requte. Nous valuons notamment les proximits des mots du dictionnaire franais Le Grand Robert par rapport aux termes de la requte. Ces proximits sont calcules par le biais de notre approche de recherche des composantes de sens dans un RPMH de dictionnaire de mots par application dune mthode base sur le dnombrement des circuits dans le rseau. En fait, lutilisateur du systme propos choisit le nombre de mots smantiquement proches quil dsire ajouter chaque terme de sa requte originelle pour construire sa requte reformule smantiquement. Cette dernire reprsente la premire partie de son profil quil propose au systme. La seconde partie de son profil est constitue des choix des coefficients de pertinence possibilistes affects aux entits logiques des documents de la collection. Ainsi, notre systme tient compte des profils dynamiques des utilisateurs au fur et mesure que ces derniers utilisent le systme. Ce dernier est caractris par son intelligence, son adaptativit, sa flexibilit et sa dynamicit. Le second volet consiste proposer des relations de dpendance entre les documents recherchs dans un cadre ordinal. Ces relations de dpendance entre ces documents traduisent les liens smantiques ou statistiques valuant les distributions des termes communs des paires ou ensembles de documents. Afin de quantifier ces relations, nous nous sommes bass sur les calculs des proximits entres ces documents par application dune mthode de dnombrement de circuits dans le RPMH de pages Web. En effet, les documents peuvent ainsi tre regroups dans des classes communes (groupes de documents thmatiquement proches). Le troisime volet concerne la dfinition des relations de dpendance, entre les termes de la requte et les documents recherchs, dans un cadre qualitatif. Les valeurs affectes ces relations traduisent des ordres partiels de prfrence. En fait, la thorie des possibilits offre deux cadres de travail : le cadre qualitatif ou ordinal et le cadre quantitatif. Nous avons propos notre modle dans un cadre ordinal. Ainsi, des prfrences entre les termes de la requte se sont ajoutes notre modle de base. Ces prfrences permettent de restituer des documents classs par prfrence de pertinence. Nous avons mesur aussi lapport de ces facteurs de prfrence dans laugmentation des scores de pertinence des documents contenant
Rsum
ces termes dans le but de pnaliser les scores de pertinence des documents ne les contenant pas. Pour la mise en place de ce modle nous avons choisi les systmes multi-agents. Lavantage de larchitecture que nous proposons est quelle offre un cadre pour une collaboration entre les diffrents acteurs et la mise en uvre de toutes les fonctionnalits du systme de recherche dinformation (SRI). Larchitecture saccorde parfaitement avec le caractre intelligent possibiliste et permet de bnficier des capacits de synergie inhrente entre les diffrentes composantes du modle propos. Dans le prsent travail, nous avons donc pu mettre en exergue travers les exprimentations effectues lintrt de faire combiner les deux RPMH via un rseau possibiliste dans un SRI, ce qui permet denrichir le niveau dexploration dune collection. Ce dernier nest pas limit aux documents mais ltend en considrant les requtes. En effet, la phase de reformulation smantique de requte permet lutilisateur de profiter des autres documents correspondants aux termes smantiquement proches des termes de la requte originelle. Ces documents peuvent exister dans dautres classes des thmes. En consquence, une reclassification propose par le systme savre pertinente afin dadapter les rsultats dune requte aux nouveaux besoins des utilisateurs. Mots-cls : Recherche Intelligente dInformations, Rseaux Petits Mondes Hirarchiques, Rseaux Possibilistes, Pertinence Possibiliste, Prfrences Utilisateur, Document Pertinent, Systme Multi-Agent.
Abstract
Abstract
This Ph.D. thesis proposes a new model for a multiagent possibilistic Web information retrieval and its implementation. This model is based on two Hierarchical Small-Worlds (HSW) Networks and a Possibilistic Networks (PN): The first HSW consists in structuring the founded documents in dense zones of Web pages which strongly depend on each other. We thus reveal dense clouds of pages which "speak" more or less about the same subject and related subjects (semantically similar) and which all strongly answer users query. The second HSW consists in considering the query as multiple in the sense that we dont seek only the keyword in the Web pages but also its semantically close substantives. The PN generates the mixing of these two HSW in order to organize the searched documents according to users preferences. Indeed, the originality of the suggested model is declined according to three following shutters' which synthesize our contributions: The first shutter is interested in the iterative process of query semantic reformulation. This technique is based on relationship dependence between querys terms. We evaluate in particular the semantics proximities between the words of the French dictionary "Le Grand Robert" and querys terms. These proximities are calculated via our approach of research of the semantics components in the HSW of dictionary of words by application of our method of enumeration of circuits in the HSW of dictionary. In fact, the user of the suggested system chooses the number of close words that he desire to add to each word of his initial query to build his semantically reformulated query. This one represents the first part of users profile which he proposes to the system. The second part of its profile makes up of its choices of the coefficients of relevance possibilistic of the logical entities of the documents of the collection. Thus, our system takes account of the dynamic profiles of its users progressively they use the system, which proves its intelligence, its adaptability, its flexibility and its dynamicity. The second shutter consists in proposing relationship dependence between documents of the collection within an ordinal framework. These relationships dependence between these documents represent the semantic or statistical links evaluating the distributions of the general terms to pairs or sets of documents. In order to quantify these relationships, we are based on the calculations of the proximities between these documents by application of a method enumerating of circuits in the HSW of Web pages. Indeed, the documents can thus be clustered in common classes (groups of close documents). The third shutter is related to the definition of the relationships dependence between querys terms and documents of the collection, within a qualitative framework. The assigned values to these relations translate preferably partial orders. In fact, possibilistic theory offers two working frameworks: the qualitative or ordinal framework and the numerical framework. We proposed our model within an ordinal framework. Thus, we add to our basic model preferences between querys terms. These preferences make it possible to restore documents classified by relevances preference. We also measured the contribution of these preferably factors in the increase of the relevances scores of documents containing these terms with an aim of penalizing the relevances scores of the documents not containing them. For the installation of this model we chose multiagent systems. The advantage of the proposed architecture is that it offers a framework for collaboration between the various actors and the implementation of all the functionalities of the information retrieval system.
Abstract
Architecture agrees perfectly with the possibilistic intelligent character and makes it possible to profit from the capacities of inherent synergy in the suggested model. We thus could put forward, through the carried out experiments, the goal of combining the two HSW via a possibilistic network in an information retrieval system, which makes it possible to enrich the exploration level of a collection. This exploration is not only limited to the documents but it extends by considering also the query. Indeed, the semantic query reformulation phase makes it possible to benefit user from other documents which contain some close terms of the initial query. These documents can exist in other topics classes. Consequently, a reclassification suggested by the system proves its relevance in order to adapt querys results to new users needs.
Keywords: Intelligent Information Retrieval, Hierarchical Small-Worlds, Possibilistic

Networks, Possibilistic Relevance, Users Preferences, Relevant Document, Multiagent System.
Table des matires
Table des matires

Introduction gnrale ............................................................................................................9 1. Problmatique de la thse .............................................................................................10 2. Organisation de la thse ................................................................................................11 Premire Partie : Etat de lart sur la Recherche dInformation ..........................................13 Chapitre 1 : Les Systmes de Recherche dInformation ......................................................14 1. Les composants dun SRI .............................................................................................15 2. Utilisateur, besoin dinformation, profil et requte ........................................................15 2.1 Requte en RI.........................................................................................................16 2.2 Reprsentation des rsulats de requtes..................................................................17 3. Analyse et indexation des documents et des requtes ..................................................18 3.1 Approche base sur la frquence d'occurrences......................................................18 3.2 Approche base sur la valeur de discrimination .....................................................20 3.3 Approche base sur tf x idf .....................................................................................21 3.4 La pondration de termes .......................................................................................21 3.5 Filtrage des mots fonctionnels................................................................................22 3.6 Lemmatisation........................................................................................................22 3.7 L'approche base sur une indexation ......................................................................23 4. Notion de pertinence ....................................................................................................25 5. Evaluation d'un systme de RI ......................................................................................27 5.1 Corpus de test (rfrences) .....................................................................................28 5.2 Rappel et Prcision.................................................................................................29 6. Reformulation de la requte .........................................................................................30 6.1 Rtroaction de pertinence (Relevance Feedback) ...................................................31 6.2 Expansion de requtes............................................................................................33 6.3 Les problmes poss par la reformulation de la requte .........................................33 7. Conclusion....................................................................................................................34 Chapitre 2 : Les modles de la Recherche dInformation...................................................35 1. Modle "Matching score" .............................................................................................36 2. Modle boolen ............................................................................................................36 2.1 Modle Boolen bas sur des ensembles flous.........................................................38
Table des matires
2.2 Modle boolen tendu ou P-Norme .......................................................................39 3. Modle vectoriel ...........................................................................................................41 3.1 Modle vectoriel gnralis....................................................................................43 3.2 Modle vectoriel et domaines smantiques ............................................................45 4. Modle probabiliste ......................................................................................................45 5. Reformulation de requte dans ces modles ..................................................................49 5.1 Reformulation de la requte dans le modle boolen ...............................................50 5.2 Reformulation de la requte dans le modle vectoriel..............................................51 5.3 Reformulation de la requte dans le modle probabiliste .........................................51 5.4 Autres approches de reformulation de requtes .......................................................53 6. Conclusion....................................................................................................................54 Chapitre 3 : Modle Baysien versus Modle Possibiste de Recherche dInformation .......55 1. Les Rseaux Baysiens .................................................................................................56 1.1 Dfinition ...............................................................................................................56 1.2 Principe du Rseau Baysien..................................................................................58 1.3 Construction de la structure du RB par apprentissage ............................................58 1.4 Infrence dans les Rseaux Baysiens....................................................................59 1.5 Synthse .................................................................................................................67 2. Modle Baysien de RI .................................................................................................68 2.1 Architecture gnrale du modle Baysien.............................................................68 2.2 Les modles de RI bass sur les rseaux Baysiens ...............................................69 3. Reformulation de requtes dans le modle Baysien .....................................................70 3.1 Repondration de termes de la requte initiale Q ...................................................72 3.2 Expansion de la requte..........................................................................................73 4. Les Rseaux Possibilistes..............................................................................................74 4.1 La thorie des possibilits ......................................................................................74 4.2 Rseaux Possibilistes (RP) .....................................................................................76 4.3 Les interprtations de la thorie des possibilits.....................................................79 5. Modle possibiliste quantitatif de RI.............................................................................79 5.1 Architecture du modle ..........................................................................................80 5.2 Evaluation des poids du rseau...............................................................................80 5.3 Un simple schma de propagation..........................................................................82 6. Reformulation de requtes dans le modle possibiliste ..................................................83 6.1 Formules bases sur la ncessit de termes ............................................................84
2
Table des matires
6.2 Formules bases sur la possibilit de termes ..........................................................84 6.3 Formules bases sur la possibilit et la ncessit....................................................85 7. Modle Baysien versus Modle Possibiliste ................................................................85 8. Conclusion....................................................................................................................86 Deuxime Partie : Conception et architecture dun Systme multi-Agent de Recherche Intelligente POssibiliste de Documents Web, SARIPOD .....................................................88 Chapitre 4 : Modle dun SRI base de Rseaux Petits Mondes Hirarchiques et de Rseaux Possibilistes ...........................................................................................................89 1. Modle conceptuel du systme SARIPOD ....................................................................90 2. Les RPMH du systme SARIPOD ................................................................................93 2.1 Dfinition du RPMH ..............................................................................................93 2.2 Approche gnrique de gnration de composantes de sens dans un rseau dinformations..............................................................................................................95 2.3 Conclusion............................................................................................................111 3. Le Rseau Possibiliste du systme SARIPOD .............................................................112 3.1 Apport de lapproche qualitative du systme SARIPOD........................................114 3.2 Pondration des termes de la requte dans le systme SARIPOD ........................116 4. Travaux similaires notre approche............................................................................119 5. Conclusion .................................................................................................................121 Chapitre 5 : Spcification et conception du systme SARIPOD ........................................123 1. Spcification du systme SARIPOD ...........................................................................124 1.1 Module de construction du RPMH de dictionnaire ................................................125 1.2 Module de reformulation de la requte utilisateur ................................................129 1.3 Module de Crawlage stratgique ......................................................................130 1.4 Module de construction du RPMH de pages Web ................................................133 1.5 Module danalyse de documents Web .................................................................134 1.6 Module de tri de documents par leurs pertinences possibilistes ...........................137 1.7 Module doptimisation du systme SARIPOD .....................................................137 2. Conception du systme SARIPOD..............................................................................138 2.1 Conception et mise en uvre du RPMH de dictionnaire........................................139 2.2 Conception et mise en uvre du crawlage stratgique ...........................................141 2.3 Conception et mise en uvre de lanalyse de document Web ................................143 2.4 Conception et mise en uvre du tri de documents par pertinence possibiliste ........146 2.5 Conception et mise en uvre du module doptimisation........................................148
3
Table des matires
3. Conclusion..................................................................................................................148 Chapitre 6 : Ralisation et exprimentation du systme SARIPOD...................................149 1. Cadre du travail ..........................................................................................................150 1.1 Environnement Logiciel........................................................................................150 1.2 La plate-forme multi-agent Jade...........................................................................151 2. Les agents du systme SARIPOD ..............................................................................152 2.1 Les couches dagents du SARIPOD .....................................................................153 2.2 Rle des diffrents agents.....................................................................................154 3. Implmentation du systme SARIPOD .......................................................................159 3.1 Interfaces principales du SARIPOD .....................................................................159 3.2 Interfaces du RPMH de pages Web......................................................................163 3.3 Interfaces du RPMH de Dictionnaire ...................................................................167 4. Exprimentations et rsultats .....................................................................................170 4.1 Reformulation smantique de requtes.................................................................170 4.2 Comparaison avec les travaux de [Gaume et al., 2004] ........................................171 4.3 Classification des documents ...............................................................................172 4.4 Comparaison avec le SRI SARCI.........................................................................179 5. Conclusion..................................................................................................................180 Conclusion gnrale et Perspectives..................................................................................182 1. Choix principaux ........................................................................................................183 2. Contribution principale ...............................................................................................183 3. Perspectives................................................................................................................185 Bibliographie .....................................................................................................................187 Annexe 1 : Format XML du dictionnaire franais Le Grand Robert ................................208 Annexe 2 : Les systmes multi-agents et la Recherche dInformation ..............................214 Annexe 3 : Donnes et rsultats du RPMH de dictionnaire ..............................................224 Annexe 4 : Donnes et rsultats du RPMH de pages Web.................................................231 Annexe 5 : Rsultats des exprimentations........................................................................237
Table des figures
Table des figures

Figure 1.1 : Les composants dun Systme de Recherche dInformation ...............................15 Figure 1.2 : La correspondance entre l'informativit et la frquence......................................19 Figure 1.3 : Oprations et environnement de la RI ................................................................24 Figure 1.4 : Ordre partiel de pertinence.................................................................................27 Figure 1.5 : Rapprochement de pertinences systme et utilisateur .........................................29 Figure 2.1 : Evaluation de la conjonction et de la disjonction................................................39 Figure 2.2 : Comportement du modle p-norme....................................................................41 Figure 3.1 : Exemple de Rseau Baysien.............................................................................57 Figure 3.2 : Graphe acyclique orient ...................................................................................61 Figure 3.3 : Graphe moral.....................................................................................................62 Figure 3.4 : Triangularisation du graphe moral .....................................................................62 Figure 3.5 : (a)- arbre de regroupement (b)- nest pas un arbre de regroupement..................63 Figure 3.6 : Arbre de jonction...............................................................................................65 Figure 3.7 : Architecture gnrale du modle Baysien.........................................................68 Figure 3.8 : Duplication trois fois du terme Ti .......................................................................72 Figure 3.9 : Exemple de rseau causal possibiliste ................................................................77 Figure 3.10 : Les limites des thories de traitement de lincertitude ......................................79 Figure 3.11 : Architecture gnrale du modle possibiliste quantitatif...................................80 Figure 4.1 : Modle conceptuel du systme SARIPOD .........................................................91 Figure 4.2 : Similarit smantique entre les verbes ...............................................................93 Figure 4.3 : Structure du graphe petits mondes hirarchiques................................................94 Figure 4.4 : Exemple du choix de seuil d'acceptation ............................................................98 Figure 4.5 : Couples des entits issus dune matrice des circuits communs .........................100 Figure 4.6 : Algorithme de regroupement par allongement de circuits.................................101 Figure 4.7 : Algorithme de regroupement par associations spares....................................102 Figure 4.8 : Algorithme de regroupement par contrainte minimale......................................103 Figure 4.9 : Algorithme de fusion des groupes potentiels en composantes de sens ..............104 Figure 4.10 : Rpartition des zones denses dans une zone urbaine ......................................106 Figure 4.11 : Application du nouvel algorithme un graphe RPMH ...................................108 Figure 4.12 : Rsultat du groupement dans le RPMH de lexemple.....................................109 Figure 5.1 : Architecture gnrale du systme SARIPOD ...................................................124 Figure 5.2 : Architecture interne de module de construction du RPMH de dictionnaire.......125 Figure 5.3 : Description fonctionnelle de la recherche des composantes de sens .................126 Figure 5.4 : La DTD initiale du dictionnaire .......................................................................126 Figure 5.5 : La source de donnes initiale de dictionnaire ...................................................127 Figure 5.6 : la source de donnes finale de dictionnaire sous format XML..........................127 Figure 5.7 : La DTD finale du dictionnaire sous format XML.............................................128 Figure 5.8 : Exemple du choix du seuil de proximit smantique ........................................130 Figure 5.9 : Exemple de lalgorithme Strat2 ........................................................................131 Figure 5.10 : Architecture interne du module danalyse de page Web .................................134 Figure 5.11 : Exemple de document o la notion de rgularit peut tre applique..............136 Figure 5.12: Diagramme de classes de la construction du RPMH de dictionnaire................139 Figure 5.13 : Diagramme de squences de la recherche des mots proches dun mot ............140 Figure 5.14 : Diagramme de squences du groupement des mots proches dun mot ............140 Figure 5.15 : Diagramme de classes gnrale de deux modules de crawlage et de tri...........141
5
Table des figures
Figure 5.16 : Diagramme de classes du module de crawlage stratgique .............................142 Figure 5.17 : Diagramme de squences du module de crawlage stratgique ........................143 Figure 5.18 : Diagramme de classes gnral du module danalyse de document Web .........143 Figure 5.19 : Digramme de classes du processus de segmentation.......................................144 Figure 5.20 : Diagramme de classes du calcul des niveaux des styles..................................145 Figure 5.21 : Diagramme de classes de ltiquetage smantique des blocs ..........................145 Figure 5.22 : Diagramme de squences du module danalyse dun document Web .............146 Figure 5.23 : Diagramme de classes du module de tri par pertinence possibiliste ................147 Figure 5.24 : Diagramme de squences du module de tri par pertinence possibiliste ..........147 Figure 5.25 : Diagramme de classes du module doptimisation ...........................................148 Figure 6.1 : Les couches abstraites du systme SARIPOD ..................................................153 Figure 6.2 : La coopration entre les agents de SARIPOD ..................................................155 Figure 6.3 : Communications par messages changs entre les agents de SARIPOD...........158 Figure 6.5 : Interface gnrale du systme SARIPOD.........................................................160 Figure 6.6 : Interface de paramtrage des coefficients de pertinence possibiliste.................161 Figure 6.7 : Interface du fichier rsultat du systme SARIPOD...........................................161 Figure 6.8 : Interface des URLs collectes par le crawler ...................................................162 Figure 6.9 : Interface de proximit entre les pages Web ......................................................162 Figure 6.10 : Interface de calcul du nombre de circuits slectionns entre les pages Web....163 Figure 6.11 : Interface des branches de RPMH de pages Web.............................................164 Figure 6.12 : Interface de groupement des pages dans le RPMH de pages Web ..................164 Figure 6.13 : Interface de fusion des groupes de pages dans le RPMH de pages Web..........165 Figure 6.14 : Interface 3D du RPMH de pages Web............................................................166 Figure 6.15 : Interface du RPMH de dictionnaire................................................................167 Figure 6.16 : Interface de calcul du nombre de circuits slectionns entre les mots de dictionnaire.................................................................................................................168 Figure 6.16 : Interface des branches de RPMH de mots de dictionnaire ..............................168 Figure 6.18 : Interface de groupement des mots proches dans le RPMH de dictionnaire .....169 Figure 6.19 : Interface de Fusion des mots proches dans le RPMH de dictionnaire .............169 Figure 6.20 : Les variations de L et C en fonction du nombre de mots smantiquement proches .......................................................................................................................170 Figure 6.21 : Les variations de L et C en fonction du nombre de pages Web retrouves......179 Figure A1.1 : La DTD du fichier dico.xml .......................................................................209 Figure A1.2 : Les tapes de cration dun fichier XML partir du dictionnaire...................209 Figure A2.1 : Architecture rflexive de lassistance de recherche Web ...............................215 Figure A2.2 : Larchitecture multi-agent du systme ProFusion..........................................217 Figure A2.3 : Architecture du systme interactif bas multi-agent pour la recherche Web...219 Figure A3.1 : Courbes de variation de la longeur de circuit en fonction du nombre maximale de circuits collects entre les verbes............................................................................230 Figure A4.1 : Courbes de variation de la longeur de circuit en fonction du nombre maximale de circuits collects entre les pages Web.....................................................................236
Table des tableaux
Table des tableaux
Tableau 1.1 : Exemple de calcul de la frquence d'occurrences.............................................19 Tableau 1.2 : Quelques collections de documents de test en RI .............................................28 Tableau 2.1 : Table de vrit pour lvaluation boolenne standard ......................................39 Tableau 2.2 : Table de distribution pour chaque terme ti .......................................................47 Tableau 2.3 : Table de valeurs du terme ti .............................................................................47 Tableau 3.1 : Table de contingence des termes .....................................................................71 Tableau 3.2 : Distribution de possibilit initiales (1) .............................................................78 Tableau 3.3 : Distribution de possibilit initiales (2) .............................................................78 Tableau 3.4 : Distribution de possibilit jointe ......................................................................78 Tableau 3.5 : Distribution de possibilit................................................................................82 Tableau 4.1 : Comparaison de trois graphes en fonction des paramtres L, C et I..................95 Tableau 4.2 : Les sources de donnes de deux RPMH...........................................................97 Tableau 4.3 : Rcapitulation de mthodes de regroupement des entits...............................103 Tableau 4.4 : Rcapitulation des rsultats du nouvel algorithme..........................................108 Tableau 4.5 : Coefficient de pertinence possibiliste de chaque entit logique ......................113 Tableau 4.6 : Rpartition des termes dans les entits logiques des trois documents .............114 Tableau 4.7 : Les trois prfrences de lutilisateur du systme SARIPOD...........................115 Tableau 4.8 : Rsultats de lapproche qualitative du systme SARIPOD.............................115 Tableau 4.9 : Rpartition des termes dans les entits logiques des trois documents .............117 Tableau 4.10 : Les trois prfrences de lutilisateur du systme SARIPOD.........................118 Tableau 4.11 : Rsultats de leffet de lajout de prfrences entre termes de la requte .......118 Tableau 6.1 : Comparaison entre les moteurs de recherche et les agents logiciels................150 Tableau 6.2 : Rcapitulation des rsultats des cinq expriences sur le RPMH de dictionnaire ...................................................................................................................................170 Tableau 6.3 : Quelques caractristiques des graphes G1 et G2 ............................................171 Tableau 6.4 : Rpartition des documents Web de la base du test .........................................173 Tableau 6.5 : Donnes et rsultats de la premire exprience ..............................................174 Tableau 6.6 : Donnes et rsultats de la deuxime exprience.............................................175 Tableau 6.7 : Donnes et rsultats de la troisime exprience .............................................175 Tableau 6.8 : Donnes et rsultats de la quatrime exprience ............................................176 Tableau 6.9 : Donnes et rsultats de la cinquime exprience............................................177 Tableau 6.10 : Synthse des rsultats des expriences.........................................................178 Tableau 6.11 : Rsultats des exprimentations ....................................................................178 Tableau 6.12 : Les paramtres L et C des RPMH des documents ........................................179 Tableau A1.1 : Rcupration de la structure du dictionnaire Le Grand Robert ....................208 Tableau A2.1 : Comparaison des SMA de Recherche d'Information ...................................222 Tableau A3.1 : Rsultats de la recherche de composantes de sens du verbe vrifier .......225 Tableau A3.2 : Rsultats de la recherche de composantes de sens du verbe Nettoyer ....226 Tableau A3.3 : Rsultats de la recherche de composantes de sens du verbe Analyser ....227 Tableau A3.4 : Rsultats de la recherche de composantes de sens du verbe jouer ..........228 Tableau A3.5 : Rsultats de la recherche de composantes de sens du verbe Prserver ...229 Tableau A4.1 : Rsultats de la recherche de composantes thmatiques du thme systme dexploitation ...........................................................................................................232
Table des tableaux
Tableau A4.2 : Rsultats de la recherche de composantes thmatiques du thme ................233 Rseaux et protocoles ...................................................................................................233 Tableau A4.3 : Rsultats de la recherche de composantes thmatiques du thme ................235 Base de Donnes ...........................................................................................................235 Tableau A5.1 : Rcapitulations des rsultats des cinq expriences de classification de documents ..................................................................................................................237 Tableau A5.2 : Les scores des pertinences possibilistes des documents retrouvs ...............244
Introduction gnrale
Introduction gnrale
La Recherche dInformation (RI) est une branche de linformatique qui sintresse lacquisition, lorganisation, le stockage et la recherche des informations. Elle propose des outils, appels Systmes de Recherche dInformation (SRI), dont lobjectif est de capitaliser un volume important dinformation et doffrir des moyens permettant de localiser les informations pertinentes relatives au besoin dun utilisateur exprim travers une requte. En fait, un SRI est un systme qui gre une collection dinformations organises sous forme dune reprsentation intermdiaire refltant aussi fidlement que possible le contenu des documents grce un processus pralable dindexation, manuelle ou automatique. La recherche dinformation dsigne alors le processus qui permet, partir dune expression des besoins dinformation dun utilisateur, de retrouver lensemble des documents contenant linformation recherche [Abbadeni et al., 1998] et ce par la mise en oeuvre dun mcanisme dappariement entre la requte de lutilisateur et les documents ou plus exactement entre la reprsentation de la requte et la reprsentation des documents. La notion de document est prise ici au sens large et peut reprsenter une combinaison multimdia (documents htrognes intgrant du texte, du son, des graphiques et de la vido). Afin deffectuer une recherche pertinente, le SRI ne doit plus se contenter dune analyse simple de la collection de documents et dune mise en correspondance directe entre les requtes et les documents pris de manire isole. Dans le but damliorer la qualit de la recherche, des techniques plus labores incluant celles de reformulation et dinteraction, et tributaires du processus de recherche lui-mme, sont introduites. Dune part, ces techniques sont en rapport avec la manire dintgrer de la faon la plus efficace possible lutilisateur dans le processus de recherche. Dautre part, ces techniques sont lies la manire danalyser et de reprsenter le contenu dune collection en exploitant au mieux les relations quentretiennent les documents entre eux, les concepts du domaine entre eux ou mme les descripteurs des documents entre eux Linteraction entre lutilisateur et le SRI permet lutilisateur de transmettre ses jugements en terme de pertinence, ce qui peut rsoudre en partie le problme de la complexit de la requte. Grce ce mcanisme, il est possible au systme dacqurir des connaissances lies aux utilisateurs et de construire des profils permettant de reprsenter leurs centres dintrt, et deffectuer un filtrage et un routage dinformation. Les SRI classiques considraient cette composante comme fige et dfinie a priori. Lutilisateur peut prsenter pour sa part des besoins de nature diverse (prcise, exploratoire, thmatique ou connotative). Le SRI doit donc prsenter linformation sous plusieurs formes notamment en proposant des vues thmatiques laide dun support de navigation [Kammoun-Bouzaene, 2006] ou via des graphes de type Rseaux Petits Mondes Hirarchiques (RPMH) [Elayeb et al., 2006]. Pour mener bien cette recherche, plusieurs connaissances interviennent et se compltent, et des oprations interagissent dans un contexte qui volue et qui doit sadapter des exigences lies aux utilisateurs ainsi qu la connaissance elle mme. Le cadre du Web constitue le champ dapplication des SRI le plus rpandu et le plus important en terme de documents disponibles vue quil reprsente aujourdhui une source 9
Introduction gnrale
importante dinformation. Par ailleurs, contrairement aux moteurs de recherches conventionnels qui utilisent gnralement des techniques dindexation de linformation disponible sur Internet, le systme propos dans le cadre de cette thse utilise des techniques de modlisation de la requte et des profils des utilisateurs, dune part et de modlisation de documents de la collection dautre part, tout en permettant des agents logiciels dinteragir selon des stratgies coopratives pour trouver linformation qui rpond aux besoins des utilisateurs.
1. Problmatique de la thse
La problmatique majeure de la Recherche dInformation consiste extraire partir dune collection de documents, ceux qui rpondent un besoin utilisateur en se basant souvent sur des informations pauvres provenant des requtes des utilisateurs. Les diffrents modles connus de la RI (boolen, vectoriel, probabiliste, baysien) reprsentent les documents et les requtes sous forme de listes de termes pondrs puis mesurent une valeur de pertinence (similarit vectorielle, probabilit de pertinence) en se basant sur ces termes et leurs poids. La pondration des termes est notre sens llment fondamental de tous les modles de RI actuels [Sparck-Jones, 1988] [Ribeiro-Neto et al., 1996]. Lorsquelle est calcule automatiquement, cette pondration est obtenue partir de la combinaison des frquences doccurrences des termes dans les documents (tf), des frquences dapparition des termes dans la collection (idf) et de la longueur des documents (dl) [Salton et al., 1994] [Singhal et al., 1996ab]. Quel que soit le modle, la rponse une requte est une liste de documents ordonns selon cette valeur de pertinence. Certaines approches considrent les poids des termes comme des degrs de pertinence. Dans ces modles, lincompltude de linformation, intrinsque la reprsentation vectorielle dun document, nest pas considre lors de son valuation pour une requte donne. En ralit, on ne distingue pas entre les notions de possibilit ou de certitude lors des calculs de la pertinence. Les mthodes actuelles, relativement pauvres, utilises pour reprsenter les documents (ensemble de termes et de leurs poids) ainsi que pour reprsenter le besoin utilisateur ne sont pas totalement compatibles avec une dfinition prcise de la pertinence. La prsente thse propose le dveloppement dun systme multi-agent de recherche dinformation sur Internet, baptise SARIPOD, combinant deux Rseaux Petits Mondes Hirarchiques (RPMH) via des Rseaux Possibilistes (RP) : Le premier RPMH consiste structurer les documents retrouvs en zones denses de pages Web lies les unes aux autres. Nous faisons ainsi apparatre des nuages denses de pages qui traitent du mme sujet et qui rpondent une requte. Ainsi chaque page Web serait un noeud d'un gigantesque graphe dont les arcs seraient les liens hypertextuels d'une page vers une autre. Certains calculs sur ce graphe sont mme de faire apparatre des regroupements thmatiques (pages Web qui font partie du mme thme). Ainsi chercher une information sur le Web ne se ferait plus au hasard. Mieux encore : une requte sous forme d'une description mme approximative de ce que l'on cherche ferait aboutir dans un groupe (cluster) thmatique et mme sur la plus pertinente page Web de ce "cluster". Le second RPMH est celui qui consiste ne pas prendre les mots-cls propos par lutilisateur tels quels mais considrer une requte comme multiple en ce sens quon ne cherche pas seulement le mot-cl dans les pages Web mais aussi les mots smantiquement proches. En effet, il existe un arc entre deux sommets si lun apparat dans la dfinition dictionnairique de lautre. Nous proposerons une organisation de ces termes en plusieurs "clusters" selon leurs proximits smantiques dtermines grce ltude des circuits entre les mots du dictionnaire franais Le Grand Robert . Nous proposons grce ce RPMH une nouvelle rformulation
10
Introduction gnrale
smantique de la requte utilisateur. Les Rseaux Possibilistes combinent ces deux RPMH afin dorganiser les documents recherchs selon le profil de lutilisateur. En effet, ce systme prsente une nouvelle approche possibiliste pour un systme de Recherche dInformation. Ce systme, qui voit la Recherche dInformation comme un problme de diagnostic, traduit laide de rseaux possibilistes nafs des relations de dpendance entre les documents et les termes de la requte. Ces relations sont quantifiables par deux mesures : la possibilit et la ncessit de pertinence. La mesure de possibilit est utile pour filtrer les documents et la mesure de ncessit pour renforcer la pertinence des documents restants. Le processus de recherche restitue les documents plausiblement ou ncessairement pertinents un utilisateur. De plus, si lapproche de base tient compte ici de laspect quantitatif et ne tient pas compte de la dpendance entre les termes de la requte, notre systme permet de ltendre au cadre qualitatif possibiliste, en introduisant des prfrences entre les termes de la requte. En fait, un tel modle possibiliste devrait tre capable de rpondre des propositions du type : Est-il plausible un certain degr que le document di constitue une bonne rponse la requte Rj? Est-il ncessaire, certain (dans le sens possibiliste), que le document di rponde la requte Rj? Le document di est-il prfrable au document dj ou lensemble {di, dj} est-il prfrable lensemble {dk, dl} ? Le premier type de proposition vise liminer les documents faiblement plausibles de la rponse. La seconde rponse se focalise sur les documents qui seraient rellement pertinents. Le dernier type de proposition suggre que la liste ordonne des documents en rponse un besoin utilisateur peut tre traite dune manire qualitative, et que des approches ordinales pourraient tre utilises dans la reprsentation des documents et des requtes. La dfinition de la pertinence dun document vis--vis dune requte, en fonction des donnes dont nous disposons, est difficilement exprimable (ou traduisible) par une unique mesure de probabilit. En effet, celle-ci ne tient pas compte des caractres imprcis et vagues qui sont intrinsques la pertinence [Brini et Boughanem, 2003]. En ralit, une mesure de probabilit portant sur un vnement et son contraire est quelque peu restrictive. Dans le modle propos par ces auteurs, un document contenant tous les termes de la requte constitue une rponse possiblement pertinente la requte. Cette plausibilit doit tre renforce par une certitude provenant de la mesure de ncessit. La mesure de possibilit est utile pour liminer les documents non pertinents et la mesure de ncessit pour renforcer la pertinence des documents non limins par la possibilit. Lusage de la thorie des possibilits en RI avait dj t suggr par [Prade et Testemale, 1987] qui proposaient un nouveau modle dindexation sous forme de groupes de mots-cls, pondrs par des degrs de possibilit et de ncessit. Afin de combler la complexit du problme de RI, faisant intervenir des processus qui interagissent via un ensemble de connaissances, nous proposons un modle qui se base sur une architecture multi-agent contribuant la rsolution du problmatique pos. En fait, le modle multi-agent que nous proposons permet dinclure un certain nombre de connaissances ncessaires, fdres par un ensemble dagents (dont chacun est charg dune tche spcifique) qui cooprent pour satisfaire lutilisateur.
2. Organisation de la thse
La prsente thse est organise en six chapitres : 11
Introduction gnrale
Le premier chapitre prsente les systmes de Recherche dInformation. Ainsi, nous commenons par dfinir les notions de base de la RI. Puis, nous intressons la reprsentation des documents et de la requte et la mise en correspondance entre la requte et les documents afin de slectionner les documents pertinents. Dautre part, une phase de reformulation de la requte est associe au processus de la recherche dont le but est de combler le foss existant entre la pertinence lie lvaluation de lutilisateur et la pertinence juge par le systme. Nous prsentons la fin de ce chapitre les techniques utilises pour lvaluation des SRI. Le second chapitre sintresse aux modles de Recherche dInformation (RI). Nous tudions les modles les plus connus de la RI. Nous nous intressons particulirement au sens de la pertinence donn par ces modles. Nous nous sommes focaliss sur les approches proposes par ces modles pour modliser la requte utilisateur et les documents. Ces modles sont discuts tout en identifiant leurs avantages et inconvnients dans la perspectives dintroduire des modles capables de pallier ces limites. Dans ce cadre, nous prsentons dans le troisime chapitre une tude comparative entre les modles de la RI base de Rseaux Baysiens (RBs) et ceux base de Rseaux Possibilistes. Nous commenons par rappeler les dfinitions des Rseaux Baysiens et leur utilit. Nous dcrivons ensuite lutilisation des RBs dans la RI. Nous prsentons les Rseaux Possibilistes ainsi que leur application dans un cadre quantitatif de RI. Nous clturons ce chapitre par un bilan comparatif de ces deux approches dont nous nous sommes inspirs de modle. Suite aux limites des systmes existants identifis dans les chapitres prcdents, nous proposons dans un quatrime chapitre un modle dun SRI base de Rseaux Petits Mondes Hirarchiques (RPMH) et de Rseaux Possibilistes (RP). Un premier RPMH pour les mots du dictionnaire franais Le Grand Robert est utilis pour dgager les proximits entre les mots de la langue franaise. Le second RPMH est consacr aux pages Web recherches et traduit de mme les proximits entre ces pages. En fait, le modle propos dtient son originalit du fait quil propose une nouvelle modlisation de la requte base dune reformulation smantique ainsi quune nouvelle modlisation des documents permettant une classification base des petits mondes . Les RP combinent les deux RPMH afin de proposer une nouvelle approche possibiliste qualitative pour la RI. Cette approche dfinie dune nouvelle manire les deux notions de base dans un SRI : la pertinence et le profil. Dans le cinquime chapitre nous proposons de mettre en place les diffrentes composantes du modle propos dans une architecture, baptise : Systme multi-Agent de Recherche Intelligente POssibiliste de Documents Web (SARIPOD). Dans cette architecture, nous choisissons de mettre en place des modules qui sont ddis des tches diffrentes qui sont complmentaires pour certaines et concurrentes pour dautres. Par ailleurs, certaines tches sont coordonnes en parallle et dautres sont squentielles. Une spcification complte du systme SARIPOD qui dcrit les diffrents composants de son architecture est prsente. Enfin, une conception oriente-objet UML de ce systme est expose. Finalement, le sixime chapitre concerne limplantation informatique du systme SARIPOD. Nous proposons un ensemble dagents coopratifs assurant le paralllisme de traitement exig par le systme. Ensuite, les outils de sa ralisation sont prsents avec des extraits de rsultats dexprimentations. En guise de conclusion, nous dressons un bilan de nos travaux, en mettant en exergue nos propositions, nous finissons par la proposition de nombreuses perspectives possibles ces travaux.
12
Premire Partie : Etat de lart sur la Recherche dInformation
Premire Partie :
Etat de lart sur la Recherche dInformation
13
Chapitre 1 : Les Systmes de Recherche dInformation
Chapitre 1
Les Systmes de Recherche dInformation

Un Systme de Recherche d'Information (SRI) est un systme qui permet de retrouver les documents pertinents une requte d'utilisateur, partir d'une base de documents volumineuse. Le processus de recherche dinformation pertinente que le SRI est sens restituer un utilisateur, consiste en la mise en correspondance des reprsentations des informations contenues dans un fond documentaire et des besoins de cet utilisateur exprims par une requte. En fait, lobjectif de lutilisateur est de complter son tat de connaissance par lacquisition dinformations contenues dans des documents pertinents. Dans la dfinition dun SRI, il y a trois notions cls: documents, requte et pertinence. En effet, un document peut tre un texte, un morceau de texte, une page Web, une image, une bande vido, etc. On appelle document toute unit qui peut constituer une rponse une requte d'utilisateur. Une requte exprime une interprtation du besoin d'information d'un utilisateur. Le but de la RI est de trouver seulement les documents pertinents. La notion de pertinence est trs complexe. De faon gnrale, dans un document pertinent, l'utilisateur doit pouvoir trouver les informations dont il a besoin. C'est sur cette notion de pertinence que le systme doit juger si un document doit tre donn l'utilisateur comme rponse. Cette notion de pertinence peut tre apprhende deux niveaux : Au niveau utilisateur, ce dernier a un besoin d'information dans sa tte, et il espre obtenir les documents pertinents pour rpondre ce besoin. La relation entre le besoin d'information et les documents attendus est la relation de pertinence (idale, absolue, ). Au niveau systme, ce dernier rpond la requte formule par l'utilisateur par un ensemble de documents trouvs dans la base de documents qu'il possde [Cleverdon, 1960] [Cleverdon, 1970] [Cleverdon, 1977]. Nous nous intressons particulirement dans cette thse la pertinence utilisateur que nous dsignerons par pertinence. Les modles de RI dfinis dans la littrature (dtaills dans la suite de cette thse) mesurent cette pertinence comme un score, cherchant valuer la pertinence des documents vis--vis dune requte. Cette pertinence est mesure par une similarit de reprsentation documentrequte (modle vectoriel), une probabilit de pertinence des documents tant donne une requte (modle probabiliste). Dautre part, la requte formule par l'utilisateur n'est qu'une description partielle de son besoin d'information. Beaucoup d'tudes ont montr qu'il est trs difficile, voire impossible, de formuler une requte qui dcrit compltement et prcisment un besoin d'information. Du ct de document, il y a aussi un changement entre les deux niveaux: les documents que l'on peut retrouver sont seulement les documents inclus dans la collection de documents. On ne peut souvent pas trouver des documents parfaitement pertinents un besoin. Il arrive souvent qu'aucun document pertinent n'existe dans la collection. Nous dtaillons dans la premire section de ce chapitre les composants dun systme de recherche dinformation. Nous prsentons dans la deuxime section lutilisateur, son besoin en information, son profil et sa requte. Dans la troisime section, nous nous intressons la phase danalyse et dindexation des documents et des requtes. La notion de pertinence est prsente dans la quatrime section. La phase dune valuation dun SRI fera lobjet de la cinquime section. Dans la dernire section, nous mettons laccent sur la phase de reformulation de la requte. 14
1. Les composants dun SRI

Un systme de Recherche dInformation est compos de diffrents acteurs tels que : la requte ou besoin dinformation dun utilisateur, le corpus documentaire, ainsi que les diffrents tapes qui permettent daboutir rsultat rpondant au besoin de lutilisateur. Ces tapes sont : lanalyse et lindexation, les modlisations de la requte et des documents, la mise en correspondance entre ces deux modles (de requte et des documents) et lvaluation et la rtroaction (voir figure 1.1).
Besoins en information Utilisateur
Prfrences
Requte
Corpus Documentaires
Analyse et indexation
Modle de Requte
Modle de Documents
Appariement
Rtroaction Documents pertinents
Evaluation
Figure 1.1 : Les composants dun Systme de Recherche dInformation Nous dtaillons dans la suite ces diffrents acteurs et tapes dun SRI.
2. Utilisateur, besoin dinformation, profil et requte

Dans les annes 1980, le paradigme de la recherche dinformation a commenc slargir pour inclure les utilisateurs et leur intraction avec le systme. Il sagit de paradigme cognitif orient-utilisateur introduit par [Ingwersen, 1992]. Les systmes dinformation sont alors considrs comme des systmes de communication entre un producteur dinformation (lauteur) et un utilisateur, le systme informatique ayant pour objectif de faciliter cette communication. Pour satisfaire au mieux lutilisateur, il est essentiel de comprendre ses mcanismes cognitifs. Il est donc essentiel de le modliser. Dans la majorit des travaux qui se sont intresss lutilisateur et sa modlisation dans un processus de recherche dinformation on introduit le terme usager pour dire utilisateur. En fait, les travaux lis la RI modlisent le comportement de lusager, mais ne permettent pas une comprhension de son systme cognitif (domaine de la psychologie cognitive). Selon [Daniels, 1986], deux classes de modles dusagers ont t proposes : 15
Les modles analytiques qui modlisent le comportement interne de lusager : connaissances, processus cognitif, etc. Les modles quantitatifs et empiriques qui modlisent le comportement externe de lusager. Le modle canonique oppos une collection de modles dutilisateurs individuels. Le modle explicite construit par lutilisateur ou le concepteur du systme quon oppose au modle implicite construit par lordinateur sur la base du comportement de lutilisateur. Le modle bas sur des caractristiques persistantes ( long terme) loppos du modle bas sur des caractristiques ponctuelles ( court terme). USER : correspond au statut de lusager. UGOAL : correspond aux buts de lusager (ses prfrences ou stratgies de recherche). KNOW : dfinit le niveau dexpertise ou le degr de connaisssance de lutilisateur dans le domaine. IRS : dfinit la familiarit de lusager avec les systmes documentaires. BACK : correspond lexprience de lusager vis--vis du systme concern.
Ces modles ont t classs suivant trois dimensions :
[Daniels, 1986] propose de modliser lutilisateur avec les paramtres suivants :
Ces diffrents lments peuvent tre regroups dans un profil utilisateur. Ils appartiennent au systme cognitif de lutilisateur et permettent deffectuer un filtrage initial sur les documents et de choisir des prsentations personnalises, adaptes au profil. Selon [Cluzeau-Ciry, 1988], quatre catgories de demande ou stratgies de recherche ont t proposes : Une demande prcise exprime lorsque lutilisateur sait exactement ce quil cherche. Une demande thmatique utilise lorsque lutilisateur cherche explorer le corpus sur un thme particulier. Une demande connotative exprime dans le contexte de la recherche dimage par lexpression dun visage par exemple, par mtaphore dans le contexte de la recherche textuelle. Une demande exploratoire dfinit quand lutilisateur veut se faire une ide du contenu du corpus ; et cest aprs une consultation pralable que seront dfinis plus prcisment ses besoins.
2.1 Requte en RI
Une requte dsigne une interrogation d'une base dinformations, portant sur les lments qu'elle contient. Une requte peut tre exprime de diffrentes manires : En langage naturel en utilisant des mots non-contrls ; En utilisant des phrases courtes en langage naturel ; Sous forme de textes ou de documents en langage naturel. On qualifie ceci par la requte par lexemple ou par similarit (QBE : Query By Example) ;
16
Sous forme de grille ou formulaire sur les champs de catalogag1 ou plus gnralement sur des champs issus dune structure logique.
En recherche dinformation, deux types de requtes ont t utiliss : une requte vectorielle exprime travers des termes pondrs et une requte boolenne exprime via des termes connects par des oprateurs boolens. Ces deux types des requtes seront dtaills dans le chapitre suivant. Dautre part, vue que les requtes sont parfois complexes, il est conseill de les sauvegarder pour des rutilisations ultrieures. [Kammoun-Bouzaene, 2006] a introduit donc en plus du profil utilisateur le profil de requtes. Cette dernire perspective est applique dans le domaine de la diffusion slective de linformation ou la diffusion cible. En fait, les profils de requtes seront utiliss pour scruter systmatiquement et en temps rel les nouvelles informations entres dans la base pour les diffuser aux utilisateurs concerns. De notre part, nous proposons un SRI qui tient compte des requtes dj jou par le systme. En effet, lenregistrement de ces requtes ainsi que leurs rponses retournes par le systme dans une base dhistorique servira davantage pour des rutilisations ultrieures. Nous dtaillons le processus de gestion de lhistorique dans le systme SARIPOD dans le chapitre 5.
2.2 Reprsentation des rsulats de requtes

La majorit des SRI permettent de restituer les documents en les classant par ordre de pertinence dcroissante par rapport la requte. Ceci permet aux utilisateurs de ne sintresser qu ceux qui ont un score de pertinence suprieur un certain seuil. La notion de pertinence dun document vis--vis une requte sera dtaille dans la section 4 de ce chapitre. Cette restitution des documents par rapport une requte peut se faire sous plusieurs formes : Soit en proposant des rsums automatiques du document restitu, dont la taille est variable. Ces rsums sont construits en attribuant une importance aux phrases qui contiennent les termes de la requte afin quils soient adapts aux sujets de recherche de chaque utilisateur [Tombros et Sanderson, 1998]. Soit sous forme dune liste de titres ou de passages qui contiennent les termes de la requte mais quil nest pas envisageable de prsenter le document dans son intgralit sauf sil est suffisamment court.
Dans dautres systmes, plutt que dinterroger le SRI par le biais dune requte exprime de lune des manires dcrites ci-dessus, lintrrogation est base sur la visualisation globale de lensemble des documents du corpus et sur des outils qui permettent dexploiter cet ensemble en utilisant notamment une approche classificatoire, ou encore la navigation travers une carte explicitant ces classes et les diffrentes relations qui peuvent les liers. Dautre modalit de restitution se fait sous forme graphique : Soit par une reprsentation graphique globale, issue gnralement des mthodes de classification et particulirement des cartes auto-organisatrices de Kohonen. Parmi ces systmes citons : NEURODOC [Lelu et Franois, 1992], WEBSOM [Kohonen et al., 1996], MULTISOM [Lamirel, 1995] [Franois et al., 2003].
Le catalogage correspond lidentification des rfrences de chaque document (nom dauteurs, titre, diteur, nom de revue, date, etc.) et la saisie dans une notice documentaire ou FID (Fiche dIdentification du Document). Pour un livre on parle de fiche ou de notice bibliographique. La structuration se fait habituellement en utilisant les normes MARC (Machine Readable Cataloging) et UNIMARC (UNIversal MARC).
17
Soit par une reprsentation graphique individuelle permettant de reprsenter les documents et ventuellement les liens qui existent entre eux. Cette mthode est peu intressante quand la taille du corpus augmente. Parmi ces systmes citons : AIR [Belew, 1989], WWWD [Snowdon et al., 1996], TETRALOGIE [Mothe et Dkaki, 1998]. de donner une aperu sur le contenu de documents afin dviter un accs direct ; de reprer les documents pertinents en montrant dans quel contexte sont utiliss les termes prsents dans la requte.
Cette diversit dans la manire de prsenter les rsultats des requtes permet aux utilisateurs : -
3. Analyse et indexation des documents et des requtes

L'objectif de l'analyse et de l'indexation est de d'abord trouver des concepts les plus importants dans le document, et de crer une reprsentation interne en utilisant ces concepts (intensions). Pour trouver des concepts, il est ncessaire de procder une analyse smantique pour dterminer ce qui est un concept dans un texte. Cette analyse n'est pas disponible pour la RI. Les techniques existantes sont souvent restreintes un domaine trs spcialis, et l'analyse est trs complexe. Ainsi, en pratique, on cherche plutt des reprsentants (instances ou extensions) des concepts. Ces reprsentants peuvent tre de forme diffrentes: des mots simples, des termes (ventuellement composs), ou des doublets de mots (groupes de deux mots). En fait, le choix de reprsentants dpend de deux critres essentiellement: la facilit de traitement; la prcision de reprsentation de sens. tant donn le grand nombre de documents traiter, il est ncessaire que le traitement pour la reconnaissance des reprsentants soit plus faisable. Cependant, les reprsentants trouvs doivent permettre dcrire le contenu (la smantique) du document et de la requte de faon assez prcise. L'ide d'utiliser des mots comme des reprsentants de concepts est assez naturelle. En effet, les mots sont des units linguistiques qui sont les plus faciles reconnatre, et qu'elles sont assez porteuses de sens. Ce sont ces units qu'on utilise le plus souvent dans les systmes actuels. Cependant, les mots ne donnent pas une description toujours trs prcise. Par exemple, le concept de "recherche d'information", une fois reprsent par les mots "recherche" et "information", perd beaucoup de sens, car les mots "recherche" et "information" sont trs courants en franais, et ils sont des sens trs imprcis. Ainsi, les chercheurs ont aussi propos des approches visant regrouper des mots pour former des termes composs. Ces approches utilisent soit une analyse syntaxique et/ou statistique, soit un dictionnaire de termes composs, soit une terminologie (vocabulaire contrl, taxonomies, thsaurus), soit une ontologie (modle de reprsentation des connaissances). Nous allons considrer des mots comme des reprsentants de concept. Ces reprsentants sont aussi appels des index, en rapport avec leur rle qu'ils joueront dans la recherche.
3.1 Approche base sur la frquence d'occurrences

L'objectif ici est de trouver les mots qui reprsentent le mieux le contenu d'un document. On admet gnralement qu'un mot qui apparat souvent dans un texte reprsente un concept important. Ainsi, la premire approche consiste choisir les mots reprsentants selon leur
18
frquence d'occurrence. La faon la plus simple consiste dfinir un seuil sur la frquence : si la frquence d'occurrence d'un mot dpasse ce seuil, alors il est considr important pour le document. Cependant, les statistiques des occurrences montrent que les mots les plus frquents sont des mots fonctionnels (ou mots outils, mots vides). En franais, les mots "de", "un", "les", etc. sont les plus frquents. En anglais, ce sont "of", "the", etc. Ce phnomne n'est pas trange si on connat la loi de Zipf [Zipf, 1949] qui stipule que : Si on classe les mots dans l'ordre dcroissant de leur frquence, et on leur donne un numro de rang (1, 2, ), alors : Rang * frquence constante . Voyons un exemple en anglais :
Rang 1 2 3 4 5 6 7 Mot the of and to a in that Frquence 69 971 36 411 28 852 26 149 23 237 21 341 10 595 Rang* Frquence 69 971 72 822 86 556 104 596 116 185 128 046 76 165
Tableau 1.1 : Exemple de calcul de la frquence d'occurrences Il devient vident que nous ne pouvons pas garder tous les mots les plus frquents comme des index dun document. En restant dans la mme ligne, un autre seuil maximal a t dfini. En effet, si la frquence d'un mot dans le document dpasse ce seuil, alors il n'est pas considr comme index de ce document. L'utilisation de ces deux seuils correspond ce qu'on croit sur l'informativit de mot. L'informativit mesure la quantit de sens qu'un mot porte. Cette notion n'est pas dfinie trs prcisment dans la RI. Elle est utilise seulement de faon intuitive. Cependant, on peut trouver son quivalent dans la thorie de l'information (par exemple, la thorie de Shannon, ou l'entropie) La correspondance entre l'informativit et la frquence est illustre dans la figure 1.2:
Figure 1.2 : La correspondance entre l'informativit et la frquence 19
Ainsi, en choisissant les mots qui ont des frquences entre les deux seuils, on espre obtenir les mots dont l'informativit est la plus leve.
3.2 Approche base sur la valeur de discrimination

Par "discrimination", on se rfre au fait qu'un terme distingue bien un document des autres documents. C'est--dire, un terme qui a une valeur de discrimination leve doit tre apparatre seulement dans un petit nombre de documents. Un terme qui apparat dans tous les documents n'est pas discriminant. Le pouvoir de discrimination d'un terme est important dans le choix de termes index qu'on veut garder. L'ide est de garder seulement les termes discriminants, et liminer ceux qui ne le sont pas. Le calcul de la valeur de discrimination a t dvelopp dans le modle vectoriel. Ainsi, nous nous situons dans ce modle. Une description plus dtaille du modle sera donne dans le prochain chapitre. Dans le modle vectoriel, chaque document est reprsent par un vecteur de poids comme suit: di t1 <pi1 t2 pi2 t3 pi3 ... tn ... pin>, O pij est le poids du terme tj dans le document di.
tant donn un corpus (un ensemble de documents), on a donc une matrice. Pour calculer la valeur de discrimination d'un terme, on doit comparer une sorte d'uniformit au sein du corpus avec celle du corpus transform dans lequel le terme en question a t uniformis (mis au mme poids). L'ide est que, si on uniformisant le poids d'un terme dans tous les documents, on obtient une grande amlioration dans l'uniformit du corpus, ce terme tait donc trs diffrent (non uniformment distribu) dans diffrents documents. Il a donc une grande valeur de discrimination. En revanche, si en uniformisant le poids du terme, on n'obtient pas beaucoup d'amlioration sur l'uniformit, ce terme tait donc dj distribu de faon uniforme, donc peu discriminant. Le calcul de la valeur de discrimination d'un terme se fait comme suit: 1. On calcule d'abord le vecteur centrode (ou le vecteur moyen) du corpus comme suit: Pour chaque terme, son poids dans le vecteur centrode V est le poids moyen de ses poids dans les documents. C'est--dire: pj = i pij / N o N est le nombre de documents dans le corpus. 2. On calcule l'uniformit du corpus comme la similarit moyenne des documents avec le centrode: U1 = C * j Sim(di, V) (1.2) o C est une constante de normalisation (par exemple 1/N), et Sim(di, V) est la similarit entre le document di et le vecteur centrode V. Ici, Sim doit tre une formule normalise qui donne une valeur dans [0,1] (voir la description sur le modle vectoriel dans le chapitre suivant). 3. On uniformise le poids du terme en question 0, et on rpte les deux tapes ci-dessus pour obtenir une nouvelle valeur d'uniformit U2. 4. La valeur de discrimination du terme est : 20 (1.1)
V = U2 - U1.
(1.3)
Dans ce calcul de la discrimination, on ne proccupe pas beaucoup de la frquence d'un terme dans un document particulier, mais beaucoup plus sa distribution dans le corpus. En utilisant la valeur de discrimination, on peut liminer les mots fonctionnels comme "de", "", etc. qui apparaissent dans tous les documents en langue franaise.
3.3 Approche base sur tf x idf

Le nom tf x idf est trs connu dans le milieu de la RI. Cela dsigne un ensemble de schmas de pondration (et de slection) de termes. tf signifie "term frequency" et idf "inverted document frequency". Par tf, on dsigne une mesure qui a rapport l'importance d'un terme pour un document. En gnral, cette valeur est dtermine par la frquence du terme dans le document. Par idf, on mesure si le terme est discriminant (ou non-uniformment distribu). Ici, on donne quelques formules de tf et d'idf souvent utilises. 1. tf = frquence d'occurrence du terme dans un document f(t, d); tf = f(t,d) / Max[f(t, d)] o Max[f(t,d)] est la frquence maximale des termes dans d; tf = log(f(t, d)) ; tf = log(f(t, d) + 1) ; 2. idf = log(N/n) o N est le nombre de documents dans le corpus, et n ceux qui contient le terme. 3. Finalement, on peut aussi imposer certaine normalisation sur les valeurs calcules. Une formule de tf x idf est donc la multiplication d'une tf par une idf. Par exemple: tf x idf = [f(t, d) / Max[f(t, d)]] * log(N/n) Une formule tf x idf combine les deux critres ci-dessus : 1. L'importance du terme pour un document (par tf), 2. Le pouvoir de discrimination de ce terme (par idf). Ainsi, un terme qui a une valeur de tf x idf leve doit tre la fois important dans ce document, et aussi il doit apparatre peu dans les autres documents. C'est le cas o un terme correspond une caractristique importante et unique d'un document. Avec une telle formule, on peut donc choisir garder seulement les termes dont la valeur de tf x idf dpasse certain seuil.
3.4 La pondration de termes

La pondration qu'un terme possde peut aussi tre de diverses natures. Elle peut tre simplement la frquence d'occurrence, ou bien une mesure drivant de cette frquence (par exemple, normalise). Elle peut tre galement une formule de tf x idf. Des comparaisons ont montr qu'en utilisant seulement la frquence d'occurrence ne donne pas une performance satisfaisante (mme si on limine les mots fonctionnels d'une certaine faon). En gnral, les formules de tf x idf donnent de meilleures performances. En ralit, si on utilise la valeur de tf x idf pour filtrer les termes index, on peut utiliser la mme valeur de tf x idf comme la pondration de terme. C'est de cette manire qu'on procde gnralement. Donc, le filtrage et la pondration ne sont pas deux processus ncessairement spars.
21
3.5 Filtrage des mots fonctionnels

Certains mots fonctionnels, comme le mot "auparavant", "s", etc. n'apparaissent pas trs souvent dans des textes. Par le calcul de valeur de discrimination ou par l'utilisation de idf, on n'arrive pas ncessairement les liminer. Or, on ne veut pas les garder comme index parce qu'ils sont vides de sens. Afin d'liminer ces mots de force, on utilise une liste, appele stoplist (ou parfois antidictionnaire) qui contient tous les mots qu'on ne veut pas garder. Ces mots sont souvent des prpositions (e.g. "de", ""), prnom ("aucun", "tout", "on"), certains adverbes ("ailleurs", "maintenant"), adjectifs ("certain", "possible"), etc. Certains mots inclus dans cette liste ne sont pas ncessairement vides de sens (a dpend du domaine. Ils ne sont pas vides de sens en linguistiques). Mais leur sens importe trs peu pour des besoins de RI. La liste utilise dans un systme peut aussi varier. Cela dpend su domaine d'application. Par exemple, le mot "article" est inclus dans certains systmes comme mot vide parce qu'on reoit beaucoup de requte d'utilisateur qui contient le mot "papier", comme "des papier sur l'informatiques". Cependant, ce mot peut tre trs significatif dans certaines applications (par exemple, pour une base de documents en papeterie). Le traitement li une stoplist est trs simple. Quand on rencontre un mot dans un texte, on doit d'abord examiner s'il apparat dans cette liste. Si oui, on ne le considre pas comme un index.
3.6 Lemmatisation
Nous remarquons que plusieurs mots ont des formes lgrement diffrentes, mais leur sens restent le mme ou trs similaire. C'est notamment le cas des mots conjugus. Par exemple, les mots transformer, transforme, transforment, transformation, transformateur, ont des sens trs similaires. La diffrence de forme entre ces mots n'est pas utile considrer pour la RI. Au contraire, on voudrait trouver des documents sur "transformation" partir d'une requte sur "transformer". Ainsi, il faut liminer ces diffrences non-significatices, c'est--dire de ramener ces mots une forme identique. Ces mots ont la mme racine (lemme). Ainsi, on arrive liminer les terminaisons de mots, et garder seulement la racine, on a donc une forme identique pour eux. C'est l'ide qui conduit utiliser la lemmatisation. Il existe plusieurs faons de lemmatiser des mots. 1. Une premire faon consiste examiner seulement la forme de mot, et selon la forme, on essaie de dduire ce qui est la racine. C'est cette approche que Porter utilise dans [Porter, 1980]. En effet, cet algorithme limine les terminaisons de mot en anglais en 5 grandes tapes: la premire tape essaie de transformer le pluriel en singulier. Les tapes subsquentes essaient d'liminer au fur et mesure les drivations (e.g. -ness qu'on ajoute derrire certains adjectifs (happiness), -able ajout derrire un verbe (adjustable)). Cet algorithme transforme parfois deux mots diffrents en une mme forme. Par exemple en anglais, derivate/derive, activate/active. Cependant, pour la plupart, la transformation semble raisonnable.
22
Porter a compar son algorithme avec un autre disponible l'poque qui utilisait un algorithme beaucoup plus compliqu. Il s'est avr que cet algorithme simple fonctionne mieux pour la RI. Maintenant, cet algorithme est considr comme un algorithme classique. La plupart de procdures de lemmatisation l'utilise, ou utilise une variante. 2. On peut aussi utiliser un dictionnaire dans la lemmatisation. Pour savoir si une squence de lettres la fin correspond une terminaison dun mot, il suffit de faire une limination ou une transformation tentative, et de voir si la forme obtenue existe dans le dictionnaire. Sinon, ce n'est pas une terminaison correcte, et d'autres possibilits sont ensuite envisages. Par exemple, on peut accepter la rgle qui remplace -ation par -er. Par exemple, transform-ation, limin-ation, etc. Cependant, pour "vocation", si on applique cette rgle, on obtiendra "vocer". Ce n'est pas une transformation correcte. Pour viter cela, on peut vrifier dans le dictionnaire si le mot "vocer" existe. Sinon, on ne le transforme pas. Cette approche a t utilise pour le franais dans [Savoy, 1993]. L'utilisation d'un dictionnaire ajoute certains avantages, mais elle est au prix de disposer d'un dictionnaire. La plupart de systmes de RI nen disposent pas, et un tel dictionnaire lectronique ntait pas encore peu accessible. 3. Une lemmatisation correcte requirt souvent une reconnaissance correcte de catgorie grammaticale. Ainsi, on peut penser utiliser un taggeur (ou un analyseur de catgorie) automatique dans un processus de lemmatisation. Plusieurs mthodes de taggages ont t proposes. Une des approches possibles est de dterminer la catgorie d'un mot de faon probabiliste. Pour cela, il faut d'abord qu'on entrane un modle probabiliste en utilisant un ensemble de textes catgoriss manuellement (le corpus d'entranement). Ce modle dtermine la probabilit d'un mot d'tre dans une catgorie selon sa forme, et selon les mots qui l'entourent. Avec ce mcanisme de reconnaissance de catgorie, on peut se permettre de transformer une forme de mot en une forme standard - la forme de citation (par exemple, nom singulier, adjectif masculin singulier), au lieu de couper simplement la terminaison.
3.7 L'approche base sur une indexation

Durant l'indexation, on doit transformer les mots (lemmatisation), slectionner un ensemble d'index et les quantifier. Le rsultat d'une indexation est donc un ensemble de termes qui peut tre constitu soit dun mot, soit dune racine de mot, soit dun terme compos si on possde un mcanisme pour reconnatre des termes composs. d { (ti, pi), }, o ti est un terme, et pi est son poids. Cet ensemble de termes pondrs sera utilis pour constituer une reprsentation du contenu du document. En fait, lorganisation de ces termes en une reprsentation dpend du modle de RI utilis. Ainsi, dans diffrents modles, le mme ensemble de termes aura une signification diffrente. Une requte peut tre maintenant une expression plus complexe, incluant des oprateurs logiques (ET, OU, ) ou d'autres types d'oprateurs. L'valuation est compositionnelle, c'est-dire, on commence par valuer les lments de base (par exemple, des mots) dans la requte, obtenant ainsi des listes de documents; ensuite, on combine ces listes selon l'oprateur qui relie ces lments pour obtenir finalement une seule liste de documents.
23
En fait, cette approche possde les avantages suivants : Elle est plus rapide. En effet, on n'a plus besoin de parcours squentiel. Avec la structure d'index, on peut directement savoir quels documents contiennent tel ou tel mot. L'expression des requtes peut tre trs complexe, exprimant des besoins d'information complexes.
Le prix payer pour ces avantages est le besoin de l'espace de stockage supplmentaire pour la structure d'index. En gnral, cet espace correspond 40% 200% de la taille de collection de documents, selon la complexit de l'indexation. Mais ce besoin d'espace pose de moins en moins de problme maintenant. Utilisant cette approche, on peut voir les oprations et l'environnement de la RI comme lindique la figure 1.3 :
Utilisateur Besoin dinformation Pertinence de lutilisateur Documents pertinents
Requte Pertinence du Systme
Base de documents
Reprsentation Appariement / Matching
Reprsentation
Figure 1.3 : Oprations et environnement de la RI Nous distinguons trois niveaux diffrents : (i) Le niveau utilisateur: A ce niveau, l'utilisateur a un besoin d'information dans sa tte, et il espre obtenir les documents pertinents pour rpondre ce besoin. La relation entre le besoin d'information et les documents attendus est la relation de pertinence (idale, absolue, ). (ii) Le niveau systme: A ce niveau, le systme rpond la requte formule par l'utilisateur par un ensemble de documents trouvs dans la base de documents qu'il possde. En fait, la requte formule par l'utilisateur n'est qu'une description partielle de son besoin d'information. Beaucoup d'tudes ont montr qu'il est trs difficile, voire impossible, de formuler une requte qui dcrit compltement et prcisment un besoin d'information. Du ct de document, il y a aussi un changement entre les deux niveau: les documents qu'on peut retrouver sont seulement les documents inclus dans la base de documents. On ne peut souvent pas trouver des documents parfaitement pertinents un besoin. Il arrive souvent qu'aucun document pertinent n'existe dans la base. (iii) Le niveau interne du systme: La requte formule par l'utilisateur (souvent en langue naturelle) ne peut pas se comparer directement avec des documents en langue naturelle eux aussi. Il faut donc crer des reprsentations internes pour la requte et pour les documents. Ces reprsentations doivent tre manipulables par l'ordinateur. Le processus de cration de ces reprsentations est appel l'indexation. Il est aussi noter que les reprsentations cres ne refltent qu'une partie des contenus de la requte et des documents. La technologie de nos jours ne permet pas encore de crer une reprsentation complte.
24
Pour dterminer si la reprsentation d'un document correspond celle de la requte, on doit dvelopper un processus d'valuation. Diffrentes mthodes d'valuation ont t dveloppes, en relation avec la reprsentation de documents et de requte. C'est cet ensemble de reprsentation et la mthode d'valuation qu'on appelle un modle de RI. Par ailleurs, nous remarquons qu'il y a des diffrences entre deux niveaux diffrents. En ce qui concerne le besoin d'information, il est transform en une requte, puis en une reprsentation de cette dernire aux niveaux infrieurs. Du ct document, il y a des changements similaires. Les relations que nous pouvons dterminer chaque niveau ne sont pas pareilles non plus. En fait, lobjectif ultime espr est qu'un bon systme de RI puisse aboutir une bonne correspondance (Appariement / Matching) qui reflte bien la pertinence du systme, laquelle, correspond bien au jugement de pertinence de l'utilisateur. Cependant, tant donn la diffrence entre les niveaux, il y a ncessairement une dgradation. Ainsi, une autre tche de la RI est d'valuer un systme de RI une fois construit. Cette valuation du systme tente de mesurer l'cart entre les niveaux (surtout entre le niveau systme et le niveau interne du systme).
4. Notion de pertinence
Pertinence est la notion centrale dans la RI car toutes les valuations s'articulent autour de cette notion. Mais c'est aussi la notion la plus mal connue, malgr de nombreuses tudes portant sur cette notion. Voyons quelques dfinitions de la pertinence pour avoir une ide de la divergence. En effet, la pertinence est: la correspondance entre un document et une requte, une mesure d'informativit du document la requte; un degr de relation (chevauchement, relativit, ) entre le document et la requte; un degr de surprise qu'apporte un document, qui a un rapport avec le besoin de l'utilisateur; une mesure d'utilit du document pour l'utilisateur.
Mme dans ces dfinitions, les notions utilises (informativit, relativit, surprise, ) restent trs vaques parce que les utilisateurs d'un systme de RI ont des besoins trs varis. Ils ont aussi des critres trs diffrents pour juger si un document est pertinent. Donc, la notion de pertinence est utilise pour recouvrir un trs vaste ventail des critres et des relations. Par exemple, un utilisateur qui a formul la requte sur "systme expert" peut tre satisfait par un document dcrivant toutes les techniques utilises dans "MYCIN" qui est un exemple typique de systme expert. Cependant, un deuxime utilisateur peut juger ce mme document non pertinent car il cherche plutt une description non technique. Dans les deux situations, la relation entre le document et la requte est appele "pertinence". De nombreux travaux ont t mens sur cette notion. En effet, la pertinence n'est pas une relation isole entre un document et une requte. Elle fait appel aussi au contexte de jugement. Ainsi, Tefko Saracevic [Saracevic, 1970] propose la dfinition suivante pour tenir compte de cette influence multiple du contexte sur la pertinence : La pertinence est la A d'un B existant entre un C et un D jug par un E, o :
A = intervalle de la mesure ; B = aspect de la pertinence (la pertinence absolue) ; C = un document ; D = contexte dans lequel la pertinence est mesure (y compris le besoin d'information) ; E = le juge (l'utilisateur) .
25
Il reconnat dj l'importance du contexte sur la pertinence, ainsi que l'utilisateur lui-mme. Si on varie ces facteurs, la notion de pertinence change aussi. Selon [Schamber et al., 1990] la pertinence est fonction de la qualit dinformation, elle est toujours lie un utilisateur alors que la quantit dinformation ne lest pas. Ces auteurs ont dfini la pertinence de la manire suivante : La pertinence est un concept dynamique qui dpend du jugement de lutilisateur sur la proximit de linformation lue et celle qui est ncessaire. La pertinence est un concept mesurable . Pour tenir compte de cette influence multiple, ces auteurs ont dcompos la problmatique de pertinence selon les trois axes suivants : Le comportement regroupe la description et lanalyse du comportement de lutilisateur : le contenu, la description du document, le savoir de lutilisateur, la manire de formuler sa requte et la possibilit dinteractivit en particulier la possibilit de reformuler sa requte ; La mesure concerne ltape de construction de mesure et particulirement le jugement de valeur par lutilisateur : la dichotomie (oui/non), la grille de collecte selon une chelle de valeurs prdfinies ou la note libre ; La terminologie concerne la dfinition du concept de pertinence.
Par ailleurs, Mizzaro [Mizzaro, 1997] propose un modle labor partir de son tude rcapitulative des diffrents aspects de la pertinence, il recense et classifie un ensemble de liens. Il dfinit la pertinence comme une relation entre deux entits de deux groupes. Dun cot, on trouve le document, la description et linformation, et dun autre, on trouve le problme, le besoin dinformation, la question et la requte. Les entits mentionnes peuvent tre dcomposes selon trois composantes : Le sujet qui correspond au sujet qui intresse lutilisateur, La tche qui correspond lactivit pour laquelle lutilisateur effectue sa recherche, Le contexte qui correspond nimporte quelle autre composante affectant la manire deffectuer la recherche et lvaluation.
La pertinence selon le mme auteur peut tre perue comme un point dans un espace quatre dimensions : 1. La premire dimension est relative au document, sa description et linformation ; 2. La deuxime comporte le problme, le besoin dinformation, la question et la requte ; 3. La troisime comporte le sujet, la tche, le contexte et toute combinaison possible entre eux ; 4. La quatrime correspond au temps qui scoule entre lapparition du problme et lobtention de la solution. Les diffrents types de pertinences sont reprsents dans la Figure 1.4.
26
Figure 1.4 : Ordre partiel de pertinence Chaque ligne joignant les objets correspond une pertinence. La troisime dimension est reprsente par les niveaux de gris utiliss. La dimension temps nest pas reprsente pour simplifier le schma. Les flches reprsentent dans quelle mesure une pertinence est proche de la pertinence de linformation reue au problme de lutilisateur et dans quelle mesure il est difficile de la mesurer. Par ailleurs, la question qu'on peut se poser est : quoi sert d'tudier la notion de pertinence si on sait qu'elle est trs variable ? Une des raisons est de tenter de trouver certains comportements communs entre les utilisateurs, et essayer de les formaliser. Si on arrive cerner une partie de pertinence commune, on pourra l'implanter dans les systmes pour rpondre au moins une partie commune des besoins. On connat maintenant certains facteurs communs. Par exemple, le sujet (ou en anglais topic) est le facteur le plus important dans la pertinence. Ainsi, on peut construire des systmes en utilisant uniquement le critre de sujet, ce qui conduit l'approche base sur la topicalit. Une autre raison des tudes de la pertinence est d'essayer de comprendre exactement comment le contexte influence sur elle. Si on arrive comprendre cela, par exemple, trouver des contextes typiques dans lesquels un facteur devient trs important, on pourra implanter des systmes spcialiss en consquence. Derrire ces tudes, il y a aussi des motivations philosophiques comme celle de comprendre comment l'humain raisonne.
5. Evaluation d'un systme de RI

Le but de la RI est de trouver des documents pertinents une requte, et donc utiles pour l'utilisateur. La qualit d'un systme doit tre mesure en comparant les rponses du systme avec les rponses idales que l'utilisateur espre recevoir. Plus les rponses du systme correspondent celles que l'utilisateur espre, mieux est le systme.
27
5.1 Corpus de test (rfrences)

Pour arriver une telle valuation, on doit connatre d'abord les rponses idales de l'utilisateur. Ainsi, l'valuation d'un systme s'est faite souvent avec certains corpus de test. Dans un corpus de test, il y a: un ensemble de documents; un ensemble de requtes; la liste de documents pertinents pour chaque requte.
Pour qu'un corpus de test soit significatif, il faut qu'il possde un nombre de documents assez lev. Les premiers corpus de test dvelopps dans les annes 1970 renferment quelques milliers de documents. Les corpus de test plus rcents (par exemple, ceux de TREC 2 ) contiennent en gnral plus 100 000 documents (considrs maintenant comme un corpus de taille moyenne), voir des millions de documents (corpus de grande taille). Parmi les collections de documents de test les plus utilises en RI citons : La collection CACM regroupant les titres et les rsums tris du journal CACM ; La collection Cranfield traitant des rsums du domaine Aeronautical Engineering ; La collection Medline traitant les articles tris du journal Medical Journal ; La collection Time constituant les articles tris du journal Time.
Nombre de documents 3240 1460 1400 1033 425 Nombre de requtes 64 112 225 30 83
Le tableau 1.2 rcapitule ces collections.

CACM3 CISI4 CRAN5 MED6 TIME7
Tableau 1.2 : Quelques collections de documents de test en RI L'valuation d'un systme ne doit pas se reposer seulement sur une requte. Pour avoir une valuation assez objective, un ensemble de quelques dizaines de requtes, traitant des sujets varis, est ncessaire. L'valuation du systme doit tenir compte des rponses du systme pour toutes ces requtes. Finalement, il faut avoir les rponses idales pour l'utilisateur pour chaque requte. Le dernier lment d'un corpus de test fournit cette information. Pour tablir ces listes de documents pour toutes les requtes, les utilisateurs (ou des testeurs simulant des utilisateurs) doivent examiner chaque document de la base de document, et juger s'il est pertinent. Aprs cet exercice, on connat exactement quels documents sont pertinents pour chaque requte. Pour la construction d'un corpus de test, les jugements de pertinence constituent la tche la plus difficile.
2 3
http://trec.nist.gov/ http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/cacm/ 4 http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/cisi/ 5 http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/cran/ 6 http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/medl/ 7 http://www.dcs.gla.ac.uk/idom/ir_resources/test_collections/time/
28
5.2 Rappel et Prcision

La comparaison des rponses d'un systme pour une requte avec les rponses idales nous permet d'valuer les mtriques suivantes : 5.2.1 Le Rappel Le rappel mesure la proportion de documents pertinents retrouvs parmi tous les documents pertinents dans la base. La proportion complmentaire est le Silence qui correspond la proportion de documents pertinents non retrouvs.
Rappel =
PR P
[0, 1] et Silence = 1 Rappel
(1.4)
Avec : P reprsente le nombre de documents pertinents dans tout le corpus. R reprsente le nombre de documents retrouvs. 5.2.2 La Prcision La prcision mesure la proportion de document pertinent retrouv parmi tous les documents retrouvs par le systme. La proportion complmentaire est le Bruit qui correspond la proportion de documents retrouvs qui ne sont pas pertinents.
prcision =
PR R
[0, 1] et Bruit = 1 prcision
(1.5)
5.2.3 La F-mesure Plusieurs indicateurs de synthse ont t crs partir de deux mesures de Rappel et de la Prcision, mais le plus clbre est la F-mesure. Cette mesure correspond une moyenne harmonique de la prcision et du rappel. Cette moyenne diminue lorsque lun de ses paramtres est petit et augmente lorsque les deux paramtres sont proches tout en tant levs [Rijsbergen, 1979].
F mesure = (1 + 2 ) prcision rappel ( 2 prcision) + rappel
(1.6)
Le paramtre permet de pondrer la prcision ou le rappel, il est gal gnralement la valeur 1. Pour effectuer ces mesures, il faut disposer des rponses idales aux requtes en question. La Figure 1.5 illustre ces formules.
Ensemble de documents du corpus Ensemble de documents pertinents dans tout le corpus Bruit Silence
Ensemble de documents retrouvs
Figure 1.5 : Rapprochement de pertinences systme et utilisateur
29
Par ailleurs, un systme idal est un systme donne de bons taux de prcision et de rappel en mme temps. Un systme qui aurait 100% pour la prcision et pour le rappel signifie qu'il trouve tous les documents pertinents, et rien que les documents pertinents. Cela veut dire que les rponses du systme chaque requte sont constitues de tous et seulement les documents idaux que l'utilisateur a identifis. En pratique, cette situation n'arrive pas. Plus souvent, nous pouvons obtenir un taux de prcision et de rappel aux alentours de 30%. En fait, les deux mtriques ne sont pas indpendantes. Il y a une forte relation entre elles : quand l'une augmente, l'autre diminue. Il ne signifie rien de parler de la qualit d'un systme en utilisant seulement une des mtrique. En effet, il est facile d'avoir 100% de rappel: il suffirait de donner toute la base comme la rponse chaque requte. Cependant, la prcision dans ce cas-ci serait trs basse. De mme, on peut augmenter la prcision en donnant trs peu de documents en rponse, mais le rappel souffrira. Il faut donc utiliser les deux mtriques ensemble. Les mesures de prcision-rappel ne sont pas statiques non plus (c'est--dire qu'un systme n'a pas qu'une mesure de prcision et de rappel). Le comportement d'un systme peut varier en faveur de prcision ou en faveur de rappel (en dtriment de l'autre mtrique). Pour comparer deux systmes de RI, il faut les tester avec le mme corpus de test (ou plusieurs corpus de test). Un systme dont la courbe dpasse (c'est--dire qu'elle se situe en haut droite de) celle d'un autre est considr comme un meilleur systme. Il arrive parfois que les deux courbes se croisent. Dans ce cas, il est difficile de dire quel systme est meilleur. Pour rsoudre ce problme, nous pouvons utiliser aussi la prcision moyenne comme une mesure de performance. En effet, la prcision moyenne est une moyenne de prcision sur un ensemble de points de rappel. Cette prcision moyenne pouura tre utilise soit sur 10 points de rappel (0.1, , 1.0), soit sur 11 points de rappel (0.0, 0.1, , 1.0). Cette dernire est possible seulement avec la polarisation. La prcision moyenne dcrit bien la performance d'un systme. C'est la mesure souvent utilise en RI.
6. Reformulation de la requte
La recherche dinformation est un processus qui se base essentiellement sur la requte exprime par lutilisateur pour rpondre ses besoins. Quel que soit le systme de recherche utilis, le rsultat dune recherche ne peut tre intressant si la requte ne dcrit pas explicitement et clairement les besoins de lutilisateur. En gnral, lutilisateur se contente de donner quelques mots-cls. Ces derniers sont issus dune connaissance gnrale sur un domaine donn. Par consquent, les documents renvoys par le systme de recherche peuvent appartenir des domaines et disciplines diffrents par lesquels lutilisateur nest pas concern. La reformulation de requtes est une phase importante du processus de recherche dinformation. Elle consiste de manire gnrale enrichir la requte de lutilisateur en ajoutant des termes permettant de mieux exprimer son besoin [Efthimiadis, 2000]. En effet, les techniques de reformulation consistent modifier les requtes pour ressembler davantage aux documents jugs pertinents et sloigner des documents non pertinents. Plus la distance entre la requte initiale et la requte reformule est grande, plus il y a de nouveau documents qui vont apparatre comme rsultat de la nouvelle recherche. Ces techniques peuvent tre assistes par lutilisateur (interactives), comme elles peuvent tre menes dune manire automatique.
30
La premire technique est la plus rpandue en RI. Il sagit de la reformulation par rinjection (rtroaction) de la pertinence, appele aussi Relevance Feedback (RF). Elle consiste extraire partir des documents jugs pertinents par lutilisateur les mots-cls les plus expressifs, et les ajouter la requte [Rocchio, 1971] [Robertson et Sparck-Jones, 1976]. Dans la deuxime technique, il sagit de lexpansion de requte.
6.1 Rtroaction de pertinence (Relevance Feedback)

Le RF (Relevance Feedback) ou technique de modification des requtes par analyse et incorporation des retours, est un processus de reformulation automatique de requtes dont le but est de gnrer des requtes optimales proches des besoins des utilisateurs. Cette reformulation qui se fait par interaction entre l'utilisateur et le systme consiste en gnrale modifier la pondration des termes de la requte initiale ou leur substituer d'autres termes choisis pour leur caractre, notamment associatif, gnrique ou spcifique. Ces oprations de reformulation s'effectuent sur la base des indices fournis par l'utilisateur travers, d'une part, la requte initiale et, d'autre part, les documents pertinents et non pertinents slectionns. Ce processus de recherche, de slection de documents pertinents et non pertinents puis de gnration automatique de requte se fait de faon itrative jusqu' l'atteinte des objectifs la satisfaction de l'utilisateur. En fait, cette technique a pour but de simplifier la tche de lutilisateur qui na pas dterminer dans les documents pertinents les termes importants, avant deffectuer une nouvelle requte. [Yuwono et al., 1997] distinguent deux techniques principales du RF : la technique semiautomatique base sur le modle de Rocchio et la technique automatique. 6.1.1 La technique du RF semi-automatique Cette technique ncessite l'intervention de l'utilisateur qui doit identifier et slectionner les documents pertinents et les documents non pertinents. Les travaux sur cette technique ont t mens par Rocchio la fin des annes 1970. Ces travaux ont t publis en 1971 [Rocchio, 1971] et ont t suivis de ceux de Ide [Ide, 1971]. Plus tard, les travaux sur le RF semiautomatique ont t enrichis par l'apport de la mthode probabiliste. Cette approche a t implmente par Harper, Hamian, Croft, Spark Jones et Van Rijisbergen [Yuwono et al., 1997]. Notons que la fonction de Rocchio drive de lhypothse quune requte idale Qnew doit maximiser la diffrence de sa distance Cosinus moyenne de ses documents pertinents et de sa distance Cosinus moyenne de ses documents non pertinents (la distance cosinus sera prsente dans le modle vectoriel du chapitre suivant). Le systme effectue la reformulation selon lquation suivante :
Q new = Q old +
1 reldocs
w
reldocs
ti
1 nonreldocs
w
nonreldocs
ti
(1.7)
permet de moduler limportance de la requte prcdente Qold. permet de moduler le vecteur profil moyen des documents choisis. permet de moduler le vecteur profil des documents rejets. , et reprsentent des paramtres positifs. Leurs valeurs sont fixer dans lintervalle [0, 1].
|reldocs| reprsente le cardinal de lensemble des documents pertinents. |nonreldocs| reprsente le cardinal de lensemble des documents non pertinents.
31
Le paramtre ntait pas initialement pris en compte dans la formule de Rocchio. Salton, la introduit ultrieurement et cest la forme gnrale dfinie qui est souvent considre.
6.1.2 La technique de RF automatique
Selon [Aliane et al., 2004], lorsque le feedback de pertinence saccompagne dune adjonction (et/ou) suppression de termes, il sagit de la reformulation automatique. La requte de lutilisateur est remanie automatiquement, pour intgrer les descripteurs des documents jugs pertinents ou rejets. En fait, il existe diffrentes variantes de cette technique : celles qui sont utilises automatiquement pour reformuler la requte en augmentant le poids des termes prsents dans les documents jugs pertinents et inversement pour diminuer les poids des termes jugs non pertinents. Le problme avec la reformulation automatique est lestimation des bons termes qui peuvent conduire effectivement une amlioration du processus de recherche car lintroduction des termes inappropris peut entraner un silence ou au contraire augmenter un bruit. Selon [Yuwono et al., 1997], dans les environnements o la technique du RF automatique est implmente, un nombre prdfini de documents extraits par la requte initiale sont rputs pertinents. Les procdures et formules utilises dans l'approche du RF automatique sont des variantes des formules Rocchio et Ide qui permettent de faire abstraction des documents non pertinents. En effet, le modle de Ide [Ide, 1971] est une variante du modle de Rocchio. Du modle de Rocchio elle dduit la formule suivante qui lui sert de base dans ses travaux :
min( na ,n ' p )
Qi +1 = Qi + Q0 +
pi +
i =1
min( nb ,n ' s ) i =1
NP
(1.8)
O (n'p + n's) = N le nombre de document extraits et servant au processus du "feedback". Les variables exprimentales tant : a, , , , na, nb et N. Le paramtre est positif et permet de pondrer tous les documents jugs pertinents par rapport tous les lments contribuant la formation de ta requte (requte prcdente Qi, requte initiale Q0 et documents non pertinents). Le paramtre permet d'augmenter la pondration de la requte prcdente en fonction des documents du feedback. Q0 est la requte initiale, Qi est la requte de la prcdente itration, permet d'utiliser la requte initiale comme partie intgrante de la nouvelle requte, doit tre thoriquement ngatif pour tenir compte des documents non pertinents extraits. Les paramtres na, nb permettent d'utiliser un nombre spcifique de documents pertinents et non pertinents dans la requte mme quand les valeurs des paramtres na, nb sont plus grands (utilisation de la fonction min()). La flexibilit de cette formule a permis Ide non seulement de confirmer les rsultats positifs obtenus par Rocchio, mais aussi d'tudier trois variantes de ce modle [Ide, 1971]: Modle bas sur l'utilisation exclusive de documents pertinents ; Modle bas sur le nombre de documents N extraire et rintgrer dans le systme chaque itration du RF. Modle bas sur l'intgration d'un ou de deux documents non pertinents aux documents pertinents et la requte initiale. 32
6.2 Expansion de requtes

Une expansion de requte peut tre vue comme un traitement pour "largir" le champ de recherche pour cette requte. Une requte tendue va contenir plus de termes relis. En utilisant le modle vectoriel, par exemple, plus de documents seront reprs. Ainsi, ce traitement est souvent vu comme un moyen d'augmenter le taux de rappel. Cependant, nous savons quil na pas de sens de parler du rappel sans considrer en mme temps la prcision. Ainsi, cette affirmation que l'expansion de requte va conduire un meilleur rappel n'est pas tout fait juste. Il faut plutt dire que, en slectionnant les documents selon un seuil de similarit entre un document et une requte, nous avons la chance de slectionner plus de documents pertinents avec une requte tendue. L'utilit de l'expansion de requte dpend fortement de deux facteurs: 1. Quels mots doit-on utiliser pour tendre la requte? 2. Comment les nouveaux mots doivent-ils tre ajouts dans la requte? Les mots utiliss pour faire l'expansion de requte doivent tre fortement relis la requte. Typiquement, on utilise un dictionnaire de synonyme, ou un thsaurus. Les mots relis avec des mots de la requte par certains types de relation (e.g. IS_A) sont choisis pour tendre la requte. Il y a aussi des tudes qui essaient de trouver automatiquement les mots fortement relis. La plupart de ces approches exploitent les co-occurrences: Plus deux mots co-occurent dans des textes, plus on suppose qu'ils sont fortement relis. Une fois ces relations statistiques choisies, on peut les utiliser dans un processus d'expansion de requte. Il est aussi suggr que le processus d'expansion soit interactif : L'usager peut filtrer les mots proposs par le systme. Cette approche est utilise dans certains systmes, par exemple, Medline qui intgre un thsaurus du domaine mdical [Joubert et al., 1991].
6.3 Les problmes poss par la reformulation de la requte

La rtroaction de pertinence est dun emploi souvent lourd pour lutilisateur qui doit interagir avec la systme, tandis que les termes ajouts lors dune expansion automatique ne sont pas toujours appropris et peuvent par consquent engendrer du bruit puisquil est possible dintroduire dans la requte des termes qui nont pas de rapport avec le besoin de lutilisateur. Dautre part les termes de la requte sont gnralement considrs de manire isole dans lexpansion de la requte. En cas de courtes requtes, lexpansion de requtes peut ne pas tre efficace car lambigut eventuelle de la requte risque dtre prolonge dans lexpansion. Ce problme est rsolu par la combinaison dun filtrage et dune expansion nomme le Query By Example . La plupart d'approches d'expansion considrent chaque mot de la requte isol. [Qiu et Frei, 1993] pensent qu'il vaut mieux choisir des mots qui sont relis la requte qu'aux mots individuels de la requte. Autrement dit, ils calculent la relation entre un mot et la requte dans son ensemble, et choisissent dutiliser les mots les plus fortement relis. Ils montrent que cette approche est meilleure que celle de lexpansion de mots. Dautre part, il est possible quun document ne concernant quun seul terme de la requte soit mieux class quun autre document concernant tous les termes de la requte : le premier contient plusieurs reprsentation du mme terme. Dans ce cadre [Salton et McGill, 1983] ont introduit les deux notions dexhaustivit (exh) et de spcificit (spec). Lexhaustivit dtermine si tous les aspects de la requte ont t abords dans le document. Quant la 33
spcificit, elle dtermine si tout le contenu du document D traite du thme de la requte Q. En fait, ces deux mesures peuvent tre calcules de plusieurs faons, parmi les quelles citons : exh ( D, Q ) = ou encore :
exh ( D, Q ) =
dq q
j j j j
j
et spec( D, Q ) =
dq d
j j j j
(1.9)
dq q
j j j
et spec( D, Q ) =
dq d
j j j j
(1.10)
Avec : D = (d1, d2, , dn) vecteur des poids associs aux termes descripteurs dans le document D.
Q = (q1, q2, , qn) vecteur des poids associs aux termes descripteurs dans la requte Q.
Notons que la reformulation de la requte ne permet damliorer la recherche que relativement aux rsultats obtenus partir de la requte initiale. Ces amliorations de requtes sont variables dune base documentaire une autre et peuvent dpendre, dune part du nombre de termes ajouts et de leur slection et dautre part de la manire avec laquelle ils sont ajouts.
7. Conclusion
Nous avons dtaill dans ce chapitre les diffrents acteurs qui interviennent dans un Systme de Recherche dInformation. Nous avons montr que le besoin de lutilisateur ne doit pas se limiter uniquement sa requte. Son intraction avec le systme est aussi une composante essentielle pour amliorer la qualit de la recherche. En fait, pour satisfaire davantage le besoin dinformation dun utilisateur et pour lintgrer dans le processus de recherche, dautres techniques ont t introduites telles que la reformulation de requtes et les techniques de classification. Il sest avr aussi que la phase danalyse et dindexation est trs utile pour construire une reprsentation riche, cohrente et proche du contenu du document. Cette phase permet aussi une acclration du processus de recherche. En effet, la russite dun tel processus est troitement lie la qualit du systme dindexation. Nous allons prsenter dans le chapitre suivant les modles les plus connus de la RI. Nous nous intressons particulirement la reformulmation de la requte ainsi quau sens de la pertinence donn par ces modles.
34
Chapitre 2 : Les modles de la Recherche dInformation
Chapitre 2
Les modles de la Recherche dInformation

La RI est un ensemble de techniques et d'outils informatiques dont la finalit initiale tait bibliographique : il sagissait daider les usagers trouver, dans des fonds documentaires, les rfrences concernant un sujet particulier. L'amlioration des capacits de stockage des ordinateurs a chang la nature du problme, qui n'est dsormais plus d'exploiter des notices bibliographiques mais de conserver et d'accder directement aux informations textuelles contenues dans les documents qui constituent les fonds. Le champ de la recherche d'information moderne couvre ainsi plus largement la catgorisation des documents textuels, leur indexation, leur classification, leur catalogage et l'accs leur contenu. Longtemps rserve une petite communaut de spcialistes, la RI est aujourd'hui connue et utilise par un public plus large travers les moteurs de recherche sur Internet. Le problme gnral de la RI est de retrouver dans un ensemble de documents ceux qui contiennent des informations qui constituent des rponses la requte dun utilisateur. Les systmes de RI disposent ainsi d'une reprsentation des informations contenues dans les fonds documentaires et d'une procdure permettant de dterminer leur pertinence comme rponses une requte particulire. Idalement, ces systmes devraient comprendre les informations textuelles contenues dans les documents et les requtes (ces dernires, gnralement formules en langue naturelle, peuvent tre considres comme des documents supplmentaires). Une telle comprhension est malheureusement hors de la porte des systmes de Traitement Automatique en Langage Naturel (TALN) ; tant donn les volumes des documents, une analyse smantique de leur contenu par des oprateurs humains n'est pas non plus envisageable. Les systmes de RI peuvent donc au mieux calculer une approximation du sens de ces informations, et valuer leur proximit avec celui de la requte, de faon classer les documents en fonction de leur pertinence comme rponses la requte. Si c'est l'indexation qui choisit les termes pour reprsenter le contenu d'un document ou d'une requte, c'est au modle de leur donner une interprtation. tant donn un ensemble de termes pondrs issus de l'indexation, le modle de RI remplit les deux rles suivants : Crer une reprsentation interne dun document ou dune requte base sur ces termes ; Dfinir une mthode dappariement (ou matching) entre une reprsentation de document et une reprsentation de requte afin de dterminer leur degr de correspondance (ou similarit).
Le modle joue un rle central dans la Recherche dInformation ; c'est celui qui dtermine le comportement cl d'un systme de RI. En fait, il existe deux techniques dappariement de sens qui utilise la linguistique : linfrence et paraphrasage. Lappariement base dinfrence est une technique statistique, utilise pour la manipulation des connaissances en Intelligence Artificielle (IA). Cette approche utilise les rseaux smantiques afin dintroduire un niveau smantique dans les traitements. Alors que le paraphrasage sappui sur des connaissances purement linguistiques, indpendantes du domaine dapplication ; les transformations sont par consquent gnrales et ninvoquent pas un niveau de reprsentation des connaissances dordre conceptuel.
35
Les techniques linguistiques sont lourdes mettre en uvre dans un cadre qui se veut pratique et efficace. De lautre ct, les techniques statistiques sont plus performantes en percevant la valeur de pertinence quon associe aux termes comme une dimension du sens. Dans ces perspectives, nous nous intressons dans ce chapitre quaux techniques statistiques. Nous dcrivons dans la premire section le modle de Matching score, premier modle utilis dans la RI. Dans la deuxime section, nous dtaillons le modle boolen ainsi que ses deux extensions : le modle boolen bas sur des ensembles flous et le modle boolen tendu ou p-norme. Le modle vectoriel et ses deux extensions (le modle vectoriel gnralis et modle vectoriel et domaine smantique) feront lobjet de la troisime section. Dans la quatrime section, nous prsentons le modle probabiliste. Dans la dernire section, nous mettons laccent sur la reformulation de requtes dans ces modles.
1. Modle "Matching score"

C'est peut-tre le premier "modle" utilis dans la RI. L'ide est assez primitive et intuitive : Un document est reprsent par un ensemble de termes pondrs par leur frquence. Une requte est aussi un ensemble de termes, pondrs 1. Le degr de correspondance est la somme des frquences des termes de la requte dans le document : R(d , q ) = f i
i
O fi est la frquence d'un terme de q dans le document d. La valeur R ainsi calcule est appele la "matching score". En ralit, cela est quivalent parcourir le document et voir combien de fois les termes de la requte apparaissent dans ce document. Plus ce "matching score" est lev, plus on considre que le document correspond la requte, et donc plus il sera class haut dans la rponse. Ce modle est primitif car il utilise directement le rsultat de l'indexation sans aucune rorganisation ou modlisation [Salton et al., 1983a].
2. Modle boolen
Dans ce modle, un document est reprsent comme une conjonction logique de termes (non pondrs), par exemple : d = t1 t2 tn Une requte peut tre vue comme une formule logique contenant un certain nombre de termes relis par des oprateurs logiques tels que : ET (not ), OU (not ) et NON (not ). Par exemple : q = (t1 t2) (t3 t4) Pour qu'un document corresponde une requte, il faut que l'implication suivante soit valide : d q. Cette valuation peut tre aussi dfinie de la faon suivante : Un document peut tre reprsent comme un ensemble de termes, et une requte comme une expression logique de termes. La correspondance ou pertinence systme R(d, q) entre une requte q et un document d est dtermine de la faon suivante, si qi et qj sont des termes de la requte : R(d, qi) = 1 si qid ; 0 sinon. R(d, qi qj) = 1 si R(d, qi) = 1 et R(d, qj) = 1 ; 0 sinon. R(d, qi qj) = 1 si R(d, qi) = 1 ou R(d, qj) = 1 ; 0 sinon. R(d, qi) = 1 si R(d, qi) = 0 ; 0 sinon. (2.1)
36
Dans sa version simple, le modle prsente les trois problmes suivants [Waller et Kraft, 1979]: 1. La correspondance entre un document et une requte est soit 1, soit 0. En consquence, le systme dtermine un ensemble de documents non ordonns comme rponse une requte. Il n'est pas possible de dire quel document est meilleur qu'un autre. Cela cre beaucoup de problmes aux usagers, car ils doivent encore fouiller dans cet ensemble de documents non ordonns pour trouver des documents qui les intressent. C'est difficile dans le cas ou beaucoup de documents rpondent aux critres de la requte. 2. Tous les termes dans un document ou dans une requte tant pondrs de la mme faon simple (0 ou 1), il est difficile d'exprimer qu'un terme est plus important qu'un autre dans leur reprsentation. Ainsi, un document qui dcrit en dtail "informatique", mais mentionne un peu "commerce" se trouve tre reprsent par {informatique, commerce} dans laquelle les deux termes deviennent aussi important l'un que l'autre. Cela ne correspond pas ce qu'on souhaite avoir. 3. Le langage d'interrogation est une expression quelconque de la logique de propositions (un terme tant une proposition). Cela offre une trs grande flexibilit aux usagers d'exprimer leurs besoins. Cependant, un problme en pratique est que les usagers manipulent trs mal les oprateurs logiques, surtout dans beaucoup de cas, les mots "et" et "ou" ne correspondent pas tout fait aux oprateurs logique et . En partie cause de cela, les expressions logiques donnes par un usager correspondent souvent mal son besoin. La qualit de la recherche souffre donc en consquence. Nous rcapitulons dans la suite les avantages et les inconvnients de ce modle : Les avantages du modle boolen : Le modle est plus facile implanter et ncessite relativement peu de ressources ; Le langage de requte boolen est plus expressif que celui des autres modles ; Ce modle convient aux utilisateurs connaissant exactement leurs besoins et en mesure de les formuler prcisment avec le vocabulaire qu'ils matrisent. Il est difficile aux novices de formuler une requte combinant plusieurs oprateurs logiques, notamment pour les requtes complexes. L'importance relative des mots-cls ne peut pas tre exprime ; Le classement des documents extraits par ordre de pertinence est difficile ; La reformulation automatique des requtes par la technique du Relevance Feedback est plus ardue.
Les inconvnients du modle boolen : -
Notons que le modle boolen standard n'est utilis que dans trs peu de systmes de nos jours. Parmi les SRI classiques bass sur le modle boolen, nous citons MEDLARS8 (1970) devenu MEDLINE9 et TEXTO10 (1982). En fait, si nous utilisons un modle boolen, c'est plutt une extension de ce modle. Les extensions de ce modle, prsentes dans la suite, essaient justement de corriger ces lacunes.
MEDLARS : MEDical Literature Analysis and Retrieval System. Cest la version Medline de la National Library of Medecine. 9 MEDLINE : MEDLARS on LINE : Cest une base qui indexe des articles de priodiques qui se rapportent au domaine mdical. 10 TEXTO : Cest un logiciel de manipulation de fonds documentaire.
37
Pour rduire les limites poses par ce modle propos pour la RI et dans le but daugmenter leurs performances, deux extensions ont t proposes. Celles-ci sont dcrites ci-aprs.
2.1 Modle Boolen bas sur des ensembles flous

Cette extension au modle boolen standard consiste affecter des pondrations (ai) aux termes dans la reprsentation des documents. Du ct requte, elle reste toujours une expression boolenne. Avec cette extension, un document est reprsent comme un ensemble de termes (ti) pondrs (ai) comme suit [Kraft et al., 1983] : d = {, (ti, ai),} La correspondance entre un document d et une requte exprime par les deux termes qi et qj, peut prendre plusieurs formes. Une d'elles est la suivante : R(d, qi) = ai R(d, qi qj) = min (R(d, qi), R(d, qj)) R(d, qi qj) = max (R(d, qi), R(d, qj)) R(d, qi) = 1 - R(d, qi) (2.2)
Dans cette valuation, les oprateurs logiques et sont valus par min et max respectivement. C'est une des valuations classiques proposes par L. Zadeh [Zadeh, 1965] dans le cadre des ensembles flous. Dans cette valuation on sintresse soit la partie la plus facile quand il sagit dune disjonction, soit la pqrtie la plus difficille quand il sagit dune conjonction. Par consquent, les oprateurs min et max se rapprochent respectivement des oprateurs ET et OU, puisque le rang dun document retrouv dpend du terme de plus faible poids pour une requte ET et de plus fort poids pour une requte OU. Daprs [Salton, 1983], cette mthode manque de pouvoir de descrimination. Ainsi, plusieurs autres formes dvaluation ont t proposes. Une des formes est celle de Lukaswicz qui fait intervenir dans lvaluation les deux parties R(d, qi) et R(d, qj) : R(d, qi) = ai R(d, qi qj) = R(d, qi) * R(d, qj) R(d, qi qj) = R(d, qi) + R(d, qj) - R(d, qi) * R(d, qj) R(d, qi) = 1 - R(d, qi) (2.3)
Dans cette valuation, les deux parties d'une conjonction ou d'une disjonction contribuent en mme temps, contrairement celle de Zadeh [Zadeh, 1965]. Cependant, elle a le mme problme qui est R(d, q q) 0 et R(d, q q) 1. En plus, R(d, q q) R(d, q) R(d, q q). En comparant ces extensions avec le modle standard, il est assez facile de voir les avantages. Le plus important est la possibilit de mesurer le degr de correspondance entre un document et une requte dans [0, 1]. Ainsi, les documents puissent tre ordonn dans l'ordre dcroissant de leur correspondance avec la requte. L'usager peut parcourir cette liste ordonne et dcider o s'arrter. En outre, cette reprsentation plus raffine, car on peut exprimer dans quelle mesure un terme est important (reprsentatif) dans un document.
38
2.2 Modle boolen tendu ou P-Norme

Le modle p-norme [Salton et al., 1983a] est propos pour rsoudre certains problmes observs dans le modle boolen standard : La taille des rponses est non contrlable ; Les rponses sont non-ordonnes ; Tous les termes ont la mme importance ; Pour une requte qui est une longue conjonction, un document qui satisfait la majorit des termes est aussi mauvais qu'un document qui ne satisfait aucun terme ; pour une requte qui est une longue disjonction, un document qui satisfait un terme est aussi bon qu'un document qui satisfait tous les termes ; L'approche propose tente d'tendre le modle boolen standard sur plusieurs aspects. D'abord, observons la table de vrit utilise pour l'valuation boolenne standard donne par le tableau 2.1: A 0 0 1 1 B 0 1 0 1 AB 0 0 0 1 AB 0 1 1 1
Tableau 2.1 : Table de vrit pour lvaluation boolenne standard
Dans la colonne de A B, l'objectif est d'atteindre le cas de la dernire ligne. Dans la colonne de A B, c'est plutt la premire ligne qu'il faut viter. Ainsi, une faon de rendre flou l'valuation stricte consiste calculer une sorte de distance entre les points viter ou atteindre. Selon cette distance, on va dterminer l'valuation de la conjonction ou de la disjonction. L'ide de base correspond la figure 2.1 :
Figure 2.1 : Evaluation de la conjonction et de la disjonction
Dans la figure 2.1, tant donn une valuation de A et de B, on dtermine un point dans l'espace A-B. Dans le cas de la conjonction, on cherche valuer dans quelle mesure ce point est proche de (1, 1) - le point atteindre. Ce rapprochement peut tre mesure par le complment de la distance entre le point et le point (1, 1) : plus cette distance est grande, moins A B est satisfaite ce point. Pour les points qui se situent sur une mme courbe, ils ont la mme distance avec (1, 1). Dans le cas de A B, on cherche plutt viter le point (0, 0). Plus on est loin de (0, 0), plus A B est satisfaite. Base sur cette intuition, l'valuation suivante est propose par Salton et al. [Salton et al., 1983a]. On admet la pondration de termes dans les documents : ai est le poids de qi dans d.
39
R(d, qi) = ai R(d, qi qj) = 1 - ([(1- R(d, qi))2 + (1- R(d, qj))2] / 2)1/2 R(d, qi qj) = [(R(d, qi)2 + R(d, qj)2) / 2]1/2 R(d, qi) = 1 - R(d, qi) Dans cette valuation, la distance est normalise (divise par 21/2).
Premire gnralisation
(2.4)
Une premire gnralisation de l'valuation prcdente a consist permettre aussi associer une pondration aux termes de la requte. Dans cette approche, la signification de cette pondration est bien dfinie : elle mesure l'importance du terme pour le besoin de l'usager. Plus un terme a une pondration forte, plus il est important. Ainsi, une requte (qi, qj, qk) pondrs respectivement par (bi, bj, bk) prend la forme suivante : q = qibi (qjbj qkbk) L'valuation devient la suivante (supposons que ai soit le poids de qi dans d) : R(d, qibi) = ai * bi R(d, qibi qjbj) = 1 - [[bi2 * (1-R(d, qi))2 + bj2 * (1-R(d, qj))2] / (bi2 + bj2)]1/2 R(d, qibi qjbj) = [bi2 * (R(d, qi)2 + bj2 * R(d, qj)2) / (bi2 + bj2)]1/2 R(d, qi) = 1 - R(d, qi)
Deuxime gnralisation
(2.5)
(2.6)
Pour gnraliser ce dernier modle on peut attribuer une pondration aux oprateurs logiques pour dterminer dans quelle mesure un oprateur doit tre valu de faon stricte. C'est le rle du facteur p qu'on ajoute sur un oprateur. Les oprateurs p et p sont valus comme suit : R(d, qibi p qjbj) = 1 - [[bip * (1-R(d, qi))p + bjp * (1-R(d, qj))p] / (bip + bjp)]1/p R(d, qibi p qjbj) = [bip * (R(d, qi)p + bjp * R(d, qj)p) / (bip + bjp)]1/p (2.7)
Cela correspond remplacer une distance euclidienne par une distance "p-norme". La valeur de p peut varier dans [1, [. Plus p est grand, plus l'valuation est stricte. Cela peut se comprendre par l'examen de deux cas extrmes : quand p = 1, on retrouve une valuation quivalente celle du modle vectoriel (qui sera dtaill dans la section suivante) ; quand p, l'valuation est quivalente celle du modle boolen standard ou base sur des ensembles flous. Nous ne donnons pas de preuve ici, mais il est assez facile de prouver les suivants [Salton et al., 1983a] : R(d, qibi 1 qjbj) = [bi * R(d, qi) + bj * R(d, qj)] / (bi + bj) R(d, qibi 1 qjbj) = [bi * R(d, qi) + bj * R(d, qj)] / (bi + bj) (2.8)
La conjonction et la disjonction deviennent identiques. Cette valuation correspond sim0 du modle vectoriel. R(d, qibi qjbj) = min (R(d, qi), R(d, qj)) R(d, qibi qjbj) = max (R(d, qi), R(d, qj)) (2.9)
40
Cette valuation est la mme que celle du modle base sur des ensembles flous. Bas sur cette comparaison, le comportement du modle p-norme varie entre le modle boolen et le modle vectoriel comme illustr dans la figure 2.2 :
Figure 2.2 : Comportement du modle p-norme
Le modle p-norme est intressant non pas pour sa performance en pratique (bien que les exprimentations montrent qu'il est meilleur que le modle vectoriel et le modle boolen flou), mais pour son cadre unificateur. Cela nous aide comprendre la diffrence entre le modle vectoriel et le modle boolen : un modle vectoriel peut tre considr comme un modle boolen dans lequel la diffrence entre la conjonction et la disjonction est annule.
3. Modle vectoriel
Le modle vectoriel constitue une alternative au modle boolen. Dans ce modle, les documents et les requtes sont reprsents par des vecteurs de poids des termes descripteurs. Chaque poids dans le vecteur dsigne l'importance du terme correspondant dans le document ou dans la requte. Les vecteurs sont exprims dans un espace vectoriel dfini par l'ensemble des termes construits lors de la phase d'indexation. Nous dfinissons : T : lunivers des termes descripteurs des documents dun corpus d ; V(T) : lespace vectoriel de dimension |T| = n sur IR. le modle a t propos par Salton [Salton, 1971] dans le cadre du systme SMART. En fait, ce modle rpose sur : lhypothse que les documents les plus pertinents sont ceux qui sont les plus proches des requtes (cest--dire qui contiennent les mmes termes) ; une reprsentation similaire des documents et des requtes par des vecteurs de mme type ; le degr de correspondance entre les deux vecteurs, dtermin par leur mesure de similarit. Plusieurs manires de calculer la similarit (Sim) entre deux vecteurs (d et q) ont t proposes, parmi lesquelles nous citons :
(i) Produit scalaire
Le produit scalaire brut, donn par lquation (2.10), avantage les documents contenant de nombreux termes descripteurs. Cest pourquoi la plupart des mesures qui lutilise comprennent un facteur de normalisation.
rr n Sim( d , q) = d .q = d i qi
i =1
(2.10)
41
(ii) Mesure du Cosinus
La mesure de cosinus, donne par lquation (2.11) et initialement propose par Salton [Salton, 1989], mesure langle que forme le vecteur document et le vecteur requte. Cette mesure permet de trouver les documents situs dans un cne dont le sommet est situ lorigine, la requte reprsente laxe central, et le rayon, le seuil de mise en correspondance. En fait, lavantage de cette mesure est son indpendance vis--vis de la norme des vecteurs comparer. Ce qui vite de procder une normalisation pralable. Le cosinus vaut 1 si les vecteurs sont parallles et 0 sils sont orthogonaux. La mesure de cosinus peut tre galement interprte comme une valeur de corrlation.
rr d .q
d q
i =1 n
2
i i n
SimCos ( d , q) = r r = d q
(2.11)
2
d q
i i =1 i =1
(iii) Mesure de Tanimoto ou S-mesure
La mesure de Tanimoto [Tanimoto, 1958], donne par lquation (2.12), drive de lindice de Jaccard (quation (2.13)) utilis pour effectuer des classifications. Cet indice permet dvaluer la ressemblance entre deux ensembles en valuant le quotient entre leur nombre dlments communs et leur nombre dlments distincts.
rr d .q SimTan ( d , q) = r 2 r rr= 2 d + q d .q
d q
n
2
i i
2
d i + qi d i qi
i =1 i =1 i =1
i =1 n
(2.12)
Indice Jac (d , q ) =
d q d q d q
(2.13)
(iv) Mesure de Dice
La mesure de Dice, donne par lquation (2.14), drive de lindice de Dice (quation (2.15)). Cet indice permet de quantifier lcart entre deux ensembles en comptabilisant le nombre de termes quils ont en commun.
rr 2 d .q SimDice (d , q ) = r 2 r d + q
2 d i qi
2
i =1
d
i =1
+ qi
i =1
(2.14)
2
IndiceDice ( d , q) = 2 Avec :
d q d +q
(2.15)
d = (d1, d2, , dn) vecteur des poids associs aux termes descripteurs dans le document d V(T). q = (q1, q2, , qn) vecteur des poids associs aux termes descripteurs dans la requte q V(T).
r rr r d .q reprsente le produit scalaire entre les deux vecteurs d et q . r r r2 r r r r d et q reprsente les normes Euclidiennes des vecteurs d et q , avec d = d . d
42
d reprsente le cardinal de lensemble d.

Si les termes possdent des poids ngatifs 11 ils vont participer diminuer le score des documents indexs par ces termes. La mesure de similarit varie dans ce cas dans lintervalle [-1, 1]. Malgr quil existe des corrlations entre ces diffrentes mesures, ces dernires ne donnent pas le mme rsultat pour le classement des documents. En effet, [Hamers et al., 1989] a dmontr que SimJac(d, q) 2SimCos(d, q), ce qui veut dire quen considrant un seuil endeas duquel les documents sont considrs pertinents, la mthode du cosinus tranche plus brutalement que les autres. Il est galement possible dutiliser une mesure de distance, la plus lmentaire correspond la distance euclidienne :
Dist ( d , q) =
(d
i =1
qi ) 2
(2.16)
Les mesures de similarit dcrites prcdemment expriment le degr de correspondance entre deux vecteurs. La pertinence systme quon note R peut ainsi tre assimile une similarit : R(d, q) = Sim (d, q). Dans le cas de lutilisation dune distance, cette dernire est inversement proportionnelle la pertinence systme, la formule prcdente devient donc : R(d, q) = 1/ Dist (d, q). En utilisant ces mesures de similarit, il est possible dobtenir un classement des documents par degr de pertinence. Le nombre de documents prsenter peut tre fix dune manire approximative et/ou peut tre dfini par une valeur de similarit arbitraire (valeur de coupure ou seuil) auquel cas, seuls les documents dont la mesure de similarit est suprieure la valeur de coupure sont pris en compte. Dautre part, les mesures de similarit peuvent tre utilises pour comparer des documents entre eux ou des requtes entre elles. Dans sa version initiale, le modle vectoriel se base sur lhypothse que les termes sont indpendants, contrairement au modle boolen, qui permet dans la reprsentation de la requte dutiliser des oprateurs logiques qui prennent en considration les connexions smantiques entre les termes, ce qui pose le problme de manque dexpressivit de la requte vectorielle. Pour remdier ce problme, lutilisation conjointe dun thesaurus pour amliorer considrablement les performances de ce modle. Afin de pallier les limites poses par le modle vectoriel, des extensions ont t proposes. Parmi lesquelles nous citons :
3.1 Modle vectoriel gnralis

Dans sa version initiale le modle vectoriel ne permet pas dexprimer des liens smantiques entre les termes descripteurs. Cest--dire que les vecteurs de base associs aux descripteurs sont deux deux orthogonaux. Afin de rsoudre ce problme [Wong et Raghavan, 1984] ont propos de transformer lespace vectoriel initial B pour introduire dventuelles corrlations. La description vectorielle dun document d sexprime dans une base B, constitue par un
11
Un poids ngatif exprime limportance de labsence du critre de recherche dans les documents recherchs.
43
ensemble de vecteurs reprsentant des discripteurs virtuels12 et se substitue la pseudo-base B, de la manire suivante :
d=
a x
i xi B '
(2.17)
Avec :
B reprsente la nouvelle base reprsentant des vecteurs qui vont se substituer aux vecteurs de la base initiale B dfinie par lespace de description du corpus. ai est le degr de pertinence dans le document d du descripteur virtuel associ au vecteur xi.
Dautre part, [Lamirel, 1995] a propos une nouvelle mtrique spcifique qui peut tre associe lespace vectoriel des descripteurs afin dintroduire leffet de corrlation dans la mesure de similarit entre un document d et une requte q. Cette contribution se base sur lexpression gnrale du produit scalaire entre deux vecteurs r r r s r r u et v qui scrit : u , v M = u t Mv .
M est la matice associe au produit scalaire, elle dfinit une mtrique non euclidienne dans lespace qui tient compte dune manire approfondie, la fois des liens de synonymie et des liens dhirarchie entre les descripteurs. Elle peut tre assimile la matrice de passage de la base B la base B. Elle a la forme suivante :
C11 C12 C21 C22
O chaque coefficient Cij peut tre interprt comme le degr de certitude associ linfrence floue13 i j. Le produit scalaire ntant plus systmatiquement commutatif, il fallait alors dfinir une mesure oriente. La mesure de similarit Cosinus devient en consquence [Lamirel, 1995] :
Sim( d , q) =
d t Mq q t Mq d t Md
(2.18)
d t et q t peuvent tre assimils des vecteurs dduits respectivement de d et de q en utilisant les infrences floues entre les termes descripteurs. La mesure de similarit devient :
Sim( d , q) =
d tq q t Mq d t d
(2.19)
Puisquil sagit dune mesure de similarit oriente, Lamirel, limage de [Nie, 1988] propose de la prendre globalement en compte de la manire suivante :
Sim Nie ( d , q) = Sim( q, d ) + Sim( d , q)

Avec :
- Sim(q, d) peut tre assimile au degr de certitude de linfrence floue q - Sim(d, q) peut tre assimile au degr de certitude de linfrence floue d
12
(2.20)
d. q.
Deux descripteurs fortement synonymes apparaissant dans B pourraient tre rduits un seul descripteur dans B. 13 Si P(d q) = 1, alors le document d contient tous les termes de la requte q. Si P(q d) = 1, alors le document d ne concerne que la requte q.
44
et peuvent tre initialiss .
3.2 Modle vectoriel et domaines smantiques

[Lamirel, 1995] a introduit la dimension smantique dans le modle vectoriel de RI. En effet, son approche consiste prendre en compte un niveau supplmentaire dans la recherche dinformation en considrant des points de vue sur les documents par lintermdiaire de leurs domaines smantiques. Dans la mthode propose, le besoin de lutilisateur sexprime gnralement par un nombre rduit de descripteurs dans un domaine cibl afin dviter le bruit apparaissant systmatiquement lors dune mise en correspondance globale. Lide consiste partitionner lespace vectoriel de description des documents en sous-espaces vectoriels associs ces domaines smantiques, ainsi :
n
si P(T ), V ( si ) V (T ) o Avec :
-
UV ( s ) = V (T )
i i =1
(2.21)
V(Si) correspond au sous-espace vectoriel de dimension |Si| sur IR associ au domaine smantique Si. Lunion des sous-espaces vectoriels associs aux domaines forme lespace vectoriel de description.
En cas o lutilisateur sintresse un domaine smantique caractris par un sous-espace, alors la mesure de similarit entre une requte q et un document d est rapporte au sousespace (mesure partielle) et sexprime de la faon suivante :
Sim( d , q) = Sim( qV ( Si ) , dV ( Si ) )
(2.22)
Pour procder un classement global de pertinence partir des classements partiels il faut vrifier si les valeurs de pertinence sont compatibles. Dans ce cas il est possible de considrer la somme pondre des valeurs de pertinences partielles entre la requte et le document, donnes par chacune des mises en correspondance. Les poids utiliss peuvent tre considrs comme une mesure dimportance donne au domaine lors de linterrogation. Dans le cas gnral, le calcul de pertinence global se base sur le calcul dun rang moyen pondr ; ce qui correspond la somme pondre des rangs dun document d pour une requte q, sexprimant comme suit :
Rang ( d , q) =
Si
S rS ( d , q)
i i
Si
(2.23)
Avec :
-
S correspond aux poids de pertinence du domaine Si lors de la mise en correspondance. rS correspond au rang du document d pour la requte q selon la mise en correspondance
i
partielle associe au domaine Si.
4. Modle probabiliste
Cette approche sintresse la probabilit de pertinence des documents. Il nest plus question de chercher si un document est plus ou moins pertinent mais de chercher une probabilit de pertinence qui est plus ou moins importante. Il sagit de dterminer pour un document d 45
trouv la probabilit quon obtienne linformation pertinente avec celle quon obtienne linformation non pertinente. Soient R et NR reprsentant respectivement la pertinence (Relevance) et la non-pertinence (Non Relevance). Lide de base dans un modle probabiliste est de tenter de dterminer les probabilits P(R|d) et P(NR|d) pour une requte donne. Ces deux probabilits signifient respectivement que : si on retrouve le document d, elles indiquent la probabilit de pertinence et non-pertinence de linformation obtenue [Fuhr, 1992] [Jones et al., 2000]. Une premire hypothse consiste ne considrer que la prsence et labsence des termes dans le document et la requte dont les termes ne sont pas pondrs. Il sagit de dterminer les caractristiques de R et NR pour une requte donne. Donc, implicitement, P(R|d) et P(NR|d) correspondent plutt P(Rq|d) et P(NRq|d) pour la requte q, mais cet index peut tre ignor pour linstant. Il est donc possible de classer les documents selon les deux mesures P(R|d) et P(NR|d) en utilisant la formule suivante :
P(R|d) / P(NR|d)
(2.24)
Ces deux probabilits ne sont pas directement calculables. Ainsi, lutilisation du thorme de Bayes donne :
P(R|d) = P(d|R) P(R) / P(d) P(NR|d) = P(d|NR) P(NR) / P(d)

Ce qui donne :
(2.25) (2.26) (2.27) (2.28)
P(R|d) / P(NR|d) = [P(d|R) P(R)] / [P(d|NR) P(NR)]

Or, pour une mme requte P(R) et P(NR) sont des constantes, la formule devient :
P(R|d) / P(NR|d) = P(d|R)/ P(d|NR)

Avec :
P(R|d) que la probabilit que d fasse partie de lensemble des documents pertinents.
P(R) est la probabilit de pertinence, cest--dire, si on choisit un document au hasard dans le corpus, la probabilit quil soit pertinent. P(d|R) est la probabilit que le document soit choisi (si on prend au hasard un document dans un corpus correspondant alors la chance quil soit d).
Hypothse dindpendance et le modle de recherche indpendant
Pour estimer P(d|R) et P(d|NR), le document sera dcompos en un ensemble d"vnements". Un vnement dnote soit la prsence ou l'absence d'un terme dans ce document, cest--dire une srie dlments (ti = xi) o xi reprsente labsence ou la prsence du terme ti dans le document d. Ainsi [Fuhr, 1992]:
P(d|R) = P(t1 = x1, t2 = x2, t3 = x3, |R) P(d|NR) = P(t1 = x1, t2 = x2, t3 = x3, |NR)
(2.29) (2.30)
Dans la thorie des probabilits, la probabilit de la combinaison de plusieurs vnements est dtermine comme suit :
P(a, b, c, d |R) = P(a|R) * P(b|a,R) * P(c|a,b,R) * P(d|a,b,c,R) *
(2.31) 46
Cest--dire quil faut tenir compte des dpendances entre les vnements, reprsentes dans cette formule par des probabilits conditionnelles. Il est vrai que dans le contexte de la RI, les prsences et les absences de termes sont dpendantes. Par exemple, si le terme informatique apparat dans un document, il y a plus de chance que le terme ordinateur apparasse aussi. Ainsi, nous avons : P(ordinateur = 1 | informatique = 1) > P(ordinateur = 1). Le calcul de P(d|R) et de P(d|NR) est complexe, car il faut tenir compte des dpendances suivantes :
P(t2 = x2 | t1 = x1, R), P(t3 = x3 | t1 = x1, t2 = x2, R), etc.

En consquence le nombre de documents pertinents dapprentissage doit tre trs lev. Ainsi, lhypothse dindpendance est suppose pour simplifier le calcul de de P(d|R) et de P(d|NR):
Hypothse d'indpendance : les vnements lis aux diffrents termes sont indpendants. Ainsi [Fuhr, 1992]: P(d|R) = (ti=xi)d P(ti = xi | R) P(d|NR) = (ti=xi)d P(ti = xi | NR)
(2.32) (2.33)
Le problme est rduit donc lestimation de P(ti = xi|R) et P(ti = xi|NR), ce qui est beaucoup plus faisable. [Roberston et Sparck-Jones, 1976] considrent que les termes descripteurs sont attribus sans poids. Seules les termes de la requte sont pondrs partir du bouclage de pertinence, ce qui permet de calculer une probabilit de pertinence pour chaque terme en fonction de sa distribution parmi les documents pertinents et les documents non pertinent. Ils partent de lhypothse que les termes non lis smantiquement sont distribus galement parmi les documents. En fait, la probabilit pour un terme de se retrouver un certain nombre de fois dans un lment dinformation suit une loi de Poisson. Lensemble des documents pertinents et non pertinents jugs par lutilisateur donnent deux distributions de Poisson. Il est galement possible de partir dune tude priliminaire qui utilise un chantillon de documents. En effet, avec ces chantillons, il est possible d'estimer P(ti = xi|R) et P(ti = xi|NR) o R et NR correspondent maintenant respectivement lensemble des documents pertinents et non pertinents parmi les chantillons. Il suffit de construire la table de distribution suivante pour chaque terme ti : #doc. pert. contenant ti #doc. non-pert. contenant ti #doc. contenant ti #doc. pert. ne contenant pas ti #doc. non-pert. ne contenant pas ti #doc. ne contenant pas ti #doc. pert. #doc. non-pert. #chantillons
Tableau 2.2 : Table de distribution pour chaque terme ti
Supposons quon ait les valeurs suivantes pour ti: ri Ri - ri Ri n - ri N - Ri n + ri N - Ri n N-n N
Tableau 2.3 : Table de valeurs du terme ti
47
Ainsi :
pi = P(ti = 1|R) = ri/n et (1 - pi) = P(ti = 0|R) = (n - ri)/n
(2.34)
qi = P(ti = 1|NR) = (R - ri )/(N n) et (1-qi ) = P(ti = 0|NR) = (NR- n + ri )/(N n) (2.35)

Ici, pour simplifier les formules (2.34) et (2.35), on dnote P(ti = 1|R) par pi, P(ti = 0|R) par (1-pi), et P(ti =1|NR) par qi, P(ti = 0|NR) par (1-qi). La formule (2.28) prcdente scrit donc : P (t i = 1 R) xi P(t i = 0 R) (1 xi )
ti
P(d|R) / P(d|NR) =
P(t i = 1 NR) P(t i = 0 NR )

xi ti
(1 xi )
p ixi (1 p i ) (1 xi )
ti
q ixi (1 q i ) (1 xi )
ti
(2.36)
Soit g(d) = log[P(d|R) / P(d|NR)], alors :

g ( d ) = [ xi log pi + (1 xi ) log(1 pi ) xi log qi + (1 xi ) log(1 qi )]
(2.37) pi q 1 pi ) log( i )] + log( ) 1 pi 1 qi 1 qi ti ti 1 pi ) ne dpend pas du document (i.e. xi). Cest une Remarquons que la partie log( 1 qi ti constante (note C) pour nimporte quel document. La formule (2.37) scrit :
= xi [log(
ti
g ( D) = x i log
ti
pi (1 q i ) +C q i (1 p i )
(2.38)
Le poids du terme ti, not wi scrit:

ri N Ri n + ri ri p i (1 q i ) (n ri ) n N n wi = log = log = log n ri R ri ( R ri ) q i (1 p i ) ti ( N Ri n + ri ) n N n
(2.39)
Ainsi, le poids pour un document est dtermin par p(d) g(d) :
p(d ) = xi wi
ti
(2.40)
Une gnralisation de la fonction a t propose par [Croft, 1981] en introduisant une pondration non binaire des termes. Une esprance mathmatique est alors exprime par lquation (2.41) :
E (d ) = P ( i ) log
i =1 n
pi (1 qi ) qi (1 pi )
(2.41)
P( i ) est la probabilit dindexation du document d par le terme i.

48
Dans [Chen, 1995], le modle probabiliste est dfini principalement par deux types de stratgies de recherche pour lapprentissage : document oriented strategy et query oriented strategy. En effet, la document oriented strategy correspond la recherche des requtes pertinentes pour un document donn (probabilit que d q), ce qui revient donc estimer la pertinence des autres requtes pour le mme document. La query oriented strategy permet de determiner les documents pertinents pour une requte donne (probabilit que q d), ce qui revient estimer la pertinence pour le reste de la collection mais toujours pour la mme requte. Dans les deux stratgies, linformation fournie est exploite par le Relevance Feedback effectu sur une collection. Cette information permet destimer la probabilit de pertinence soit pour le reste de la collection soit pour lensemble des requtes, mais elle ne peut pas tre gnralise tous les deux. Cest la raison pour laquelle [Fuhr et Buckley, 1991] ont propos la feature oriented strategy, une troisime stratgie de recherche pour lapprentissage base sur le modle probabiliste. En effet, cette stratgie consiste adopter des caractristiques (longueur des documents, nombre de termes, etc.) au lieu des termes qui correspondent aux documents ou aux requtes. En consquence, cette stratgie donne une forme plus gnrale pour lapprentissage probabiliste pour lensemble des documents et des requtes. Pour ce faire, Christian Fuhr utilise des mthodes de rgression et lalgorithme ID3 pour la construction de larbre de dcision pour lindexation et la recherche dinformation. Cependant, lhypothse dindpendance de termes nest pas toujours vrifie. Par exemple, un document pertinent qui possde le terme artificielle en rponse une requte incluant le terme intelligence artificielle , a plus de chance dinclure le terme intelligence que nimporte quel autre terme choisi au hasard. Plusieurs extensions au modle probabiliste originel ont donn des meilleurs rsultats dans la slection des documents pertinents que ce dernier. Parmi ces modles citons : les modles base de rseaux dinfrence et des rgles de Bayes et le modle de Poisson (CONSTRUCTOR [Crawford et al., 1991], INQUERY [Turtle et Croft, 1991], OKAPI [Walker et al., 1997]).
5. Reformulation de requte dans ces modles

Il est souvent difficile, pour l'utilisateur, de formuler exactement son besoin en information. Par consquent, les rsultats que lui fournit le SRI ne lui conviennent parfois pas. Retrouver des informations pertinentes en utilisant la seule requte initiale de l'utilisateur est toujours difficile, et ce cause de l'imprcision de la requte. Afin de faire correspondre au mieux la pertinence utilisateur et la pertinence du systme, une tape de reformulation de la requte est souvent utilise. La requte initiale est traite comme un essai pour retrouver de l'information dsire ou cible. Les documents initialement prsents sont examins et une formulation amliore de la requte est construite, dans l'espoir de retrouver des documents plus pertinents. La reformulation de la requte se fait en deux tapes principales : trouver des termes d'extension la requte initiale, et pondrer les termes dans la nouvelle requte. [Dunlop, 1997] distingue deux types de rtroaction : La rtroaction ngative, si un document pertinent est jug non pertinent ; dans ce cas un grand changement va se produire. Inversement, si un document non pertinent est jug non pertinent, la requte initiale ne changera pas vraiment. La rtroaction positive, si un document pertinent est jug pertinent ; dans ce cas la transformation de la requte initiale est minime. Inversement, si un document non pertinent est jug pertinent, alors un grand changement va se produire dans la requte
49
initiale. Autrement dit, leffet du feedback est sens tre inversement proportionnel limportance du document retrouv par rapport la requte.
5.1 Reformulation de la requte dans le modle boolen

Selon [Nie, 2004], il a t observ qu'une requte qui est formule comme une longue conjonction est trs difficile satisfaire. En effet, la rponse est gnralement vide exprimant un silence. Par contre, une longue disjonction est trs facile satisfaire : nombreux sont les documents qui vont tre rcuprs dans la rponse. C'est surtout pour rsoudre le premier problme que la reformulation de requte est introduite. Dans le cas d'une longue requte en conjonction, si un document satisfait la plupart des termes de la requte, on peut penser qu'il satisfait en partie le besoin de l'utilisateur. Il est dans ce cas prfrable de proposer un ensemble de documents partiellement satisfaisants que de ne pas donner de rponse. Ainsi, le processus de reformulation consiste examiner le nombre de documents en rponse. Si le nombre est trs peu lev, alors on peut assouplir la requte initiale en supprimant un terme selon le schma suivant : Soit la requte initiale q = (t1 t2 t3 tn). Si aucun document n'a t trouv, une premire methode consiste relaxer la requte de la manire suivante : q = (t2 t3 t4 tn) (t1 t3 t4 tn) (t1 t2 t3 tn-1) Si aucun rsultat satisfaisant nest obtenu, il est possible de poursuivre cette dmarche en relaxant chaque sous-requte par ablation supplmentaire de termes.
Une seconde methode envisageable consiste supprimer le terme le plus difficile satisfaire (celui qui correspond au minimum de documents rcuprs). En fait, ces deux types de mthodes ne sont cependant justifis que par des besoins pratiques. Une autre mthode reposant sur de meilleurs fondements thoriques consiste considrer la relation que peuvent entretenir les termes comme une relation dimplication (nous avons soit a b soit b a). Dans ce cas, le calcul de correspondance est bas sur le calcul dune implication entre le document et la requte. Pour lextension de la requte le schma suivant est propos : Si b apparat dans une requte q et si nous avons a b, alors la requte peut tre tendue en remplaant b par (b a) ; Si a apparat dans une requte q et si nous avons a b, alors la requte peut tre tendue en remplaant a par (a b) ;
Ce processus est en accord avec la logique et lide intuitive lie la notion dimplication. En effet : Si q = b c et si on est en prsence de limplication a b alors la requte tendue devient q= (b a) c ; Par ailleurs, puisque (b a) b, nous avons bien q q. Si q = a c, alors la requte tendue devient q= (a b) c = (a b) c. De la mme manire, nous avons bien q q puisque si a b alors a b.
Dautre part, certains auteurs suggrent d'associer une importance chaque terme de la requte pour que l'utilisateur puisse diffrencier des termes trs importants de ceux qui le sont moins. On peut voir certaines propositions dans les travaux des [Waller et Kraft, 1979], [Radecki, 1979] et [Kraft et al., 1983].
50
5.2 Reformulation de la requte dans le modle vectoriel

Les techniques du Relevance feedback appliques au modle de recherche vectoriel ont t domines par les travaux de Rocchio [Rocchio, 1971] puis de Ide [Ide, 1971]. Comme son nom l'indique, le feedback dans le cadre de ce modle part du principe que la requte initiale formule par l'utilisateur sert au systme identifier une zone ou rgion de l'espace d'index de termes qui contient des documents pertinents. N'ayant pas d'autres informations sur les caractristiques des documents enregistrs, la requte initiale constitue l'unique indice de dpart. En introduisant dans le cycle la requte initiale et les documents pertinents et non pertinents courants slectionns, l'utilisateur, ce faisant, fournit des informations au systme qui lui permettent de reformuler automatiquement le profil de la requte de sorte que les documents gnrs au fur et mesure des itrations tendent de plus en plus se rapprocher des besoins de l'utilisateur. En effet, dans le modle vectoriel, le feedback ngatif se comporte sensiblement de manire oppose au feedback positif et ce, quand il sagit dintroduire des poids ngatifs pour les termes que lutilisateur ne dsire pas retrouver dans les documents pertinents recherchs. Il agit comme un filtre pour ne garder que les documents qui rpondent certains termes. Par contre le feedback positif agit conformment lide propose par [Dunlop, 1997] dans les deux cas o il sagit dintroduire des poids positifs ou des poids ngatifs. Pour raliser la reformulation de requte deux mthodes sont possibles : Crer un vecteur additionnel pour la requte ; Ajouter des termes dans le mme vecteur correspondant la requte initiale.
Dans la premire mthode, tous les termes ajouts forment un nouveau vecteur. Le calcul de correspondance va se faire en deux temps : dabord le vecteur de similarit avec le vecteur initial puis le calcul avec le vecteur dextension. Le rsultat final est alors une combinaison pondre des deux vecteurs. Dans la seconde mthode, les termes nuls peuvent tre transforms en valeurs non nulles. Les documents contenant ces termes verront alors leur mesure de similarit augmenter. Le modle vectoriel est bas sur une hypothse dindpendance entre les termes du vecteur. Lextension de requte par ajout dun terme dans le mme vecteur peut, dans certains cas, contredire cette hypothse car le terme ajout peut tre ventuellement reli un terme de la requte. Le resultat de cette interdpendance conduit considrer le terme avec un poids deux fois plus levs car il apparat en quelque sorte deux fois dans le vecteur. Lextension va donc fortement altrer le sens de la requte initiale. Le calcul spar de lextension de la requte par rapport celle effectue dans le vecteur initial tend minimiser ce problme de dpendance. Cependant, il reste dterminer la combinaison pondre des deux rsultats de calcul avec les deux vecteurs. Cette dernire ne peut tre dtermine que dune manire empirique.
5.3 Reformulation de la requte dans le modle probabiliste

Robertson et Sparck-Jones [Robertson et Sparck-Jones, 1976] ont dvelopp une formule de pondration des termes (donne par lquation (2.39)) base sur la distribution des termes de la requte dans les documents jugs pertinents et les documents jugs non pertinents par lutilisateur. Une variation de cette formule de base a t dfinie dans le but de calculer les nouveaux poids pour les termes de la nouvelle requte lors du processus de rinjection de pertinence :
51
( ri + 0.5) pi (1 qi ) (ni ri + 0.5) wi = log = log ( R ri + 0.5) qi (1 pi ) ( N R ni + ri + 0.5) Avec : r + 0.5 n r + 0.5 et qi = i i pi = i R +1 N R +1
ri correspond au nombre de documents pertinents qui sont indexs par le terme ti ; ni correspond au nombre de documents qui sont indexs par le terme ti ; R correspond au nombre de documents pertinents ; N correspond au nombre de tous les documents dans la collection ; 0.5 est un facteur dajustement.
(2.42)
Harman [Harman, 1992] a montr que lutilisation du coefficient 0,5 dans la formule (2.42) comme facteur dajustement permet daugmenter la prcision. Cette augmentation a t de lordre de 25% sur la base Cranfield. Haines et Croft [Haines et Croft, 1993] ont dfini une mthodologie de repondration en utilisant une version rvise de la formule de pondration de Sparck-Jones : Recherche initiale : wijk = (C + idf i ). f ik
p (1 qij ) Feedback : wijk = C + log ij . f ik qij (1 pij )
(2.43) (2.44)
Avec : wijk : le poids du terme ti dans la requte j et le document k ;

idfi : frquence absolue du terme ti dans la collection ; pij : probabilit que le terme ti soit assign un ensemble de documents pertinents pour une requte j.
pij = (r + 0.5)/(r + 1) si r > 0, pij = 0.01 si r = 0 ;

qij : probabilit que le terme ti soit apparaisse dans un ensemble de documents non pertinents pour une requte j.
qij = (n - r + 0.5)/(N - R + 1);

f ik = K + (1 K ). freqik max( freqk )
freqik : la frquence du terme ti dans le document k ; freqk : la frquence maximale dun terme dans le document k ;
C, K : constantes.
Dans le modle probabiliste, le feedback positif agit conformment lide intuitive propose par [Dunlop, 1997] sappuyant sur le principe dextrapolation partir des documents jugs a priori pertinents pour dterminer la pertinence du reste des documents. Dautre part, dans [Salton et Buckly, 1988] les mthodes dactivation/propagation ont t recommandes pour lexpansion du vocabulaire de la recherche et pour complter les documents trouvs. Il sagit dexploiter les associations de paires de termes, les citations et les
52
indicateurs bibliographiques dans une reprsentation en rseaux de nuds lis. Lefficacit de la mthode propose dpend de la qualit effective de la reprsentation (nuds et liens) ainsi que des rgles dactivation. Le modle propos dans INQUERY [Turtle et Croft, 1991] est bas sur des rseaux dinfrence utilisant des rgles de Bayes pour la RI (document network et query network) et constitue un exemple appropri de ces mthodes. Ce modle sera dtaill dans le chapitre suivant.
5.4 Autres approches de reformulation de requtes

Plusieurs mthodes de relevance feedback (RF) ont t incorpores dans SMART par [Salton et al., 1983b] [Salton et Buckley, 1990], savoir la version de la formule de Rocchio et des extensions de celle-ci en ce qui concerne le fragment qui fait intervenir le feedback ngatif. Par ailleurs, plusieurs travaux de recherche ont prouv que le RF amliorait les rsultats de la recherche selon les deux critres dvaluation souvent utiliss dans les SRI savoir les taux de rappel et de prcision ; quoi que le feedback ngatif, cest--dire la mention des documents non pertinents, ne donne pas de rsultats aussi satisfaisants que le feedback positif. Daprs [Harman, 1988], les techniques de reformulation de requtes sont moins coteuses quand il sagit de guider lutilisateur que quand il sagit de procder automatiquement. Dans ces perspectives, lauteur propose de guider lutilisateur dsirant amliorer sa requte, dans le cadre dune recherche en ligne, en lui fournissant une liste de mots qui correspondent aux voisins proches et aux diffrentes variantes des termes de la requte initiale. Le nombre de termes ajouter et le nombre ditrations effectuer sont des paramtres fixer automatiquement. Les exprimentations ont t menes en utilisant la collection Cranfield. Le mme auteur [Harman et al., 1992] propose dajouter des descripteurs pertinents la requte partir des documents pertinents et de rduire le poids des termes non pertinents partir des documents non pertinents. En fait, lauteur affirme que si la pertinence (utilisateur) est affecte aux documents non pertinents (systme), alors la requte transforme tend vers la gnralisation. Par contre, si la pertinence (utilisateur) est affecte aux documents jugs pertinents (systme), alors la requte transforme permet daugmenter la recherche dans une direction. De leur part, [Buckley et Salton, 1995] ont propos une dmarche qui se base sur la formule de Rocchio et sur lamlioration dynamique des poids en testant leur changement possible sur le resultat de la recherche. Le processus est rpt pour chaque terme dont le poids a t modifi et ce pour tester sil y a effectivement une amlioration du rsultat aprs changement. Selon Salton, les requtes optimises permettent dobtenir un rsultat meilleur (10-15%) par rapport aux requtes initiales. Le problme pos est celui de lincohrence de comportement du feedback ngatif vis--vis du feedback positif, ainsi que celui des mauvais rsultats gnraux. Dans ces perspectives, [Lamirel, 1995] a propos une solution utilisant la transforme orthogonale afin de rsoudre le problme de feedback ngatif. En fait, cette solution consiste redfinir globalement les quations vectorielles du RF. Lauteur propose de considrer des informations nouvelles par rapport aux documents rejets (jugs non pertinents). Ces informations correspondent la partie complmentaire par rapport celle contenue dans les documents rejets. La reformulation ngative vectorielle dune requte consiste alors approcher celle-ci dune direction complmentaire la direction des rejets plutt que de lloigner de la direction des rejets elle-mme, qui est le cas du feedback ngatif usuel. Pour sa part, [Lee, 1998] propose de combiner plusieurs mthodes pour le RF. En effet, lauteur a propos de fusionner les diffrents rsultats, provenant de plusieurs requtes reformules, pour amliorer le degr de pertinence [Porter, 1982][Smeaton, 1983][Belkin et 53
al., 1993] [Fox et Shaw, 1994]. Les mthodes dont Lee a propos de fusionner se basent sur des formules drives du modle probabiliste en plus de celle de Rocchio, comme suit : La formule de [Ide, 1971] qui est drive de celle de Rocchio mais en liminant les facteurs normalisation exprims respectivement par les nombres de documents pertinents et non pertinents tout en limitant le nombre de documents non pertinents : Q new = .Q old + .
w
reldocs
ti
Tnonreldocs
(2.45)
Tnonreldocs correspond au vecteur des documents qui sont classs les plus moins pertinents. La formule Pr_cl [Croft, 1979] lie au modle probabiliste est dj donne par lquation (2.42). La formule Pr_adj [Roberston, 1986] qui correspond une version modifie de la formule Pr_cl :
wi = log pi (1 qi ) r + ni / N n r + ni / N , avec pi = i et qi = i i qi (1 pi ) R +1 N R +1
(2.46)
La formule S_rpi [Fuhr et Buckley, 1991] qui correspond aussi une version modifie de la formule Pr_cl :
wi = log
wti wti pi (1 qi ) , avec pi = et qi = qi (1 pi ) reldocs reldocs nonreldocs nonreldocs
(2.47)
Sur un extrait de la collection TREC, [Lee, 1998] a montr que la requte reformule partir de la formule initiale de Rocchio est la plus proche de la requte originelle que toutes les autres. Il a montr galement que les diffrentes requtes tendues donnent des rsultats diffrents et quune amlioration peut tre apporte au rsultat de la recherche, si les rsultats respectifs sont combins.
6. Conclusion
Les modles prsents dans ce chapitre ont considr le corpus de documents comme une composante statique, ce qui est loin dtre le cas. De sa part, lutilisateur a t considr aussi comme un acteur passif ou partiellement actif, en exploitant son volution pour oprer une reformulation de la requte, dans le processus de recherche. Afin damliorer leurs performances, ces modles ont t explors en les combinant avec dautres moles, qui prennent en considration le caractre interactif entre le systme et lutilisateur et la nature volutive de la collection. En fait, lide consiste combiner plusieurs mthodes de reprsentation la fois des requtes et des documents pour la Recherche dInformation. Cette combinaison permet damliorer le degr de pertinence des documents retrouvs. Il sagit galement de combiner les diffrentes stratgies de recherche et dexplorer plusieurs mthodes de relevance feedback. Dautre part, pour tenir compte des liens smantiques entre les termes, une extension du modle probabiliste a t propose en utilisant les rseaux Baysiens, dautres modles utilisent les rseaux possibilistes. Ces deux modles de RI seront dtaills et compars dans le chapitre suivant.
54
Chapitre 3 : Modle Baysien versus Modle Possibiliste de Recherche dInformation
Chapitre 3
Modle Baysien versus Modle Possibiste de Recherche dInformation

Avec la croissance de la taille des bases de donnes de nos jours est ne la ncessit d'automatiser le traitement de cette grande masse de donnes, automatiser le raisonnement et la prise de dcision. Il serait donc intressant d'avoir un ou plusieurs systmes permettant de faire le lien entre les observations et la ralit pour un objectif prcis (aide la prise de dcision), et cela, mme lorsque les observations sont incompltes et/ou imprcises. Les rseaux baysiens (RB) apportent des solutions efficaces ces insuffisances par leurs reprsentations graphiques compactes des problmes rels complexes et leur rapidit en temps de calcul. En effet, l'utilisation des rseaux baysiens (RB) en RI est apparue dans les annes 1980 [Frisse, 1988][Frisse et Cousins, 1989] mais elle sest largement dveloppe par les travaux de Turtle [Turtle et Croft, 1990][Turtle et Croft, 1991] suivis dautres [Ribeiro-Neto et al., 1996][Silva et al., 2000][De Campos et al., 2002][Calado et al., 2003]. Nanmoins, ce formalisme a ses limites. En effet, il modlise lunivers de manire causale et ne permet pas la modlisation de relations dinterdpendances, alors que le besoin de telles relations sen fait souvent ressentir. De plus la complexit de la modlisation et des calculs augmente de manire exponentielle par rapport la taille de lunivers. Le modle possibiliste quantitatif de RI, propos par [Brini et al., 2004abc], tente de rpondre en partie ces limites. Tout dabord, la pertinence est interprte dans un cadre possibiliste. Ce cadre est plus mme de prendre en compte lignorance partielle qui peut affecter les informations utilises dans les diffrents calculs. En fait, le modle spare les raisons de slectionner un document pertinent de celles de le rejeter, en utilisant deux mesures : la ncessit et la possibilit. Les documents ncessairement pertinents sont ceux qui doivent figurer en haut de la liste des documents restitus et doivent permettre une certaine efficacit du systme. Les documents possiblement pertinents sont ceux qui rpondraient ventuellement la requte utilisateur. Ils figurent dans la liste des documents restitus classs la suite des documents ncessairement pertinents ou dfaut (si le systme nen trouve pas) ils sont considrs comme une rponse plausible. Afin de permettre cette interprtation de la pertinence, la pondration des termes dans les documents doit tre galement rinterprte. Il a t montr dans [Bookstein et Swanson, 1974] [Harter, 1975] que tous les termes dindexation ne se comportent pas de la mme manire dans une collection de documents. Harter fait une distinction entre les mots informatifs appels aussi mots spcialiss , qui se focalisent sur un type de documents et les mots non informatifs, non spcialiss qui sont distribus de manire normale sur lensemble des documents de la collection. Ceci va dans le sens de linterprtation de la pertinence ; en effet les termes des documents jouent des rles diffrents. Dans un document, il existe des termes frquents importants (informatifs), ncessaires dans la reprsentation du document, donc ncessaires, pour dcider de la pertinence de ce document vis--vis de la requte, et dautres termes moins informatifs, qui ne sont que possiblement intressants pour reprsenter le contenu du document.
55
La logique possibiliste offre un bon cadre pour reprsenter ces deux notions. En effet, le modle possibiliste affecte chaque terme dindexation deux valeurs qui traduisent respectivement la certitude et la possibilit quun terme dindexation soit bon. Le dernier avantage (spcificit) de ce modle rside dans sa prise en compte explicite de labsence des termes de la requte dans le document lors de lvaluation de la pertinence de ce document vis--vis de la requte. Notre apport consiste proposer une extension de ce modle pour permettre une transition de lapproche quantitative (numrique) une nouvelle approche qualitative (ordinale) pour un modle possibiliste de Recherche dInformation. Cette extension sera dtaille dans le chapitre 4 de cette thse. Nous commenons, dans la premire section, par introduire la notion des rseaux baysiens (RB) ainsi que leur principe de raisonnement. Dans la deuxime section nous mettrons l'accent en particulier sur le modle de RI bas sur les rseaux Baysiens. La reformulation de requtes dans les modles de RI bas sur les RB fera lobjet dune quatrime section. Nous decrivons ensuite, dans une cinquime section, le cadre thorique sur lequel repose lapproche possibiliste, savoir les Rseaux Possibilistes (RP). La sixime section prsente le modle possibiliste quantitatif de RI. La reformulation de requtes dans les modles de RI bas sur les RP fera lobjet dune septime section. La dernire section expose un bilan comparatif rsumant les diffrences entre ces deux modles de RI.
1. Les Rseaux Baysiens

L'un des enjeux principaux dans le domaine de la recherche en Intelligence Artificielle est d'tre capable de concevoir et de dvelopper des systmes dynamiques et volutifs. De ce fait, ces derniers doivent tre quips de comportements intelligents qui peuvent apprendre et raisonner. Mais dans la plupart des cas, la connaissance acquise n'est pas toujours adquate pour permettre au systme de prendre la dcision la plus approprie. Pour rpondre ce genre de questions, plusieurs mthodologies ont t proposes, mais seules les approches probabilistes s'adaptent mieux non seulement au raisonnement avec la connaissance et la croyance incertaine, mais aussi la structure de la reprsentation de la connaissance. Ces approches probabilistes sont appeles "Rseaux Baysiens" [Howard et Matheson, 1981][Pearl, 1988], mais sont aussi connues sous le nom de "Belief Networks", "Causal Networks". Les Rseaux Baysiens (RB) sont la combinaison des approches probabilistes et de la thorie de graphes. Autrement dit, ce sont des modles qui permettent de reprsenter des situations de raisonnement probabiliste partir de connaissances incertaines. Ils sont une reprsentation efficace pour les calculs d'une distribution de probabilits [Cornujols et Miclet, 2002]. Par ailleurs, les Rseaux Baysiens doivent leurs noms aux travaux de Thomas Bayes (1702, 1761) au dix-huitime sicle sur la probabilit des causes , travaux repris plus tard par LAPLACE et CONDORCET. Ils visent faciliter la description dune collection de croyance en rendant explicite les relations de causalit et de lindpendance conditionnelle parmi ces croyances et fournir un moyen plus efficace pour mettre jour les forces de croyances (distribution conjointe de probabilit) lorsque des nouvelles vidences sont observes [Kim et Pearl, 1987].
1.1 Dfinition
Un Rseau Baysien est dfini par [Pearl, 1988] :
56
Un graphe acyclique orient G, G = (V, E), o V est lensemble des nuds de G, et E lensemble des arcs de G, Un espace probabiliste fini ( , Z, p), Un ensemble de variables alatoires dfinies sur ( , Z, p), tel que :
n
P(V1 , V2 , K , Vn ) = P (Vi Parents(Vi ))

i =1
(3.1)
O Parents(Vi) est lensemble des parents (causes) de Vi dans le graphe. Un Rseau Baysien est alors constitu de deux composantes : Un graphe causal orient acyclique : il est la reprsentation qualitative de la connaissance. Sil y a un arc du nud X vers le nud Y, cest que la variable X a une influence directe sur la variable Y (X cause Y). Un ensemble de distributions locales de probabilits : il est la reprsentation quantitative de la connaissance (paramtres du rseau). A chaque nud est associ une Table de Probabilits Conditionnelles (TPC) qui quantifie les effets de des parents.
Exemple : [Pearl, 1988]
Ce matin-l le temps est clair et sec, M.X sort de sa maison. Il saperoit que la pelouse de son jardin est humide. Il se demande sil a plu la nuit, ou sil a simplement oubli de dbrancher son arroseur automatique. Il jette un coup dil la pelouse de son voisin, et saperoit quelle est galement humide. Il en dduit alors quil a plu, et il dcide de partir au travail sans vrifier son arroseur automatique. La reprsentation graphique du modle causal utilis est dans la figure 3.1. Cette figure reprsente un Rseau Baysien simple contenant quatre variables binaires, on peut crire aussi : P(A, B, C, D) = P(A).P(B).P(C| A, B). P(D|B) O : A : Arroseur en marche ; B : Il a plu pendant la nuit ; C : Herbe du jardin humide ; D : Herbe du jardin voisin humide ;
A B P(A = V) = 0,4 P(A = F) = 0,6 P(B = V) = 0,7 P(B = F) = 0,3 P(C = V) 0,7 0,95 0,6 0,22
(3.2)
C A V V F F B V F V F
D P(C = F) 0,3 0,05 0,4 0,78
B F V
P(D = V) 0,5 0,58
P(D = F) 0,5 0,42
Figure 3.1 : Exemple de Rseau Baysien
57
1.2 Principe du Rseau Baysien

Les Rseaux Baysiens (RB) sont des modles probabilistes qui sappuient sur des graphes traduisant par des nuds les variables du systme et par des arcs lexistence de liaisons directes entre ces variables. Ltude dun modle de Rseau Baysien ncessite une base de donnes et cherche fournir cette base une modlisation sous forme de graphe caractrisant les dpendances conditionnelles des diffrentes variables. Elle se droule en deux phases [Hallouli, 2004] :
Apprentissage ou constitution du rseau : Il sagit ici de trouver la structure et les probabilits associes du rseau, partir des donnes de la base et de traitements principalement statistiques. Infrence Baysien : A partir des rsultats de la premire phase, le rseau permet la propagation dinformation lintrieur de la structure, permettant toute interrogation sur la base et peut fournir pour chaque tat partiel ou complet de la base (instanciation partielle ou complte des variables de celle-ci) des probabilits doccurrence de toutes les valeurs possibles de toutes les variables.
1.3 Construction de la structure du RB par apprentissage

La structure dun RB est lensemble des arcs du graphe orient sous-jacent au rseau. Dans certaines situations, la structure est fournie par un expert. Si ce nest pas le cas, on fait lapprentissage partir des donnes compltes ou incompltes. La recherche de la structure est un problme difficile principalement cause du fait que lespace de recherche est de taille super-exponentielle en fonction du nombre de variables. Le problme confront est : comment choisir la meilleure structure dun Rseau Baysien ? Il y a deux approches gnrales de construction de la structure dun Rseau Baysien par apprentissage [Franois et Leray, 2004]. Lune est base sur la recherche et des mthodes de marquage (search and scoring), lautre est base sur des mthodes danalyses de dpendances. La premire approche est de nature heuristique, elle consiste chercher la meilleure structure qui sadapte aux donnes. Elle commence avec un graphe dconnect, utilise des mthodes de recherche pour ajouter des arcs et teste par lusage dun score si la nouvelle structure est meilleure que lancienne. Dans la deuxime approche, le problme est vu diffremment. Les algorithmes de cette approche essayent de dcouvrir les dpendances des donnes et puis emploient ces dpendances pour impliquer la structure. Chacun des deux approches admet des avantages et des inconvnients. Gnralement lapproche base sur lanalyse des dpendances est plus efficace pour un rseau dont la structure nest pas trop complique, mais la majorit de ces algorithmes ncessitent un nombre exponentiel de tests sur lindpendance conditionnelle14. Franois et Leray [Franois et Leray, 2003] ont dvelopp une tude comparative des algorithmes de construction de la structure dun Rseau Baysien par apprentissage [Meganck, 2006]. Cette tude porte sur les algorithmes MWST (arbre de recouvrement maximale), PC, K2 et GS (recherche gloutonne). Les auteurs ont dclar que, lalgorithme MWST donne un graphe proche du graphe dorigine, malgr le fait que cette mthode ne
14
Soit deux variables alatoires X et Y. On dit que X et Y sont indpendantes conditionnellement Z et on note (X Y|Z) si lune des proprits suivantes sont vrifies : P(X|Y, Z) = P(X|Z) P(X, Y|Z) = P(X|Z). P(Y|Z)
58
parcourt que lespace (plus pauvre) des arbres. Lheuristique PC donne galement de bons rsultats. Cette mthode construit des structures avec peu darcs, mais qui sont presque tous pertinents. La mthode K2 est trs rapide et est souvent utilise dans la littrature. Elle reste cependant trop sensible linitialisation. Deux ordonnancements diffrents donnent deux Rseaux Baysiens diffrents. Pour un ordre fix, K2 trouve toujours le mme graphe. Par contre en changeant dordonnancement, le graphe final change radicalement. K2 est employ avec lalgorithme MWST afin de donner de bons rsultats. Lalgorithme GS est galement robuste face la variation de la taille de l a base dexemples surtout sil est initialis avec larbre obtenu par MWST.
1.4 Infrence dans les Rseaux Baysiens

Le Rseau Baysien permet de reprsenter un ensemble de variables alatoires pour lesquelles on connat un certain nombre de relations de dpendances. Appelons U lensemble des variables et P(U) la distribution de probabilits sur cet ensemble. Si nous disposons dune nouvelle information sur une ou plusieurs variables, alors on souhaiterait remettre jour la connaissance que reprsente le RB travers P(U) la lumire de cette nouvelle information. Cette remise jour, qui se fera bien sr en utilisant la rgle de Bayes, est appele linfrence. Mathmatiquement parlant, linfrence dans un RB est le calcul de P(U|), cest--dire le calcul de la probabilit a posteriori du rseau sachant . Les premiers algorithmes dinfrence exacte (par opposition approche) pour les Rseaux Baysiens ont t proposs dans [Pearl, 1982] et dans [Kim et Pearl, 1983] : il sagissait dune architecture passage de messages et ils taient limits aux arbres. Dans cette technique, chaque nud est associ un processeur qui peut envoyer des messages de faon asynchrone ses voisins jusqu ce quun quilibre soit atteint, en un nombre fini dtapes. Cette mthode a t depuis tendue aux rseaux quelconques pour donner lalgorithme JLO. Cette mthode est aussi appele algorithme de larbre de jonction et a t dveloppe dans [Lauritzen, 1988] et [Jensen et al., 1990]. Une autre mthode, dveloppe dans [Pearl, 1988] et dans [Jensen, 1996], sappelle le catset-conditioning : elle consiste instancier un certain nombre de variables de manire ce que le graphe restant forme un arbre. On procde une propagation par messages sur cet arbre. Puis une nouvelle instanciation est choisie. On ritre ce processus jusqu ce que toutes les instanciations possibles aient t utilises. Un autre algorithme est apparu pour la premire fois par Zhang et Poole dans [Zhang et Poole, 1994]. Cest essentiellement lalgorithme dlimination de variables de Dechter [Dechter, 1996] ainsi appele parce quil limine par marginalisation (cest--dire intgration) les variables les une aprs les autres. Un ordre dans lequel les variables doivent tre marginalises est exig comme entre de cet algorithme ; on lappelle lordre dlimination. Le calcul dpend de cet ordre. La complexit de lalgorithme dlimination de variables peut tre mesure par le nombre doprations dadditions et de multiplications numriques quil excute. Trouver un ordre dlimination optimal est un problme NP-difficile. Linfrence dans des rseaux quelconques est NP-difficile [Cooper, 1990], la complexit de linfrence peut conduire des temps de calculs prohibitifs pour des rseaux complexes. Il est impossible de calculer directement la loi de probabilit dun nud ou deffectuer une infrence plus complexe, do lutilit dintroduire un nouveau type dinfrence nomm infrence approximative. Les mthodes dapproximation cherchent estimer la distribution de probabilit complte reprsente par le rseau, en effectuant des tirages alatoires avec des lois simples [Jordan et al., 1999][Mackay, 1999][Jaakkola et Jordan, 1999]. Les deux grandes
59
classes dalgorithme dinfrence approximative sont lalgorithme de Monte Carlo [Mackay, 1999] et lalgorithme variationnel [Jordan et Weiss, 2001]. Nous proposons de dtailler dans cette partie, deux algorithmes dinfrence exacte : lalgorithme message passing de Pearl, dans le cas de Rseau Baysien structure darbre, et lalgorithme arbre de jonction , pour des rseaux structures quelconques.
1.4.1 Algorithme Message Passing de Pearl
Cette technique est utilise dans les rseaux acycliques orients. Elle consiste, comme le porte son nom, lenvoie et la rception de messages portant des valeurs ou encore des coefficients pour la mise jour des tables de probabilits de chaque nud. Le principe de cet algorithme consiste dans le fait que chaque nud envoie des messages vers tous ses fils et tous ses parents afin de les informer du changement de sa table de probabilit. Les nuds fils et parents rvisent ce fait, leurs propres tables de probabilits. Le nud A peut envoyer un message son fils B, B(A), pour que ce dernier puisse calculer sa valeur :
P(a) P(b|a)
A
P(a)
p (b) = a p (b, a ) = a p (b a ). p ( a )
Le nud B peut envoyer un message son pre A. B(A), pour quil puisse calculer sa valeur :
P(a) P(b|a) B = b0 P(b0|a)
p (a b0 ) = p (b0 a ). p (a )
Application du message passing dans le cas dun arbre : Soient un nud X, Yi le ime enfant de X, A le seul parent de X (puisquil sagit dun arbre) et sachant E lvidence, alors nous avons les assertions suivantes : P(X|E) = (X) (X)
(X) =
iYi(X) X(a)
(X) = a p(X|a)
X envoie les informations suivantes : son pre : X(A) = X (X) p(X|a) ses enfants :
Yi(X)
= (X)
jiYj(X)
Etant donns les cas particuliers suivants : X racine : (X) = P(X) X feuille non instancie : (X) = [11] X nud instanci : (X) = [0010] (la position du 1 correspond la valeur donne X). 60
1.4.2 Algorithme Arbre de Jonction
Lalgorithme de larbre de jonction dit JLO, des noms de ses auteurs : Jensen F. V., Lauritzen S. L. et Olesen K. G. sapplique deux rseaux ne comprenant que des variables valeurs discrtes [Lauritzen, 1988] [Jensen et al., 1990]. Lalgorithme se comporte de la faon suivante : La phase de construction : elle consiste appliquer des transformations graphiques sur un Graphe Acyclique Orient (GAO) afin dobtenir la structure finale : Arbre de Jonction. Ces transformations impliquent un certain nombre de structures intermdiaires et peuvent tre rcapitules par :
1. Moralisation : construction dun graphe non dirig, appel graphe moral ; 2. Triangulation : ajout slectif des arcs au graphe moral pour former un graphe triangul ; 3. A partir du graphe triangul, on construit des ensembles de nuds appels cliques. Chaque nud contient une ou plusieurs variables du Rseau Baysien original. 4. Pour construire larbre de jonction, on connecte les cliques pour former un arbre non dirig. La phase de propagation : elle consiste la propagation des nouvelles informations concernant une ou plusieurs variables lensemble du rseau, de manire mettre jour lensemble des distribution de probabilits du rseau.
a. Moralisation
Ltape de la moralisation consiste marier les parents de chaque noeud deux deux, puis liminer les directions dans le graphe obtenu. Soit la dfinition suivante dun graphe moral :
Dfinition 3.1 : Soit G = (V, A) un graphe orient. On dit que le graphe M = (V, EM) est le graphe moral de G si et seulement :
- M nest pas orient. - A EM. - (u, v) VV, F(u) F(v) (u, v) EM, o F(u) est lensemble des enfants de u. Soit G un graphe acyclique orient dun Rseau Baysien. Le graphe moral GM qui correspond G est construit de la faon suivante : 1. Cration dun graphe non orient Gu en copiant G sans les directions des arcs. 2. Cration de GM partir de Gu : pour chaque nud V et ses parents Pa(V) dans G nous connectons chaque paire de nuds dans Pa(V) en ajoutant un arc non oriant Gu. La figure 3.3 montre la moralisation du graphe acyclique orient de la figure 3.2.
B A C G
Figure 3.2 : Graphe acyclique orient
61
D F
Figure 3.3 : Graphe moral b. Triangulation
Un graphe non orient est triangul si chaque cycle de longueur quatre ou plus, contient un arc qui relie deux nuds non adjacents dans le cycle. Soit le dfinition suivante dun graphe triangul :
Dfinition 3.2 : Soit G(V, E) un graphe non orient. Un graphe T = (V, ET) est un graphe triangul de G si et seulement si :
T nest pas orient ; E ET ; Pour tout cycle [v0, v1,, vn, v0] de longueur suprieure ou gale 4, il existe i > j+1 tel que (vi, vj) ET est un arc.
La procdure de triangulation (algorithme dlimination) labore par [Kjaerulf, 1990] et dcrite par : 1. Faire une copie du graphe morale GM quon appelle GM. 2. Tant quil reste des nuds dans GM on fait les tapes suivantes : a. Slectionner un nud V de GM. b. Ce nud V et ses voisins dans GM forment une clique. Connecter tous les nuds de cette clique. Pour chaque arc ajout dans GM, ajouter le mme arc dans GM. c. Enlever V de GM. 3. GM, modifi par les arcs ajouts dans les tapes prcdentes, est triangul. La figure 3.4 montre les tapes de la triangularisation par lalgorithme prcdent du graphe moral de la figure 3.3.
A B C G
Variable limine H G F C B D I A Clique IGH CIG DIF ACI ADB ADI AI A Arc ajout Aucun Aucun Aucun (A, I) (A, D) Aucun Aucun Aucun
D F Graphe triangul
Algorithme dlimination
Figure 3.4 : Triangularisation du graphe moral
62
c. Cliques
Une clique est un sous-graphe dont les nuds sont compltement connects. Nous proposons la dfinition suivante :
Dfinition 3.3 : Soit G(V, E) un graphe et W V. W est une clique si et seulement si :
(u, v) WW, (u, v) E

Dfinition 3.4 : Soit G(V, E) un graphe et W une clique. W est une clique maximale si et seulement sil nexiste aucun sur-ensemble U W, tel que U soit une clique.
Ainsi on peut dire quun clique dans un graphe non orient G et complte et maximale si elle est un sous-graphe complet et maximal tel que : Complet signifie que chaque paire de nuds (variable) distincts est connecte par un arc. Maximal signifie que la clique nest pas compltement contenue dans un sous-graphe complet.
Dans la figure 3.4, les cliques du graphe triangul sont (IGH), (CIG), (DIF), (ACI), (ADB) et (ADI).
d. Arbre de jonction
A prsent nous avons un graphe non orient, nous cherchons construire un graphe optimal de jonction en connectant les cliques obtenues dans le paragraphe prcdent. Nous proposons les deux dfinitions suivantes :
Dfinition 3.5 : Soit G un ensemble de cliques partir dun graphe non orient et que ces cliques de G sont ranges dans un arbre T.
T est un arbre de regroupement si pour chaque paire de nuds (u, v) de T, tous les nuds dans le chemin entre v et u contiennent lintersection v u.
La figure 3.5 montre un exemple de larbre de regroupement. Nous remarquons que (a) est un arbre de regroupement par contre (b) nest le pas car lintersection de deux cliques (BCDE) et (CHGJ) est C qui nappartient pas la clique (DEFI).
BCDE
BCDG
CHGJ
(a)
DEFI
BCDE
DEFI
BCDG
CHGJ
(b)
Figure 3.5 : (a)- arbre de regroupement (b)- nest pas un arbre de regroupement Dfinition 3.6 : Soit G = (V, E) un graphe orient acyclique. Soit M = (V, EM) le graphe moral associ G, T = (V, ET) le graphe triangul associ M. On dit que J = (V, Ai) est un arbre de jonction associ G si et seulement si :
63
J est un arbre de regroupement sur V. Toute clique maximale dans T est un nud de J.
Etant donn un ensemble de n cliques, on peut construire un arbre de cliques en connectant itrativement chaque paire de cliques par un arc jusqu ce que les cliques soient toutes connectes par n-1 arcs. Nous rappelons que les sparateurs contiennent les variables communes deux cliques connectes dans larbre de jonction.
1. Construction de larbre des cliques a. On commence avec un ensemble de n arbres, chaque arbre se compose dune simple clique et dun ensemble de sparateurs vide S. b. Pour chaque paire distincte de cliques X et Y :
- Nous crons un sparateur SXY = X Y, - On insre SXY = X Y dans S.

c. On rpte linstruction (b) jusqu obtenir n-1 sparateurs tels que :
- On slectionne un sparateur SXY de S suivant le critre indiqu ci-dessous. Puis on limine SXY de S. - On insre SXY entre X et Y uniquement si X et Y sont dans des arbres diffrents.
2. Choix des sparateurs appropris : on dcrit comment choisir le future sparateur en se basant sur les deux notions de masse et de cot.
La masse dun sparateur SXY est le nombre des variables de X Y. Le cot dun sparateur SXY est la somme des poids de X et Y o le poids est dfini par : - Le poids dune variable V est le nombre de ses valeurs dtats possibles. - Le poids dun ensemble de variables X est le produit des poids des variables de lensemble X. Nous pouvons maintenant slectionner le futur sparateur de lensemble S, quand nous excutons ltape (c) : - Larbre de clique rsultant doit satisfaire la proprit (Join tree property) prsente cidessous et aussi on doit choisir le sparateur ayant la plus grande masse. - Quand deux sparateurs ou plus ont la mme masse, on choisit le futur sparateur ayant le plus petit cot.
Proprit 3.1 (Join tree property) : Etant donn un Rseau Baysien (V, A) avec V = (V1,, Vn), un arbre non dirig T et deux cliques X et Y dans T. Toutes les cliques sur le chemin X et Y contiennent X Y, et aussi pour chaque variable ViV, la famille de Vi note FVi (Vi et ses parents Pa(Vi)) est au moins incluse dans un groupement.
Ceci termine la construction de larbre de jonction. Il est noter que la complexit dans le pire des cas de lheuristique de la triangulation est de lordre de O(N3) et que la cration de larbre est de lordre de O(N2logN) [Bellot, 2002]. La figure 3.6 montre larbre de jonction obtenue partir des graphes des figures 3.3, 3.4 et 3.5.
64
ABD
AD
ADI
AI
ACI
CI
CIG
Sparateur Clique ABD
DI
IG
DIF
IGH
Figure 3.6 : Arbre de jonction e. Structure secondaire dun Rseau Baysien
Nous proposons, de dfinir une fonction de potentiel comme suit :

Dfinition 3.7 : Soit un ensemble de variables U, on dfinit la fonction potentiel par : U : U u
IR+ U(u)
U est appel domaine de la fonction U. Il est aussi not dom().
Nous dfinissons deux oprations sur le potentiel : la marginalisation et la multiplication. Soient deux ensembles de variables X et Y tels que X Y et son potentiel Y. La marginalisation de Y dans X est un potentiel not X tel que :
X = Y
Y X
(3.3)
La multiplication de deux potentiels 1 et 2 est un potentiel qui a les proprits suivantes : 1. 2. 3. 4. dom(1 2) = dom(1) dom(2). 1 2 = 2 1. (1 2)3= 1 (23). = 1 et 1. = .
Etant donn un Rseau Baysien (V, A) et son arbre de jonction est construite, on dfinit sa structure secondaire par deux composante graphique et numrique :
1. La composante graphique nomme Arbre de jonction se compose de:
- Un arbre non dirig T tel que chaque clique (nud dans T) doit satisfaire la proprit Joint tree property . - Des sparateurs : cest un ensemble constitu de lintersection de deux cliques adjacentes.
2. La composante numrique est dcrite en utilisant les fonctions de potentiels associes aux cliques et aux sparateurs de larbre de jonction de la manire suivante :
- Pour chaque clique X et son sparateur voisin S on a : S = S

X S
(3.4)
65
- Les potentiels codent la distribution jointe P(V) du rseau par :
P(V ) =

i j
Xi Sj
(3.5)
Avec X i et Sj sont les potentiels respectifs de clique et de sparateur. Cette nouvelle structure a une importante proprit que pour chaque clique ou sparateur X, on a : X = P(X). Ds lors, on peut calculer les probabilits marginales pour chaque variable Vi du rseau : P(Vi ) =
X Vi
(3.6)
f. Phase de propagation
Dans ce paragraphe nous allons dcrire linfrence avec observation ; cest--dire comment calculer P(V|e) dans le contexte de lobservation e (vidence). Pour ce fait, nous proposons les dfinitions suivantes des notions de vraisemblance et de passage de message.
Dfinition 3.8 : Soit une variable V, la vraisemblance potentielle (Finding) de V, note V est un potentiel sur {V}. V : {V} 0,1 v V (v)
On peut coder un ensemble arbitraire dobservations (constituant lvidence) E en utilisant V pour chaque variable V de la faon suivante : 1. Si VE, et si V est observable on a :
V (v) =
1 si v est une valeur observe de V. 0 autres.
2. Si VE, et si V nest pas observe alors : V (v) = 1 v.

Dfinition 3.9 : Soient V une clique, V son potentiel associ et S un sparateur voisin. Chaque sparateur S dun arbre de regroupement fait passer deux messages dans les deux directions (convergente ou divergente) nots S et S. Soient S1,, Sk les autres sparateurs voisins de V. On suppose que chaque Si reoit un message i de V. Ainsi V peut passer le message : V|S V1k S et on dit que la direction V-S est active.
La mthode de propagation consiste rpter lopration de passage de message travers les directions actives. On ne doit pas arrter le processus avant que les messages passent dans toutes les directions pour chaque arc. Dans ce cas on dit que larbre de jonction est complet. Aprs avoir termin la partie de passage de message on peut calculer la probabilit jointe de chaque clique dans le contexte de lobservation e en utilisant les formules suivantes : Soient T un arbre de jonction reprsentant un Rseau Baysien sur lunivers U et e lobservation. On suppose que T est complet. Soient V une clique, V son potentiel associ, S1,, Sk ses sparateurs voisins et 1k les messages dirigs sur V, alors : P(V , e) = V 1 ...k Soit S un sparateur avec les S, S les messages de passage pour S. On a :
66
(3.7)
P( S , e) = S S Linfrence avec observation se base sur les tapes suivantes :

1. Initialisation : se compose des tapes suivantes :
(3.8)
Pour chaque clique et sparateur X, on met X 1 : X 1 ; Pour chaque variable V : on affecte V une clique X qui contient FV ; on multiplie X par P(V|Pa(V)) : X X.P(V|Pa(V)) ; On met chaque vraisemblance V (v) 1 : V (v)1
2. Entre de lobservation : on fait rentrer les observations dans larbre de jonction de la faon suivante :
Coder chaque observation V = v comme une vraisemblance new . V Identifier la clique contenant V (FV). Mise jour des X et new : X X new et V new V V V
3. Marginalisation et normalisation : aprs avoir propag les informations dans larbre de jonction, on pass la dernire tape. Pour chaque clique (ou sparateur) X, on a X = P(X, e) o e est lobservation. Quand on marginalise le potentiel de clique X dune variable V, on obtient : P(V, e) = X|VX.
Notre objectif est de calculer P(V|e) probabilit de V tant donne e. On obtient P(V|e) partir de P(V, e) en normalisant P(V, e) : P(V e) = P(V , e) = P ( e) P(V , e) V P(V , e) (3.9)
La probabilit de lobservation P(e) est la constante de normalisation.
1.5 Synthse
Les Rseaux Baysiens reprsentent un outil de choix dans la reprsentation de connaissances et dans lexploitation de celles-ci. Par ailleurs, plusieurs domaines sont intresss par ce type de reprsentation. En fait, linfrence sur les rseaux baysiens est un problme NP-difficile15 [Cooper, 1990], cest pourquoi il tait convenable de le voir de faon complte pour des instances ralisables et incomplte dans les autres cas. Aprs cette approche statique, pour aller plus loin, il pourrait tre intressant de se pencher sur les rseaux baysiens dynamiques. Ceux ci sont une rptition du rseau classique dans lesquels on rajoute un lien causal dun pas de temps lautre. Ils contiennent chacun un certain nombre de variables alatoires reprsentant les observations et les tats cachs du processus. Le temps ici est discret et chaque unit de temps reprsente une nouvelle observation, lunit de temps na donc pas toujours la mme valeur en temps rel, la complexit infrencielle des rseaux baysiens dynamiques est videment bien plus leve que celle vu prcdemment. Enfin, on retrouve les rseaux baysiens dans beaucoup dapplications, sans mme le savoir. Microsoft par exemple est un fervent utilisateur de cette structure (Answer Wizard, assistant Office par exemple), mais aussi Google et Mozilla via leurs filtres anti-spam. De nombreux travaux dans le domaine sont raliss, preuve de lintrt port par la communaut scientifique, et de la puissance de ces rseaux. Par ailleurs, nous nous intressons
15
Ceci parce que dans les rseaux gnraux, il peut exister plusieurs chemins entre les paires de nuds du graphe.
67
prticulirement lapplication des rseaux baysiens au domaine de la recherche dinformation.
2. Modle Baysien de RI
Des travaux rcents ont permis dexploiter lapport des Rseaux Baysiens (RBs) pour dfinir des modles de RI. Lavantage apport par lutilisation de ces rseaux a t principalement de pouvoir combiner des informations provenant de diffrentes sources pour restituer les documents qui seraient les plus pertinents tant donne une requte.
2.1 Architecture gnrale du modle Baysien

La figure 3.7 prsente larchitecture gnrale du modle de RI bas sur les rseaux Baysiens. Les noeuds du rseau dans un modle BNR (modle RI bas sur les rseaux Baysiens) [De Campos et al., 2002] [De Campos et al., 2003] ont t dcomposs en deux ensembles de variables T et D : -
L'ensemble des termes T = (T 1 , T 2 ,, T M ), o M est le nombre de termes dans la collection ; L'ensemble des documents de la collection D = (D 1 , D 2 ,, D N ), o N est le nombre de documents dans la collection.
B B B B B B B B B B B B
Les domaines des noeuds sont binaires {vrai, faux} signifiant que le noeud est instanci ou non. T est lensemble des noeuds termes; une variable Ti associe un terme prend ses valeurs dans le domaine dom(Ti) = {ti, ti }, ti dsigne le fait que le terme Ti est non pertinent et ti dsigne le fait quil est pertinent. Un terme est considr comme pertinent si tous les documents qui le contiennent sont jugs pertinents par lutilisateur et non pertinent sinon. D est lensemble des noeuds documents, une variable Dj prend ses valeurs dans le domaine dom(Dj) = {dj, d j }, d j signifie le document Dj nest pas pertinent et dj signifie le document Dj est pertinent . Un document est pertinent sil rpond au besoin utilisateur.
Sous rseau termes
T1 T5 T9
T3 T2 T4 T9
T7
T11
T8
T10 T12
D1
D2
D3
D4
Sous rseau documents
Figure 3.7 : Architecture gnrale du modle Baysien
68
2.2 Les modles de RI bass sur les rseaux Baysiens

Les Rseaux Baysiens (RB) ont t utiliss en RI depuis les annes 1990 avec [Pearl, 1988], [Buntine, 1994], [Jensen, 2000]. Ils fournissent un formalisme pour fusionner des informations provenant de diffrentes sources (requtes passes, rinjection de pertinence), afin de restituer les documents, et ont permis de combiner diffrentes approches de RI [Ribeiro-Neto et al., 1996]. Les modles les plus connus en RI utilisant les RBs sont les Rseaux dInfrence [Turtle et Croft, 1990] et les Rseaux de Croyance.
2.2.1 Modle base de Rseaux Baysiens dInfrence
Un rseau dinfrence en RI est matrialis par un graphe orient sans cycle. Les nuds du graphe correspondent des concepts, des groupes de mots ou des documents (des variables propositionnelles). Un nud particulier va reprsenter la requte. Les arcs du graphe reprsentent des relations smantiques entre les nuds ou les propositions. A ces nuds sont associs des probabilits de croyance. Ce modle repose sur le thorme de Bayes pour lexpression de la probabilit conditionnelle et sur la stratgie dactivation propagation (spreading activation). La recherche peut tre donc considre comme un processus de raisonnement incertain pour estimer la probabilit quun document satisfasse la requte. La stratgie utilise dans I3R (Intelligent Interface for Information Retrieval) est representative de ce modle de recherche dinformation. Elle se fait en suivant les tapes suivantes [Croft et Thompson, 1987] : Tout dabord, on part dun ensemble de nuds qui reprsentent les termes de la requte ; Puis, on active tous les nuds qui sont connects ces points dentre par un lien ; Ensuite, le processus de propagation continue, en respectant certaines contraintes, jusqu la vrification dune certaine condition (un seuil pour lactivation). Le niveau dactivation dcrot avec la longueur du chemin parcouru ; Finalment, les nuds sont extraits et classs par ordre de leur niveau dactivation.
Des variantes de ce modle ont t proposes pour tenir compte de la nature des liens entre les nuds et de leur force, ce qui permet de grer mieux les niveaux dactivation. Dans le systme GRANT [Cohen et Kjeldsen, 1987], les contraintes sont de trois types : Contrainte de distance : lactivation cesse au cinquime niveau ; Contrainte de branchement : lactivation est interrompue lorsque les nuds atteints sont accessibles par un grand nombre darcs ; Contrainte de chemin : lactivation privilge des nuds sensibles certaines connaissances ou mta-connaissances par rapport un domaine reprsent.
Ces paramtres ne sont pas toujours faciles dterminer. Cest le plus souvent en exprimentant quon les dtermine parce quils sont lis notamment au domaine trait. Par ailleurs, les Rseaux dInfrence sont utiliss aussi dans le systme INQUERY [Turtle et Croft, 1990] [Turtle, 1991] [Turtle et Croft, 1991] et ses performances sont lies sa capacit reprsenter diffrentes approches de la RI et les combiner dans un seul modle. Le rseau dinfrence est compos de deux rseaux : le rseau document et le rseau requte. Le rseau document reprsente les documents de la collection et contient diffrents schmas de reprsentation (rsums, textes, etc.). Les noeuds du rseau requte reprsentent les concepts
69
de la requte et le besoin utilisateur. Les rseaux document et requte sont lis par lintermdiaire des noeuds termes dindexation. Les valeurs des noeuds sont binaires {vrai, faux} et les valeurs des arcs reliant les nuds termes au noeud requte sont obtenues par lutilisation dun des schmas des modles connus de la RI (boolen, vectoriel, etc.). Ce systme value la pertinence du document tant donne une requte, et le rsultat est une liste de documents pondrs. Ces poids sont considrs comme des coefficients de similarit proportionnels la frquence des termes dans le document et inversement proportionnels celle dans la collection. Dautres travaux bass sur ces rseaux ont t proposs pour les systmes hypertextes [Savoy et al., 1991].
2.2.2 Modle base de Rseaux Baysiens de croyance
Les Rseaux de Croyance (RC) [Ribeiro-Neto et al., 1996] [Silva et al., 2000] ont t utiliss pour extraire des connaissances des requtes du pass et les combiner avec le modle vectoriel [Salton et al., 1994]. La slection dun document sappuie sur la similarit entre le document dj et la requte Q, calculant la probabilit P(dj = 1|Q = 1). En effet, Q = 1 et dj = 1 signifient respectivement Q activ et dj activ. Crestani et al. [Crestani et al., 2003], ont propos un modle pour la RI bas sur les rseaux Baysiens pour les documents structurs. Un rseau deux structures (BNR- 2) [De Campos et al., 2003 ] a t conu et tendu un rseau multi-structures. Lensemble des variables dans le modle BNR-2 est compos de deux ensembles distincts, lensemble des variables alatoires binaires dfinissant les termes du dictionnaire et lensemble des variables alatoires binaires reprsentant les documents de la collection. Chaque document est compos dune structure hirarchique comportant diffrents niveaux dabstraction (titre, auteur, section, paragraphe, etc.). Le processus dinfrence calcul, tant donn une requte, les probabilits a posteriori de la pertinence de toutes les units de structure. Les documents de score lev sont restitus. Certaines recherches rcentes [De Campos et al., 2003 ] [Fernandez et al., 2003] ont propos des modles de Rseaux Baysiens avec une topologie flexible qui peut tenir compte des relations de dpendance existant entre les termes ou les documents. Le sens des reprsentations des documents et du besoin utilisateur pour tous ces modles est identique.
3. Reformulation de requtes dans le modle Baysien

Nous nous intressons dans cette section aux techniques de Relevance Feedback (RF) dans le modle BNR. Soit b le nombre de documents jugs par l'utilisateur. Lensemble { Dk1 = d k1 ,..., Dkh = d kh } contient les documents pertinents et l'ensemble { Dk h+1 = d k h+1 ,..., Dkb = d kb } contient les documents non pertinents, alors la nouvelle requte sera: Q1 = Q { Dk1 = d k1 ,..., Dkh = d kh , Dk h+1 = d kh+1 ,..., Dk b = d kb } (3.10)
Chaque noeud X non-instanci reoit de tous ses noeuds parents un message sous forme de vecteur X(Z) , il reoit encore de tous ses noeuds fils Y un message sous forme vecteur Y(X ) . Chaque noeud instanci X reoit un message 0(X) d'un noeud fils imaginaire avec :
0(X) = (1, 0) si X = x 0(X) = (0, 1) si X = x
(3.11)
70
Si l'vidence de X est partielle par rapport une observation (Obs) alors :

0(X) = (P(Obs| x ), P(Obs|x))
(3.12)
Dans ce cas le plus important est le rapport P(Obs| x )/P(Obs|x) et on peut conclure que les deux expressions 0(X ) = (P(Obs| x ), P(Obs|x)) et 0(X ) = (P(Obs| x )/P(Obs|x), 1) sont quivalentes. Pour que tous les noeuds reoivent 0, on utilise le vecteur 0(X ) = (1, 1) pour les nuds non instanci. Le tableau 3.1 reprsente la table de contingence des termes. Nous dfinissions quelques notions de base qui seront utilises dans la suite de cette section. Ti = ti Non pertinent pertinent
n r ti
Ti = ti
n rti
Total nr nr |RQ|
n rti nti
n rti nti
Tableau 3.1 : Table de contingence des termes
Avec : RQ : lensemble des documents restitus et valus pour une requte Q ; |RQ| : cardinale de R Q ; n r : Nombre de documents pertinents ;
B B
n r : Nombre de documents non pertinents ;

nti : Nombre de documents restitus qui contiennent le terme ti ; nti : Nombre de documents restitus qui ne contiennent pas le terme ti ; n rti : Nombre de documents pertinent qui contiennent le terme ti ; n rti : Nombre de documents non pertinent qui contiennent le terme ti ; n rti : Nombre de documents pertinent qui ne contiennent pas le terme ti ; n r ti : Nombre de documents non pertinent ne contiennent pas le terme ti.
Par ailleurs, les termes indexant les documents restitus sont classs en trois catgories :
-
Terme qui se trouve dans des documents pertinents seulement (termes positifs + ). Terme qui se trouve dans des documents non pertinents seulement (termes ngatifs ). Terme qui se trouve dans des documents pertinents et non pertinents (termes neutres ).
Il faut distinguer entre les termes indexant les documents trouvs et la requte et entre les autres qui indexent les documents trouvs et absents de la requte. Soient encore:
71
q : Lensemble de termes indexant les documents trouvs et la requte et qui sera utile pour rpondrer les termes de la requte initiale ; e : Lensemble des termes indexant les documents trouvs et absents de la requte et ce dernier ensemble est utilis pour reprsenter les termes ajouter (Expansion de la requte).
3.1 Repondration de termes de la requte initiale Q

Les termes de l'ensemble q qui taient instancis comme pertinents, reoivent un message 0(T) = (0,1). Les termes de la requte initiale qui occurrent seulement dans des documents non pertinents ne sont pas considrs. Par consquence, ils devraient tre pnaliss en diminuant leur pertinence. Les autres termes (0(T) = (1,1)) sont considrs comme des termes n'appartenant pas la requte (nonquery term) et il est plus valable d'utiliser le vecteur 0(Ti) = ( ti ,1) la place de 0(Ti) = (1,1) avec 0 ti 1 . La mthode propose par [De Campos et al., 2003] considre que ti est trs sensible au nombre de documents non pertinents contenants Ti ( n rti dfinie ci-dessus) et a montr que la meilleur valeur de ti est celle qui tend vers le vecteur 0(T) = (1,1) et a propos une fonction qui satisfait cette condition avec 0.5 ti 1 .
0 (Ti ) = (1
1 ,1) n rti + 1
(3.13)
D'autre part, les termes appartenants q + et ceux qui appartiennent q sont les plus important mais en principe on ne peut pas augmenter la pertinence de termes positifs ou neutres qui occurrent dans la requte initiale car ils sont dj compltement pertinents. Ainsi, la premire approche simple qui s'appelle tr-ins et qui traite ce genre de termes propose que chacun de ces termes reoive le message 0 (T) = (0,1). Une autre approche est propose pour augmenter la pertinence de ce genre des termes qui s'appelle tr-rep. Cette approche est base sur la duplication de ces noeuds termes dans le rseau. Le nombre de duplication de chacun de ces noeuds est gal au nombre de document pertinents contenant ce terme ( n rti ) et aprs il faut instancier les noeuds dupliqus comme pertinents. Pour changer la structure du rseau, il suffit de connecter les noeuds termes dupliqus comme fils de Ti et connecter les noeuds documents fils de Ti comme fils des noeuds dupliqus. La figure 3.8 montre une duplication de trois fois le terme Ti :
Th Ti Tk Th Ti Tk
Ti Du Dj Du
Ti
Dj
Figure 3.8 : Duplication trois fois du terme Ti
72
Par ailleurs, il est inutile de changer la structure du rseau. En effet, le changement se fait virtuellement et il suffit de multiplier par n rti le facteur qui calcule le poids du terme dans la formule de probabilit gnrale et ceci pour chaque terme appartenant q ( + ). En consquence, la pertinence de ces termes va augmenter n rti fois automatiquement.
3.2 Expansion de la requte

Lexpansion de la requte consiste ajouter des nouveaux termes la requte initiale Q. Comme nous lavons indiqu dans la section 3.1, il existe trois classes de termes ( , + , ). Puisque e est lensemble de termes duquel nous pouvons choisir les termes ajouter la requte initiale, les nouveaux ensembles des termes seront donc : Les termes ngatifs qui appertiennent e ; Les termes positifs qui appertiennent e + ; Les termes neutres qui appertiennent e .
Tous les termes ngatifs sont instancis comme non pertinents et ont reu le vecteur 0(Ti ) = (1,0) . Les termes neutres ont reu le vecteur 0(Ti ) = (1,1) . En gnrale la probabilit qu'un terme soit pertinent ou non est dsigne par P( r ti ) (respectivement P( r ti ) ). Ces deux probabilits sont utilises pour calculer le vecteur
0(Ti ) et dans ce cas : 0(Ti ) = ( P( r ti ) , P( r ti ) )

O 0 (Ti ) = (
P ( r ti ) P ( r ti )
(3.14) (3.15)
,1)
Plusieurs mthodes ont t utilises pour calculer ces probabilits, parmi lesquelles nous citons la mthode qe-gmle [De Campos et al., 2003] : P ( r ti ) = n rti nti et P( r ti ) = n rti nti (3.16)
En conclusion, la reformulation de requte via l'application de la technique de RF permet d'augmenter substantiellement le niveau de prcision par rapport la requte initiale. Il sagit donc dun moyen efficace d'amlioration des performances du systme de reprage d'information. Si plusieurs paramtres doivent tre considrs pour une utilisation optimale des mthodes, il n'en demeure pas moins que les diffrentes variantes de la technique ont donn des rsultats largement positifs. Le RF incrmental de par son interface utilisateur conviviale et sa formule unifie et simplifie devrait permettre de la vulgariser. Aujourd'hui, l'avantage procur par cette technique est tel que plusieurs moteurs de recherche Web l'intgrent leur mcanisme de recherche. L'impact direct est l'augmentation des requtes soumises aux moteurs. Cette charge accrue sera d'autant plus limite qu'il y aura convergence des rsultats obtenus vers une satisfaction plus complte des usagers. Cependant, le modle propos par Brini et al. [Brini et al., 2004abc], tente de fournir un autre sens possibiliste ces reprsentations ainsi qu lvaluation (comparaison de ces deux reprsentations). Une rponse la problmatique peut tre apporte par lutilisation des Rseaux Possibilistes (RP).
73
4. Les Rseaux Possibilistes

4.1 La thorie des possibilits
La thorie des possibilits introduite par Zadeh [Zadeh, 1978] et dveloppe par Dubois et Prade [Dubois et Prade, 1988] [Dubois et Prade, 1998] traite lincertitude sur lintervalle [0,1], appel chelle possibiliste, dune manire qualitative ou quantitative. En fait, Lotfi Zadeh a formalis la thorie des possibilits pour traiter lincertitude permettant ainsi de traiter lignorance et de prendre en compte la pertinence dune information incertaine. Dans cette thorie, linformation fournie par une source sur la valeur relle dune variable x est code sous forme dune distribution de possibilits dont les valeurs sont supposes tre mutuellement exclusives, puisque x prend en dfinitive une seule valeur (sa vraie valeur), qui appartient un ensemble donn [Sandri, 1991]. La thorie des possibilits se base sur deux mesures de confiance : la mesure de possibilit et la mesure de ncessit [Fabiani, 1996].
4.1.1 Distribution de possibilit
La thorie des possibilits est base sur les distributions de possibilit. Une distribution de possibilit, note par , est une application de (lunivers de discours) vers lchelle [0,1] traduisant une connaissance partielle sur le monde, not . Lchelle possibiliste est dfinie de deux manires. Dans le cadre numrique les valeurs des possibilits traduisent souvent les bornes suprieures des probabilits. Dans le cadre qualitatif, les valeurs de possibilit peuvent tre considres comme un ordre de classement des tats possibles. La combinaison des distributions de possibilit, exprime laide des normes triangulaires (t-normes) dpend du cadre. Les oprateurs produit et minimum peuvent tre utiliss pour combiner des distributions de possibilit indpendantes dans les cadres quantitatif et qualitatif respectivement.
Normalisation : Une distribution de possibilit est dite -normalise, si son degr de normalisation, not (), est gal . Ainsi :
= ( ) = max ( )
Lorsque = 1, est dite normalise.
(3.17)
Marginalisation : Soit une distribution de possibilit jointe, sur , une distribution marginale relative aux sous ensembles de variables peut tre drive en utilisant loprateur maximum. Ainsi, X V x dom(X) :
( x ) = max { ( ) : [X ] = x}
O V : ensemble de variables {A1, A2, ...., AN} ; X : sous ensemble de V ; dom(X) : domaine de X, produit cartsien des domaines des variables de X ; x : une instance de X, si X = {A1, A2, , Aj}, alors x = (1, 2, ..., j) ;
[X] = x : configuration de X dans .
(3.18)
Une distribution de possibilit sur permet de qualifier les vnements en terme de mesure de plausibilit et de certitude respectivement.
74
4.1.2 Mesures de possibilit et de ncessit
Dire quun vnement est non possible nimplique pas seulement que son vnement contraire est possible mais quil est certain. Deux mesures duales sont utilises : la mesure de possibilit (), et la mesure de ncessit N(). La possibilit dun vnement A, note (A) est obtenue par (A) = maxxA(x) et dcrit la situation la plus normale dans laquelle A est vraie ; La ncessit N(A) = minxA1 - (x) = 1 - ( A ) dun vnement A reflte la situation la plus normale dans laquelle A est faux.
La distance entre N(A) et (A) value le niveau dignorance sur A. Rappelons que N(A) > 0 implique (A) = 1. Lorsque A est un ensemble flou, cette proprit nest plus vrifie et dans ce cas lingalit N(A) (A) est vrifie.
4.1.3 Conditionnement possibiliste
En logique possibiliste, le conditionnement consiste modifier la distribution de possibilit initiale larrive dune nouvelle information i. Soit , une sous classe de , = [i] lensemble des modles de i. La distribution initiale est remplace par = (|). Dans un cadre quantitatif, les lments de sont proportionnellement modifis : ( ) ( p ) = si ; 0 Sinon (3.19) ( ) avec : |p : conditionnement bas sur le produit dans un cadre qualitatif, le degr de possibilit maximal est affect aux meilleurs lments de :
1si ( ) = ( )et
( m ) =
( ) si ( ) p ( )et
0 sinon
(3.20)
|m : conditionnement bas sur le minimum.

4.1.4 Lindpendance possibiliste
La thorie des possibilits offre plusieurs dfinitions de lindpendance [Ben Amor et al., 2002] [De Campos et al., 1999a] [De Campos et al., 1999b]. En particulier, deux dfinitions ont t utilises pour le dveloppement des rseaux possibilistes : - Relation de non-intractivit [Zadeh, 1978], cette relation est base sur le conditionnement ordinal et elle est dfinie comme suit :
( x y z ) = min( ( x z ), ( y z )), x, y , z.
(3.21)
- Relation dindpendance base sur le produit, cette relation est base sur le conditionnement bas sur le produit et elle est dfinie comme suit : Cette forme dindpendance est dfinie par : ( x y z ) = ( x z ).( y z ), x, y , z. Ou dune faon quivalente par : ( x y z ) = ( x z ), x, y , z. (3.23) 75 (3.22)
4.1.5 Logique possibiliste
La logique possibiliste est une extension de la logique classique qui permet un raisonnement dans le cas dvidence incomplte (incertitude) et de connaissances partiellement incohrentes. De point de vue syntaxique, un poids dterminant le niveau de priorit par rapport aux autres formules est associ chaque formule. Cest un outil de raisonnement en prsence dinformations incertaines, bas sur la relation de prfrence entre les formules et non sur les valeurs numriques contrairement la logique probabiliste. Lensemble de formules est appel une base de connaissances possibilistes [Dubois et al., 1994]. De point de vue smantique, la logique possibiliste permet dordonner les interprtations. Les modles ont un degr 1 car ils sont compltement cohrents avec la base de connaissances. Les contre modles dont les degrs de priorit sont faibles (poids) sont prfrs aux contre modles de degr de priorit plus important. Dans la logique possibiliste, les rgles sont modlises par des clauses logiques : p q = p q (3.24) Des valeurs sont attaches aux bornes infrieures des degrs de ncessit et de possibilit de p et q qui sont considres comme des propositions boolennes. Les axiomes de la thorie des possibilits permettent de modliser p implique q avec un poids > 0 par lingalit N(p q) ou dune manire quivalente par : (p q) 1 - pour signifier que p q est quelque peu impossible. La distribution de possibilit exprimant cette information (connaissance) est telle que :
(x) = 1 - si p q vraie ltat x = 1 sinon
(3.25) (3.26)
(3.27)
La distribution de possibilit induite par plusieurs propositions, mesure par des ncessits, est obtenue par une intersection floue (utilisant le minimum) des distributions de possibilit induites par chaque proposition.
4.2 Rseaux Possibilistes (RP)

Les travaux existant sur les rseaux possibilistes sont soit des adaptations directes de lapproche probabiliste [Benferhat et al., 1999], ou des mthodes dapprentissage partir de donnes imprcises [Borgelt et al., 2000]. La thorie des possibilits offre deux dfinitions du conditionnement, ce qui conduit deux dfinitions des rseaux causaux possibilistes. Les rseaux possibilistes bass sur le produit sont trs similaires aux rseaux probabilistes.
4.2.1 Dfinitions
Un graphe possibiliste orient sur un ensemble de variables V ={A1, A2,, AN} est caractris par une composante qualitative et une composante numrique. La premire est un graphe acyclique orient. La structure du graphe reprsente lensemble des variables ainsi que lensemble des relations dindpendance. La seconde composante quantifie les liens du graphe en utilisant des distributions de possibilit conditionnelles de chaque noeud dans le contexte de ses parents. Ces distributions de possibilit doivent vrifier la contrainte de normalisation. Pour chaque variable Ai :
76
Si Ai est un noeud racine et domAi le domaine de Ai, la possibilit a priori de Ai doit satisfaire : max ai (ai ) = 1, ai dom Ai (3.28)
Si Ai nest pas un noeud racine, la distribution conditionnelle de Ai dans le contexte de ses parents doit satisfaire :
max ai (ai Ai ) = 1, ai dom Ai
(3.29)
Avec : dom Ai : Le domaine de Ai
A : Lensemble des configurations possibles des parents de Ai

i
4.2.2 Rseaux possibilistes bass sur le minimum
Un graphe possibiliste bas sur le minimum, not par GPM, est un graphe possibiliste o les possibilits conditionnelles sont obtenues par le conditionnement minimum (formule 3.30). La distribution de possibilit des rseaux possibilistes base sur le minimum, note par M, est obtenue par la rgle de chanage :
M ( A1 , A2 ,..., AN ) = MIN i =1.. N ( Ai A ) Avec : MIN est loprateur minimum.

i
(3.30)
4.2.3 Rseaux possibilistes bass sur le produit
Un graphe possibiliste bas sur le produit, not par GPP , est un graphe possibiliste o les possibilits conditionnelles sont obtenues par le conditionnement produit (formule 3.31). La distribution de possibilit des rseaux possibilistes bass sur le produit, note par P , est obtenue par la rgle de chanage : P ( A1 , A2 ,..., AN ) = PRODi =1.. N ( Ai Ai ) (3.31) Avec : PROD est loprateur produit.
4.2.4 Exemple des Rseaux Possibilistes
La figure 3.9 reprsente un exemple des rseaux possibilistes. Les tableaux 3.2 et 3.3 fournissent les distributions de possibilit conditionnelles et a priori associes aux variables binaires A, B, C et D. En utilisant la rgle de chanage (3.30) base sur loprateur minimum, la distribution jointe lie au rseau possibiliste est donne par le tableau 3.4. En particulier [Ben Amor et al., 2006]:
(A) (B|A)
A C D
(C|A)
(D|BC)
Figure 3.9 : Exemple de rseau causal possibiliste
77
a a1 a2
(a) 1 0,9
b b1 b1 b2 b2
a a1 a2 a1 a2
(b|a) 1 0 0,4 1
c c1 c1 c2 c2
a a1 a2 a1 a2
(c|a) 0,3 1 1 0,2
Tableau 3.2 : Distribution de possibilit initiales (1)
(a1b2c1d2) = min ((a1), (b2|a1), (c1|a1), (d2|b2c1)) = min (1 ; 0,4 ; 0,3 ; 0,8) = 0,3.
d d1 d1 d1 d1 b b1 b1 b2 b2 c c1 c2 c1 c2 (d|b c) 1 1 1 1 d d2 d2 d2 d2 b b1 b1 b2 b2 c c1 c2 c1 c2 (d|b c) 1 0 0,8 1
Tableau 3.3 : Distribution de possibilit initiales (2)

a1b1c1d1 a1b1c1d2 a1b1c2d1 a1b1c2d2 () 0,3 0,3 1 0 a1b2c1d1 a1b2c1d2 a1b2c2d1 a1b2c2d2 () 0,3 0,3 0,4 0,4 a2b1c1d1 a2b1c1d2 a2b1c2d1 a2b1c2d2 () 0 0 0 0 a2b2c1d1 a2b2c1d2 a2b2c2d1 a2b2c2d2 () 0,9 0,8 0,2 0,2
Tableau 3.4 : Distribution de possibilit jointe 4.2.5 Propagation dans les Rseaux Possibilistes
Un des traitements les plus intressants que lon peut appliquer sur les rseaux possibilistes est dvaluer limpact de la ralisation dun certain vnement sur le reste des variables. Ce traitement peut tre ralis travers les algorithmes de propagation qui consistent calculer les distributions de possibilit a posteriori pour chaque variable A sachant lvidence E sur le reste des variables. Dans les rseaux baysiens probabilistes, ce problme est class comme NP-difficile, sauf pour les polyarbres (graphes simplement connects) o la propagation peut tre ralise en un temps polynomial [Cooper, 1990]. Plusieurs algorithmes de propagation dans les rseaux Baysiens ont t dvelopps. Ces algorithmes peuvent tre classs en deux catgories : mthodes exactes tels que lalgorithme de Kim et Pearl [Pearl, 1988] (valable pour les graphes orients acycliques sans boucles) et lalgorithme de propagation dans les arbres de jonction [Jensen, 1996] [Lauritzen et al., 1988] o les graphes initiaux avec boucles sont transforms en arbres de jonction sans boucles. mthodes approximatives qui fournissent une estimation des lois marginales et savrent utiles avec certaines applications de grandes tailles. On peut citer titre dexemple la mthode Monte-Carlo [Chavez et Cooper, 1990].
Les algorithmes de propagation possibilistes qui ont t proposs dans la littrature sont, principalement, une adaptation directe des mthodes exactes [Fonck, 1994] [Borgelt et al., 1998], avec la mme complexit algorithmique. Par ailleurs, les algorithmes proposs pour les rseaux possibilistes bass sur loprateur produit sont trs semblables aux algorithmes probabilistes puisquils utilisent le mme oprateur. Ceci nest pas le cas si on utilise loprateur minimum. En effet, cet oprateur 78
possde des proprits particulires, telles que lidempotence, qui peuvent tre exploites afin dviter les adaptations directes. Ces proprits ont motivs [Ben Amor et al., 2003] pour mieux tudier ces rseaux et proposer un nouveau algorithme de propagation pour les rseaux possibilistes bass sur le conditionnement ordinal.
4.3 Les interprtations de la thorie des possibilits

La thorie des possibilits permet de reprsenter tous les cas o il existe un ensemble convexe de mesure de probabilits admissibles sur de cardinal fini ; cet ensemble tant dfini comme lensemble des mesures de probabilits P vrifiant les contraintes [Fabiani, 1996] : AP (), N(A) P(A) (A) Dans ce cadre Dubois et Prade suggrent que [Fabiani, 1996] : a. la thorie des possibilits est adapte pour valuer des degrs de vraisemblance sur des hypothses dtat rivales et prcises (les singletons par exemple). b. la thorie des possibilits est plutt adapte pour reprsenter des degrs de confiance sur des propositions imprcises, c'est--dire pouvant chacune tre partitionne en sous hypothses dtat mutuellement exclusives entre lesquelles on ne peut pas dcider.
Probabilit
(3.32)
Plausibilit
Croyance
Possibilit
Ncessit
Figure 3.10 : Les limites des thories de traitement de lincertitude [Gacgne, 1997]
Par ailleurs, lusage de la thorie des possibilits en RI avait dj t suggr par Prade et Testemale [Prade et Testemale, 1987] qui proposaient un nouveau modle dindexation sous forme de groupes de mot-cls, pondrs par des degrs de possibilit et de ncessit. De leur part, [Brini et Boughanem, 2003] ont propos un modle de reformulation de requte bas sur la technique de Relevance Feedback. Ensuite, ces mmes auteurs ont propos avec Didier Dubois un modle possibiliste quantitatif de recherche dinformation [Brini, 2005]. Nous mettons laccent particulirement, dans cet tat de lart, sur ce modle en vue de proposer dans la suite une extension vers un cadre qualitatif possibiliste.
5. Modle possibiliste quantitatif de RI

Le modle propos par Brini et al. [Brini et al., 2004abc] utilise dune nouvelle manire les connaissances disponibles. Ces connaissances concernent les documents de la collection ainsi que la liste des termes dindexation et de leur frquence. Les documents de la collection ainsi que leurs termes dindexation sont reprsents par des rseaux nafs possibilistes. Considrant un terme relatif un document, une relation de dpendance quantifiable existe entre un terme et un document. La requte dclenche un processus de propagation entranant le changement de croyance sur les nuds documents.
79
Ce processus de recherche peut tre analogue une tape de diagnostic dans le domaine mdical. La collection de documents est comme un ensemble de maladies possibles, les symptmes sont les termes. La requte est vue comme une observation. Le but tant de trouver la maladie (document) plausiblement dveloppe par le patient (requte), tant donns les symptmes quil prsente. Dans le modle propos la pertinence est reprsente dans le cadre quantitatif.
5.1 Architecture du modle

Le modle est reprsent par un rseau possibiliste darchitecture dfinie sur la figure 3.11. Pour cette approche les relations de dpendance existant entre termes (terme-terme) et entre les documents (document-document) ne sont pas traites [Brini et al., 2004abc].
D1
Di
DN
T1
T2
T3
T4
TT
Figure 3.11 : Architecture gnrale du modle possibiliste quantitatif
Avec : Nud Dj = nud dun document de la collection. Les variables Dj sont binaires. Le domaine de Dj est {dj, dj}. Linstanciation Dj = dj signifie que le document Dj est pertinent pour la requte. Dj = dj, signifie que le document Dj est non pertinent. Nud Ti = nud terme. Cest un terme dindexation du document. Les variables Ti sont binaires. Le domaine dun terme est dom(Ti) = {ti, ti}. Ti = ti signifiera que le terme i est reprsentatif du document recherch, Ti = ti signifie que le terme i est non reprsentatif de ce document. Ce domaine est li au contexte du parent. Arc : un arc orient dun noeud document Dj vers les noeuds termes dindexation exprime une relation de dpendance entre le document et les termes quil contient. Un arc entre un nud Di et un noeud Tj traduit la possibilit et la ncessit que Ti soit reprsentatif (ou non) du document Dj et ceci en fonction de sa frquence dans le document et de celle dans la collection.
5.2 Evaluation des poids du rseau

Pour valuer la possibilit et la ncessit de pertinence, Brini et al. ont besoin de dfinir explicitement la pertinence reprsente par des arcs dans le rseau. Une nouvelle interprtation de la pondration des termes est suggre. Lapproche propose tente de distinguer entre les termes possiblement reprsentatifs des documents (ceux qui sont absents sont carts) et ceux ncessairement reprsentatifs, cest--dire les termes qui suffisent caractriser les documents.
Hypothse 1 : Un terme est dautant moins reprsentatif dun document quil apparat peu frquemment dans ce document ;
80
Hypothse 2 : Un terme est dautant plus ncessairement reprsentatif du document quil apparat frquemment dans ce document et peu frquemment dans les autres documents de la collection. Hypothse 3 : A priori, un document possde une gale possibilit dtre pertinent ou non pour un utilisateur potentiel, soit
(dj) = (dj) = 1, j Daprs lhypothse 1, (ti | dj) peut tre estime avec la frquence tfij de ti dans dj : (ti | dj) = nftij = tfij /max (tfkj) (ti ^ dj) = (ti | dj)
(3.33) (3.34) (3.35)
O nftij est la frquence normalise. Notons quavec lhypothse 3, on peut en dduire que : Un terme de poids 0 signifie que le terme nest pas compatible avec le document. Sil est gal 1, alors le terme est possiblement reprsentatif ou pertinent pour dcrire (donc reprsenter) le document. Ici, le terme reprsentatif ne doit pas tre considr au sens large, mais comme pertinent pour restituer le document. Si un terme est reprsentatif du document, dans le sens gnral, il naiderait pas forcment restituer le document. Typiquement, pour un document traitant de la logique floue, le terme floue est trs reprsentatif, mais uniquement potentiellement, puisquil ne le caractrise pas sur une collection de documents traitant du mme domaine. Notons que le degr de possibilit est normalis (son maximum vaut 1). Ce degr value quel point un terme est typique du document et donc quel point il est possible quil contribue sa restitution. Sil apparat avec une frquence maximale, alors il est considr comme le meilleur candidat potentiel pour sa reprsentation. En logique possibiliste, la mesure de possibilit possde une mesure duale : la ncessit. Celle-ci, dans ce contexte, exprime lide que sil est certain quun terme ne reprsente pas un document, alors il est certain que la prsence de ce terme rejette le document. Cette certitude est exprime par : N (ti
dj)
1 - nftij,
(3.36)
o limplication matrielle. Un terme discriminant dans une collection, est un terme qui apparat frquemment dans peu de documents de la collection. Un terme discriminant est un terme ncessairement reprsentatif du document, il contribue sa slection et donc sa restitution en rponse une requte. Brini et al. Dfinissent un degr de ncessaire pertinence ij, du terme ti pour reprsenter le document dj, par : N (ti O nC = nombre de documents de la collection, ndi = nombre de documents de la collection contenant le terme ti , 1 et 2 = fonctions de normalisation. Typiquement 1: fonction croissante de type logarithmique, 2 : la fonction identit.
dj) ij
(3.37) (3.38)
Et ij = 1(nC/ndi)* 2(nftij)
Ce degr de ncessaire pertinence va donc permettre de limiter la possibilit que le terme soit compatible avec le rejet du document par :
81
(ti ^dj) 1- ij
(3.39)
Le tableau 3.5 donne la distribution de possibilit la moins spcifique obissant aux contraintes (3.36) et (3.37) dfinie sur {dj, dj}{ti, ti}. ti ti dj nftij 1 dj 1- ij 1
Tableau 3.5 : Distribution de possibilit
5.3 Un simple schma de propagation

Dans le cadre numrique, les valeurs de possibilit et de ncessit, a priori et conditionnelles, ont un sens. Lide est de rpondre des propositions du type : di est pertinent pour Q est possible ou non, quantifie par (di|Q), di est pertinent pour Q est certain ou non, quantifie par N(di|Q).
Pour le modle de base de Brini et al. prsent ici, la requte est compose dune simple liste de mots-cls. Lorsque la requte est connue, un processus de propagation est dclench travers le rseau, modifiant les valeurs des possibilits a priori des documents (ici possibilit 1 partout) en vertu de leurs liens avec les termes dindexation. Dans ce modle, la formule de propagation est identique celle des rseaux Baysiens nafs [Ben Farhat et al., 2002]. Cependant, deux valuations indpendantes sont ralises : (dj|Q) et (dj|Q) (car leur somme ne vaut pas 1). Soit une requte Q = (ti, , tT) (interprte conjonctivement), alors (dj|Q) = (( Q|dj)* (dj)) / (Q) (3.40) La possibilit de pertinence value quel point Dj = dj est possiblement pertinent tant donne une requte Q. Lorsque cette valeur vaut 0 le document est cart. Le modle suppose de plus lindpendance conditionnelle des termes.
Hypothse 4 : les termes de chaque document de la collection sont conditionnellement indpendants de ce document.
Si le document Dj est compos des termes T, lhypothse ci-dessus, jointe lhypothse 3 dabsence de connaissance a priori sur la pertinence des documents, simplifie la formule (3.40) lorsque le document est instanci positivement (Dj = dj) : (dj|Q) est alors proportionnel : (dj|Q) = (t1| dj)** (tT| dj) = nft1j ** nftTj (3.41)
Pour comparer les possibilits de pertinence des documents de la collection, uniquement ce numrateur est utile. Le numrateur (3.36) de la formule (3.35) mesure la pertinence potentielle relative dun document pour une requte. La certitude de restituer un document pertinent dj pour une requte, note N(dj |Q), est donne par : N(dj| Q) = 1- (dj|Q) Avec (dj| Q) = (( Q| dj)* (dj)) / (Q) (3.42) (3.43)
82
Lorsque le document est instanci et daprs les hypothses 3 et 4, (dj| Q) est alors proportionnel : (dj| Q) = (t1| dj)* *(tT| dj) Ce numrateur peut tre exprim par : (dj| Q) = (1- 1j)** (1- Tj) (3.45) Les documents prfrs sont ceux qui ont une valeur N(dj|Q) leve parmi ceux qui ont une valeur (dj| Q) leve aussi. Si N(dj| Q) vaut zro, les documents restitus sont (sans garantie dadquation totale), ceux qui ont une valeur (dj| Q) leve. Notons que si la requte contient des mots-cls non souhaits tk, on remplace ( tk| dj) par (tk| dj) (=1), et de mme pour ( tk| dj), dans les formules (3.41) et (3.44). En conclusion, lapproche possibiliste quantitative prsente ci-dessus fournit un nouveau cadre pour lvaluation de la pertinence aussi bien pour la reprsentation des documents et de la requte que pour la slection des documents en rponse un besoin utilisateur, et ceci en modlisant limprcision dans la dfinition de la pertinence. Les mesures de possibilit et de ncessit sont utilises pour quantifier les relations de dpendance (ou indpendance) entre les termes et les documents quils indexent et permettent de restituer les documents ncessairement ou possiblement pertinents tant donn une requte. (3.44)
6. Reformulation de requtes dans le modle possibiliste

La problmatique laquelle sintresse [Chouaib, 2006] concerne la reformulation de requtes par rinjection de pertinence possibiliste. Particulirement, lauteur a profit des informations concernant les termes, qui sont fournies par le modle possibiliste de point de vue pertinence (Possible et ncessaire), pour trouver les meilleurs termes dindexes dans les documents jugs pertinents par lutilisateur pour pouvoir reconstruire une nouvelle requte. En fait, le modle propos se base sur la formule de Rocchio, donne par lquation suivante : Q1 = Q0 + 1 n1
P n NP
i i =1
2 i =1
n1
n2
(3.46)
O n1 est le nombre de documents pertinents et n2 est le nombre de documents non pertinents. En se basant sur cette formule, [Chouaib, 2006] a propos dy intgrer la possibilit et la ncessit de termes. Ceci ncessite un changement dans la formule (3.46). Ainsi, la formule propose est de la forme suivant : Q1 = Q0 + F ( P ) F ( NP ) Avec : Q : est le vecteur de la nouvelle requte ; Q0 : Est le vecteur de la requte initiale ; P : Liste de documents pertinents restitus et valus ; NP : Liste de documents non pertinents restitus et valus ; F : Fonction qui combine les pondrations de chaque terme dans la liste des documents pertinents (respectivement Non pertinents) pour trouver un poids final o partir de ce poids seront choisis les meilleurs termes. (3.47)
83
: Paramtre positif permet de pondrer les termes de la requte initiale ;
: Paramtre positif permet de pondrer les termes des documents jugs pertinents par rapport aux documents non pertinents ;
: Paramtre positif permet de pondrer les termes des documents jugs non pertinent.
Par ailleurs, dans la liste de documents restitus (pertinent ou non pertinent), un terme peut exister dans plusieurs documents, mais son poids possibiliste et ncessaire change dun document un autre. Alors, il faut trouver le moyen pour agrger tous les poids dun mme terme dans la liste des documents. [Chouaib, 2006] a propos cinq formules, deux formules bases sur la ncessit, deux autres bases sur la possibilit et le cinquime est une combinaison des deux. Ces formules ont t dfinies dans le but de calculer les nouveaux poids pour les termes de la nouvelle requte lors du processus de rinjection de pertinence (Relevance Feedback). La fonction F est alors une fonction qui applique lune des cinq formules proposes sur lune de deux listes de documents et qui trie le rsultat final des poids des termes par ordre dcroissant et renvoie les n premiers termes.
6.1 Formules bases sur la ncessit de termes

[Chouaib, 2006] a propos deux formules qui sont bases sur la ncessit de termes (N(ti|Dj)), savoir la ncessit moyenne et la Ncessit*(r/R). Nous dtaillons dans la suite ces deux types de ncessit. Le poids final de chaque terme est donn par lquation (3.48), dans le cas de la Ncessit moyenne, et par lquation (3.49) dans le cas de la Ncessit * (r/R) : poidsfinal (ti ) =
poidsfinal (ti ) =
1 N (ti D j ) R
r N ( ti D j ) R
(3.48) (3.49)
Avec : N(ti|Dj) : la ncessit de ti tant donn Dj ; dj sil sagit de la liste de documents pertinents ; Dj = d j sil sagit de la liste de documents non pertinents. R1 si Dj = dj ; avec R1 le nombre de documents pertinents ; R= R2 si Dj = d j ; avec R2 le nombre de documents non pertinents. r1 si Dj = dj ; avec r1 le nombre de documents pertinents contenant le terme ti ; r= r2 si Dj = d j ; avec r2 le nombre de documents non pertinents contenant le terme ti.
6.2 Formules bases sur la possibilit de termes

Le mme auteur [Chouaib, 2006] a propos deux autres formules bases sur la possibilit de termes ((ti|Dj)), savoir la possibilit moyenne et la possibilit*(r/R) :
84
Le poids final de chaque terme est donn par lquation (3.50), dans le cas de la Possibilit moyenne, et par lquation (3.51) dans le cas de la Possibilit * (r/R) : poidsfinal (ti ) =
poidsfinal (ti ) =
1 ( ti D j ) R
r ( ti D j ) R
(3.50) (3.51)
O (ti|Dj) : la possibilit de ti tant donn Dj ;
6.3 Formules bases sur la possibilit et la ncessit

Cette dernire formule est une combinaison de la possibilit et de la ncessit. La formule propose est donne par lquation (3.52) :
poidsfinal (ti ) = 1 ( t i D j ) * N ( ti D j ) R
(3.52)
O (ti|Dj) : la possibilit de ti tant donn Dj ; N(ti|Dj) : la ncessit de ti tant donn Dj. Ainsi, [Chouaib, 2006] a propos une nouvelle mthode possibiliste de reformulation de requte par rinjection de pertinence bas sur le jugement de lutilisateur sur les documents restitus en intgrant la possibilit et la ncessit dun terme. Lintgration de ces deux degrs de pertinence a aid prciser les termes ajouter dans la nouvelle requte. Suivant les formules proposes, lauteur a suggr de choisir les n premier termes par ordre dcroissant de leur pertinence finale (possible et ncessaire). Les rsultats de ce processus ont effectivement amlior les performances du moteur possibiliste de base dans la restitution de documents en rponse aux besoins dutilisateurs. La prcision moyenne a augmente de plus de 53% pour les cinq formules proposes et elle atteint 121% pour la formule de ncessit normalise et pour n = 10. Ces rsultats montrent que lintroduction de la possibilit et de la ncessit est intressante et fiable pour la reformulation par rinjection de pertinence.
7. Modle Baysien versus Modle Possibiliste

Suite cet tat de lart, nous distinguons deux principaux modles bass sur les rseaux Baysiens pour rpondre aux besoins de la RI : le modle de croyance instanciant la requte et le modle infrentiel instanciant le document la rception dune requte. Une diffrence majeure dans la topologie de ces deux rseaux concerne le sens de la dpendance des termes dindexation avec les documents. Dans le modle de croyance la relation de dpendance est oriente des termes, qui constituent lunivers de discours, vers les documents et est quantifiable par P(dj|ti). Pour le modle infrentiel cette dpendance, quantifie par P(ti|dj), va des documents vers ses termes dindexation. Dans le modle Baysien, la notion de pertinence permet la gnralisation des modles de base, mais est difficilement raffinable. Par ailleurs, lvaluation des documents par rapport une requte ne prend en compte que les termes dindexation prsents la fois dans les documents et la requte. En effet, labsence des termes de la requte nest pas traite explicitement dans ces deux modles, bien que dans le modle de croyance les termes dindexation de la requte constituent le point dentre du systme (le processus de recherche est instanci par la rception de la requte).
85
Dans le modle infrentiel, il existe une dfinition ambigu de la probabilit a priori dun document. Les documents de la collection sont reprsents par des nuds dans le rseau. Chaque nud est de domaine binaire et la probabilit a priori dun document devrait alors tre gale 1/2 et non pas 1/N comme dfini dans [Turtle, 1991]. Cette dernire dfinition (P(dj) = 1/N) signifierait que tous les documents sont reprsents dans un seul nud reprsentant tous les documents de la collection et donc que dom(Dj) = {d1, , dN}. Quant au modle possibiliste de la RI, il traite lincertitude dune manire novatrice base sur la thorie des possibilits et particulirement les Rseaux possibilistes. Les nuds dans ce rseau reprsentent les documents, les termes dindexation ainsi que le besoin utilisateur. Les arcs reliant chaque couple de nuds dcrivent une relation de dpendance et sont quantifis par deux mesures : la possibilit et la ncessit. Quel que soit le type de la relation dcrite par un arc entre deux nuds, sa quantification est engendre par deux mesures. Alors que la premire est utile pour carter certaines informations, la seconde mesure renforce les informations restantes. Dautre part, ce modle considre que la restitution dun document en rponse une requte utilisateur peut tre considre dans un cadre dinfrence. En effet, la restitution dun document est cause par la soumission dune requte au systme. Les donnes sur lesquelles se basent les modles de la littrature pour restituer une liste de documents en rponse un besoin utilisateur sont pauvres, incertains et imprcis. La logique possibiliste se prte naturellement ce genre dapplication. En fait, le modle possibiliste a pu dterminer deux types de pertinence : la ncessaire et la plausible. Le premire permet de renforcer nos croyances vis--vis des rsultats de la recherche et la seconde permet dviter de restituer une liste de documents vides une requte utilisateur et den carter ceux qui ne sont pas intressants. La combinaison de la reprsentation par rseaux et de lutilisation de la thorie des possibilits, a permis de rpondre un tel type de pertinence. La requte introduit de linformation qui change nos croyances sur les nuds termes dindexation ainsi que leurs nuds parents. La liste des documents restitus contient les documents ncessairement pertinents en haut de la liste, puis les documents plausiblement pertinents. A notre sens, un cadre thorique intressant, permettant la fois dexprimer lignorance et de tenir compte de limprcis et de lincertain, est possible grce la thorie des possibilits. En fait, notre apport consiste tendre lapproche possibiliste dun cadre quantitatif un cadre qualitatif. Cette extension consiste rechercher les termes de la requte non pas dans la totalit dun document, mais dans ses structures logiques. En effet, lutilisateur devient capable de savoir les emplacements des informations recherches dans les fragments des documents retrouvs par le SRI propos. Autrement dit, il pourra demander au systme des documents contenant des textes, des tableaux ou des figures propos des mots-cls proposs. Il pourra aussi changer son profil dune requte une autre. En consquence, la qualit des documents retourns change en terme de pertinence, en passant dun profil un autre. Cette nouvelle technique daffinement de la recherche des documents permet entre autres dengendrer de nouvelles dfinitions de la pertinence dans un SRI.
8. Conclusion
Ltat de lart que nous avons ralis sur les SRI a montr que les modles dits de premire gnration prsentaient un intrt par rapport un contexte de recherche statique. Dune part, ces modles taient centrs sur la reprsentation de la requte de lutilisateur et du document, et dautre part, sur la mise en correspondance directe entre ces deux reprsentations pour dterminer les documents pertinents selon la vision du systme. Nous citons dans ce cadre : le modle boolen, le modle vectoriel et le modle probabiliste. Afin denrechir ces deux 86
reprsentations auxquelles sont associes deux types de connaissances : connaissances relatives aux documents et connaissances relatives la requte, des extentions ont t proposes. Par ailleurs, ces extensions ont permis denrichir le niveau danalyse des documents, notamment en introduisant lindexation smantique latente, les domaines smantiques, les rseaux dinfrence baysiens et les rseaux possibilistes. Dautre part, ces extensions ont concern le niveau danalyse de la requte, notamment le modle boolen tendu, en introduisant des poids aux termes et des liens entre eux. Ces derniers modles, avec les extensions proposes, avaient galement tent de prendre en considration dautres types de connaissances. Ces connaissances sont lies aux domaines traits dans le corpus documentaire et au besoin dinformation de lutilisateur qui est en rapport avec lutilisateur lui-mme. Pour ce faire des techniques de reformulation de requtes et de clustering ont t introduites dans le processus de recherche. Toutes ces techniques visaient amliorer la recherche en ramenant des documents qui sont potentiellement pertinents mais qui ne sont pas retrouvs par une recherche directe. Cependant elles sont restes limites un cadre o les connaissances cites sont statiques. Bien que ces modles prsentent des avantages lis aux points cits prcdemment, ils prsentent encore des limites. En fait, dautres exigences non traits ou partielllement traits par tous ces modles sont importants prendre en considration dans un SRI : La proposition de diffrentes alternatives lutilisateur pour interroger et interagir avec le corpus et notamment par classification et par des vues thmatiques. La gestion et la prise en compte, de manire plus efficace, de lutilisateur dans le processus de recherche et notamment lopration de mise en correspondance. En effet, le profil de lutilisateur est une composante qui sapprend par le systme et qui volue travers les diffrentes sessions effectues par ce dernier.
Notre objectif dans cette thse est de proposer un modle pour un SRI qui prend en compte ces nouvelles exigences et qui permet de les intgrer en se basant sur une forte composante classificatoire base de Rseaux Petits Mondes Hirarchiques (RPMH). Dune part, nous proposons galement dintroduire dans le processus de reformulation smantique de requtes une phase de classification de termes de la requte qui permet dexplorer ces termes en fonction de leurs proximits smantiques (proxmie de surface). En effet, lutilisateur pourra identifier les classes des termes smantiquement proches des termes de sa requte initiale pour construire sa requte reformule. Dautre part, les documents retrouvs par le systme seront aussi classifis selon leurs proximits thmatiques (proxmie en profondeur) afin de montrer leurs corrlations et faciliter leurs consultations. Nous prsentons dans le chapitre suivant le modle que nous proposons en mettant en avant les nouvelles fonctionnalits quil offre.
87
2ime Partie : Conception et architecture dun SMA de Recherche Intelligente POssibiliste de Documents Web
Deuxime Partie :
Conception et architecture dun Systme multi-Agent de Recherche Intelligente POssibiliste de Documents Web, SARIPOD
88
Chapitre 4 : Modle dun SRI base de RPMH et de RP
Chapitre 4
Modle dun SRI base de Rseaux Petits Mondes Hirarchiques et de Rseaux Possibilistes
Au terme de cette tude de ltat de lart, nous avons remarqu que les exigences attendues dun SRI dpassent celles qui taient prvues au dpart. Cest la raison pour laquelle de nombreuses approches ont t rajoutes aux approches de base. Les tudes en cours se sont donc orientes vers une recherche intelligente qui vise satisfaire au mieux le besoin de lutilisateur en le considrant comme membre actif dans le processus de recherche et en lui fournissant diffrentes manires daccder et dexplorer le corpus. Ces derniers sont en volution contenue. Notre problmatique est donc de proposer un Systme de Recherche dInformation (SRI) : qui intgre lutilisateur dans le processus de recherche et sadapte ses besoins. Ce qui permet de construire des prfrences (centres dintrts) constituant les profils utilisateurs. Ces prfrences samliorent au fur et mesure et permettent de guider le systme et lutilisateur dans le processus de recherche. En effet, un utilisateur peut tre assist, grce ses prfrences, pour identifier ses besoins de manire plus prcise et cerner ses prfrences partir des profils similaires dautres utilisateurs. Le systme peut se servir de ces prfrences pour effectuer une recherche plus fine en reconnaissant un utilisateur travers ses centres dintrt ; qui construit un premier modle associ aux requtes (profils requtes) ainsi quun deuxime modle associ aux rsultats de recherche correspondants (profils documents). En effet, ces deux modles sont base de Rseaux Petits Mondes Hirarchiques (RPMH) et sont utiles pour dgager les similarits smantiques entre les termes de la requte, dune part et entre les documents rsultats de recherche, dautre part. Ainsi, les profils requtes sont exploitables pour la formulation et la reformulation de requtes, alors que les profils documents sont utiles pour la classification des documents. qui traite lappariement entre le modle de requte et le modle de document par un Rseau Possibiliste (RP) permettant de dgager les documents pertinents, au sens possibiliste, vis--vis une requte. En fait, cette phase de mise en correspondance est utile pour le raffinement, le filtrage et la purification des rponses aux requtes.
Loriginalit de notre dmarche est quelle prend tout la fois les trois dimensions susmentionnes pour aboutir un SRI : Coopratif travers le modle associ aux documents et le modle associ aux requtes construites partir de rseaux petits mondes hirarchiques ; Adaptatif aux besoins des utilisateurs ; Intelligent car le systme tient compte des profils dynamiques des ses utilisateurs ;
Ainsi, notre but est galement doffrir lutilisateur une interface interactive pour linterrogation, laffichage et lvaluation des rponses proposes par le systme en rponse un besoin dinformation.
89
Dans la premire section nous dfinissons et nous dtaillons les diffrents aspect introduits dans le modle que nous proposons : modlisation de requtes, modlisation de documents et mises en correspondance entre les deux. Nous mettons en exergue les choix pris pour les mthodes de classifications introduites pour la construction des diffrentes connaissances en les justifiant et en prsentant les avantages. Il est noter que les mthodes de classification choisies sadaptent bien avec les systmes caractres coopratifs, adaptatifs et intelligents. Dans la deuxime section nous situons le modle propos ainsi que son originalit par rapport dautre travaux et particulirement le modle possibiliste quantitatif de RI propos par [Brini et al., 2004abc] et le RPMH de dictionnaire propos par [Gaume et al., 2004].
1. Modle conceptuel du systme SARIPOD

Daprs ltude effectue dans le premier chapitre de ltat de lart, nous avons pu distinguer les acteurs dun SRI qui sont principalement lutilisateur et le document. Autour de ces deux acteurs, diffrents types de connaissances peuvent tre construites pour munir un SRI dune base de connaissances lui permettant de bien agir pour arriver satisfaire au mieux le besoin dinformation de lutilisateur. Ces connaissances peuvent tre classes suivant quelles soient lies lutilisateur ou aux documents selon ces quatre classes : Des connaissances relatives lutilisateur ; Des connaissances relatives au besoin dinformation de lutilisateur ; Des connaissances relatives aux documents ; Des connaissances relatives aux concepts du domaine.
Les connaissances relatives lutilisateur peuvent tre lies une tape dune session de recherche, une ou plusieurs sessions. Il est donc possible de les dfinir selon trois classes : Les connaissances court terme sont relatives une tape dune session de recherche ou lensemble de la session de recherche. Elles sont dtermines en synthtisant le besoin de lutilisateur ainsi quen le corrigeant dune manire incrmentale ; Les connaissances moyen terme sont bases sur la prise en compte du comportement de lutilisateur li lanalyse de ses requtes et de ses dcisions vis--vis des documents fournis par le systme. Cette forme de connaissance nest pas couramment utilise dans les SRI tant donn que le profil de lutilisateur est souvent prdfini avant la recherche ; Les connaissances long terme sont soit relatives aux prfrences des utilisateurs, soit issues dune manire gnrale des classifications des documents ainsi que la correction incrmentale de lindexation des documents qui permettent de produire des connaissances stables du contenu dun fonds documentaire.
Par ailleurs, ces trois types de connaissances sont lis. En effet, les connaissances court terme interviennent dans llaboration des connaissances moyen et longs termes. Nous avons pu galement tudier les diffrentes oprations concernes par un SRI qui sont principalement : La phase de reprsentation ou modlisation de lutilisateur et de la requte ; La phase danalyse qui permet daboutir une reprsentation ou modlisation des documents ; La phase de mise en correspondance ou dappariement ; La phase dvaluation.
90
Outre ces oprations lmentaires et ncessaires, lide motrice du modle est dintgrer dans la stratgie de recherche dun SRI des composantes classificatoires pour les documents et dautres composantes classificatoires pour les requtes. En effet, dans le systme que nous proposons, une phase de reformulation smantique de la requte est introduite et qui permet lutilisateur dajouter des termes smantiquement proches ses termes proposs au dpart. Dautre part, les documents rponses cette requte reformule peuvent subir une classification thmatique permettant de rajuster le rsultat dune requte en fonction du contenu du fonds documentaire. Lobjectif de diviser le processus de recherche en deux modles (de requtes et de documents) est doffrir lutilisateur plusieurs alternatives de recherche qui ne peuvent que lassister et enrichir son niveau par rapport lensemble de connaissances gres dans un SRI tout en cernant ses propres besoins. La mise en correspondance entre le modle de requte et le modle de document est assure par un rseau possibiliste. En effet, ce modle prsente une nouvelle approche possibiliste pour un systme de Recherche dInformation. Ce systme, qui voit la Recherche dInformation comme un problme de diagnostic, traduit laide de rseaux possibilistes nafs des relations de dpendance entre les documents et les termes de la requte. Ces relations sont quantifiables par deux mesures : la possibilit et la ncessit de pertinence. La mesure de possibilit est utile pour filtrer les documents et la mesure de ncessit pour renforcer la pertinence des documents restants. Le processus de recherche restitue les documents plausiblement ou ncessairement pertinents un utilisateur. De plus, si lapproche de base tient compte ici de laspect quantitatif et ne tient pas compte de la dpendance entre les termes de la requte, notre systme permet de ltendre au cadre qualitatif possibiliste, en introduisant des prfrences (pondrations) entre les termes de la requte. Ainsi, larchitecture globale du systme SARIPOD est illustre par la figure 4.1.
Besoins en information Prfs. P Requte R utilisateur R = {T1, T2, , Tn} Reformulation de la Requte Documents retourns Petits Mondes 1 de documents D = {D1, D2, Dn} Ressources Graphe du Web
Petits Mondes 1 de termes
... ... Petits Mondes m de termes Rseau Possibiliste Petits Mondes n de documents
RPMH de dictionnaire
RPMH de pages Web
Figure 4.1 : Modle conceptuel du systme SARIPOD
91
En fait, nous distinguons deux usages trs importants de ces deux RPMH (de dictionnaire et de pages Web) ainsi que leur combinaison dans le systme SARIPOD [Elayeb et al., 2007a] : Le premier RPMH est celui qui consiste structurer les pages Web rponses une requte en zones denses de pages Web thmatiquement lies les unes aux autres. On fait ainsi apparatre des nuages denses de pages qui traitent dun sujet et des sujets connexes (assez similaires smantiquement) et qui rpondent toutes fortement une requte. Pour un autre nuage de pages Web fortement lies les unes aux autres il en va de mme, elles rpondent toutes cette mme requte. La diffrence essentielle est que chaque nuage de pages Web rpond fortement d'une manire particulire la requte. Par exemple, la requte "vrifier", dans le RPMH des synonymes des mots du franais, donne quatre nuages de verbes proches de vrifier : le premier nuage concerne A = {examiner, voir, prouver, reconnatre,....}, le deuxime B = {essayer, contrler, exprimenter, sassurer,....} etc. pour les deux autres. Pour le Web il en va de mme une requte (exprime avec quelques mots-cls) renvoie un ensemble de pages Web (rponses la Google, par exemple) qu'il faut organiser en RPMH de sorte faire apparatre quelques grands nuages de pages Web parmi toutes ces rponses. Chaque nuage regroupe ainsi un lot de pages qui rpondent toutes de faon pertinente et d'une certaine faon la requte. Autrement dit, le premier nuage A rpond pertinemment la requte "vrifier" d'une certaine faon (celle qui s'intresse l"examen"), alors que le second nuage B rpond aussi pertinemment la mme requte "vrifier" mais cette fois dune faon diffrente (celle qui s'intresse au "contle"), etc. Pour le Web chaque nuage de pages Web sera pertinent et, grce des mots-cls supplmentaires, il sera possible de slectionner un nuage particulier ou une partie de ce nuage. La qualit rside dans le fait que quand on regarde les pages Web d'un mme nuage, toutes les pages sont pertinentes, mais si ce degr n'est pas encore suffisant, on peut faire des requtes dans ce seul nuage (contrairement Google, par exemple, qui n'organise jamais ses 300.000 rponses en nuages) pour obtenir un sous-ensemble de pages Web que l'on peut de nouveau (donc rcursivement) organiser en sous-RPMHs et ainsi de suite. Au plus profond de cette entreprise de structuration on trouve des pages Web seules. L'ensemble des rponses a donc t organis en RPMH et sous-RPMH de sorte constituer une structure de classification des pages Web en fonction des mots-cls utiliss. Ce que ne fait pas Google qui sait seulement faire des recherches dans l'ensemble des rponses prcdentes. En fait, Google est capable de renvoyer, suite une sous-requte, des pages que notre systme a mis dans des nuages diffrents (classes des thmes) lors de la premire requte. Le deuxime usage trs important des RPMH est celui qui consiste ne pas prendre les motscls tels quils sont mais considrer une requte comme multiple en ce sens qu'on ne recherche pas seulement les mots-cls dans les pages Web mais aussi les substantifs qui lui sont smantiquement "proches". Proche au sens du calcul de la proxmie dfinie par notre approche base sur ltude des circuits dans un RPMH de dictionnaire (dtaille dans la section 1.2). Les mots considrs comme proches incluent donc les synonymes de ce mot mais ne s'y restreignent pas (voir figure 4.2). On aura potentiellement (en pratique cela sera limit par une borne) tous les mots plus ou moins proches du mot de la requte. Ce nombre de mots est paramtrable (1, 5, 100, ...). Une requte est donc maintenant trs flexible puisqu'elle tolre qu'une page Web soit une bonne rponse mme si elle ne contient pas ( strictement parler) le mot-cl en question.
92
Sous-nuage
Verbe Synonyme B 0,75
Voisin similaire
Verbe Synonyme C
A1
Verbe ou substantif Sous-nuage
0,8
0,7 Nuage
A2
Mesure de similarit
Verbe Synonyme D
Sous-nuage
A3
Figure 4.2 : Similarit smantique entre les verbes
Or pour pouvoir disposer de cette flexibilit nous avons videmment besoin d'un dictionnaire et surtout d'avoir structur ce dictionnaire (l'ensemble des entres de celui-ci) en RPMH justement pour savoir quel mot est proche de quel autre. Or il y a de nombreuses faons de faire merger une structure de RPMH partir d'un dictionnaire, celle de [Gaume et al., 2004]16 par exemple consiste se servir des dfinitions : le mot M1 est reli au mot M2 si et seulement si M2 appartient la dfinition de M1, l'aide de cette dfinition de la relation entre deux mots il en dduit par proxmie la "proximit smantique" de tout mot tout autre. Le systme SARIPOD reprend cette dfinition et s'appuie sur cette proxmie entre les mots pour rendre les requtes plus flexibles. On peut partir de l quantifier les pages Web obtenues suite une requte utilisant certains mots-cls. Chaque page rponse sera caractrise par un degr d'adquation ou de pertinence qui rsultera de la combinaison des degrs de proxmie aux mots-cls de la requte des mots effectivement prsents dans cette page [Elayeb et al., 2007d]. Nous dtaillons dans la suite les diffrentes tapes que nous proposons pour la modlisation de requtes et de documents ainsi que les choix des mthodes de classification introduites. En fait, nous prsentons une approche gnrique de recherche de composantes de sens dans un rseau dinformation. Cette approche est valable dans le cas de mots dun dictionnaire (RPMH de dictionnaire) ainsi que dans le cas de pages Web (RPMH de pages Web).
2. Les RPMH du systme SARIPOD

2.1 Dfinition du RPMH
Des recherches rcentes en thorie des graphes ont mis au jour un ensemble de caractristiques statistiques que partagent la plupart des grands graphes de terrain ; ces caractristiques dfinissent la classe des graphes appele Rseaux Petits Mondes Hirarchiques (RPMH) initialement proposs par [Watts et Strogatz, 1998] et dnomms Small-World Networks avant dtre repris par divers auteurs comme [Barabasi et al., 2000] [Ravasz et Barabsi, 2003] [Newman, 2003] [Portrait, 2003] [Scharffe, 2004] [Gaume, 2004] [Gaume et al., 2004] [Gaume, 2006] [Gaume et al., 2006] [Gaume et al., 2007] [Gaume et Mathieu, 2007] (voir figure 4.3).
16
Les auteurs se limitent uniquement aux mots de mme catgorie gramaticale (les noms).
93
Figure 4.3 : Structure des graphes petits mondes hirarchiques
Les RPMH sont caracteriss par quatre proprits fondamentales :

D : ils sont peu denses, cest--dire quils ont relativement peu dartes au regard du nombre de leurs sommets ; L : la moyenne des plus courts chemins entre les sommets est petite ; C : le taux de clustering ou dagrgation, est dfini de la manire suivante : Cest la valeur moyenne du rapport, pour chaque sommet, entre le nombre darcs entre ses voisins et le nombre total darcs possibles entre eux17. Le C dun graphe est la moyenne des Cs sur ses sommets. Le C dun graphe est donc toujours compris entre 0 et 1. Plus le C dun graphe est proche de 1, plus il forme des agrgats ou clusters (des zones denses en artes). Dans un RPMH, le C est fort, les deux voisins dun mme sommet ont tendance tre connects par une arte ( mes amis sont amis entre eux ). Par exemple, sur Internet18, deux pages qui sont lies une mme page ont une probabilit relativement leve dinclure des liens lune vers lautre ; I : la distribution des degrs dincidence des sommets suit une loi de puissance (power law) : certains nuds trs peu nombreux ont beaucoup plus de voisins que dautres plus nombreux, eux-mmes ayant plus de voisins que dautres qui eux-mmes... La probabilit P(k) quun sommet du graphe considr ait k voisins dcrot comme une loi de puissance P(k) = k (o < 0).
Le tableau 4.1 [Gaume et al., 2004] prsente une comparaison des RPMH avec dautres types de graphes pour ces diffrentes caractristiques : des graphes alatoires (construits en partant dun ensemble de sommets isols, puis en ajoutant alatoirement un nombre dtermin dartes entre ses sommets), et des graphes rguliers (des graphes classiquement tudis en thorie des graphes, dont tous les sommets ont le mme degr dincidence) [Douglas et Houseman, 2002] [Sergi et Ricard, 2007] .
Supposons quun sommet S ait Ks voisins, alors il y a Ks(Ks-1)/2 artes au maximum qui peuvent exister entre ces Ks voisins (ce qui arrive quand chacun des voisins de S est connect tous les autres voisins de S). Soit As le nombre dartes quil y a entre les voisins de S (ce nombre est donc ncessairement plus petit ou gal Ks(Ks1)/2). Posons Cs = As/(Ks(Ks-1)/2) qui est donc pour tout sommet S infrieur ou gal un. 18 Les sommets sont les 6 milliards de pages disponibles sur Internet, et une arte est trace entre A et B si un lien hypertexte vers la page B apparat dans la page A ou si un lien hypertexte vers la page A apparat dans la page B.
17
94
densit gale Graphes alatoires Graphes de terrain (RPMH) Graphes rguliers
L : Moyenne des plus courts chemins L petit (chemins courts) L petit (chemins courts) L grand (chemins longs)
C : Taux de clustering C petit (pas dagrgats) C grand (des agrgats) C grand (des agrgats)
I : distribution des degrs dincidences loi de Poisson loi de puissance constante
Tableau 4.1 : Comparaison de trois graphes en fonction des paramtres L, C et I
La forte cractristique classificatoire des RPMH par rapport aux autres types des graphes justifie davantage nos propositions de modliser les termes de la requte par un premier RPMH de dictionnaire qui sera utile dune part dans la classification de ces termes en plusieurs composantes smantiques et dautre part dans la reformulation smantique de requte. Nous modlisons aussi les documents rsultats de la recherche par un second RPMH de pages Web qui sera utile dans leurs classifications thmatiques. Ainsi, nous proposons dans la suite une nouvelle approche gnrique de gnration de composantes de sens dans un rseau dinformations. Cette approche est applicable dans le cas dun rseau de mots dun dictionnaire ainsi que dans le cas dun rseau de pages Web. Notons que lapproche de base a t initie par [Awada, 2005] dans le cas de verbes dun dictionnaire et dveloppe encore plus par nous mme dans le cadre de cette thse afin de pouvoir lutilise dans la reformulation smantique de la requte dans notre SRI SARIPOD. En fait, notre contribution consiste commenter et amliorer les algorithmes existants afin de proposer des nouveaux algorithmes de classification en rponses quelques limites et insuffisances non rsolues par [Awada, 2005].
2.2 Approche gnrique de gnration de composantes de sens dans un rseau dinformations

Cette section porte sur l'tude de la ressemblance de sens dans un rseau dinformations tout en traitant le problme de la polysmie de ces informations. Plus prcisment, il sagit de repartir des entits informatives similaires en groupes appels composantes de sens correspondant chacune un sens de cette entit. Ce modle sera appliqu deux types dentits : les pages Web et les mots dun dictionnaire. Le Web, comme le dictionnaire, est un objet reprsent par un graphe de type RPMH et le regroupement en familles de ressemblance des entits constitutives de cet objet se fait en tudiant les circuits dans ce graphe. En fait, nous nous sommes appuy sur lide suivante : les entits se trouvant sur un circuit devraient appartenir la mme composante de sens. Ltude a donn lieu limplantation dune interface graphique d'exploitation automatique du rseau (voir chapitre 6 de ralisation). Nous proposons d'utiliser une structure susceptible de conserver suffisamment de sens pour notre propos : les graphes. Il semble vident quil existe diffrents types dinformation, et par consquent darcs, dans ces graphes tels que les rapports de synonymie19 ou d'antonymie20
19
La synonymie est un rapport de proximit smantique entre des mots ou des expressions d'une mme langue. La proximit smantique indique qu'ils ont des significations trs semblables. Des termes lis par synonymie sont des synonymes. 20 Deux items lexicaux sont en relation d'antonymie si on peut exhiber une symtrie de leurs traits smantiques par rapport un axe. La symtrie peut se dcliner de diffrentes manires, selon la nature de son support.
95
entre sommets, d'hyperonymie 21 , de co-domaines d'activits. Par consquent, ltude des relations quentretiennent les entres dun dictionnaire entre elles se ramne une tude sur les graphes cherchant exploiter les rseaux ainsi tablis entre les mots. Dautre part, tous les dictionnaires peuvent tre reprsents par des graphes dont les sommets et les arcs peuvent tre dfinis de multiples faons. La manire la plus simple est de prendre pour sommets du graphe les entres du dictionnaire et d'admettre l'existence d'un arc d'un sommet A vers un sommet B si et seulement si l'entre B apparat dans la dfinition de l'entre A. Les dictionnaires sont des sources de donnes pertinentes dans tout traitement automatique du langage naturel. En effet, ce sont des objets constitus, formels, comparables, existant dans presque toute langue, et surtout porteurs de sens. Lide est la suivante : si les dfinitions d'un dictionnaire sont effectivement porteuses de sens, c'est ncessairement au moins par le rseau qu'elles tablissent entre les mots qui en sont des entres [Abdallah et al., 2003] [Awada, 2005]. Dautre part, la plupart des travaux sur les dictionnaires portent sur le rapport de synonymie. Il s'agit, trs souvent, de dtecter des composantes possdant des proprits spcifiques en termes de graphe telles que les cliques [Ploux et Victorri, 1998] et les gangs [Venant, 2003] conduisant ainsi au regroupement de synonymes, lensemble des lments appartenant une mme composante correspondant un sens lmentaire . Dans une tude antrieure, [Awada, 2005] introduit la notion de synonymtrie pour quantifier la force de la synonymie entre deux mots. Cette tude avait pour but de dtecter les composantes de sens dans un dictionnaire de verbes en se basant sur la N-connexit comme critre de regroupement et de classification de synonymes [Awada et Chebaro, 2004]. Toutefois, les diffrentes approches proposes souffrent de lambigut lie aux langues naturelles. En effet, cette ambigut se manifeste dans les dictionnaires par la prsence dentres polysmiques confondues dans le graphe en un seul noeud. Ce problme provient en gnral dutilisations de synonymes mtaphoriques, la mtaphorymie tant une notion propose par [Duvignau et al., 2000] et [Gaume et al., 2002]. Nous prsentons dans cette section une tude de composantes de sens travers l'examen d'un rseau dinformations en essayant de traiter prcisment le problme de la polysmie et d'y prsenter quelques lments concrets de solution. Nous dfinissons aussi un critre de regroupement bas sur la notion de circuit. Toutefois, ceci nest cependant pas lobjectif principal de la thse, mais cest une tape pralable nos travaux. En fait, ceci va savrer ensuite extrmement utile vue que les travaux de [Gaume et al., 2004] nont pas apporter une solution optimale aux requtes sur le Web qui soit flexible et peu ambigu. Par ailleurs, le problme de la classification des documents (clustering) est l'un des axes de recherche scientifique les plus importants dans le domaine de linformatique documentaire. Plusieurs approches ont t proposes par la communaut scientifique qui a suggr diffrentes methodes s'appuyant trs souvent sur les techniques de Data Mining [Berry et Linof, 1997]. Notre approche de la classification dentits documentaires consiste gnralement reprsenter ces entits (les pages Web ou les articles associs aux entres dun dictionnaire) par un graphe RPMH dont les sommets sont les entits et les arcs traduisent un lien (hypertextuel dans le cas de pages Web ou dfinitionnel dans le cas de mots dun dictionnaire) direct entre deux sommets : il existe un arc d'un sommet A vers un sommet B si et seulement si l'entit B possde un lien avec lentit A. Par consquent, le problme de
21
Lhyperonymie est la relation smantique hirarchique d'un lexme un autre selon laquelle l'extension du premier terme, plus gnral, englobe l'extension du second, plus spcifique. Le premier terme est dit hyperonyme de l'autre, ou superordonn par rapport l'autre. C'est le contraire de l'hyponymie.
96
classification (des pages Web ou des mots du dictionnaire) se ramne une tude sur les graphes cherchant exploiter les rseaux ainsi tablis entre les entits. Il s'agit, trs souvent, de dtecter des composantes possdant des proprits spcifiques des graphes telles que : prsence de cliques ou de composantes N-connexes [Awada et Chebaro, 2004] conduisant ainsi au regroupement des entits.
2.2.1 Prsentation de lapproche
Les deux sources de donnes alimentant les deux RPMH proposs dans notre modle conceptuel sont deux fichiers au format XML dans lesquels les entits sont dcrites par un ensemble de balises permettant chacune dassocier un lien (hypertextuel ou dfinitionnel) aux diffrents constituants (voir tableau 4.2).
La base de donnes des liens hypertextuels entre les pages Web
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE site SYSTEM "F1.dtd"> <Site> <Page url = "URL(page1)"> <link>URL(page11)</link> <link>URL(page12)</link> <link>URL(page13)</link> <link>URL(page1n)</link> </Page> <Page url = "URL(page11)"> <link>URL(page111)</link> <link>URL(page112)</link> <link>URL(page1)</link> <link>URL(page11p)</link> </Page> </Site>
La base de donnes des liens dfinitionnels entre les mots du dictionnaire

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE site SYSTEM "F1.dtd"> <Dictionnaire> <mot m = "mot1"> <def>mot11</def> <def>mot12</def> <def>mot13</def> <def>mot1n</def> </mot> <mot m = " mot11"> <def>mot111</def> <def>mot112</def> <def>mot1</def> <def>mot11p</def> </mot> </Dictionnaire>
Tableau 4.2 : Les sources de donnes de deux RPMH
Ces bases de donnes ntant pas utilisables sous leur forme XML, nous avons entrepris une transformation de ces deux fichiers en deux graphes (RPMH) afin de pouvoir reprsenter graphiquement les entits et leurs liens. Les nuds sont alors considrs comme des entits lies par des arcs reprsentant la relation de lien entre elles. La structure du rseau en tant que graphe se caractrise par une concentration de relations (arcs) entre toutes les entits (sommets) ayant le mme sens . Ces entits entretiennent des relations qui en font parfois des circuits. En fait, deux familles dentits ayant chacune un sens propre diffrent de celui de lautre famille vont se traduire sur le graphe par deux ensembles de circuits disjoints. Nous en conclurons qu'il devrait y avoir quivalence entre la notion de sens et densemble de circuits dans le graphe. Cette hypothse devrait tre vraie mme en prsence dentits polysmiques22 dans le rseau. En effet, en partant d'une entit
22
Monosmie : une entit est dite monosmique si toutes les entits auxquelles elle est lie sont lies entre elles (lentit appartient une seule clique). Homonymie : une entit est dite homonymique si l'ensemble des entits auxquelles elle est lie (autres qu'ellemme) est sparable en au moins deux sous-ensembles disjoints pour ce lien, c'est--dire que chacun des lments de l'un des sous-ensembles n'est li aucun des lments des autres sous-ensembles. Polysmie : une entit est dite polysmique si elle n'est ni monosmique ni homonymique, c'est--dire si elle admet : (i) des entits auxquelles elle est lie qui ne sont pas toutes lies entre elles ; (ii) des entits non sparables: relies entre elles par une chane dentits, lies l'entit considre et diffrentes de cette entit.
97
"E" donne la recherche dun circuit, lexistence dune entit polysmique fait en sorte quil y a peu de chance que lon revienne lentit de dpart "E", et par suite lentit polysmique est videment limine. Lide consiste regrouper deux entits E2 et E3 dune entit donne E1 en un lment de sens S1 de cette entit sil existe au moins un certain nombre de circuits partant de E1 et y aboutissant, passant par E2 et E3 en mme temps. Nous dfinissons la proximit smantique entre deux entits E1 et E2 en terme du nombre de circuits passant par E1 et E2 de la manire suivante [Elayeb et al., 2008] :
Proximit_Smantique (E1, E2) = Nombre de circuits (E1, E2)/Nombre maximum de circuits dtects
Il est ncessaire de dterminer le nombre de circuits passant par chaque entit pour pouvoir valuer les proximits entre les diffrentes entits formant les sommets du rseau dinformations. Ce nombre de circuits est utile pour la dfinition du paramtre appel le seuil dacceptation .
2.2.1.1 Choix du seuil dacceptation
Le seuil dacceptation joue le rle du filtre qui empchera de regrouper certaines entits smantiquement proches dune entit donne dans une mme composante de sens , et permettra donc, par opposition, den regrouper dautres. Une valeur faible de ce seuil ferait entrer dans la mme composante de sens des entits qui ont peu ou pas assez de relations entre elles en tant quentits similaires celle de dpart car peu de circuits les runissent. Alors quune valeur importante de ce seuil aurait pour effet dempcher le regroupement dentits pouvant correspondre une mme signification, voire dliminer carrment certaines entits, qui seraient ainsi tord considres comme des entits similaires non acceptables de celle de dpart. Nous tudions dans la suite les effets de la variation du seuil dacceptation et son influence sur la formulation de composantes de sens . Considrons lexemple dun rseau dentits de la figure 4.4.
E2 E1
E4
X X X X
E3
X X X Y
Figure 4.4 : Exemple du choix de seuil d'acceptation
Nous supposons que lentit de dpart est E1 et que le nombre de circuits contenant la fois E1, E2 et E3 est N1. Nous avons symbolis les entits reliant E2 E3 par lentit X. Le nombre de circuits N1 est obtenu en additionnant le nombre de circuits N2 passant par lentit E4 dun ct, et le nombre de circuits N3 passant par Y (chacun des deux symboles X et Y reprsente plusieurs autres entits lies). Supposons que N1 soit suprieur au seuil dacceptation. Ceci implique que E2 et E3 font partie du mme sens . Concernant E4, deux cas sont prendre en considration :
98
N2 est suprieur au seuil dacceptation, alors E4 fait partie du mme sens que E2 et E3. N2 est infrieur au seuil dacceptation, alors E4 ne fait pas partie du sens prcdemment voqu. Deux cas peuvent alors encore se prsenter : - E4 figurera dans une autre composante (qui ne figure pas sur le schma). - E4 ne figurera dans aucune autre composante et donc ne sera plus considre comme smantiquement proche de E1.
Il sest avr quil nest pas du tout vident de choisir le seuil optimal dacceptation. Cest pour cette raison que nous avons minimis son rle en le combinant un autre facteur qui est la longueur du circuit. Par ailleurs, le seuil dacceptation est calcul automatiquement partir de la moyenne du nombre des circuits dans la matrice des circuits communs (cf. section 2.2.1.3). Cette solution ne ncessite aucune expertise du ct de lutilisateur et peut donc tre exploite automatiquement.
2.2.1.2 Importance de la longueur du circuit
La richesse dun rseau dinformations se traduit par la complexit des liens entre entits qui le composent. En effet, la distance (en nombre dartes) qui spare ces entits, et donc la longueur du circuit les reliant est lun des facteurs importants qui assure l'existence dune proximit significative entre deux entits du rseau. De plus, il existe une inter-connectivit accrue entre les nuds du graphe associ une entit possdant un trs grand nombre de liens. Par exemple dans le domaine lexical, plus il y a de sens associs un mot, plus on trouve darcs connects aux sommets le reprsentant dans le graphe. Dautre part, il se peut quun circuit partant et aboutissant une entit E1 soit constitu de deux chemins : lun partant de E1 E2 et dsignant un sens S1, et lautre partant de E2 vers E1 et dsignant un autre sens S2. Il sagit en fait du problme de la polysmie des entits. Il sest avr que plusieurs anomalies peuvent tre dtectes lors du regroupement des entits dans les composantes de sens. Ces erreurs sont causes principalement par lexistence dentits polysmiques dans un ou plusieurs circuits. Vu la difficult de rsoudre dfinitivement le problme de la polysmie lie aux entits caractre documentaire, nous proposons une contribution qui consiste minimiser les effets nfastes la comprhension en diminuant la longueur des circuits traiter, et donc en restreignant le nombre dentits y figurant. En effet, la prise en compte de circuits trop courts uniquement aurait pour effet de scinder une mme composante de sens en plusieurs. Cependant, plus le circuit est long, plus il y a de chance dy trouver des entits polysmiques et par consquent de mlanger diffrentes composantes de sens. Ainsi, le principe de regroupement que nous proposons est le suivant : On regroupe deux entits E2 et E3 lies une entit donne E1 en une composante de sens S1 de cette entit sil existe au moins un certain nombre de circuits de longueur infrieure ou gale une longueur donne partant de E1 et y revenant, passant par E2 et E3 en mme temps. Nous appellerons la longueur maximale prcdemment voque la longueur limite . Nous prcisons que la longueur des circuits que nous avons pris en compte est de lordre de 4 arcs (dans les deux cas : mots du dictionnaire ou pages Web). Nous avons atteint ce chiffre aprs bien des tests sur la validit des rsultats obtenus en fonction de la longueur des circuits tudis (voir annexes 3 et 4). En effet, dans le cas du dictionnaire, lordre de mots smantiquement proches rcuprs pour un mot donn se stabilise partir dune longueur de circuit gale 4. A partir dune longueur de circuits gale 5, le nombre de circuits rcuprs 99
pour chaque smantiquement mot proche devient trs important. En consquence, dans ce cas plusieurs mots ne font pas partie de la composante de sens du mot de dpart.
2.2.1.3 Construction des classes de sens
Nous avons tudi trois mthodes permettant de grouper les entits en classes de sens (entits lies entre elles et partageant un mme sens). Ces approches utilisent une matrice, dite des circuits communs, construite partir de statistiques sur les circuits dans le graphe. Par ailleurs, cette matrice constitue le matriel de base sur lequel seffectuent les traitements permettant de regrouper les entits correspondant une mme composante de sens dune entit donne. Nous nous nintressons quaux circuits ayant une longueur infrieure ou gale la longueur limite dcrite dans la section prcdente. Un compromis sur la longueur limite des circuits prendre en compte savre donc ncessaire car cette longueur limite influe grandement sur les rsultats. En effet, une valeur leve de cette longueur prsenterait lavantage de diminuer le nombre de composantes mais y inclurait des entits indirectes ayant des sens loigns de lentit initiale. Par contre, une valeur basse de cette longueur permettrait dliminer les entits indirectes mais donnerait un grand nombre de composantes de sens vue quun sens sera associ des petits groupes dentits. La matrice des circuits communs permet de gnrer les diffrentes relations existant entre les entits du rseau deux deux. En effet, la construction de cette matrice carre se fait de la manire suivante : Pour une entit donne au dpart, nous partons du graphe dentits et nous parcourons la structure correspondante la recherche de tous les circuits partant de lentit de dpart. Aprs avoir construit la liste des circuits, nous construisons la matrice des circuits communs dont les entres sont les entits proches de lentit de dpart et o le contenu dune cellule de coordonnes (Ei, Ej) correspond au nombre de circuits partant de lentit de dpart et contenant la fois Ei et Ej. Cette matrice est utile dans lextraction des couples dentits ayant une relation significative en comparant le contenu de chaque cellule avec le seuil dacceptation reprsentant le nombre moyen de circuits figurant dans la matrice. La gnration des groupes dacceptations potentiels se fait entit par entit. En effet, nous commencons par construire des groupes contenant chacun deux lments, puis on ritre comme suit: Une relation R existe entre deux entits Ei et Ej si la valeur correspondant la ligne i et la colonne j dans la matrice est suprieure au seuil dacceptation. Ces deux entits forment alors un couple comme le montre la figure 4.5.
E1 E1 E2 E3 Em 15 4 14 E2 15 9 3 E3 4 9 6 ... ... ... ... ... Em 14 3 6 Paires retenues : F = {{E1, E2}, {E1, Em}, {E2, E3}} Seuil dacceptation = (15+4+14+9+3+6)/6 8
Figure 4.5 : Couples des entits issus dune matrice des circuits communs
Une fois labor lensemble F de ces couples, nous transformons F en un ensemble de triplets en essayant dy inclure une entit significative (correspondant au mme sens que les deux entits du couple), puis en un ensemble de quadruplets, etc. Finalement, lorsque lensemble F
100
se stabilise, nous obtenons dans F les composantes potentielles de sens reprsentant les classes de sens finales. Nous prsentons ci-aprs trois mthodes de regroupement permettant dtendre lensemble F. Ces mthodes ont t inities par [Awada, 2005] dans le cas des verbes dun dictionnaire. Nous commentons davantage ces trois mthodes tout en proposant un nouveau cadre gnrique de leur application et nous proposons des extensions vers dautres algorithmes gnriques de regroupement des composantes de sens (cf. section 2.2.2). Ces trois mthodes utilisent les conventions suivantes : F : l'ensemble de couples dentits obtenus partir de la matrice des circuits communs. Gj : le jme groupe de F. n : le nombre des groupes de F (cardinalit de F), donc F = {G1, G2, , Gn}. Ek : le kme entit obtenue partir de celle du dpart. m : le nombre dentits dans la matrice des circuits communs.
(i) Premire mthode : Regroupement par allongement de circuits
Considrons le groupe dentits {Ei, Ei+1, , Ej}, o j > i, on inclut lentit Ek, k[i, j], dans ce groupe si et seulement si Ek entretient une relation significative avec tous les lments de ce groupe simultanment. Ceci se traduit par le fait que le nombre de circuits qui contiennent Ek et tous les lments de ce groupe sont suprieurs au seuil dacceptation23. Cet algorithme est prsent par la figure 4.6.
Rpter stabilit = Vrai; /*Cest une variable boolenne indiquant que la construction de F est non encore acheve*/ Pour j allant de 1 n Faire Pour k allant de 1 m Faire Si (Ek Gj) Alors Si le nombre de circuits contenant Ek & tous les lments de Gj sont > seuil dacceptation Alors {Gj Gj {Ek}; stabilit = Faux ;} FinSi FinSi FinPour /*fin pour k*/ FinPour /*fin pour j*/ Jusqu (stabilit == Faux);
Figure 4.6 : Algorithme de regroupement par allongement de circuits
Le but tant dobtenir des composantes de sens grce la condition de regroupement consistant inclure une entit dans une composante uniquement si le nombre de circuits runissant cette entit toutes celles de la composante est suprieur au seuil dacceptation. En effet, cette mthode est trop contraignante car si relier E G = {E1,, Em} se traduisait graphiquement par une arte entre E et chaque Ei de G (pour i = 1,,m) dans un graphe quon appellera H(G), mais comme la dernire entit entre dans G (supposons que ce soit Em) y est entre pour la mme raison et est donc relie chaque Ej de G (pour j = 1, m-1), et ainsi de suite pour tous les prcdents alors la reprsentation graphique de H(G) est une clique sur G (tout Ei est reli par une arte tout Ej). La condition est donc forte puisque nentre dans H (de cardinal n) quune entit E condition que H {E} reste une clique et que le nombre de circuits, utilisant tous les lments de
23
Si R(x, Y) signifie que x entretient une relation significative avec tous les lments de Y, alors R(Sk, {Si, Si+1, , Sj}) Nbre_circuits(Sk, {Si, Si+1, , Sj}) > seuil.
101
Hn {E} o Hn est un sous-ensemble n lments de H, soit suprieur un seuil. Si Nbre(Hn {E}) reprsente ce nombre de circuits et s reprsente le seuil, la condition est Nbre(Hn {E}) s.
(ii) Deuxime mthode : Regroupement par associations spares
Considrons le groupe dentits {Ei, Ei+1, , Ej} augment dune entit Ek si et seulement si Ek entretient une relation significative24 avec chaque lment de ce groupe sparment. Ceci se traduit dans la matrice par des valeurs de (Ei, Ek), (Ei+1, Ek),, (Ej, Ek) toutes suprieures au seuil dacceptation. Cet algorithme est prsent par la figure 4.7. Bien que cette deuxime mthode soit plus souple que la premire, elle est encore contraignante car elle consiste encore prserver la nature de clique de H(G) mais cette fois avec la condition que le nombre de circuits, utilisant tous les lments de H1 {E} o Hn est un sous-ensemble n lments de H(G), soit suprieur un seuil. Soit : H1 H(G), Nbre(H1 {E}) s.
Rpter stabilit = Vrai; Pour j allant de 1 n Faire Pour k allant de 1 m Faire Si (Ek Gj) Alors Sil existe une relation R entre Ek & chaque lment de Gj Alors {Gj Gj {Ek}; stabilit = Faux ;} FinSi FinSi FinPour /*fin pour k*/ FinPour /*fin pour j*/ Jusqu (stabilit == Faux);
Figure 4.7 : Algorithme de regroupement par associations spares
Il est signal que nous avons propos des mthodes intermdiaires entre la premire et la deuxime mthode. Il suffisait encore une fois de prserver la nature de clique de H(G) avec la condition (paramtrable sur k) suivante : le nombre de circuits, utilisant tous les lments de Hk {E} o 1 k n pour tous les Hk, est suprieur un seuil. Soit : Hk H(G), Nbre(Hk {E}) s.
(iii) Troisime mthode : Regroupement par contrainte minimale
Considrons le groupe de n entits {Ei, Ei+1, , Ej}, on augmente ce groupe dentits Ek si et seulement sil existe un circuit de longueur n+1 (o n = Card(G)) contenant les lments du groupe et Ek. Cet algorithme est prsent par la figure 4.8. Chaque lment de F doit correspondre un groupe dentits ayant un sens spcifique. Toutefois, cette solution prsente un certain nombre de lacunes. En effet, le sens de parcours des entits influe sur le rsultat obtenu. Prenons lexemple dun groupe G = {E1, E2, , Ep} et deux candidats Ek et El tels quil existe un circuit de longueur p+1 contenant E1, E2, , Ep et Ek et un autre circuit de longueur p+1 (o p = Card(G)) contenant E1, E2, , Ep et El mais il nexiste pas de circuit de longueur p+2 contenant E1, E2, , Ep, Ek et El. Lentit inclure dans le groupe G est le premier examin, lautre ny entrera jamais. Ceci fait que le nombre de
24
Si R(x, y) signifie que x entretient une relation significative avec y, alors p[i, j] R(Sk, Sp) ; c--d : R(Sk, Sp) Nbre_circuits(Sk, Sp) > seuil.
102
groupes obtenus reste suprieur au nombre dacceptions possibles. Nous avons ainsi prvu une tape de fusion consistant runir les groupes correspondant au mme sens lintrieur de la mme composante de sens . Nous tenons quand mme signaler que nous avons adopt cette dernire mthode qui nous semble meilleure que les deux premires du point de vue des rsultats obtenus.
Rpter stabilit = Vrai; Pour j allant de 1 n Faire Pour k allant de 1 m Faire Si (Ek Gj) Alors Sil existe un circuit qui contient seulement Ek & tous les lments de Gj Alors {Gj Gj {Ek}; stabilit = Faux ;} FinSi FinSi FinPour /*fin pour k*/ FinPour /*fin pour j*/ Jusqu (stabilit == Faux);
Figure 4.8 : Algorithme de regroupement par contrainte minimale
En fait, cette mthode est beaucoup moins contraignante que les deux autres car elle consiste encore prserver la nature de clique de H(G) avec la condition (plus faible) suivante : Le nombre de circuits, utilisant tous les lments de Hn {E} est suprieur 1. Soit Nbre(Hn {E}) 1. Si lon rsume cela par le tableau 4.3 :
H(G) = clique x = Nbre dlments pris dans G Seuil y y=1 y=2 x =1 ? Mthode 2 x = k, 1 < k < n Mthodes intermdiaires ? x=n ? ? Mthode 1 H(G) clique
Tableau 4.3 : Rcapitulation de mthodes de regroupement des entits
Le symbole (?) dans le tableau 4.3 montre quil y a encore dautres mthodes tester. En fait, nous avons compltement occult le cas H(G) non clique. En effet si lon reprend la toute premire dfinition en la modifiant comme suit : Etant donn un groupe dentits {Ei, Ei+1,, Ej} de cardinalit (j-i+1). Nous augmentons cet ensemble dune entit Ek si et seulement si Ek entretient une relation suffisamment significative avec chaque lment de ce groupe. Ceci se traduit par le fait que le nombre de circuits, qui contiennent Ek et suffisamment dlments de ce groupe, est suprieur au seuil dacceptation. Le mot suffisamment pourrait signifier par exemple quil passe un nombre de circuits (suprieur au seuil y) avec un nombre suffisamment grand dlments de G ( 90%*card(G), par exemple), mais pas tous les lments de G que ce soit sparment (i.e. : pour nimporte quel groupe dun lment) ou simultanment (i.e. : pour nimporte quel groupe de n lments) ou partiellement (i.e. : pour nimporte quel groupe de k lments). Il se pourrait alors quune entit (ou peut-tre plusieurs) ne fasse jamais partie daucun circuit contenant Ek, auquel cas il ne serait pas reli dans H(G) Ek et H(G) ne serait plus une clique.
103
Ensuite nous pouvons faire de nouveau varier x et y dans le cas H(G) non clique. Quant linfluence de lordre dentre des entits dans G, elle tait dj prsente pour la mthode 1 comme pour la mthode 2. Dans lexemple cit, si Ek entre dans G il faudrait que El entre aussi (bien que lentit Ek ne soit pas relie El puisque aucun circuit ne les contient). Cela milite pour une mthode qui sapplique quand H(G) est non clique.
2.2.1.4 Fusion des groupes potentiels en composantes de sens
Ltape de regroupement produit un ensemble F de groupes Gi contenant chacun des entits ayant le mme sens. Cependant, il se peut que deux groupes puissent correspondre un mme sens. Ceci dcoule, entre autres choses, du problme voqu dans le paragraphe prcdent. Une fusion de ces deux groupes est ncessaire pour obtenir une unique composante de sens. Le principe de fusion des groupes potentiels en composantes de sens est le suivant : Deux groupes Gi et Gj (card(Gi) = ni ; card(Gj) = nj avec nj ni) doivent tre fusionns si : 1. Gi contient (nj -1) mots de Gj. 2. Il existe un arc entre les entits E1 et E2 tels que E1 Gj - Gi et E2 Gi - Gj. En effet, Gi contient (ni - nj) entits qui ne sont pas dans Gj. Soit Q l'ensemble de ces entits et q = card(Q). Nous avons envisag ltude de diffrentes possibilits de relation entre E1 (E1 Gj et E1 Gi) et un certain nombre dlments de Q. Nous avons constat quimposer E1 davoir une relation (arc) avec chaque lment de Q ne permet pas de rduire les sens intermdiaires de faon significative et laisserait des groupes non fusionns ayant des sens proches. Aprs une tude approfondie du problme, [Awada, 2005] a abouti la conclusion suivante : pour inclure E1 dans Gi, il suffit quil y ait un arc entre E1 et un des lments de Q. La figure 4.9 prsente cet algorithme.
Rpter arrt = Vrai; Pour i allant de 1 n Faire Pour j allant de 1 n Faire Si (Gi Gj) Alors ni = card(Gi); nj = card(Gj); Si (nj > ni) Alors changer Gi et Gj ; /* Gi plus petit que Gj */ Si (card (Gi Gj) >= nj 1) Alors E1 = Gi \ (Gi Gj); G = Gi \ (Gi Gj); Sil existe une relation R entre E1 & un lment de G Alors Gi Gi Gj; arrt = Faux ; Supprimer Gj; /*Fusionner Gi et Gj */ FinSi FinSi FinSi FinSi FinPour /*fin Pour j*/ FinPour /*fin Pour i*/ Jusqu (arrt == Faux) ;
Figure 4.9 : Algorithme de fusion des groupes potentiels en composantes de sens
Nous remarquons ici que la fusion de groupes ressemble lagrgation des entits en une non-clique. Dans lexemple cit prcdemment on aurait pu obtenir : G1 = {E1,, Em, Ek} et 104
G2 = {E1,, Em, El}. A lvidence G = G1G2 = {E1,, Em, Ek, El} pourrait trs bien vrifier Nbre(H(G)) s si lon nimpose pas Nbre(Hn) s pour Hn H(G) et pour n[1, m+2]. Si on relaxe ces deux quantificateurs, la mthode pourrait ne pas ncessiter la fusion de groupes.
2.2.2 Extension dautres algorithmes de classification
Nous prsentons dans cette section dautres algorithmes de classification qui semblent suceptibles de rsoudre notre problmatique de recherche des composantes de sens dans un RPMH dentits. En fait, ces algorithmes traitent le cas o H est un graphe non clique (i.e. H(G) clique dans le tableau 4.3).
Algorithme 1 :
Lentit E intgre le groupe G si et seulement si il existe un nombre Nbre(E) de circuits, nots C1,, CNbre(E), tel que Nbre(E) s, (s fonction de Card(G)), de longueurs L(Ci) tels que i, L(Ci) l, (l fonction de Card(G)) passant par E et utilisant tous les entits de G.
Algorithme 2 :
Lentit E intgre le groupe G si et seulement si il existe un nombre Nbre(E) de circuits, nots C1,, CNbre(E), tel que Nbre(E) s, (s fonction de Card(G)), de longueurs L(Ci) tels que i, L(Ci) l, (l fonction de Card(G)) passant par E et utilisant suffisamment dentits de G. Lalgorithme 2 assouplit un peu lalgorithme 1 trop contraignant. Par contre E peut tre reli G par un arc ou par un chemin court (empruntant des sommets non encore dans G).
Algorithme 3 :
Lentit E intgre le groupe G si et seulement si il existe un nombre Nbre(E) de circuits, nots C1, , CNbre(E), tel que Nbre(E) s, (s fonction de Card(G)), de longueurs L(Ci) tels que i, L(Ci)l, (l fonction de Card(G)) passant par E et utilisant un ensemble dentits F = i=1,Nbre(E) Ci tel que Card(F G) n et Card(F G) = *Card(G) (o n fonction de Card(G) et 1). Pourquoi faut-il garder F dans l'algorithme et ne pas restreindre G ? Tout simplement parce qu'au moment d'intgrer Em+1 G = {E1,..., Em}, il faut se rappeler que G n'existe que grce F (et en particulier aux quelques lments de F - G qui ont permis de dnombrer suffisamment de circuits de longueurs acceptables pour autoriser tous les lments de G se regrouper). Si Em est le dernier noeud tre entr dans G et cela grce un noeud Ek appartenant F - G, Ek a donc permis l'existence de circuits justifiant G. Si l'on supprime Ek et que l'on cherche maintenant intgrer Em+1 dans G = {E1,..., Em}, il est dj probable que le nombre de circuits a diminu et que Em ne devrait peut-tre dj plus tre dans G. Il n'est pas non plus certain que l'introduction de Em avec la disparition de Ek permette d'intgrer Em+1. Em pourrait par exemple s'avrer inutile l'intgration de Em+1 (il pourrait ne faire apparatre aucun circuit contenant Em+1) tandis que Ek aurait par contre t utile. Ce serait le cas par exemple si Em+1 tait li Ek (donc Em) sans pour autant tre directement li Em. F est-il donc condamn crotre sans cesse? F oui! Mais F - G non, et pour deux raisons: il faut que Card(F G) reste petit ; il faut prfrentiellement tenter d'intgrer G les lments de F G (ce qui fait diminuer Card(F G) en cas de succs).
Soit G un ensemble non vide dentits proches entre eux. Soit E un nouveau entit que lon cherche intgrer G. Soit F lensemble dentits qui appartiennent aux circuits qui ont permis de regrouper les entits de G de telle sorte que F - G soit petit.
105
Dautre part, si les entits taient des maisons, la structure de RPMH donnerait une rpartition des maisons formant de grandes mtropoles (denses, zones en marron) (voir figure 4.10) et des banlieues de villes proches mais un peu moins denses (zones oranges) et puis rapidement la campagne avec quelques villages clairsems avec peu d'habitations (zones jaunes) et encore plus rare ensuite quelques lieux dits de quelques maisons (zones crmes) et puis presque rien sous forme de maisons isoles (zone grise).
Figure 4.10 : Rpartition des zones denses dans une zone urbaine
Il en va un peu de mme pour les entits. En effet, les lments de la zone marron entretiennent de nombreux circuits courts entre eux, mais certains (ceux la priphrie de la zone marron) grce des lments de la zone orange. Ainsi de suite. Quand on est sur un lment de la zone crme, on profite des lments de la zone jaune mais pas des lments de la zone grise car ces derniers sont trop peu nombreux et/ou ncessitent des circuits trop longs. En fait l'algorithme devrait encore pouvoir s'amliorer. Ici nous avons propos Card(F- G) n. Nous pourrons cependant penser qu'il ne serait pas forcement trs gnant que Card(F G) >> n. Ce qui importe est que les lments de F - G ne soient pas "trop loin" de G. Un autre critre de restriction alternatif pourrait donc tre dist(Ek, G) < d o Ek, appartenant F - G, est une entit permettant l'existence de suffisamment de circuits courts autorisant l'intgration de lentit Em+1 G. Plusieurs dfinitions de dist(E, G) sont envisageables, mais il faut encore approfondir cette notion et bien choisir d (not plus loin dG). Peut-tre mme que l'loignement de E G n'est pas le meilleur critre possible. Sur la figure ci-dessus on peut imaginer un cercle vide (disons de la taille du cercle de la zone en marron) que l'on promnerait sur cette figure. L'ide serait alors de compter le nombre de circuits courts dans cette zone circulaire. On la dplacerait pour permettre ainsi l'agrgation des lments ceux dont ils sont les plus proches (cela pourrait constituer les zones de diffrentes couleurs de la figure ci-dessus). G rsulterait ainsi de cette agrgation "en pelure d'oignon" (incluant les lments de la zone marron jusqu' la zone crme, mais pas au del). En rsum: on agrge E G s'il existe suffisamment de circuits courts passant par E et par certains lments de G pour autant que E et ces lments soient une distance courte les uns des autres (correspondant la taille maximale de la zone circulaire). Pour dterminer au mieux cette distance dist(E, G), il suffit de s'imaginer le rsultat final qui est une liste de groupes dentits constituant chacun une acception . Dans une acception il y a un certain nombre dentits smantiquement proches qui entretiennent entre elles des liens. Il s'ensuit que, dans une acception , la distance qui autorise les lments tre ensemble (en plus du nombre suffisant de circuits courts entre eux) est la distance maximale qu'il y a entre deux de ces lments. Donc chaque tape de l'agrgation d'un nouvel lment dans G, nous calculons cette distance maximale (elle sera donc
106
dynamique). Nous choisissons donc de dfinir dist(E, G) et la contrainte sur celle-ci de la faon suivante: dist(E, G) = Inf E'G{d(E, E')} et dist(E, G) dG o dG = diam(G) = SupE1G,E2G{d(E1, E2)} avec plusieurs variantes pour le calcul de d(E1, E2) entre deux entits. d1(E1, E2) = longueur en nombre d'arcs du plus court chemin entre E1 et E2 ; d2(E1, E2) = Prox25(D, t, E1, E2) la probabilit en partant de E1 d'arriver sur E2 au terme d'un parcours de t arcs dans D. Prox(D, t, E1, E2) = [ D t]E1,E2 ; d3(E1, E2) = longueur du plus court chemin entre E1 et E2 o chaque arc <Ei, Ej> est valu par Prox(D, t, E1, E2) ; d4(E1, E2) = distance euclidienne des entits E disposes dans IR3 suite une Analyse en Composante Principale (ACP) applique aux vecteurs E = ([ D t]E,Ei)i=1, Card(D)
Il nous reste fixer les trois paramtres qui ont t introduit prcdemment "s", "l" et "". Autrement dit, nous rpondons aux questions de type : Quel nombre minimal de circuits ? Quelle longueur maximale pour un circuit ? Quelle proportion dlments de G ? Nous svons que si Card(G) = m, il ne peut y avoir plus de 2m - m - 1 circuits entre les lments de G (les arcs sont assimils des artes). Il serait donc trs tonnant que E (entit intgrer dans G) participe autant de circuits. Il doit nanmoins y avoir au moins un circuit (se rappeler que G ne contiendra au dbut qu'un seul lment). Il faudrait donc prendre un nombre s tel que 1 s 2m - m -1 (pour tout m > 1). Pourquoi pas une sorte de moyenne entre ces deux cas extrmes: par exemple s 2m-1. Nous svons que dans G, les lments forment des circuits. Le plus long d'entre eux contient au plus tous les lments de G donc est de longueur Card(G) = m. Si E doit former de nombreux circuits avec les lments de G (ou avec des lments extrieurs G, nanmoins proches de G) alors il ne devra pas tre loin du plus loign d'entre eux (qui se trouve au maximum diam(G) + 1). Ceci nous a permis de proposer lalgorithme suivant :
Nouvel Algorithme propos :
Lentit E intgre les m lments du groupe G si et seulement si il existe Nbre(E) circuits Ci passant par E tels que Nbre(E) 2m-1, i I=[1, Nbre(E)], L(Ci) m, M F= i=1,Nbre(E) Ci, dist(M,G) 1+diam(G). Appliquons ce nouvel algorithme un petit graphe dentits de la figure 4.11. Les rsultats sont rcapituls dans le tableau 4.4.
25
La mthode Prox est une mthode stochastique pour ltude de la structure des RPMH. En fait, nous nous sommes inspirs de cette mthode, propose par [Gaume et al., 2004] dans le cas dun RPMH de mots dun dictionnaire. Cette mthode consiste transformer un graphe RPMH de entits en une chane de Markov dont les tats sont les sommets du graphe en question et ses artes les transitions possibles : une particule en partant linstant t = 0 dune entit e0, se dplace en un pas sur une autre entit e1 lun des voisins de e0 slectionn alatoirement ; la particule se dplace alors nouveau en un pas sur e2, lun des voisins de e1 slectionn alatoirement etc. Si au t-ime pas la particule est sur lentit et elle se dplace alors en un pas sur lentit et+1 qui est slectionn alatoirement parmi les voisins de et avec des probabilits variables. Une trajectoire e1, e2, ..., et, ... ainsi slectionne est une balade alatoire sur le graphe, et ce sont les dynamiques de ces trajectoires qui donnent des proprits structurelles aux graphes tudis [Gaume et Ferr, 2004] [Gaume et Mathieu, 2007]. Par dfinition Prox(G, i, er, es) est la probabilit quen partant linstant t = 0 dune entit er la particule soit linstant t = i sur lentit es.
107
Chapitre 4 : Modle dun SRI base de RPMH et de RP G0 = {E1} m=1 1+diam(G0) = 1 E=E2 car <E1,E2> existe 2m-1 1 Nb(E) 1 car C1={E2,E1} L(C1) = 2 m = 1 F = {E1, E2} si MF alors dist(M, G0) 1 G1 = {E1, E2} m=2 1+diam(G1) = 2 E=E5 car <E1,E5> existe 2m-1 = 2 Nb(E) 2 car C1 = {E5, E1}, C2 = {E5, E1, E'5} L(C1) = 2 m = 2 mais L(C2) = 3 E5 n'integre par G1 G1 = {E1, E2} m=2 1+diam(G1) = 2 E=E3 car <E1,E3> existe 2m-1 = 2 Nb(E) 2 car C1 = {E3, E1}, C2 = {E3, E2} L(C1) = 2 m = 2, L(C2) = 2 2, F = {E1, E2, E3} si MF alors dist(M, G1) 1 1+diam(G1) = 2 G2 = {E1, E2, E3} m=3 1+diam(G2) = 2 E=E4 car <E1,E4> existe 2m-1 3 Nb(E) 3 car C1 = {E4, E1}, C2 = {E4, E2}, C3 = {E4, E3} L(C1) = 2 m = 3, L(C2) = 2 3, L(C3) = 2 3, F = {E1, E2, E3, E4} si MF alors dist(M, G2) 1 1+diam(G2) = 2
G3 = {E1, E2, E3, E4} m=4 1+diam(G3) = 2 E=E'5 car <E1,E'5> existe 2m-1 = 4 Nb(E) 4 car C1 = {E'5, E1}, C2 = {E'5, E4, E1}, C3 = {E'5, E5, E1}, C4 = {E'5, E''5, E1} L(C1) = 2 m = 4, L(C2) = 3 4, L(C3) = 3 4, L(C4) = 3 4. F ={E1,E2,E3,E4,E'5,E''5} si MF alors dist(M, G3) 1 1+diam(E3) = 2
G4 ={E1, E2, E3, E4, E'5} ETC ....
Tableau 4.4 : Rcapitulation des rsultats du nouvel algorithme

E5 E5 E4
E5
E5
E3 E2 E1 E6 E6 E6
E6
E6
Figure 4.11 : Application du nouvel algorithme un graphe RPMH
L'algorithme suggre qu'il n'y a pas 2 composantes pour E1 mais une seule car {E1, E2, E3, E4, E5, E'5, E''5,...} vont se regrouper. Le dessin de la figure 4.12 aurait donc d tre celui de la figure 4.11. 108
E5
E5
E4
E5
E3 E2 E1 E6 E6 E6
E5
E6
E6
Figure 4.12 : Rsultat du groupement dans le RPMH de lexemple
Par contre, il est clair que la composante "E1" ne sera jamais regroupe avec la composante "E6" car il n'y a pas de cycle possible entre elles. Soit D la matrice d'adjacence de ce graphe de 13 entits et soit DD la matrice markovienne de D, explicites comme suit :
Nous calculons DD7 (car en 7 arcs/artes nous avons le temps de parcourir tous les noeuds de la composante "E1" au moins une fois, et un peu plus d'une fois pour ceux de la composante "E6"). DD7 =
! 0.1785334 0.0711515 0.0711515 0.0950763 0.0946581 0.1187209 0.0946581 0.0946581 0.0563950 0.0358364 0.0266622 0.0358364 0.0266622 ! ! 0.1897373 0.0808388 0.0812960 0.1070578 0.0957972 0.1223823 0.0957972 0.0957972 0.0450367 0.0242291 0.0189006 0.0242291 0.0189006 ! ! 0.1897373 0.0812960 0.0808388 0.1070578 0.0957972 0.1223823 0.0957972 0.0957972 0.0450367 0.0242291 0.0189006 0.0242291 0.0189006 ! ! 0.1901527 0.0802933 0.0802933 0.1045816 0.0978215 0.1258854 0.0978215 0.0978215 0.0438645 0.0229295 0.0178028 0.0229295 0.0178028 ! ! 0.1893161 0.0718479 0.0718479 0.0978215 0.1062312 0.1314688 0.1062923 0.1062923 0.0421404 0.0215447 0.0168261 0.0215447 0.0168261 ! ! 0.1899535 0.0734294 0.0734294 0.1007083 0.1051750 0.1296367 0.1051750 0.1051750 0.0419412 0.0212009 0.0164873 0.0212009 0.0164873 ! ! 0.1893161 0.0718479 0.0718479 0.0978215 0.1062923 0.1314688 0.1062312 0.1062923 0.0421404 0.0215447 0.0168261 0.0215447 0.0168261 ! ! 0.1893161 0.0718479 0.0718479 0.0978215 0.1062923 0.1314688 0.1062923 0.1062312 0.0421404 0.0215447 0.0168261 0.0215447 0.0168261 ! ! 0.0902320 0.0270220 0.0270220 0.0350916 0.0337123 0.0419412 0.0337123 0.0337123 0.1617770 0.1468807 0.1110079 0.1468807 0.1110079 ! ! 0.0716727 0.0181718 0.0181718 0.0229295 0.0215447 0.0265011 0.0215447 0.0215447 0.1836008 0.1692541 0.1278745 0.1693151 0.1278745 ! ! 0.0710993 0.0189006 0.0189006 0.0237371 0.0224348 0.0274789 0.0224348 0.0224348 0.1850132 0.1704993 0.1232837 0.1704993 0.1232837 ! ! 0.0716727 0.0181718 0.0181718 0.0229295 0.0215447 0.0265011 0.0215447 0.0215447 0.1836008 0.1693151 0.1278745 0.1692541 0.1278745 ! ! 0.0710993 0.0189006 0.0189006 0.0237371 0.0224348 0.0274789 0.0224348 0.0224348 0.1850132 0.1704993 0.1232837 0.1704993 0.1232837 !
Nous remarquons trs bien les deux composantes (gris pour "E1" et jaune pour "E6"). Autrement dit il n'est pas vraiment ncessaire dutiliser les algorithmes bass sur la recherche de circuits car la matrice DDk permet deffectuer les regroupements recherchs.
109
DD35 =
! 0.1527434 0.0577788 0.0577788 0.0771212 0.0772165 0.0965451 0.0772165 0.0772165 0.0871037 0.0683319 0.0513078 0.0683319 0.0513078 ! ! 0.1540767 0.0584230 0.0584230 0.0780054 0.0781284 0.0781284 0.0781284 0.0957972 0.0855110 0.0666657 0.0500752 0.0666657 0.0500752 ! ! 0.1540767 0.0584230 0.0584230 0.0780054 0.0781284 0.0976920 0.0781284 0.0781284 0.0855110 0.0666657 0.0500752 0.0666657 0.0500752 ! ! 0.1542424 0.0585040 0.0585040 0.0781152 0.0782416 0.0978345 0.0782416 0.0782416 0.0853131 0.0664587 0.0499221 0.0664587 0.0499221 ! ! 0.1544331 0.0585063 0.0585063 0.0782416 0.0783721 0.0979985 0.0783721 0.0783721 0.0850854 0.0662205 0.0497459 0.0662205 0.0497459 ! ! 0.1544722 0.0586152 0.0586152 0.0782676 0.0783988 0.0980322 0.0783988 0.0783988 0.0850386 0.0661716 0.0497097 0.0661716 0.0497097 ! ! 0.1544331 0.0585963 0.0585963 0.0782416 0.0783721 0.0979985 0.0783721 0.0783721 0.0850854 0.0662205 0.0497459 0.0662205 0.0497459 ! ! 0.1544331 0.0585963 0.0585963 0.0782416 0.0783721 0.0979985 0.0783721 0.0783721 0.0850854 0.0662205 0.0497459 0.0662205 0.0497459 ! ! 0.1393659 0.0513066 0.0513066 0.0682505 0.0680683 0.0850386 0.0680683 0.0680683 0.1030828 0.0850483 0.0636737 0.0850483 0.0636737 ! ! 0.1366638 0.0499993 0.0499993 0.0664587 0.0662205 0.0827145 0.0662205 0.0662205 0.1063104 0.0884248 0.0661715 0.0884248 0.0661715 ! ! 0.1368208 0.0500752 0.0500752 0.0665628 0.0663278 0.0828495 0.0663278 0.0663278 0.1061228 0.0882286 0.0660264 0.0882286 0.0660264 ! ! 0.1366638 0.0499993 0.0499993 0.0664587 0.0662205 0.0827145 0.0662205 0.0662205 0.1063104 0.0884248 0.0661715 0.0884248 0.0661715 ! ! 0.1368208 0.0500752 0.0500752 0.0665628 0.0663278 0.0828495 0.0663278 0.0663278 0.1061228 0.0882286 0.0660264 0.0882286 0.0660264 !
DD100 =
! 0.1482038 0.0555825 0.0555825 0.0741110 0.0741121 0.0926404 0.0741121 0.0741121 0.0925262 0.0740046 0.0555041 0.0740046 0.0555041 ! ! 0.1482199 0.0555903 0.0555903 0.0741217 0.0741231 0.0926543 0.0741231 0.0741231 0.0925069 0.0739844 0.0554892 0.0739844 0.0554892 ! ! 0.1482199 0.0555903 0.0555903 0.0741217 0.0741231 0.0926543 0.0741231 0.0741231 0.0925069 0.0739844 0.0554892 0.0739844 0.0554892 ! ! 0.1482219 0.0555912 0.0555912 0.0741230 0.0741245 0.0926560 0.0741245 0.0741245 0.0925045 0.0739819 0.0554874 0.0739819 0.0554874 ! ! 0.1482242 0.0555924 0.0555924 0.0741245 0.0741261 0.0926580 0.0741261 0.0741261 0.0925017 0.0739790 0.0554852 0.0739790 0.0554852 ! ! 0.1482247 0.0555926 0.0555926 0.0741248 0.0741264 0.0926584 0.0741264 0.0741264 0.0925012 0.0739784 0.0554848 0.0739784 0.0554848 ! ! 0.1482242 0.0555924 0.0555924 0.0741245 0.0741261 0.0926580 0.0741261 0.0741261 0.0925017 0.0739790 0.0554852 0.0739790 0.0554852 ! ! 0.1482242 0.0555924 0.0555924 0.0741245 0.0741261 0.0926580 0.0741261 0.0741261 0.0925017 0.0739790 0.0554852 0.0739790 0.0554852 ! ! 0.1480418 0.0555041 0.0555041 0.0740036 0.0740014 0.0925012 0.0740014 0.0740014 0.0927196 0.0742069 0.0556538 0.0742069 0.0556538 ! ! 0.1480091 0.0554883 0.0554883 0.0739819 0.0739790 0.0924730 0.0739790 0.0739790 0.0927586 0.0742478 0.0556841 0.0742478 0.0556841 ! ! 0.1480110 0.0554892 0.0554892 0.0739832 0.0739803 0.0924747 0.0739803 0.0739803 0.0927564 0.0742454 0.0556823 0.0742454 0.0556823 ! ! 0.1480091 0.0554883 0.0554883 0.0739819 0.0739790 0.0924730 0.0739790 0.0739790 0.0927586 0.0742478 0.0556841 0.0742478 0.0556841 ! ! 0.1480110 0.0554892 0.0554892 0.0739832 0.0739803 0.0924747 0.0739803 0.0739803 0.0927564 0.0742454 0.0556823 0.0742454 0.0556823 ! 0.1480091 0.0554883 0.0554883 0.0739819 0.0739790 0.0924730 0.0739790 0.0739790 0.0925012 0.0739784 0.0554848 0.0739784 0.0554852 A B B C C D C C D C B C B
Soient les groupes dentits suivants dduits de la matrice DD100 : A = {E1} B = {E2, E3, E6, E6} C = {E4, E5, E5, E5, E6, E6} D = {E5, E6} En tant parti de n'importe quel noeud et en naviguant assez longtemps dans le graphe on obtient une probabilit de l'ordre de 0.1480091 pour arriver E1. Nous pourrons dire que E1 ne peut pas tre "illumin"/"activ" davantage que 14,8% (un seul exemplaire du groupe dentits A : 1 x 14,8% = 14,8%). Pour les lments de B cela vaut 5,5% (4 exemplaires du groupe dentits B : 4 x 5,55% = 22,2%). Pour ceux du groupe dentits C, cela vaut 7,4% (6 x 7,4% = 44,4%). Pour le groupe D cela vaut 9,25% (2 x 9,25% = 18,5%). Le total fait 99,9%. Pour une puissance de DD moindre, ces valeurs peuvent tre soit plus leves soit quasiment nulles. Les classes les plus importantes (en pourcentage individuel) sont A (14,8%), puis D (9,25%), puis C (7,4%) et enfin B (5,55%). On peut interprter cela en disant que E1 est un noeud d'articulation important (qui concentre les chemins: un "hub"), viennent ensuite plus modestement E'5 et E6. Ces classes de valeurs caractrisent la nature de "hub" d'un noeud et absolument pas son appartenance une mme composante que ceux de sa classe. Notons que dans un 1-graphe complet d'artes sur m sommets, il y a Cm0 = 1 seul cycle 0 arte c'est le cycle vide {}. L'ensemble des cycles une arte, c'est l'ensemble de toutes les boucles de chaque sommet sur lui mme, il y en a Cm1 = m {E1},...,{Em}. Il y a Cm2 = m(m1)/2 cycles 2 artes est {E1, E2}, {E1, E3}, ... , {E1, Em}, {E2, E3}, ... , {Em-1, Em}, etc. et il y a Cmm = 1 seul cycle m artes. Si l'on enlve les cycles 0 arte et ceux 1 arte, il y a au plus 2m - m - 1 cycles dans un graphe m sommets. Un cycle se caractrise par son nombre d'artes, c'est--dire de sommets diffrents le constituant. Par exemple, dans un cycle 1 seul sommet apparat 2 fois, les autres n'apparaissent qu'une seule fois. E1-E2-E3-E1 not {E1, E2,
110
E3} est de longueur 3 mais E3-E1-E3-E4-E5-E3 ne sera pas considr comme un cycle de longueur 5.
2.3 Conclusion
Nous avons prsent une approche gnrique permettant une exploitation automatique dun rseau dinformations afin d'extraire les composantes de sens associes une entit donne en se basant sur l'tude des circuits dans le graphe associ une large collection dentit de mme espce (mot dun dictionnaire ou page Web). Dans le cas dun dictionnaire, ce graphe est structur sous la forme dun RPMH, o les groupements de sens ainsi que leurs fusions reprsentent respectivement les sous petits mondes et les petits mondes de sens associs un mot donne. Cette tude a donn naissance une interface utilisateur permettant ce dernier dentrer un mot (initiale) puis deffectuer toutes les tapes dcrites prcdemment pour renvoyer les diffrentes composantes de sens associes ce mot. En fait, cette tape nous a t trs utile dans le processus de la reformulation smantique de la requte dans le systme SARIPOD qui sera dtaille dans le chapitre suivant. Les rsultats obtenus lors de la phase de test (voir annexe 3 pour le cas de dictionnaire) nous permettent daffirmer quune mme composante de sens contient rarement des mots ayant des sens diffrents [Elayeb et al., 2007c]. Cependant, un mme sens peut couramment se retrouver dans deux composantes diffrentes. Chaque composante correspond ainsi une nuance de lacception du mot initial. Cest le cas du verbe garder par exemple auquel correspondent les quatre composantes suivantes : {<prserver, pargner, viter, sauver, garantir, protger, conserver>, <conserver, maintenir, prserver>, <conserver, maintenir, retenir>, <retenir, viter, empcher>}. Nous remarquons que la composante la plus fournie est celle correspondant lacception la plus courante du mot initial. Par ailleurs, un mme mot peut se retrouver dans deux composantes diffrentes dsignant chacune une nuance. Lexemple du verbe peser illustre nos dires de faon plus claire puisque lessai lui associe les composantes suivantes : {<examiner, juger, considrer, apprcier, tudier, calculer, approfondir, estimer>, <conserver, maintenir, prserver>, <importuner, presser, harceler>, <importuner, fatiguer, ennuyer>, <valuer, valoir, examiner>}. Dautre part, cette approche offre lutilisateur la possibilit de paramtrer sa recherche de composantes. Ainsi, peut-il choisir lui-mme la valeur du seuil dacceptation et la longueur limite des circuits prendre en compte. Bien videmment, ceci requiert de lutilisateur une expertise aussi bien en informatique quen linguistique. Ceci nous a pousss envisager une solution dans laquelle le seuil dacceptation est calcul automatiquement partir de la matrice des circuits communs. Cette solution ne ncessite aucune expertise du ct de lutilisateur et peut donc tre exploite par nimporte qui. Toutefois, la valeur calcule ne produit pas toujours les meilleurs rsultats cause de la variation de la rpartition de la densit darcs dans le graphe. Les rsultats obtenus dans [Elayeb et al., 2007bc] semblent encourageants et correspondent souvent aux diffrentes acceptions du mot tudier. Cependant, la notion de "sens" est assez complexe et ambigu en linguistique et certaines nuances de sens semblent trs difficiles cerner. Par ailleurs, la construction du dictionnaire que nous avons utilis pose quelques problmes pour certains mots. Il est clair qu'un verbe comme faire (ou prendre, etc.) ne porte pas luimme le sens mais cest plutt le rle du groupe nominal qui le suit (faire le malin, faire mal, faire semblant, etc.). Or, les diffrentes acceptions sont associes faire sans tenir compte du groupe nominal qui suit. Par consquent, faire devient un verbe polysmique par excellence et se retrouve aussi bien comme synonyme de violenter (faire mal) que de procrer (faire un 111
enfant). Nous avons adopt la solution radicale consistant liminer ce type de verbes de notre tude afin de minimiser les erreurs rsultant de leur usage. Dautre part, le mme type de problme a t voqu avec les noms. Par exemple, le mot prise est un mot polysmique dsignant les trois sens diffrents : prise de bec , prise de judo et prise lectrique , etc. Dans le domaine des pages Web, nous obtenons aussi des rsultats encourageants (voir les tests en annexe 4). En fait, cette approche gnrique nous a permi de crer des groupements des pages Web sous la forme de sous petits modes et de petits mondes des thmes ou sens commun . Lutilisateur peut naviguer partir de nimporte quelle page de ce rseau tout en visitant les autres pages hypertextuellement lies et thmatiquement proches de sa page Web de dpart. Enfin, nous estimons que le choix du seuil dacceptation est crucial et quune attention particulire doit lui tre prte. En effet, les rsultats sont troitement lis la valeur de ce seuil et en dpendent donc grandement. Il semble primordial de trouver une mthode robuste permettant de dterminer une valeur optimale du seuil dacceptation en fonction du mot tudi et de ses connexions. Une tude statistique de la variation du seuil et ses effets sur les rsultats sont envisageables.
3. Le Rseau Possibiliste du systme SARIPOD

La mise en correspondance entre les deux RPMH du systme SARIPOD est effectue par le biais dun rseau possibiliste dont les nuds sont, dune part les termes du RPMH de dictionnaire et dautre part les documents du RPMH de pages Web. Notre objectif consiste grer une approche base sur les mesures de ncessit et de possibilit dans un modle de Recherche dInformation (RI). En effet, lappariement de ces deux RPMH via un rseau possibiliste permet de calculer les degrs de pertinence possibilistes des documents suivant deux critres, lun quantitatif et lautre qualitatif. En fait, nous avons appliqu l'approche quantitative de [Brini et al., 2004abc] [Brini et al., 2005ab] prsente dans le chapitre 3, non pas la totalit d'un document, mais ses entits logiques, obtenues suite au processus danalyse de document permettant de gnrer les fragments logiques de chaque page Web retrouve (voir dtail dans le chapitre suivant). Les fragments logiques retenus dans le tableau 4.5 sont obtenus suite une phase dapprentissage ralise sur la base de test contenant 974 documents HTML (voir dtail dans le dernier chapitre de la ralisation). En fait, nous avons remarqu que la majorit de ces documents possdent une ou plusieurs de ces fragements logiques retenus. La qualit dun document rside dans le poids de chaque fragment logique par rapport aux dsires de lutilisateur. Pour cela, nous attribuons un coefficient de pertinence possibiliste chaque entit (ou fragment) logique selon son importance dans le document Web. Ces coefficients reprsentent la premire partie des prfrences de lutilisateur et sont calculs de la manire suivante :
NM = NM + Max(Lgendes, Paragraphe) Ni = NM Ni + Max(Lgendes, Paragraphe)
(4.1) (4.2)
O NM est le niveau maximal dtect dans le document et Ni est le niveau de la ime entit logique. Par ailleurs, les prfrences de lutilisateur du systme SARIPOD sont dfinies comme tant la qualit du document quil recherche; cest--dire ses prfrences pour certains fragments
112
logiques dans les documents recherchs : des informations situes soit dans le titre principal du document, soit dans les sous-titres, soit dans les paragraphes, etc. ainsi que ses prfrences pour certains types dinformations : informations dans des figures, dans des tableaux ou sous forme de squences multimdia (voir tableau 4.5).
Entit logique du document Web NiveauMax (NM=5) NM - 1 NM - 2 NM - 3 NM - 4 Lgende Figure (LF) Lgende Tableau (LT) Lgende Squence Multimdia (LSM) Paragraphe (P) coefficient de pertinence possibiliste (j) 5 +5 = 10 5 -1+5 = 9 5-2+5 = 8 5-3+5 = 7 5-4+5 = 6 5 4 3 2
Tableau 4.5 : Coefficient de pertinence possibiliste de chaque entit logique
La pertinence quantitative de chaque entit logique d'un document (ELdj) de la collection, sachant que la requte est Q = (t1, t2, , tT), est calcule de la manire suivante: D'aprs la formule (3.36) du chapitre 3, (ELdj|Q) est alors proportionnel : (ELdj|Q) = (t1| ELdj)** (tT| ELdj) = nft1j ** nftTj (4.3)
Avec nftij = tfij /max(tfkj): frquence normalise des termes de la requte dans lentit logique. La certitude de restituer une entit logique d'un document pertinent dj (ELdj) pour une requte, note N(ELdj|Q), est donne par : N(ELdj|Q) = 1- (ELdj|Q) Avec : (ELdj|Q) = ((Q|ELdj)* (ELdj))/(Q) De mme (ELdj|Q) est alors proportionnel : (ELdj|Q) = (t1| ELdj)* *(tT|ELdj) Ce numrateur peut tre exprim par : (ELdj|Q) = (1- EL1j)** (1- ELTj) Avec : ELij = Log10(nCEL/nELdi)*(nftij) O : nCEL = nombre dentits logiques des documents de la collection, nELdi = nombre dentits logiques des documents de la collection contenant le terme ti, Nous dfinissons le degr de pertinence possibiliste mixte de chaque entit logique d'un document di (ELdi) par : DPMEL(di) = (ELdi|Q) + N(ELdi|Q) (4.9) (4.8) (4.7) (4.4) (4.5) (4.6)
113
Enfin, nous dfinissons le degr de pertinence possibiliste mixte du document di par: DPM(di) = j (j * DPMELj(di)) (4.10)
Les documents prfrs sont ceux qui ont une valeur DPM(di) leve. En fait, les coefficients j de pertinence possibiliste sont paramtrs dans SARIPOD et peuvent tre modifis selon les prfrences de lutilisateur. Par exemple, si nous cherchons des documents ayant des figures contenant le mot M , il suffit de donner la plus grande importance au coefficient de pertinence possibiliste correspondant lentit logique lgende figure (LF). En consquence les DPM(di) de ces documents seront les plus importants et seront affichs en tte de la liste trie des documents recherchs [Elayeb et al., 2006].
3.1 Apport de lapproche qualitative du systme SARIPOD

Considrons une mini-collection de 3 documents contenant des termes t1, t2, t3 et t4 : d1 = {t1, t1, t1, t2, t2, t3}, d2 = {t1, t1, t2, t2, t2, t2}, d3 = {t1, t3, t3, t3, t3, t4, t4} Ces termes sont rpartis sur les entits logiques de ces trois documents comme lindique le tableau 4.6. Notons le degr de pertinence possibiliste mixte (quantitative et qualitative) de chaque document di par DPM(di). Par ailleurs, lapproche quantitative ne tient pas compte des emplacements des termes de la requte Q dans les entits logiques des documents de la collection. Soit DPP(di), le degr de pertinence possibiliste de chaque document di calcul par cette approche [Elayeb et al., 2009]. Lvaluation des documents d1, d2 et d3 pour la requte Q = (t1, t2, t3, t4) donne (nous ne donnons que le calcul non trivial de notre approche pour les prfrences 1) : ELj {NM, (NM-1), (NM-2), (NM-3), (NM-4), LF, LT, LSM, P}, i=1, 2, 3 (ELjdi|Q) = 0, N(NMd1|Q) = N(Pd1|Q) = 0.18, N((NM-1)d1|Q) = N((NM-4)d1|Q) = N(LTd1|Q) = N((NM-3)d2|Q) = N(LSMd2|Q) = N((NM-2)d3|Q) = N(LFd3|Q) = N(NMd3|Q) = 0.48, N(NMd2|Q) = N(Pd2|Q) = 0.58, N((NM-1)d3|Q) = N(Pd3|Q) = 0.73.
Entit logique du document Niveau maximal (NM) NM-1 NM-2 NM-3 NM-4 Lgende Figure (LF) Lgende Tableau (LT) Lgende Squence Multimdia (LSM) paragraphe (P) d1 t1 t2 d2 t1, t2 d3 t4 t1, t3 t3
t2 t3 t3 t2 t1, t1 t2 t1, t2 t3, t4
Tableau 4.6 : Rpartition des termes dans les entits logiques des trois documents
114
Chapitre 4 : Modle dun SRI base de RPMH et de RP Coefficients j Prfrences 1 (P1) Coefficients j Prfrences 2 (P2) Coefficients j Prfrences 3 (P3)
Prfrences de lutilisateur Entit logique du document
Niveau maximal (NM) NM-1 NM-2 NM-3 NM-4 Lgende Figure (LF) Lgende Tableau (LT) Lgende Squence Multimdia (LSM) paragraphe (P)
10 9 8 7 6 5 4 3 2
2 5 6 9 7 3 4 10 8
2 8 6 4 9 7 10 5 3
Tableau 4.7 : Les trois prfrences de lutilisateur du systme SARIPOD

Prfrences 1 (P1) d1 [Brini et al., 2005a] : DPP(di) Ordre de documents pertinence de 0,16 3 11,28 de 3 d2 0,18 2 11,76 2 d3 0,24 1 19,07 1 Prfrences 2 (P2) d1 0,16 3 9,48 3 d2 0,18 2 14,92 1 d3 0,24 1 14,77 2 Prfrences 3 (P3) d1 0,16 3 13,86 2 d2 0,18 2 7,22 3 d3 0,24 1 15,23 1
SARIPOD : DPM(di) Ordre de documents pertinence
Tableau 4.8 : Rsultats de lapproche qualitative du systme SARIPOD
La requte Q, interprte comme une conjonction de termes serait trop restrictive, puisque aucun document de la collection ne contient les quatre termes la fois. La ncessit et la possibilit d'avoir un des documents de cette collection comme rsultat sont nulles. Pour viter d'obtenir une liste vide de documents rsultats, nous cherchons les documents qui contiennent au moins deux termes de la requte puis au moins un terme (si aucun document de la collection ne contient deux termes); ici, avec un seul terme, la possibilit de tous les documents vaut 1 et leur ncessit vaudra 0. Nous cherchons alors les documents qui traitent des ensembles {t1, t2} ou {t1, t4}, ou {t2, t4}. Nous voyons travers cet exemple, la ncessit de permettre l'utilisateur d'exprimer des prfrences entre les termes de la requte (cf. section 3.2). Dautre part, nous remarquons que notre approche est plus fine que lapproche quantitative dans le calcul des pertinences possibilistes des documents de la collection car nous avons contribu augmenter les scores des pertinences des documents contenant ces termes dans le but de pnaliser les scores de pertinence des documents ne les contenant pas. Notons aussi que les scores des pertinences possibilistes des trois documents, calculs par lapproche quantitative sont trs faibles par rapport ceux calculs par notre approche et ceci grce aux coefficients de pertinence j, facteurs primordiaux dans notre approche qualitative. En effet, et pour les prfrences 1 de lutilisateur, les diffrences de scores sont faibles dans la premire approche (0,02 ; 0,08 et 0,06) cause dune faible diffrence dans le nombre de termes de chaque document (6 ; 6 ; et 7) alors que dans le cas de notre approche, ils sont 115
beaucoup plus remarquables (0,48 ; 7,79 et 7,31), ce qui montre bien la diffrence entre un document pertinent par rapport ceux qui sont moins pertinents dans la collection. Pour l'exemple de cette requte Q et pour certaines prfrences, lordre de pertinence de documents change en changeant les prfrences de lutilisateur. En effet, dans le cas de prfrences 1 (P1), le document d3 est prfr aux documents d2 et d1 dans les deux approches. Ceci est d au nombre de termes figurant dans d3 dune part (pour les deux approches), et au terme t4 figurant dans une entit logique de poids important (pour notre approche). Alors que pour les deux autres prfrences (P2 et P3), lordre de pertinence de documents change par rapport aux premires prfrences (P1). En fait, et selon notre approche, le document le plus pertinent est celui dont les termes de la requte existent dans ses entits logiques possdant des coefficients de pertinence j importants tels que le niveau maximal (NM) et (NM-1) pour les prfrences 1, LSM et (NM-3) pour les prfrences 2, LT et (NM-4) pour les prfrences 3, etc (voir tableau 4.7). Suite notre nouvelle approche, nous avons remarqu que mme si les termes choisis tendent slectionner ce document, ces termes ne sont pas les plus frquents dans le document (le terme t4 nest pas le plus frquent dans d3 alors quil a fortement contribu dans laugmentation du score de d3), ce qui montre latout de lapproche qualitative du systme SARIPOD dans la slection des documents pertinents [Elayeb et al., 2008, 2009].
3.2 Pondration des termes de la requte dans le systme SARIPOD

Lors de la reformulation de sa requte, lutilisateur choisi, pour chaque terme de sa requte initiale, un nombre de termes smantiquement proches ajouter pour la contruction de sa requte reformule. Ces termes sont extraits des classes de sens construites dans le RPMH de dictionnaire. En fait, ces prfrences entre les termes de la requte reprsentent la seconde partie des prfrences proposes par lutilisateur au systme. Considrons une requte Q(t1, t2, t3) compose de trois termes. Elle deviendra, aprs reformulation, la requte Q(t1, t11, t12, t13, t2, t3, t31, t32), o t11, t12, t13 sont les trois termes les plus proches de t1 et t31, t32 sont les deux termes les plus proches de t3. En fait, ces termes proches sont insrs dans Q chaque fois que lutilisateur saisit un nombre de termes proches pour un terme donn de la requte Q. Nous dfinissons le degr de prfrence (pondration) de lutilisateur dun terme ti par rapport aux autres termes de la requte par :
Prf(ti) = [Nbre termes proches choisis pour ti dans Q / Nbre termes de Q] + 1
(4.11)
Ici nous ajoutons le facteur 1 pour viter que les prfrences des termes pour lesquels nous navons pas choisi de termes proches soient nulles. Pour lexemple du paragraphe prcdent nous avons : Prf(t1) = 3/3 +1 = 2 ; Prf(t11) = 0 +1 = 1 ; Prf(t12) = 0 +1 = 1 Prf(t13) = 0 +1 = 1 ; Prf(t2) = 0 +1 = 1 ; Prf(t3) = 2/3 +1 = 5/3 Prf(t31) = 0 +1 =1 ; Prf(t32) = 0 +1 =1 Il est clair ici que le terme t1 est plus prfrable que t3 et t2 ; parce que lutilisateur a choisi un nombre plus important de mots smantiquement proches de t1, ce qui prouve bien quil sagit dun terme dappui sa requte. Le terme t3 est aussi prfrable au terme t2 car lutilisateur na pas demand de mots proches de t2 pour en prciser le sens. Ainsi, les prfrences calcules ici sont bien conformes avec le profil de lutilisateur, parce que pour ce dernier le terme le plus important est celui dont il cherche le maximum de termes
116
proches. De cette manire, nous introduisons ces prfrences entre les termes de la requte dans notre modle possibiliste de la manire suivante [Elayeb et al., 2008] : La pertinence quantitative de chaque entit logique d'un document (ELdj) de la collection, sachant que la requte est Q = (t1, t2, , tT), est calcule de la manire suivante: La formule (4.3) de la section prcdente devient [Elayeb et al., 2009]: (ELdj|Q) = (t1| ELdj)*Prf(t1)** (tT| ELdj)* Prf(tT) = nft1j * Prf(t1)** nftTj* Prf(tT) (4.12)
Avec nftij = tfij/max (tfkj): frquence normalise des termes de la requte dans lentit logique. La certitude de restituer une entit logique d'un document pertinent dj (ELdj) pour une requte, note N(ELdj|Q), est donne de faon analogue celle prsente dans la section prcdente, sauf que la formule (4.7) devient : (ELdj|Q) = [(1- EL1j)/Prf(t1)]** [(1- ELTj)/Prf(tT)] (4.13) En fait, nous avons bien introduit le facteur Prf(ti) dans le calcul de la possibilit ainsi que de la ncessit, parce que ce facteur est bien li aux frquences normalises des termes (nftij) dans le document recherch.
Exemple.
Considrons une mini-collection de 3 documents d1, d2 et d3 : d1 = {t1, t1, t1, t11, t11, t12, t12, t12, t13, t2, t2, t3, t31}, d2 = {t1, t1, t1, t11, t11, t12, t12, t12, t13, t2, t2, t3, t32}, d3 = {t1, t11, t11, t12, t12, t2, t2, t3, t31, t32, t32} Ces termes sont rpartis sur les entits logiques de ces trois documents comme lindique le tableau 4.9. Lvaluation des documents d1, d2 et d3 pour la requte Q(t1, t11, t12, t13, t2, t3, t31, t32) donne (nous ne donnons que le calcul non trivial pour les prfrences 1) : ELj {NM, (NM-1), (NM-2), (NM-3), (NM-4), LF, LT, LSM, P}, i=1, 2, 3 (ELjdi|Q) = Prf(ELjdi|Q) = 0, N(NMd1|Q) = 0.48, NPrf(NMd1|Q) = 0.73, N(Pd1|Q) = 0.94, NPrf(Pd1|Q) = 0.96, N(Pd2|Q) = 0.82, NPrf(Pd2|Q) = 0.94, N(LSMd3|Q) = 0.73, NPrf(LSMd3|Q) = 0.84, N(Pd3|Q) = 0.18, NPrf(Pd3|Q) = 0.5,
Entit logique du document Niveau Maximal (NM) NM-1 NM-2 NM-3 NM-4 Lgende Figure (LF) Lgende Tableau (LT) Lgende Squence Multimdia (LSM) paragraphe (P) d1 t1, t2 d2 t1, t3 d3 t1, t32 t2
t12 t12 t31 t11 t1, t12 t1, t2, t13, t31, t12, t3, t11 t11 t13, t12 t1, t1, t2, t2, t32, t11, t12 t3, t32 t11, t11, t12, t12, t2
Tableau 4.9 : Rpartition des termes dans les entits logiques des trois documents
117
Chapitre 4 : Modle dun SRI base de RPMH et de RP Coefficients j Prfrences 1 (P1) Coefficients j Prfrences 2 (P2) Coefficients j Prfrences 3 (P3)
Prfrences de lutilisateur Entit logique du document
Niveau maximal (NM) NM-1 NM-2 NM-3 NM-4 Lgende Figure (LF) Lgende Tableau (LT) Lgende Squence Multimdia (LSM) paragraphe (P)
10 9 8 7 6 5 4 3 2
2 6 5 10 4 3 9 7 8
2 10 4 7 9 3 6 5 8
Tableau 4.10 : Les trois prfrences de lutilisateur du systme SARIPOD

Prfrences 1 (P1) d1 Sans prfrences termes de la requte Ordre de documents entre 14,66 d2 13,46 d3 14,55 Prfrences 2 (P2) d1 16,38 d2 20,7 d3 12,31 Prfrences 3 (P3) d1 14,74 d2 16,66 d3 15,17
pertinence
de
1 17,8
3 17,3
2 18,02
2 18,44
1 26,38
3 16,14
3 16,4
1 22,34
2 18,78
Avec prfrences termes de la requte Ordre de documents
entre
pertinence
de
Tableau 4.11 : Rsultats de leffet de lajout de prfrences entre termes de la requte
Le systme SARIPOD enregistre les prfrences (pondrations) entre les termes de la requte lors de linteraction de lutilisateur avec le systme. En fait, ces prfrences entrent bien dans le cadre de la dfinition de son profil au systme. Les rsultats collects dans le tableau 4.11 montrent bien limportance de la dfinition des prfrences entre les termes de la requte utilisateur pour le cas de prfrences 1 (P1). En effet, ce facteur a t introduit comme un facteur multiplicatif dans le calcul de la possibilit et comme un quotient dans le calcul de la ncessit ; ce qui permet en consquence daugmenter les deux scores de la possibilit et de la ncessit la fois. En cas du non prise en compte de pondrations des termes et pour les trois prfrences du tableau 4.10, lordre de pertinence de documents change en passant de prfrences des autres. Alors quen cas de la prise en compte de ces pondrations, uniquement les prfrences 1 savrent significatives et contribuent au changement de lordre de pertinence de documents. Ceci grce au terme t1 (de prfrence 2 et existant dans une entit logique de poids 10) et au terme t2 (existant dans une entit logique de poids 9) qui ont contribu laugmentation du score de d3 par rapport aux autres. Pour les deux autres prfrences P2 et P3, le terme le plus prfrable (t1) existe dans une entit logique de poids 2 ; cest pour cette raison le facteur Prf(t1) na pas fait les diffrences dans les scores des documents. Il sagit,
118
en fait, dun facteur qui dpend de coefficients de pertinence possibiliste pour dfinir le profil de lutilisateur du systme. Globalement, linsertion des facteurs Prf(ti) dans les calculs des possibilits et des ncessits, consiste augmenter les scores de pertinences possibilistes des documents contenant ces termes dans le but de pnaliser les scores de pertinences des documents ne les contenant pas. La pnalisation et laugmentation des scores sont proportionnelles au pouvoir des termes discriminer entre les documents de la collection. Dautre part, ces pondrations permettent de restituer des documents classs par prfrence de pertinence. Il est possible dans ce cas dvaluer quel point un document d1 est prfr au document d2 ou de mesurer la prfrence du document d1 par rapport un ensemble de documents {d3, d4}. En fait, ces facteurs Prf sont plus efficaces que le facteur idf, puisque la distribution des termes dans la collection de documents ne dpend pas seulement de la prsence ou de labsence des termes dans les documents de la collection (comme idf), mais de la distribution de leur densit dans les documents de la collection. Ainsi, compar idf, ces mesures sont plus performantes pour la discrimination ngative.
4. Travaux similaires notre approche

Lide de base de la mthode de [Gaume et al., 2004] est de considrer quun dictionnaire est un graphe non orient dont les mots sont les sommets et tel quil existe un arc entre deux sommets si lun apparat dans la dfinition de lautre. Plus prcisment, le graphe du dictionnaire encode deux types dinformations lexicographiques : les dfinitions qui dcrivent les diffrentes acceptions de chaque vedette au moyen de squences langagires ; la structure des articles qui organise ces sous sens. Selon [Gaume et al., 2004], la nature hirarchique des dictionnaires (distribution des degrs dincidence des sommets en loi de puissance) est une consquence du rle de lhyperonymie associe la polysmie de certains sommets, alors que le fort C (existence de zones denses en artes) reflte le rle de la cohyponymie [Duvignau, 2002], [Duvignau, 2003], [Gaume et al., 2002]. Par exemple, le mot corps se trouve dans de nombreux dfinissants (tte, chimie, peau, division). De ce fait, le sommet corps a une forte incidence. Dautre part, les auteurs constatent quil existe de nombreux triangles par exemple : {corce, enveloppe}, {corce, peau}, {peau, enveloppe}, ce qui favorise les zones denses en artes et plus prcisment un fort taux de clustering C. Par ailleurs, les auteurs ont prsent une mthode pour dsambiguser une entre de dictionnaire en utilisant la notion de distance smantique introduite par [Veronis et Ide, 1990] [Ide et Vronis, 1998] [Resnik et Yarowsky, 2000]. Ils ont dfini la tche comme suit : soit un lemme qui apparat dans la dfinition de lun des sens dun mot, considr comme un nud du graphe. Le but tant donc dassocier avec le sens le plus probable quil a dans ce contexte. Chaque entre du dictionnaire est code par un arbre de sous-sens dans le graphe du dictionnaire, avec une liste de nombres correspondants chaque niveau de sous-sens caractristique. Soit un graphe non orient G = (V, E) dfinit par la donne dun ensemble non vide fini V de sommets, et dun ensemble E de paires de sommets formant des artes. Si larte {r, s}E on dit que les sommets r et s sont voisins, le nombre de voisins dun sommet r est d(r) son degr dincidence.
119
Soit [ G ] la matrice n n de transition de la chane de Markov homogne dont les tats sont les sommets du graphe en question telle que la probabilit de passer dun sommet rV linstant i vers un sommet sV linstant i+1 est gale : [ G ]r,s = 0 si {r, s} E (s nest pas un voisin de r) ; [ G ]r,s = 1/d(r) si {r, s} E (s est un des d(r) voisins de r qui sont tous quiprobables). Gaume et al. ont appliqu lalgorithme suivant : 1. 2. 3. 4. On supprime les voisins de dans G de sorte que x V, [G],x = [G]x, = 0 ; On calcule [ G ]i ; pour un i bien dfini (par exemple i = 6) ; Soit L, le vecteur ligne de alors k, L[k] = [ G ]i,k ; Soit F = {x1, x2, , xn} les nuds correspondant tous les sous-sens de la dfinition de .On prend alors xk = argmaxxF (L[x])
xk est alors le sous-sens le plus proche du nud , par rapport la mesure Prox. Deux tapes demandent un peu plus dexplication :
1. Les voisins sont supprims pour ne pas laisser un biais favorable aux sous-sens de , qui formeraient alors une sorte de cluster artificiel par rapport la tche donne. Ainsi la marche alatoire dans le graphe peut vraiment avoir lieu dans le graphe plus gnral des autres sens. 2. Choisir une bonne valeur pour la longueur de la marche alatoire nest pas simple, et est le facteur essentiel de la russite de la procdure. Si elle est trop petite, seules les relations locales vont apparatre (synonymes proches, etc.) et ils peuvent ne pas apparatre dans les contextes dsambiguser (cest notamment le problme de la mthode de [Lesk, 1986]) ; si la valeur de i est trop grande par contre, les distances entre tous les mots tendent converger vers une constante, faisant disparatre les diffrences. Cette valeur doit donc tre relie dune faon ou dune autre la distance moyenne entre deux sens quelconques du graphe. Une hypothse raisonnable est donc de rester proche de cette valeur, et les auteurs ont pris le nombre 6, la moyenne calcule tant de 5,21 (sur le graphe contenant tous les sous-sens, pas sur celui ne contenant que les entres, pour lequel L = 3,3). Ainsi, lapproche prsente une mthode de dsambigusation dans laquelle le sens est dtermin en utilisant un dictionnaire. La mthode est base sur un algorithme qui calcule une distance smantique entre les mots du dictionnaire en prenant en compte la topologie complte du dictionnaire, vu comme un graphe sur ses entres. La mthode, ne ncessitant pas de corpus annot, est teste sur la dsambigusation des dfinitions du dictionnaire ellesmmes. A notre connaissance, les travaux qui concernent la prise en compte des proximits smamtiques entre les mots nuds dun graphe de dictionnaire pour la reformulation smantique de requtes sont limits. Cet aspect est important considrer puisquil peut apporter un gain dans la finalisation de la requte reformule dans un SRI. Le modle de SRI base de deux RPMH que nous proposons est bien adapt pour reprsenter les requtes et les documents, pour construire lensemble des connaissances et pour dfinir une stratgie de recherche plus fine et plus pertinente. La stratgie propose se base sur une mise en correspondance par le biais de Rseaux Possibilistes. En effet, nous choisissons de mixer principalement deux approches possibilistes lune quantitative propose par [Brini et al., 2004abc] et lautre qualitative.
120
Lapproche qualitative que nous proposons est base sur la fragmentation logique des documents. En fait, le systme ne se limite pas uniquement lexistence ou non des termes de la requte dans les documents, mais il sintresse aussi ses emplacements dans les fragments logiques des documents. Cette approche introduit lutilisateur dans le processus du choix de la qualit de ses documents recherchs. Dans ce cas le rsultat de la recherche change de prfrences utilisateurs des autres. Lapproche quantitative est plus adapte pour la reprsentation des documents dont les poids des leurs fragments logiques sont identiques et particulirement quand il sagit des utilisateurs ne possdant pas des prfrences dans la qualit des leurs documents recherchs. Autrement dit, le systme se limite dans ce cas la vrification de lexistence ou non des termes de la requte dans les documents recherchs. En consquence, le rsultat de la recherche ne change pas lors du passage de prfrences des autres. Lide que nous voulons dvelopper dans le systme propos est de faire combiner le modle de requte et le modle de document par le biais dun rseau possibiliste mixant les deux approches possibilistes quantitative et qualitative pour tirer profit des avantages et des points forts de chacun par rapport au contexte utilis :

Reformulation smantique de requtes, Recherche dans les fragments logiques des documents, Recherche intelligente possibiliste, Recherche prcise, Recherche exploratoire.
Nous dveloppons davantage ces ides dans le chapitre suivant (Chapitre 5).
5. Conclusion
Nous avons prsent dans ce chapitre les choix, en les argumentants, que nous avons effectus pour satisfaire les objectifs fixs. Ces derniers se rsument dans la proposition dun SRI intelligent, adaptative, flexibilite et dynamique. En effet, loriginalit du modle propos se dcline selon les trois volets suivants qui synthtisent nos contributions : Le premier volet sintresse au processus itratif de la reformulation smantique de requtes. Cette technique est base de relations de dpendance entre les termes de la requte. Nous valuons notamment les proximits des mots du dictionnaire franais Le Grand Robert par rapport aux termes de la requte. Ces proximits sont calcules par le biais de notre approche de recherche des composantes de sens dans un RPMH de dictionnaire de mots par application dune mthode base sur le dnombrement des circuits dans le rseau. En fait, lutilisateur du systme propos choisit le nombre de mots smantiquement proches quil dsire ajouter chaque terme de sa requte originelle pour construire sa requte reformule smantiquement. Cette dernire reprsente la premire partie de son profil quil propose au systme. La seconde partie de son profil est constitue des choix des coefficients de pertinence possibilistes affects aux entits logiques des documents de la collection. Ainsi, notre systme tient compte des profils dynamiques des utilisateurs au fur et mesure que ces derniers utilisent le systme. Ce dernier est caractris par son intelligence, son adaptativit, sa flexibilit et sa dynamicit. Le second volet consiste proposer des relations de dpendance entre les documents recherchs dans un cadre ordinal. Ces relations de dpendance entre ces documents traduisent les liens smantiques ou statistiques valuant les distributions des termes communs des paires ou ensembles de documents. Afin de quantifier ces relations, nous nous sommes bass
121
sur les calculs des proximits entres ces documents par application dune mthode de dnombrement de circuits dans le RPMH de pages Web. En effet, les documents peuvent ainsi tre regroups dans des classes communes (groupes de documents thmatiquement proches). Le troisime volet concerne la dfinition des relations de dpendance, entre les termes de la requte et les documents recherchs, dans un cadre qualitatif. Les valeurs affectes ces relations traduisent des ordres partiels de prfrence. En fait, la thorie des possibilits offre deux cadres de travail : le cadre qualitatif ou ordinal et le cadre quantitatif. Nous avons propos notre modle dans un cadre ordinal. Ainsi, des prfrences entre les termes de la requte se sont ajoutes notre modle de base. Ces prfrences permettent de restituer des documents classs par prfrence de pertinence. Nous avons mesur aussi lapport de ces facteurs de prfrence dans laugmentation des scores de pertinence des documents contenant ces termes dans le but de pnaliser les scores de pertinence des documents ne les contenant pas. Nous prsentons dans le chapitre suivant la spcification et la conception du systme propos. Nous expliquerons davantage le rle de chaque composante du systme et son apport par rapport la recherche.
122
Chapitre 5 : Spcification et Conception du systme SARIPOD
Chapitre 5
Spcification et conception du systme SARIPOD
La satisfaction dune demande dinformation est devenue la fois plus facile et plus complique. Elle est devenue plus facile dans la mesure o grce lmergence de nouvelles sources de donnes, comme le rseau international appel Internet, chacun, en principe, peut avoir accs une source dinformations inpuisable. Cependant, la masse norme dinformations disponibles sur Internet, mme sur un intranet ou un Data Warehouse, qui semble premire vue tre sa force majeure, est en mme temps lune de ses faiblesses. La quantit dinformations la disposition de lutilisateur, gnralement un dcideur, est trop grande : linformation recherche est probablement disponible quelque part, mais il arrive souvent quune seule partie soit retrouve, et parfois mme rien du tout. Les mthodes conventionnelles de recherche dinformation se sont avres incapables de rsoudre ces problmes. Ces mthodes supposent que nous connaissons davance quelle information est valable et o exactement elle peut tre trouve. De telles mthodes sont utilises de la manire suivante : les systmes dinformations, comme les bases de donnes, sont approvisionns avec des indices qui fournissent ces informations aux usagers. Grce ces indices, lutilisateur peut, tout moment, vrifier si certaines informations sont offertes par la base de donnes, si elles sont disponibles, et o il peut les trouver. Avec les nouvelles technologies notamment Internet, mais aussi Intranet/Extranet et Data Warehouse, ces stratgies ne sont plus applicables. Les raisons cela sont les suivantes :
La nature dynamique dInternet : aucune supervision centrale ne sapplique quant au dveloppement dInternet. Toute personne qui dsire lutiliser et/ou offrir des informations ou des services est libre de le faire. Ceci a cre une situation o il est devenu trs difficile davoir une ide claire sur la taille relle dInternet ; La nature dynamique des informations : les informations qui ne sont pas disponibles aujourdhui peuvent tre disponibles demain et le contraire sapplique aussi ; Linformation est htrogne : linformation est offerte sous plusieurs formats et de plusieurs faons. Ceci complique la recherche automatique d'une information donne, puisque chaque format et chaque service ncessitent une approche particulire.
Plusieurs solutions existent pour rsoudre les problmes identifis prcdemment. La plupart sont des solutions ad hoc. C'est ainsi qu'en utilisant des programmes qui circulent sur Internet, nous pourrons grer des mta-informations concernant tous les documents disponibles. Linformation collecte, caractrise par un ensemble de mots-cls, est sauvegarde dans des bases de donnes de grande taille. Toute personne qui dsire chercher des informations peut les localiser en donnant un ou plusieurs mots-cls ce moteur de recherche. Bien que les moteurs de recherche fournissent des services plus ou moins bons, ils possdent plusieurs inconvnients. Nous prsentons dans ce chapitre les choix utiliss pour la mise en uvre du modle propos pour une Recherche dInformation cooprative, adaptative et intelligente. Pour ce faire nous choisissons une architecture dte dune capacit dadaptation un environnement
123
dynamique, tel est notre cas. Le choix dune telle architecture est motiv par la facilit de la dcomposition de problmes, et par la richesse de combiner et faire cooprer plusieurs mthodes ; dans ce cadre il sagira principalement de mthodes de classification de documents dans le RPMH de pages Web et de classification de mots dans le RPMH de dictionnaire ainsi que lapproche combinaisant ces deux RPMH via un Rseau Possibiliste. Dans la premire section de ce chapitre, nous proposons une spcification du systme SARIPOD. Dans la deuxime section une conception dtaille du systme propos est prsente.
1. Spcification du systme SARIPOD

Comme dautres technologies, lvolution dInternet est continue. Le volume des donnes sera trop grand et trop vari de sorte quil sera impossible pour ltre humain de suivre ce qui se passe. Le pire, cest que prochainement les logiciels conventionnels ne seront plus capables de matriser la situation, par consquent une nouvelle structure pour la recherche dinformations s'avre ds aujourd'hui ncessaire. Une telle structure facilitera la tche et fera abstraction des diffrentes techniques. Ce type dabstraction est comparable celui avec lequel les langages de programmation de haut-niveau ont dbarrass les programmeurs de tous les problmes de bas-niveau.
Requte R Reformulation de la Requte R Requte R - URL de dpart - Mots-cls - Mots proches des motscls
- URL de dpart - Mots-cls
Constructeur du RPMH des Mots du dictionnaire Franais Le Grand Robert
RPMH des mots de dictionnaire
Crawler Stratgique
Dictionnaire Franais Le Grand Robert sous format XML
Prfrences de user
Liste trie des URL
RPMH de pages Web
Base dhistorique <R, Liste des URL>

Liste des URL rponse de la requte R
Tri par pertinence possibiliste
Analyseur de documents Web
Figure 5.1 : Architecture gnrale du systme SARIPOD
124
Pour favoriser la rutilisation, nous avons opt pour la modularit pour notre systme. Ce dernier sera compos de plusieurs modules dont chacun est responsable de lune des tches du processus de recherche des documents sur Internet. La ncessit de coopration des diffrents modules permet de concevoir larchitecture gnrale du systme SARIPOD compose des sept modules suivants (voir figure 5.1) [Elayeb et al., 2006] : 1. 2. 3. 4. 5. 6. 7. Module de construction du RPMH de dictionnaire ; Module de reformulation de la requte utilisateur ; Module de crawlage stratgique ; Module de construction du RPMH de pages Web ; Module danalyse de documents Web ; Module de tri des documents par leurs pertinences possibilistes ; Module doptimisation du systme.
Nous dtaillons dans la suite la fonctionnalit de chacun de ses modules et nous prsentons dans le chapitre suivant quelques interfaces extraites de la ralisation de ce systme.
1.1 Module de construction du RPMH de dictionnaire

Dans le cadre de la reformulation de la requte utilisateur, le systme interroge le RPMH du dictionnaire de mots en vue de dterminer les mots smantiquement proches des mots-cls proposs par lutilisateur du systme. Ce module accepte en entre le dictionnaire franais Le Grand Robert sous format XML et engendre lensemble des circuits dans ce RPMH des mots de ce dictionnaire. En effet, lobjectif ultime de ce module rside dans la gnration des mots smantiquement les plus proches dun mot donn dans la requte utilisateur. Cette proximit entre deux mots quelconques M1 et M2 du dictionnaire est calcule par la formule suivante :
Proximit_Dictionnaire (M1, M2) = Nbre de circuits (M1, M2)/Nbre maximum de circuits dtects
Larchitecture logicielle de ce module est prsente par la figure 5.2. En fait, dans notre prototype, ce module interagit avec le module danalyse de documents Web pour permettre au module de tri de trier les pages Web slectionnes selon leurs degrs de pertinences possibilistes (les tches des ces modules seront dtailles dans la suite).
JBuilder BorlandXML Dictionnaire Le Grand Robert sous format XML
Document Arborescent (XML Object)
Java Language Binding
Transformation
Liste des acceptions
Recherche des composantes de sens
Graphe de dictionnaire (RPMH)
Figure 5.2 : Architecture interne de module de construction du RPMH de dictionnaire
En utilisant le graphe de dictionnaire comme source de donnes au format XML, ce module gnre la liste des acceptions dun mot donn. Il commence, en fait, par tudier certaines
125
proprits des circuits collects partir du graphe afin de dduire les composantes de sens cherches. La construction du RPMH de dictionnaire est faite une fois pour toutes par ce module ds le dmarrage du systme SARIPOD. De plus elle est purement lie la source de donnes XML dictionnaire franais Le Grand Robert . En effet, pour chaque requte utilisateur, ce module accde aux parties de ce RPMH, correspondantes aux mots-cls de la requte, et ce en vue de faire les groupes de sens intermdiaires ainsi que leur fusion afin dobtenir les composantes de sens. La figure 5.3 prsente une description fonctionnelle de la recherche des composantes de sens.
Graphe
Liste des circuits Matrice des circuits communs

Regroupement des mots
Groupe de sens intermdiaires Fusion Liste finale des sens
Figure 5.3 : Description fonctionnelle de la recherche des composantes de sens
Par ailleurs, le traitement fait par le module de construction du RPMH de dictionnaire passe par les 8 tapes suivantes afin darriver la fin la liste finale des composantes de sens :
(i) Phase prliminaire
Cette phase prliminaire consiste nettoyer la source de donnes utilise au format XML. Dans ce fichier, chaque entre tant dcrite par un ensemble de balises traduisant des informations de natures syntaxiques (voir figures 5.4 et 5.5).
 <!ELEMENT DICO (DEF+)>  <!ELEMENT DEF (ENTRANT?,(STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU|AUTREFORME|PRONOMINAL)*,(CONTRAIRE|DERI VATIF|COMPARATIF|HOMONYME)*)> <!ATTLIST DEF mot CDATA #REQUIRED phonetique CDATA #REQUIRED cat CDATA #REQUIRED> <!ELEMENT CONTRAIRE (#PCDATA)*> <!ELEMENT DERIVATIF (#PCDATA)*> <!ELEMENT COMPARATIF (#PCDATA)*> <!ELEMENT HOMONYME (#PCDATA)*> <!ELEMENT AUTREFORME (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ELEMENT PRONOMINAL (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ELEMENT NIVEAU (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ATTLIST NIVEAU type (1|2|3|4) #REQUIRED>  <!ELEMENT META (STANDARD|ITALIQUE)*> <!ELEMENT MOTSLIES (STANDARD|ITALIQUE)*> <!ELEMENT STANDARD (#PCDATA)*> <!ELEMENT ITALIQUE (#PCDATA)*>
Figure 5.4 : La DTD initiale du dictionnaire
126
<DEF mot="a" phonetique="[a, ]" cat="n. m. "> <STANDARD> <MOT>premier</MOT><TAG>ADJ:num:ord</TAG> <MOT>lettre</MOT><TAG>NOM</TAG> <MOT>et</MOT><TAG>CON:coo</TAG> <MOT>premier</MOT><TAG>ADJ:num:ord</TAG> <MOT>voyelle</MOT><TAG>NOM</TAG> <MOT>de</MOT><TAG>PRE</TAG> <MOT>le</MOT><TAG>DET:def</TAG> <MOT>alphabet</MOT><TAG>NOM</TAG> <MOT>A</MOT><TAG>PRE</TAG> </STANDARD> <ITALIQUE> <MOT>majuscule</MOT><TAG>ADJ</TAG> </ITALIQUE> <STANDARD> <MOT>avoir</MOT><TAG>VER:pres</TAG> </STANDARD> <ITALIQUE> <MOT>minuscule</MOT><TAG>ADJ</TAG> </ITALIQUE>
Figure 5.5 : La source de donnes initiale de dictionnaire
En effet, nous avons commenc par un nettoyage automatique en liminant les redondances lintrieur de chaque dfinition de mot du dictionnaire. Puis, nous avons procd un nettoyage manuel tout en laissant dans la dfinition dun mot uniquement les balises des mots smantiquement proches de ce dernier (voir figures 5.6 et 5.7). Cette phase de nettoyage permet de prparer le terrain aux phases suivantes dans le traitement afin damliorer les performances de ce module.
<?xml version="1.0" encoding="ISO8859_1" ?> <!DOCTYPE dictionnaire SYSTEM "F1.dtd"> <dictionnaire> <mot texte="abaca"> <traduction>bananier</traduction><TAG>NOM</TAG> <traduction>philippin</traduction><TAG>ADJ</TAG> <traduction>ptiole</traduction><TAG>NOM</TAG> <traduction>fournir</traduction><TAG>VER:pres</TAG> <traduction>matire</traduction><TAG>NOM</TAG> <traduction>textile</traduction><TAG>ADJ</TAG> <traduction>matire</traduction><TAG>NOM</TAG> <traduction>appeler</traduction><TAG>VER:pper</TAG> <traduction>chanvre</traduction><TAG>NOM</TAG> <traduction>manille</traduction><TAG>NOM</TAG> <traduction>tagal</traduction><TAG>NOM</TAG> <traduction>tirer</traduction><TAG>VER:pper</TAG> <traduction>bananier</traduction><TAG>NOM</TAG> <traduction>cordage</traduction><TAG>NOM</TAG> <traduction>natte</traduction><TAG>NOM</TAG> <traduction>paillasson</traduction><TAG>NOM</TAG> </mot> <mot texte="abacule"> <traduction>cube</traduction><TAG>ADJ</TAG> <traduction>lment</traduction><TAG>NOM</TAG> <traduction>mosaque</traduction><TAG>NOM</TAG> </mot> </dictionnaire>
Figure 5.6 : la source de donnes finale de dictionnaire sous format XML
La DTD finale du dictionnaire sous forme de fichier XML est donne par la figure 5.7.
127
 <!ELEMENT DICO (COMMENTAIRES,INFO_DICO,DEF+)>  <!ELEMENT COMMENTAIRES (#PCDATA)> <!ELEMENT INFO_DICO (nbr_sommets?,nbr_verbes?,nbr_noms?,nbr_adjectifs?,nbr_adverbes?,nbr_prepositions?,nbr_conjonctions?,nbr_articles?,nbr_p ronoms?)> <!ELEMENT DEF (ENTRANT?,(STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU|AUTREFORME|PRONOMINAL)*,(CONTRAIRE|DE RIVATIF|COMPARATIF|HOMONYME)*)> <!ATTLIST DEF mot CDATA #REQUIRED phonetique CDATA #REQUIRED cat CDATA #REQUIRED ishomo CDATA #IMPLIED>  <!ELEMENT nbr_sommets EMPTY> <!ELEMENT nbr_verbes EMPTY> <!ELEMENT nbr_noms EMPTY> <!ELEMENT nbr_adjectifs EMPTY> <!ELEMENT nbr_adverbes EMPTY> <!ELEMENT nbr_prepositions EMPTY> <!ELEMENT nbr_conjonctions EMPTY> <!ELEMENT nbr_articles EMPTY> <!ELEMENT nbr_pronoms EMPTY> <!ATTLIST nbr_sommets n CDATA #REQUIRED> <!ATTLIST nbr_verbes n CDATA #REQUIRED> <!ATTLIST nbr_noms n CDATA #REQUIRED> <!ATTLIST nbr_adjectifs n CDATA #REQUIRED> <!ATTLIST nbr_adverbes n CDATA #REQUIRED> <!ATTLIST nbr_prepositions n CDATA #REQUIRED> <!ATTLIST nbr_conjonctions n CDATA #REQUIRED> <!ATTLIST nbr_articles n CDATA #REQUIRED> <!ATTLIST nbr_pronoms n CDATA #REQUIRED> <!ELEMENT ENTRANT (#PCDATA)> <!ELEMENT CONTRAIRE (MOT,TAG?)*> <!ELEMENT DERIVATIF (MOT,TAG?)*> <!ELEMENT COMPARATIF (MOT,TAG?)*> <!ELEMENT HOMONYME (MOT,TAG?)*> <!ELEMENT AUTREFORME (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ELEMENT PRONOMINAL (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ELEMENT NIVEAU (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ATTLIST NIVEAU type (1|2|3|4) #REQUIRED>  <!ELEMENT META (STANDARD|ITALIQUE)*> <!ELEMENT MOTSLIES (STANDARD|ITALIQUE)*> <!ELEMENT STANDARD (MOT,TAG?)*> <!ELEMENT ITALIQUE (MOT,TAG?)*> <!ELEMENT MOT (#PCDATA)> <!ELEMENT TAG (#PCDATA)>
Figure 5.7 : La DTD finale du dictionnaire sous format XML (ii) La premire phase : transformation XML DOM
Dans cette premire phase, la source de donnes sous format XML sera transforme en un arbre DOM. En fait, le DOM (Document Object Model) est une interface de programmation (API) qui consiste dcomposer le contenu d'un document HTML ou XML en une arborescence de noeuds (chaque lment du document est un noeud). Dautre part, DOM est une recommandation du W3C26 (consortium qui gre les standards lis Internet). Son principe consiste reprsenter en mmoire le contenu d'un document HTML ou XML sous la forme d'une arborescence d'objets. Les dveloppeurs d'applications qui dsirent manipuler le contenu d'un document HTML ou XML utilisent un parseur logiciel compatible DOM27. Ils ont alors un ensemble d'API leur
26
http://www.w3.org/
128
permettant de parcourir l'arborescence des objets afin d'affecter des oprations de lecture, ajout, modification, suppression de donnes.
(iii) La deuxime phase : transformation DOM Graphe
Les services de JAVA XML Binding nous permettent de transformer larbre DOM, obtenu suite la premire phase du traitement, en un graphe. En effet, la manipulation de ce dernier est plus facile pour gnrer lensemble de circuits existants entre les nuds de ce graphe dans la phase suivante.
(iv) La troisime phase : recherche de circuits
Cette phase est consacre au dnombrement des circuits partir du graphe RPMH de dictionnaire rsultant de la phase prcdente. Rappelons quun circuit correspondant un mot donn est un enchanement de plusieurs mots en partant de ce mot donn et en y revenant ce dernier. De plus linterface utilisateur permet un contrle du paramtrage des circuits (longueur, nombre, etc.) afin que le paramtrage de ce module soit optimis.
(v) La quatrime phase : recherche de mots smantiquement proches
Le module de construction du RPMH de dictionnaire sintresse dans cette phase la recherche des mots smantiquement proches dun mot donn partir du nombre de circuits collects pour ce dernier tout en prcisant les proximits smantiques entre ces mots. Le poids dun mot smantiquement proche est proportionnel au nombre de circuits le reliant au mot de dpart (voir exemples en annexe 3).
(vi) La cinquime phase : construction de la matrice des circuits communs
La construction de cette matrice permet de rcapituler les relations existantes entre les mots, smantiquement proches du mot de dpart, collects dans la phase prcdente. Ces relations sont comptabilises par les nombres des circuits contenant la fois les deux mots, entres de chaque cellule de la matrice.
(vii) La sixime phase : construction de groupes de sens intermdiaires
En utilisant la matrice des circuits de la cinquime phase ainsi que la liste de mots proches pondrs, le module de construction du RPMH de dictionnaire construit, durant cette phase, les groupes de sens intermdiaires (possdant chacun un sens) correspondant au mot de dpart. Nous obtenons en consquence plusieurs groupes smantiquement proches, une dernire phase de fusion de ces groupes savre utile afin dobtenir les composantes (ou classes) de sens finales.
(viii) La dernire phase : fusion de groupes de sens intermdiaires composantes de sens
Cest la dernire phase dans laquelle le module de construction du RPMH de dictionnaire fusionne les groupes de sens smantiquement proches pour obtenir les composantes de sens correspondantes au mot de dpart qui pourrait tre lun de termes de la requte utilisateur.
1.2 Module de reformulation de la requte utilisateur

Dans les approches prsentes dans le premier chapitre de ltat de lart (section 6), lexpansion de requte consiste ajouter des termes relis ceux de la requte initiale partir
27
L'API DOM est compos d'un ensemble d'interface. Un parser logiciel compatible DOM implmente ces interfaces dans le langage de la plate-forme de dveloppement (C++, Java, JavaScript, .NET). Notons aussi que cette transformation se fait en plusieurs tapes en utilisant la bibliothque BorlandXML facilitant la manipulation directe de larbre dlments.
129
dun thesaurus, dun document jug pertinent par lutilisateur ou par le systme, ou lissue dune phase pralable de classification. Au sein de notre systme, nous proposons une reformulation smantique de la requte en fonction des proximits smantiques existants entre les termes dans le RPMH de dictionnaire. Ce module accepte en entre la requte initiale de lutilisateur. Ce dernier choisit un nombre de termes smantiquement proches dont le systme lajoute la requte initiale partir du RPMH de dictionnaire :
Qold = (t1, t2, , tn) Qnew = (1t1, 2t2, , ntn, n+1tn+1, n+2tn+2,, mtm)
Avec :
j = Prf(tj) : La pondration (prfrence) du terme tj dans la requte reformule ;
t1, t2, , tn : Les termes initiales choisi par lutilisateur ; tn+1, tn+2, , tm : Les termes smantiquement proches (au sens du RPMH) de termes initiales.
En fait, lutilisateur pourra choisir un seuil de proximit smantique pour construire sa requte reformule. La figure 5.8 prsente un exemple de rpartition des mots smantiquement proches du verbe vrifier dans le RPMH de dictionnaire selon leur seuil de proximit.
Sassurer Reconnatre Constater Examiner
Verbe de la requte initiale 0,7 Seuil de proximit <1 0,35 Seuil de proximit < 0,7 0 < Seuil de proximit < 0,35
Vrifier
Voir
Essayer
Eprouver Contrler Exprimenter Prouver
Figure 5.8 : Exemple du choix du seuil de proximit smantique
1.3 Module de Crawlage stratgique

Selon [Miller et Bharat, 1998], un Web crawler est un mot anglais (en franais : fouineur Internet) dsignant un programme qui traverse automatiquement le Web en tlchargeant, de page en page, les URLs des documents (parfois les documents). Son point de dpart est lURL dune page Web racine et sa profondeur de propagation est gnralement paramtrable. Aprs avoir obtenu une nouvelle requte reformule Qnew, le module de crawlage explore le Web en partant de lURL de dpart choisie par lutilisateur. Il obtient, en consquence, plusieurs autres liens dont certaines pages peuvent contenir les mots-cls recherchs et
130
dautres non. Dans ce cas, ce module ne sintresse quaux liens dont les pages, contiennent lun de ces mots ou bien, si elles ne le contiennent pas, aux pages des liens inclus celles-ci qui le contiennent. Les pages smantiquement les plus proches, en terme de contenu, dune page quelconque de ce rseau sont localises dans les zones les plus denses du RPMH de pages Web. Nous proposons dans ce cadre une exploration (crawlage) systmatique dont le principe est donn par les algorithmes suivants :
Algorithme 1 :
1. Tant quune page sur N pages successives (parcourues grce aux liens hypertextes) contient le mot M recherch, le crawler continue visiter les pages sortantes de cette page ; quelle que soit la profondeur (car ces pages peuvent contenir le mot M) ; 2. Quand N pages de suite ne contiennent pas le mot M recherch (quelle que soit la profondeur), on stoppe la recherche dans cette branche. En effet, on abandonne toute exploration d'une page ne contenant pas le mot recherch si aucune de ses pages filles ne le contient pas non plus. Tandis que dans tous les autres cas on continue. Nous appelons par la suite cet algorithme : StratN(R, M) = lensemble des pages ainsi rcupres pour le mot M en partant de R(M) = lensemble des liens des pages affiches rellement par un moteur de recherche (par exemple Google).
(2) Page ne contenant pas M (3) Page contenant M (4) Page ne contenant pas M
(1) Page contenant M
Page Web Racine (5) Page contenant
(8) Page contenant M (9) Page ne contenant pas M
M
(6) Page ne contenant pas (7) Page ne contenant pas
M
(10) Page ne contenant pas M
(11) Peu importe on ne visite pas cette page
(12) Peu importe on ne visite pas cette page
Figure 5.9 : Exemple de lalgorithme Strat2
Nous remarquons, partir de lexemple de la figure 5.9, que Strat2(1, M) contient les pages au plus 2 arcs d'une page contenant le mot M partir de la page 1, soit {1, 2, 3, 4, 8, 9, 10, 5, 6, 7} alors que les pages au plus 2 arcs de la page 1 sont {1, 2, 3, 5, 6}. Par ailleurs, pour des valeurs faibles du pas de crawlage N, lalgorithme sarrte trs vite et ne charge quun nombre limit de pages, alors que pour des valeurs lves de N, lalgorithme charge un nombre trs important de pages dont plusieurs risquent dtre non pertinentes. Afin
131
de rsoudre certaines limites de ce premier algorithme, nous proposons une extension comme suit.
Algorithme 2 :
Ce deuxime algorithme tient compte de la rencontre ou non du mot-cl M recherch dans les pages lies mais aussi dun mot smantiquement proche de M. Quand une page ne contiendra plus le mot M, ni un de ses mots proches smantiquement, le saut se fera si lon trouve dans cette page un mot V pas trop loign de M (bien que ne faisant pas partie de ce que nous avons appel les mots proches de M). Ainsi Strat, (R, M) serait dfinie par : 1. Tant quune page, parcourue grce aux liens hypertextes, contient le mot M recherch ou un de ses proches, au sens de Proximit du Dictionnaire dtaille dans la section 1.1, il faut garder lURL de cette page et continuer visiter les pages sortantes de cette page. 2. Si une page ne contient pas le mot M ni lun de ses proches, il serait quand mme dommage de ne pas la garder si elle contient nanmoins des mots V pas trop loigns de M (dune proximit au sens de Proximit du Dictionnaire), il faut garder lURL de cette page et continuer visiter ses pages sortantes (qui ont une trs forte probabilit de contenir de nouveau le mot M ou un de ses proches). 3. Si N pages de suite ne contiennent pas le mot M, ni un de ses proches et ne contiennent que des mots V dune proximit < , on stoppe la recherche dans cette branche et on ne garde aucune de ces pages. Cet algorithme est plus performant que le premier algorithme Strat (R, M) car il na pas le caractre ad-hoc pour la valeur de N qui ne pouvait tre ni N = 1, ni N > 2. Par ailleurs, cet algorithme semble plus conforme ce que nous faisons dans la ralit. En effet, lutilisateur continu explorer la page et les liens sortants dune page Web donne selles contiennent des informations smantiquement proches de ce quil cherche. Par contre, si les informations existantes sur ces pages Web sont loins de ce quil dsir, il abandonne plus ou moins rapidement la navigation dans ce branche : cest exactement le rle du paramtre . Dautre part, nous pouvons mme faire de N une fonction de lcart avec ce que lon recherche. En effet, si les pages P ne vrifient pas VMots tel que VP et Proximit_Dictionnaire (M, V) , autrement dit si les mots V de P ne ralisent quune valeur de Proximit_Dictionnaire (M, V) = - alors si est petit on peut continuer encore plus mais si est grand on sarrtera assez rapidement. Ainsi, N est une fonction dcroissante de . Nous avons encore amlior et simplifi cet algorithme 2 en proposant un troisime algorithme.
Algorithme 3 :
Nous dfinissons Strat (R, M) par : 1. On garde toute page P qui contient un mot V suffisamment proche de M, au sens o = Proximit_Dictionnaire (M, V) . 2. On explore les pages sortantes de P jusqu une profondeur limite N (fonction croissante de Proximit_Dictionnaire (M, V) pour les V de cette page, mais fonction nanmoins majore). 3. La limite dexploration est mise jour par celle de la page la plus profonde de la branche explore. 132
La premire tape (1) permet de garder les pages qui contiennent M ou un synonyme de M si . La seconde (2) assure que si lon est en de de , cest--dire < , on continue lexploration dautant moins loin que est petit et on ne continue de toute faon pas indfiniment. La troisime (3) permet de repartir de plus belle si au terme de pages pas trs intressantes on retombe un jour sur une page concerne fortement par M (ou ses proches).
1.4 Module de construction du RPMH de pages Web

Ce module accepte en entre lensemble de pages Web charg par le Crawler et gnre en sortie le RPMH correspondant. Nous calculons une proximit smantique entre ces pages afin de prparer le terrain leur classification par la suite. Nous dfinissons la proximit entre deux pages Pi et Pj en terme du nombre de circuits passant par Pi et Pj et revenant Pi de la manire suivante :
Proximit (Pi, Pj) = Nombre de circuits (Pi, Pj)/Nombre maximum de circuits dtects
Par ailleurs, le RPMH des pages Web est construit selon les trois phases suivantes:
(i) Phase de transformation HTML DOM
Chaque document Web est transform, grce l'API SAX de Java, en un graphe de noeuds caractris chacun par son type et son contenu. Il sagit de la phase de transformation HTMLDOM au terme de laquelle un document DOM sera engendr pour chaque page HTML. Ce document DOM contient les mmes informations contenues dans la page Web mais sous forme d'un arbre d'lments. La manipulation du document HTML initial sera la manipulation d'une structure de donnes sous forme d'un arbre d'lments, et cette technique, offerte par l'API SAX de Java, va nous faciliter la tche de lecture des documents Web ; puisquon procdera par la suite un parcours direct de l'arbre DOM et une lecture des champs de donnes de chaque lment de cet arbre.
(ii) Phase de recherche des chanes de caractres
Chaque lment de l'arbre DOM prsente une structure de donnes dont les deux attributs les plus importants sont le type du noeud et sa valeur. Le premier attribut indique que le noeud reprsente lune des structures logiques contenues dans la page HTML du document, ou bien qu'il contient un lien hypertexte vers une autre page. Dans le premier cas, l'attribut valeur contient le champ d'information port par le noeud qui est affich quelque part dans la page Web. Dans le second cas il contient le chemin vers la page cible du lien hypertexte. La recherche des mots sera alors une recherche dans les champs valeurs des noeuds de l'arbre DOM du document. En effet, si un champ valeur contient un lien hypertexte, la recherche se fera d'une manire rcursive dans la page cible de ce lien aprs construction de son arbre DOM et ainsi de suite. La condition d'arrt est contrle par le paramtre pas de crawlage introduit par l'utilisateur.
(iii) Phase de contrle du pas de crawlage
Le pas de crawlage est un paramtre entier introduit au systme par l'utilisateur. Il indique le nombre de pages successives, ne contenant pas les mots recherchs, quil ne faut pas dpasser dans l'ensemble des pages lies entre elles par des liens hypertextes. Si ce pas est dpass, la
133
recherche dans le sens des liens hypertextuels sera stoppe et rinitialise au niveau de la dernire page contenant les mots recherchs.
1.5 Module danalyse de documents Web

Ce module utilise des connaissances sur la structure logique de chacun des documents retrouvs par le crawler. En effet, il tient compte de la liste des termes de la requte et leurs frquences respectives dans chacune des entits logiques du document. De plus, ce module permet dextraire la structure logique dun document Web en termes de titres, de paragraphes et de lgendes suivant l'architecture de la figure 5.10. Nous proposons une dcomposition de ce module en trois tapes successives : 1. la gnration de larbre DOM ; 2. la segmentation de document ; 3. lidentification des fragments logiques du document. Nous dtaillons dans la suite chacun de ces trois tapes.
page Web Gnrateur darbre DOM Arbre DOM
Module de Segmentation
Fragments logiques de la page Web
Module Fragmentation logique
Liste des blocs et des
styles
Figure 5.10 : Architecture interne du module danalyse de page Web 1.5.1 Segmentation du document
La segmentation du document HTML28 en une liste de blocs se base sur le changement de style et sur les sparateurs visuels. En effet, nous avons opt pour l'utilisation de larbre DOM. Ce dernier fournit plusieurs informations sur les nuds du document et facilite son parcours. Une fois le document transform en un arbre DOM, il s'agit de parcourir cet arbre pour engendrer la liste des blocs physiques et dterminer le style de chaque bloc sachant que le style est reprsent par les diffrents attributs de style. La segmentation tient compte aussi des blocs non textuels. En effet, la liste des blocs engendre par cette tape contient aussi bien des blocs textuels que des images, des tableaux, des squences multimdia, des listes et des liens. Pour chacun de ces types de blocs, il faut calculer un certain nombre d'attributs. Par exemple, pour les images nous identifions l'attribut src qui indique le chemin au fichier source de l'image. Pour distinguer les diffrents types de blocs et leurs attributs, nous utilisons l'tiquetage bas sur les balises et les attributs HTML. En effet, nous traitons tous les types
Dans cette version du systme SARIPOD, nous traitons les documents HTML, mais un document XML facilitera encore plus les choses car on n'aura plus besoin d'interprter les composants de la structure physique (aspects visuels, styles,) et il suffira d'examiner la feuille de style attache au document ou encore mieux le nom ou le rle (la signification) mme des balises (ex: titre, note, lgende, numration,).
28
134
d'informations en mme temps. Dans cette tape nous engendrons aussi la liste des styles rencontrs dans le document Web comme dans les travaux de [Bounhas, 2006].
1.5.2 Identification des titres et des lgendes
Il s'agit d'utiliser la mthode d'tiquetage pour retrouver le plan du document. A ce stade, nous utilisons deux types d'tiquetage savoir :
L'tiquetage bas sur le style. Aprs avoir calcul le niveau de chaque style de la liste des styles construite dans l'tape prcdente, nous attribuons chaque bloc une tiquette qui traduit son niveau dans la hirarchie du document. L'tiquetage smantique. Il s'agit d'identifier les titres des lgendes telles que les lgendes des figures, des tableaux et des squences multimdia. Nous attribuons chaque bloc, dont le texte correspond un titre de lgende, une tiquette qui indique le type de la lgende. Identification des titres potentiels. L'objectif de ce traitement est d'identifier les blocs qui peuvent tre des titres . Ainsi, nous calculons, pour chaque bloc, un attribut indiquant s'il peut tre un titre . Pour ce faire, nous nous basons sur les attributs prcdemment calculs. Nous considrons qu'un bloc peut tre un titre s'il satisfait aux conditions suivantes :
Le sparateur avant est non nul ; Le nombre de mots est infrieur un seuil donn ; Le bloc n'est pas un lien ; Le bloc n'est ni un tableau, ni une image, ni une liste ; Le nombre de caractres alphanumriques est suprieur zro ; Le sparateur arrire est non nul ou il est nul mais le nombre de caractres du bloc est suprieur un seuil donn.
En effet, pour tout bloc qui peut tre un titre , nous calculons un attribut niveau qui traduit son niveau dans la hirarchie des titres du document. En fait, chaque bloc qui peut tre un titre hrite le niveau de son style calcul en combinant trois critres savoir le poids du style, sa rgularit ainsi que sa frquence dans le document.
Le calcul des poids des styles. Nous calculons, pour chaque style, un poids en fonction de ses attributs en utilisant la formule suivante :
Poids ( S i ) = p j a ij
j =1
(5.1)
En effet, le poids dun style est la somme des valeurs de ses attributs pondrs par des poids. Dans cette formule a ij indique la valeur de lattribut de style numro j pour le style Si. Le calcul de cette valeur dpend de la nature de lattribut. En effet:
a i1 : prend la valeur de lattribut taille.
a i2 , ai3 , ai4 : prennent la valeur 1 si le style est gras, italique ou soulign, 0 sinon.
ai5 : frquence de la police du style en nombre de mots dans le document.
a i6 : prend la valeur 2 si le style est centr, 1 si le style est align droite, 0 sinon. pj indique le poids que nous attribuons lattribut de style numro j. Ces poids ont t fixs par apprentissage. En effet, daprs notre tude des documents HTML, la taille de la police puis lalignement sont les attributs les plus utiliss pour distinguer les titres. Le gras, litalique
135
et le soulignement viennent dans un deuxime niveau. En effet, nous considrons que le poids dun style peut tre calcul en se limitant ces attributs. Nous attribuons, ensuite, des niveaux prliminaires aux blocs. Le style ayant le poids le plus lev se verra attribu du niveau 1. Il est noter que deux styles diffrents peuvent avoir le mme niveau prliminaire puisque nous attribuons le mme poids au soulignement, au gras et litalique. Pour rsoudre ce problme, nous procdons au calcul de la rgularit des titres.
Le calcul de la rgularit des titres. Ce calcul vise diffrencier les styles qui ont le mme niveau prliminaire. Il sagit de parcourir les blocs qui ont ltiquette "PeutEtreTitre" pour attribuer des scores de rgularit aux diffrents styles. Le score dun style est fonction des styles qui le prcdent. En effet, lalgorithme de rgularit, que nous avons dfini, utilise une pile P pour stocker les styles dj rencontrs. Le score dun style Si est incrment sil est prcd dun style ayant un poids plus important. Il est dcrment sil est prcd dun style de mme niveau prliminaire.
Pour illustrer le fonctionnement de lalgorithme, nous prsentons un exemple de document o la notion de rgularit permet de rectifier les niveaux prliminaires attribus aux blocs.
1 Les algorithmes de tri
1.1 Tri par slection .................................................................................................................. Algorithme En Pascal .................................................................................................................. En C ................................................................................................................. 1.2 Tri par insertion .
2 Les heuristiques
..................................................................................................................
Figure 5.11 : Exemple de document o la notion de rgularit peut tre applique
Lors de la segmentation du document prsent par la figure 5.11, quatre styles sont identifis. Cependant, trois dentre eux auront le mme niveau dans le calcul prliminaire car ils ont la mme taille de la police (Il sagit des styles des titres du deuxime, du troisime et du quatrime niveau) et le mme alignement (pour les styles des titres de mme niveau). Lorsquon calcule la rgularit, le score de S2 est incrment lors de la rencontre du titre "1.1Tri par slection" car le style qui le prcde (S1) a un niveau infrieur. Le score de S3 est dcrment lors de la rencontre du titre "Algorithme" car le style qui le prcde (S2) a le mme niveau. Le score de S4 est dcrment de deux units lors de la rencontre du titre "En pascal" car il est prcd par deux styles de mme niveau savoir S2 et S3. Les scores de rgularit ainsi calculs permettent de distinguer les niveaux des styles. Etant donns deux styles ayant le mme niveau prliminaire, celui qui a le score de rgularit le plus lev aura le niveau le plus bas. En fait, le calcul de rgularit permet de rectifier les niveaux des titres dans les documents ayant une hirarchie de sections plusieurs niveaux. Sans ce calcul, plusieurs titres ayant des niveaux diffrents se verront attribus le mme niveau.
Tri des styles par frquence. Le troisime critre de tri des styles est la frquence en nombre de mots dans le document. En effet, nous considrons que le style le moins frquent est le style le plus important. Ainsi, une fois les scores de rgularit calculs, les styles sont tris en
136
utilisant le poids, le score de rgularit puis la frquence en nombre de mots. Ensuite nous attribuons un niveau dfinitif chaque style. Une fois le calcul des niveaux des styles achev, il sagit de calculer lattribut "niveau" des blocs de la manire suivante:

Tout bloc qui peut tre un titre hrite le niveau de son style. Ainsi il est marqu comme titre. Les autres blocs auront un niveau fictif gal -1.
1.6 Module de tri de documents par leurs pertinences possibilistes

Ce module calcule la pertinence possibiliste de chaque page Web en fonction de ses structures logiques gnres par le module prcdent. Le modle possibiliste propos pour le calcul des scores possibilistes est dj prsent dans la section 3.1 du chapitre 4. Rappelons que le degr de pertinence possibiliste mixte du document di est donn par : DPM(di) = j (j * DPMELj(di)) (5.2)
O DPMEL(di) est le degr de pertinence possibiliste mixte de chaque entit logique d'un document di (ELdi). Il est calculer par la formule suivante : DPMEL(di) = (ELdi|Q) + N(ELdi|Q) (5.3)
Enfin, ce module assure le tri dcroissant des ces scores (DPM(di)) correspondants aux prfrences proposes par lutilisateur au systme.
1.7 Module doptimisation du systme SARIPOD

Le module doptimisation permet aux utilisateurs du systme un gain important en terme de temps de rponse. En effet, ce module permet de construire une base dhistorique des requtes, traites par le systme, ainsi que leurs rponses. A la rception dune nouvelle requte, le module doptimisation consulte cette base dhistorique, cherche la plus proche requte dans cette dernire et enfin il lactualise tout en liminant les URLs dsormais non disponibles sur le Web et en ajoutant des nouvelles URLs inexistantes dans lancienne recherche. Cette dernire tape ncessite le renvoi de la nouvelle requte au crawler. Cette nouvelle rponse obtenue servira de mme comme historique pour des requtes ultrieures. Le processus de recherche de la plus proche requte dans la base dhistorique repose sur une technique de Data Mining intitule le Raisonnement Base de Cas ou de Mmoire (RBC ou RBM) [Berry et Linof, 1997]. En effet, cette technique utilise une fonction de distance entre la nouvelle requte et celles de lhistorique et slectionne la plus petite distance qui correspond la requte la plus proche. Cette distance est dtermine en fonction du nombre de termes en commun entre la nouvelle requte et celle de lhistorique, elle est calcule de la faon suivante : 1. Si les termes de la nouvelle requte sont identiques ceux de la requte de lhistorique, lutilisateur pourra utiliser directement le rsultat de lhistorique ou changer ses prfrences tout en lanant un nouveau processus de tri des documents selon de nouveaux paramtres ; 2. Si les termes de la nouvelle requte sont suprieurs ceux de la requte de lhistorique, lutilisateur profitera de la partie de sa recherche existante dans lhistorique et le systme lui ajoute des nouvelles pages correspondantes au reste de
137
termes de sa requte. Lutilisateur pourra aussi changer ses prfrences par rapport au profil existant dans lhistorique. 3. Si les termes de la nouvelle requte sont infrieurs ceux de la requte de lhistorique, lutilisateur profitera uniquement de la partie de lhistorique qui correspond aux termes de sa requte. Il pourra aussi proposer dautres prfrences diffrentes de celles de lhistorique. En fait, la tche principale de ce module consiste ajouter au systme une aptitude lapprentissage lui permettant ainsi de profiter des requtes dj joues, pour des classes dutilisateurs donns. Autrement dit, le systme pourra affiner le profil de son utilisateur au fur et mesure que ce dernier utilise le systme.
2. Conception du systme SARIPOD

UML est un langage de modlisation fond sur les concepts orients objet qui sont ns depuis plus de trente ans ; UML nest donc pas lorigine des objets ; nanmoins, il constitue une tape majeure, dans le sens o il unifie les diffrentes approches (BOOCH, OMT, OOSE et ROO dIBM) et en donne une dfinition plus formelle [Kettani, 1998]. Dans lapproche oriente objet, un systme est vu comme tant une socit dobjets qui cooprent pour raliser un certain objet global. Cette approche se base sur la reprsentation des lments dun systme sous la forme des objets et dans laquelle un objet est dfini par :
Une identit qui constitue le moyen de lidentifier par rapport aux autres objets, Un comportement qui dfinit la manire dont lobjet agit et ragit aux divers messages qui lui parviennent de son environnement, Un ensemble dtats qui dfinit en fait les diffrentes possibilits dans lesquelles un objet peut se trouver un instant donn de sa vie.
En outre, dans un problme rel, il est difficile de dcrire tous les objets dun domaine et il est plus raliste de les classer dans des groupes dobjets appels classes. Une classe sert donc dabstraction qui dcrit plusieurs objets partageant un ensemble de proprits et/ou dassociations avec dautres classes dobjets. Les objets forment les instances (occurrences relles) dune classe. Des associations entre les diffrentes classes dune modlisation oriente objet dun systme peuvent exister et elles reprsentent en fait les liens existants entre les lments du systme rel. Le langage UML propose plusieurs moyens de description et modlisation dun systme utilisant des diagrammes ou des graphes. De la modlisation UML nous adoptons dans ce rapport uniquement deux genres de diagramme : le diagramme des classes et le diagramme des squences.
i. Modle statique
Le diagramme de classes est une collection dlments du modle statique, il montre uniquement les aspects statiques du systme. Les diffrents modules du systme SARIPOD sont reprsents par ce diagramme de classes, des groupes et des rles que peuvent jouer ces modules dans les diffrents groupes.
ii. Modle dynamique
Le modle dynamique est une vision microscopique du fonctionnement du systme. Il sert mettre en vidence les relations temporelles inter-objets et la reprsentation sous forme d'un
138
automate du comportement de chaque objet. Il intervient aprs la dfinition du modle statique. Un scnario est une squence spcifique dactions illustrant des comportements (effets observables dune opration ou dun vnement). Un scnario peut tre utilis pour illustrer une intraction (spcification comportementale comprenant un ensemble de messages changs entre des objets, dans un contexte particulier pour atteindre un but spcifique). En effet, une intraction peut tre illustre par un ou plusieurs scnarios. D'une manire gnrale, un scnario utilise deux types de concepts [Roques, 2001]: Des objets : ces sont les concepts faisant partie du systme la plupart du temps, ainsi que des objets externes au systme et en interaction avec celui-ci. En fait, les objets intervenant dans les scnarios sont des instances et il est donc ncessaire de spcifier leur nom et leur classe. Ils sont reprsents par des barres verticales ; Des vnements : ces sont les concepts mis et reus par les objets impliqus dans le scnario. En fait, les interactions entre ces objets sont des vnements prcis et spcifiques. Un vnement est reprsent par une flche horizontale reliant l'objet metteur l'objet rcepteur. Les scnarii sont des suites d'vnements squencs dans le temps, la lecture squentielle s'effectue de haut en bas [Lopez et al., 1998]. Nous prsentons dans la suite une conception dtaille des principaux modules du systme SARIPOD. Nous nous limitons aux prsentations des diagrammes les plus importants dans le processus de recherche.
2.1 Conception et mise en uvre du RPMH de dictionnaire

La figure 5.12 montre le dtail du diagramme de classes pour le module de construction du RPMH de dictionnaire. Nous ne prsentons ici que les classes principales et nous ignorons les autres classes dimportance moindre telles que les classes utilitaires engendres par Java et la classe frame utilise comme interface utilisateur. Dautre part, le modle de ce diagramme de classes reprsente une superposition de deux modles : un premier modle de dictionnaire contenant des informations syntaxiques et smantiques, et un second modle dun graphe o lon y trouve des notions attaches la thorie des graphes telles que sommet, circuit, arc, etc. Dans cette superposition la relation correspond entre circuit et sens reprsente le fait quun sens est obtenu partir dun groupe de circuits, et cette association permet dobtenir un ensemble de mots proches (synonymes) qui sont des sommets-mots.
Sommet-Mot Graphe Graphe() text : String GetMot() AddMot() Sens seuilAcceptation : Integer * Correspond
Arc source : Mot destination : Mot GetSource() GetDestination()
Synonyme
* Circuit motDepart : Mot longueur : Integer
Figure 5.12: Diagramme de classes de la construction du RPMH de dictionnaire
139
Nous distinguons deux scnarii dans lesquels lobjet frame joue le rle de linterface utilisateur. Le premier scnario consiste en la rcupration des mots proches dun mot donn, alors que le second modlise le regroupement de ces mots proches en composantes de sens.
ChercherSynonymes(mot , lgCircuit)
: Frame : Collection-circuits GetPositionSansArcs(Mot) VrifierOrthographe Position_de_Mot ChargerLesCircuits(Position_de_Mot, lgCircuit) ListeDesCircuits ChargerLesSynonymes(ListeDesCircuits) ListeDesSynonymes OrdonnerListeParPoids(ListeDesSynonymes) ListeDesSynonymesOrd : Graphe : Mot
afficherDansFrame1(ListeDesSynonymesOrd)
Figure 5.13 : Diagramme de squences de la recherche des mots proches dun mot
Lobjet frame rcupre la position du mot tudier dans le dictionnaire puis cherche les circuits qui lui sont associs. Il sagit ensuite de structurer ces circuits pour en dduire les mots proches du mot de dpart.
GrouperLesSynonymes (Seuil)
: Frame : Matrice : Collection-mots
ConstruireMatrice(ListeDesSynonymesOrd, ListeDesCircuits)
ConstruireLesCouples(ListeDesSynonymesOrd, Matrice, Seuil) CouplesDesSynonymes ConstruireLesTuples(CouplesDesSynonymes, ListeDesSynonymesOrd, ListeDesCircuits) GroupesDesSynonymes SimplifierLesGroupes(GroupesDesSynonymes) GroupesDesSynonymesS FusionnerLesGroupes(GroupesDesSynonymesS, ListeDesCircuits) GroupesDesSynonymesF
AfficherDansFrame(GroupesDesSynonymesF)
Figure 5.14 : Diagramme de squences du groupement des mots proches dun mot
140
Eventuellement, les groupes de mots obtenus contiennent des mots ayant des sens proches. Ces mots peuvent encore tre regroups en une mme composante de sens. Il sagit de la dernire phase de fusion de ces composantes de sens. En fait, les lments de chacune des groupes fusionns possdent un sens spcifique par rapport aux autres.
2.2 Conception et mise en uvre du crawlage stratgique

La figure 5.15 montre le dtail du diagramme de classes dordre gnral pour les deux modules de crawlage stratgique et de tri des documents Web par leurs pertinences possibilistes. Notons ici que le paquetage SDA correspond lanalyse dun document Web et le paquetage RPMH dictionnaire correspond au module de dtermination des synonymes des mots-cls. En fait, nous avons dvelopp les paquetages suivants : Le paquetage Crawlage renferme tous les objets contribuant la ralisation de la tche de crawlage des documents Web contenant une information reprsente par des mots-cls de lutilisateur qui sont enrichis par des synonymes grce au module RPMH Dictionnaire. Le paquetage Possibiliste renferme toutes les classes assurant le tri des documents Web analyss par le paquetage SDA . En effet, ces documents sont collects par le module de crawlage stratgique. Le paquetage Historique renferme toutes les classes contribuant la ralisation de la tche de gestion de la base dhistorique du systme en tant que lieu de conservation et de rutilisation des rsultats dj trouvs.
RPMH Dictionnaire
Crawlage + Adjacence + DocumentParser + Filtre + Resultat + Traitement Index
SDA
Possibiliste + occurence + option + struct_doc
Historique + connection
Figure 5.15 : Diagramme de classes gnrale de deux modules de crawlage et de tri 2.2.1 Diagramme de classes du module de crawlage stratgique
Le diagramme de classes du module de crawlage stratgique est prsent par la figure 5.16. Ce diagramme renferme les diffrentes classes ncessaires pour concevoir et pour mettre en uvre toutes les oprations ncessaires pour lire des documents Web, suivre les liens hypertextes entre eux et crer le RPMH de pages Web.
141
F i l t re
(f r o m C r a w l a g e )
D o c u m e n tP a r s e r
( f ro m C ra w l a g e )
p ro fo n d e u r : i n t to u t : V e c t o r = n e w V e c t o r ( ) re d o n d a n c e ( ) g e tL i n k s ( )
u rl : S t r in g R e s : R e s u l ta t m e s u r e M a t c h () g e t R e s u l t a t () pars e()
In d e x
R e s u l ta t
( f ro m C ra w l a g e )
H i s t o r iq u e (f ro m t e s t )
U R L _ d e p a rt : S t ri n g m o t _ r e c h : S tr in g C h a in e _ l ie n s : S t ri n g P r o f o n d e u r : in t i n d e xe r () I n d e x( )
L i n k s : V e c to r E xi s t e : b o o le a n = fa l s e R e s u l t a t ()
A d ja c e n c e
E s tL i e ( ) g e tM a tr ix () A d ja c e n c e ()
Figure 5.16 : Diagramme de classes du module de crawlage stratgique
La classe "Index" joue le rle dun chef dorchestre dans ce module, elle fournit les paramtres initiaux pour les autres classes et mdiatise la communication entre elles pour retourner enfin la collection des documents rsultats de la recherche ainsi que la matrice dAdjacence qui reprsente les proximits entre les pages. Dans le cas o le rsultat du crawlage figure dans la base dhistorique du systme, la classe "Index" retourne le rsultat stock, sans recours une nouvelle opration de crawlage. La recherche des mots-cls ainsi que des liens hypertextes dans les pages Web sont faites par les mthodes de la classe "DocumentParser". En effet, la mthode "parse" sert construire larbre DOM dun document partir de son URL. En consquence, le document Web sera reprsent par un ensemble de nuds de lardre DOM. En partant de la racine de cet arbre, la mthode "getResultat" examine le contenu de chaque nud. En effet, la mthode sintresse aux nuds contenant des mots-cls ou des liens hypertextes. Dans le premier cas cest la mthode "mesureMatch" qui teste lexistence des ces mots recherchs. Dans le second cas, comme premire itration, une nouvelle URL lie au document en question est ajoute pour tre traite dune manire rcursive. Ces paramtres retourns par la lecture dun document sont conservs dans une structure de donnes propre pour chaque document. La classe "Resultat" renferme les deux attributs "Existe" et "Links" : le premier indique si les mots recherchs existent dans le document, le deuxime renferme la liste des URLs construite partir des liens hypertextuels trouvs dans le document. Aprs avoir trait le document Web par la classe "DocumentParser", ce dernier est alors reprsent par une structure "Resultat". La classe "Filtre" renferme les mthodes servant construire la liste des documents pertinents aprs avoir filtr les structures "Resultats" des documents lus. La mthode "getLinks" ajoute les URLs des documents contenant les mots recherchs la liste finale et relance le processus de recherche dans les documents lis. Elle exclut les liens internes qui renvoient vers le mme document grce la mthode "redondance".
142
La relance du processus de recherche dans les URLs du vecteur "Links" est contrle par la mthode "getLinks" grce lattribut "profondeur" servant compter le nombre de pages successives ne contenant pas les mots rechercher.
2.2.2 Diagramme de squences du module de crawlage stratgique
La figure 5.17 dcrit les diffrentes interactions entre les classes participant au module de crawlage stratgique.
: In d e x : F il t re : D o c u m e n tP a r s er : R e s u lta t : A d ja c e n c e
U R L ,M o t s c l s
g e t L i n k s (U R L ) P arse(UR L) g e tR e s u lta t( ) L is t e l i e n s d a n s U R L P a r s e (L IE N i )
M e s u re M a t c h (m o t s c l s , U R L i ) g e t L i n k s (U R L i )
d o c u m e n t v a l id e
L is te d o c u m e n ts G e t M a t ri x (l i s t e d o c )
M a t ri c e A d j a c e n c e
Figure 5.17 : Diagramme de squences du module de crawlage stratgique
2.3 Conception et mise en uvre de lanalyse de document Web

La conception UML du module danalyse de document Web est faite via un package Java compos de plusieurs sous-packages dont les classes cooprent tout au long du processus danalyse. Pour illustrer larchitecture de ce module, nous prsentons le diagramme de classes gnral (voir figure 5.18). Le fonctionnement de ce module est illustr par le diagramme des squences de la figure 5.23.
Utilities
+ ContentAnalyser + Label + TagsAnalyser + TitleLabeller
Structures
+ Bloc + Document + ListBlocs + ListStyles + Style
Modules
+ DocumentAnalyser + Segmenter + TitlesIdentifier + TreeCreator
Figure 5.18 : Diagramme de classes gnral du module danalyse de document Web
143
2.3.1 Diagramme de classes du processus de segmentation
Dans une premire itration, nous avons examin la structure de larbre DOM. En se basant sur ce rsultat, nous avons dvelopp la classe "Segmenter" qui correspond au processus de segmentation. La mthode "getSegments" de cette classe permet dengendrer la liste des blocs et la liste des styles du document dans un seul parcours de larbre DOM. Nous avons aussi cr les classes du sous-package "Structures" et la classe "TagsAnalyser" du sous-package "Utilities" qui permettent danalyser les balises et les attributs HTML.
Structures
(from SDA)
Modules
(from SDA)
Document
baliseTitleContent : String lstMeta : Vector lstBlocs : Vector lstStyles : Vector
Segmenter
(from Modules) Segmenter() getSegments() parse()
ListStyles ListBlocs
blocs : Vector sort() attribNiveaux() styles : Vector
Utilities
(from SDA)
Style
taille : float bold : boolean italique : boolean align : int underlined : boolean font : String niveau : int Color : String weight()
TagsAnalyser
(from Utilities) getPoidsElement() getNodeStyle()
Bloc
text : String = "" label : String = "" niveau : int
Figure 5.19 : Digramme de classes du processus de segmentation
Lors de la segmentation, les mta-donnes et le contenu de la balise "title" sont extraits. Nous avons analys les rsultats obtenus en effectuant des statistiques sur le contenu des balises "meta" et "title". La figure 4.19 schmatise le diagramme de classes de ce processus. La mthode "parse" parcourt rcursivement larbre DOM en identifiant le type de chaque bloc et son style (il sagit de ltape dtiquetage prsente dans la spcification de ce processus). Pour ce faire, elle fait appel aux mthodes "getNodeStyle" et "getPoidsElement" de la classe "TagsAalyser". La premire permet de calculer le style dun noeud et la deuxime identifie le poids du sparateur vertical engendr par une balise. La classe "Document" est une structure de donnes qui contient la liste des blocs, la liste des styles, les mta-donnes et le contenu de la balise "title" du document. Toutes ces informations sont rcupres dans un seul parcours de larbre DOM.
2.3.2 Diagramme de classes du calcul des niveaux des styles
Nous nous sommes focaliss, dans la deuxime itration, sur le calcul des niveaux des styles puisquil sagit dun traitement essentiel pour lidentification des titres. Lide de dpart consistait attribuer chacun des attributs de style un poids et de calculer pour chaque style la somme pondre des valeurs de ses attributs. Ayant test plusieurs combinaisons de poids, nous avons dcouvert quil faut tenir compte de la rgularit des titres et la frquence des styles. Enfin, nous avons abouti la solution prsente dans la spcification ci-dessus.
144
Dans cette itration, la mthode "sort" de la classe "ListStyles" permet dattribuer des niveaux aux styles. Nous avons aussi cr la classe "ContentsAnalyser" dont la mthode "canBeTitle" permet dattribuer ltiquette "PeutEtreTitre" aux blocs en analysant leurs contenus. La figure 5.20 illustre le diagramme partiel de classes de cette itration.
ContentAnalyser
(from Utilities) canBeTitle() computeNBMotsBloc()
ListStyles
(from Structures) styles : Vector sort()
Figure 5.20 : Diagramme de classes du calcul des niveaux des styles 2.3.3 Diagramme de classes de ltiquetage smantique des blocs
Lobjectif de cette itration est didentifier les titres des sections "non corps" et les lgendes. En effet, des tiquettes sont attribues ces blocs en se basant sur des expressions rgulires. Pour chaque tiquette, nous avons dfini une expression rgulire apprise partir des exemples de documents. Ayant un bloc B et la liste des expressions rgulires, nous calculons le taux de correspondance entre B et chaque tiquette. Ltiquette ayant le taux de correspondance le plus lev sera slectionne. Nous attribuons cette tiquette B si le taux de correspondance est suprieur un seuil donn. Le taux de correspondance est calcul en identifiant la souschane du texte du bloc qui correspond lexpression rgulire. Le taux est gal au rapport entre la longueur de cette sous-chane et la longueur du texte du bloc. Ltiquetage smantique relve de la classe "TitleLabeller" du package "Utilities" qui dfinit les diffrents labels et expressions rgulires. Il implmente la mthode "mesure-Match" permettant de comparer une chane de caractres une expression rgulire en se basant sur la classe "RegularExpression" appartenant lenvironnement de dveloppement. Tel que prsent par la figure 5.21, la classe "TitleLabeller" dfinit plusieurs instances de la classe "Label" qui ont chacune un nom et une expression rgulire associe.
TitleLabeller TitlesIdentifier
(from Modules) TitlesIdentifier() identifyTitles() CAPTION_FIGURE : String = "(IMAGE|FIGURE) [0-99](\\.[0-99])?( |-|.|:)?" ... CAPTION_TABLE : String = "(TABLE|TABLEAU|TAB\\.) [0-99](\\.[0-99])?( |-|.|:)?" ... CAPTION_SEQUENCE : String = "(SEQUENCE|ANIMATION) [0-99](\\.[0-99])?( |-|.|:)?" ... mesureMatch() identifyLabel() 1..*
Label
name : String RegExpression : String
Figure 5.21 : Diagramme de classes de ltiquetage smantique des blocs
145
2.3.4 Diagramme de squences du module danalyse dun document Web
Le diagramme de squences que nous prsentons dans la figure 5.22 illustre les grandes tapes du processus danalyse dun document Web. Il sagit de mettre laccent sur lenchanement des traitements et son partage entre les principaux modules sans prsenter tous les messages changs entre les classes.
: DocumentAnalyser
: TreeCreator
: Segmenter
: TitlesIdentifier
: TitleLabeller
: ListStyles
: ListBlocs
1: arbre = GetTree(url) 2: doc = Segmenter(arbre) 3: parse(arbre)
4: identifyTitles(doc) 5: constructParagraphs(doc) 6: * identifyLabel(blocTexte)
7: sort()
8: attribNiveaux(ListStyles)
Figure 5.22 : Diagramme de squences du module danalyse dun document Web
2.4 Conception et mise en uvre du tri de documents par pertinence possibiliste

2.4.1 Diagramme de classes du module de tri par pertinence possibiliste
La figure 5.23 prsente le diagramme de classes du module de tri de documents par pertinence possibiliste qui renferme les classes ncessaires pour le calcul des pertinences, en termes de possibilit et de ncessit, des documents dj retourns par le module de crawlage. A chaque document de la liste retourne par le module de crawlage, nous faisons correspondre une structure de donne reprsente par la classe "struct_doc" qui renferme toutes les structures logiques de ce document (paragraphe, titre principal, sous-titre, lgende, figure, etc.) obtenues suite un processus danalyse, ainsi que les attributs stockant les calculs ncessaires pour les pertinences des documents en question. La classe "CalculPossibiliste" renferme les mthodes contribuant la construction de la nouvelle liste trie partant dune collection de documents retourns dans un ordre quelconque. En effet, la mthode "Construire_Tab_doc" a pour tche de lire chaque document de la collection et remplir le tableau "Tab_doc" dont chaque entre est une structure "struct_doc". La mthode "Calcul_Occurrences" permet de calculer pour chaque mot-cl ses occurrences dans chacune des structures du document, en utilisant la classe "occurrence". Les calculs des 146
degrs de pertinences possibilistes de chaque document ainsi que les tris selon ces degrs sont raliss par la mthode "Trier_Tab_doc". Les choix des coefficients de pertinences possibilistes feront lobjet de la classe "option". Communiquant avec le module doptimisation, la classe "CalculPossibiliste" retourne le rsultat du tri directement sil figure dans la base dhistorique du systme sans lancer de nouveau un processus de crawlage, mais il pourra faire un nouveau tri selon dautres prfrences.
s truct _doc num _do c : int url_d oc : S trin g tp : S t ring t1 : S t ring t2 : S t ring t3 : S t ring t4 : S t ring txt : S trin g lf : S trin g lt : S trin g lm : S tring poss ibilit e_t p : floa t = 0 poss ibilit e_t 1 : floa t = 0 poss ibilit e_t 2 : floa t = 0 poss ibilit e_t 3 : floa t = 0 poss ibilit e_t 4 : floa t = 0 poss ibilit e_t xt : float = 0 poss ibilit e_lm : float = 0 poss ibilit e_lt : float = 0 poss ibilit e_f : floa t = 0 tab tp[ ] : int tab t1[ ] : int tab t2[ ] : int tab t3[ ] : int tab t4[ ] : int tab txt [ ] : in t tab lf[ ] : in t tab lt [] : in t tab lm [ ] : int struct _do c() opt ion co ef_ tp : int co ef_ t1 : int co ef_ txt : in t op tion()
CalculP o ssibiliste Tab_do c[ ](struct _d oc ) M ot _rech Co nst ruire_Tab _do c() Ca lcu l_Occurence s() Trier-Tab_do c()
S DA (fro m Lo gic al V iew)
oc curence nb_ occ : in t = 0 com pt er()
Hist oriq ue (from t est )
Figure 5.23 : Diagramme de classes du module de tri par pertinence possibiliste 2.4.2 Diagramme de squences du module de tri par pertinence possibiliste
La figure 5.24 reprsente le diagramme de squences du module de tri, des documents collects, selon leurs degrs de pertinences possibilistes.
: CalculPossibiliste : struct_doc : occurence : option
Construire_Tab_doc() Tableau de structures documents Calcul_Occurences(Mots cls)
Occurences calcules Demande liste des poids Liste des poids d'utilisateur Trier_Tab_doc() Liste documents tris
Figure 5.24 : Diagramme de squences du module de tri par pertinence possibiliste
147
2.5 Conception et mise en uvre du module doptimisation

Comme le montre la figure 5.25, le module doptimisation du systme contient la classe "Connection" renfermant toutes les mthodes ncessaires la gestion de la base de donnes et les oprations de mise jour et de manipulation de la table Historique. Les deux mthodes "Insertion" et "Suppression" sont responsables de la mise jour des entres de la table Historique. La mthode "find" cherche une entre de la table et la mthode "find_path" a pour tche lextraction des informations stockes dans le fichier dont le chemin figure dans une entre trouve dans la table. Lauthentification de lutilisateur se connectant la base, pour lopration de suppression des enregistrements de la table, est contrle par la mthode "isValidUser".
C raw lage (fro m t e s t)
P o s s i b i l is t e ( fro m te s t)
c o n n e c t io n c o r re c t : b o o l e a n is V a l id U s e r( ) g e t U s e r Ty p e ( ) c o n n e c t io n () S u p p r e s s io n () In s e r ti o n ( ) fi n d () fi n d _ p a t h ()
Figure 5.25 : Diagramme de classes du module doptimisation
3. Conclusion
La spcification et la conception de notre systme de recherche dinformation que nous prsentons dans ce chapitre rpondent bien notre problmatique de dpart prsente au dbut de cette thse. En effet, le fait quon a affaire des sources dinformations collectes partir du rseau Internet, nous a fait opter pour le dveloppement dun crawler capable daccder lInternet grce au nouvel algorithme de crawlage stratgique propos. Il nous a paru galement intuitif dinterfacer lutilisateur au moyen dinterface permettant lentre et la sortir des informations au systme. Enfin, le fait quon a affaire des environnements ouverts et dynamiques nous a fait opter pour le dveloppement de modules intermdiaires assurant les traitements sur les documents recherchs, savoir lanalyse des documents Web, le calcul de leurs pertinences possibilistes et enfin leur tri selon les prfrences de lutilisateur du systme. Afin de raliser larchitecture propose pour le systme SARIPOD, nous choisissons les Systmes Multi-Agents (SMA) qui sadaptent bien des systmes complexes et ouverts o il est difficile de tout prvoir lavance. Par ailleurs, notre tude des SRI a bien montr la complexit dun tel systme faisant intervenir des acteurs, des connaissances et des interactions multiples. Pour mettre ces connaissances en synergie dans un SRI, les SMA sont galement adapts pour la modlisation du comportement dun SRI, ce dernier tant complexe. Nous prsentons dans le chapitre suivant la ralisation, lexprimentation ainsi que lvaluation du systme SARIPOD tout en proposant des extraits de sa ralisation.
148
Chapitre 6 : Ralisation et Exprimentation du systme SARIPOD
Chapitre 6
Ralisation et exprimentation du systme SARIPOD

Lapproche mthodologique suivie lors du dveloppement du systme SARIPOD est le prototypage. Il sagit, en fait, dun dveloppement qui a pour objectif de dmontrer la faisabilit de ce projet et de mettre en exergue limportance et la convivialit de linterface graphique et de la technique de crawlage stratgique dans la recherche dinformations sur Internet. De plus, ce dveloppement doit permettre une certaine flexibilit pour constituer la pierre angulaire dun grand projet de systme multi-agent de recherche de documents qui serait heberg par un serveur. Pour toutes ces diffrentes considrations et compte tenu des informations manipules par ce genre de systme et de laspect parallle du traitement, le dveloppement du systme SARIPOD doit permettre une certaine rapidit de traitement, une flexibilit et une portabilit. Par consquent, le choix du langage Java sest impos tant donne sa grande portabilit. Une solution efficace pour satisfaire tous ces objectifs est lutilisation des agents logiciels. Maes Patie [Maes, 1994] dfinit un agent logiciel comme tant un programme informatique autonome qui assiste lutilisateur dans lexcution de ses tches et qui communique avec dautres agents. Si en plus de ces caractristiques lagent peut manipuler des symboles ou des abstractions, sil peut agir en temps rel, peut apprendre et peut sadapter aux prfrences de lusager, nous parlons alors dans ce cas dagents logiciels intelligents. Lutilisation des agents logiciels pour la recherche dinformations offre certains avantages par rapport aux mthodes courantes telles que les moteurs de recherche. Le Tableau 6.1 rcapitule ces avantages [Hermans, 1997]. Les exprimentations que nous avons ralises concernent la phase de reformulation smantique de requtes et la phase de classification thmatique des documents rsultat dune requte de recherche. Pour la premire phase nous avons utilis un dictionnaire de verbes extrait du dictionnaire franais Le Grand Robert . Nous avons prouv lutilit de lusage du RPMH de dictionnaire dans la reformulation de requte. Pour la deuxime phase de classification des documents nous avons utilis comme base de test lencyclopdie informatique libre nomme CommentCaMarche qui rpond bien nos besoins de test. Nous proposons galement un cadre comparatif entre la classification propose par le systme et celle propose par lexpert ralisateur de lencyclopdie. Nous commenons dans la premire section par prsenter le cadre de notre travail en terme denvironnement logiciel et la plate-forme multi-agent choisie. La deuxime section est consacre la dfinition des rles et des intractions des agents du systme SARIPOD. La troisime section permet dexposer limplmentation du systme propos en prsentant quelques extraits de sa ralisation. La quatrime section propose les rsultats des exprimentations en ce qui concerne les deux phases de reformulation de requtes et de classification des documents rsultat de recherche.
149
Critres de recherche
Indexation
Les moteurs de recherche La recherche dinformations est faite en se basant sur un ou plusieurs mots-cls. Ceci suppose que lusager est capable de formuler exactement ses mots-cls. Dans le cas contraire, plusieurs informations non pertinentes seront retournes et des informations pertinentes ne seront jamais retrouves. Lindexation dinformation est faite par collection de mta-informations sur les informations et sur les documents disponibles sur le Web. Cest une mthode coteuse (en temps et en ressources), inefficace et qui ne correspond pas bien la nature dynamique de lInternet. La recherche dinformation est souvent limite quelques services (WWW). Trouver linformation offerte par dautres services (des bases de donnes) oblige souvent lusager se dbrouiller seul. Les moteurs de recherche ne sont pas toujours accessibles, faute de connexion ou de congestion. Lusager sera alors oblig dutiliser un ou plusieurs autres moteurs de recherche ce qui ncessitera probablement une autre faon de procder. Linformation sur le rseau est trs dynamique, souvent les moteurs de recherche font rfrences des informations dont la localit a chang. Les moteurs de recherche napprennent pas et ne sadaptent pas aux usagers. En plus, lutilisateur ne peut pas recevoir les mises jour des informations. Faire de la recherche dinformations dune telle faon est trs coteux.
Les agents Les agents sont capables de chercher linformation dune faon plus intelligente, par exemple en cherchant des concepts plutt que des mots-cls. Les agents sont galement capables de corriger les requtes de lusager, en se basant sur le modle de ce dernier ou sur dautres informations. Les agents peuvent crer leurs propres bases de connaissances qui sont mises jour aprs chaque recherche. Si linformation change de site, les agents sont capables de la trouver et, par la suite, sadapter ce changement. En plus, les agents sont capables de communiquer et cooprer entre eux (et cest l leur vraie force), ce qui acclre et facilite la recherche. Les agents peuvent dbarrasser lutilisateur de certains dtails, comme la faon avec laquelle un service doit tre manipul. Lusager se concentre seulement sur ce quil cherche, lagent soccupe du reste. Etant donn que lagent rside sur la machine de lutilisateur, il est toujours la disposition de ce dernier. Un agent peut excuter plusieurs tches jour et nuit, et parfois mme il pourra les excuter en parallle. Lavantage dun tel agent rside aussi dans le fait quil est intelligent et quil peut par consquent essayer dviter les heures de pointe. Les agents sadaptent aux prfrences et aux souhaits de chaque usager. Ils peuvent ainsi apprendre de leurs recherches prcdentes et par la suite comprendre mieux les besoins des utilisateurs.
Interface usager
Accessibilit
Adaptabilit
Tableau 6.1 : Comparaison entre les moteurs de recherche et les agents logiciels
1. Cadre du travail
1.1 Environnement Logiciel
La facilit dintgration et la rutilisation sont les principales caractristiques de notre systme. Le dveloppement dun paquetage Java intgrable dans toute plate-forme ou application (Windows, Linux, Web) tait lobjectif principal de la tche dimplmentation. Pour ce faire, nous avons choisi lenvironnement Borland JBuilder Entreprise 10.0.176.120. Outre les avantages de la technologie oriente objet, ce dernier possde plusieurs qualits relativement nos besoins. En effet, lintgration de composants logiciels dans les applications dveloppes dans cet environnement est simplifie. Dune part, JBuilder nous a permis dintgrer deux composants logiciels fondamentaux pour notre architecture. Il sagit des cinq paquetages : un pour le RPMH de dictionnaire, un pour le RPMH de pages Web, un pour le traitement possibiliste, un pour lanalyse des documents Web collects et un pour
150
lapplet graphique 3D. Une fois intgrs, nous avons pu structurer et adapter ces paquetages proprement aux besoins de notre systme. Dautre part, cet environnement permet le dveloppement dun paquetage JAR intgrable que ce soit dans des applications monoposte ou des applications Web. Nous rappelons que lun des objectifs du prsent travail est de contribuer lamlioration des performances des systmes de recherche dinformation sur Internet. La conception des diagrammes de classes et de squences a t ralise avec le langage de modlisation UML via le software Rational Rose Enterprise Edition 2003.
1.2 La plate-forme multi-agent Jade

Afin de profiter des travaux dautres chercheurs dans le domaine et pour la rapidit de prototypage nous avons eu recours aux plates-formes existantes de dveloppement de systmes multi-agents. Ltude ralise au sein du laboratoire RIADI par [Ben Mena et al., 2005], nous a servi dans le choix dune plate-forme multi-agent convenable pour le dveloppement du systme SARIPOD. En effet, le choix de la plate-forme JADE savre raisonnable. De plus, JADE sera aussi adapte pour un dploiement sur serveur. Ce choix est le rsultat dune comparaison entre la plate-forme JADE et dautres platesformes, essentiellement : DECAF, AGENTBUILDER, ZEUS, JAFMAS/JIVE, JACK, AGENTTOOL, MADKIT, SWARM et STARLOGO. Les critres de comparaison retenus sont : 1. Mthodologie associe loutil : La plate-forme doit associer une mthodologie couvrant les diffrentes tapes du cycle de vie du dveloppement dun SMA. 2. Facilit dimplmentation et de dploiement : Pour raliser un systme de recherche dinformation sur Internet, il faut utiliser un langage de programmation de haut-niveau supportant la programmation Oriente-Objet. Dans ce cas la programmation des threads et leur synchronisation o lchange de message est aussi indispensable. Dautre part limplmentation des communications doit tre transparente. 3. Interface graphique pratique et multifonction : La plate-forme doit possder une interface utilisateur qui facilite le dveloppement. La plate-forme doit permettre la visualisation des agents ainsi que leur gestion et celle des interactions avec le systme. 4. Rutilisation simple : Parmi les objectifs fixs, nous avons mentionn lextension du systme pour dautres domaines proches ce qui ncessite de prendre en compte ce critre. 5. Possibilit de suivi et de dboguage : Nous avons ralis un systme multi-agent de recherche dinformation sur Internet avec une forte coopration entre les acteurs de ce systme. De plus, le nombre de composants est trs important. Des outils de suivi et de dboguage sont ainsi ncessaires. 6. Connexion dautres composants : Notre systme est connect une base de donnes enregistrant les requtes dj joues par ce systme afin de faciliter la gestion de lhistorique et damliorer le temps de rponse de notre systme. 7. Possibilit de distribution : Parmi les besoins identifis pour lextension de notre systme on sintresse la distribution de la recherche dinformation sur des machines distantes afin de rendre la recherche plus efficace et permettre la coopration entre les hommes et les machines.
151
8. Disponibilit de documentation : La documentation est disponible dans JADE non seulement pour ltape de dveloppement mais aussi pour ltape de dploiement, pour pouvoir remdier au problme de maintenance et dexcution. 9. Standard : La plate-forme JADE est conforme un standard pour une interoprabilit avec des agents htrognes et interactifs et des systmes multi-agents. 10. Accs au code source : La plate-forme JADE est accessible ainsi que son code source. Ce qui lui permet une flexibilit dextension. 11. Portabilit : Loutil JADE est portable sur diffrents environnements et permet aussi une excution simple du systme indpendamment de lenvironnement. En effet, partir du rsultat de la comparaison, la plate-forme JADE a montr une nette supriorit pour lensemble de ces critres. Par ailleurs, Jade est un outil qui rpond aux normes FIPA 97. Il fourni des classes qui implmentent JESS29 pour la dfinition du comportement des agents. Loutil possde trois modules principaux (ncessaire la norme FIPA30). Le DF (Director Facilitator) fourni un service de pages jaunes la plate-forme. Le ACC (Agent Communication Chanel) gre la communication entre les agents. Le AMS (Agent Management System) supervise lenregistrement de chaque agent, son authentification, son accs au systme et son utilisation. Les agents communiquent par le langage FIPA ACL. Un diteur est disponible pour lenregistrement et la gestion des agents. Aucune autre interface nest disponible pour le dveloppement ou limplmentation ce qui ncessite une bonne connaissance des classes et des diffrents services offerts [Bellifemine et al., 2003].
2. Les agents du systme SARIPOD

Lide de dpart pour les SRI est de distribuer les connaissances pour parer aux problmes de capacit de stockage, de cohrence de la masse dinformation traite et de complexit de rsolution due cette masse dinformation. Les systmes multi-agents (SMA) sont les plus reprsentatifs de cette catgorie. Par ailleurs, et devant la diversit des connaissances et la complexit du processus de recherche, il est fort intressant dadopter la reprsentation sous forme dagents qui vont tre soit reprsentatifs des oprations de mises en uvre, soit dtentir les connaissances appropries. Nous avons donc choisi un certain nombre dagents qui participent tous, chacun selon sa comptence propre, la concrtisation de lobjectif global qui est de satisfaire le besoin dinformation de lutilisateur. Ce but peut tre considr suivant plusieurs angles pour constituer des sous-buts, et ce, selon la nature de besoin. Pour chaque sous-but, une stratgie de recherche approprie, qui doit sadapter la nature de besoin, peut tre suivie. La dfinition dune stratgie de recherche consiste choisir quels sont les agents qui seront activs au cours de la rsolution du problme. Pour introduire les diffrentes connaissances, nous avons choisi dutiliser trois couches dagents, dont chacune est rserve certains agents soit pour rcuprer ou pour y stocker des connaissances. Les agents que nous proposons interagisssent et cooprent selon le rle qui leur est confi pour atteindre lobjectif commun.
29 30
http://www.jessrules.com/ http://www.fipa.org
152
Lorganisation du systme propos (affectation des rles des agents, interactions et cooprations) ainsi que les diffrentes connaissances sont dtailles et illustres par des schmas dans les sections suivantes.
2.1 Les couches dagents du SARIPOD

Le fait quon a affaire des sources dinformations collectes partir du rseau Internet, nous a fait opter pour le dveloppement dagent crawler capable daccder lInternet. Il nous a paru galement intuitif dinterfacer lutilisateur au moyen dagents dinterface. Finalement, et comme nous lavons soulign plus haut, le fait quon a affaire des environnements ouverts et dynamiques nous a fait opter pour le dveloppement dune couche dagents intermdiaires. On voit donc apparatre trois niveaux dabstraction au niveau de larchitecture multi-agent abstraite du systme SARIPOD :

La couche de communication avec lutilisateur ; La couche de traitement dinformations ; La couche dextraction dinformations.
Dans le systme SARIPOD, les trois couches font rfrence la technologie agent et la mdiation entre ces mmes agents (voir figure 6.1).
Couche de communication avec lutilisateur Couche de traitement dinformations Couche dextraction dinformations
Utilisateurs
Figure 6.1 : Les couches abstraites du systme SARIPOD
Au niveau du contenu prcisment, les trois couches se dfinissent comme suit :

2.1.1 Couche de communication avec lutilisateur
Cette couche est charge des communications entre SARIPOD et lusager. Elle comprend des agents dinterface interagissant avec lutilisateur pour laider raliser une tche bien prcise. Cette interaction se traduit par une transformation des requtes de lusager afin de faciliter la communication avec les agents de la couche de traitement. Cette couche vrifie galement la consistance des donnes fournies par lutilisateur.
2.1.2 Couche de traitement dinformations
Cette couche de traitement dinformations reoit de la couche de communication les requtes reformuler ainsi que les prfrences de l'utilisateur. Elle dtermine, partir du RPMH de dictionnaire, les mots les plus proches des mots-cls de l'utilisateur et permet, en consquence, de reformuler ses requtes via un agent lexicographique interagissant avec le RPMH du dictionnaire. Cette couche fournit galement la dfinition dun agent page Web donnant la structure logique de chacune de pages Web recherches, celle d'un agent d'historique enregistrant toutes les requtes et leurs rponses dans une base d'historique, celle dun agent de mesures possibilistes (mesure de possibilit, mesure de ncessit, mesure de pertinence possibiliste) ainsi que celle dun agent slectionneur permettant l'organisation des pages Web, retourns par la couche dextraction dinformations, selon les prfrences de l'utilisateur. En fait, lassistance globale dans cette couche est assure par des agents superviseurs (dcideur, mdiateur et contrleur derreur).
153
2.1.3 Couche dextraction dinformations
Cette couche est compose uniquement dun agent crawler assurant lexploration (crawlage) du Web pour slectionner les pages Web contenants les mots-cls recherches. En effet, cet agent forme une interface entre la source dinformations (le rseau Internet) et la couche de traitement dinformations. Nous pouvons travailler avec plusieurs agents crawler. En effet, comme pour les fourmis, s'il y a des zones du Web peu intressantes, un seul agent peut suffire, par contre si on tombe sur un ensemble riche en pages potentiellement pertinentes, plusieurs agents pourraient travailler en parallle. En fait, les pages Web pertinentes sont comme la nourriture, elles devraient attirer beaucoup d'agents. Si on vise des millions de pages Web, il n'est pas crdible qu'un seul agent soit dvolu cette tche. Mais linconvnient majeur de ce type de systme est de constituer un goulot dtranglement qui peut diminuer considrablement les performances du systme ds que le nombre des agents et des demandes augmente [Ferber, 1995].
2.2 Rle des diffrents agents

La coopration entre les diffrents agents du systme SARIPOD est reprsente par la figure 6.2. Ces agents sont rpartis sur les trois couches ci-dessus dans des concentrations variables. Ces diffrents agents sont : agent utilisateur ; agents dinterface ; agent lexicographique ; agent de mesures possibilistes ; agent slectionneur ; agent page Web ; agent crawler ; agent d'historique; agents superviseurs [Elayeb et al., 2007b].
Agents utilisateurs
Lagent utilisateur est la porte dentre des requtes externes au systme. Il facilite lutilisateur la formulation de sa requte propose au systme. Lagent utilisateur est capable de garder les prfrences de lutilisateur au fur et mesure que celui-ci utilise le systme. En effet, il enregistre dans une base dhistorique les requtes dj joues par un utilisateur ainsi que les prfrences correspondantes dans le but de pouvoir les utilises ultrieurement. Il est capable aussi de stocker de linformation pour lutilisateur et dagir comme un agent ressource. videmment il y a autant dagents utilisateurs quil y a dutilisateurs. Chaque agent soccupe de lutilisateur auquel il est rattach.
Agents dinterface
Ils ont pour rle dassurer la communication entre le systme et ses utilisateurs. Ils sont de deux types :
a. Agent dentre
Lagent dentre analyse la requte utilisateur et transmet par la suite les mots-cls recherchs l'agent lexicographique qui dtermine leurs mots proches partir du RPMH de dictionnaire de mots.
b. Agent de sortie
Lagent de sortie est charg de prsenter les rsultats de la recherche lutilisateur. En effet, il est capable de confronter les rsultats de sortie aux prfrences de lutilisateur. Cette confrontation ncessite la prsentation des pages Web recherches selon les prfrences proposes, dans le cas o le rsultat fourni par lagent slectionneur est diffrent de celui prfr par lutilisateur.
154
Agent Utilisateur
RPMH de dictionnaire Le Grand Robert
Agent Page Web
Agents dinterface
Agent de sortie
Agent dentre
Agent Lexicographique
Agent

Agents Superviseurs
Agent Dcideur Agent Mdiateur Agent Contrleur derreur Crawler
Mesures Possibilistes
Agent
Agent Slectionneur
Agent Historique
Base dhistorique <R, Liste d URL>
Couche de communication avec lutilisateur
Couche de traitement dinformations
Couche dextraction dinformations
Figure 6.2 : La coopration entre les agents de SARIPOD Agents superviseurs
Ils veillent au bon fonctionnement du systme, tous les autres agents doivent tre leur service et sous leur responsabilit. Ils sont chargs daffecter les tches aux diffrents agents intervenant dans le processus de recherche dinformations (agent mdiateur), de dcider en cas dune multitude de choix (agent dcideur) et de contrler les erreurs possibles lors dune 155
session de slection des documents Web les plus pertinents (agent contrleur derreur). Nous dtaillons dans la suite la tche de chacun de ces trois agents.
a. Agent mdiateur
Il a pour rle daffecter les diffrentes tches de recherche aux agents appropris. Un problme de recherche dinformation peut tre dcompos en plusieurs tches savoir : 1. Lentre et lanalyse de la requte utilisateur de recherche dinformation ; 2. Linterrogation du RPMH du dictionnaire via lagent lexicographique qui dtermine les mots les plus proches (synonymes) des mots-cls de lutilisateur du systme par lapplication de lapproche base de circuits existants entre les nuds termes ; 3. La transformation des URLs crawles en des pages Web et la dtermination de leurs structures logiques par lagent page Web; 4. La dtermination de la pertinence de chaque document via lagent de mesures possibilistes ; 5. Lorganisation de ces documents dans un ordre dcroissant de pertinence via un agent slectionneur; 6. La sortie du rsultat final de la recherche dans une reprsentation conforme aux prfrences de lutilisateur ; 7. Le stockage dune copie du rsultat final dans une base dhistorique via un agent dhistorique. Toutes ses tches sont ralises par les diffrents agents du systme. En effet, lagent crawler explore le Web pour extraire les URLs des pages Web recherches. Lanalyse des pages Web correspondantes ses URLs est faite par lagent page Web. Lagent mdiateur permet de planifier ces diffrentes tches et les affecter aux diffrents agents du systme, cest un rle moteur qui peut facilement tre limit dans le cas o le systme devient compltement distribu ; c'est--dire le nombre dagents mdiateurs est inversement proportionnel au degr de cognition des autres agents du systme. Dans cette version du systme SARIPOD, lagent mdiateur-facilitateur joue le rle dun facilitateur. Lagent mdiateur (ou facilitateur) permet lallocation des tches, il dispose de linformation propos des comptences dautres agents. En fait, lintrt principal de cette architecture est de favoriser la cohrence du systme. De plus le besoin doptimisation est plus facilement satisfait. Connaissant lensemble des agents disponibles, il est plus facile l'agent mdiateur de choisir le meilleur des agents par rapport une demande de tche donne. Mais linconvnient majeur de ce type de systme est de constituer un goulot dtranglement [Zaghdoud, 2003] qui peut diminuer considrablement les performances du systme ds que le nombre des agents et des demandes augmente [Ferber, 1995]. En effet, pour le cas de la prsente application, il est prfrable dutiliser un agent superviseur (ou mdiateur), dailleurs le nombre dagents est limit et le risque davoir un goulot dtranglement est minime. Par contre, pour un dveloppement rel du systme SARIPOD laspect totalement distribu devient ncessaire.
b. Agent dcideur
Cet agent dcideur a un rle fondamental dans le systme SARIPOD. Dans un premier temps, il est charg de faire une slection post-traitement aprs avoir men terme les diffrentes pages Web slectionnes par les agents slectionneurs pour que les agents de sortie sachent organiser ce rsultat dans lordre prfr par lutilisateur. Dautre part, cet agent dcideur sera dot dune intelligence pour faire un prtraitement des documents Web pertinents, lui permettant ainsi de faire gagner au systme un temps considrable.
156
b. Agent contrleur derreur
Il est charg de contrler le bon fonctionnement du systme en excutant les directives de contrle des erreurs communiques par chaque agent du systme. Il informe le dcideur de ce qui se passe dans le systme qui son tour dcide darrter ou non un agent. Souvent, il analyse la cause derreur de chaque agent en difficult, sil sagit par exemple dun manque dinformation, il essaye de rsoudre ce problme en demandant plus dinformation auprs de lagent source derreur. Dans le pire des cas, il dcide darrter le fonctionnement dun agent.
Agent lexicographique
Dans le cadre de la reformulation de la requte utilisateur, lagent lexicographique veille sur la construction et linterrogation du RPMH du dictionnaire de mots en vue de dterminer les mots smantiquement proches des mots-cls proposs par lutilisateur du systme. Cet agent interagit avec les agents dinterface pour dcider la requte finale proposer au crawler travers les agents superviseurs.
Agent crawler
Lobjectif de cet agent est de pouvoir crawler le Web selon la stratgie dcrite dans le chapitre prcdent. Il obtient un ensemble des URLs des pages Web, dont chacune contient un ou plusieurs mots-cls de la requte reformule. Par ailleurs, cet agent se charge aussi de la cration du RPMH de pages Web ainsi que leur classification sous forme de petits mondes. En fait, dans notre prototype, lagent crawler interagit avec lagent page Web via lagent de mesures possibilistes pour permettre lagent slectionneur de trier les pages Web slectionnes selon leurs degrs de pertinences possibilistes (les tches des ces agents seront dtailles dans la suite).
Agent page Web
Lagent page Web est charg de lanalyse de pages Web collectes par lagent crawler. La structure logique de chaque page Web est envoye par cet agent vers lagent de mesures possibilistes.
Agent de mesures possibilistes
Cet agent soccupe du rseau possibiliste du systme SARIPOD. Il calcul le scores de pertinence possibiliste de chaque page Web slectionne par lagent crawler, en se basant sur la structure logique de chacune de ses pages. Ces scores seront achemins vers lagent slectionneur qui dcide leur organisation selon les prfrences de lutilisateur.
Agent slectionneur
Lagent slectionneur est capable de rpondre des propositions du type : le document d1 est prfrable au document d2 ou lensemble {d1, d2} est prfrable lensemble {d3, d4}. En effet, cette proposition montre bien que la liste ordonne des documents en rponse un besoin utilisateur est traite dune manire qualitative, et que notre approche qualitative ordinale est utilise dans la reprsentation des documents et des requtes. Par ailleurs, cet agent trie les documents Web dans un ordre dcroissant de leurs degrs de pertinences possibilistes ; le document rpondant le plus aux prfrences de lutilisateur sera affich en tte de la liste trie des documents, retourn lagent de sortie qui vrifie sa conformit aux prfrences de lutilisateur.
157
Agent dhistorique
Cet agent stocke une copie de chaque requte joue par le systme ainsi que sa rponse dans une base dhistorique. En cas o lutilisateur rjoue une requte, cet agent lui propose celle de lhistorique et lui donne aussi la possibilit de changer ses prfrences et relancer des nouveaux calculs des scores des pertinences possibilistes des documents Web. Ainsi, le systme SARIPOD bnficie des avantages apports par la richesse de la modlisation multi-agent, faisant cooprer les diffrentes tches, et par les mthodes utilises par les agents et particulirement les agents de cration des deux RPMH et du Rseau Possibiliste. Dautre part, nous avons propos un systme de communication entre les diffrents agents permettant de synchroniser leurs comportements et leurs actions sur lensemble des connaissances. Ces communications sont assures via des messages qui rendent les agents plus indpendants. La figure 6.3 montre quelques communications par messages changs entre les diffrents agents de la plate-forme SARIPOD.
Liste des URLs crawles
Agent Crawler
Confirmation de la reception de la liste des URLs crawles
Agent Page Web

Les structures logiques des Pages Web analyses
Agent Lexicographique
Terme existant Ou terme inexistant
Requte reformule ou non ?
Requte reformule ou Rquete non reformule Le terme de la requte est existant dans le RPMH de dictionnaire ou non ?
Confirmation de la reception des structures logiques
Agent dEntre Agent de Sortie

Rsultat conforme Ou Rsultat non conforme
Agent Mdiateur
Requte dj joue par SARIPOD ou non ?
Rsultat conforme avec le profil de lutilisateur ou non ?
Tri dj jou Ou Nouveau tri
Requte dj joue Ou Nouvelle requte
Agent Slectionneur
Tri dj jou par SARIPOD ou non ?
Agent Historique
Figure 6.3 : Communications par messages changs entre les agents de SARIPOD
158
3. Implmentation du systme SARIPOD

Comme toute autre application le systme SARIPOD est intgr sous la forme dun package Java dans la plate-forme Jade. Les classes agents hritent leurs proprits et leurs mthodes des classes de base. Nous prsentons dans la suite limplmentation de chacun des modules du systme et nous prsentons quelques extraits de la ralisation. La figure 6.4 prsente linterface Jade du systme SARIPOD.
Figure 6.4 : Interface Jade du systme SARIPOD
3.1 Interfaces principales du SARIPOD

Nous avons regroup toutes les fonctionnalits utiles de notre systme SARIPOD dans une seule interface graphique conviviale et interactive. Ainsi, linterface gnrale comprend les cinq onglets suivants (voir figure 6.5). 1- Onglet RPMH de pages Web : cet onglet sert afficher les URLs contenant les mots-cls recherchs suivant la technique de crawlage dj spcifie. En effet, lutilisateur insre son URL de dpart ainsi quun ensemble de mots-cls. Il demande la reformulation de sa requte via le bouton Ajouter Synonyme . Le systme demande chaque itration le nombre de synonymes dsirs par lutilisateur pour chaque mot-cl. Cette technique est utile et permet au systme de dtecter les prfrences entre les mots-cls de lutilisateur. Le processus de recherche est lanc par le bouton Rechercher . Le bouton Vider la Base permet de vider la base dhistorique. Le bouton Arrter permet de suspendre le systme. Le bouton initialiser permet dinitialiser le systme. Le bouton RPMH des pages Web permet la construction du RPMH des pages Web par lapproche des circuits. Une visualisation 3D de cet RPMH est assure par le bouton RPMH 3D . Le bouton
159
Quitter permet de fermer le systme. Finalement le systme permet laffichage des informations propos du temps de rponse ainsi que du nombre total des documents retrouvs. 2- Onglet Pertinence Possibiliste : cet onglet permet de trier les documents collects selon leurs pertinences possibilistes. En effet, lutilisateur validera son profil par le bouton Prfrences de linterface de la figure 6.6. Il pourra enfin, enregistrer le rsultat final (voir figure 6.7) sous nimporte quel format (.txt ; .doc ; .pdf ; .html ; etc.) en appuyant sur le bouton Enregistrer . 3- Onglet Matrice Index : cet onglet sert afficher la matrice Index du RPMH de pages Web. En effet, lutilisateur peut afficher la matrice index ncessaire la construction du RPMH de pages Web via linterface de la figure 6.8. Il pourra, en outre, enregistrer cette matrice sous nimporte quelle format (.txt ; .doc ; .pdf ; .html ; etc.). Une copie de ce fichier sera automatiquement stocke dans le dossier dhistorique du systme. 4- Onglet Matrice Adjacence : cet onglet sert afficher les proximits entre les pages Web selon la mthode prsente dans le chapitre 4. En effet, cette matrice ne pourra tre engendre qu partir de la matrice dindex. De la mme faon que la matrice Index, lutilisateur pourra lenregistrer sous nimporte quel format et une copie de ce fichier sera automatiquement stocke dans le dossier dhistorique du systme (voir figure 6.9). 5- Onglet RPMH de dictionnaire : cet onglet permet de dterminer les synonymes d'un mot donn en paramtre via le graphe du RPMH de dictionnaire.
Figure 6.5 : Interface gnrale du systme SARIPOD
160
Figure 6.6 : Interface de paramtrage des coefficients de pertinence possibiliste
Figure 6.7 : Interface du fichier rsultat du systme SARIPOD
161
Figure 6.8 : Interface des URLs collectes par le crawler
Figure 6.9 : Interface de proximit entre les pages Web
162
3.2 Interfaces du RPMH de pages Web

Nous avons ralis une interface du RPMH de pages Web servant pour la dtermination des pages contextuellement proches de la page racine. En fait, linterface du RPMH de pages Web, prsent par de la figure 6.10, est forme dun cadre principal (Frame) contenant un champ texte servant saisir lURL de la page Web racine, trois boutons chercher Graphe et Groupes et une liste (JcomboBox) Lg Circuit dsignant la longueur de circuit entre la page racine et les pages contextuellement proches. Le bouton chercher dans cette interface dclenche la recherche des URLs des pages Web recherches et affiche trois colonnes : la premire contient tous les URLs des pages proches tris par ordre de priorit, la deuxime indique la proximit de chaque page par rapport la page racine et la troisime indique le nombre de circuits qui passent par chaque page.
Figure 6.10 : Interface de calcul du nombre de circuits slectionns entre les pages Web
L'appui sur le bouton Graphe de la figure 6.10 nous affiche une nouvelle fentre contenant les circuits passant par la page Web racine et prsentant les branches du RPMH de pages Web (voir figure 6.11).
163
Figure 6.11 : Interface des branches de RPMH de pages Web
L'appui sur le bouton Groupes de la figure 6.10 nous affiche un nouveau cadre (Frame) contenant un bouton Grouper les pages et une liste (JcomboBox) seuil . Le choix du seuil et lappui sur le bouton Grouper les pages dclenche la recherche des groupes de pages (voir figure 6.12) avec leur fusion et l'affichage de ces groupes dans des panneaux (voir figure 6.13). En fait, ces groupes fusionns reprsentent les petits mondes de sens dans le RPMH de pages Web.
Figure 6.12 : Interface de groupement des pages dans le RPMH de pages Web
164
Premier classe de documents contenant les URL des deux pages Web (P1 et P22). Deuxime classe de documents contenant les URL des deux pages Web (P1 et P35).
Troisime classe de documents contenant dautres URL des pages Web retrouvs.
Figure 6.13 : Interface de fusion des groupes de pages dans le RPMH de pages Web
La visualisation graphique 3D du RPMH des pages Web est prsente par la figure 6.14. En effet, lutilisateur de SARIPOD pourra naviguer dans le graphe RPMH des pages Web rsultat de la recherche tout en faisant des zoom + ou ainsi que des rotations et des dplacements du graphe dans les quatre directions (droite, gauche, haut et bas). En fait, ce graphique correspond un chantillon des rsultats prsents dans les tableaux donns en annexe 4. Le premier petit monde de pages Web sintresse au thme rseaux et protocoles . Ces pages sont caractrises par un ensemble de mots ou expressions faisant partie de ce thme tels que : Protocoles, Transmission de donnes, quipements rseaux, Internet, Technologies, rseaux sans fil, WiFi (802.11), BleuTooth (802.15), Courants porteurs (CPL), etc. Alors que le second petit monde de ces pages Web sintresse au thme systmes dexploitation. Ces pages sont caractrises par un ensemble de mots ou expressions faisant partie de ce thme tels que : Unix, Linux, Mac/MacOS, Windows 95/98/Me, Windows NT/2000/XP, MS-DOS, AS/400 OS/400, etc. Ainsi, toutes ces pages Web rpondent fortement cette description alors que toutes les autres pages crawles y rpondent bien moins telle que la page Web visualise unique dans ce graphe. Dans ce graphe 3D, les pages Web de chacun de ces deux petits mondes sont thmatiquement proches. En effet, ces pages sont obtenues suite un processus de crawlage stratgique (on ne garde des pages que si elles contiennent un mme mot-cl ou, plus gnralement, des mots proches de ces mots cls de dpart) o les artes entre les nuds pages reprsentent les proximits thmatiques entre ces pages obtenues grce la matrice dadjacence leve une certaine puissance (voir chapitre 4). En outre, nous avons bien dmontr dans la figure 6.21 et le tableau 6.11 que toutes les pages, obtenues suite cette dmarche, sont des RPMH (L petit, C grand, loi de puissance).
165
Dautre part, lintrt de la visualisation 3D du RPMH de pages Web, dans le systme SARIPOD, est de montrer lutilisateur du systme une justification claire de ce quil a obtenu dans sa matrice de proximits entres les pages Web. Car si cette matrice est de trs grande taille, il est difficile de dtecter quelles sont les pages qui font partie du mme petit monde, alors qu laide de cette visualisation 3D laffichage est plus clair et il pourra consulter les pages directement partir du graphe par le simple clic sur le nud pages Web.
Page Web unique
Petit Monde 1 de pages Web
Petit Monde 2 de pages Web
Figure 6.14 : Interface 3D du RPMH de pages Web
Nous pouvons travailler autrement en utilisant une Analyse en Composantes Principales (ACP) pour la visualisation 3D de ce RPMH de pages Web (comme le cas du logiciel Prox31). En effet, grce une certaine puissance de la matrice dadjacence on obtient une matrice de vecteurs lignes o chaque page est plus ou moins proche des autres. Chaque page est reprsente par un vecteur sur l'ensemble de toutes les pages. On est donc dans un espace de dimension D (D = le nombre total de pages Web "crawles") quivalent IRD. Chaque page est un point de IRD et on peut calculer la distance euclidienne de chaque page avec chaque autre. On postule que si deux pages se comportent peu prs de la mme faon (c'est--dire si ces deux vecteurs V1 et V2 pointent peu de chose prs dans la mme direction et sont peu prs de mme longueur : Cosinus(V1, V2) et ||V1||/||V2|| sont voisins de 1) alors ces deux pages parlent peu prs de la mme chose et elles seront dans un mme petit monde (mais en termes du seul lien hypertextuel, elles ne sont peut-tre pas si proches l'une de l'autre que cela).
31
http://prox.irit.fr/
166
L'intrt de l'espace de dimension 3 est qu'il est visualisable et dans ce cas ramener l'espace IRD IR3 est ce qui est habituellement fait par une Analyse en Composantes Principales (ACP). Dans ce cas on peut avoir des clairs graphiques o l'impression de proximit gomtrique traduit la proximit thmatique des pages Web. Notons que cette ACP n'est pas ncessaire si l'on ne veut pas visualiser. La distance euclidienne dans IRD suffit comparer deux pages.
3.3 Interfaces du RPMH de Dictionnaire

Nous avons ralis une interface de connexion avec linterface du RPMH de dictionnaire. Cette interface a t initie par [Shibly et al., 2004] et amliore par nous mme dans le cadre de la ralisation du systme SARIPOD. En fait, lappui sur le bouton Ajouter Synonyme de la figure 6.5, dclenche une manipulation automatique de cette interface pour la dtermination de lensemble de mots smantiquement proches des mots-cls de la requte. Linterface de manipulation du RPMH de dictionnaire de mots, prsent par linterface de la figure 6.15, est form dun cadre principal (Frame) contenant un champ texte servant saisir le mot tudier, trois boutons chercher , Graphe et Groupes et une liste (JcomboBox) Lg Circuit dsignant la longueur de circuit. Dautre part, cette interface peut tre manipule part dune manire indpendante du systme SARIPOD. En effet, si lon veut chercher les mots proches dun mot quelconque, ce dernier doit tre insre dans le champ de texte Mot . Le bouton chercher dclenche la recherche des mots proches du mot en question et affiche trois colonnes : la premire contient la liste de mots proches tris par ordre de priorit, la deuxime indique le poids de chacun de ces mots proches et la troisime indique le nombre de circuits qui passent par chaque mot proche (voir figure 6.16). En fait, cette interface est trs semblable celle du RPMH de pages Web de la figure 6.10.
Figure 6.15 : Interface du RPMH de dictionnaire
167
Figure 6.16 : Interface de calcul du nombre de circuits slectionns entre les mots de dictionnaire
L'appui sur le bouton Graphe de la figure 6.15 nous affiche une nouvelle fentre contenant les circuits passant par le mot de dpart et prsentant les branches du RPMH de mots de dictionnaire (voir figure 6.16).
Figure 6.16 : Interface des branches de RPMH de mots de dictionnaire
L'appui sur le bouton Groupes de la figure 6.15 affiche un nouveau cadre (Frame) contenant un bouton Grouper les Synonymes et une liste (JcomboBox) seuil . En effet, le choix du seuil et lappui sur le bouton Grouper les synonymes dclenche la recherche 168
des groupes de mots proches (voir figure 6.18) avec leur fusion et l'affichage de ces groupes dans des panneaux (voir figure 6.19). Ces groupes de mots fusionns reprsentent les petits mondes de sens correspondant au mot de dpart.
Figure 6.18 : Interface de groupement des mots proches dans le RPMH de dictionnaire
Figure 6.19 : Interface de Fusion des mots proches dans le RPMH de dictionnaire
169
4. Exprimentations et rsultats
Lexprimentation dun systme informatique est ltape la plus importante pour lamlioration de ses performances. En effet, nous avons choisi dexprimenter notre systme travers plusieurs axes pour en dduire, au titre de consquence, le paramtrage optimal recommand pour tout utilisateur de notre systme. Pour ce faire, nous nous sommes intresss tester les phases de reformulation smantique de requtes, de calcul des scores des pertinences possibilistes et de la classification des documents rsultats dune requte de recherche. Notre objectif est dvaluer lapport de telles phases au comportement du systme et des agents impliqus.
4.1 Reformulation smantique de requtes

Pour tester la reformulation smantique de requtes, nous avons choisi dutiliser un dictionnaire de verbes, extrait du dictionnaire franais Le Grand Robert , comme source de donnes alimentant le RPMH de dictionnaire. Ce dictionnaire contient 11000 entres de taille globale 971 KOctets. Nous nous intressons particulirement aux groupes des sens intermdiaires ainsi que leurs fusions afin de construire les composantes de sens finales pour chaque verbe propos lagent lexicographique. Nous calculons la moyenne des plus courts chemins (L) ainsi que le taux de clustering ou dagrgation (C) pour chaque exprience afin de monter que la structure de dictionnaire est un RPMH dans les cinq expriences de test.
Mot-cl (Verbe) Nombre de mots proches 68 106 40 216 57 Nombre de groupes de sens intermdiaires 115 285 43 504 133 Nombre de groupes de sens fusionns 14 32 13 19 4 Moyenne La moyenne des plus courts chemins : L 1,1108 1,0283 1,1714 1,1062 1,0870 1,10074 Le taux de clustering ou dagrgation : C 0,3875 0,3556 0,4567 0,3888 0,3691 0,39154
Exprience 1 Exprience 2 Exprience 3 Exprience 4 Exprience 5
Vrifier Nettoyer Analyser Jouer Prserver
Tableau 6.2 : Rcapitulation des rsultats des cinq expriences sur le RPMH de dictionnaire
La va ria t io n d e L e n fo n c t io n d e mo ts s ma n t iq u e me n t p ro c h e s 1,2 1,15 1,1 L 1,05 1 0,95 RP MH1 RP MH2 RP MH3 E xp rie n c e RP MH4 RP MH5 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 RP MH1 RP MH2 RP MH3 E xp rie n c e RP MH4 RP MH5 C La va ria t io n d e C e n fo n c t io n d e mo t s s ma n tiq u e me n t p ro c h e s
Figure 6.20 : Les variations de L et C en fonction du nombre de mots smantiquement proches
170
A partir de lanalyse de ces deux dernires courbes de la figure 6.20 nous pouvons conclure que lensemble de mots proches collects pour chaque requte est un RPMH. Ce rsultat justifie notre hypothse du modle conceptuel propos et qui consiste structurer la requte de lutilisateur sous forme dun RPMH afin de pouvoir extraitre les termes smantiquement proches dun terme donn. En effet, densit D gale, la moyenne des plus couts chemins entre les pages Web (L) est petit et le taux de clustering ou dagrgation (C) est grand. Par ailleurs, les variations de L et C sont faibles en fonction du nombre de mots smantiquement proches.
4.2 Comparaison avec les travaux de [Gaume et al., 2004]

Gaume et al. [Gaume et al., 2004] ont montr que les graphes dorigine linguistique et notamment ceux qui sont construits partir de dictionnaires sont de type RPMH. Par exemple le graphe G1 des noms construit partir du dictionnaire Le Robert (les sommets sont les entres qui sont des noms, et il existe une arrte entre deux sommets si lun est dans la dfinition de lautre les auteurs ne tiennent pas compte ici de la structure hirarchique des dfinitions) est un RPMH typique. Dans le graphe G2 du tableau 6.3, chaque sommet est remplac par larbre refltant la structure hirarchique de lentre qui lui correspond, ce qui a pour consquence daffaiblir le C et dallonger le L. Dans le tableau 6.3, le symbole * indique que les mesures sont calcules sur la plus grande partie connexe.
Graphe G1 G2 Nb. sommets 51 559 140 080 Nb. arcs 392 161 399 969 Nb. sommets* 51 511 140 026 Nb. Arcs* 392 142 399 941 Diamtre* 7 11 C* 0,1829 0,0081 L* 3,32 5,21
Tableau 6.3 : Quelques caractristiques des graphes G1 et G2
Selon Gaume et al. [Gaume et al., 2004], la nature hirarchique des dictionnaires (distribution des degrs dincidence des sommets en loi de puissance) est une consquence du rle de lhyperonymie associe la polysmie de certains sommets, alors que le fort C (existence de zones denses en artes) reflte le rle de la cohyponymie [Duvignau, 2002], [Duvignau, 2003], [Gaume et al., 2002]. Par exemple, le mot corps se trouve dans de nombreux dfinissants (tte, chimie, peau, division). De ce fait, le sommet corps a une forte incidence. Dautre part, les auteurs constatent quil existe de nombreux triangles par exemple : {corce, enveloppe}, {corce, peau}, {peau, enveloppe}, ce qui favorise les zones denses en artes et plus prcisment un fort taux de clustering C. Ce sont ces zones denses en artes, qui orientant la dynamique des trajectoires de la particule, vont permettre la dsambigusation. Ainsi, nos contributions par rapport aux travaux de [Gaume et al., 2004] consistent principalement lexploitation du RPMH de dictionnaire dans le processus de reformulation smantique de requtes dans notre SRI intelligent. Dautre part nous avons pu introduit une composante classificatoire base de dnombrement des circuits existant entre les nuds verbe de notre RPMH de dictionnaire. Cette composante nous a servi davantage dans lidentification des composantes des sens correspondant aux termes de la requte utilisateur. Dailleurs, nous remarquons que notre moyenne de plus court chemin L = 1,10074 < L* et notre moyenne du taux de clustering ou dagrgation C = 0,39154 > C*.
171
De plus, notre approche contribue la rsolution du problme de la polysmie ce qui permet dafiner la requte reformule. Les documents retrouvs seront en consquence dispenss de cet effet nafaste de la langue.
4.3 Classification des documents

Nous avons test SARIPOD sur des pages Web constituants lencyclopdie informatique libre CommentCaMarche 32 dans sa version 2.0.5, o les circuits entre les pages sont frquentes et le nombre de mots-cls sont bien rparties sur plusieurs thmes organiss sur les divers classes de thmes crs par les experts crateurs de lencyclopdie. Il sagit en fait dune base documentaire de rfrence dans le domaine informatique et dont le contenu est rcapitul dans le tableau 6.4. Cette base contient 976 documents HTML, rpartis sur 20 classes des thmes et de taille globale 33 Mga Octets.
Classe du thme Mots-cls les plus frquents Matriel informatique Assemblage Optimisation Rparation Drivers (pilotes) Cbles et connecteurs Binaire, hexadcimal Logique combinatoire Analogique / Numrique Informatique Son numrique Image et vido numriques Introduction la scurit informatique Virus et codes cachs Attaques et arnaques Scurit sur Internet Cryptographie Protection Prvention / Dtection Processus Windows Notions fondamentales UNIX Linux Mac/MacOS Windows 95/98/Me Windows NT/2000/XP MS-Dos AS/400 - OS/400 Introduction la bureautique Tableur (Excel/StarOffice) Programmation Algorithmique Programmation oriente objet Programmation rseau UML CVS J2EE .NET Framework Histoire de l'informatique Petites histoires La lgislation Informatique morale Utilisation de logiciels Fiches pratiques Nombre de documents dans la classe 79
Ordinateur
Bases de l'informatique
51
Scurit informatique
80
Systmes d'exploitation
90
Bureautique
23
60
Dveloppement
Histoire Loi et droits Pratique

32
20 20 25
http://www.commentcamarche.net/
172

Internet utile Initiation aux rseaux Transmission de donnes Equipements rseau Protocoles (Internet) Technologies Introduction au wireless WiFi (802.11) Bluetooth (802.15) Courants porteurs (CPL) Webmastering ASP CGI DHTML HTML Feuilles de styles (CSS) Javascript JSP PHP Servlets VBScript WAP XML Initiation aus bases de donnes Conception - MERISE Modle relationnel Langage SQL Langage PL/SQL JDBC ODBC Annuaires LDAP Active Directory Assembleur Langage C Langage C++ Java LaTeX Perl Pascal / Delphi Visual Basic Gestion de projet Informatique d'entreprise Qualit World Wide Web Outils rseaux Introduction au client-serveur Sockets, RMI - IIOP Linux en rseau Cration dun intranet Utiliser Linux MySQL, Oracle, PostgreSQL, Apache
Rseaux et protocoles
92
Rseaux sans fil
32
Dveloppement Web
145
Bases de donnes
52
Langages
78
Organisation Internet Client-Serveur Tutorial rseau Tutorial Linux Tutorial Web
43 18 17 27 9 19
Tableau 6.4 : Rpartition des documents Web de la base du test
Lobjectif des expriences que nous allons dcrire ci-dessous est de montrer lintrt dutiliser les RPMH et les Rseaux Possibilistes (RP) pour rduire la dimension de lespace de recherche de documents et dexploration ainsi que pour proposer une vue gnrale sur lensemble des thmatiques traites dans un fond documentaire. Ces aspects permettent donc, un SRI de mener une recherche plus pertinente et de proposer lutilisateur des rsultats synthtiques facilement interprtables. Les classifications de documents pertinents que nous avons menes, sont construites en utilisant notre approche dtaille dans le chapitre 4. Toutefois nous comparons les classes cre par notre systme par rapport aux classes proposer par lexpert crateur du base de test.
173
Par ailleurs, lvaluation de nos rsultats se base sur les critres standards dvaluation des SRI prsents dans la cinquime section du premier chapitre de ltat de lart. En effet, le calcul du Rappel et de la Prcision se fait en considrant, dune part les documents retrouvs pour une requte donne et lensemble des documents pertinents associs cette dernire. Les documents jugs non pertinents par le systme sont ceux qui possdent des scores des pertinences possibilistes ngatifs ou nuls (voir annexe 5). En fait, un document est titulaire dun score de pertinence possibiliste ngatif ou nul si les termes de la requte existent dans des structures logiques non pertinentes pour le systme telles que les liens publicitaires, les lgendes des logos, etc. Enfin, nous prenons le paramtre , de pondration de la prcision ou du rappel dans le calcul de la fonction F-mesure, gal la valeur 1.
Exprience 1
Dans cette premire exprience (voir tableau 6.5), les termes de la requte font partie dune seule classe de documents (la classe du thme ordinateur ). Il est possible de remarquer que les documents retrouvs par le systme reprsentent 30,37% de la totalit des documents formant la classe propose par lexpert (79 documents), alors que 100% de ces documents retrouvs sont qualifis pertinents. Par ailleurs, le systme propose une seule classe de documents pour cette requte, ce qui est conforme avec le choix de lexpert. Cette conformit est de aux termes de la requte qui sont au cur du thme ordinateur et faiblement existants dans le reste de documents du corpus.
Les termes de la requte (4 termes) Nombre de documents retrouvs Nombre de documents pertinents dans tout le corpus Nombre de classes de documents proposs par lexpert Nombre de classes de documents de SARIPOD Rappel Prcision F-mesure Rparation, drivers, cbles, connecteurs 24 24 1 1 0,303 1,00 0,465
Tableau 6.5 : Donnes et rsultats de la premire exprience Exprience 2
Dans cette deuxime exprience (voir tableau 6.6), les termes de la requte sont enrichis par dautres termes faisant partie de la classe du thme systme dexploitation . Les documents retrouvs par le systme reprsentent 101,77% de la totalit des documents formant les deux classes proposes par lexpert (169 documents). 84,88% de ces documents retrouvs sont jugs pertinents. Par ailleurs, le systme a cr quatre classes de documents pour cette requte, alors que lexpert na propos que deux classes. Cette augmentation dans la classification du systme est cause par les termes Unix, Linux et Windows qui sont frquents dans la majorit des documents de lencyclopdie de test. 174
Les termes de la requte (7 termes) Nombre de documents retrouvs Nombre de documents pertinents dans tout le corpus Nombre de classes de documents proposs par lexpert Nombre de classes de documents de SARIPOD Rappel Prcision F-mesure
Rparation, drivers, cbles, connecteurs, Unix, Linux, Windows 172 146 2 4 0,863 0,848 0,855
Tableau 6.6 : Donnes et rsultats de la deuxime exprience Exprience 3
Dans la troisime exprience (voir tableau 6.7), les termes de la requte sont enrichis encore plus, par rapport lexprience prcdente, par dautres termes faisant partie de la classe du thme Scurit informatique ainsi que la classe du thme Base de linformatique . Les documents retrouvs par le systme reprsentent 116,33% de la totalit des documents formant les quatre classes proposes par lexpert (300 documents). Dautre part, 90,83% des documents retrouvs sont jugs pertinents. Par ailleurs, le systme a cr cinq classes de documents pour cette requte, ce qui est lgrement augment par rapport la classification de la deuxime exprience, malgr lajout la requte des autres termes faisant partie de deux autres classes diffrentes. En fait, le systme a fusionn les documents rponses aux trois termes image, vido et son avec la premire classe du thme ordinateur , ce qui est conforme avec la ralit vue que ces trois termes existent aussi dans cette classe. Alors que pour les deux autres nouveaux termes (cryptographie et protection), une nouvelle classe a t cre par le systme, vue lindpendance thmatique de cette classe par rapport aux quatre classes cres dans la deuxime exprience.
Les termes de la requte (12 termes) Nombre de documents retrouvs Nombre de documents pertinents dans tout le corpus Nombre de classes de documents proposs par lexpert Nombre de classes de documents de SARIPOD Rappel Prcision F-mesure Rparation, drivers, cbles, connecteurs, Unix, Linux, Windows, cryptographie, protection, image, vido, son 349 317 4 5 0,943 0,908 0,924
Tableau 6.7 : Donnes et rsultats de la troisime exprience
175
Exprience 4
Dans cette quatrime exprience (voir tableau 6.8), les documents retrouvs par le systme, reprsentent 159,67% de la totalit des documents formant les cinq classes proposes par lexpert (186 documents). Dautre part, 88,21% de ces documents retrouvs sont jugs pertinents. Les autres documents sont qualifis non pertinents cause de lexistence de plusieurs pages Web polythmatique ; cest--dire des pages existants dans plusieurs classes des thmes diffrents, ce qui affaibli en consquence leurs scores des pertinences possibilistes. Dautre part, les termes de la requte sont extraits des cinq classes thmatiquement proches. En fait, les classes des thmes Rseaux et protocoles , Rseaux sans fils et Tutorial rseau sont thmatiquement trs proches, vue quelles possdent plusieurs mots-cls en commun. En outre, les deux autres classes des thmes Internet et Client-Serveur sont aussi thmatiquement proches entre eux et proches aussi de trois premires classes. Cest pour cette raison que le systme SARIPOD a propos une classification base de deux classes uniquement. Une premire classe du thme fusionnant les trois premires classes ci-dessus proposes par lexpert, et une deuxime classe du thme fusionnant les deux autres classes des thmes proposs par lexpert.
Les termes de la requte (16 termes) Rseaux, transmission, protocoles, Internet, intranet Wireless, WiFi, Bluetooth, World, Wide, Web, Client, serveur, Sockets, RMI, IIOP 297 262 5 2 0,803 0,882 0,840
Nombre de documents retrouvs Nombre de documents pertinents dans tout le corpus Nombre de classes de documents proposs par lexpert Nombre de classes de documents de SARIPOD Rappel Prcision F-mesure
Tableau 6.8 : Donnes et rsultats de la quatrime exprience Exprience 5
Dans cette cinquime exprience (voir tableau 6.9), les documents retrouvs par le systme, reprsentent 61,79% de la totalit des documents formant les quatre classes proposes par lexpert (335 documents). Dautre part, 91,3 % des documents retrouvs sont jugs pertinents. En outre, les termes de la requte sont extraits des quatre classes thmatiquement indpendantes selon la dcision de lexpert. En consquence, la classification propose par le systme propose trois classes en considrant les deux classes des thmes Dveloppement Web et Langage comme une seule classe contenant les langages de programmation indiffrement de son type Web ou autre.
176
Chapitre 6 : Ralisation et Exprimentation du systme SARIPOD prvention, protection, cryptographie, HTML, Javascript, VBscript, PHP, XML, assembleur, perl, delphi, pascal, Wireless, Wifi, Blootooth 207 189 4 3 0,564 0,913 0,696
Les termes de la requte (15 termes)
Nombre de documents retrouvs Nombre de documents pertinents dans tout le corpus Nombre de classes de documents proposs par lexpert Nombre de classes de documents de SARIPOD Rappel Prcision F-mesure
Tableau 6.9 : Donnes et rsultats de la cinquime exprience Synthse des rsultats
Nous prsentons dans le tableau 6.10 les moyennes des valeurs obtenues dans les cinq expriences ci-dessus. Les documents retrouvs par le systme, reprsentent en moyenne 93,98% de la totalit des documents formant la moyenne des classes proposes par lexpert dans les cinq expriences (213,8 documents en moyenne). Dautre part, le taux moyen de documents pertinents par rapport aux documents retrouvs est 91,04%. A partir de lanalyse de ces deux taux moyens nous pouvons conclure que le systme SARIPOD, et grce son algorithme de crawlage, ne se limite pas uniquement aux documents existants dans les classes des thmes proposs par lexpert, mais il prouve lexistence dautres documents pertinents dans dautres classes thmatiquement proches des classes de lexpert. Ainsi, une reclassification des documents resultats de la recherche savre trs intressante pour lutilisateur et contribue fortement lamlioration de la performance de notre SRI. Dautre part, le systme est dot dune haute efficacit dans la slection des documents pertinents parmi les documents retrouvs. Ceci est un facteur pertinent dans lvaluation de lapproche possibiliste propose. Nous remarquons aussi que le systme SARIPOD a atteint 93,75% du taux moyen de russite de classification des documents rsultats des cinq requtes des tests, par rapport la classification des documents propose par lexpert ralisateur de lencyclopdie. En effet, le systme augmente le nombre de classes des thmes, par rapport la classification propose par lexpert, si les termes de la requte existent dans plusieurs classes thmatiquement indpendantes. Par contre, il diminue le nombre de classes des thmes si les termes de la requte existent dans des classes thmatiquement proches. Ainsi, toute corrlation smantique entre les termes de la requte provoque une corrlation thmatique entre les documents rsultat de la recherche. En consquence, le systme propose une rclassification des pages Web thmatiquement proches. Cette classification est plus optimale que celle propose par lexpert crateur de lencyclopdie. Par ailleurs, la F-mesure constitue une mesure intermdiaire entre le Rappel et la Prcision mesurs partir des documents pertinents parmi les documents classer. Nous avons considr galement leffet du choix de plusieurs documents pertinents pour chaque rsultat
177
de recherche classifier. Nous avons observ que, dans ce cas, le Rappel augmente et que la Prcision et la F-mesure moyenne diminuent.
Le nombre moyen de termes de la requte Nombre moyen de documents retrouvs Nombre moyen de documents pertinents dans tout le corpus Nombre moyen de classes de documents proposs par lexpert Nombre moyen de classes de documents de SARIPOD Taux moyen de documents retrouvs par rapport aux documents formants les classes de lexpert Taux moyen de documents pertinents par rapport aux documents retrouvs Rappel moyen Prcision moyenne F-mesure moyenne 10,8 209,8 187,6 3,2 3 93,98% 91,04% 0,695 0,910 0,756
Tableau 6.10 : Synthse des rsultats des expriences
Dun autre ct, le tableau 6.11 rcapitule les rsultats des ces cinq expriences mais en traitant cette fois les deux axes primordiaux dans le systme SARIPOD : les deux RPMH et le Rseau Possibiliste (RP).
Exprience
Nombre de Mots-cls de la requte 4 7 12 16 15
Nombre de pages Web retrouves 24 172 349 297 207
Nombre de pages Web pertinentes 24 146 317 262 189
La pertinence la plus leve DPM(d1) 20,22 53,65 58,81 102,85 66,36
La pertinence la plus faible DPM(dN) 4,07 0,13 0,0734 0,0739 0,609
Tableau 6.11 : Rsultats des exprimentations
Par ailleurs, au cours de la phase de reformulation smantique de la requte, la dtermination de mots smantiquement proches du mot-cl de dpart est trs dpendante du degr de nettoyage du dictionnaire franais utilis Le Grand Robert comme source de donnes pour le RPMH de dictionnaire. Nous remarquons, daprs le tableau 6.8, que plus le nombre de documents retrouv par le systme est important, plus la chance davoir des documents pertinents est important. Nous remarquons aussi que lcart entre le degr de pertinence possibiliste de la page la plus pertinente (DPM(d1)) et celui de la page la moins pertinente (DPM(dN)) de la collection de documents pertinents augmente lorsque le nombre de pages Web pertinentes augmente, ce qui prouve que le but premier qui nous a motiv dans lusage des RPMH est bien vrifi ici : faire en sorte que les rponses renvoyes suite une requte ne soient plus le vrac " la Google",
178
mais quelque chose de structur en RPMH de sorte que si une page parmi les rponses renvoyes semble pertinente alors toutes celles qui lui sont "proches" dans ce RPMH le seront aussi. Ainsi, nous augmentons trs considrablement le nombre de pages pertinentes rcupres pour les mots-cls de dpart et nous liminons les pages non pertinentes (que Google livrait malgr tout). En fait, nous changeons le PageRank (au sens de Google) des pages rsultats de la requte [Elayeb et al., 2007c]. A partir de la figure 6.21 et du tableau 6.12, nous remarquons bien que les pages Web collectes pour chaque requte sont des RPMH, ce que justifie nos choix de dpart dans le modle conceptuel propos. En effet, densit D gale, la moyenne des plus couts chemins entre les pages Web (L) est petit et le taux de clustering ou dagrgation (C) est grand. En outre, les variations de L et C sont faibles en fonction des nombres des pages Web retrouves. Ceci montre bien que le Web est un RPMH.
Exprience Exprience 1: RPMH1 Exprience 2: RPMH2 Exprience 3: RPMH3 Exprience 4: RPMH4 Exprience 5: RPMH5 Nombre de documents classer 24 172 349 297 207 Moyenne La moyenne des plus courts chemins : L 1,0606 1,0349 1,0193 1,0270 1,0305 1,03446 Le taux de clustering ou dagrgation : C 0,4510 0,3500 0,3155 0,3520 0,3389 0,36148
Tableau 6.12 : Les paramtres L et C des RPMH des documents

La variation de L en fonction de pages Web collectes 1,07 1,06 1,05 1,04 1,03 1,02 1,01 1 0,99 RPMH1 RPMH2 RPMH3 Exprience RPMH4 RPMH5 L L
0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 RP MH1 RP MH2 RP MH3 E xp rie n c e RP MH4 RP MH5 C La va ria t io n d e C e n fo n c tio n d e p a g e s We b c o lle c t e s
Figure 6.21 : Les variations de L et C en fonction du nombre de pages Web retrouves
4.4 Comparaison avec le SRI SARCI

Le Systme Agents pour la Recherche et la Classification dInformation (SARCI) est propos par [Kammoun-Bouzaene, 2006]. Ce systme est base dun modle pour une recherche dinformation adaptative, volutive et cooprative. En effet, SARCI met la disposition de lutilisateur plusieurs alternatives de recherche travers deux principales phases : une analyse de surface qui constitue une tape prliminaire de recherche et une analyse en profondeur qui nest active que si la premire ne satisfait pas lutilisateur. Lanalyse de surface permet de construire des connaissances lies aux requtes antrieures, ce qui constitue un moyen pour rsoudre la complexit dexprimer une requte initiale, en assistant lutilisateur partir des expriences passes. Lanalyse en profondeur permet de construire des connaissances lies aux utilisateurs et aux documents de la collection. Ces connaissances sont organises par 179
point de vue exprimant diffrents points daccs une collection et permettant denrichir le niveau de recherche. Les connaissances construites sont caractre volutif, lauteur a introduit un apprentissage non supervis travers des classifieurs adaptatifs et incrmentaux. Pour lanalyse de surface, lauteur a choisi une mthode symbolique (treillis de Galois) qui a lavantage de sadapter la reprsentation de la requte et pour lanalyse en profondeur lauteur a choisi une mthode numrique (cartes topographiques et auto-organisatrices de Kohonen) favorissant une reprsentation synthtique et thmatique des connaissances, et constituant un support de navigation. Dautre part les rsultats fournis par les classifieurs ont servi pour la reformulation de requtes. Lauteur a introduit dans ce cadre en plus du document feedback le query feedback. Un des apports de notre systme SARIPOD par rapport au systme SARCI consiste modliser dune nouvelle manire la pertinence. En fait, nous avons dfini la pertinence possible dun document vis--vis dune requte et sa pertinence ncessaire. La pertinence possible vise liminer les documents non pertinents, la pertinence ncessaire vise renforcer la pertinence des documents non limins par la possibilit. Nous avons tendu cette dfinition dun cadre quantitatif un cadre qualitatif possibiliste. Cette double mesure de pertinence est cense aider le systme dans sa dcision concernant les documents restituer ainsi que leur ordre de restitution. Pour ce faire nous comparons les performances de notre systme lun de SRI multi-agent savoir le systme SARCI. Une premire constatation au vu des points de prcision est que notre systme obtient de meilleures performances. Nous prsentons un comparatif de la prcision moyenne obtenu suite aux exprientations. Nous remarquons que la prcision varie entre 0,15 et 0,2 pour SARCI, alors que la moyenne des prcisions de cinq expriences de SARIPOD est de lordre de 0,91 et la moyenne des rappels est de lordre de 0,695. Le systme SARIPOD montre une amlioration dans la slection des documents pertinents dans lensemble de document retrouvs par le systme, ce qui prouve bien lefficacit de lextension propose pour lapproche possibiliste quantitative. Ainsi, le systme SARIPOD propose une nette amlioration des performances et sa courbe de Rappel-Prcision est souvent au-dessus de celle de SARCI. Quant la composante classificatoire propose par SARIPOD, elle est propose dune nouvelle manire base dune approche gnrique valable dans le cas des mots dun dictionnaire que dans le cas des documents Web. En fait, les classes des thmes des documents retrouvs sont consquences des classes des sens des termes de la requte reformule. Cette classification offre un cadre navigationnel pour lutilisateur que se soit dans sa requte au cours de sa reformulation, soit dans les documents rsultats de la recherche. Alors que pour le cas de SARCI, lauteur a utilis des mthodes existantes : les cartes de Kohonen pour la classification des documents et les Treillis de Galois pour la classification des requtes.
5. Conclusion
Dans ce chapitre nous avons montr le caractre qualitatif possibiliste de notre SRI et prcisment au cours des calculs des scores des pertinences possibilistes par lagent mesure possibiliste. Ce dernier se base sur la structure logique du document, dune part et les prfrences proposes par lutilisateur au systme, dautre part. Les exprimentations menes montrent que les rsultats des slections des documents pertinents parmi les documents retrouvs sont trs encourageants et prouve lapport de lapproche possibiliste propose.
180
Nous avons pu dmonter aussi que les rsultats des classifications des documents pertinents, avec la mthode que nous avons propose sont trs proches de ceux proposs par lexpert, et ce, en se basant sur les deux mesures de Rappel et de Prcision. Par ailleurs, lintrt de faire combiner les deux RPMH via un Rseau Possibiliste (RP) dans un SRI permet denrechir le niveau dexploration dune collection. Ce dernier nest pas limit aux documents mais ltend en considrant les requtes. En effet, la phase de reformulation smantique de requte, assure par lagent lexicographique, permet lutilisateur de profiter des autres documents correspondants aux termes proches des termes de la requte initiale. Ces documents peuvent exister dans dautres classes des thmes. En consquence, une reclassification propose par le systme savre pertinente afin dadapter les rsultats dune requte aux nouveaux besoins des utilisateurs.
181
Conclusion Gnrale et Perspectives
Conclusion gnrale et Perspectives
Lusage des rseaux probabilistes en RI est important grce leur capacit reprsenter de manire naturelle les diffrents liens existants entre les objets manipuls en RI, savoir les termes, les documents et la requte ainsi qu leur puissance pour infrer la pertinence des documents vis--vis dune requte. Cependant, le cadre probabiliste dans lequel ces rseaux ont t dfinis traduit mal les deux notions de pertinence et de reprsentativit des termes dans les documents. En effet, cette thorie permet uniquement de mesurer la certitude dun vnement et de son contraire. Dans ces modles la pertinence et la reprsentativit dun terme dans un document sont des valeurs binaires. Un document donn est pertinent ou non vis--vis dune requte un certain degr. Un terme est reprsentatif dun document ou non un certain degr. Dautre part, quel que soit le modle de la RI, nous remarquons que la pertinence est vue comme un concept binaire. Cependant, certains travaux de la littrature ont montr que ce concept est graduel et dynamique [Rijsbergen, 1979] [Saracevic, 1996] [Keklinen et Jrvelin, 2002] [Brini et Boughanem, 2003]. De plus, pour tous ces modles, les termes de la requte absents des documents ne sont pas explicitement considrs dans le calcul des scores de pertinence. Plusieurs travaux rcents en Recherche dInformation traitent la problmatique des documents semi-structurs. [Zayani, 2008] propose une contribution la dfinition et la mise en oeuvre de mcanismes dadaptation de documents semi-structurs. [Ali Laouar, 2007] a propos de sa part une contribution l'interrogation flexible de donnes semi-structures. [Sauvagna, 2005] a ralis un modle flexible pour la Recherche dInformation dans des corpus de documents semi-structurs. Le systme SARIPOD propos dans le cadre de cette thse sinscrit dans la problmatique des systmes multi-agents de Recherche dInformation sur Internet. Il est base dun modle de RI permettant une nouvelle modlisation des deux notions de base en Recherche dInformation : la pertinence et le profil. Le modle propos par [Brini et al., 2005ab] [Brini et al., 2007] se base sur les rseaux possibilistes. Plus prcisment, les nuds de ce rseau reprsentent les documents, leurs termes dindexation et la requte. La topologie du rseau permet de prendre en compte naturellement les relations de dpendance entre ces nuds. En fait, ce modle ignore les dpendances entre les termes de la requte ainsi que les dpendances entre les documents de la collection. En outre, aucun processus de reformulation de la requte na t propos. En consquence, tous les termes de la mme requte sont considrs de mme poids ; il est suppos que lutilisateur na pas de prfrences entre les termes de sa requte. Dautre part, ce modle est propos uniquement dans un cadre quantitatif. Nous avons propos pour notre part une extension de ce modle vers un cadre qualitatif possibiliste tout en tenant compte, non pas seulement de lexistence ou non du terme dans le document pour interprter sa pertinence, mais aussi son poids dans ce document. En effet, le systme SARIPOD rpond aux limites du modle possibiliste de [Brini et al., 2007] tout en
182
proposant une nouvelle modlisation faisant appel aux trois techniques: Rseaux Petits Mondes Hirarchiques (RPMH), Rseaux Possibilistes (RP) et Systmes Multi-Agents (SMA).
1. Choix principaux
Le choix de lapproche multi-agent est induit par les diffrentes caractristiques de la problmatique de la Recherche dInformation sur Internet : le paralllisme du traitement qui est souvent assur dans un systme multi-agent, la possibilit de mobilit de lagent crawler (programmes distribus) qui peut toujours contribuer la rsolution des problmes distance, la scurit de lopration de recherche qui est souvent recommande lorsque les agents sont censs se dplacer pour chercher linformation sur plusieurs sites distants. Dautres part, les sources dinformation alimentent le rseau Internet par des milliers de sites chaque jour et qui ncessitent un traitement souvent rapide et distribu. Quant au choix de conception adopt, le langage UML fournit un cadre convenable pour la modlisation de ce genre de systme. Lorganisation de lapplication sous forme de couches dagents semble tre trs naturelle pour ce genre de systme. En effet, cette conception a fourni au systme une grande gnricit et indpendance de lapplication. Lutilisation de la plate-forme multi-agent, dans le dveloppement du systme SARIPOD, est impose par la ncessit de la rapidit du prototypage. De plus, le choix de la plate-forme Jade est une bonne dmonstration de lapplicabilit du concept de la rutilisation qui commence convaincre les dveloppeurs qui permet de fournir un gain considrable en temps de dveloppement des logiciels.
2. Contribution principale
Nous avons propos dans cette thse un modle possibiliste mixte (quantitatif et qualitatif) de RI. En fait, lutilisation du cadre possibiliste permet dclaircir les dfinitions de la pertinence ainsi que la reprsentativit dun terme dans un document. La notion de pertinence dun document, tant donne une requte, est modlise par une double mesure. La pertinence possible permet de rejeter les documents non pertinents une requte donne. La pertinence ncessaire permet de se focaliser sur les documents restituer ainsi que de renforcer la ncessit de faire figurer parmi les premiers de la liste des rsultats en rponse une requte. Les arcs reliant des paires de nuds sont quantifis par des degrs de possibilit et de ncessit. Ces degrs mesurent dune manire gnrale le degr de possibilit et de ncessit de linformation vhicule par les arcs du rseau possibiliste. Cette information concerne la reprsentativit dun terme dans un document et permet de quantifier la pertinence dun document tant donne une requte. Le systme SARIPOD se dclenche par un processus itratif pour la reformulation de la requte. Pour ce faire, nous avons propos une approche de recherche de composantes de sens dans un Rseau Petits Mondes Hirarchiques (RPMH) de mots du dictionnaire Franais Le grand Robert . Cette tape itrative nous facilite la dfinition des prfrences entre les termes de la requte reformule. En effet, lvaluation de la pertinence dun document vis-vis dune requte est effectue par un processus de propagation travers les nuds termes relis cette requte. Les prfrences entre les termes de la requte dans les reprsentations des documents sont naturellement et explicitement considrs dans le calcul des scores de pertinence contrairement aux systmes actuels de RI. En effet, linsertion des facteurs Prfrence(ti) dans
183
les calculs des possibilits et des ncessits, consiste augmenter les scores de pertinence des documents contenant ces termes dans le but de pnaliser les scores de pertinence des documents ne les contenant pas. La pnalisation et laugmentation des scores sont proportionnelles au pouvoir des termes discriminer entre les documents de la collection. En outre, les facteurs de Prfrence que nous avons propos sont plus fins que le facteur idf, puisque la distribution des termes dans la collection de documents ne dpend pas seulement de la prsence ou de labsence des termes dans les documents de la collection (comme idf), mais de la distribution de leur densit dans les documents de la collection. Ainsi, ces mesures se sont avres efficaces pour la discrimination ngative, compar notamment idf. Dautre part, ces prfrences permettent de restituer des documents classs par prfrence de pertinence. Il est possible dans un tel cadre de mesurer quel point un document d1 est prfr au document d2 ou de mesurer la prfrence du document d1 par rapport un ensemble de documents {d3, d4}. Nous avons aussi dfini les relations de dpendance dans un cadre qualitatif. Les valeurs affectes ces relations traduisent des ordres partiels de prfrence. En fait, la thorie des possibilits offre deux cadres de travail : le cadre qualitatif ou ordinal et le cadre numrique. Rappelons que le modle de [Brini et al., 2005ab] [Brini et al., 2007] sinscrit dans le cadre quantitatif. Alors que notre approche traduit bien un cadre qualitatif possibiliste. En effet, nous avons bien introduit des relations de dpendance entre les termes de la requte via un Rseau Petits Mondes Hirarchiques pour les mots de la langue Franaise. Ce premier RPMH permet de ne pas prendre les mots-cls de lutilisateur tels quels mais de considrer une requte comme multiple en ce sens quon ne cherche pas seulement les mot-cls dans les pages Web mais aussi ses mots smantiquement proches. Un deuxime RPMH permet dintgrer des relations de dpendance entre les documents de la collection dont le rle consiste structurer les documents de la collection en zones denses de pages Web trs fortement lies les unes aux autres et qui rpondent toutes fortement une requte. Globalement, le dveloppement du systme SARIPOD engendre plusieurs contributions. Dune part, cest un dveloppement ddi au domaine de recherche dinformation sur Internet o la matrise de la pertinence et du profil exige plus doptimisation dans la Recherche dInformation. Dautre part, il sagit dune contribution dans la modlisation de linformation au niveau de la structuration des termes et des documents sous forme de deux RPMH dfinissant dune part, les proximits smantiques entre les nuds termes et les proximits thmatiques entre les nuds documents. En effet, ces deux RPMH sont mixs via des rseaux possibilistes traduisant les pertinences existant entre les nuds documents vis--vis dune requte. De plus, cest une contribution dans les Interfaces Homme-Machine (IHM) qui consiste proposer une interface graphique du systme SARIPOD permettant lutilisateur de prsenter aisment sa requte ainsi que son profil, et qui reoit, en contre partie, linformation optimale dsire. En effet, cette contribution permet de combler le foss entre le systme et son utilisateur. Quant lutilisation de lapproche multi-agent, la grande richesse de cette approche provient de la conformit au monde rel des applications de Recherche dInformation regroupant gnralement tous les concepts de base dj emprunts par cette approche, savoir : la coopration, la comptition et lautonomie. Hormis tous ces avantages, SARIPOD offre plusieurs autres avantages. Cest ainsi quil est portable (puisque cette application est programme en Java), flexible (facilement adaptable dautres applications) et interoprable. Dautre part, les premiers essais effectus ont montr que SARIPOD est trs efficace par rapport une recherche Web classique, trs facile dutilisation et convient trs bien aux applications faisant intervenir des bases de donnes hrites.
184
Bien que SARIPOD soit oprationnel, il y a toujours place pour son amlioration. Nous citons dans la suite quelques perspectives ainsi que de futurs dveloppements.
3. Perspectives
Nos tests se sont limits aux occurrences verbales dans les dfinitions des verbes du RPMH de dictionnaire, mais nous envisageons dtendre les tests dautres catgories grammaticales (nom, adjectif, adverbe, etc.), ainsi que daffiner notre approche pour les substantifs en considrant par exemple galement les occurrences verbales dans les dfinitions des noms, des adjectifs, des adverbes, etc. Nous envisageons galement de raliser des mesures plus fines des performances du systme SARIPOD en tendant les tests dautres formats de documents Web (Texte, Doc, PDF, etc.) ainsi quau dictionnaire (qui n'est pas un ensemble de pages Web mais un ensemble d'articles relis les uns aux autres). Nous proposons aussi dtendre notre modle pour reprsenter des documents particuliers savoir les documents XML. En effet, la structure de document pourrait tre traduite par la topologie du rseau, les nuds intermdiaires correspondant aux balises du document et les nuds feuilles aux termes des granules. Dautre part, larchitecture du rseau se prte naturellement ce type de reprsentation. Lapplication de lapproche ralise dans notre systme permettrait de travailler diffrents niveau de granularit (parties de documents, documents ou ensemble de documents) et dobtenir des rponses ncessairement et possiblement pertinentes tant donne une requte. Dans lintgration des relations de dpendance entre les termes ou les documents, les arcs sont mesurs par des valeurs numriques traduisant des quantits et non pas des ordres partiels. Afin de quantifier ces relations, nous pourrions nous baser sur la connaissance reprsente dans une ontologie. En fait, une ontologie permet de formaliser des liens smantiques entre des units de sens [Ben Ahmed, 2007]. Dfinie dans un cadre possibiliste, elle pourrait ajouter de linformation pertinente considrer lors du processus de propagation dclenche par la requte. Le rseau serait compos dun sous rseau de documents et dun sous rseau de requte. Ces sous rseaux pourraient tre relis travers une ontologie. Nous envisageons aussi dintroduire dans SARIPOD la possibilit de navigation dans les documents restitus travers une carte multi-dimentionnelle. Deplus, restructurer les pages Web pertinentes en RPMH propres aux besoins et aux prfrences de lutilisateur indpendamment des liens hypertextes existants entre ces pages. Afin damliorer le processus de reformulation de requtes dans SARIPOD, nous proposons une hybridation entre la reformulation smantique propose et une reformulation base de technique de Relevance Feedback (RF). Par ailleurs, nous proposons denrichir le nombre dentits logiques exploites par SARIPOD pour tenir compte dautres structures textuelles (typologies des textes : narration, description, citations, ) Une autre perspective est lie larchitecture multi-agent du systme SARIPOD consistant inclure de nouveaux agents au systme tel quun agent dextraction des connaissances partir des grandes bases de donnes. En effet, grce cet agent, le systme pourra profiter des immenses informations stockes dans des bases de donnes gantes. Nous prvoyons aussi dajouter un autre agent simulateur mesurant le trafic dans la plate-forme pour viter tout goulot dtranglement en cas dun nombre trs lev de pages Web collectes. Dautre part, nous envisageons amliorer la communication entre les diffrents agents de SARIPOD.
185
Notons enfin que pour une meilleure performance du systme SARIPOD, ce dernier doit tre install sur un serveur assurant une accleration dans les traitements et une puissance remarquable dans la manipulation des donnes gantes (dictionnaire de mots complet au format XML). Ce qui garantit une minimisation du temps de rponse une requte utilisateur.
186
Bibliographie
Bibliographie
[Abbadeni et al., 1998]
Abbadeni N., Ziou D., et Wang S., Recherche dimages base sur leur contenu, Rapport de recherche, universit de Sherbrooke, Canada, 1998. Abdallah H., Sleiman R., et Harati A., Etude de la synonymie dans les dictionnaires et ralisation dun outil de mesure de la proximit de sens, mmoire de fin dtudes de matrise dinformatique, universit libanaise, facult des sciences I, 2003. Ali Laouar A., Contribution l'interrogation flexible de donnes semi-structures, Thse de Doctorat en informatique, Universit Paul Sabatier, Toulouse (France), 2007. Aliane H., Alimazighi Z., Boughacha R. O., et Djelliout T., Un systme de reformulation de requtes pour la recherche dinformation, Dans RIST Vol, 14 n01, pp. 25-33, 2004. Antonella D. S., Giuseppe P., Corrado S. et Emiliano T., A Multi-Agent Reflective for Web Search Assistance, Universit de Catania, Italie, 2003. Arfaoui N., Etude comparative entre les Rseaux Baysiens et les Rseaux Possibilistes pour la dtection des intrusions, Mmoire de Mastre en Informatique, Ecole Nationale des Sciences de lInformatique, Tunisie 2006. Awada A., et Chebaro B., Etude de la synonymie par lextraction de composantes N-connexes dans les graphes de dictionnaires, Journes dtudes linguistiques JEL2004, Nantes (France), 2004. Awada A., Regroupement de synonymes en composantes de sens dans un dictionnaire, IC2005, France, 2005. Barabasi A. L., Albert R., et Jeong H., Scale-free characteristics of random networks: The topology of the World Wide Web, Physica A281, pp. 69-77, 2000. Belew R. K., Adaptative Information Retrieval, In Proceedings of the 12th Anuual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp. 11-20, 1989. Belkin N. J., Cool C., Croft W. B., et Callan J. P., The effect of multiple query representations on information retrieval performance, Dans : Proceedings of the 16th Annual ACM/SIGIR Conference on Research and Development in Information Retrieval, pp. 339-346, 1993.
[Abdallah et al., 2003]
[Ali Laouar, 2007]
[Aliane et al., 2004]
[Antonella et al., 2003]
[Arfaoui, 2006]
[Awada et Chebaro, 2004]
[Awada, 2005] [Barabasi et al., 2000]
[Belew, 1989]
[Belkin et al., 1993]
187
Bibliographie
[Bellifemine et al., 2003] [Bellot, 2002]
Bellifemine F., Caire G., Trucco T., et al., JADE, Programmers Guide, Fvrier 2003. Bellot D., Fusion des donnes avec des Rseaux Baysiens pour la modlisation des systmes dynamiques et son application en tlmdecine, Thse de Doctorat en Informatique, Universit Henri Poincar, Nancy I, Novembre 2002. Ben Ahmed M., Des sciences cognitives aux agents intelligents, Sminaire hebdomadaire du laboratoire RIADI-GDL, Ecole Nationale des Sciences de lInformatique, Tunisie 2000. Ben Ahmed M., Cognition entre philosophie, science et technologie, Edition Centre de Publication Universitaire (CPU), Tunis, Tunisie 2007. Ben Amor N., Benferhat S., Dubois D., Mellouli K., Prade H., A theoretical framework for possibilistic independence in a weakly ordered setting, International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 10(2), p. 117-155 2002. Ben Amor N., Benferhat S., Dubois D., Mellouli K., Prade H., Anytime Propagation Algorithm for Min-based Possibilistic Graphs, Soft Computing, A fusion of foundations, methodologies and applications, vol. 8, p. 150161, 2003. Ben Amor N., Benferhat S., Smaoui S., Infrence dans les rseaux possibilistes bases sur le conditionnement ordinal, dans la Revue dIntelligence Artificielle (RIA), Numro spcial sur les modles graphiques dans les thories non probabilistes, Edition Herms/Lavoisier, Octobre 2007. Benferhat S., Dubois D., Garcia L., and Prade H., Possibilistic logic bases and possibilistic graphs, In Proc. of the Conference on Uncertainty in Artificial Intelligence, pp. 5764, 1999. Ben Farhat S., Dubois D., Garcia L., Prade H., On the transformation between possibilistic logic bases and possibilistic causal networks, Int. Journal of Approximate Reasoning, 29 (2) : 135-173, 2002. Ben Mena T., Bellamine B. N., Ben Ahmed M., Objective oriented approach evaluating multi-agents platforms, In SETIT2005 Conference, Hammamet, Tunisia 2005. Berenji H. R., The Treatment of Uncertainty in Artificial Intelligence, NASA Armes Research Center/Heer Associates Inc (USA), 1988.
[Ben Ahmed, 2000]
[Ben Ahmed, 2007]
[Ben Amor et al., 2002]
[Benferhat et al., 1999]
[Ben Farhat et al., 2002]
[Ben Mena et al., 2005]
[Berenji, 1988]
188
Bibliographie
[Berry et Linof, 1997]
Berry M. J. A., et Linof, G., Data Mining : Techniques appliques au marketing, la vente, et aux services clients. Paris : InterEditions, 1997. Boissier O., Guessoum Z., Occello M., Plates-formes multi-agents, AFIA n37, Octobre 1999. Boissier O., Guessoum Z., Occello M., Un essai de dfinition de critres pour ltude comparative de platesformes multi-agents, TSI, Numro thmatique : Environnement de dveloppement de systmes multiagents, 21(4) : 549-553, avril 2002. Bookstein A., et Swanson D., Probabilistic models for automatic indexing, Journal of the American Society for Information Science (JASIS), 25, pp. 312 318, 1974. Borgelt C., Gebhardt J., Kruse R., Possibilistic Graphical Models, Proceedings of International School for the Synthesis of Expert Knowledge (ISSEK98 ), Udine (Italy), p. 51-68, 1998. Borgelt C., Gebhardt J., et Kruse R., Possibilistic Graphical Models. Computational Intelligence in Data Mining, CISM Courses and Lectures 408, pp. 51-68, 2000. Boughanem M., Formalisation et spcification des systmes de recherche et de filtrage dinformation, Mmoire dhabilitation (HDR), Universit Paul Sabatier, Toulouse III, 2000. Bounhas I., Un analyseur de contenu des documents scientifiques du Web, Mmoire de Mastre en Informatique, Ecole Nationale des Sciences de lInformatique, Tunisie 2006. Brewington B., Gray R., Moizumi K., Kotz D., Cybenko G., et Rus D., Mobile agents indistributed information retrieval. In Intelligent Information Agents. SpringerVerlag, 1999. Brini A. H., et Boughanem M., Relevance feedback : introduction of partial assessments for query expansion, In Proc. of the Conference of the European Society for Fuzzy Logic and Technology (EUSFLAT), Conf, Zittau, Allemagne, pp. 67-72, 2003. Brini A. H., Boughanem M., et Dubois D., Towards A possibilistic approach for information retrieval, In Proc. of the conference EUROFUSE, Data and Knowledge Engineering, pp. 92-102, 2004. Brini A. H., Boughanem M., et Dubois D., Une approche possibiliste pour la recherche dinformation, In Logique Floue et ses Applications (LFA 2004), pp. 51-58, 2004.
[Boissier et al., 1999] [Boissier et al., 2002]
[Bookstein et Swanson, 1974]
[Borgelt et al., 1998]
[Borgelt et al., 2000]
[Boughanem, 2000]
[Bounhas, 2006]
[Brewington et al., 1999]
[Brini et Boughanem, 2003]
[Brini et al., 2004a]
[Brini et al., 2004b]
189
Bibliographie
[Brini et al., 2004c]
Brini A. H., Boughanem M., et Dubois D., Vers Une approche possibiliste pour la recherche dinformation, In veille Stratgique Scientifique et Technologique (VSST 2004), pp. 55-65, 2004. Brini A. H., Boughanem M., et Dubois D., A model for information retrieval based on possibilistic networks, In Proc. of the symposium on String Processing and Information REtrieval (SPIRE 2005), Buenos Aires (Argentine), LNCS, Springer-Verlag, pp. 271-282, 2005. Brini A. H., Campos, L., Dubois D., et Boughanem M., Query propagation in possibilistic information retrieval networks, In Proc. of the Conference of the European Society for Fuzzy Logic and Technology (EUSFLAT 2005), 2005. Brini A. H., Un modle de recherche dinformation bas sur les rseaux possibilsites, Thse de doctorat en informatique, Universit de Toulouse III, Universit Paul Sabatier (UPS), Toulouse (France), 2005. Brini A. H., Boughanem M., et Dubois D., Un modle de rseau possibiliste pour la recherche d'information, Dans : Information - Interaction - Intelligence, Cpadus Editions, Vol. 7, N. 1, pp. 31-54, 2007. Buckley C., et Salton G., Optimization of relevance feedback weights, Dans : Proceedings of the Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp. 351-357, Seattle WA, 1995. Buntine W., Representing Learning with graphical Models. Technical Report, FIA 94-14, Artificial Intelligence Research Branch, NASA Armes Research Center, USA, 1994. Busetta P., Ronnquist R., Hodgson A., et al., Jack Intelligent Agents: Components for Intelligent Agents in Java , AgentLink News Letter, Janvier 1999. Calado P., Cristo M., De Moura E., Ziviani N., RibeiroNeto B., et Gonalves M. A., Combining link-based and content-based methods for web document classification, In Proc. of ACM Conference on Information and Knowledge Management (CIKM), pp. 394 401, 2003. Cardon A., Bertelle C., Olivier D., Modlisation et implmentation des systmes complexes Mise en uvre des systmes multi-agents Exemples de pletes-formes, DEA Informatique Thorique et Applications, Le Havre (France), 2001. Chauhan D., JAFMAS : A Java-Based Agent Framework for Multi-agent Systems Development and 190
[Brini et al., 2005a]
[Brini et al., 2005b]
[Brini, 2005]
[Brini et al., 2007]
[Buckley et Salton, 1995]
[Buntine, 1994]
[Busetta et al., 1999]
[Calado et al., 2003]
[Cardon et al., 2001]
[Chauhan, 1997]
Bibliographie
Implementation, Master Thesis, ECECS Department, University of Cincinnati, Juillet 1997.

[Chavez et Cooper, 1990]
Chavez R., Cooper G., A Randomized Approximation Algorithm for Probabilistic Inference on Bayesian Belief Networks, Networks, vol. 20, p. 661-685, 1990. Chen H., Machine learning for information retrieval: Neural Networks, Symbolic Learning and Genetic Algorithms, In Journal of the American Society for information Science, 46(3): 194-216, 1995. Chouaib H., Reformulation de requtes dans un modle de rseau possibiliste pour la recherche dinformation, Mmoire de DEA en Informatique, Facult des Sciences, Universit Libanaise, 2006. Cleverdon C., Cranfield research project: Report on the first stage of an investigation into the comparative efficiency of indexing systems, Cranfield: The College of Aeronautics, http://www.gnu.org, 1960. Cleverdon C., Progress in documentation, evaluation of information retrieval system, Journal of Documentation 26, pp. 55 67, 1970. Cleverdon C., Comparative evaluation of searching by controlled and natural language in a NASA database, European Space Agency Report 1/432, 1977. Cluzeau-Ciry M., Typologie des utilisateurs et des utilisations dune banque dimages, Le documentalistes, 25(3): 155-120, 1988. Coelho H., Marietto M. B., David N., et al., Requirements Analysis of Multi-agent Based Simulation Platforms: State of the Art and New Prospects, Proceedings of Multi-agent Based Simulation WorkShop, Bologna, Italy, July 2002. Cohen P. R., et Kjeldsen R., Information Retrieval by constrained spreading activation in semantic networks, In Information Processing and Management, 23(4):255-268, 1987. Collis J., et Ndumu D., The Zeus Agent Building ToolKit, Technical Manual, September 1999. Cooper G., The computational complexity of probabilistic inference using bayesian belief networks, In Artificial Intelligence, 42 (2-3): 393 405, 1990. Cornujols A., Miclet L., Apprentissage artificiel: Concepts et algorithmes, dition Eyrolles, page 364-365, 2002. Ct, M., Chaib-draa, B., et Troudi., N., NetSA : une architecture multi-agent rutilisable pour les environnements riches en informations. Sries 191
[Chen, 1995]
[Chouaib, 2006]
[Cleverdon, 1960]
[Cleverdon, 1970]
[Cleverdon, 1977]
[Cluzeau-Ciry, 1988]
[Coelho et al., 2002]
[Cohen et Kjeldsen, 1987]
[Collis et Ndumu, 1999] [Cooper, 1990]
[Cornujols et Miclet, 2002]
[Ct et al., 2002]
Bibliographie
Scientifiques. Centre Interuniversitaire de Recherche en ANalyse des Organisations (CIRANO), Canada, 2002.
[Crawford et al., 1991]
Crawford S. L., Fung R., Appelbaum L. A., et Tong R. M., Classification Trees for information retrieval, Dans : Proceedings of the 8th International Workshop on Machine Learning, CA : Morgan Kaufman, pp. 245-249, 1991. Crestani F., De Campos L. M., Fernandez-Luna J. M., et Huete J. F., A Multi-layered Bayesian Network Model for Structured Document Retrieval, ECSQARU 2003, LNAI 2711, Berlin Springer-Verlag, pp. 74-86, 2003. Croft W. B., Document representation in probabilistic models of information retrieval, In Journal of the American Society for Information Science, pp. 451-457, Novembre 1981. Croft W. B., et Thompson R. H., I3R : A new approach to the Design of Document Retrieval Systems, In The Journal of the Americain society for Information Science, 38: 389404, 1987. Daniels P. J., Cognitive models in information retrieval an evaluation review, in Journal of documentation, 42(4) : 272-304, Dcembre 1986. De Campos L., Huete J. F., Independence concepts in possibility theory: Part I, Fuzzy Sets and Systems, vol. 103, p. 127-152, 1999a. De Campos L., Huete J. F., Independence concepts in possibility theory: Part II, Fuzzy Sets and Systems, vol. 103, p. 487-505, 1999b. De Campos L., Fernandez-Luna J., et Huete J., A layered bayesian network model for document retrieval, In Proc. of the 24th BCS-IRSG European Colloquium on IR Research: Advances in Information Retrieval, pp. 169 182, 2002. De Campos L. M., Fernandez-Luna J. M., et Huete J. F., The BNR Model: foundations and performance of Bayesian Network-based retrieval model, JASIST, 54(4): 302-313, 2003. Dechter R., Bucket elimination: A unifying framework for probabilistic inference, In Proc. of the Twelth Conf. on Uncertainty in Artificial Intelligence, Horvits E., and Jensen F., (Eds), pp. 211-219, 1996. Delgado M., A Multiagent Architecture for Fuzzy Modeling, Dpartement de Systmes Informatique de lUniversit de Murcia (Spain), 2000. Deloach S. A., et Wood M., Developing Multi-agent Systems with AgentTool, ATAL2000, Berlin, 2001.
[Crestani et al., 2003]
[Croft, 1981]
[Croft et Thompson, 1987]
[Daniels, 1986]
[De Campos et al., 1999a]
[De Campos et al., 1999b]
[De Campos et al., 2002]
[De Campos et al., 2003]
[Dechter, 1996]
[Delgado, 2000]
[Deloach et Wood, 2001]
192
Bibliographie
[Demazeau, 1995]
Demazeau Y., From interactions to collective behaviour in agent-based systems, In Proc. Of the first European Conf. on Cognitive Science, Saint Malo (France), pp. 117-132, 1995. Denoue L., et Vignollet L., An annotation tool for Web browsers and its application to information retrieval, Recherche d'informations Assiste par Ordinateur (RIAO2000), 12-14, Paris, avril 2000. Dubois D. et Prade H., Thorie des Possibilits : Application la Reprsentation des Connaissances en Informatique, Paris : Edition MASSON, 1987. Dubois D., and Prade H., Possibility Theory, Plenum, New York (USA), 1988. Dubois D., Lang J., Prade H., "Possibilistic logic ", Handbook on Logic in Artificial Intelligence and Logic Programming, vol. 3, Oxford University press, p. 439-513, 1994. Dubois D., and Prade H., "Possibility theory : qualitative and quantitative aspects", Dans : Quantified Representation of Uncertainty and Imprecision. Dov M. Gabbay, Philippe Smets (Eds.), KLUWER ACADEMIC PUBLISHERS, The Netherlands, p. 169-226, Vol. 1, Handbook of Defeasible Reasoning and Uncertainty Management Systems, 1998. Duvignau K., Fabre C., Ferraty F., Gasquet O., Gaume B., Jouve B., Lang J., et Pery-Woodley M.P., (2000). Les dictionnaires de langue : des graphes aux proprits topologico-smantiques ? , Etats Gnraux du Programme de REcherches en Sciences COgnitives de Toulouse (PRESCOT), Toulouse (France), 2000. Duvignau K., La mtaphore berceau et enfant de la langue, Thse de doctorat, Universit Toulouse - Le Mirail 2002. Duvignau K., Mtaphore verbale et approximation, Revue dIntelligence Artificielle (RIA), 17(5/6) : 869881, 2003. Dominich S., Mathematical Foundations of Information Retrieval, Kluwer Academic Publishers, Dordrecht, Boston, London 2001. Douglas W., et Houseman M., The navigability of strong ties: small worlds, ties strength and network topology, eScholarship Repository, University of California 2002. Dunlop M. D., The effect of accessing non matching documents on relevance feedback, In ACM Transactions on Information Systems, 15(2):137-153, 1997. Efthimiadis E., Interactive query expansion : a user based evaluation in relevance feedback environment, Journal of 193
[Denoue et Vignollet, 2000]
[Dubois et Prade, 1987]
[Dubois et Prade, 1988] [Dubois et al., 1994]
[Dubois et Prade, 1998]
[Duvignau et al., 2000]
[Duvignau, 2002]
[Duvignau, 2003] [Dominich, 2001]
[Douglas et Houseman, 2002]
[Dunlop, 1997]
[Efthimiadis, 2000]
Bibliographie
the American Society for Information Science, vol. 51, no 11, pp. 989-1003, 2000.
[Elayeb et al., 2006]
Elayeb B., Evrard F., Zaghdoud M., et Ben Ahmed M., SARIPOD : a system based on hierarchical small-worlds and possibilistic networks for Internet information retrieval, In IADIS International Conference WWW/Internet 2006, Katia Sycara, Fausto Giunchiglia (Eds.), IADIS Digital Library, (on line), pp. 227-232, Murcia (Spain), October 2006. Elayeb B., Evrard F., Zaghdoud M., et Ben Ahmed M., SARIPOD: A Possibilistic System For Web Information Retrieval, In The international conferences on Internet Technologies and Applications (ITA07), Grout V., Oram D., et Picking R., (Eds), pp. 82-91, Wrexham Wales (UK), September 2007. Elayeb B., Evrard F., Zaghdoud M., et Ben Ahmed M., SARIPOD: A Multiagent Possibilistic System For Web Information Retrieval, In The 2007 International Conference on Information and Knowledge Engineering (IKE'07), Hamid R. Arabnia et Ray R. Hashemi (Eds), pp. 72-78, Las Vegas Nevada (USA), June 2007. Elayeb B., Evrard F., Zaghdoud M., et Ben Ahmed M., SARIPOD: Towards A Multiagent Possibilistic System For Web Information Retrieval, In The 2nd International Conference on Software and Data Technologies (ICSOFT'07), Barcelona (Spain), July 2007. Elayeb B., Evrard F., Zaghdoud M., et Ben Ahmed M., Vers une architecture base des Rseaux Petits Mondes Hirarchiques et des Rseaux Possibilistes pour les environnements riches en informations, Dans lAtelier dIntelligence Artificielle et Web Intelligence (IAWI 2007), Grenoble (France), juillet 2007. En ligne : http://www.emse.fr/~vercouter/iawi/10-elayeb.pdf Elayeb B., Evrard F., Zaghdoud M., et Ben Ahmed M., A Qualitative Approach for an Intelligent Possibilistic Web Information Retrieval using Multiagent System, In The IEEE - 6th International Conference in Human System Learning (IEEE-ICHSL6), Sad Tazi and Khaldoun Zreik (Eds), pp. 2-13, Toulouse (France), 14-16 May 2008. Elayeb B., Evrard F., Zaghdoud M., et Ben Ahmed M., Towards An Intelligent Possibilistic Web Information Retrieval using Multiagent System, Dans : The International Journal of Interactive Technologie and Smart Education (ITSE), Special issue: New learning support systems, Emerald Group Publishing Limited, Volume 6, issue 1, pp. 40-59, 2009.
[Elayeb et al., 2007a]
[Elayeb et al., 2007b]
[Elayeb et al., 2007c]
[Elayeb et al., 2007d]
194
Bibliographie
[Eichmann, 1996]
Eichmann D., Interaction Protocols for Software Agents on the World Wide Web, in WWW5 Workshop on Artificial Intelligence-based tools to help W3 users, Paris, 6 may 1996. Fabiani P., Reprsentation Dynamique de lIncertain et stratgie de Prise dInformation pour un Systme Autonome en Environnement Evolutif, Thse de Doctorat en Automatique et Informatique Industrielle, Ecole Nationale Suprieure de lAronautique et de lEspace, Toulouse, 1996. Fan Y. et Gauch S., An Adaptative Multi-Agent Architecture for the ProFusion Meta Search System, Proc. of WebNet97-The Second World Conference of the Web Society, Toronto (ON), November 1997. Fan Y., et Gauch S., Adaptive Agents for Information Gathering from Multiple, Distributed Information Sources, AAAI Symposium on Intelligent Agents in Cyberspace, Stanford University, March 1999. Ferber J., Les systmes multi-agents, vers une intelligence collective, InterEditions, Paris, 1995. Ferber J., Gutknecht O., et Michel F., Madkit: une exprience d'architecture de plate-forme multi-agent gnrique, dans le 8ime Journes Francophones sur l'Intelligence Artificielle Distribue et les Systmes MultiAgents (JFIADSMA'2000), La Runion, Herms, pp. 223236, 2000. Fernandez-Luna J. M., De Campos L. M., et Huete J. F., Two Term-Layers: an Alternative Topology for Representing Term Relationships in the Bayesian Network Retrieval Mode, Advances in Soft ComputingEngineering, Design and Manufacturing, pp. 213-224, 2003. Finetti D. B., La Prvision : Ses Lois logiques, Ses Sources Subjectives, Annales de lInstitut de Henri Poincar, 7, 1937. Fonck P., Rseaux dinfrence pour le raisonnement possibiliste, PhD thesis, Universit de Lige, Facult des Sciences, 1994. Fox E. A., et Shaw J. A., Combination of multiple searches, Dans : Proceedings of the 2nd Text REtrieval Conference (TREC-2), pp. 243-252, 1994. Franois C., Hoffmann M., Lamirel J. C., et Polanco X., Multi-Maps SOM Platform, Rapport technique, IST1999-20350, France, 2003. Franois O., et Leray Ph., Etude comparative dalgorithmes dapprentissage de structure dans les rseaux
[Fabiani, 1996]
[Fan et Gauch, 1997]
[Fan et Gauch, 1999]
[Ferber, 1995] [Ferber et al., 2000]
[Fernandez et al., 2003]
[Finetti, 1937]
[Fonck, 1994]
[Fox et Shaw, 1994]
[Franois et al., 2003]
[Franois et Leray, 2003]
195
Bibliographie
Baysiens, In F. D. de Saint-Cyr, Ed., RJCIA2003 6ime Rencontres Nationales des Jeunes chercheurs en Intelligence Artificielle, Presse Universitaire de Grenoble, pp. 167-180, 2003.
[Franois et Leray, 2004]
Franois O., et Leray Ph., tude Comparative dAlgorithmes dApprentissage de Structure dans les Rseaux Baysiens, Dans Journal lectronique d'Intelligence Artificielle (JEDAI), 2004. Frisse M., Searching for information in a hypertext medical dandbook, In Communication of the ACM (CACM), 31(7) : 880886, 1988. Frisse M., et Cousins S., Information retrieval from hypertext: Update on the dynamic medical dandbook, In Proc. of ACM Hypertext Conference, pp. 199 211, 1989. Fuhr N., Buckley C., Probabilistic learning approach for document indexing, In ACM Transactions on Information Systems, 9(3): 223-248, 1991. Fuhr N., Probabilistic models in information retrieval, In The Computer Journal, 35(3) : 243255, 1992. Garneau T., et Delisle S., Programmation oriente-agent : valuation comparative doutils et environnements, JFIADSMA, 2002. Gaume B., Duvignau K., Gasquet O. et Gineste M.D., Forms of meaning, meaning of forms, Journal of Experimental and Theoretical Artificial Intelligence, 14(1) : 6174, 2002. Gaume B., Balades alatoires dans les petits mondes lexicaux, dans I3 Information Interaction Intelligence, 2004. Gaume B., Hathout N., et Muller P., Dsambigusation par proximit structurelle, TALN 2004, Fs (Marroc), pp. 1921, avril 2004. Gaume B., et Ferr L., Reprsentation de graphes par ACP granulaire, In Actes dEGC 2004 : 4mes journes dExtraction et de Gestion des Connaissances, ClermontFerrand 2004. Gaume B., Cartographier la forme du sens dans les petits mondes Lexicaux, In: JADT 2006, pp. 541-465, Besanon (France), Avril 2006. Gaume B., Duvignau K., Mas J. M., Petits Mondes Hirarchiques et dynamique d'acquisition pour l'enseignement du lexique, In: Technologies langagires et apprentissage des langues ACFAS, Montral, 2006.
[Frisse, 1988]
[Frisse et Cousins, 1989]
[Fuhr et Buckley, 1991]
[Fuhr, 1992] [Garneau et Delisle, 2002]
[Gaume et al., 2002]
[Gaume, 2004]
[Gaume et Ferr, 2004]
[Gaume, 2006]
196
Bibliographie
[Gaume et Mathieu, 2007]
Gaume B., Mathieu F., PageRank Induced Topology for Real-World Networks, In Complex Systems, volume (year) 11+; year Complex Systems Publications, 2007. Gaume B., Duvignau K., Vanhove M., Semantic associations and confluences in paradigmatic networks, In: M. Vanhove (d.), Typologie des rapprochements smantiques (Linguistic), 2007. Gacgne L., Elments de la Logique Floue, Edition Hermes, 1997. Giarratano et Riley, Expert System : Principle and Programming, PWS-KENT Publishing Company, 1989. Graham J. R., Mchugh D., Mersic M., et al., Tools for Developing and Monitoring Agents in Distributed Multiagent Systems, Agents Workshop on Infrastructure for Multi-agent Systems, pp. 12-27, 2000. Haines D., et Croft W.B., Relevance Feedback and Inference Networks, Conference on Research and Development in Information Retrieval (SIGIR), 1993. Hallouli K., Reconnaissance de caractres par mthodes markoviennes et rseaux Baysiens, Thse de Doctorat spcialit Signal et Images, Ecole Nationale Suprieur des Tlcommunications, Tlcom Paris, Mai 2004. Hamers L., Hemeryck Y., Herweyers G., Janssen M., Keters H., Rousseau R., et Vanhoutte A., Similarity measures in scientometric research: the Jaccard index versus Saltons cosine formula, Information Proceeding and Management, 25(3): 315-318, 1989. Hammer J., et Fiedler J., Using mobile crawlers to search the Web eficiently, Int. Journal of Computer and Information Science, 1(1) : 36-58, 2000. Harman D., Relevance feedback and other query modification techniques, In Information Retrieval: Data Structures an Algorithms, William B., Frakes and Ricardo Baeza-Yates, editors, Prentice Hall, Englewood, Cliffs, NJ, pp. 241263, 1992. Harman D., Fox E., Baeza-Yates R., et Lee W., Information Retrieval: data structures and algorithms, Chapitre 3: Inverted files, pp. 28-43, William B., Frakes and Ricardo Baeza-Yates, Prentice Hall edition, 1992. Harter S., A probabilistic approach to automatic keyword indexing. Part ii. an algorithm for probabilistic indexing, In Journal of the American Society for Information Science (JASIS), 35(3) : 280289, 1975. Hermans, B., Intelligent software agent on the internet: an inventory of currently offered functionality in the 197
[Gacgne, 1997] [Giarratano et al., 1989] [Graham et al., 2000]
[Haines et Croft, 1993]
[Hallouli, 2004]
[Hamers et al., 1989]
[Hammer et Fiedler, 2000]
[Harman, 1992]
[Harman et al., 1992]
[Harter, 1975]
[Hermans, 1997]
Bibliographie
information society and a prediction of (near-) future developments, Master's thesis, Tiburg University, Tiburg, The Netherlands, 1997.
[Howard et Matheson, 1981]
Howard R. A., et Matheson, J. E., Influence diagrams, In Howard, R. A., and Matheson, J. (Eds.), The Principles and Applications of Decision Analysis, pp. 720762. Strategic Decisions Group, CA, 1981. Huhns M. N., et Singh M. P., Readings in AGENTS, Morgan Kaufmann Publishers, Inc, ISBN 1- 55860-495-2, 523 P, 1997. Ide E., New experiments in relevance feedback, In G. Salton (Ed.) The Smart System-Experiments in Automatic Document Processing, Englewood Cliffs, NJ: Prentice-Hall, Inc., 1971. Ide N., et Vronis J., Introduction to the special issue on word sense disambiguation: The state of the art, Computational Linguistics, 24(1), 1998. Ingwersen P., Information retrieval interaction, Taylor and Graham, London (UK), 1992. Jaakkola T. S., et Jordan M. I., Variational probabilistic inference and the QMR-DT network, Journal of Artificial Intelligence Research, vol. 10, pp. 291-322, 1999. Jensen F. V., Lauritzen S. L., et Olesen K. G., Bayesian updating in recursive graphical models by local computations, Computational Statistical Quaterly, vol. 4, pp. 269-282, 1990. Jensen F., An introduction to Bayesian Networks, UCL Press, University college, London, 1996. Jensen F. V., Bayesian Networks and Decision Graphs, Wiley, 2000. Jones K. S., Walker S., and Robertson S., A probabilistic model of information retrieval: development and comparative experiments, parts 1 & 2, In Information Processing and Management (IPM), 36(6) : 779808, 809 840, 2000. Jordan M. I., Ghahramani Z., Jaakkola T. S., et Saul L. K., An introduction to variational methods for graphical models, In Machine Learning, vol. 37, pp. 183-233, 1999. Jordan M. I., et Weiss Y., probabilistic inference, In Graphical models, MIT Press, Five Cambridge Center, MA 02142-1493 USA, 2001. Joshi A., Singh M. P., et Ma M., Special section on multiagent systems on the net and agents in e-commerce, Communications of the ACM, 42(3), 1999.
[Huhns et Singh, 1997]
[Ide, 1971]
[Ide et Vronis, 1998]
[Ingwersen, 1992] [Jaakkola et Jordan, 1999]
[Jensen et al., 1990]
[Jensen, 1996] [Jensen, 2000] [Jones et al., 2000]
[Jordan et al., 1999]
[Jordan et Weiss, 2001]
[Joshi et al., 1999]
198
Bibliographie
[Joubert et al., 1991]
Joubert M., Fieschi M., Botti G., et Fieschi D., Etude d'un modle de reprsentation des concepts mdicaux pour la recherche d'information, Dans Informatique et Sant (4) : 101-112, Paris France, 1991. Kammoun-Bouzaene H., Collaboration de modles symbolique et numrique pour une recherche dinformation adaptative, volutive et cooprative, Thse de Doctorat en Informatique, Ecole Nationale des Sciences de lInformatique (ENSI), Tunisie, 2006. Keklinen J., et Jrvelin K., Evaluating information retrieval systems under the challenges of interaction and multidimentional dynamic relevance, In Bruce H., Fidel R., Ingwersen P., Vakkari P., (eds). Emerging Frameworks and Methodes, Seattle, Colerado: Libraries Unlimited, pp. 253270, 2002. Kettani N., De Merise UML, Paris : Edition Eyrolles, 1998. Kim J. H., et Pearl J., A computational model for combined causal and diagnostic reasoning in inference systems, In Proceedings of IJCAI-83, pp. 190-193, Karlsruhe, Germany, 1983. Kim J. H., et Pearl J., CONVINCE: A Conversational Inference Consolidation Engine, In IEEE Trans. on Systems, Man and Cybernetics, vol. 17, pp. 120-132, 1987. Kjaerulf U., Triangulation of graphs algorithms giving small total state space, Dept. of Maths. And Comp. Sci. Technical Report r-90-09 edition, 1990. Kohonen T., Kaski S., Lagus K., et Honkela T., Self organization maps, In Proceedings ICNN97, International Conference on Knowledge Discovery and Data Mining, pp. 238-243, 1996. Kosch H., Doller M. et Boszormenyi L., Content-based indexing and retrieval supported by mobile agent technology, In The Second International Workshop on Multimedia Databases and Image Communication, pp. 152166, 2001. Kraft, D. H., et Buell, D. A., Fuzzy sets and generalized Boolean retrieval systems, in International Journal on Man-Machine Studies, 19, 4956, 1983. Lamirel J. C., Application dune approche symbolicoconnexioniste pour la conception dun systme documentaire hautement interactif, le prototype NOMAD, Thse de Doctorat en Informatique, Universit HenriPoincar, Nancy I, Nancy (France), 1995.
[Kammoun-Bouzaene, 2006]
[Keklinen et Jrvelin, 2002]
[Kettani, 1998] [Kim et Pearl, 1983]
[Kim et Pearl, 1987]
[Kjaerulf, 1990]
[Kohonen et al., 1996]
[Kosch et al., 2001]
[Kraft et al., 1983]
[Lamirel, 1995]
199
Bibliographie
[Lauritzen, 1988]
Lauritzen S., Local computation with probabilities on graphical structures and their application to expert systems, In Journal of the Royal Statistical Society, vol. 50, pp. 157, 1988. Lauritzen S. L., Spiegelhalter D. J., Local computations with probabilities on graphical structures and their application to expert systems, Journal of the Royal Statistical Society, vol. 50, p. 157-224, 1988. Lee J. H., Combining the evidence of different relevance feedback methods for information retrieval, Information Processing Management, 34(6):681-691, 1998. Lelu A., Franois C., Information retrieval based on a neural unsupervized of thematic fuzzy clusters, Les rseaux neuromimtiques et leurs applications (NeuroNmes), pp. 93-104, 1992. Lesk M., Automatic sense disambiguation using machine readable dictionaries: how to tell a pine code from an ice cream cone, In Proceedings of the 5th annual international conference on Systems documentation, pp. 2426, Toronto (Canada), 1986. Liebermann H., Letizia, An Agent for Web Browsing, International Joint Conference on Artificial Intelligence (IJCAI-95), Montreal, August 1995. Lopez N., Migueis J., et Pichon E., Intgrer UML dans vos projets, Paris : Edition Eyrolles, 1998. Mackay D., An introduction to Monte Carlo Methods, In Learning in Graphical Models, MIT Press, pp. 175-204, 1999. Macquoy A., Michat S., Parisot V., Sevestre M., et Zimero N., Documentation Projet Dilan, Rapport de stage, Institut de Recherche en Informatique de Toulouse (IRIT), 2002. Maes P., Agents that Reduce Work and Information Overload, Communications of the ACM, 37(7), 1994. Mandala R., Tokunaga T., et Tanaka H., Combining multiple evidence from different types of thesaurus for query expansion, Proc. of the International ACM-SIGIR Conference, 1, pp. 191197, 1972. Meganck S., Leray Ph., Maes S., Manderick B., Apprentissage des rseaux baysiens causaux partir de donnes dobservation et dexprimentation Learning causal bayesian networks from data and manipulation, Dans 15e
congrs francophone AFRIF-AFIA Reconnaissance des Formes et Intelligence Artificielle, Tours (France), 25 au 27 janvier
[Lauritzen et al., 1988]
[Lee, 1998]
[Lelu et Franois, 1992]
[Lesk, 1986]
[Liebermann, 1995]
[Lopez et al., 1998] [Mackay, 1999]
[Macquoy et al., 2002]
[Maes, 1994] [Mandala et al., 1972]
[Meganck, 2006]
2006.
200
Bibliographie
[Miller et Bharat, 1998]
Miller, R. C., et Bharat, K., SPHINX: A framework for creating personal, site-specific web crawlers, In the 7th International World Wide Web Conference (WWW7). Printed in Computer Network and ISDN System Vol.30, pp. 119-130, Brisbane, Australia, 1998. Mizzaro S., Relevance : the hole history, In the Journal of the American Society for Information Science, 48(9): 810832, 1997. Mothe J., et Dkaki T., Interactive multidimentional document visualisation, In Proceedings of the Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp. 363-364, Sydney (Australia), 1998. Ndumu D. T., Lee L. C., et Nwana H. S., ZEUS : An Advanced ToolKit for Engineering Distributed Multi-Agent Systems, In Proceedings of the Practical Application of Intelligent Agents and Multi-Agent Systems, pp. 377-392, Londres, 1998. Newman M. E. J., The structure and function of complex networks, SIAM Review, Vol. 45, 167256, 2003. Nguyen H. T., Some Mathematical Tools for Linguistic Probabilities, in Fuzzy Sets and Systems, 2, 53-65, 1979. Nie J-Y., An outline of general model for information retrieval systems, In Proceedings of the Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp.495-506, 1988. Pearl J., Reverand Bayes on inference engines: A distributed hierarchical approach, In Proceedings of the AAAI National Conference on AI, pp. 133-136, Pittsburgh, 1982. Pearl J., Probabilistic reasoning in intelligent systems : Networks of plausible Inference, Morgan Kaufman Publishers, Inc., San Mateo, CA, 2nd Edition, 1988. Ploux S., et Victorri B., Construction despaces smantiques laide de dictionnaires de synonymes, TAL, 39(1) :161-182, 1998. Porter M. F., An algorithm for suffix stripping, Program, 14(13): 130-137, 1980. Porter M. F., Implementing a probabilistic information retrieval system, In Information Technology: Research and Development, pp. 131-156, 1982. Portrait Y., Modlisation de la structure du langage, Rapport de stage de fin dtudes en informatique et mathmatiques appliques, IRIT, Toulouse (France), 2003.
[Mizzaro, 1997]
[Mothe et Dkaki, 1998]
[Ndumu et al., 1998]
[Newman, 2003] [Nguyen, 1979] [Nie, 1988]
[Pearl, 1982]
[Pearl, 1988]
[Ploux et Victorri, 1998]
[Porter, 1980] [Porter, 1982]
[Portrait, 2003]
201
Bibliographie
[Prade et Testemale, 1987]
Prade H., et Testemale C., Application of possibility and necessity measures to documentary information retrieval, In Uncertainty in Knowledge-Based Systems (B. Bouchon, R. Yager, Eds.), LNCS n286, Berlin Springer-Verlag, 265274, 1987. Qiu Y., et Frei H., Concept based query expansion, In Proc. of the International ACM-SIGIR Conference, pp. 160169, 1993. Radecki, T., Fuzzy set theoretical approach to document retrieval. Information Processing & Management, 15: 247259. Ravasz E., et Barabsi A., L., Hierarchical Organisation in Complex Networks, In Phys.Rev. E, 67:026112-026118, 2003. Ribeiro-Neto B., Silva I., et Muntz R., A Belief Network Model for IR, Proc. of the 19th ACM-SIGIR Conf. on Research and Development in Information Retrieval, 253260, 1996. Ricordel P. M., et Demazeau Y. From Analysis to Deployment : A Multi-agent Platform Survey, ESAW, p. 93-105, 2000. Rijsbergen C. V., A theoretical basis for the use of cooccurrence data in information retrieval, In Journal of Documentation, 33, 106 119, 1977. Rijsbergen C. V., Information Retrieval, Butterworth Heinemann, Newton (MA), 1979. Resnik P., et Yarowsky D., Distinguishing systems and distinguishing senses : New evaluation methods for word sense disambiguation, Natural Language Engineering, 5(2), 113133, 2000. Rimassa G., Bellifemine F., et Poggi A., JADE A FIPA Compliant Agent framework, PMAA99, pp. 97-108, Londres, Avril 1999.
[Qiu et Frei, 1993]
[Radecki, 1979]
[Ravasz et Barabsi, 2003]
[Ribeiro-Neto et al., 1996]
[Ricordel et Demazeau, 2000]
[Rijsbergen, 1977]
[Rijsbergen, 1979] [Resnik et Yarowsky, 2000]
[Rimassa et al., 1999]
[Roberston et Sparck-Jones, 76] Roberston S. E., et Sparck-Jones J., Relevance weighting of search terms, Journal of the American Siciety for Information Science, vol. 27, no 3, p. 129, 146, 1976. [Roberston, 1986] [Rocchio, 1971]
Roberston S. E., On relevance weight estimation and query expansion, Journal of Documentation, 42:182-188, 1986. Rocchio J., Relevance feedback in information retrieval, The SMART retrieval system-experiments in automatic document processing, Prentice Hall Inc, pp. 313-323, 1971. Roques P., UML par la pratique, Paris : Edition Eyrolles, 2001.
[Roques, 2001]
202
Bibliographie
[Salton, 1971] [Salton et al., 1983a]
Salton G., The SMART retrieval system, Prentice-Hall, Englewood Cliffs, N. J., 1971. Salton G., Fox E. A., et Wu, H., Extended Boolean information retrieval, Communications of the ACM, 26(12): 1022-1036, 1983. Salton G., Fox E. A., Buckley C., et Voorhees E., Boolean query formulation with relevance feedback, Rapport technique, Ithaca, NY Cornell University, Departement of computer science, 1983. Salton G., et McGill M. J., Introduction to modern information retrieval, McGraw-Hill, New York, 1983. Salton G., et Buckley C., On the use of spreading activation methods in automatic information retrieval, communications of the ACM, pp. 147-160, 1988. Salton G., Automatic text processing, Addisson-Wesley, Reading, MA, USA, 1989. Salton G., et Buckley C., Improving Retrieval Performance By Relevance Feedback, In Journal of The American Society for Information Science (JASIS), 41(4) : 288-297, 1990. Salton G., Allan J., Buckley C., et Singhal A., Automatic Analysis, Theme Generation and Summarization of Machine Readable Texts, Science, 264(3): 1421-1426. 1994. Sandri S., La Combinaison de lInformation Incertaine et ses Aspects Algorithmiques, Thse de Doctorat en Informatique. Universit de Paul Sabatier de Toulouse, 1991. Saracevic T., The concept of relevance in information science: a historical review, Saracevic (ed.), Introduction to information science, chap. 3 - The concept of relevance, pp. 111-151, New York R.R. Bowker company, 1970. Saracevic T., Relevance reconsidered, In Information science: Integration in perspectives, Proc. of the Conference on Conceptions of Library and Information Science, pp. 201 218, 1996. Sauvagna K., Modle flexible pour la Recherche dInformation dans des corpus de documents semistructurs, Thse de Doctorat en informatique, Universit Paul Sabatier, Toulouse (France), 2005. Savage L. J., The Foundations of Statistics, Dover Publications, New York (USA), 1972.
[Salton et al., 1983b]
[Salton et McGill, 1983] [Salton et Buckley, 1988]
[Salton, 1989] [Salton et Buckley, 1990]
[Salton et al., 1994]
[Sandri, 1991]
[Saracevic, 1970]
[Saracevic, 1996]
[Sauvagna, 2005]
[Savage, 1972]
203
Bibliographie
[Savoy et al., 1991]
Savoy J., Dubois D., et al., Information Retrieval in Hypertext Systems an Approach Using Bayesian Networks, Electronic Pub., 4(2) : 87-108, 1991. Savoy J., Stemming of French words based on grammatical categories, Journal of the Americal Society for Information Science, 44(1): 1-9, 1993. Sergi V., et Ricard V. S., Hierarchical Small-Worlds in Software Architecture, Dynamics of Continuous Discrete and Impulsive Systems: Series B; Applications and Algorithms 14, pp. 1-11, 2007. Schamber L., Eisenberg M., et Nilan S. M., A reexamination of relevance toward a dynamic, situational definition, Information Processing and Management, 26(6): 755-776, 1990. Scharffe F., Croisements smantiques dans les graphes petits mondes, Mmoire de DEA Reprsentation de la connaissance et Formalisation du Raisonnement. Universit Paul Sabatier Toulouse III, Toulouse (France), 2004. Shibly T., Choumane A., Gharib A., Recherche des composantes de sens dans un graphe de dictionnaire de verbes par une approche base sur ltude des circuits, Mmoire de fin dtudes, Facult des sciences, universit libanaise, 2004. Silva I., Ribeiro-Neto B., Calado P., Moura E., et Ziviani N., Link-Based and Content-Based Evidential Information in a Belief Network Model, ACM/SIGIR 23rd Int. Conference on Information Retrieval, pp. 96103, 2000. Singhal A., Buckley C., et Mitra M., Pivoted document length normalisation, Proc. of the International ACMSIGIR Conference, 32(2) : 2129, 1996. Singhal A., Salton G, Mitra M., et Buckley C., Document Length Normalization, Information Processing and Management (IPM), 32(5) : 619633, 1996. Smeaton A. F., The retrieval effects of query expansion on a feedback document retrieval system, The computer Journal, 26:239-246, 1983. Snowdon D., Fahlen L., et Stenius M., WWW3D : A 3D multi-user Web browser, In WebNet96 Proceedings Online, San Fransisco, California (USA), Octobre 1996. Sparck-Jones K., A Look Back and a Look Forward, In Proceedings of the 11th Annual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp. 13-29, 1988.
[Savoy, 1993]
[Sergi et Ricard, 2007]
[Schamber et al., 1990]
[Scharffe, 2004]
[Shibly et al., 2004]
[Silva et al., 2000]
[Singhal et al., 1996a]
[Singhal et al., 1996b]
[Smeaton, 1983]
[Snowdon et al., 1996]
[Sparck-Jones, 1988]
204
Bibliographie
[Sugeno, 1974]
Sugeno M., Theory of Fuzzy integral and its Applications, Ph.D. Thesis, Tokyo Inst of Technology, Japan, 1974. Tanimoto T., An elementary mathematical theory of classification and prediction, Rapport IBM, 1958. Thati P., Chang P.H., et Agha G., Crawlets: Agents for high performance Web search engines, In Mobile Agents 2001, LNCS 2240, pp. 119-134, Springer-Verlag, 2001. Tombros A., et Sanderson M., Advantages of query biased summaries in information retrieval, In Proceedings of the Anuual International ACM/SIGIR Conference on Research and Development in Information Retrieval, pp. 2-10, Sydney (Australia), 1998. Tsai T. et Lee W., An interactive agent-based system for concept-based Web search, Department of Management Information Systems, National Pingtung University of Science and technology, Taiwan, 2003. Turtle H. R., et Croft W. B., Inference networks for document retrieval, In Proc. 13th International Conference on Research and Development in Information Retrieval, 1 24, 1990. Turtle H. R., Inference networks for document retrieval, Ph.D. thesis, University of Massachusetts, USA, 1991. Turtle H. R., et Croft W. B., Evaluation of an inference network-based retrieval model, In ACM Transaction on Information System, 9(3) : 187222, 1991. Van Rijisbergen C. J., A non-classical logic for information retrieval, In Computer Journal, 29(6) : 481 485, 1986. Venant F., Gomtriser le sens. Les Journes Graphes, Rseaux et Modlisation, ESPCI, Paris, 2003. Victorri B., et Fuchs C., La polysmie, construction dynamique du sens, Paris : Edition Herms, 1996. Vise D., et Malseed M., Google story, Paris : Edition Dunod, 2006. Veronis, J., et Ide N. M., Word Sense Disambiguisation whith Very Large Neural Networks Extracted from Machine Readable Dictionaries, COLING'90, 1990. Watts D. et Strogatz S., Collective dynamics of smallworld networks, Nature, 393, 440442, 1998. Waller, W. G., et Kraft D. H., A mathematical model for a weighted Boolean retrieval system, Information Processing & Management, 15, pp. 235-245, 1979.
[Tanimoto, 1958] [Thati et al., 2001]
[Tombros et Sanderson, 1998]
[Tsai et Lee, 2003]
[Turtle et Croft, 1990]
[Turtle, 1991] [Turtle et Croft, 1991]
[Van Rijisbergen, 1986]
[Venant, 2003] [Victorri et Fuchs, 1996] [Vise et Malseed, 2006] [Veronis et Ide, 1990]
[Watts et Strogatz, 1998] [Waller et Kraft, 1979]
205
Bibliographie
[Walker et al., 1997]
Walker S., Roberston S. E., Boughanem M., Jones G. J. F., Sparck-Jones K., OKAPI at TREC-6, Dans : Proceedings of the 6th Text REtrieval Conference (TREC-6), NIST Special Publication, 1997. Wong S. K. M., et Raghavan V. V., Development in information retrieval, Chapitre: Vector Space Model of Information Retrieval: a re-evaluation, pp. 167-185, University of Cambridge, England, 1984.
[Wong et Raghavan, 1984]
[Wooldridge et Jennings, 1995] Wooldridge M., et Jennings N. R., Intelligents Agents: Theories and practice, The Knowledge Engeneering Review, 1995. [Wooldridge et al., 1996]
Wooldridge M., et al., Agent Theories, Architectures and Languages : a Survey, Intelligent Agents, Wooldridge and Jennings (Eds), Berlin Springer-Verlag, 1-22, 1996.
[Wooldridge et Jennings, 1998] Wooldridge M., et Jennings N. R., Pitfalls of agentoriented development, Departement of Electronic Engineering, Queen Mary & Westfield College, University of London, Research report, 1998. [Yates et Neto, 1999] [Yuwono et al., 1997]
Baeza-Yates R., et Ribeiro-Neto B., Modern Information Retrieval, Addison-Wesley, 1999. Budi Yuwono, Savio L.Y. Lam, Jerry H. Ying, Dik L. Lee, A World Wide Web Ressource Discovery S ystem, Sino Software Research Center (SSRC), 1997, En ligne: http://www.w3.org/Conferences/WWW4/Papers/66/ Zadeh L. A., Fuzzy Sets, Information and Control, 8, 338353, 1965. Zadeh L. A., Fuzzy Sets as a basis for a theory of Possibility, Fuzzy Sets and Systems, Vol. 1, pp. 3-28, 1978. Zaghdoud M., SAFIINA : Systme bas multi-Agent de Fusion dInformations INcertAines, Thse de Doctorat en Informatique, Ecole Nationale des Sciences de lInformatique, Tunisie 2003. Zhang N. L., et Poole D., A simple approach to Bayesian Network computations, In Proc. of the 10th Canadian Conference on Artificial Intelligence, vol. 71, pp. 171-178, 1994. Zayani C., Contribution la dfinition et la mise en oeuvre de mcanismes dadaptation de documents semistructurs, Thse de Doctorat en informatique, Universit Paul Sabatier, Toulouse (France), 2008. Zipf G. K., Human behaviour and the principle of least effort, Cambridge, Mass, Addison-Wesley, 1949.
[Zadeh, 1965] [Zadeh, 1978]
[Zaghdoud, 2003]
[Zhang et Poole, 1994]
[Zayani, 2008]
[Zipf, 1949]
206
207
Annexe 1 : Format XML du dictionnaire franais Le Grand Robert

Le travail ralis dans cette annexe consiste recrire une application faite sur la base dune tude du dictionnaire initial dico_ini.xml ralise par [Macquoy et al., 2002]. En effet, nous prsentons dans cette annexe les tapes de formalisation de la source de donnes utilise pour le RPMH de dictionnaire. Il sagit du dictionnaire franais Le Grand Robert sous format XML. Cette source de donnes ntant pas utilisable dans son tat initial, il nous faut la traiter en plusieurs tapes pour arriver enfin un format de donnes exploitable. Au terme de ce traitement, nous obtenons un dictionnaire complet au format XML, mais de taille trs importante (45 Mo) inmanipulable par le systme SARIPOD en raison de contraintes despace mmoire. Cest ainsi que nous avons t obligs de subdiviser ce dictionnaire complet en quatre fichiers XML : un dictionnaire pour les verbes, un pour les noms, un pour les adjectifs et un dernier pour les adverbes. Les traitements raliss sur ces quatre fichiers sont les mmes. La prsente annexe est organise de la faon suivante : Nous prsentons dans une premire section les traitements prliminaires de rcupration de la structure du dictionnaire. La cration du fichier XML fera lobjet dune seconde section. Dans la troisime section, nous prsentons brivement le taggage/lemmatisation et lextraction des mots. La dernire section sintresse la cration des liens entrants pour les verbes.
1. Traitements prliminaires du dictionnaire

Les diffrentes catgories de texte dans le fichier dico_ini.xml sont spares, plus ou moins correctement par des balises. La premire tape consiste identifier ces balises, prciser leur rle, notamment en construisant la matrice tats-transitions, puis transformer ce fichier en un fichier XML en remplaant au moyen du script perl taggerXML.pl les balises suivant le tableau A1.1 [Macquoy et al., 2002].
dico_ini.xml ABAISSER [abese] v. tr \015\ \007\ \004\ [a.] \016\ \016\ \009\ Balises XML <DEF> <NIVEAU type= 1> <NIVEAU type= 2> <NIVEAU type= 3> <NIVEAU type= 4> <AUTREFORME> <MOTSLIES> <RE-MOTSLIES> <META> <ITALIQUE> <CITATION> <CONTRAIRE> <RETOUR> </ITALIQUE> Fonction Nouvelle entre 1er niveau 2me niveau 3me niveau 4me niveau p.p.adj. ou v.pron. mots lis reprise des mots lis mta italique citations contraires, drivatifs, comparatifs et homonymes fin de mta ou de mots lis fin ditalique
Tableau A1.1 : Rcupration de la structure du dictionnaire Le Grand Robert
208
2. Gnration dun dictionnaire au format XML

La premire tape consiste nettoyer le fichier initial des balises inutiles. Ensuite, il sagit de remplacer les caractres accentus (qui apparaissaient dans le dictionnaire avec un code du type ^Z), le fichier dico.xml respecte normalement la DTD suivante [Macquoy et al., 2002]. (voir figure A1.1) :
 <!ELEMENT DICO (DEF+)>  <!ELEMENT DEF (ENTRANT?,(STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU|AUTREFORME|PRONOMINAL)* ,(CONTRAIRE|DERIVATIF|COMPARATIF|HOMONYME)*)> <!ATTLIST DEF mot CDATA #REQUIRED phonetique CDATA #REQUIRED cat CDATA #REQUIRED> <!ELEMENT CONTRAIRE (#PCDATA)*> <!ELEMENT DERIVATIF (#PCDATA)*> <!ELEMENT COMPARATIF (#PCDATA)*> <!ELEMENT HOMONYME (#PCDATA)*> <!ELEMENT AUTREFORME (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ELEMENT PRONOMINAL (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ELEMENT NIVEAU (STANDARD|ITALIQUE|META|MOTSLIES|NIVEAU)*> <!ATTLIST NIVEAU type (1|2|3|4) #REQUIRED>  <!ELEMENT META (STANDARD|ITALIQUE)*> <!ELEMENT MOTSLIES (STANDARD|ITALIQUE)*> <!ELEMENT STANDARD (#PCDATA)*> <!ELEMENT ITALIQUE (#PCDATA)*>
Figure A1.1 : La DTD du fichier dico.xml
Dans la plupart des cas, la phontique du mot existe entre crochets. Cette phontique facilite la reconnaissance des dfinitions des mots dans le dictionnaire. Ensuite, pour les entres comportant des ou , des et ou des virgules, il a t ncessaire de recopier la dfinition pour chaque synonyme. En revanche les fminins et pluriels des mots ont t supprims. Il reste le problme des entres non repres qui introduisent des dfauts de structure. Ces dernires causent plusieurs autres anomalies dans le fichier dico.xml. Une comparaison des entres dj reconnues avec la liste des entres du dictionnaire savre ncessaire pour contribuer la rsolution dun tel problme. La dernire phase consiste faire un nettoyage manuel pour sassurer de lexhaustivit des donnes afin dobtenir le fichier dico_final.xml. La figure A1.2 dcrit brivement les tapes de cration dun fichier XML partir du dictionnaire.
taggerXML.pl Traitement manuel
dico_ini.xml
dico.xml
dico_final.xml
Figure A1.2 : Les tapes de cration dun fichier XML partir du dictionnaire
209
3. Taggage/Lemmatisation et extraction des mots

La premire phase consiste appliquer les scripts TagScript1.pl, puis TagScript2.pl afin de traiter le cas des verbes pronominaux. Le script perl onlyVerbe.pl permet dengendrer un dictionnaire qui ne contient que les dfinitions des verbes intervenant dans toutes les dfinitions (dicoVerb.xml). Le script perl TagScript1.pl permet deffectuer ltape du balisage et de lemmatisation du dictionnaire XML-is. Le script perl TagScript2.pl est charg de traiter le cas des verbes pronominaux, une fois le dictionnaire XML-is. Ces mmes traitements ont t faits pour obtenir les trois autres dictionnaires des noms, des adjectifs et des adverbes. En effet, les trois scripts perl onlyNom.pl, onlyAdjectif.pl et onlyAdverb.pl permettent dengendrer respectivement les trois dictionnaires dicoNom.xml, dicoAdj.xml et dicoAdv.xml.
3.1 Taggage/Lemmatisation
Au dbut de cette tape, il faut que les balises du dictionnaire XML-is ne contiennent pas dattributs, sinon lanalyse avec le Tagger/Lemmatiseur est impossible. Or deux balises utilises dans le dictionnaire XML-is contiennent de tels attributs : la balise <DEF> et la balise <NIVEAU>. En effet, lexcution du script TagScript1.pl permet de remplacer les balises <DEF mot= > et <NIVEAU type= > par des simples balises <DEF> et <NIVEAU>, les balises remplaces tant stockes dans un fichier ddi. Ensuite, le fichier temporaire a t trait par le Tagger/Lemmatiseur qui fournit en sortie un fichier balis et lemmatis. La rincorporation des balises <DEF mot=> et <NIVEAU type=> leur place dorigine est fait par la dernire partie du script perl TagScript1.pl. On obtient ainsi en sortie du script le fichier dico_Temp_Res_ini.xml qui correspond au dictionnaire XML-is. Ce fichier contient la catgorie grammaticale de chaque mot (verbe, adjectif, adverbe, nom, ), ainsi que la forme sous laquelle il apparat comme entre du dictionnaire.
3.2 Traitements particuliers : les verbes pronominaux et les autres formes

Le traitement des verbes pronominaux est un cas particulier dans lanalyse du dictionnaire XML obtenu. Cette tape est ncessaire pour obtenir le dictionnaire des verbes souhait. En fait, ces verbes sont frquents dans le dictionnaire et possdent des sens diffrents de leurs verbes racine . A titre dexemple, le verbe pronominal se lever a un sens qui nest pas bien reflt par celui de sa racine lever . Dautre part, il faut que le fichier XML rfrence ces verbes pronominaux comme ayant une dfinition part entire dans le dictionnaire pour pouvoir dfinir un verbe pronominal comme une nouvelle entre du dictionnaire. Cependant, un problme se pose dans la mesure o ces verbes ne sont pas recenss comme dfinition du dictionnaire, mais simplement incorpors dans la dfinition mme de leur racine . En effet, ils interviennent comme autre forme du verbe, et toute autre forme du dictionnaire nest pas forcment un verbe pronominal (par exemple, cela peut tre un participe prsent adjectif). Lensemble des autres formes du verbe est contenu entre des balises <PRONOMINAL> et </PRONOMINAL>. Toutefois, le fichier XML dico_final.xml permet de savoir sil existe un verbe pronominal au sein des autres formes dun verbe. 210
Une partie du script TagScript2.pl permet de distinguer les verbes pronominaux des autres formes. Il sagit en fait dune tape assez dlicate cause du nombre de cas particuliers dtects au cours du codage (cas particuliers dus la non standardisation dans le dictionnaire de la faon dnumrer les verbes pronominaux). En cas de modifications du script concernant cette partie, le fichier temporaire dico_Temp_Res_final.xml savre trs utile pour toute consultation ultrieure. Un exemple de traitement est le suivant :
Fichier en entre :
<DEF mot= lever phonetique=.> . <PRONOMINAL> <STANDARD> SE LEVER</STANDARD> <META> <STANDARD> v. pron. </STANDARD> </META> .. </PRONOMINAL> <CONTRAIRE> .. </DEF>
Fichier en sortie :
<DEF mot= lever phonetique=.> . </DEF> <DEF mot= lever (se) phonetique= cat= v. pron. > .. </DEF>
3.3 Insertion des verbes pronominaux et balisage dans les dfinitions

Ltape consiste ici insrer les verbes pronominaux comme des entres spcifiques du dictionnaire. En effet, il sagit de traiter les verbes pronominaux dans les dfinitions comme des entits entires (autrement dit, il sagit dassocier au pronom rflexif se ou s le verbe correspondant). Par exemple, si le verbe sallumer apparait dans la dfinition dun mot, il faut que lensemble renvoie une seule entit allumer (s) , afin quon puisse retrouver lentre correspondante dans le dictionnaire. Si le traitement sapplique au cur dune dfinition qui nest pas entre les balises <MOTSLIES> et </MOTSLIES>, les verbes pronominaux se trouvent sous la structure suivante : allumer (s) , cest--dire que le pronom rflexif suit la forme verbale. Cela ncessite donc un traitement diffrent. Cest la deuxime partie du script TagScript2.pl qui permet de traiter les verbes pronominaux de cette structure. De plus, cette partie de script permet de raliser un balisage des mots et de leurs types. Le fichier rsultat en sortie du script TagScript2.pl est le fichier dico_Result_final.xml qui correspond au fichier XML final du dictionnaire.
211
Voici un exemple de ce que ralise ce balisage :

Fichier en entre :
<DEF mot= allumer phonetique=.> . <ITALIQUE> avais VER avoir </ITALIQUE> <MOTSLIES> <STANDARD> lever VER lever </STANDARD> </MOTSLIES> </DEF>
Fichier en sortie :
<DEF mot= allumer phonetique=.> . <ITALIQUE> <MOT>avoir</MOT><TAG>VER</TAG> </ITALIQUE> <MOTSLIES> <STANDARD> <MOT>lever</MOT><TAG>VER</TAG> </STANDARD> </MOTSLIES> </DEF>
3.4 Conversion des accents

Les accents ont subi un certain traitement grce la procdure Accent qui s'applique sur un fichier XML afin de pouvoir valider la DTD. En effet, il faut convertir les accents pour que le fichier suive la norme XML. Le script perl accent_dico.pl est charg de cette conversion pour fournir en sortie le fichier convert_dico.xml.
3.5 Validation de la DTD et prparation au traitement des entrants

La validation de la DTD a t effectue selon les trois tapes suivantes :
Etape 1 : Ouvrir sous ULTRA-Edit le fichier convert_dico.xml, y incorporer en dbut et en fin de fichier les lignes indiques dans le fichier DTD_ini.xml. Etape 2 : Sans quitter ULTRA-Edit, taper en commandes DOS la commande suivante : rxp xsVc UTF-16 convert_dico.xml
Corriger manuellement (dans ULTRA-Edit) les quelques erreurs signales (2 balises sur les verbes) en enlevant les balises qui posent problmes. 212
La DTD est alors valide, et on peut quitter ULTRA-Edit, et repasser sous Linux.
Etape 3 : Le script perl balises_vides_ini.pl permet denlever toutes les balises vides (par exemple de type <STANDARD></STANDARD> sans texte au milieu). On applique ce script sur le fichier convert_dico.xml (qui est le fichier XML de rfrence pour les verbes) pour obtenir en sortie le fichier balises_vides_final.xml.
4. Cration des liens entrants : cas des verbes

Les "ENTRANTS" dun mot sont tous les mots qui font rfrence dans leur propre dfinition au mot en question. En fait, on rajoute au dbut de chaque dfinition du fichier XML la liste des entrants grce au script perl "entree.pl". Ce dernier permet de rajouter dans le fichier XML les balises <ENTRANT> et </ENTRANT> avec la liste de tous les entrants de ce mot rpertoris dans toutes les dfinitions du dictionnaire (avec suppression des doublons), excepts ceux qui sont dans une balise <META> (que l'on ignore). Ce script traite aussi le cas des homonymes. Pour chaque dfinition est rajoute l'attribut "ishomo" qui peut prendre 3 valeurs :

0 : ce mot n'a pas d'homonyme ; 1 : ce mot a des homonymes (la phontique et la catgorie sont vides ici) ; 2 : c'est un des homonymes du dernier mot dont la valeur de ishomo tait 1.
- Dans le cas o il y a des homonymes, les entrants du mot sont placs seulement dans le mot gnrique (ishomo = 1). - Si une forme pronominale est dtecte pour un des homonymes elle est insre aprs la dfinition de l'homonyme en question.
Exemple :
<DEF mot="adresser" phonetique="" cat="" ishomo="1"> <ENTRANT> admonester, adresser (s'), adjurer </ENTRANT> </DEF> <DEF mot="adresser_1" phonetique="[adrese]" cat="v. tr. " ishomo="2"> </DEF> <DEF mot="adresser (s')" phonetique="[adrese]" cat="v. tr. " ishomo="0"> <ENTRANT> adresser_1 </ENTRANT> </DEF> <DEF mot="adresser_2" phonetique="[adrese]" cat="v. tr. " ishomo="2"> </DEF>
Aprs application de ce script on a donc le fichier XML final du dictionnaire, prt tre trait par la procdure Accent .
213
Annexe 2 : Les Systmes multi-agents de Recherche dInformation
Annexe 2 : Les systmes multi-agents et la Recherche dInformation
Le Web est difficile apprhender de part sa forte volutivit et l'absence de connaissances de synthse sur la nature des informations accessibles : la recherche dinformation s'opre dans un systme ouvert, distribu et dynamique, o apparaissent et disparaissent des sites, o les contenus sont modifis et o il devient impossible de matriser les contenus et l'organisation. Pour minimiser les frquentes dsorientations et surcharges cognitives des utilisateurs, des travaux visent une amlioration :
Soit au niveau de la navigation : annotations et commentaires partags [Denoue et Vignollet, 2000], carte graphique et reprsentation des hyperliens [Liebermann, 1995], etc. Soit de la recherche d'information proprement dite : sites portail, robots dindexation, fouille de donnes, protocoles d'interaction [Eichmann, 1996], agents Internet [Maes, 1994] [Wooldridge et Jennings, 1995], etc.
Nous nous intressons cette seconde thmatique. Certains outils mettent en uvre les techniques de l'intelligence artificielle mais peu utilisent les techniques multi-agents. De plus, ils sont souvent prvus pour un domaine d'informations donn ou un groupe d'utilisateurs connu a priori.
1. Assistance de recherche Web bas multi-agent

L'architecture de lassistance de recherche Web, propose par Antonella et al. [Antonella et al., 2003], est prsente par la figure A2.1. Dans cette architecture le browser Web reprsente le bas-niveau du systme tandis que les assistants reprsentent son mta-niveau. En fait, ces assistants sont relis l'application via des mta-objets appropris. Les tches accomplies par cette assistance sont les suivantes :
Observer l'activit de l'utilisateur lors de sa navigation sur Internet avec un browser ; Dterminer les prfrences de l'utilisateur en se basant sur l'analyse des pages visites et sur d'autre paramtres, tels que la liste des mots-cls, les favoris33, le temps pass dans la lecture des pages, etc. Rorganiser la prsentation des liens retourns par les moteurs de recherche, selon les prfrences dtectes de l'utilisateur.
L'architecture propose dans la figure A2.1 comporte trois agents : le Coordinateur (COO), lAssistant de Profil Utilisateur (APU) et lAssistant dOrganisation de Recherche (AOR). Linteraction entre ces agents est assure par le langage ACL de communication entre agents.
33
Adresse Internet dans un fichier comprenant la liste des sites prfrs par un utilisateur du Web.
214
Assistant de Profil Utilisateur (APU)
Assistant dOrganisation de Recherche (AOR)
Interaction ACL Mcanisme Rflexif
Coordinateur
Mta-niveau Bas-niveau Application (Browser)
Figure A2.1 : Architecture rflexive de lassistance de recherche Web 1. Le Coordinateur : Le COO assure la connexion entre l'application et les agents assistants. Il incorpore les mta-objets appropris qui interceptent les actions de l'utilisateur auxquelles les assistants sintressent et qui autorisent les droits dans lapplication selon les rsultats des assistants. En outre, il permet une forme de coordination entre les agents assistants en agissant en tant que base de connaissances commune utilise pour partager des informations utiles pour tous les assistants. Cette fonctionnalit est fournie par un composant du COO appel tableau noir (Blackboard) ; utilise dans cette application pour stocker le profil de l'utilisateur. Afin de rgler ce genre d'interactions avec les agents assistants, un ensemble de protocoles de conversation, bass sur lACL, sont mis en application. 2. LAssistant de Profil Utilisateur (APU) : Cest un service dassistance appropri pour la recherche Web et il peut tre fourni quand les prfrences des utilisateurs sont connues. Pour accomplir ce but, lAPU est prvu pour le profil de lutilisateur tout en observant ses activits lors de sa navigation sur Internet via un browser. En effet, lAPU dtermine les prfrences des utilisateurs en analysant, de faon autonome, les pages Web visites par l'utilisateur lors de sa navigation sur Internet. Pour cela, lAPU rassemble des paramtres utiles des pages Web, tels que les ensembles de mots-cls pondrs pour chaque page Web, le temps pass dans la lecture de chaque page, la profondeur des pages visites dans un domaine, etc.
LAPU est averti par le COO de la livraison de nouvelles pages Web et utilise un algorithme de classification pour caractriser la page courante. Cet algorithme adopte une liste de catgories classes par mots-cls. Ces listes sont prdtermines dans la phase prliminaire de sorte qu'elles caractrisent les intrts gnraux des utilisateurs, toutefois elles seront modifies par la suite pour reflter le comportement d'un utilisateur spcifique. Pour chaque page Web visite une liste de mots-cls est extraite en calculant la frquence (cest--dire le poids) de chaque mot, puis en la normalisant avec la longueur de la page. Ensuite, partir des mots-cls, on calcule le degr de "similarit" de chaque page Web avec la liste prdtermine de catgories, par la formule suivante :
Sim(i ) = W ( j )
j =1 n
w(i, j )
w(k , j )
k =1
O : Sim(i ) : la similarit avec la catgorie i,
215
W ( j ) : le poids du mot-cl j dans la page Web,
n : le nombre de mots-cls extraits de la page, w(i, j ) : le poids du mot-cl j dans la catgorie i, m : le nombre de catgories.
En plus de l'algorithme cit ci-dessus, cet assistant change les poids des mots-cls de chaque catgorie selon les mots-cls les plus rcurrents des pages visites. Le rsultat de la tche de l'APU est une liste comprenant les mots-cls des catgories les plus importantes. Une telle liste est priodiquement communique au COO qui la stocke dans le tableau noir.
3. LAssistant dOrganisation de Recherche (AOR) : Bas sur la connaissance accumule par lAPU, l'assistant dorganisation de recherche (AOR) rorganise de nouveau les rsultats des moteurs de recherche, tout en changeant leurs prsentations selon le profil de lutilisateur. En effet, lAOR est averti quand la page Web tlcharge est retourne par un moteur de recherche. A la rception dune nouvelle page, le COO vrifie si elle provient dun moteur de recherche (en comparant l'adresse de la page aux adresses existantes dans une liste prdtermine). En fait, lAOR est le responsable de lanalyse des articles prsents comme rsultats de recherche. Il extrait une courte description caractrisant chaque lien suggr. Une telle description est utilise pour ranger les articles selon le profil de l'utilisateur. Pour chaque article de la liste retourne de la recherche sur le Web, lAOR calcule son score par la formule suivante :
Sc(i ) = W (k )
k =1 n
O : Sc(i ) : le score de larticle i,

W (k ) : le poids du mot-cl k trouv dans le tableau noir (fournit par lAPU),
n : le nombre de mots-cls de larticle i.
LAOR range alors les articles selon les scores Sc(i ) donns, et tablit une liste des articles choisis en utilisant un score seuil (par exemple les articles qui ont des scores suprieurs 5) ou choisis par nombre d'articles (par exemple les 10 premiers articles). Le COO averti lAOR de la nouvelle page tlcharge. Cet avertissement dmarre simultanment lactivit de lAOR et d'autres oprations excutes par l'utilisateur ainsi que par lapplication. Ainsi, lAOR et l'application fonctionnent dune manire asynchrone. Quand lAOR est prt fournir des rsultats, il compare l'adresse de la page actuelle celle rorganise (en agissant avec le COO), afin de dterminer si l'utilisateur consulte encore cette page rsultat de recherche. Sil en est ainsi, lAOR demande au COO d'intervenir sur cette mme page pour changer l'ordre des articles. Autrement, si l'utilisateur consulte une autre page, la liste d'articles sera affiche dans une nouvelle fentre rcapitulant les liens choisis.
2. Architecture multi-agent adaptatif du mta-moteur de recherche Web ProFusion

Le but de projet de Fan et Gauch [Fan et Gauch, 1997] luniversit dArkansas (USA) est de dvelopper un outil intelligent et adaptatif de recherche Web. En effet, le travail est bas sur ProFusion 34 , le mta-moteur de recherche Web dvelopp l'universit du Kansas au dbut des annes 1990. En fait, ProFusion analyse les requtes entrantes, les classe par catgorie et slectionne automatiquement les meilleurs moteurs de recherche pour la requte
34
http://profusion.ittc.ukans.edu/
216
base sur la connaissance a priori (facteurs de confiance) qui reprsente lefficacit de chaque moteur de recherche pour chaque catgorie. Ces facteurs de confiance sont utiliss pour fusionner les rsultats de la recherche dans une liste de documents retourns, ils enlvent la redondance et prsentent une liste finale range l'utilisateur. Les buts principaux de ce type de recherche sont :

Fournir au ProFusion une architecture multi-agent extensible, robuste et distribue ; Inclure des algorithmes d'adaptation automatiques pour remplacer la connaissance a priori difficile implmenter.
Le systme multi-agent se compose de quatre types diffrents d'agents, savoir, un agent d'expdition, un agent de recherche, un agent d'apprentissage, et un agent de surveillance. La figure A2.2 prsente larchitecture multi-agent du systme ProFusion [Fan et Gauch, 1999].
Agent dexpdition
Rtroaction
Agent dapprentissage
Facteur de confiance
Dlai de recherche
Rsultats de recherche
Agent de Recherche Module de comptence Alta Vista Module de comptence Excite Module de comptence Webcrawler Agent de surveillance
Requte
Rsultats
Requte
Rsultats
Requte
Rsultats
Moteur de Recherche Alta Vista
Moteur de Recherche Excite
Moteur de Recherche Webcrawler
Figure A2.2 : Larchitecture multi-agent du systme ProFusion 1. Agent d'expdition : il communique avec l'utilisateur, puis expdie ses requtes aux agents de recherche et d'apprentissage. 2. Agent de recherche : il agit sur les moteurs de recherche fondamentaux. En fait, il est le responsable des comptes rendus de rsultats de recherche, des facteurs de confiance et des dlais des recherches des moteurs de recherche pour les transmettre, par la suite, l'agent d'expdition, aussi bien qu' l'agent de surveillance en cas de besoin. 3. Agent d'apprentissage : il est charg de l'tude et du dveloppement des moteurs de recherche fondamentaux, en particulier lajustement des facteurs de confiance. 4. Agent de surveillance : il est appel quand un moteur de recherche est inactif et il est le responsable de la protection de lexpdition des requtes un moteur de recherche non sensible, aussi bien que de la dtection de la mauvaise performance de certains moteurs de recherche.
217
Larchitecture multi-agent du systme ProFusion est fortement distribue et dcentralise. Chaque moteur de recherche maintient ses modules de comptence et ses reprsentations locales dans un annuaire spar. Except l'agent d'expdition, tous les modules de comptence des agents de recherche, dapprentissage et de surveillance fonctionnent en parallle. Aucun des ces modules ne contrle les autres. En raison de cette opration distribue, le nouveau systme peut ragir rapidement en cas de changement de l'environnement et propose les ajustements correspondants. En fait, ces ajustements sont faits par l'agent d'apprentissage qui utilise des algorithmes d'adaptation. Le nouveau ProFusion s'adapte aux changements de performance du moteur de recherche, son temps de rponse ainsi quaux formats des rsultats obtenus. L'adaptation l'excution est ralise en observant le comportement de l'utilisateur pour fournir la rtroaction qui change dynamiquement la performance de la base de connaissances. L'adaptation au temps de rponse est ralise en utilisant des valeurs de temps de rponse modifiables dynamiquement. L'adaptation pour les formats des rsultats de recherche est assure en utilisant un modle d'extraction dynamique (ou un analyseur). Avec cette architecture multi-agent adaptative, le systme ProFusion est devenu plus comptitif dans un environnement Web dynamique puisquil sadapte automatiquement aux changements de son environnement. ProFusion est galement extensible et facile maintenir parce qu'il n'exige plus la connaissance a priori dun facteur de confiance dun nouveau moteur de recherche (ceci sera dtermin par l'agent dapprentissage). En outre, lincorporation dun analyseur, par lagent de recherche, exclu le besoin dun code particulier pour extraire les rsultats de recherche.
3. Systme interactif bas multi-agent pour la recherche Web

Tsai et Lee [Tsai et Lee, 2003] proposent, luniversit des sciences et technologies de Taiwan, une mthodologie base dagents pour dvelopper un systme interactif bas multiagent pour la recherche sur le Web. Chaque agent de ce systme excute, de faon autonome, une tche spcifique et les diffrents agents fonctionnent simultanment pour accomplir la tche globale. En effet, ce systme comprend quatre agents :

Un agent dinterface agissant avec l'utilisateur et collectant sa rtroaction ; Un agent d'information pour extraire les mots-cls des pages recueillies ; Un agent de dcouverte pour la formulation des requtes ; Un agent de filtrage pour le classement et la recommandation des pages l'utilisateur.
Les agents fonctionnent sans interruption jusqu' ce que l'utilisateur soit satisfait des rsultats de sa recherche. Pendant le processus de recherche, un profil est utilis pour enregistrer les mots-cls critiques pour la gnration automatique de requte. La figure A2.3 illustre larchitecture multi-agent de ce systme.
218
Agent dinterface User Agent dinformation
Agent de filtrage
Agent de dcouverte
Liste de motscls profil
Moteurs de recherche
Figure A2.3 : Architecture du systme interactif bas multi-agent pour la recherche Web 1. Lagent d'interface : il reoit la requte initiale de lutilisateur et lenvoie directement lagent de dcouverte qui est le responsable de linteraction avec les moteurs de recherche ainsi que de lorganisation des rsultats recherchs. En outre, lagent d'interface reoit les rsultats de recherche de l'agent de filtrage pour les afficher l'utilisateur, puis il enregistre sa rtroaction indiquant les pages dont il a besoin. Selon la rtroaction de l'utilisateur, le systme peut ainsi connatre graduellement le sens de la requte demande. En fait, lagent dinterface affiche, dans une nouvelle fentre, les rsultats typiques de recherche sous forme dhyperliens pour valuer les pages Web comme le font habituellement les moteurs de recherche traditionnels. Il marque alors les hyperliens pour l'identification. Aprs avoir collect les hyperliens de la rtroaction positive, l'agent d'interface fournit les pages Web correspondantes l'agent dinformation pour les analyser davantage. Toutefois, le concept de la recherche dinformation est une tche subjective : la mme requte propose par diffrents utilisateurs pourra signifier des choses diffrentes pour eux, ou bien des utilisateurs diffrents peuvent utiliser leurs propres requtes diffremment pour chercher le mme concept. a dpend compltement des opinions personnelles des utilisateurs. Par consquent, l'interaction dcrite, entre le systme et lutilisateur, est un dispositif important permettant au systme de bien comprendre son utilisateur. 2. Lagent dinformation : il se charge de lanalyse des pages Web slectionnes, et maintien la liste des mots cls profil qui inclut l'information utile pour dcrire le concept recherch par lutilisateur. Lagent de dcouverte va utiliser ce profil pour la formulation de la requte. Pour les pages Web slectionnes, l'agent dinformation enlve d'abord les balises HTML et garde les termes importants tels que les pronoms et les prpositions, et excute ensuite une procdure pour calculer les frquences dapparition de ces termes dans la page. En effet, les mots gards seront employs pour reprsenter cette page, et leurs frquences dapparition dans la page Web indiquent leurs importances correspondantes. De cette faon, une page Web est reprsente par un vecteur de mots. En consquence la similitude entre deux pages peut tre drive de la similarit entre ses vecteurs de mots. Alors les vecteurs des pages slectionnes sont combins dans un profil dans lequel les mots de diffrentes pages sont tris selon leurs frquences accumules.
Comme la montre la figure A2.3, le systme fonctionne dune manire itrative et lutilisateur peut indiquer au systme les pages dsires dans chaque itration. Par consquent, le systme peut mettre jour le profil sans interruption pour continuer prendre en considration les rtroactions de lutilisateur. Les frquences de mot sont accumules dune itration lautre. Du fait que certaines pages Web ne peuvent contenir quun nombre limit de mots (par exemple la page principale d'un site Web spcifique), ces mots ont ainsi des impacts 219
relativement faibles entre eux. Afin d'empcher le biais caus par la longueur de la page (pages contenant un nombre de mots infrieur au seuil prdfini), l'agent dinformation explore les hyperliens dans ces pages pour prolonger leurs contenus. Le profil driv de cette procdure sera utilis pour engendrer les nouvelles requtes et rorganiser les pages recherches plus tard.
3. Lagent de dcouverte : cest le noyau du systme ; il est charg de produire les nouvelles requtes pour amliorer le concept de capture dans l'esprit de l'utilisateur en se basant sur le rapport de rtroaction fourni par ce dernier. Le concept de recherche est plus abstrait et restrictif ; il est difficile de raliser par une mesure directe de la similitude lexicologique. Une approche plus efficace est ncessaire pour extraire les ensembles de mots pour modliser le comportement de lutilisateur partir des pages choisies. Les ensembles de mots produits peuvent alors former des requtes afin dexplorer les diffrentes rgions du Web pour plus prcision dans les rsultats. En effet, pour valuer une certaine requte, l'agent de dcouverte envoie cette dernire un mcanisme de recherche (par exemple, un moteur de recherche ordinaire ou un mta-moteur de recherche), il collecte les pages Web recherches et les dlivres l'agent de filtrage pour la rorganisation. Aprs rception des ces pages Web, l'agent de filtrage active l'agent dinformation pour les analyser, les transfrer sous forme de vecteurs de mots et rorganiser ces pages selon leurs similarits avec la liste de mots accumuls dans le profil. En d'autres termes, les nouvelles pages Web recherches seront ranges de la mme manire que des pages Web similaires dj utilises par lutilisateur. 4. Lagent de filtrage : pour prserver la dure de la transformation, l'agent de filtrage traite seulement les pages de rangs suprieurs (par exemple, les l premires pages donnes par le moteur de recherche) toute en calculant le produit de chacun des vecteurs des pages par le vecteur du profil. Selon les rsultats de mesure, les pages les plus semblables au profil (par exemple, les k premires pages, k l) sont prsentes l'utilisateur par l'agent d'interface. L'utilisateur peut choisir alors les pages Web dsires. En fait, l'agent d'interface envoie les pages choisies l'agent dinformation qui analyse ces dernires et slectionne, en consquence, les mots ncessaires pour mettre jour le profil.
Par la manire interactive et itrative dcrite dans cette approche, le systme de Tsai et Lee peut exploiter graduellement le profil de l'utilisateur et explorer de nouvelles rgions pour rechercher ce dont il a besoin.
4. Agents mobiles de Recherche dInformation

Divers travaux s'appuient sur les concepts d'agent et de systme multi-agent pour la programmation de l'Internet et le commerce lectronique [Joshi et al., 1999], en particulier sur les mcanismes d'apprentissage [Fan et Gauch, 1999]. Brewington et al. [Brewington et al., 1999] prsentent une application de recherche simple (sans expertise client) de documents textuels dans un rseau local (avec centralisation des informations sur les serveurs via un mcanisme de pages jaunes, sans contrainte de scurit, ni dcouverte dynamique de nouveaux serveurs). Un agent mobile est cr pour chaque requte ; en fonction de l'tat du rseau et de la complexit de la requte. Il peut choisir de se dplacer sur un site proxy35 choisi dynamiquement. L'agent de recherche s'appuie sur des agents d'observation du rseau (network-sensing agents) et sur un agent stationnaire (par site) qui sert d'interface avec le serveur d'information local. En outre, les auteurs tudient les
35
Un proxy peut avoir plusieurs utilisations tels que : le proxy peut vous protger ; le proxy peut masquer les informations concernant votre ordinateur ; le proxy peut mmoriser les pages les plus demandes.
220
problmes de planification du chemin et proposent d'utiliser des agents mobiles d'observation pour actualiser le contenu des pages jaunes. Le systme M3 (MultiMedia Database Mobile agents) de Kosch et al. [Kosch et al., 2001] est un systme de recherche par le contenu de donnes multimdia (images, vido) qui repose sur Java et CORBA. Un agent mobile peut se dplacer de site en site et en extraire l'information au moyen d'un code spcifique. L'agent mobile peut mmoriser les informations recueillies sur un site, les utiliser sur les sites visits ensuite et les faire voluer pendant le parcours. Il y a donc une vritable exploitation de la notion d'agent mobile (un programme explore depuis la machine serveur). Les problmes de scurit sont pris en compte grce des mcanismes de sessions indpendantes, aux mcanismes de scurit de CORBA et des restrictions des droits. L'valuation des performances montre l'intrt de la spcialisation pour retrouver l'information recherche (et viter l'intervention de l'utilisateur). Enfin, plusieurs travaux exploitent les agents mobiles pour optimiser la phase de crawlage (parcours des liens hypertextes et indexation) des moteurs de recherche sur le Web (alternativement la stratgie centralise download first, process later) :
Hammer et Fiedler [Hammer et Fiedler, 2000] suggrent un agent mobile pour reprsenter le moteur de recherche sur le site serveur qui sexcute localement et procde au crawlage du site. Il analyse les pages ( partir de mots-cls seulement) et mmorise un certain nombre d'informations (liens externes, mta-donnes, caractristiques du serveur Web, etc.). Les liens externes ne sont pas explors rcursivement ; ainsi, l'exploration du Web est limite et contrle de manire centralise. Une fois le travail termin, la seule information slectionne est dplace sur le rseau. Thati et al. [Thati et al., 2001] proposent une implmentation qui ne demande pas de modification des serveurs Web (infaisable en pratique) mais seulement l'installation de pages actives (CGI, ASP) pour l'accueil des agents de crawlage. En complment, ils proposent des solutions simples aux problmes de scurit.
5. Etude comparative des SMA de Recherche dInformation

La plupart des travaux tudis et qui concernent limplantation des systmes multi-agents pour la recherche dinformation sur Internet sont des systmes base de moteurs de recherche. En effet, ces systmes organisent les documents recherchs grce ces moteurs, uniquement selon les frquences des mots-cls existants dans ces documents, pour rpondre aux profils des utilisateurs. Dailleurs Fan et Gauch [Fan et Gauch, 1997] ont voqu lutilit dun Web crawler dans le cadre dun systme multi-agent de recherche dinformations sur Internet. En outre, ces systmes se limitent la requte propose par lutilisateur et aucun processus de reformulation de la requte na t propos. En fait, ces systmes ne tiennent compte ni de la dpendance entre les mots-cls recherchs, ni de celle entre les pages Web rsultats de la recherche. En outre, tous les termes de la requte utilisateur sont considrs de mme poids et aucun modle de prfrences entre ces termes na t propos dans ces systmes. En consquence de toutes ces limites, les deux notions de base dans un SRI, la pertinence et le profil, ne sont pas bien dfinies dans les systmes proposs. Le tableau A2.1 prsente une tude comparative de ces SMA de Recherche dInformation au regard de plusieurs critres, savoir :

Les types dagents existant dans la plate-forme ; Les techniques de recherche ;
221
Reformulation de la requte utilisateur ; Modlisation de la requte utilisateur ; Prfrences entre les termes de la requte ; Modlisation des documents recherchs.
Types dagents Technique de Recherche Systme base dun web crawler. Reformulation de la requte utilisateur Modlisation de la requte utilisateur Prfrences entre les termes de la requte Non Modlisation des documents recherchs
SMA de Recherche dInformation
Assistance de recherche Web. [Antonella et al., 2003]
Mta-Moteur de recherche ProFusion [Fan et Gauch, 1997]
Systme Interactif bas multi-agent de recherche Web. [Tsai et Lee, 2003]
Agents mobiles de recherche dinformation. [Brewington et al., 1999] [Kosch et al., 2001] [Hammer et Fiedler, 2000] [Thati et al., 2001]
- Coordinateur. - Assistant de profil utilisateur. - Assistant dorganisation de recherche. - Agent dexpdition - Agent de recherche - Agent dapprentissage - Agent de surveillance - Agent dInterface - Agent dInformation - Agent de dcouverte - Agent de filtrage - Agent mobile cr pour chaque requte utilisateur. - Agent mobile de mise jour des sites Web.
Non
Non
Non
Systme base de moteurs de recherche.
Non
Non
Non
Non
Systme base de moteurs de recherche. Systme base de moteurs de recherche et de web crawler.
Non
Non
Non
Non
Non
Non
Non
Non
Tableau A2.1 : Comparaison des SMA de Recherche d'Information
En ralit, face un problme donn de recherche dinformation dans un environnement htrogne comme lInternet, un SRI associant les dpendances entre les mots-cls et les pages Web recherches doit fournir une certaine souplesse et objectivit surtout dans la slection des pages Web recherches ainsi que dans leur organisation selon le profil de lutilisateur de ce systme. Les travaux que nous avons entrepris tentent de proposer un cadre conceptuel gnral de rsolution de ce genre de problme, dans lequel il sagit de fournir lutilisateur dune part la possibilit de reformuler sa requte et dautre part de choisir les paramtres appropris pour dfinir son profil. En effet, le systme multi-agent SARIPOD, dvelopp dans le cadre de ce travail de recherche, propose un nouveau modle de RI base de Rseaux Petits Mondes Hirarchiques (RPMH) et de Rseaux Possibilistes (RP). Le premier RPMH, pour les mots de la langue franaise, est utilis pour tenir compte des dpendances entre ces mots. Le second RPMH est consacr aux pages Web recherches et traduit de mme les dpendances entre ces pages. Les Rseaux Possibilistes (RP) engendrent le mixage de ces deux RPMH afin dorganiser les documents recherchs selon le profil de lutilisateur. De plus, SARIPOD est un systme intelligent car il tient compte d'un profil dynamique de l'utilisateur form dune part des paramtres de pertinence possibiliste des documents et dautre part des prfrences entres les termes de la requte. Enfin, ce systme contribue simultanment lenrichissement de lapproche du sujet par les RPMH et les RP et aussi celui de la recherche dinformation en tenant compte de lhtrognit de cette information.
222
6. Conclusion
Nous avons prsent dans cette annexe un tat de lart de systmes multi-agents de recherche dinformation les plus connus dans la littrature. Nous avons commenc par dtailler larchitecture multi-agent de chacun de ces systmes afin de dcrire brivement la tche de chaque agent ainsi que sa coopration avec le reste des agents de la plate-forme. Une tude comparative de ces SMA a t labore pour montrer leur insuffisance afin de combler les problmes lis la recherche dinformation sur Internet. De notre ct, et pour rsoudre certaines limites de ces SMA, nous avons propos dintgrer une nouvelle technologie dans notre SRI bas multi-agent faisant appel aux Rseaux Petits Mondes Hirarchiques (RPMH) ainsi que leurs combinaisons via un Rseau Possibiliste (RP).
223
Annexe 3 : Donnes et rsultats du RPMH de dictionnaire
Nous prsentons dans cette annexe des exprimentations sur le choix de la longueur des circuits dans le RPMH de dictionnaire. En fait, nous prouvons que la longueur maximale prise en compte est de lordre de 4 arcs. Nous avons atteint ce chiffre aprs bien des tests sur la validit des rsultats obtenus en fonction de la longueur des circuits tudis. Nos tests sont faits sur 5 verbes : vrifier, nettoyer, analyser, jouer et prserver. En effet, lordre de mots proches rcuprs pour chacun de ces mots de test se stabilise partir dune longueur maximale de circuit gale 4 (nous prsentons ici uniquement les dix premiers mots proches). Les tableaux A3.1, A3.2, A3.3, A3.4 et A3.5 sont constitus de 6 colonnes : 1. Mot recherch : cest lun de mots-cls de la requte utilisateur. chaque itration, ce dernier choisi le nombre de termes proches dsirs pour chacun de mot de la requte. Le systme calcule la prfrence de chaque terme par la formule suivante :
Prfrence (ti) = [Nbre termes proches choisis pour ti dans Q/ Nbre termes de Q]+ 1
Avec Q : la requte de dpart et Q : la requte reformule 2. Longueur de circuit : cest le nombre dartes sparant les mots dans un circuit de mots en partant dun mot de la requte reformule et en y revenant ce mme mot de dpart pour construire un cycle. 3. Nombre de circuits pour chaque mot proche : Nous prsentons pour chaque mot de la requte reformule les dix premiers mots proches ainsi que leurs nombres de circuits dtects. 4. Proximit du mot proche par rapport au mot recherch : cest la proximit smantique de chaque mot proche par rapport au mot-cl de la requte reformule. Cette proximit est calcule par la formule suivante :
Proximit_Dictionnaire (M1, M2) = Nbre de circuits (M1, M2)/Nbre maximum de circuits dtects
5. Nombre de groupes : Cest le nombre de petits mondes de mots smantiquement proches. En effet, le groupement de ces mots est fait via lalgorithme de regroupement de mots par contrainte minimale, dcrit dans le chapitre 3. 6. Nombre de groupes fusionns : Cest le nombre de groupes de mots smantiquement proches fusionns. En effet, cette fusion est faite via lalgorithme de fusion des groupes potentiels en composantes de sens, dcrit dans le chapitre 3.
224
Mot recherch
Longueur de circuit
Nombre de circuits pour chaque mot proche Justifier Confirmer Exprimenter Essayer Eprouver Sassurer Voir Reconnatre Auditer Contrler Examiner Eprouver Essayer Voir Exprimenter Contrler Sassurer Reconnatre Constater Collationner Examiner Voir Eprouver Reconnatre Essayer Contrler Exprimenter Constater Sassurer Prouver Voir Examiner Reconnatre Eprouver Essayer Constater Exprimenter Prouver Contrler Rechercher Voir Reconnatre Examiner Eprouver Essayer Constater Prouver Confirmer Connatre Rechercher nulle nulle nulle nulle nulle nulle nulle nulle nulle nulle 1 1 1 1 1 1 1 1 1 1 12 10 8 8 6 6 5 5 3 2 87 81 61 55 48 34 33 31 18 17 1021 797 739 533 345 335 226 225 213 174 15150 11736 10370 7498 4209 4182 3944 3030 2778 2737 0 0 0 0 0 0 0 0 0 0
Proximit du mot proche par rapport au mot recherch 1 1 1 1 1 1 1 1 1 1 1 0,83 0,66 0,66 0,50 0,50 0,41 0,41 0,25 0,16 1 0,93 0,70 0,63 0,55 0,39 0,37 0,35 0,20 0,19 1 0,78 0,72 0,52 0,33 0,32 0,221 0,220 0,20 0,17 1 0,77 0,68 0,49 0,277 0,276 0,26 0,20 0,183 0,18 0 0 0 0 0 0 0 0 0 0
Nombre de groupes
Nombre de groupes fusionns
22
Vrifier
115
14
1784
27571
Tableau A3.1 : Rsultats de la recherche de composantes de sens du verbe vrifier
225
Mot recherch
Longueur de circuit
Nombre de circuits pour chaque mot proche Dpouiller Ruiner Purifier Purger Dterger Dcrasser Dbarbouiller Ecurer Curer Racler Laver Purifier Frotter Balayer Purger Curer Dterger Epousseter Ruiner Dcrasser Laver Purifier Frotter Purger Balayer Dpouiller Battre Ruiner Dcrasser Cribler Dpouiller Purifier Laver Balayer Battre Ruiner Frotter Purger Arracher Oter Dpouiller Battre Ruiner Arracher Balayer Oter Enlever Tuer Dtacher Vider nulle nulle nulle nulle nulle nulle nulle nulle nulle nulle 1 1 1 1 1 1 1 1 1 1 19 15 12 9 7 7 5 5 5 4 137 112 83 66 61 45 39 36 30 30 815 750 739 676 656 586 565 512 512 474 13747 13433 11864 10308 10169 9431 9064 7607 7360 6543 0 0 0 0 0 0 0 0 0 0
Proximit du mot proche par rapport au mot recherch 1 1 1 1 1 1 1 1 1 1 1 0,78 0,63 0,47 0,36 0,36 0,26 0,26 0,26 0,21 1 0,81 0,60 0,48 0,44 0,32 0,28 0,26 0,21 0,21 1 0,92 0,90 0,82 0,80 0,71 0,69 0,62 0,62 0,58 1 0,97 0,86 0,74 0,73 0,68 0,65 0,55 0,53 0,47 0 0 0 0 0 0 0 0 0 0
Nombre de groupes
49
14
Nettoyer
285
32
3448
59367
Tableau A3.2 : Rsultats de la recherche de composantes de sens du verbe Nettoyer
226
Mot recherch
Longueur de circuit
Nombre de circuits pour chaque mot proche Examiner Etudier Rsumer Dcomposer Sparer Rechercher Diviser Dsosser Rduire Rsoudre Examiner Dcomposer Etudier Rduire Rsumer Rechercher Diviser Rsoudre Sparer dsosser Examiner Etudier Dcomposer Rechercher Diviser Sparer Essayer Rduire Rsumer Comparer Examiner Etudier Dcomposer Sparer Diviser Rechercher Rduire Distinguer Fouiller Essayer Examiner Etudier Dcomposer Sparer Rduire Diviser Distinguer Rechercher Rsoudre Rsumer Examiner Etudier Dcomposer Rduire Sparer Diviser Distinguer Rsoudre Diminuer Rechercher 1 1 1 1 1 1 1 1 1 1 6 6 4 2 2 2 1 1 1 1 38 30 16 10 7 7 7 6 5 4 360 225 142 105 87 79 75 60 60 58 5119 2847 2190 1736 1611 1139 1092 938 817 800 94701 48691 42608 34784 34523 19921 19574 16937 15300 14872
Proximit du mot proche par rapport au mot recherch 1 1 1 1 1 1 1 1 1 1 1 1 0,66 0,33 0,33 0,33 0,16 0,16 0,16 0,16 1 0,78 0,42 0,26 0,18 0,18 0,18 0,15 0,13 0,10 1 0,62 0,39 0,29 0,24 0,21 0,20 0,16 0,166 0,161 1 0,55 0,42 0,33 0,31 0,22 0,21 0,18 0,159 0,156 1 0,51 0,44 0,367 0,364 0,21 0,20 0,17 0,16 0,15
Nombre de groupes
11
Analyser
43
13
938
14347
248752
Tableau A3.3 : Rsultats de la recherche de composantes de sens du verbe Analyser
227
Mot recherch
Longueur de circuit
Nombre de circuits pour chaque mot proche Imiter Simuler Incarner Entendre Reprsenter Donner Se moquer Echouer Sonner Exposer Exposer Se moquer Tromper Foltrer Donner Reprsenter plaisanter Berner Samuser Risquer Donner Tromper Exposer Se moquer Reprsenter Mettre Plaisanter Abuser Entendre Tourner Donner Exposer Mettre Tromper Passer Entendre Prendre Reprsenter Tourner Se moquer Donner Mettre Passer Exposer Prendre Entendre Tromper Reprsenter Tourner Courir nulle nulle nulle nulle nulle nulle nulle nulle nulle nulle 1 1 1 1 1 1 1 1 1 1 10 10 10 10 9 9 8 7 6 6 130 111 95 89 78 75 61 60 58 58 2722 1486 1477 1338 1297 1118 1067 1021 794 710 57971 30993 28402 27973 25270 22583 19371 18052 13791 12958 0 0 0 0 0 0 0 0 0 0
Proximit du mot proche par rapport au mot recherch 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0,9 0,9 0,8 0,7 0,6 0,6 1 0,85 0,73 0,68 0,60 0,57 0,469 0,461 0,44 0,44 1 0,545 0,542 0,49 0,47 0,41 0,39 0,37 0,29 0,26 1 0,53 0,489 0,482 0,43 0,38 0,33 0,31 0,23 0,22 0 0 0 0 0 0 0 0 0 0
Nombre de groupes
69
12
Jouer
504
19
11326
226341
Tableau A3.4 : Rsultats de la recherche de composantes de sens du verbe jouer
228
Mot recherch
Longueur de circuit
Nombre de circuits pour chaque mot proche Conserver Abriter Exempter Epargner Soustraire Sauver Protger Prmunir Garantir Assurer Protger Garantir Sauver Epargner Conserver Assurer Abriter Sauvegarder Soustraire Garder Garantir Protger Garder Epargner Conserver Sauver Assurer Soustraire Eviter Abriter Garantir Protger Garder Assurer Epargner Conserver Eviter Soustraire Sauver Arracher Soustraire Assurer Protger Garantir Eviter Arracher Garder Epargner Conserver Sauver Soustraire Assurer Arracher Eviter Protger Garder Garantir Epargner Conserver Sauver 1 1 1 1 1 1 1 1 1 1 14 14 9 8 8 5 5 5 5 5 98 97 60 58 56 56 48 48 38 35 613 606 585 444 396 394 392 386 367 268 5718 5586 4862 4810 4784 4537 4515 3686 3561 3290 100904 96177 85563 75145 60342 59720 58511 49288 44976 44266
Proximit du mot proche par rapport au mot recherch 1 1 1 1 1 1 1 1 1 1 1 1 0,64 0,57 0,57 0,35 0,35 0,35 0,35 0,35 1 0,98 0,61 0,59 0,57 0,57 0,48 0,48 0,38 0,35 1 0,98 0,95 0,72 0,646 0,642 0,63 0,62 0,59 0,43 1 0,97 0,85 0,84 0,83 0,79 0,78 0,64 0,62 0,57 1 0,95 0,84 0,74 0,598 0,591 0,57 0,48 0,44 0,43
Nombre de groupes
33
Prserver
133
1260
12683
210634
Tableau A3.5 : Rsultats de la recherche de composantes de sens du verbe Prserver
229
Pour optimiser le choix du paramtre longueur de circuit, nous avons fait des exprimentations sur cinq verbes diffrents prsentes dans les trois tableaux A3.1, A3.2, A3.3, A3.4 et A3.5. En effet, lordre de mots smantiquement proches rcuprs pour le mot de dpart se stabilise partir dune longueur maximale de circuits gale 4. A partir dune longueur de circuits gale 5, le nombre de circuits rcuprs pour chaque mot proche devient trs important (voir figure A3.1). En consquence, nous avons plusieurs mots qui ne font pas partie de la composante de sens du mot de dpart.
Variation de la longueur de circuits en fonction du nombre maximale de circuits collects entre les verbes 120000 100000 80000 60000 40000 20000 0 1 2 3 4 5 6 Longueur de circuit
Nombre de circuits
Le verbe vrifier Le verbe nettoyer Le verbe analyser Le verbe jouer Le verbe prserver
Figure A3.1 : Courbes de variation de la longeur de circuit en fonction du nombre maximale de circuits collects entre les verbes
Nous remarquons aussi que pour les cinq verbes, toutes les composantes de sens seront fusionnes dans un seul groupe partir dune longueur de circuit gale 5. Ceci montre bien la performance de lapproche base de circuits dans la construction des composantes de sens dans le RPMH de dictionnaire.
230
Annexe 4 : Donnes et rsultats du RPMH de pages Web

Nous prsentons dans cette annexe des exprimentations sur le RPMH de pages Web en utilisant notre approche base de circuits prsente dans le chapitre 3. En fait, nous prouvons que les pages Web retournes suite une requte donne sont bien rparties sur plusieurs groupes thmatiques. Ces groupes sont identifis par un ensemble de mots-cls en commun entre les pages Web faisant partie du mme thme. De plus, nous montrons que la longueur maximale de circuits prise en compte est de lordre de 4 arcs. Nous avons atteint ce chiffre aprs bien des tests sur la validit des rsultats obtenus en fonction de la longueur des circuits tudis. Nos tests sont faits sur un thme principale qui est linformatique contenant 3 sous-thmes diffrents : systmes dexploitation (Unix, Linux, Mac/MacOS, Windows 95/98/Me, Windows NT/2000/XP, MS-DOS, AS/400 OS/400, ), Rseaux et protocoles (Protocoles, Transmission de donnes, quipements rseaux, Internet, Technologies, rseaux sans fil, WiFi (802.11), BleuTooth (802.15), Courants porteurs (CPL),) et Bases de donnes (Conception MERISE, Modle relationnel, Langage SQL, Langage PL/SQL, JDBC, ODBC, Annuaires LDAP, Active Directory, ). Les tableaux A4.1, A4.2 et A4.3 sont constitus de 7 colonnes : 1. Les URLs des pages Web slectionnes : Cest la liste de URLs affich par le systme comme rsultat prliminaire de la recherche. Il sagit en fait, de la totalit des pages Web avant ni groupement thmatique, ni fusion de groupes. 2. Longueur de circuit : Cest le nombre dartes sparant les pages Web dans un circuit de pages en partant dune page Web racine et en y revenant cette mme page de dpart pour construire un cycle. 3. Nombre de circuits pour chaque page proche : Nous prsentons pour chaque page Web slectionne le nombre de circuits dtects. Nous nous sommes limits ici aux dix premires pages proches. 4. Proximit dune page Web proche par rapport la page Web racine : Cest la proximit hypertextuelle de chaque page Web proche par rapport la page Web racine. Nous dfinissons cette proximit entre deux pages P1 et P2 en terme du nombre de circuits passant par P1 et P2 et revenant P1 de la manire suivante :
Proximit (P1, P2) = Nombre de circuits (P1, P2)/Nombre maximum de circuits dtects
5. Nombre de pages dans le groupe : Cest lensemble de pages Web appartenant un groupe thmatique. En effet, ces composantes thmatiques de pages Web seront fusionnes dans une deuxime tape pour former un petit monde de pages. 6. Nombre de groupes : Cest le nombre de petits mondes de pages Web thmatiquement proches. En effet, le groupement de ces pages est fait via lalgorithme de construction des composantes thmatiques des pages Web, dcrit dans le chapitre 3. 7. Nombre de groupes fusionns : Cest le nombre de groupes de pages Web thmatiquement proches fusionns. En effet, la fusion des groupes des pages Web est faite via lalgorithme de fusion des groupes potentiels en composantes thmatiques, dcrit dans le chapitre 3. 231
Les URLs des pages Web slectionnes
Longueur de circuit
Nombre de circuits pour chaque page proche

file:///c:/RPMH/w.htm file:///c:/RPMH/v.htm file:///c:/RPMH/u.htm file:///c:/RPMH/t.htm 1 1 1 1 1 1 1 1 0 0 17 16 16 15 15 15 15 12 07 04 181 171 169 158 157 157 150 110 108 69 1491 1423 1404 1316 1301 1219 1046 874 716 9994 9629 9542 8965 8835 8277 7749 5983 5601
file:///c:/RPMH/x.htm file:///c:/RPMH/a.htm file:///c:/RPMH/b.htm file:///c:/RPMH/c.htm file:///c:/RPMH/d.htm file:///c:/RPMH/f.htm file:///c:/RPMH/p.htm file:///c:/RPMH/q.htm file:///c:/RPMH/s.htm file:///c:/RPMH/t.htm file:///c:/RPMH/u.htm file:///c:/RPMH/v.htm file:///c:/RPMH/w.htm file:///c:/RPMH/z.htm file:///c:/RPMH/P1.htm file:///c:/RPMH/P2.htm file:///c:/RPMH/P3.htm file:///c:/RPMH/P4.htm file:///c:/RPMH/P5.htm file:///c:/RPMH/P6.htm file:///c:/RPMH/P7.htm file:///c:/RPMH/P8.htm file:///c:/RPMH/P9.htm file:///c:/RPMH/P10.htm file:///c:/RPMH/P11.htm file:///c:/RPMH/P12.htm file:///c:/RPMH/P13.htm file:///c:/RPMH/P14.htm file:///c:/RPMH/P15.htm file:///c:/RPMH/P16.htm file:///c:/RPMH/P17.htm file:///c:/RPMH/P18.htm file:///c:/RPMH/P19.htm file:///c:/RPMH/P20.htm file:///c:/RPMH/P21.htm file:///c:/RPMH/P22.htm file:///c:/RPMH/P23.htm file:///c:/RPMH/P24.htm file:///c:/RPMH/P25.htm file:///c:/RPMH/P26.htm file:///c:/RPMH/P27.htm file:///c:/RPMH/P28.htm file:///c:/RPMH/P29.htm file:///c:/RPMH/P30.htm file:///c:/RPMH/P31.htm file:///c:/RPMH/P32.htm file:///c:/RPMH/P33.htm file:///c:/RPMH/P34.htm file:///c:/RPMH/P35.htm file:///c:/RPMH/P36.htm file:///c:/RPMH/P37.htm file:///c:/RPMH/P38.htm file:///c:/RPMH/P39.htm file:///c:/RPMH/P40.htm file:///c:/RPMH/P41.htm file:///c:/RPMH/P42.htm file:///c:/RPMH/P43.htm file:///c:/RPMH/P44.htm file:///c:/RPMH/P45.htm file:///c:/RPMH/P46.htm file:///c:/RPMH/P47.htm file:///c:/RPMH/P48.htm file:///c:/RPMH/P49.htm file:///c:/RPMH/P50.htm file:///c:/RPMH/P51.htm file:///c:/RPMH/P52.htm file:///c:/RPMH/P53.htm file:///c:/RPMH/P54.htm file:///c:/RPMH/P55.htm file:///c:/RPMH/P56.htm file:///c:/RPMH/P67.htm file:///c:/RPMH/P82.htm file:///c:/RPMH/P68.htm file:///c:/RPMH/P84.htm file:///c:/RPMH/P85.htm file:///c:/RPMH/P86.htm file:///c:/RPMH/P87.htm file:///c:/RPMH/P69.htm file:///c:/RPMH/P70.htm file:///c:/RPMH/P71.htm file:///c:/RPMH/P81.htm file:///c:/RPMH/P82.htm file:///c:/RPMH/P83.htm file:///c:/RPMH/P84.htm
file:///c:/RPMH/q.htm file:///c:/RPMH/p.htm file:///c:/RPMH/d.htm file:///c:/RPMH/c.htm Nulle Nulle file:///c:/RPMH/p.htm file:///c:/RPMH/d.htm file:///c:/RPMH/u.htm file:///c:/RPMH/q.htm file:///c:/RPMH/w.htm
file:///c:/RPMH/t.htm file:///c:/RPMH/v.htm file:///c:/RPMH/c.htm file:///c:/RPMH/f.htm file:///c:/RPMH/b.htm file:///c:/RPMH/p.htm file:///c:/RPMH/u.htm file:///c:/RPMH/d.htm file:///c:/RPMH/t.htm
file:///c:/RPMH/w.htm file:///c:/RPMH/v.htm file:///c:/RPMH/q.htm file:///c:/RPMH/c.htm file:///c:/RPMH/f.htm file:///c:/RPMH/s.htm file:///c:/RPMH/p.htm file:///c:/RPMH/u.htm file:///c:/RPMH/d.htm file:///c:/RPMH/t.htm
file:///c:/RPMH/w.htm 1307 file:///c:/RPMH/v.htm file:///c:/RPMH/q.htm file:///c:/RPMH/f.htm file:///c:/RPMH/c.htm file:///c:/RPMH/s.htm file:///c:/RPMH/p.htm file:///c:/RPMH/u.htm file:///c:/RPMH/d.htm file:///c:/RPMH/t.htm
file:///c:/RPMH/w.htm 8941 file:///c:/RPMH/v.htm file:///c:/RPMH/q.htm file:///c:/RPMH/f.htm file:///c:/RPMH/c.htm file:///c:/RPMH/s.htm
file:///c:/RPMH/p.htm 55040 file:///c:/RPMH/u.htm 53474 file:///c:/RPMH/d.htm 53326 file:///c:/RPMH/w.htm 50395
file:///c:/RPMH/t.htm 50266 file:///c:/RPMH/v.htm 49454 file:///c:/RPMH/q.htm 46762 file:///c:/RPMH/f.htm 45828 file:///c:/RPMH/s.htm 34824 file:///c:/RPMH/c.htm 34718
Proximit de la page proche par rapport la page racine 1 1 1 1 1 1 1 1 0 0 1 0,94 0,94 0,88 0,88 0,88 0,88 0,70 0,41 0,23 1 0,94 0,93 0,87 0,86 0,86 0,82 0,60 0,59 0,38 1 0,95 0,94 0,88 0,876 0,872 0,81 0,70 0,85 0,48 1 0,96 0,95 0,897 0,894 0,88 0,82 0,77 0,59 0,56 1 0,97 0,96 0,915 0,913 0,89 0,84 0,83 0,632 0,630
Nombre de pages dans le groupe
Nombre de groupes
43
45
36
28
21
Tableau A4.1 : Rsultats de la recherche de composantes thmatiques du thme systme dexploitation
232

file:///c:/RPMH/p.htm file:///c:/RPMH/c.htm file:///c:/RPMH/a.htm file:///c:/RPMH/b.htm file:///c:/RPMH/d.htm file:///c:/RPMH/e.htm file:///c:/RPMH/f.htm file:///c:/RPMH/q.htm file:///c:/RPMH/s.htm file:///c:/RPMH/r.htm file:///c:/RPMH/t.htm file:///c:/RPMH/u.htm file:///c:/RPMH/v.htm file:///c:/RPMH/w.htm file:///c:/RPMH/x.htm file:///c:/RPMH/y.htm file:///c:/RPMH/z.htm file:///c:/RPMH/P1.htm file:///c:/RPMH/P2.htm file:///c:/RPMH/P3.htm file:///c:/RPMH/P4.htm file:///c:/RPMH/P5.htm file:///c:/RPMH/P6.htm file:///c:/RPMH/P7.htm file:///c:/RPMH/P8.htm file:///c:/RPMH/P9.htm file:///c:/RPMH/P10.htm file:///c:/RPMH/P111.htm file:///c:/RPMH/P112.htm file:///c:/RPMH/P113.htm file:///c:/RPMH/P114.htm file:///c:/RPMH/P115.htm file:///c:/RPMH/P116.htm file:///c:/RPMH/P117.htm file:///c:/RPMH/P118.htm file:///c:/RPMH/P119.htm file:///c:/RPMH/P110.htm file:///c:/RPMH/P120.htm file:///c:/RPMH/P121.htm file:///c:/RPMH/P122.htm file:///c:/RPMH/P123.htm file:///c:/RPMH/P124.htm file:///c:/RPMH/P125.htm file:///c:/RPMH/P126.htm file:///c:/RPMH/P127.htm file:///c:/RPMH/P128.htm file:///c:/RPMH/P129.htm file:///c:/RPMH/P130.htm file:///c:/RPMH/P131.htm file:///c:/RPMH/P132.htm file:///c:/RPMH/P133.htm file:///c:/RPMH/P134.htm file:///c:/RPMH/P135.htm file:///c:/RPMH/P136.htm file:///c:/RPMH/P137.htm file:///c:/RPMH/P138.htm file:///c:/RPMH/P139.htm file:///c:/RPMH/P140.htm file:///c:/RPMH/P141.htm file:///c:/RPMH/P142.htm file:///c:/RPMH/P144.htm file:///c:/RPMH/P145.htm file:///c:/RPMH/P146.htm file:///c:/RPMH/P147.htm file:///c:/RPMH/P148.htm file:///c:/RPMH/P149.htm file:///c:/RPMH/P150.htm file:///c:/RPMH/P93.htm file:///c:/RPMH/P94.htm file:///c:/RPMH/P95.htm file:///c:/RPMH/P96.htm file:///c:/RPMH/P97.htm file:///c:/RPMH/P98.htm file:///c:/RPMH/P99.htm file:///c:/RPMH/P100.htm file:///c:/RPMH/P101.htm file:///c:/RPMH/P102.htm file:///c:/RPMH/P103.htm file:///c:/RPMH/P104.htm file:///c:/RPMH/P105.htm file:///c:/RPMH/P106.htm file:///c:/RPMH/P107.htm file:///c:/RPMH/P108.htm file:///c:/RPMH/P109.htm
Longueur de circuit

file:///c:/RPMH/v.htm file:///c:/RPMH/u.htm file:///c:/RPMH/t.htm file:///c:/RPMH/s.htm 1 1 1 1 1 1 1 1 0 0 16 15 15 15 15 14 13 12 06 03 151 143 142 139 139 130 118 109 70 39 1070 1024 1023 985 983 934 842 783 570 346 6003 5834 5804 5570 5552 5400 4840 4571 3628 2368
file:///c:/RPMH/q.htm file:///c:/RPMH/f.htm file:///c:/RPMH/e.htm file:///c:/RPMH/d.htm Nulle Nulle file:///c:/RPMH/u.htm file:///c:/RPMH/t.htm file:///c:/RPMH/f.htm file:///c:/RPMH/e.htm file:///c:/RPMH/v.htm
file:///c:/RPMH/d.htm file:///c:/RPMH/s.htm file:///c:/RPMH/q.htm file:///c:/RPMH/b.htm file:///c:/RPMH/c.htm file:///c:/RPMH/u.htm file:///c:/RPMH/f.htm file:///c:/RPMH/e.htm file:///c:/RPMH/t.htm
file:///c:/RPMH/v.htm file:///c:/RPMH/d.htm file:///c:/RPMH/s.htm file:///c:/RPMH/q.htm file:///c:/RPMH/b.htm file:///c:/RPMH/c.htm file:///c:/RPMH/u.htm file:///c:/RPMH/f.htm file:///c:/RPMH/e.htm file:///c:/RPMH/v.htm
file:///c:/RPMH/t.htm file:///c:/RPMH/d.htm file:///c:/RPMH/s.htm file:///c:/RPMH/q.htm file:///c:/RPMH/b.htm file:///c:/RPMH/c.htm file:///c:/RPMH/u.htm file:///c:/RPMH/e.htm file:///c:/RPMH/f.htm file:///c:/RPMH/v.htm
file:///c:/RPMH/t.htm file:///c:/RPMH/d.htm file:///c:/RPMH/s.htm file:///c:/RPMH/q.htm file:///c:/RPMH/b.htm file:///c:/RPMH/c.htm
file:///c:/RPMH/u.htm 26900 file:///c:/RPMH/e.htm 26487 file:///c:/RPMH/f.htm 26254 file:///c:/RPMH/v.htm 25243
file:///c:/RPMH/t.htm 25159 file:///c:/RPMH/d.htm 25049 file:///c:/RPMH/s.htm 22409 file:///c:/RPMH/q.htm 21547 file:///c:/RPMH/b.htm 18301 file:///c:/RPMH/c.htm 12791
Proximit de la page proche par rapport la page racine 1 1 1 1 1 1 1 1 0 0 1 0,93 0,93 0,93 0,93 0,87 0,81 0,75 0,37 0,18 1 0,947 0,940 0,92 0,92 0,86 0,78 0,72 0,46 0,25 1 0,957 0,956 0,92 0,91 0,87 0,78 0,73 0,53 0,32 1 0,97 0,96 0,927 0,924 0,89 0,80 0,76 0,60 0,39 1 0,98 0,97 0,938 0,935 0,931 0,833 0,801 0,68 0,47
Nombre de groupes
36
36
29
21
16
Tableau A4.2 : Rsultats de la recherche de composantes thmatiques du thme Rseaux et protocoles
233

file:///c:/RPMH/P1.htm file:///c:/RPMH/P2.htm file:///c:/RPMH/P3.htm file:///c:/RPMH/P4.htm file:///c:/RPMH/P5.htm file:///c:/RPMH/P50.htm file:///c:/RPMH/P51.htm file:///c:/RPMH/P6.htm file:///c:/RPMH/P7.htm file:///c:/RPMH/P8.htm file:///c:/RPMH/P9.htm file:///c:/RPMH/P10.htm file:///c:/RPMH/P52.htm file:///c:/RPMH/P11.htm file:///c:/RPMH/b.htm file:///c:/RPMH/a.htm file:///c:/RPMH/c.htm file:///c:/RPMH/d.htm file:///c:/RPMH/e.htm file:///c:/RPMH/f.htm file:///c:/RPMH/p.htm file:///c:/RPMH/q.htm file:///c:/RPMH/s.htm file:///c:/RPMH/r.htm file:///c:/RPMH/t.htm file:///c:/RPMH/u.htm file:///c:/RPMH/v.htm file:///c:/RPMH/w.htm file:///c:/RPMH/x.htm file:///c:/RPMH/y.htm file:///c:/RPMH/z.htm file:///c:/RPMH/P100.htm file:///c:/RPMH/P101.htm file:///c:/RPMH/P102.htm file:///c:/RPMH/P103.htm file:///c:/RPMH/P104.htm file:///c:/RPMH/P105.htm file:///c:/RPMH/P106.htm file:///c:/RPMH/P107.htm file:///c:/RPMH/P108.htm file:///c:/RPMH/P109.htm file:///c:/RPMH/P110.htm file:///c:/RPMH/P111.htm file:///c:/RPMH/P112.htm file:///c:/RPMH/P113.htm file:///c:/RPMH/P114.htm file:///c:/RPMH/P115.htm file:///c:/RPMH/P116.htm file:///c:/RPMH/P117.htm file:///c:/RPMH/P118.htm file:///c:/RPMH/P119.htm file:///c:/RPMH/P120.htm file:///c:/RPMH/P121.htm file:///c:/RPMH/P122.htm file:///c:/RPMH/P123.htm file:///c:/RPMH/P124.htm file:///c:/RPMH/P125.htm file:///c:/RPMH/P126.htm file:///c:/RPMH/P127.htm file:///c:/RPMH/P128.htm file:///c:/RPMH/P129.htm file:///c:/RPMH/P130.htm file:///c:/RPMH/P131.htm file:///c:/RPMH/P132.htm file:///c:/RPMH/P133.htm file:///c:/RPMH/P134.htm file:///c:/RPMH/P135.htm file:///c:/RPMH/P136.htm file:///c:/RPMH/P137.htm file:///c:/RPMH/P138.htm file:///c:/RPMH/P139.htm file:///c:/RPMH/P140.htm file:///c:/RPMH/P141.htm file:///c:/RPMH/P142.htm file:///c:/RPMH/P143.htm file:///c:/RPMH/P144.htm file:///c:/RPMH/P145.htm file:///c:/RPMH/P146.htm file:///c:/RPMH/P147.htm file:///c:/RPMH/P148.htm file:///c:/RPMH/P149.htm file:///c:/RPMH/P150.htm file:///c:/RPMH/P21.htm file:///c:/RPMH/P53.htm file:///c:/RPMH/P12.htm file:///c:/RPMH/P13.htm file:///c:/RPMH/P14.htm file:///c:/RPMH/P15.htm file:///c:/RPMH/P16.htm file:///c:/RPMH/P17.htm file:///c:/RPMH/P18.htm file:///c:/RPMH/P19.htm file:///c:/RPMH/P20.htm
Longueur de circuit

file:///c:/RPMH/P94.htm file:///c:/RPMH/P93.htm file:///c:/RPMH/P92.htm file:///c:/RPMH/P91.htm 1 1 1 1 0 0 0 0 0 0 13 13 13 13 13 13 06 06 06 06 105 105 105 105 65 65 65 65 65 65
Nulle Nulle Nulle Nulle Nulle Nulle file:///c:/RPMH/P38.htm file:///c:/RPMH/P37.htm file:///c:/RPMH/P25.htm file:///c:/RPMH/P24.htm file:///c:/RPMH/P22.htm
file:///c:/RPMH/P21.htm file:///c:/RPMH/P75.htm file:///c:/RPMH/P76.htm file:///c:/RPMH/P78.htm file:///c:/RPMH/P79.htm file:///c:/RPMH/P94.htm file:///c:/RPMH/P93.htm file:///c:/RPMH/P92.htm file:///c:/RPMH/P91.htm
file:///c:/RPMH/P21.htm file:///c:/RPMH/P22.htm file:///c:/RPMH/P24.htm file:///c:/RPMH/P25.htm file:///c:/RPMH/P37.htm file:///c:/RPMH/P38.htm
file:///c:/RPMH/P38.htm 1937 file:///c:/RPMH/P37.htm 1937 file:///c:/RPMH/P25.htm 1937 file:///c:/RPMH/P24.htm 1937
file:///c:/RPMH/P22.htm 1937 file:///c:/RPMH/P21.htm 1937 file:///c:/RPMH/P75.htm 1046 file:///c:/RPMH/P76.htm 1046 file:///c:/RPMH/P78.htm 1046 file:///c:/RPMH/P79.htm 1046 file:///c:/RPMH/P38.htm 10673 file:///c:/RPMH/P37.htm 10673 file:///c:/RPMH/P25.htm 10673 file:///c:/RPMH/P24.htm 10673
file:///c:/RPMH/P22.htm 10673 file:///c:/RPMH/P21.htm 10673 file:///c:/RPMH/P42.htm 9724 file:///c:/RPMH/P43.htm 9724 file:///c:/RPMH/P91.htm 8841 file:///c:/RPMH/P92.htm 8841 Nulle Nulle Nulle Nulle 0 0 0 0 0 0 0 0 0 0
Nulle Nulle Nulle Nulle Nulle Nulle
Proximit de la page proche par rapport la page racine 1 1 1 1 0 0 0 0 0 0 1 1 1 1 1 1 0,46 0,46 0,46 0,46 1 1 1 1 0,61 0,61 0,61 0,61 0,61 0,61 1 1 1 1 1 1 0,54 0,54 0,54 0,54 1 1 1 1 1 1 0,91 0,91 0,82 0,82 0 0 0 0 0 0 0 0 0 0
Nombre de groupes
78
164
2 et 3
269
2 et 3
270
234

file:///c:/RPMH/P22.htm file:///c:/RPMH/P54.htm file:///c:/RPMH/P23.htm file:///c:/RPMH/P55.htm file:///c:/RPMH/P24.htm file:///c:/RPMH/P56.htm file:///c:/RPMH/P25.htm file:///c:/RPMH/P57.htm file:///c:/RPMH/P26.htm file:///c:/RPMH/P58.htm file:///c:/RPMH/P27.htm file:///c:/RPMH/P59.htm file:///c:/RPMH/P28.htm file:///c:/RPMH/P60.htm file:///c:/RPMH/P29.htm file:///c:/RPMH/P61.htm file:///c:/RPMH/P30.htm file:///c:/RPMH/P62.htm file:///c:/RPMH/P31.htm file:///c:/RPMH/P63.htm file:///c:/RPMH/P32.htm file:///c:/RPMH/P64.htm file:///c:/RPMH/P33.htm file:///c:/RPMH/P65.htm file:///c:/RPMH/P34.htm file:///c:/RPMH/P66.htm file:///c:/RPMH/P35.htm file:///c:/RPMH/P67.htm file:///c:/RPMH/P36.htm file:///c:/RPMH/P68.htm file:///c:/RPMH/P37.htm file:///c:/RPMH/P69.htm file:///c:/RPMH/P38.htm file:///c:/RPMH/P70.htm file:///c:/RPMH/P39.htm file:///c:/RPMH/P71.htm file:///c:/RPMH/P40.htm file:///c:/RPMH/P72.htm file:///c:/RPMH/P41.htm file:///c:/RPMH/P73.htm file:///c:/RPMH/P42.htm file:///c:/RPMH/P74.htm file:///c:/RPMH/P43.htm file:///c:/RPMH/P75.htm file:///c:/RPMH/P44.htm file:///c:/RPMH/P76.htm file:///c:/RPMH/P45.htm file:///c:/RPMH/P77.htm file:///c:/RPMH/P46.htm file:///c:/RPMH/P78.htm file:///c:/RPMH/P47.htm file:///c:/RPMH/P79.htm file:///c:/RPMH/P48.htm file:///c:/RPMH/P80.htm file:///c:/RPMH/P49.htm file:///c:/RPMH/P81.htm file:///c:/RPMH/P95.htm file:///c:/RPMH/P96.htm file:///c:/RPMH/P97.htm file:///c:/RPMH/P82.htm file:///c:/RPMH/P83.htm file:///c:/RPMH/P84.htm file:///c:/RPMH/P85.htm file:///c:/RPMH/P86.htm file:///c:/RPMH/P87.htm file:///c:/RPMH/P88.htm file:///c:/RPMH/P89.htm file:///c:/RPMH/P90.htm file:///c:/RPMH/P91.htm file:///c:/RPMH/P92.htm file:///c:/RPMH/P93.htm file:///c:/RPMH/P94.htm
Tableau A4.3 : Rsultats de la recherche de composantes thmatiques du thme Base de Donnes
Les exprimentations prsentes dans les trois tableaux A4.1, A4.2 et A4.3 justifient bien nos choix pour une longueur de circuit gale 4. En effet, lordre de pages Web thmatiquement proches rcupres pour la page racine se stabilise partir dune longueur maximale de circuits gale 4. A partir dune longueur de circuits gale 5, le nombre de circuits rcuprs pour chaque page proche devient trs important (voir figure A4.1). En consquence, nous avons plusieurs pages qui ne font pas partie de la composante thmatique de la page Web racine.
235
Variation de la longueur de circuits en fonction du nombre maximale de circuits collects entre les pages Web
60000 50000 40000 30000 20000 10000 0 1 2 3 4 5 6 Longueur de circuit Nombre de circuits
Systme d'exploitation Rseaux et protocoles Base de Donnes
Figure A4.1 : Courbes de variation de la longeur de circuit en fonction du nombre maximale de circuits collects entre les pages Web
Il sest avr que pour les trois thmes diffrents (systmes dexploitation, Rseaux et protocoles, Bases de donnes), toutes les composantes thmatiques seront fusionnes dans un seul groupe pour une longueur de circuit gale 4. Ceci montre bien la performance de notre approche base de circuits dans la construction des composantes thmatiques dans le RPMH de pages Web.
236
Annexe 5 : Rsultats des exprimentations
Nous prsentons dans cette annexe les rsultats collects suite aux cinq expriences de test de performance de notre SRI multi-agent SARIPOD. Le tableau A5.1 rcapitule ces rsultats en terme de : Nombre de terme de la requte, Nombre de documents retrouvs par le systme, Nombre de documents jugs pertinents par le systme, Taux de documents pertinents par rapport aux documents retrouvs, Nombre de classes proposes par lexpert, Nombre de classes proposes par le systme, Taux de classification du systme par rapport la classification de lexpert,
Nombre de terme de la requte Nombre de documents retrouvs par le systme Nombre de documents jugs pertinents par le systme Taux de documents pertinents par rapport aux documents retrouvs Nombre de classes proposes par lexpert Nombre de classes proposes par le systme Taux de classification du systme par rapport la classification de lexpert
4 7 12 16 15
24 172 349 297 207
24 146 317 262 189
100% 84,88% 90,83% 88,21% 91,3%
1 2 4 5 4
1 4 5 2 3
100% 200% 125% 40% 75%
Tableau A5.1 : Rcapitulations des rsultats des cinq expriences de classification de documents
Dans le tableau A5.2, nous prsentons le score de la pertinence possibiliste de chaque document retrouv par le systme. Les documents titulaires des scores des pertinences possibilistes ngatifs ou nuls sont jugs non pertinents pour le systme.
237
Exprience 1 20,22 19,39 17,55 15,90 13,45 5,59 5,33 5,33 5,33 5,14 5,14 4,98 4,98 4,85 4,73 4,63 4,54 4,46 4,38 4,31 4,25 4,19 4,13 4,07
Exprience 2 53,65 51,01 50,51 47,70 47,26 43,59 42,14 41,42 40,54 37,20 32,43 32,18 31,29 29,38 28,96 28,12 27,85 27,76 27,50 26,67 25,82 25,06 24,99 24,17 24,01 23,60 23,44 23,37 23,23 23,10 22,84 22,25 22,18 22,02 21,82 21,58 21,52 21,23 21,12 21,04 20,98 20,83 20,26 19,93 19,67 19,38 19,14 18,97 18,78 18,67
Exprience 3 58,817734 56,01483 52,71437 52,20844 51,522385 51,184376 50,259586 49,32683 47,89886 46,879864 46,858128 46,13898 45,707935 45,421528 45,250206 44,803947 44,704777 44,41924 44,239536 42,504345 40,876587 40,452824 40,19784 39,80896 36,913837 36,786964 35,07938 35,07408 34,688137 34,218185 32,14723 32,052048 31,372522 30,426914 30,00851 29,74598 29,719501 29,321217 29,212599 29,178679 29,17271 29,1354 29,10649 29,083166 29,041706 28,97194 28,61219 28,544659 28,345373 28,308882
Exprience 4 102,85487 67,07286 60,009636 55,949837 52,563118 51,73824 51,504044 51,00206 50,686104 49,06194 48,454086 47,1131 46,668518 46,468113 46,400677 43,862762 42,822388 39,795128 39,251328 38,224167 37,66309 33,84117 33,781223 33,252426 32,893013 32,78991 32,628746 31,143106 30,743183 30,426756 30,307026 29,919996 29,349915 28,930378 28,878382 28,700542 28,614357 28,53998 28,442467 27,586496 27,286705 26,505045 25,937336 25,700222 25,5145 25,424425 25,052742 25,03646 24,67644 24,647984
Exprience 5 66,36355 57,092854 56,514774 56,477985 55,42903 54,90814 54,33407 53,285316 52,289246 52,235878 49,040775 48,51172 48,1223 46,631073 46,43979 45,48456 44,763622 44,10233 42,48602 41,796158 40,36433 37,87319 37,186157 36,33839 34,99326 34,958103 34,168713 33,9636 32,84442 32,364227 32,24236 30,942766 30,58426 30,51868 30,26866 30,075129 29,194088 28,545162 28,451214 28,4023 28,281687 28,09709 27,877016 27,761475 27,57396 27,561884 27,322163 27,284626 27,143082 27,028929
238
18,56 18,32 18,19 17,86 17,45 16,16 14,63 12,63 12,47 12,25 11,84 11,35 10,47 8,70 7,97 7,56 7,56 7,31 6,96 6,86 6,82 6,71 6,71 6,61 6,61 6,51 6,51 6,51 6,50 6,43 6,43 6,36 6,29 6,22 6,22 6,16 6,11 6,05 6,00 5,96 5,91 5,87 5,56 5,43 5,15 5,10 4,97 4,82 4,80 4,76 4,75
28,173225 27,617582 27,210487 27,06193 27,027508 26,716825 26,328983 25,96592 25,68135 25,609777 25,468338 25,272038 24,9538 24,847345 24,666597 24,623234 24,612713 24,559395 24,28071 24,182405 24,061277 23,935366 23,638987 23,36378 23,000593 22,728685 22,51168 22,500042 22,227163 21,907192 21,816511 21,561031 21,532568 21,484833 21,392485 21,386574 21,36895 21,368074 21,25997 21,249783 21,240591 21,141457 21,134016 21,089989 21,0721 20,996286 20,936962 20,83631 20,733881 20,711805 20,539225
24,56528 24,289183 24,123184 23,596212 23,458603 23,169958 23,142488 22,708124 22,618538 22,45853 22,367214 22,283796 22,277256 22,059237 22,026463 21,81497 21,378582 21,328465 21,135172 21,07433 20,992363 20,966442 20,875366 20,84227 20,630413 20,397442 20,379686 20,317974 19,838737 19,79975 19,668602 19,629408 19,55545 19,386042 19,170433 19,146414 18,629084 18,472658 18,25639 18,255953 18,254557 18,213846 18,201817 18,172176 17,564991 17,521095 17,360878 17,352354 17,309385 17,250664 16,982658
26,732925 26,620544 26,39511 26,388937 26,267977 26,19879 26,156282 25,915047 25,80925 25,691277 25,34619 25,188223 25,027967 24,62368 24,596767 24,56366 24,501038 24,355154 24,28278 24,263863 24,1804 24,076426 23,97662 23,954126 23,709024 23,65819 23,57935 23,453272 23,4529 23,429764 23,322662 23,162416 23,003902 22,9091 22,792103 22,790518 22,787537 22,717783 22,499296 22,398369 22,168003 22,121878 21,944426 21,941801 21,806942 21,783184 21,55336 21,497417 21,354908 21,205982 21,038036
239
4,70 4,68 4,67 4,64 4,62 4,61 4,60 4,59 4,58 4,58 4,57 4,56 4,55 4,54 4,53 4,52 4,51 4,50 4,50 4,49 4,48 4,47 4,46 4,45 4,45 4,43 4,43 4,42 4,41 4,40 3,74 3,72 3,59 3,51 3,24 2,53 2,29 2,15 2,03 2,03 1,64 1,33 1,14 0,30 0,13 -0,87 -2,10 -2,77 -2,82 -2,88 -2,88
20,489592 20,485954 20,314577 20,228205 20,179502 20,053694 19,93748 19,92392 19,879454 19,874527 19,789125 19,695406 19,572248 19,56979 19,444323 19,441336 19,42832 19,35289 19,290077 19,263647 19,099398 19,097609 18,837315 18,814867 18,553457 18,531258 18,512629 18,475822 18,454208 18,389202 18,154423 17,91485 17,86459 17,781096 17,665234 17,65165 17,558712 17,487265 17,392496 17,299042 17,206709 17,169666 17,109879 16,99847 16,992899 16,95761 16,88633 16,657866 16,605307 16,529015 16,522335
16,608463 16,562319 16,192585 16,02805 16,006617 15,791422 15,705762 15,601 15,287069 14,462973 14,43328 14,112987 13,933811 13,79191 13,619904 13,579743 13,279229 12,689574 12,390535 12,322101 12,203095 11,95751 11,466781 11,385778 11,160178 10,909509 10,831768 10,808481 10,80498 10,4391575 10,427081 10,382826 9,890645 9,726243 9,674974 9,520321 9,458994 9,347502 9,148882 8,968245 8,912293 8,624437 8,558085 8,486207 8,40065 8,168892 8,114899 8,03533 7,8726654 7,7906747 7,3927794
20,716362 20,471416 20,257689 19,965096 19,248837 18,997986 17,749416 17,425026 17,353664 15,801656 14,38924 14,377739 13,585754 13,469146 13,336408 12,439315 9,008749 8,484661 7,5578933 7,3079677 7,3079677 7,3079677 7,2516828 6,955689 6,955689 6,955689 6,821892 6,821892 6,705908 6,705908 6,705908 6,705908 6,603362 6,603362 6,53432 6,5119915 6,5119915 6,5119915 6,4291577 6,4291577 6,4291577 6,4291577 6,4291577 6,3533397 6,284153 6,219832 6,159809 6,103848 6,103848 6,103848 6,103848
240
-2,93 -2,99 -3,17 -3,24 -3,37 -3,44 -3,52 -3,55 -3,58 -3,59 -3,66 -3,67 -3,75 -3,78 -4,02 -4,11 -4,48 -4,78 -6,27 -28,39
16,506842 16,324675 16,215212 16,169827 16,145842 16,138056 16,069258 15,97731 15,883138 15,854984 15,837788 15,745454 15,425653 15,384319 15,195276 15,104489 15,077839 15,069502 14,971918 14,912968 14,875858 14,765024 14,652199 14,489128 14,106266 14,073114 13,780062 13,7567835 13,741832 13,639359 12,715727 12,407363 12,389941 12,348577 12,273359 12,257402 12,252163 11,809918 11,729418 11,710194 11,343309 11,085043 10,774433 10,718988 10,41238 10,170755 10,138035 9,992364 9,942102 9,290689 9,183305
7,1524525 7,018405 7,018405 6,9704027 6,902344 6,708601 6,5574365 6,4899364 6,4610214 6,4362445 6,3562264 6,151094 6,0636244 5,9890294 5,948102 5,948102 5,912337 5,912337 5,8780394 5,8780394 5,845451 5,8137474 5,8137474 5,783075 5,7535896 5,7254553 5,7254553 5,6976094 5,6976094 5,645643 5,6204653 5,4462647 5,310277 5,2928076 5,2828193 5,2749796 5,1777573 5,0091558 4,970831 4,921796 4,8366027 4,8096676 4,788903 4,7058825 4,6729193 4,6402926 4,5249023 4,5249023 4,505706 4,50084 4,440216
6,0506115 6,0506115 6,0008683 5,866975 5,866975 5,8265676 5,8265676 5,75128 5,715871 5,6814666 5,6482515 5,6177716 5,557749 5,5283523 5,4485517 5,4236145 5,3979397 5,306425 5,2849293 5,2649145 5,244428 5,223447 5,2041197 5,186572 5,186572 5,175967 5,1316957 5,112605 4,71587 3,3690562 2,4227905 2,0026696 1,9868947 1,9831243 1,9580564 1,7643362 0,6091099 0 -0,36443257 -0,68725324 -3,5382848 -3,9474964 -4,9880686 -5,3923907 -7,9135294 -7,997034 -8,746999 -9,132126 -9,905433 -10,292495 -10,567971
241
9,028891 8,900472 8,798491 8,139239 8,017206 7,8137093 7,7384634 7,3862224 7,3862224 7,2522697 7,1047096 6,822481 6,445156 6,436856 5,5266323 5,2888775 5,2506247 5,238187 5,2277346 5,2276835 5,1774383 5,148976 4,924796 4,915764 4,9066367 4,8974123 4,8912086 4,881818 4,875501 4,8672385 4,8659387 4,8595047 4,849763 4,843208 4,833281 4,8265996 4,819866 4,8130803 4,806241 4,7958803 4,788903 4,78187 4,7747793 4,7604227 4,753154 4,631941 4,437026 4,3908134 4,2892394 4,260668 4,2211795
4,440216 4,434968 4,4292564 4,41903 4,2095313 3,824278 3,804915 3,6653848 3,62599 3,6136992 3,3988864 3,1764593 3,0818295 2,9383495 2,867663 2,6928358 2,6389632 2,6338053 2,5871358 2,4526253 2,4314833 2,4306755 2,245749 2,239699 2,2374737 2,220019 2,1725776 2,1654675 2,1181493 2,1026342 2,0735219 2,0094852 2,0041983 2,0004437 2 1,9988083 1,9941947 1,9918282 1,8892615 1,8354791 1,8162884 1,811647 1,696422 1,694921 1,6789998 1,6784356 1,6275415 1,5585046 1,5216408 1,2683628 1,1336935
-10,797223 -14,121737 -15,415162 -29,262817
242
4,2076073 4,1363716 4,128916 4,1213956 4,117352 4,106669 4,106157 4,106157 4,090646 4,066848 4,066848 4,0506115 4,0506115 4,0423784 4,0256743 4 3,5578308 3,3775826 3,2221465 3,1466963 3,1372252 3,0287604 2,7326393 2,711725 2,5883906 2,5493746 2,441471 2,432969 2,3810232 2,2083035 2,2059577 2,192718 2,1424398 2,1164408 2,0689666 2,0661588 2,0634491 2,051265 2,0210712 2,0148616 2,0099323 2,0000322 2,000001 1,9826183 1,976609 1,9725448 1,9681702 1,9585527 1,954885 1,8932962 1,8516327
1,1026486 1,022166 0,99387324 0,7085576 0,60000384 0,47485054 0,39252377 0,07393527 -0,021297932 -0,28438497 -0,36338902 -0,95102096 -1,1720736 -1,4203012 -1,729958 -2,0460267 -2,0688987 -2,0987973 -2,23036 -2,559577 -2,8109088 -3,1001573 -3,6394954 -3,709426 -3,776102 -4,537393 -4,569243 -4,894354 -5,5765266 -5,586808 -5,6946945 -5,8215933 -6,3575964 -6,6993914 -7,5585575 -7,5669928 -7,952318 -7,9952154 -11,863697 -15,781929 -26,021086 -57,39626 -91,43486
243
1,7779392 1,7495506 1,694269 1,6711214 1,6550298 1,5925949 1,4562621 1,4102452 1,2070794 1,0999503 0,92153263 0,07347238 -0,04367447 -0,36056328 -0,4416778 -0,6276047 -0,8392923 -0,92019606 -0,96275043 -1,0645797 -1,1928685 -1,3257718 -1,466121 -1,963647 -2,3476963 -2,6200395 -3,576488 -4,182135 -4,8814616 -5,354793 -5,511408 -7,5597396 -7,791536 -7,905372 -8,383428 -8,831229 -10,595719 -11,181103 -18,07492 -18,47083 -22,274036 -30,369854 -42,07043 -2388,9187
Tableau A5.2 : Les scores des pertinences possibilistes des documents retrouvs
244

Elayeb

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Elayeb

Încărcat de

Drepturi de autor:

Formate disponibile

THSE

DOCTORAT DE LUNIVERSIT DE TOULOUSE

Keywords: Intelligent Information Retrieval, Hierarchical Small-Worlds, Possibilistic

Table des matires

Table des matires

Table des matires

Table des matires

Table des matires

Table des figures

Table des figures

Table des figures

Table des tableaux

Table des tableaux

Table des tableaux

Premire Partie : Etat de lart sur la Recherche dInformation

Chapitre 1 : Les Systmes de Recherche dInformation

Les Systmes de Recherche dInformation

Chapitre 1 : Les Systmes de Recherche dInformation

1. Les composants dun SRI

Rtroaction Documents pertinents

2. Utilisateur, besoin dinformation, profil et requte

Chapitre 1 : Les Systmes de Recherche dInformation

Ces modles ont t classs suivant trois dimensions :

[Daniels, 1986] propose de modliser lutilisateur avec les paramtres suivants :

Chapitre 1 : Les Systmes de Recherche dInformation

2.2 Reprsentation des rsulats de requtes

Chapitre 1 : Les Systmes de Recherche dInformation

3. Analyse et indexation des documents et des requtes

3.1 Approche base sur la frquence d'occurrences

Chapitre 1 : Les Systmes de Recherche dInformation

Figure 1.2 : La correspondance entre l'informativit et la frquence 19

Chapitre 1 : Les Systmes de Recherche dInformation

3.2 Approche base sur la valeur de discrimination

Chapitre 1 : Les Systmes de Recherche dInformation

3.3 Approche base sur tf x idf

3.4 La pondration de termes

Chapitre 1 : Les Systmes de Recherche dInformation

3.5 Filtrage des mots fonctionnels

Chapitre 1 : Les Systmes de Recherche dInformation

3.7 L'approche base sur une indexation

Chapitre 1 : Les Systmes de Recherche dInformation

Requte Pertinence du Systme

Reprsentation Appariement / Matching

Chapitre 1 : Les Systmes de Recherche dInformation

Chapitre 1 : Les Systmes de Recherche dInformation

Chapitre 1 : Les Systmes de Recherche dInformation

5. Evaluation d'un systme de RI

Chapitre 1 : Les Systmes de Recherche dInformation

5.1 Corpus de test (rfrences)

Le tableau 1.2 rcapitule ces collections.

Chapitre 1 : Les Systmes de Recherche dInformation

5.2 Rappel et Prcision

[0, 1] et Silence = 1 Rappel

[0, 1] et Bruit = 1 prcision

Ensemble de documents retrouvs

Figure 1.5 : Rapprochement de pertinences systme et utilisateur

Chapitre 1 : Les Systmes de Recherche dInformation

Chapitre 1 : Les Systmes de Recherche dInformation

6.1 Rtroaction de pertinence (Relevance Feedback)

Chapitre 1 : Les Systmes de Recherche dInformation

6.1.2 La technique de RF automatique

Chapitre 1 : Les Systmes de Recherche dInformation

6.2 Expansion de requtes