Sunteți pe pagina 1din 35

D4-1 : Rechercher de linformation

avec une dmarche adapte

Prpar par : Mohamed Kouthear KHRIBI

Plan
I-Recherche dinformation
II-Sources dinformation
III-Outils de recherche dinformation
IV-Formulation de requte
V- Rcupration dinformation

I-Recherche dinformation
D f i n i t i o n :
La recherche d'information RI (IR Information Retrieval en anglais) est la
science qui consiste rechercher l'information dans des documents (les
documents eux-mmes ou les mtadonnes qui dcrivent les documents),
dans des bases de donnes , dans le World Wide Web, l'internet, les
intranets, pour le texte, le son, les images, les donnes. Dans le jargon de
la documentique, la recherche dinformation est dfinie comme tant (Paris,
ADBS, 2004) : lensemble des mthodes, procdures et techniques
permettant, en fonction de critres de recherche propres lusager, de
slectionner linformation dans un ou plusieurs fonds de documents plus ou
moins structurs .

D f i n i t i o n ( s u i t e ) :
La recherche d'information est un domaine historiquement li aux sciences
de l'information et la bibliothconomie qui ont toujours eu le souci dtablir
des reprsentations des documents dans le but d'en rcuprer des
informations, travers la construction dindex. Linformatique a permis le
dveloppement doutils pour traiter linformation et tablir la reprsentation
des documents au moment de leur indexation, ainsi que pour rechercher
linformation. On peut aujourd'hui dire que la recherche d'information est un
champ transdisciplinaire, qui peut tre tudi par plusieurs disciplines,
approche qui devrait permettre de trouver des solutions pour amliorer son
efficacit *.

(*) wikipedia

 Les tapes du processus de recherche dinformation

Guertin, 2005

II-Sources dinformation
-Pour trouver une information, on doit la chercher dans les endroits ventuels
o elle peut rsider, ce qui constitue les sources dinformation.
-Les sources dinformation sont gnralement imprgnes par les types dinformation
quelles renferment (formelle-informelle, gnrale-spcialise, prive-public, etc.)
-Internet comporte de plus en plus dinformation
-Plusieurs sources dinformation traditionnelles sont dsormais prsentes sur la toile
-Le Web constitue aujourdhui la premire et principale source dinformation,
visible et cache.
-Linformation doit tre accessible de faon continue
-La slection dinformation pertinente est une vritable tche russir

On retrouve plusieurs sources dinformation sur le Web, ci-aprs une liste non
exhaustives non catgorise et non classe de ces sources :
-Les agences de presse
-Les journaux lectroniques
-Les e-magazines
-Les radios en ligne
-Les bibliothques
-Les sites institutionnelles
-Les journaux spcialiss
-Les revues lectroniques
-Les encyclopdies, les dictionnaires
-Les forums
-Les blogs
-Les rseaux sociaux
-Les organisations prives et publics
-Les associations, les comits
-Les publications scientifiques
-Les fils dactualits
-Les wikis
-Les rapports, les cours, les manuels
-Les podcasts
-etc

ces sources peuvent tre classes suivant la validit et la fiabilit des informations
quelles renferment :
- Les sources dinformation formelles (publication scientifique, site institutionnel, etc)
- Les sources dinformation informelles (blog, wiki, etc.)
ces sources peuvent aussi tre classes suivant la spcialisation et la complexit de
linformation:
-Les sources dinformation gnralistes (revue scientifique de mdecine)
-Les sources dinformation spcialises (ressources pdagogique sur le Data Mining)
ces sources peuvent aussi tre classes suivant les outils utilises pour assurer
la transmission et la diffusion de linformation
-Les sources dinformation traditionnelles (agence de presse, journaux, etc.)
-Les sources dinformation 2.0 ou sociales (rseaux socials, blog, wiki, etc.)

Web invisible

Certaines informations rsidant dans des sources dinformation spcifiques


sur le web peuvent ne pas tre directement exploitables car non accessibles,
dailleurs cela peut constituer la majeure partie des ressources prsentes en ligne.
cest ce quon appelle le web invisible.

Le web invisible ou web profond dsigne la partie du web non accessible


aux usagers du web car les outils de recherche classiques ne peuvent pas les
indexer.

Exemple : les sources dinformation protges par une authentification, les sites
mal rfrences, les nouveaux sites, etc.

Qualit des sources dinformation :

La qualit des sources dinformation dpend de :


-sa fiabilit (disposition diffuser des informations exactes, lies au processus
de validation de l'information --d sa prcision et son exactitude)
-son autorit (rputation dont elle jouit dans son domaine auprs des experts)
-son objectivit (reprsentation fidle, exempte de prjug)

III- Outils de recherche dinformation

 Annuaires de recherche
 Moteurs de recherche
 Meta-Moteurs

Les annuaires de recherche


Dfinition :

- outil de recherche prsentant une liste de sites web via une arborescence
(classification, catgorisation, rubriques)

- classement en catgories et sous catgories

- slection et ajout des sites webs par des professionnels

Annuaire

Rubrique 1

Sous-Rubrique 1.1

Rubrique 2

Rubrique n

Sous-Rubrique 1.2

Sous-sous-Rubrique 1.1.1

Sous-sous-Rubrique 1.1.2

Site Web 1.1.2.1

Site Web 1.1.2.2

http://fr.dir.yahoo.com/

- Un annuaire (guide) est un outil de recherche permettant de rpertorier et de


recenser les sites Web.

- Un annuaire est organis smantiquement et hirarchiquement, on trouve des


rubriques, des sous-rubriques, des sous-sous-rubriques, etc.

- La dernire sous rubrique est une liste de sites Web (et non pas de pages Web).

- Lutilisation de lannuaire de recherche se fait :


- par larborescence et les thmes (navigation)
-par mots-cls : introduire le mot dans une boite de recherche au niveau d'
une rubrique ou sous-rubrique de l'annuaire. La recherche seffectue sur les
noms de rubriques de l'annuaire, les noms des sites et le bref descriptif (
non visible pour l'utilisateur ) associ chaque site.

- Construction
Indexation manuelle (humain)

- Utilisation
Par navigation ou recherche par mots clefs
- Avantages
Exploration simple
Sites slectionnes
 Prcision et fiabilit de linformation

- Inconvnients
Restrictions de taille
MAJ difficile
 Sujets prcis difficiles trouver

Les moteurs de recherche


Dfinition :

- Un moteur de recherche est un outil de recherche bas sur une indexation


automatique des pages web et leur rfrencement dans une base de donnes

- Faire une recherche via un moteur de recherche revient interroger la base de


donnes en utilisant des requtes et des oprateurs boolens

Les pages non indexes (gnralement non rfrences) ne feront pas partie des

rsultats retourns (web invisible)

- Un moteur de recherche ne couvre pas la totalit du web.

- Un moteur de recherche est lindex dun trs grand nombre des pages du Web.
- Le fonctionnement dun moteur de recherche est bas sur lindex.
- Un index fait correspondre pour chaque mot pertinent la page dans laquelle ce mot
a t cit.
- La construction de lindex et son MAJ sont totalement automatiques.
-Google, Yahoo Search ou Bing sont des moteurs de recherche gnralistes.
-Il existe

aussi des moteurs de recherche spcialiss dans certains types de

ressources (cartes, images, vidos, publications scientifiques, blogs, etc.) ou dans


certains domaines (immobilier, musique, films, mdecine, etc.).
-Il existe aussi sur la plupart des sites web des moteurs de recherche ddis aux
pages des sites eux-mme.

Fonctionnement dun moteur de recherche


- Des robots logiciels (appels crawlers ou spiders) parcourent le Web, de lien
en lien, de page en page ;
- Un outil parseur effectue la lecture des pages visits par le robot, dtecte les
principales parties et extrait les termes les plus pertinents ;
- Lindexeur construit lindex au fur et mesure en ajoutant chaque fois les
termes et leurs rfrences.

Les limites de l'indexation automatique


-Certains documents numriques ne sont pas indexs car leurs formats ne
sont pas pris en charge par le moteur.
-Les images et les vidos sont indexs grces aux mtadonnes associes
(donnes de description de ces ressources, les descriptions peuvent tres
extraites partir des tags et donnes textuelles qui y sont associes)

Recherche dans les moteurs de recherche


- Lutilisateur formule sa requte (ensemble de mots clefs)
- Le moteur de recherche :
consulte lindex,
recherche des entres correspondantes
au(x) mot(s) demand(s)
Slectionne les pages trouves
Prsente les adresses des pages suivant un ordre
dcroissant de pertinence

Formulation de requtes
- Principalement avec AND, OR
- Mais aussi avec NOT, NEAR, SAUF

-Avantages
 Taille dindex est proportionnelle la taille du Web
 MAJ frquente
 Grand nombre de rsultats retourns

-Inconvnients
 Formulation de la requte
 Nombre de rsultats souvent trs norme
 Recherche automatique, certaines pages
trouves nont pas de relation smantique avec la requte

Les mta-moteurs
Dfinition :
- Un mtamoteur de recherche est un outil de recherche bas sur lutilisation
dune srie de moteurs de recherche et/ou annuaires de recherche ;
- Il interroge simultanment plusieurs moteurs et/ou annuaires de recherche ;
- Il rcupre les rsultats et les classifie suivant lindice de pertinence ou autres.
Pourquoi avoir recours un mtamoteur de recherche ?
- accder un plus grand nombre de pages rfrences sur Internet ;
- Bnficier dun plus grand nombre de fonctionnalits ;
- avoir un plus grand nombre de rsultats ;
- amliorer la recherche ;
- avoir plus de chances trouver des documents plus pertinents.

IV- Formulation de requte


-Une requte de recherche bien formule garantit un rsultat de recherche de
qualit (prcision, pertinence, temps de rponse..)

- Formuler une requte de recherche ncessite la maitrise dun langage


dinterrogation spcifique

-Le langage dinterrogation utilis dans la plupart des outils de recherche


dinformation est base sur ladjonction dune srie de mots clefs reprsentant
le besoin dinformation de lusager

Stratgie de recherche
- Bien se fixer le besoin dinformation

-Traduire ce besoin en une ou plusieurs questions

- Formuler ces questions en langage courant dinterrogation

- Extraire les principaux concepts de ces questions

- Utiliser des mots clefs et leurs synonymes

- Relier ces mots clefs par des oprateurs boolens pour que la recherche soit bien
cible

Les oprateurs de recherche

 OU / OR

 SAUF / NOT

 Et / And

Troncature
Pour remplacer un nombre de caractres aprs la racine (dbut) du mot*,
on utilise le caractre toile * .
Le caractre ? est utilis pour ne remplacer qu'un seul caractre dans le
mot soumettre au moteur de recherche.
 (*)La troncature peut tre utilise :
- droite d'un mot ;
- gauche d'un mot ;
- l'intrieur d'un mot.

Recherche dexpressions exactes


 Pour rechercher les documents contenant exactement une expression, on
place les expressions chercher entre guillemets "..." .
A utiliser pour une requte dans laquelle les termes ne sont pas recherchs
sparment (mot par mot), mais comme une expression.

V- Rcupration des informations


 Rcuprer une page HTML

-Slectionner le menu Fichier et choisir


loption Enregistrer sous
-Choisir ensuite lemplacement dans lequel le
contenu de la page HTML sera sauvegard
-Des

dossiers

lemplacement

images

seront

denregistrement

sauvegarder les images de la page

cres
afin

dans
de

 Enregistrer une image

-Cliquer sur limage enregistrer en utilisant le bouton droit


de la souris et choisir loption Enregistrer limage sous
-Choisir ensuite lemplacement dans lequel limage sera
sauvegard

 Aspirer un site
- Tlcharger lensemble du site Web en reproduisant la mme arborescence
sur disque dur pour permettre une navigation offline
- Plusieurs outils daspiration Web (gratuits et payants) peuvent tre
tlchargs depuis Internet.

Exple :
WinHTTrack

Fin

S-ar putea să vă placă și