Documente Academic
Documente Profesional
Documente Cultură
Plan
I-Recherche dinformation
II-Sources dinformation
III-Outils de recherche dinformation
IV-Formulation de requte
V- Rcupration dinformation
I-Recherche dinformation
D f i n i t i o n :
La recherche d'information RI (IR Information Retrieval en anglais) est la
science qui consiste rechercher l'information dans des documents (les
documents eux-mmes ou les mtadonnes qui dcrivent les documents),
dans des bases de donnes , dans le World Wide Web, l'internet, les
intranets, pour le texte, le son, les images, les donnes. Dans le jargon de
la documentique, la recherche dinformation est dfinie comme tant (Paris,
ADBS, 2004) : lensemble des mthodes, procdures et techniques
permettant, en fonction de critres de recherche propres lusager, de
slectionner linformation dans un ou plusieurs fonds de documents plus ou
moins structurs .
D f i n i t i o n ( s u i t e ) :
La recherche d'information est un domaine historiquement li aux sciences
de l'information et la bibliothconomie qui ont toujours eu le souci dtablir
des reprsentations des documents dans le but d'en rcuprer des
informations, travers la construction dindex. Linformatique a permis le
dveloppement doutils pour traiter linformation et tablir la reprsentation
des documents au moment de leur indexation, ainsi que pour rechercher
linformation. On peut aujourd'hui dire que la recherche d'information est un
champ transdisciplinaire, qui peut tre tudi par plusieurs disciplines,
approche qui devrait permettre de trouver des solutions pour amliorer son
efficacit *.
(*) wikipedia
Guertin, 2005
II-Sources dinformation
-Pour trouver une information, on doit la chercher dans les endroits ventuels
o elle peut rsider, ce qui constitue les sources dinformation.
-Les sources dinformation sont gnralement imprgnes par les types dinformation
quelles renferment (formelle-informelle, gnrale-spcialise, prive-public, etc.)
-Internet comporte de plus en plus dinformation
-Plusieurs sources dinformation traditionnelles sont dsormais prsentes sur la toile
-Le Web constitue aujourdhui la premire et principale source dinformation,
visible et cache.
-Linformation doit tre accessible de faon continue
-La slection dinformation pertinente est une vritable tche russir
On retrouve plusieurs sources dinformation sur le Web, ci-aprs une liste non
exhaustives non catgorise et non classe de ces sources :
-Les agences de presse
-Les journaux lectroniques
-Les e-magazines
-Les radios en ligne
-Les bibliothques
-Les sites institutionnelles
-Les journaux spcialiss
-Les revues lectroniques
-Les encyclopdies, les dictionnaires
-Les forums
-Les blogs
-Les rseaux sociaux
-Les organisations prives et publics
-Les associations, les comits
-Les publications scientifiques
-Les fils dactualits
-Les wikis
-Les rapports, les cours, les manuels
-Les podcasts
-etc
ces sources peuvent tre classes suivant la validit et la fiabilit des informations
quelles renferment :
- Les sources dinformation formelles (publication scientifique, site institutionnel, etc)
- Les sources dinformation informelles (blog, wiki, etc.)
ces sources peuvent aussi tre classes suivant la spcialisation et la complexit de
linformation:
-Les sources dinformation gnralistes (revue scientifique de mdecine)
-Les sources dinformation spcialises (ressources pdagogique sur le Data Mining)
ces sources peuvent aussi tre classes suivant les outils utilises pour assurer
la transmission et la diffusion de linformation
-Les sources dinformation traditionnelles (agence de presse, journaux, etc.)
-Les sources dinformation 2.0 ou sociales (rseaux socials, blog, wiki, etc.)
Web invisible
Exemple : les sources dinformation protges par une authentification, les sites
mal rfrences, les nouveaux sites, etc.
Annuaires de recherche
Moteurs de recherche
Meta-Moteurs
- outil de recherche prsentant une liste de sites web via une arborescence
(classification, catgorisation, rubriques)
Annuaire
Rubrique 1
Sous-Rubrique 1.1
Rubrique 2
Rubrique n
Sous-Rubrique 1.2
Sous-sous-Rubrique 1.1.1
Sous-sous-Rubrique 1.1.2
http://fr.dir.yahoo.com/
- La dernire sous rubrique est une liste de sites Web (et non pas de pages Web).
- Construction
Indexation manuelle (humain)
- Utilisation
Par navigation ou recherche par mots clefs
- Avantages
Exploration simple
Sites slectionnes
Prcision et fiabilit de linformation
- Inconvnients
Restrictions de taille
MAJ difficile
Sujets prcis difficiles trouver
Les pages non indexes (gnralement non rfrences) ne feront pas partie des
- Un moteur de recherche est lindex dun trs grand nombre des pages du Web.
- Le fonctionnement dun moteur de recherche est bas sur lindex.
- Un index fait correspondre pour chaque mot pertinent la page dans laquelle ce mot
a t cit.
- La construction de lindex et son MAJ sont totalement automatiques.
-Google, Yahoo Search ou Bing sont des moteurs de recherche gnralistes.
-Il existe
Formulation de requtes
- Principalement avec AND, OR
- Mais aussi avec NOT, NEAR, SAUF
-Avantages
Taille dindex est proportionnelle la taille du Web
MAJ frquente
Grand nombre de rsultats retourns
-Inconvnients
Formulation de la requte
Nombre de rsultats souvent trs norme
Recherche automatique, certaines pages
trouves nont pas de relation smantique avec la requte
Les mta-moteurs
Dfinition :
- Un mtamoteur de recherche est un outil de recherche bas sur lutilisation
dune srie de moteurs de recherche et/ou annuaires de recherche ;
- Il interroge simultanment plusieurs moteurs et/ou annuaires de recherche ;
- Il rcupre les rsultats et les classifie suivant lindice de pertinence ou autres.
Pourquoi avoir recours un mtamoteur de recherche ?
- accder un plus grand nombre de pages rfrences sur Internet ;
- Bnficier dun plus grand nombre de fonctionnalits ;
- avoir un plus grand nombre de rsultats ;
- amliorer la recherche ;
- avoir plus de chances trouver des documents plus pertinents.
Stratgie de recherche
- Bien se fixer le besoin dinformation
- Relier ces mots clefs par des oprateurs boolens pour que la recherche soit bien
cible
OU / OR
SAUF / NOT
Et / And
Troncature
Pour remplacer un nombre de caractres aprs la racine (dbut) du mot*,
on utilise le caractre toile * .
Le caractre ? est utilis pour ne remplacer qu'un seul caractre dans le
mot soumettre au moteur de recherche.
(*)La troncature peut tre utilise :
- droite d'un mot ;
- gauche d'un mot ;
- l'intrieur d'un mot.
dossiers
lemplacement
images
seront
denregistrement
cres
afin
dans
de
Aspirer un site
- Tlcharger lensemble du site Web en reproduisant la mme arborescence
sur disque dur pour permettre une navigation offline
- Plusieurs outils daspiration Web (gratuits et payants) peuvent tre
tlchargs depuis Internet.
Exple :
WinHTTrack
Fin