Sunteți pe pagina 1din 298

Universit Paris IV - Sorbonne

cole doctorale V - Concepts et Langages

Technologies du Web Smantique pour


lEntreprise 2.0
Thse
Pour lobtention du grade de

Docteur de lUniversit Paris IV - Sorbonne


Discipline: Informatique
Prsente et soutenue publiquement
Le 9 Juin 2009 par

Alexandre Passant
Dfendue devant un jury compos de:

Fabien L. Gandon, INRIA Sophia-Antipolis, Rapporteur


Gilles Kassel, Universit de Picardie, Rapporteur
Jean-Pierre Descls, Universit Paris IV - Sorbonne, Directeur
Philippe Laublet, Universit Paris IV - Sorbonne, Co-directeur
Ivan Herman, CWI Amsterdam / W3C, Examinateur
Franois-Xavier Testard-Vaillant, lectricit de France, Examinateur

|_|_|_|_|_|_|_|_|_|_|
(Numro denregistrement attribu par la bibliothque)

Ce mmoire est mis disposition sous un contrat Creative Commons "PaternitPas dUtilisation Commerciale-Pas de Modification 2.0 France". Les dtails de
ce contrat sont disponibles ladresse suivante : http://creativecommons.

org/licenses/by-nc-nd/2.0/fr/

Julie

Remerciements
Bien quelles ne maient pas permis de saisir la Grande Question sur la Vie, lUnivers
et le Reste, ces quatre annes de thse mont apport beaucoup, dun point de vue aussi
bien personnel que scientifique. Il me tient ainsi cur de remercier un certain nombre
de personnes sans qui je naurai sans doute pu franchir ce cap, en mexcusant par avance
auprs de celles et ceux que joublie.
Tout dabord, je tiens remercier chaleureusement Philippe Laublet pour lencadrement
sans faille de cette thse. Nos longues discussions et changes dides mont sans aucun
doute fait progresser dans mes recherches et permis de prendre le recul ncessaire pour
mieux apprhender celles-ci. Merci davoir toujours pris le temps de rpondre mes requtes (souvent tardives) et pour le dtail accord la relecture de ce mmoire. Merci galement Franois-Xavier Testard-Vaillant de mavoir propos cette thse et de mavoir fourni
ce terrain dexprimentation innovant et grandeur nature pour mener bien mes recherches
au sein dEDF R&D. Merci Jean-Pierre Descls davoir permis cette thse en mayant acceuilli dans son quipe et de mavoir montr dautres domaines de recherche, que je naurai
sans doute pas eu loccasion daborder en dautres circonstances. Merci Fabien Gandon
pour les commentaires apports la lecture de ce mmoire et les diffrentes discussions que
nous avons pu avoir ds le dbut de cette thse, grande source de motivation. Merci Gilles
Kassel davoir accept de prsider le jury de cette thse, ainsi que pour lintrt port mes
recherches et aux problmatiques abordes dans ce manuscrit. Merci galement Ivan Herman pour sa participation dans ce jury et lattention porte mes travaux et leur contexte
applicatif.
Merci lensemble des personnes avec qui jai pu changer et travailler durant cette
thse, de Paris Pkin en passant bien entendu par Galway : Axel, Fabrizio, Hak Lae, Michael, Milan, Philipp, Richard, Sergio, Yves et bien dautres encore. Nos changes et la vivacit que jai pu constater au sein de cette communaut ont galement t une grande source
de motivation et me laissent penser que le Web a encore de belles annes devant lui. Merci
bien entendu Uldis et John pour notre collaboration fructueuse autour de SIOC, et Stefan
Decker pour me permettre de continuer mes travaux dans cette direction. Merci galement
lquipe du project Athna avec qui jai partag mes journes EDF : Aurlie, Christine,
Fabien, Jean-David, Richard et Thierry ainsi que lensemble de la C.A.V.
Enfin, merci mes amis, Guillaume et Elodie, Fred et Nolwen, Kevin et Anne-Galle,
Olivier, Bertrand et Valrie, Pierre-Yves, Vincent et les autres, de mavoir suivi pendant ces
quatre annes et de mavoir rappel, de Paris Tokyo, quil y a une vie en dehors du Web.
i

Merci mes deux familles et leurs amis pour leur soutien constant et pour avoir suivi
avec intrt lvolution de ma thse. Merci en particulier mes parents de mavoir donn
le got de la curiosit et des sciences qui ma men jusquici et de mavoir toujours soutenu
dans mes dmarches. Merci mes beaux-parents, Anne et Camille, et ma belle famille, Sophie, Valrie, Benot et Damien, pour leurs encouragements permanents et leur joie de vivre.
Merci galement Lilou, Prune et Lucas pour leur sourire constant. Enfin, merci celle qui
a toujours t mes cts pour me soutenir et me comprendre durant cette longue tape et
qui je dois tant. Julie, ce mmoire test ddi.
Alexandre Passant, Galway, Juin 2009

Rsum
Cette thse sinscrit dans le cadre des rcents travaux relatifs la complmentarit entre
Web Smantique et Web 2.0, deux visions du Web qui ont souvent t considres, tort,
comme disjointes. Plus particulirement, nous nous intressons lutilisation des technologies du Web Smantique (i.e. langages, modles, outils et protocoles) dans le contexte de
lEntreprise 2.0, vision o les outils de plus en plus courants du Web 2.0 (blogs, wikis, services de partage de contenus, pratiques de tagging ...) font leur apparition dans les systmes
dinformation organisationnels. Si ces outils facilitent le partage et la collaboration entre
individus, dans lobjectif de faire merger une Intelligence Collective au sein de telles structures, ils introduisent de nouvelles problmatiques en termes dexploitation pertinente des
informations produites. Dune part, la diversit des outils utiliss complexifie lintgration
dinformations provenant de diverses sources (blogs, wikis, flux RSS ...) fragmentes au sein
du rseau dentreprise. Dautre part, la nature plein-texte des outils utiliss rend dlicate la
rutilisation de manire autonome des connaissances ainsi produites, notamment au sein
des wikis qui permettent pourtant llaboration de bases de connaissances prennes. Enfin,
les pratiques de tagging soulvent diffrents problmes en terme de recherche dinformations, dus notamment lambigut et lhtrognit des mots-cls utiliss, ainsi qua leur
manque dorganisation.
Afin de rpondre ces diffrentes problmes et en reprenant lacronyme SLATES (Search,
Links, Authoring, Tags, Extension, Signals) utilis pour identifier lEntreprise 2.0, nous dfinissons le paradigme SemSLATES, proposant la mise en place dune architecture de mdiation
sociale et smantique venant en support dun ensemble doutils existants. Cette volution
implique la dfinition et limplmentation de diffrents composants, aussi bien en termes de
reprsentation des connaissances que darchitecture logicielle, composants que nous avons
mis en place dans le cadre de cette thse, en sappuyant essentiellement sur les technologies
du Web Smantique via les standards du W3C.
Ainsi, nos travaux ont consist dune part en la mise en place dontologies formelles,
aussi bien en terme de mtadonnes socio-structurelles (afin de reprsenter les interactions
sociales produites au sein des diffrents applications utilises et les contenus issus de ces
interactions) que de mtadonnes mtier (afin dannoter les contenus eux-mmes). En ce qui
concerne le premier type, nous avons particip activement au projet SIOC SemanticallyInterlinked Online Communities , dfinissant une ontologie permettant de reprsenter les
activits des communauts en ligne et les contributions associes. En rapport au second
point, nous avons dfini un certain nombre dontologies de domaine, lgres et extensibles,
iii

reposant sur des modles dj existants et adopts sur le Web, proposant ainsi certaines
bonnes pratiques relatives la modlisation de telles ontologies. Enfin, afin dtablir un
lien entre ces deux niveaux de reprsentation, nous avons mis en place le modle MOAT
Meaning Of A Tag permettant de faire le lien entre tags et ressources du Web Smantique
(classes et instances dontologies), dans lobjectif de coupler la souplesse des folksonomies
et la puissance de lindexation smantique base sur des ontologies. Bien quindpendants,
lensemble de ces modles sarticule ainsi de manire cohrente afin de prendre en compte
les diffrentes strates de reprsentations des connaissances ncessaires de tels cosystmes
smantiques.
Nous avons galement mis en place diffrents composants logiciels permettant la production et lexploitation dannotations smantiques de manire intuitive pour les utilisateurs finals et communiquant au travers dun ensemble de protocoles ddis. En termes de
production dannotations, nous avons dvelopp diffrents services permettant lexport automatique dannotations reprsentes avec SIOC depuis des outils de blogs, wikis et flux
RSS dans ce contexte dentreprise. Nos travaux se sont galement concentrs sur la dfinition dun service de wiki smantique afin de permettre une constitution collaborative,
ouverte et incrmentale de bases de connaissances formelles reposant sur des ontologies,
sans pour autant confronter les utilisateurs la complexit des modles sous-jacents. Nous
avons galement propos diffrents services innovants venant tirer parti des graphes dannotation produits. Cest ainsi le cas dun moteur de recherche smantique que nous avons
mis en place et qui permet de visualiser des informations (agrges depuis diffrents outils
dentreprise) au sujet des instances dontologies peuples depuis les wikis, tout en proposant dtendre la recherche en considrant lensemble des diffrents graphes dannotations
disponibles au sein du systme. Nous avons galement propos de nouvelles manires de
visualiser ces informations, notamment au travers dun systme de mash-up combinant donnes internes au systme organisationnel et donnes RDF publiques et reposant sur une
interface facettes.
Alors que lensemble de nos recherches ont t valids dans un contexte industriel, la
porte de certaines de nos propositions est plus large que ce cadre dentreprise, et plus gnralement que ce contexte dEntreprise 2.0. Diffrents travaux ont ainsi t publis sous forme
dontologies publiques ou de logiciels libres, permettant leur utilisation a grande chelle sur
le Web. Ainsi, ce manuscrit propose, plus globalement, diffrentes rflexions sur la complmentarit, selon nous ncessaire, entre Web 2.0 et Web Smantique, pour mener bien la
vision dun Web social et introprable.
Mots-cls :
Web 2.0, Entreprise 2.0, Web Smantique, Ontologies, Folksonomies, Wikis, SIOC, MOAT,
Linked Data

Abstract
This Ph.D. thesis is part of some recent works regarding the complementarity between
the Semantic Web and the Web 2.0, two visions of the Web that have often been considered, wrongly, as disjoints. Especially, our focus is the use of Semantic Web technologies (i.e
languages, models, tools and protocols) in Enterprise 2.0 contexts, a vision in which most
of the commonly used Web 2.0 tools (such as blogs, wikis, content-sharing services, tagging
practices ...) became popular in corporate information systems.
Yet, while these tools can ease the process of information sharing and collaborations
between individuals, with the global aim to create a Collective Intelligence within such
structures, they introduce new issues regarding how to efficiently use the information they
helped to produce. On the one hand, the nature and diversity of the services used makes
the information integration process a complex task, from various sources fragmented in the
corporate network (blogs, wikis, RSS feeds ...). On the other hand, the plain-text nature of
these tools makes also difficult to reuse the created knowledge, especially regarding wikis,
generally used as valuable knowledge bases. Finally, the practice of tagging raises several
problems in terms of information retrieval, especially due to the ambiguity and heterogeneity of the tags used, as well as their lack of organization.
In order to solve these different issues and considering the SLATES acronym (Search,
Links, Authoring, Tags, Extension, Signals) used to define the Enterprise 2.0 vision, we have
defined the SemSLATES paradigm, proposing a social semantic middleware architecture on
the top of existing enterprise services. This proposal implies to define and implement various components, both in terms of knowledge engineering and software architecture, components that we have developed in the context of this Ph.D., relying essentially on Semantic
Web technologies, via W3C standards.
Hence, our research have consisted in modeling various formal ontologies, in order to
define both the socio-structural meta-data (in order to represent community interactions
happening in these applications as well as the content emerging from these interactions)
and business data (in order to annotate the data contained in the application) Regarding
the first type of ontologies, we have actively participated in the SIOC project SemanticallyInterlinked Online Communities that defines a model to represent activities of online communities and their related contributions. Regarding the second one, we have defined several domain ontologies, lightweight, extensible and based on existing and Web-used models, hence defining some good practices regarding lightweight ontologies modeling in such
context. Finally, in order to provide some relationships between these two levels of knowv

ledge representation, we defined MOAT Meaning Of A Tag that allows to create a bridge
between tags, tagged content and Semantic Web resources (i.e.aclasses and instances from
ontologies) in order to benefit both the flexibility of folksonomies and of the power of semantic indexing based on ontologies. While being independent, these various models articulate themselves in a consistent manner in order to take into account the different layers of
knowledge representation for such semantic ecosystems.
We have also developed several software components (communicating between each
other thanks to a set of dedicated protocols) in order to produce and use semantic annotations in a user-friendly way for end-users. In the context of producing semantic annotations,
we wrote different services that automatically export SIOC-based annotations from blogs,
wikis and RSS feeds in this enterprise context. We have also defined a semantic wiki service in order to let end-users participate in a collaborative, open and incremental process
to define formal knowledge bases driven by ontologies, without letting these users face the
complexity of the underlying models. Moreover, we have also designed several innovative
services using the produced annotations. We wrote a dedicated semantic search engine allowing to browse information (aggregated from various enterprise sources) related to ontologies instances, populated via the wikis. The engine also provides a search extension system
by considering the whole graphs of semantic annotations available in the ecosystem. We
have also proposed new ways to browse these information, building a dedicated mash-up
system combining internal information and public RDF data and using a faceted browsing
interface.
While our research has been done in an industrial context, the scope of our proposals
goes further than this corporate context and more generally than the Enterprise 2.0 context.
Hence, various works have then been published as public ontologies or free software, allowing to be used at a Web scale. Thus, this thesis suggests, more broadly, different ideas and
thoughts regarding the complementarity, in our opinion needed, between Web 2.0 and the
Semantic Web, to envision of a social and interoperable Web.
Keywords :
Web 2.0, Enterprise 2.0, Semantic Web, Ontologies, Folksonomies, Wikis, SIOC, MOAT,
Linked Data

Table des matires


Rsum

iii

Abstract

Table des matires

vii

Table des figures

xi

Liste des tableaux

xv

Listings
Introduction
Contexte et problmatique scientifique .
Contexte de la thse . . . . . . . .
Motivations et axes de recherche
Principaux rsultats . . . . . . . .
Organisation du mmoire . . . . . . . .
Plan du mmoire . . . . . . . . .
Guide de lecture . . . . . . . . . .
1

xvii

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Vers une convergence entre Web Smantique et Web 2.0


Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1
Formalismes et structures de donnes avec le Web Smantique .
1.1.1
Vers un Web interprtable par les machines . . . . . . .
1.1.2
Reprsentation des connaissances avec RDF(S) et OWL
1.1.3
Interrogation de donnes avec SPARQL . . . . . . . . .
1.1.4
Web Smantique et Web of Data . . . . . . . . . . . . . .
1.2
Du consommateur au producteur avec le Web 2.0 . . . . . . . .
1.2.1
Une vision participative du Web . . . . . . . . . . . . .
1.2.2
Blogs, wikis, rseaux sociaux et syndication de contenu
1.2.3
Mtadonnes sociales : tags et folksonomies . . . . . .
1.3
Complmentarit entre les deux domaines . . . . . . . . . . . . .
1.3.1
Synthse des deux visions . . . . . . . . . . . . . . . . .
vii

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

1
1
1
2
4
6
6
8

.
.
.
.
.
.
.
.
.
.
.
.

11
11
12
12
16
25
27
31
31
34
39
43
43

1.3.2
Apports du Web 2.0 pour le Web Smantique . . . . . . . . . . . .
1.3.3
Apports du Web Smantique pour le Web 2.0 . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44
46
47

SemSLATES : Une approche smantique pour lEntreprise 2.0


Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
Web collaboratif en entreprise : le projet Athna . . . . . . . . . . . . .
2.1.1
Origine et objectifs du projet . . . . . . . . . . . . . . . . . . . .
2.1.2
Rpondre efficacement aux diffrents besoins . . . . . . . . . .
2.1.3
Complmentarit gnrale des outils . . . . . . . . . . . . . . .
2.1.4
Retour sur exprience . . . . . . . . . . . . . . . . . . . . . . .
2.2
Limites de lapproche classique . . . . . . . . . . . . . . . . . . . . . . .
2.2.1
Fragmentation de linformation et htrognit des formats .
2.2.2
Capitalisation des connaissances . . . . . . . . . . . . . . . . .
2.2.3
Tags et recherche dinformation . . . . . . . . . . . . . . . . . .
2.2.4
Synthse des problmes rencontrs . . . . . . . . . . . . . . . .
2.3
cosystme smantique pour lEntreprise 2.0 . . . . . . . . . . . . . . .
2.3.1
Web Smantique et mthodologie SemSLATES . . . . . . . . .
2.3.2
Dfinition dune architecture sociale de mdiation smantique
2.3.3
Modles, adaptateurs et services . . . . . . . . . . . . . . . . .
2.3.4
Situation de lapproche vis--vis de ltat de lart . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

49
49
50
50
53
57
59
62
62
63
63
68
69
69
71
73
77
81

Rle et dfinition dun ensemble dontologies pour lEntreprise 2.0


Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1
Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC . . . . . . . . .
3.1.1
Identification des Besoins . . . . . . . . . . . . . . . . . . . . . . .
3.1.2
Positionnement par rapport de lart . . . . . . . . . . . . . . . .
3.1.3
Prsentation du modle de reprsentation SIOC . . . . . . . . . .
3.1.4
Alignement avec des vocabulaires existants . . . . . . . . . . . . .
3.1.5
SIOC, FOAF et la portabilit des donnes Web 2.0 . . . . . . . . .
3.1.6
Adoption du modle et valuation . . . . . . . . . . . . . . . . . .
3.2
Modlisation des ontologies mtier . . . . . . . . . . . . . . . . . . . . . . .
3.2.1
Besoins en termes de reprsentation mtier . . . . . . . . . . . . .
3.2.2
FOAF pour la reprsentation des personnes physiques et morales
3.2.3
Localisation avec Geonames . . . . . . . . . . . . . . . . . . . . . .
3.2.4
Ontologies des rles et utilisation de SKOS . . . . . . . . . . . . .
3.2.5
Articulation globale des diffrentes ontologies mtier . . . . . . .
3.3
MOAT pour lier tags et ontologies . . . . . . . . . . . . . . . . . . . . . . .
3.3.1
Tags, folksonomies et ontologies : un tat de lart . . . . . . . . . .
3.3.2
Reprsentation de la signification des tags avec MOAT . . . . . .
3.3.3
Modle de reprsentation MOAT . . . . . . . . . . . . . . . . . . .
3.3.4
Positionnement de MOAT par rapport ltat de lart . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

83
83
84
84
86
89
93
96
101
103
103
104
107
109
117
119
119
126
128
134
135

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

Annotations smantiques et peuplement collaboratif dontologies


Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1
Annotation smantique de documents Web 2.0 . . . . . . . . . . . . . . . .
4.1.1
Une approche automatise pour lannotation socio-structurelle .
4.1.2
Implmentation au sein de la plate-forme Herms . . . . . . . . .
4.1.3
API SIOC et passage lchelle de lannotation socio-structurelle
de documents Web 2.0 . . . . . . . . . . . . . . . . . . . . . . . . .
4.2
UfoWiki pour le peuplement dontologies mtier . . . . . . . . . . . . . . .
4.2.1
Wikis smantiques et peuplement dontologies : intrt et tat de
lart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2
Objectifs, principes et architecture dUfoWiki . . . . . . . . . . . .
4.2.3
Architecture logicielle . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.4
Utilisation dUfoWiki et peuplement collaboratif dontologies . .
4.2.5
Evaluation de loutil et statistiques dutilisation . . . . . . . . . .
4.3
Du tagging lindexation smantique . . . . . . . . . . . . . . . . . . . . .
4.3.1
Processus dindexation smantique associ MOAT . . . . . . . .
4.3.2
Implmentations logicielles . . . . . . . . . . . . . . . . . . . . . .
4.4
Retour sur lutilisation de MOAT dans notre contexte dEntreprise 2.0 . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Intgration et utilisation dannotations smantiques distribues
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1
Stockage des donnes et protocoles associs . . . . . . . . . . . . . . . . . .
5.1.1
De la ncessit dun entrept de donnes . . . . . . . . . . . . . .
5.1.2
Besoins et choix de lentrept . . . . . . . . . . . . . . . . . . . . .
5.1.3
Protocoles de communication . . . . . . . . . . . . . . . . . . . . .
5.2
Enrichissement des fonctionnalits des wikis . . . . . . . . . . . . . . . . .
5.2.1
Utilisation de macros smantiques pour lutilisation dannotations
5.2.2
Contextualisation des macros pour augmenter le potentiel de veille
5.2.3
Interfaces avances de visualisation et mash-ups smantiques . . .
5.3
Interoprabilit entre applications via les annotations . . . . . . . . . . . .
5.3.1
Intgration des contenus des blogs au sein des wikis . . . . . . . .
5.3.2
Indexation de flux RSS guide par les annotations . . . . . . . . .
5.3.3
Projection de connaissances pour laide la veille technologique .
5.4
Recherche smantique pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . .
5.4.1
Recherche dinformation et Web Smantique . . . . . . . . . . . .
5.4.2
Mise en place dun moteur de recherche exploitant ontologies et
annotations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.3
Suggestion de concepts et de contenus proches . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Conclusion gnrale
Retour sur les impacts de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Perspectives et rflexions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

137
137
138
138
139
143
148
148
154
156
161
166
171
171
175
183
185
187
187
188
188
192
195
199
199
204
206
210
210
212
214
215
215
216
219
225
227
227
230

A Prfixes et espaces de noms utiliss dans ce mmoire

233

B Requte SPARQL pour la traduction de donnes RSS vers SIOC

235

C Ontologie des rles

237

D Exemple dannotations mtier produites avec UfoWiki

239

E Exemple dannotations socio-structurelles produites avec UfoWiki

243

F Analyse de proprits DBpedia

247

Bibliographie

249

Table des figures


0.1

Organisation des chapitres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.13
1.14

Proposition darchitecture distribue qui conduira au World Wide Web . .


Pile du Web Smantique, Fvrier 2008 . . . . . . . . . . . . . . . . . . . .
Reprsentation graphique de triplets RDF . . . . . . . . . . . . . . . . . .
Graphes nomms et identification de lauteur dun ensemble de triplets
Nuage de donnes du projet Linking Open Data . . . . . . . . . . . . . .
Le document en tant que support de donnes pour le Web Smantique .
Lcosystme Web 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Etat de la blogosphre, Avril 2007 . . . . . . . . . . . . . . . . . . . . . . .
Le Web en tant que plate-forme, lexemple de RSS . . . . . . . . . . . . .
Actions de tagging combines autour dune mme photo . . . . . . . . .
Exemple de nuage de tags (Delicious) . . . . . . . . . . . . . . . . . . . .
Web 2.0 pour le Web Smantique . . . . . . . . . . . . . . . . . . . . . . .
Web Smantique pour le Web 2.0 . . . . . . . . . . . . . . . . . . . . . . .
Convergence entre Web Smantique et Web 2.0 . . . . . . . . . . . . . . .

2.1

58
60
64
66
67

2.10
2.11
2.12

Utilisation de Twitter par le service Web 2.0 Slideshare pour communiquer


avec ses utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interface personnelle de visualisation de flux RSS au sein dHerms . . . . . .
Coconstruction de connaissances avec les wikis . . . . . . . . . . . . . . . . . .
Scnario idal dutilisation des diffrents lments de publication de la plateforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
volution des billets et des commentaires sur la plate-forme . . . . . . . . . .
Rsultats dune recherche associe au tag apple sur Flickr . . . . . . . . . . .
Tags suggrs par cooccurrence sur Delicious . . . . . . . . . . . . . . . . . . .
Distribution des tags au sein de notre folksonomie . . . . . . . . . . . . . . . .
Annotations smantiques en support dun systme dEntreprise 2.0 existant
selon trois niveaux dannotations . . . . . . . . . . . . . . . . . . . . . . . . . .
Architecture de mdiation smantique pour lEntreprise 2.0 . . . . . . . . . .
Reprsentation unifie des mtadonnes documentaires avec SIOC . . . . . .
Architecture RDF Bus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3.1

Intgration de donnes htrognes rparties avec SIOC . . . . . . . . . . . .

86

2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9

xi

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

9
13
15
18
20
28
29
32
36
39
41
42
45
46
47
52
54
56

70
72
75
80

3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17

Le modle de classes et proprits de SIOC . . . . . . . . . . . . . . . . . . . .


91
Comptes utilisateur et personne physique avec SIOC et FOAF . . . . . . . . .
95
Interoprabilit entre donnes sociales avec SIOC et FOAF . . . . . . . . . . .
98
Unification de rseaux sociaux distribus avec owl :sameAS . . . . . . . . . .
99
Visualisation uniforme de rseaux sociaux distribus . . . . . . . . . . . . . .
99
Utilisation combine de FOAF et OpenID avec SparqlPress . . . . . . . . . . .
100
Statistiques de production de donnes SIOC sur le Web . . . . . . . . . . . . .
102
Taxonomie des sous-classes dAgent dans Proton . . . . . . . . . . . . . . . . .
105
Relations gographiques entre entits et transitivit de la proprit parentFeature
de Geonames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
110
Distinction entre taxonomies et ontologies . . . . . . . . . . . . . . . . . . . . .
113
Taxonomies de domaines en OWL-Full . . . . . . . . . . . . . . . . . . . . . . .
114
Taxonomies de domaines en OWL-Lite . . . . . . . . . . . . . . . . . . . . . . .
115
Taxonomies de domaines avec SKOS . . . . . . . . . . . . . . . . . . . . . . . .
116
Combinaison dontologies et base de connaissance associe pour dfinir des
assertions au sujet dEDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
118
Tags et actions de tagging avec la Tag Ontology . . . . . . . . . . . . . . . . . . .
123
Modlisation quadripartite de deux relations de tagging au sein dune folksonomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
128
Significations globales du tag apple avec MOAT . . . . . . . . . . . . . . . . .
130
Reprsentation de la signification locale du tag apple avec MOAT et DBpedia 131
Modle de reprsentation MOAT . . . . . . . . . . . . . . . . . . . . . . . . . .
133
Articulation dontologies pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . .
136
Processus gnrique de production de donnes RDF depuis des services Web
2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Processus de traduction RSS / Atom vers SIOC . . . . . . . . . . . . . . . . . .
Processus de traduction des donnes de blogs et wikis vers SIOC . . . . . . .
Exemple de traduction dun billet de blog vers SIOC . . . . . . . . . . . . . . .
Reprsentation de liens rdfs :seeAlso entre documents RDF avec lAPI SIOC .
Cartographie de rseaux sociaux avec FOAFMap . . . . . . . . . . . . . . . . .
Du wiki au Web Smantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Interactions entre annotations documentaires et annotations mtier dans UfoWiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Association dun type de page une classe avec UfoWiki . . . . . . . . . . . .
Cration de formulaire pour une classe donne avec UfoWiki . . . . . . . . . .
Architecture dun wiki au sein dUfoWiki . . . . . . . . . . . . . . . . . . . . .
Slection dun type de contenu avec UfoWiki . . . . . . . . . . . . . . . . . . .
dition dune page wiki pour la cration dinstance via UfoWiki . . . . . . . .
Gestion dune taxonomie de domaines avec UfoWiki . . . . . . . . . . . . . .
Production dannotations bases sur Geonames avec UfoWiki . . . . . . . . .
Statistiques dutilisation dUfoWiki : Pages et instances . . . . . . . . . . . . .
Statistiques dutilisation dUfoWiki : Pages, instances et triplets . . . . . . . .

139
141
144
144
146
148
149
157
158
159
160
161
162
163
165
169
170

4.18
4.19
4.20
4.21
4.22
4.23
4.24
4.25
4.26
4.27

Framework utilisateur MOAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . .


Workflow client / serveur et processus MOAT . . . . . . . . . . . . . . . . . . .
Interface utilisateur du module MOAT pour Drupal couple au widget Sindice
Choix dun concept pour dsambiguser un tag au sein du client MOAT Athna
Parcours de la taxonomie des classes pour dfinir une nouvelle signification .
Cration dune nouvelle instance et association dun tag via le client MOAT .
Visualisation des diffrents tags associs un concept . . . . . . . . . . . . . .
Architecture de LODr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Assignation dune URI un tag particulier avec LODr . . . . . . . . . . . . . .
Nuage de concepts avec LODr . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1

Vision globale des actions, annotations et ontologies dun cosystme smantique pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rpartition des ontologies et annotations au sein du systme . . . . . . . . . .
Architecture associe PTSW pour lindexation et la dcouverte de documents RDF sur le Web Smantique . . . . . . . . . . . . . . . . . . . . . . . . .
doap :store : Annuaire et interface de visualisation de projets logiciels modliss avec DOAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Protocoles dabstraction au-dessus de lentrept de donnes du mdiateur . .
Processus dinterprtation des macros au sein dUfoWiki . . . . . . . . . . . .
Rsultat dune macro smantique listant lensemble des associations recenses au sein dun wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rsultat dune macro contextualise . . . . . . . . . . . . . . . . . . . . . . . .
URIs partages entre graphes dannotations . . . . . . . . . . . . . . . . . . . .
Slection de facettes partir de diffrentes ontologies . . . . . . . . . . . . . .
Visualisation facettes dun wiki avec Exhibit . . . . . . . . . . . . . . . . . .
Interface facettes pour visualiser des donnes SIOC avec SMOB . . . . . . .
Golocalisation dun ensemble dacteurs avec Exhibit et Geonames . . . . . .
Golocalisation au sein dune macro contextualise . . . . . . . . . . . . . . .
Interoprabilit entre applications via lutilisation dannotations smantiques
Projection de connaissances sur des contenus internes . . . . . . . . . . . . . .
Choix dun concept partir dun terme de recherche . . . . . . . . . . . . . . .
Rendu du moteur de recherche smantique au sein dHerms . . . . . . . . .
Accs au moteur de recherche via les concepts identifis avec MOAT . . . . .
Identification de contenus proches via des relations entre concepts associs .
Identification des domaines plus spcifiques qunergie solaire . . . . . . . . . .
Identification dacteurs proches de Gaz de France selon une rgle prdfinie .
Relations entre experts et non-experts en combinant FOAF, SIOC, MOAT et
SKOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Suggestion de concepts proches au sein de LODr . . . . . . . . . . . . . . . . .
Systme de recommendations musicales bases sur DBpedia . . . . . . . . . .
Vision du Web axe sur une convergence humain-machine-humain . . . . . . .

5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14
5.15
5.16
5.17
5.18
5.19
5.20
5.21
5.22
5.23
5.24
5.25
5.26

172
174
175
177
178
179
179
180
181
181
189
190
196
197
199
200
203
205
205
207
208
208
209
210
211
214
217
218
219
220
221
222
223
224
225
229

Liste des tableaux


1.1
1.2

Exemple de rgles dinfrence RDFS . . . . . . . . . . . . . . . . . . . . . . . .


Caractristiques compares du Web Smantique et du Web 2.0 . . . . . . . . .

23
43

2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8

SLATES et la plate-forme Herms . . . . . . . . . . . . . . . . . . . . . . . . . .


Utilisateurs et contributeurs au sein dHerms . . . . . . . . . . . . . . . . . .
Statistiques des flux RSS au sein dHerms . . . . . . . . . . . . . . . . . . . .
Statistiques des contributions utilisateur au sein dHerms . . . . . . . . . . .
Tags utiliss pour le concept de Web Smantique sur Delicious . . . . . . . . .
Distribution des tags au sein de la plate-forme Herms . . . . . . . . . . . . .
Problmatiques soulevs par lapproche SLATES classique au sein dHerms
Fonctionnalits compares de SLATES et SemSLATES . . . . . . . . . . . . . .

57
59
59
60
65
67
68
70

3.1
3.2

93

3.3

Elments du module Types de SIOC . . . . . . . . . . . . . . . . . . . . . . . .


Comparaison de diffrentes ontologies pour la reprsentation des tags et des
objets associs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Situation de MOAT par rapport ltat de lart . . . . . . . . . . . . . . . . . .

125
134

4.1
4.2

Positionnement dUfoWiki par rapport dautres wikis smantiques . . . . .


Distribution des tags au sein de la plate-forme Herms . . . . . . . . . . . . .

168
184

5.1

Associations entre URIs et termes contrles par les utilisateurs . . . . . . . .

213

xv

Listings
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
2.1
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
4.1
4.2

Reprsentation Turtle de triplets RDF . . . . . . . . . . . . . . . . . . . . . .


Reprsentation RDF/XML de triplets RDF . . . . . . . . . . . . . . . . . . .
Exemple dassertions modlises avec RDFa . . . . . . . . . . . . . . . . . .
Exemple de base de connaissances associe une ontologie . . . . . . . . . .
Exemple dontologie reprsente en RDFS et srialise en Turtle . . . . . . .
Exemple de requte SPARQL SELECT . . . . . . . . . . . . . . . . . . . . . .
Exemple de requte SPARQL CONSTRUCT . . . . . . . . . . . . . . . . . . .
Exemple de requte SPARQL ASK . . . . . . . . . . . . . . . . . . . . . . . .
Exemple de requte SPARQL DESCRIBE . . . . . . . . . . . . . . . . . . . .
Inconsistence logique cause par lutilisation de liens owl:sameAs entre
ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple de flux RSS 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reprsentation dassertions au sujet dEDF . . . . . . . . . . . . . . . . . . .
Exemple de contenu Web 2.0 avec SIOC . . . . . . . . . . . . . . . . . . . . .
Exemple de requte SPARQL ddie SIOC . . . . . . . . . . . . . . . . . . .
Exemple de billet de blog avec SIOC et son module Types . . . . . . . . . . .
Utilisation de proprits issues du DublinCore avec SIOC . . . . . . . . . . .
Rgle dinfrence pour lier SIOC et FOAF, reprsente en N3 . . . . . . . . .
Extension de FOAF pour la gestion de diffrents types dagents . . . . . . .
Modlisation de partenariats entre agents . . . . . . . . . . . . . . . . . . . .
Localisation dune entreprise avec FOAF et le Geo Vocabulary . . . . . . . .
Dfinition de la proprit locatedIn de Geonames . . . . . . . . . . . . . .
Modle simple pour la reprsentation des rles . . . . . . . . . . . . . . . . .
Modle pour la reprsentation des rles avec prise en compte du mtier et
du domaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Association dun rle un agent . . . . . . . . . . . . . . . . . . . . . . . . .
Modle complet pour la reprsentation des rles . . . . . . . . . . . . . . . .
Ensemble dassertions au sujet dEDF laide de diffrents modles . . . . .
Significations globales du tag "apple" avec MOAT . . . . . . . . . . . . . . .
Signification locale du tag "apple" avec MOAT . . . . . . . . . . . . . . . . .
Rgle dinfrence pour MOAT, reprsente en N3 . . . . . . . . . . . . . . .
Utilisation de Jena pour reprsenter des donnes RDF . . . . . . . . . . . . .
Requte interne au sein de MediaWiki . . . . . . . . . . . . . . . . . . . . . .
xvii

17
17
18
23
23
25
26
26
26
30
38
76
91
92
93
94
95
106
107
107
109
111
112
112
116
119
130
131
132
145
152

5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9

Requte SPARQL pour linterrogation de donnes SIOC via un moteur supportant les principes dinfrence RDFS . . . . . . . . . . . . . . . . . . . . . .
Restriction dune requte SPARQL aux graphes produits par un wiki donn
Fonction PHP et requte SPARQL associes une macro UfoWiki . . . . . .
Requte SPARQL avec contextualisation des macros . . . . . . . . . . . . . .
Requte SPARQL pour identifier des billets annots avec un concept particulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Identification de pages associes un concept proche . . . . . . . . . . . . .
Rgle dinfrence pour identifier deux contenus proches en utilisant MOAT,
SIOC et des relations entre URIs . . . . . . . . . . . . . . . . . . . . . . . . . .
Rgle dinfrence base sur SKOS pour lidentification de concepts proches
Rgle dinfrence pour lidentification de concepts proches partir de relations entre domaines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

194
201
202
204
212
218
220
221
222

To a computer, the Web is a flat, boring world, devoid of meaning. This is a pity,
as in fact documents on the Web describe real objects and imaginary concepts,
and give particular relationships between them. For example, a document might
describe a person. The title document to a house describes a house and also the
ownership relation with a person. Adding semantics to the Web involves two
things : allowing documents which have information in machine-readable forms,
and allowing links to be created with relationship values. Only when we have
this extra level of semantics will we be able to use computer power to help us
exploit the information to a greater extent than our own reading.
Tim Berners-Lee, Prsentation "W3 future directions"
1st World Wide Web Conference, Genve, Mai 1994

Introduction
C ONTEXTE ET PROBLMATIQUE SCIENTIFIQUE
Contexte de la thse
Les travaux prsents dans ce mmoire sinscrivent dans le cadre dune thse effectue
en contrat CIFRE1 en collaboration entre le LaLIC2 , Universit Paris-Sorbonne (Paris IV) et
le centre de Recherche et Dveloppement dElectricit de France (EDF R&D par la suite)
Clamart3 . Nous avons ainsi t rattachs EDF R&D de Fvrier 2005 Mai 2008, au sein
de trois services successifs, poursuivant ensuite nos travaux part entire au LaLIC puis au
DERI4 , National University of Ireland, Galway, partir de Septembre 2008.
Si ce contexte nous a parfois amen chercher un compromis entre impratifs industriels
court ou moyen terme et recherche scientifique, il nous a cependant permis de confronter
nos travaux des situations relles. Ainsi, nous avons pu tester nos diffrentes hypothses
et les outils associs au sein dun systme dploy en grandeur nature, nous permettant de
prendre en compte les retours utilisateur pour affiner certains choix. Ceci nous a en outre
conduit une certaine rigueur et essayer le plus souvent possible denvisager des solutions
volutives et adaptes un nombre croissant dutilisateurs. Si cette composante applique
nous a conduits dans certains cas dvelopper des solutions ad hoc pour lentreprise, nous
avons fait en sorte de toujours garder lesprit une problmatique de recherche plus large de
manire gnraliser nos rsultats lchelle du Web, comme nous le verrons tout au long
de ce mmoire. Ainsi, si la plupart des travaux prsents ici trouvent leur motivation et
sarticulent globalement dans un contexte dEntreprise 2.0, la porte de certains dentre eux
savre plus large que ce cadre industriel. Il nous a en effet sembl pertinent de considrer
cette thse CIFRE non pas comme un vase clos, mais comme un contexte dexprimentation
de ce quil est possible de raliser plus grand chelle sur le Web Smantique, notamment
en faisant le choix ds le dbut de nous baser sur les diffrents langages et recommandations
du W3C5 .
1

Conventions Industrielles de Formation par la Recherche


Langages, Logique, Informatique et Cognition http://www.lalic.paris4.sorbonne.fr/. NB : Lensemble des liens hypertexte de cette thse ont t vrifis la date du 26 Janvier 2009.
3
EDF R&D dispose de trois sites sur le territoire franais, rassemblant plus de 2000 chercheurs. Plus dun
millier dentre eux sont situs sur le site de Clamart, sur des thmatiques aussi diverses que les nergies renouvelables ou la scurit informatique au sein des centrales nuclaires. http://retd.edf.fr
4
Digital Enterprise Research Institute http://deri.org
5
World Wide Web Consortium http://w3c.org
2

I NTRODUCTION

Enfin, dun pont de vue plus gnral, il est important de mentionner que nous sommes
arrivs au Web Smantique (et aux travaux de recherche prsents dans cette thse) par attrait pour le Web et par volont de participer, notre chelle, lvolution de ce formidable
mdium. Cest dailleurs la suite dun IUP Gnie Mathmatiques et Informatique et dun
DESS Technologies de lInternet pour les Organisations, accompagns en parallle de plusieurs annes dexprience en tant quingnieur dveloppement Web que nous avons dcid
de reprendre le chemin des tudes pour mener une thse sur le sujet. Un DEA Informatique
et Systmes Intelligents6 nous a ainsi amen dcouvrir la notion dontologies ddies
la modlisation de donnes sur le Web avant de poursuivre sur un stage relatif lannotation sur le Web Smantique au LaLIC, point de dpart de nos travaux. Notre exprience
passe autour des technologies du Web et notre passion pour celui-ci nous semblent importants signaler dans la mesure o ils permettent de comprendre certains choix relatifs
nos travaux. Nous dfendons ainsi dans ce mmoire une vision assez pragmatique du Web
Smantique, et plus gnralement une vision applique de la recherche. Cest en effet selon
nous en combinant recherche et standardisation autour de technologies cls associes un
contexte applicatif fort que lon parviendra mener le Web son plein potentiel7 .
Motivations et axes de recherche
Les travaux prsents dans ce mmoire sinscrivent dans la ligne des recherches autour du Web Smantique et du Web 2.0, deux visions rcentes dune certaine volution du
Web. Plus particulirement, nous nous intressons la manire dont celles-ci peuvent cohabiter et bnficier chacune des apports de lautre. Alors quelles ont souvent, tort, t
considres comme disjointes, il nous semble au contraire pertinent dtudier en quoi leur
complmentarit permettra de conduire un Web bas sur un ensemble dinteractions sociales entre internautes et aux donnes interprtables sans ambigut par des agents logiciels
autonomes.
Cest en envisageant cette complmentarit que lon pourra terme proposer de nouveaux services innovants en termes dintgration, de visualisation et de recherche dinformation sur le Web, alors considr comme une immense base de donnes sociale et distribue. Plus particulirement, ltude de cette convergence nous a amen approfondir nos
travaux en fonction de trois thmatiques principales, dont nous prsenterons de manire
succincte diffrents rsultats dans la seconde partie de cette introduction.
La modlisation des mtadonnes socio-structurelles associes aux outils Web 2.0
Si le Web 2.0 a introduit de nouvelles pratiques sociales en termes dchange dinformations et dmergence de communauts en ligne, la diversit des applications et des services
introduits nous confronte invitablement une htrognit des formats de modlisation.
Chaque outil ou service dispose en effet de ses propres modles de donnes, rendant de
ce fait complexes lintgration, lchange et la recherche dinformation partir de sources
multiples. Si cette diversit est problmatique dans un contexte comme celui du Web, elle
6
Celui-ci, tout comme lIUP et le DESS voqus prcdemment, a t suivi LUniversit Paris-Dauphine
(Paris IX).
7
Traduction du slogan du W3C

Contexte et problmatique scientifique

lest galement dans des environnements plus restreints utilisant ces mmes outils, tels que
les systmes dinformations dEntreprise 2.0 o un accs pertinent linformation est ncessaire. Ainsi, une partie de nos travaux a consist en la dfinition de modles pour permettre
la reprsentation commune des mtadonnes socio-structurelles associes aux outils Web
2.0 via lutilisation de technologies du Web Smantique. Par reprsentation des mtadonnes socio-structurelles, nous entendons la fois la modlisation de notions documentaires
et structurelles (distinguer par exemple un billet de blog dune page wiki, identifier le lien
entre une page wiki et le wiki associ, etc.) et celle des interactions sociales qui sy rapportent
(commentaire sur un blog, dition dune page wiki, etc.). De tels modles permettent de disposer dannotations smantiques partages depuis des systmes htrognes, facilitant ainsi
lintgration de contenus depuis diffrentes plates-formes et en consquence la recherche
dinformation associe.
La reprsentation de connaissances termino-ontologiques et le peuplement dontologies de domaine
partir doutils Web 2.0
Alors que le point prcdent se concentre sur des aspects documentaires et sociaux, il est
galement important de prendre en compte le contenu mme de ces documents Web 2.0. Si
lon se rfre aux dfinitions actuelles du Web Smantique telles que mises en avant par le
W3C "The Semantic Web is a Web of Data"8 , il sagit donc de passer de documents aux reprsentations des donnes du monde rel quils contiennent. Par exemple, nous souhaitons
modliser partir dune page wiki intitule LaLIC quil sagit dun laboratoire de recherche
bas Paris, i.e. passer du document et du terme la reprsentation du concept associ. Sil
sagit ici de thmatiques connues de peuplement dontologies, ou de manire plus large de
reprsentations de connaissances termino-ontologiques, la problmatique qui nous intresse
ici est la prise en compte de lutilisateur final dans cette dmarche, notamment au travers
doutils Web 2.0. Alors que le Web 2.0 facilite la production de contenus documentaires,
nous avons souhait approfondir la manire dont il permet la cration, lvolution et le partage de donnes, toujours au sens Web of Data, via ces outils Web 2.0. Plus particulirement
nous nous sommes ici intresss :
lutilisation de wikis pour le peuplement dontologies, en tudiant de quelle manire
ces outils permettent un peuplement ouvert, collaboratif et volutif dontologies de
domaine ;
aux relations entre les systmes dindexation libre (et spontane) base de tags et des
processus dindexation smantique plus classiques o les termes dindexation sont lis
des ressources termino-ontologiques.
Nos travaux dans ce domaine nous permettent ainsi denvisager en quoi les outils et les processus du Web 2.0 peuvent faciliter lmergence de donnes reprsentes selon les principes
du Web Smantique.
8

http://w3c.org/2001/sw

I NTRODUCTION

Lexploitation de graphes dannotations smantiques pour linteroprabilit, la mise en commun et la


recherche dinformation
Enfin, une troisime thmatique que lon peut extraire de nos travaux et qui vient en corollaire des deux prcdentes est lexploitation de graphes dannotations smantiques pour
proposer de nouveaux services valeur ajoute aux utilisateurs finals. Une des problmatiques du Web Smantique est en effet le problme classique de la poule et luf : il est ncessaire de disposer de donnes pour en montrer toute la puissance mais il est galement
ncessaire de disposer doutils les exploitant pour inciter leur production. Afin de mettre
ce cercle vertueux en place, diffrentes questions se posent, principalement vis vis des
outils permettant lexploitation de ces annotations :
de quelle manire utiliser un nombre croissant dannotations distribues dans un objectif de signalement pertinent dinformation ?
comment masquer lutilisateur la complexit des graphes dannotations et des algorithmes de parcours et de requtes associs ?
comment mettre en avant les rsultats obtenus pour que lutilisateur final prenne
conscience de la valeur des donnes produites et accentue cette dmarche de production ?
Ainsi, si lon devait rsumer nos motivations et la problmatique scientifique de cette
thse en une phrase synthtique, nous pourrions reformuler de la manire suivante : Comment combiner Web Smantique et Web 2.0 afin de tirer profit dinteractions sociales issues doutils
du Web 2.0 pour la reprsentation et lexploitation de connaissances formalises selon les principes
du Web Smantique ? Notons galement, comme le titre de ce mmoire lindique, que nos
motivations autour de cette convergence entre Web Smantique et Web 2.0 sont lies lessor rcent de la notion dEntreprise 2.0, qui met en avant lutilisation des technologies et
principes du Web 2.0 au sein de la sphre professionnelle.
Principaux rsultats
Rflexions sur la complmentarit entre Web 2.0 et Web Smantique
De manire gnrale, nous avons dtaill travers nos travaux en quoi cette complmentarit entre Web 2.0 et Web Smantique nous paraissait ncessaire pour conduire un Web
o les interactions sociales sont omniprsentes dans un objectif de production de donnes
interprtables et interoprables. Ainsi, nous avons montr en quoi le Web Smantique et ses
formalismes de reprsentation des connaissances (au sens RDF(S)/OWL) ne sopposaient
pas au contraire lutilisation doutils et de principes Web 2.0 [Passant et Laublet, 2008c].
Nos rflexions ont port notamment sur lutilisation couple dontologies et de bases de
connaissances en support de systmes base de tags et de folksonomies [Passant et al., 2006]
[Passant, 2007c], ou encore sur lutilisation de wikis smantiques pour permettre un peuplement dontologies collaboratif, volutif et ouvert [Passant et Laublet, 2008e]. Dans ces deux
cas, il nous semble important de signaler que nous avons pris en compte le rle actif de
lutilisateur, proposant ainsi une vision du Web Smantique pense pour lutilisateur final
aussi bien en termes de production que dutilisation dannotations smantiques.
Ces rflexions sur la complmentarit entre Web 2.0 et Web Smantique ont galement
donn lieu lorganisation de diffrents ateliers nationaux [Giboin et al., 2008] et internatio4

Contexte et problmatique scientifique

naux [Breslin et al., 2008] [Hausenblas et al., 2009], la participation plusieurs tutoriels sur le
sujet dans des confrences comme WWW9 , ESWC10 ou ISWC11 et la cordaction dun livre
sur le sujet [Breslin et al., 2009].
Modles de reprsentation
Afin de mettre en pratique ces rflexions, nous nous sommes attachs la dfinition de
diffrentes ontologies permettant de modliser la fois les activits, les interactions et les
contenus crs par des communauts Web 2.0 laide de technologies du Web Smantique.
Bien que voues des utilisations distinctes, ces diffrentes ontologies sarticulent de manire complmentaire au sein dune architecture de mdiation smantique pour lEntreprise
2.0.
En termes de modlisation des mtadonnes socio-structurelles, nous avons ainsi contribu activement SIOC Semantically-Interlinked Online Communities [Breslin et al., 2005] ,
de ses dbuts sa Soumission Membre au W3C en Juin 2007 [Berrueta et al., 2007], en tant
que coauteur de la spcification et diteur de deux documents associs. Concernant nos travaux autour de la complmentarit entre ontologies et tags, nous avons dfini le modle
MOAT Meaning Of A Tag [Passant et Laublet, 2008b] permettant de rsoudre les problmes classiques des systmes base de tags via lutilisation de bases de connaissances formelles venant en support des folksonomies. Enfin, de manire plus proche des besoins de
cette convention CIFRE, nous avons galement dvelopp plusieurs vocabulaires permettant la reprsentation des connaissances mtier, en se basant notamment sur des modles
publics et abondamment utiliss sur le Web Smantique et en proposant certaines bonnes
pratiques dans ce contexte.
Ainsi, nos diffrentes rflexions en termes de modles de reprsentation ont t bnfiques aussi bien dans le contexte dentreprise de cette thse que de manire plus large sur
le Web.
Ralisations logicielles
En plus des modles voqus prcdemment, nos travaux ont galement conduit la
ralisation de diffrentes implmentations logicielles. Si celles-ci sont lies aussi bien au
contexte dentreprise de notre thse qu des dveloppements plus larges sur le Web, elles
ont toutes en commun lobjectif de mettre en avant ce lien fort entre Web Smantique et Web
2.0.
Dune part, nous avons mis en place un ensemble doutils pour lEntreprise 2.0 agrments de modules ddis la production automatise dannotations smantiques, notamment
partir de blogs, ainsi quun serveur de wikis smantiques permettant la reprsentation
de donnes formalises selon les principes du Web Smantique [Passant et Laublet, 2008d].
En termes dutilisation de ces annotations, nous avons dvelopp diffrents services de visualisation de donnes RDF ainsi quun moteur de recherche smantique pour lentreprise
venant exploiter ontologies et annotations smantiques pour la recherche de documents an9

World Wide Web Conference http://www.iw3c2.org/


European Semantic Web Conference
11
International Semantic Web Conference http://iswc.semanticweb.org/
10

I NTRODUCTION

nots [Passant et al., 2009c]. Cette architecture logicielle, propose sous la forme dun mdiateur smantique pour lEntreprise 2.0 [Passant, 2008a], combine ainsi outils et principes du
Web 2.0 pour la production et visualisation dannotations et technologies du Web Smantique pour la reprsentation de celles-ci.
Dautre part, nous avons dvelopp diffrentes applications Web dans cet objectif de
convergence entre Web 2.0 et Web Smantique, certains dveloppements ayant t mutualiss avec les outils mis en place en entreprise, comme par exemple diffrents plug-in pour
la production dannotations smantiques depuis le systme Drupal en utilisant les vocabulaires SIOC et MOAT. Nous avons galement propos une API permettant de gnraliser la production automatique dannotations smantiques socio-structurelles avec SIOC
[Bojars et al., 2006], ainsi que des applications comme LODr [Passant, 2007a], permettant
dappliquer les principes de MOAT des contenus Web 2.0 issus de services comme Flickr
ou Delicious, ou SMOB, service de microblogging ouvert et dcentralis reposant entirement sur les standards et technologies du Web Smantique [Passant et al., 2008]. En termes
de visualisation de donnes, nous pouvons galement citer FOAFMap [Passant, 2006], un
des premiers services de mash-up smantique, proposant la golocalisation de rseaux sociaux modliss en RDF.
O RGANISATION DU MMOIRE
Plan du mmoire
Ce manuscrit est dcoup en cinq chapitres auxquels viennent sajouter cette introduction et une conclusion. Si le plan gnral ne suit pas une approche traditionnelle qui consiste
introduire ltat de lart puis nos travaux et leur valuation, chacun des chapitres reviendra
sur ces diffrents aspects en fonction du domaine abord. Ce mmoire, qui peut se considrer la fois comme un ensemble de propositions autour de la convergence entre Entreprise
2.0 (et plus gnralement Web 2.0) et Web Smantique et comme ltude dun cas pratique
autour de cette convergence, sorganise ainsi de la manire suivante.
Chapitre 1: Vers une convergence entre Web Smantique et Web 2.0, page 11
Ce premier chapitre introduira les notions de Web Smantique et de Web 2.0, essentielles
pour la bonne comprhension de ce mmoire. Dans la premire partie, nous prsenterons un
bref historique du Web et introduirons ensuite les fondements du Web Smantique. Nous
expliciterons RDF et la notion dURIs pour la reprsentation de donnes, lutilisation de
RDFS et OWL pour la dfinition dontologies et lutilisation de SPARQL pour linterrogation
de donnes. Nous reviendrons galement sur le projet Linking Open Data et la vision dun
Web of Data, notamment par rapport au Web tel que nous le connaissons aujourdhui. La
seconde partie dtaillera la notion de Web 2.0 et les principaux changements introduits par
celui-ci. Nous prsenterons tout dabord les principes gnraux de cette vision participative
du Web, puis introduirons diffrents composants qui seront au cur de nos travaux parmi
lesquels blogs, wikis et systmes dannotation base de tags. Enfin, nous prsenterons un
aperu gnral de la convergence possible entre ces deux domaines. Nous conclurons ainsi
ce chapitre en introduisant certains des travaux qui seront dtaills par la suite dans ce
6

Organisation du mmoire

mmoire, comme la notion de modles communs pour les outils Web 2.0 ou lutilisation de
wikis smantiques pour le peuplement dontologies.
Chapitre 2: SemSLATES : Une approche smantique pour lEntreprise 2.0, page 49
Nous introduirons le chapitre suivant en prsentant la notion dEntreprise 2.0 et le systme dinformation initial que nous avons mis en place au sein dEDF. Nous identifierons
ensuite ses limites, qui motivent nos travaux relatifs la mthodologie SemSLATES que nous
avons dfinie et qui sera dtaille dans ce chapitre. Nous prsenterons ainsi lapport dune
architecture de mdiation smantique dans ce contexte dEntreprise 2.0, architecture venant
se greffer au dessus de lexistant sans pour autant remettre en cause celui-ci. Nous verrons
en quoi lajout de diffrents composants logiciels sur des outils dj prsents permet de bnficier dune smantique commune qui ouvre la voix une interoprabilit accrue entre
applications. Nous comparerons galement notre proposition certains travaux similaires,
et tcherons de montrer en quoi notre approche nous semble novatrice et pertinente par
rapport ltat de lart. Ce chapitre nous permettra galement dintroduire les trois chapitres suivants, qui dtailleront les diffrents aspects ncessaires pour mener bien cette
approche, savoir (1) des modles communs de reprsentation, (2) des outils dannotations
smantiques et de peuplement dontologies et (3) des services exploitant ces ontologies et
bases de connaissances.
Chapitre 3: Rle et dfinition dun ensemble dontologies pour lEntreprise 2.0, page 83
Ce troisime chapitre prsentera en dtail diffrentes ontologies que nous avons mises
en place dans ce contexte dEntreprise 2.0, en distinguant les modles axs sur la reprsentation de donnes mtier et ceux mis en place pour la reprsentation des structures documentaires et des interactions sociales sur le Web 2.0. La premire partie prsentera principalement nos travaux autour de SIOC, modle pour la reprsentation des mtadonnes
socio-structurelles pour les outils et communauts Web 2.0. Nous prsenterons dautres modles poursuivant un but similaire et dtaillerons lalignement de SIOC avec des vocabulaires existants. Nous aborderons galement le rle de SIOC vis--vis des problmatiques
de portabilit des donnes sociales. La seconde partie prsentera ensuite les diffrentes ontologies de domaine utilises dans notre architecture de mdiation. Alors que ces modles
sont par nature dpendants du contexte applicatif, il nous semble utile de revenir dessus
notamment pour expliciter en quoi lutilisation et lextension de vocabulaires existants nous
semble une bonne pratique dans un contexte dentreprise. Nous prsenterons galement
certaines problmatiques de modlisation dontologies auxquelles nous avons t confrontes, et comment nous y avons fait face. Nous dtaillerons ensuite nos travaux en matire
de reprsentation des tags et plus particulirement la dfinition de MOAT, modle permettant de prendre en compte et de modliser la signification des tags via des concepts du
Web Smantique, offrant ainsi la possibilit dtablir un lien souple entre folksonomies et
ontologies. Cette partie sera galement loccasion de comparer ce modle aux autres ontologies permettant la reprsentation des tags et des folksonomies mais aussi de faire le parallle
avec les approches permettant lenrichissement smantique de folksonomies de manire automatique ou semi-automatique.
7

I NTRODUCTION

Chapitre 4: Annotations smantiques et peuplement collaboratif dontologies, page 137


Aprs avoir prsent les diffrents modles utiliss dans de tels cosystmes smantiques, nous dtaillerons dans ce quatrime chapitre les moyens mis en place pour permettre
leur peuplement et ainsi produire les annotations smantiques sy rattachant. Nous dtaillerons ainsi les diffrentes extensions que nous avons mises en place pour les outils existants, en prsentant galement certains de nos efforts plus gnraux pour simplifier lannotation smantique et le peuplement dontologies depuis des services Web 2.0. Ce chapitre,
plus technique que le prcdent, nous permettra tout dabord de prsenter les processus de
production automatique dannotations smantiques modlises avec SIOC depuis des outils existants. Nous nous attarderons ensuite sur notre prototype de wiki smantique, UfoWiki, notamment sur la manire dont il permet de coupler la cration dannotations sociostructurelles et le peuplement dontologies mtier. Enfin, nous expliciterons les processus
participatifs associs MOAT, permettant lindexation smantique de contenus partir de
systmes base de tags et dtaillerons diffrentes implmentations logicielles associes, utilises aussi bien dans ce contexte de mdiation pour lEntreprise 2.0 que sur le Web.
Chapitre 5: Intgration et utilisation dannotations smantiques distribues, page 187
Aprs avoir prsent la dfinition de diffrentes ontologies pour lEntreprise 2.0 et la
production des annotations smantiques associes, nous dtaillerons leur utilisation. Nous
reviendrons tout dabord sur le caractre distribu de ces annotations et le besoin de disposer dune architecture nous permettant facilement deffectuer des requtes sur celles-ci via
un entrept de donnes centralis. Ceci nous permettra de prsenter les diffrents protocoles
de communication mis en place, la fois en termes dagrgation de donnes et dexploitation
de celles-ci. Nous prsenterons ensuite diffrents services venant enrichir les outils existants
par lintermdiaire des annotations produites. Nous dtaillerons principalement (1) lenrichissement des wikis smantiques via un systme de macros, (2) lutilisation dinterfaces
de visualisation avances et la mise en place de mash-ups smantiques et (3) la ralisation
dun moteur de recherche smantique venant sintgrer cette architecture. Plus particulirement, nous insisterons dans ce chapitre sur la manire dont ces outils permettent de
masquer la complexit des requtes et des modles et langages utiliss lutilisateur final.
Conclusion gnrale, page 227
Enfin, nous conclurons ce mmoire en revenant sur les diffrents travaux prsents et
la manire dont ils rpondent aux problmatiques initiales, tout en essayant de porter un
regard critique sur ceux-ci. Nous envisagerons galement certains travaux futurs quil nous
semble important de garder lesprit dans cette perspective globale de convergence entre
Web Smantique et Web 2.0.
Guide de lecture
Afin de guider le lecteur dans le parcours de ce mmoire, nous proposons le guide de
lecture suivant (Figure 0.1, page 9). Pour un aperu global de nos travaux, on pourra se
limiter aux deux premiers chapitres qui donneront une vision gnrale et synthtique de
nos recherches. Le premier chapitre prsente ainsi les diffrentes notions manipules alors
8

Organisation du mmoire

que le second donne une aperu global de nos problmatiques de recherche et des solutions
apportes. Les trois chapitres suivants dtaillent en profondeur nos travaux et peuvent par
ailleurs se considrer comme un tout permettant dapprofondir les thmes abords dans le
second chapitre.

Chapitre 3

Chapitre 1

Chapitre 2

Chapitre 4

Chapitre 5

Introduction
aux concepts
utiliss

Prsentation
gnrale des
travaux

Prsentation
dtaille des
travaux

Figure 0.1: Organisation des chapitres

Chapitre 1

Vers une convergence entre Web


Smantique et Web 2.0
I NTRODUCTION
Ces dernires annes ont vu la monte en puissance de deux visions du Web, que lon
pourrait premire vue considrer comme disjointes. La premire, le Web Smantique, propose une extension de celui-ci dfinissant des formalismes de reprsentations unifies pour
les donnes dans une optique dchange et de comprhension de celles-ci par les agents logiciels [Berners-Lee et al., 2001]. Lautre, communment appele Web 2.01 , est beaucoup plus
pragmatique et met laccent sur la place centrale de lutilisateur au sein de la dmarche de
production dinformation [OReilly, 2005]. Elle met en avant les changes, louverture et la
collaboration entre internautes par lintermdiaire doutils et services simples dutilisation.
Dans ce chapitre, nous introduirons tout dabord les principes du Web Smantique et des
formalismes de reprsentation associs, tout en revenant plus particulirement sur certains
aspects qui nous paraissent fondamentaux pour la bonne comprhension de ce mmoire.
Nous introduirons donc la notion dURI et prsenterons le langage RDF (Section 1.1.2, page
16), qui permet de reprsenter les donnes sur le Web Smantique selon la vision du W3C,
avant daborder les notions de vocabulaires et dontologies ainsi que les langages associs,
savoir RDFS et OWL (Section 1.1.2, page 21). Si ces diffrents points sont relatifs la production de donnes, ou annotation smantique, il nous semble galement intressant de
prsenter les mcanismes relatifs leur interrogation. Nous expliciterons ainsi lutilisation
du langage et protocole SPARQL (Section 1.1.3, page 25), celui-ci jouant un rle important
dans lavnement du Web Smantique et plus concrtement dans les outils que nous allons
prsenter par la suite. Enfin, nous aborderons linitiative Linking Open Data, qui vise traduire en RDF et interconnecter un grand nombre de donnes prsentes sur le Web, dans
une vision plus pragmatique du Web Smantique et de ce que lon appelle maintenant plus
communment Web of Data (Section 1.1.4, page 27).
Dans la seconde partie du chapitre, nous prsenterons ce qui caractrise le Web 2.0 et
expliciterons en quoi cette vision nintroduit selon nous pas de rvolution technologique
majeure (particulirement en termes de reprsentation des connaissances) mais en contre1

Nous ne discuterons pas lutilisation de ce terme. Gardons simplement lesprit que, malgr les appellations, il ny a quun seul Web.

11

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

partie modifie de manire profonde la faon dont les contenus sont publis et changs en
ligne (Section 1.2, page 31). Cette rupture concernant la production dinformations en ligne,
qui est donc plus sociale que technologique saccompagne dun certain nombre doutils que
nous prsenterons ici. En particulier, nous dtaillerons deux outils phares de cette mouvance, savoir les blogs (Section 1.2.2, page 34) et les wikis (Section 1.2.2, page 36), ainsi que
la notion de rseaux sociaux (Section 1.2.3, page 42), les principes de syndication de contenu
(Section 1.2.2, page 37) et la notion de tagging (Section 1.2.3, page 39), mthode collaborative,
incrmentale et ouverte de catgorisation. Ces diffrents points tant au cur des travaux
qui seront prsents par la suite dans ce mmoire, il nous semble important de bien dtailler
leur fonctionnement et dentrevoir certaines de leurs limites que nous prsenterons par la
suite (Section 2, page 49).
Enfin, nous indiquerons dans la troisime partie de ce chapitre pourquoi il nous semble
utile, voire ncessaire, de faire cohabiter ces deux visions pour parvenir terme un Web o
lutilisateur est au centre de la production de donnes, mais o celles-ci sont reprsentes de
manire unifie afin dautomatiser, ou tout du moins de simplifier, certaines tches (Section
1.3, page 43). Nous reviendrons ici sur les prjugs supposs entre ces deux visions avant
dtudier cette convergence, qui conduira des espaces informationnels combinant principesaWeb 2.0 et technologies du Web Smantique. Ainsi, nous prsenterons dune part quels
peuvent tre les avantages du Web 2.0 pour le Web Smantique, essentiellement en termes
dinterfaces ddition et dannotations smantiques et dautre part les avantages du Web Smantique pour le Web 2.0, cette fois-ci en termes de structuration de donnes et de formats
dchange. Ces deux aspects nous permettrons ainsi de voir de quelle manire cette convergence conduit un cercle vertueux entre Web Smantique et Web 2.0. Cette dernire partie
du chapitre permettra galement dentrevoir plus en dtail les travaux qui seront dvelopps dans la suite de ce mmoire, savoir lutilisation des technologies du Web Smantique
pour modliser et structurer les donnes issues de services Web 2.0, de manire enrichir
leurs fonctionnalits.
1.1

F ORMALISMES ET STRUCTURES DE DONNES AVEC LE W EB S MANTIQUE

1.1.1

Vers un Web interprtable par les machines

En 1989, Tim Berners-Lee imagine pour le CERN2 une architecture informatique distribue permettant dinterconnecter les diffrents lments du systme dinformation interne
[Berners-Lee, 1989]. Il reprsente alors celui-ci comme un graphe o les nuds, tout comme
les arcs, sont typs et peuvent ainsi reprsenter (pour les nuds) des outils, des documents,
des projets ou des personnes ou bien encore (pour les arcs) des relations de production,
dinclusion ou dappartenance. Afin de faciliter la navigation dans un tel systme, sa proposition se base sur lutilisation de lhypertexte, tel que dfini par Ted Nelson ds les annes
60 au sein du projet Xanadu3 [Nelson, 1965]. Cest cette proposition darchitecture dcentralise qui donnera par la suite naissance au World Wide Web tel que nous le connaissons
aujourdhui.

12

Organisation europenne pour la recherche nuclaire http://cern.ch

http://www.xanadu.com/

1.1 Formalismes et structures de donnes avec le Web Smantique

Figure 1.1: Proposition darchitecture distribue qui conduira au World Wide Web
[Berners-Lee, 1989]

Si lon observe le schma correspondant cette vision dorigine du Web (Figure 1.1,
page 13) et que lon prend en compte ltat actuel de celui-ci, on ne peut sempcher de
constater que l o la proposition initiale fait tat de ressources et de liens fortement typs, le
Web tel que nous le connaissons aujourdhui ne considre que des documents, quils soient
textuels ou multimdia et des liens hypertextes non typs pour tablir des relations entre
ceux-ci. Ainsi, si un utilisateur est en mesure didentifier le concept induit par un document
(une personne ou un projet donn ...) ainsi que la nature du lien dfini entre deux concepts (
partir des liens entre documents), cette identification nest pas ralisable de manire simple
par un agent logiciel. En effet, celui-ci ne considre que des documents plein-texte (encods
dans un langage dont il ne sait pas interprter la smantique) connects entre eux par des
hyperliens unidirectionnels non typs. De plus, les mtadonnes associes ces documents
(auteur, date de cration ...) sont elles aussi difficilement interprtables. Enfin, mme pour un
utilisateur, ces interprtations peuvent-tre biaises puisquelles font appel lexprience,
la culture, et laffect mental de celui-ci, qui peut diffrer selon les personnes pour un mme
document.
Ainsi se pose le problme dun Web interprtable non seulement par les humains mais
surtout par les machines. Cest en ce sens que se situe linitiative du Web Smantique qui
vise rsoudre cette problmatique dinterprtation des donnes par les agents logiciels :
13

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

"The Semantic Web is an extension of the current Web in which information is given well-defined
meaning, better enabling computers and people to work in cooperation" [Berners-Lee et al., 2001].
Cest donc bien dextension et non pas de refonte dont il est question pour dfinir ce Web
comprhensible par les machines4 . On parle galement de Web de Donnes (Web of Data)
afin dvoquer la faon dont celui-ci permet de modliser sur le Web des reprsentations
interprtables de donnes et non plus uniquement de documents au sujet de ces donnes.
Nous reviendrons un peu plus tard sur cet aspect (Section 1.1.4, page 27).
Cette volution du Web repose sur la prsence dannotations smantiques, permettant de
modliser de manire formelle (1) les mtadonnes (date de cration, auteur, etc.) associes
aux documents prsents sur le Web et (2) les donnes prsentes au sein de ces documents.
Ces annotations smantiques, qui permettent ainsi denvisager linterprtation des contenus
en ligne, sont envisageables partir du moment o lon dispose :
dune part dun modle commun pour identifier les ressources sur le Web. Cest le rle
jou par lutilisation des URIs Uniform Resource Identifier [Berners-Lee et al., 2005]
couples RDF Ressource Description Framework [Klyne et Carroll, 2004] (Section
1.1.2, page 16) ;
dautre part de vocabulaires permettant de dfinir de manire formelle, mais surtout interprtable et interoprable, la smantique de ces donnes. Les ontologies, au
sens informatique du terme [Gruber, 1995], jouent ici un rle important. Nous verrons plus loin comment modliser des ontologies sur le Web Smantique avec des
langages RDFS RDF Schema [Brickley et Guha, 2004] et OWL Web Ontology Language) [Patel-Schneider et al., 2004] (Section 1.1.2, page 21).
Nous verrons par la suite que ces annotations peuvent tre produites selon diffrents objectifs, de lindexation de documents la modlisation du contenu de ceux-ci, les deux approches pouvant galement tre associes (Section 2.3.1, page 69).
Si cette initiative est aujourdhui essentiellement guide par les travaux du W3C, via
diffrents groupes de travail et efforts de standardisation mens depuis 20015 , il est important de signaler dautres travaux plus anciens, notamment Ontobroker [Decker et al., 1999],
WebKB [Martin et Eklund, 1999] ou encore SHOE6 [Heflin et Hendler, 2000]. Ce dernier intgre en effet diffrents composants permettant de rendre le contenu de pages Web comprhensible et exploitable par des agents logiciels :
un langage SHOE : Simple HTML Ontology Extensions7 [Luke et Heflin, 2000] dfini
sous forme dextension de HTML et permettant dinclure directement des donnes
interprtables au sein de pages Web. Celui-ci permet dune part de modliser les donnes mais aussi de dfinir leur smantique via la description dontologies (Section 1.1.2,
page 21) au sein des pages ;
un agent Expos permettant de retrouver sur le Web les diffrentes pages annotes
4

La machine ninterprtant quune succession de 0 et 1, il est dlicat de parler rellement de comprhension


par les machines. On devrait plutt parler de contraintes dinterprtation, comme le souligne [Bachimont, 2000]
en voquant la notion dengagement ontologique. On utilisera cependant ce terme comprhension par abus de
langage au sein de ce mmoire.
5

http://www.w3.org/2001/sw
http://www.cs.umd.edu/projects/plus/SHOE/
7
http://www.cs.umd.edu/projects/plus/SHOE/spec.html
6

14

1.1 Formalismes et structures de donnes avec le Web Smantique

pour les stocker ensuite dans un systme ddi - PARKA [Rager et al., 1997], sur lequel
il est possible deffectuer diffrentes requtes via un langage spcifique PIQ.
On retrouve bien dans la vision actuelle du Web Smantique des similarits avec cette
approche combinant (1) des langages de description de donnes et de modlisation dontologies comme RDF(S)/OWL et (2) des langages de requtes comme SPARQL (Section 1.1.3,
page 25) et lutilisation dentrepts de donnes RDF. ceux-ci viennent sajouter des notions de logique formelle, de preuve et de confiance utilises terme par diffrentes applications et reprenant certains principes de lIntelligence Artificielle [Russell et Norvig, 2003]
(Figure 1.2, page 15).

Figure 1.2: Pile du Web Smantique, Fvrier 20088


Pour terminer cette introduction au Web Smantique et avant de dtailler les diffrents
formalismes de reprsentation utiliss dans ce contexte, nous signalerons les travaux de
visionnaires comme Vannevar Bush et le Memex [Bush, 1945], Ted Nelson et Xanadu, ou
encore Douglas Engelbert et ses propositions de systmes informatiques pour augmenter lefficience intellectuelle [Engelbart, 1962] ou ses travaux sur lOpen Hyperdocument System9 [Engelbart, 1990]. Ceux-ci imaginaient il y a plusieurs dizaines dannes dj des mthodes pour unifier et connecter des reprsentations du monde rel via des relations types,
couples des processus de navigation dans ces reprsentations. Cest galement ce que
[Berners-Lee, 1989] proposait dans sa vision dorigine dun systme dinformations interconnectes : "The system we need is like a diagram of circles and arrows, where circles and arrows
can stand for anything". Nous pensons que les travaux du Web Smantique permettrons
8
9

http://www.w3.org/2001/sw/
http://www.csl.sri.com/projects/ohs/

15

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

terme de raliser ces visions dun systme o linformation est universellement accessible,
interconnecte mais surtout dfinie avec une smantique formelle et interprtable par des
agents logiciels autonomes, de manire proposer de nouveaux services innovants notamment en termes de navigation et de recherche dinformation. Cest galement de cette manire que les social machines dfinies par [Berners-Lee et Fischetti, 1999] pourront galement
voir le jour, dans un modle unifi dinteractions entre humains et machines.
1.1.2

Reprsentation des connaissances avec RDF(S) et OWL

Avant-propos
Nous prsenterons ici uniquement des formalismes proposs ou standardiss via les
activits du W3C, formalismes que nous utilisons par ailleurs au sein des diffrents travaux
prsents dans cette thse. Pour dautres modes de reprsentation des connaissances, en
particulier les Topic Maps [Biezunski et al., 2002] [Auillans et al., 2002] et leur utilisation sur
le Web Smantique, le lecteur pourra se rfrer la thse [Amardeilh, 2007].
Reprsentation des ressources : les URIs et RDF
RDF Ressource Description Framework [Klyne et Carroll, 2004] est un lment fondamental du Web Smantique puisquil permet de reprsenter des ressources sur le Web de
manire uniforme pour les agents logiciels l o ceux-ci ne voient dans un document texte
quune succession de caractres inexploitables. Pour ce faire, chaque ressource est identifie
de manire universelle par une URI, qui peut tre assigne aussi bien (1) une donne prsente sur le Web (un document, un compte utilisateur sur un service donn ...), (2) un objet
du monde rel (un pays, une personne ...) auquel on souhaite associer un identifiant dans
ce contexte de reprsentation en ligne, ou encore (3) une relation (lappartenance, la filiation
...). Par exemple :
http://example.org/blog/112 identifie un billet de blog sur un site donn ;
http://sws.geonames.org/3017382/ identifie la France en tant que zone gographique ;
http://apassant.net/alex identifie lauteur de ce mmoire (et non sa page personnelle) :
http://www.w3.org/2000/01/rdf-schema#label identifie la relation qui lie une
ressource son label.
Afin de dcrire ces ressources, RDF se base sur la notion de triplets, permettant de dfinir
des assertions au sujet de celles-ci. Chaque triplet se compose de :
un sujet, i.e. la ressource laquelle on assigne une proprit, identifie par une URI ;
un prdicat, i.e. la proprit assigne la ressource, galement identifie par une URI ;
un objet, i.e. la valeur de la proprit. Celle-ci peut tre de type primitif (chane de caractre, entier ...) ou tre nouveau une ressource. Elle peut ainsi tre son tour sujet
dun autre triplet conduisant la formation dun graphe, les nuds tout comme les
arcs tant reprsents par des URIs. Tim Berners-Lee considre ainsi le Web Smantique comme un Giant Global Graph par analogie avec le World Wide Web10 , dans le
10

16

http://dig.csail.mit.edu/breadcrumbs/node/215

1.1 Formalismes et structures de donnes avec le Web Smantique

sens o il connecte des ressources types via des proprits identifies, l o le Web
connecte simplement des documents via des liens hypertextes (Section 1.1.4, page 27).
Diffrentes srialisations permettent de reprsenter des assertions modlises en RDF.
Cest le cas de N3 [Berners-Lee, 2006c], Turtle [Beckett et Berners-Lee, 2008] (sous-dialecte
du prcdent), RDF/XML 11 [Beckett, 2004], ou encore des reprsentations graphiques12 .
Ainsi, les deux exemples de code et la figure qui suivent (Figure 1.3, page 18) dfinissent les
mmes informations qui se traduisent par "EDF est une organisation situe en France", information constitue dans cet exemple de deux triplets13 , la srialisation RDF/XML tant elle
sous forme condense. Nous remarquerons aussi dans cet exemple lutilisation de prfixes
et despaces de noms ainsi que la prsence du raccourci N3 "a" utilis pour rdf:type14 .
@prefix
@prefix
@prefix
@prefix

foaf : < http :// xmlns . com / foaf /0.1 > .


rdfs : < http :// www . w3 . org /2000/01/ rdf - schema # > .
geonames : < http :// geonames . org / ontology # > .
athena : < http :// athena . edf . fr / data / > .

athena : EDF a foaf : Organization ;


geonames : locatedIn < http :// sws . geonames . org /3017382/ > ;
rdfs : label " Electricit de France " .

Listing 1.1: Reprsentation Turtle de triplets RDF

< rdf : RDF


xmlns : foaf =" http :// xmlns . com / foaf /0.1/"
xmlns : rdf =" http :// www . w3 . org /1999/02/22 - rdf - syntax - ns #"
xmlns : rdfs =" http :// www . w3 . org /2000/01/ rdf - schema #"
xmlns : geonames =" http :// geonames . org / ontology # >
< foaf : Organization rdf : about =" http :// athena . edf . fr / data / EDF " >
< geonames : locatedIn rdf : resource =" http :// sws . geonames . org
/3017382/" >
< rdfs : label > Electricit de France </ rdfs : label >
</ foaf : Organization >
</ rdf : RDF >

Listing 1.2: Reprsentation RDF/XML de triplets RDF


Si les annotations smantiques sont en gnral reprsentes sous la forme de documents RDF indpendants des ventuels documents (X)HTML associs, on peut remarquer
11
Une erreur courante est ainsi de prsenter RDF comme une application (au sens schma ou DTD) de XML,
alors que RDF/XML est uniquement une des srialisations possibles de celui-ci. Par ailleurs, la syntaxe de
RDF/XML diffre en quelques points de la syntaxe XML classique [Beckett, 2004].
12
Dans ce cas, linterprtation est impossible moins dutiliser un format graphique interprtable comme
SVG (Scalable Vector Graphics) [SVG Working Group, 2003].
13
Nous aurions trs bien pu crire cette affirmation laide dun ou au contraire de quatre triplets en fonction
des modles utiliss (Section 3.2, page 103).
14
Lensemble des prfixes utiliss dans ce document est rpertori en annexe (Annexe A, page 233).

17

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

Electricit
de France

rdfs:label

athena:EDF

rdf:type

foaf:Organization

geonames:locatedIn
http://sws.geonames.org/
3017382/

Figure 1.3: Reprsentation graphique de triplets RDF

que lajout de mtadonnes directement au sein de pages Web (comme le proposait SHOE)
est aujourdhui au cur de diffrents travaux. En effet, reprsenter les annotations au sein
de documents annexes introduit gnralement un problme de duplicit dinformations.
Dans lexemple prcdent, on peut supposer que le fait de dfinir la chane de caractre
"Electricit de France" comme valeur pour rdfs:label est redondant avec une information dj prsente au sein de la page Web associe, certes en (X)HTML mais avec cette
mme chane de caractres (par exemple dans une balise <h1>). Des travaux comme eRDF15
ou RDFa [Adida et Birbeck, 2008] permettent ainsi linclusion directe dannotations RDF au
sein de documents (X)HTML, le second se basant sur lintroduction de nouveaux attributs
XHTML pour y parvenir, comme le montre lexemple ci-dessous (Listing 1.3, page 18).
< html xmlns =" http :// www . w3 . org /1999/ xhtml "
xmlns : foaf =" http :// xmlns . com / foaf /0.1/"
xmlns : rdfs =" http :// www . w3 . org /2000/01/ rdf - schema #"
xmlns : geonames =" http :// geonames . org / ontology # >
< body about =" http :// athena . der . edf . fr / data / EDF " typeof =" foaf :
Organization " >
< h1 property =" rdfs : label " > Electricit de France </ h1 >
<p >
EDF est situe en <a rel =" geonames : locatedIn " href =" http :// sws
. geonames . org /3017382/" > France </ a >.
</p >
</ body >
</ html >

Listing 1.3: Exemple dassertions modlises avec RDFa


Dans cette mme optique dannotations intgres au sein mme des pages, nous pouvons galement citer galement les microformats16 , effort communautaire qui offre aussi
la possibilit de dfinir certaines donnes structures (vnements, contacts ...) au sein de
pages Web via de simples attributs de balises. Ceux-ci ne sont malheureusement pas aussi
15
16

18

http://research.talis.com/2005/erdf/wiki/Main/RdfInHtml
http://microformats.org

1.1 Formalismes et structures de donnes avec le Web Smantique

puissants que RDF(S)/OWL en termes dexpressivit (subsomption, infrence ...), mais sont
nanmoins utiliss plus frquemment sur le Web. De plus, ceux-ci ne bnficient pas de
la mme ouverture que les ontologies, puisquun microformat ne peut voluer quaprs
consensus de la communaut. Ces diffrentes limites leurs valent parfois le nom de lowercase semantic web, en opposition au Web Smantique et ses modles plus formels. Nanmoins, lutilisation de GRDDL Gleaning Resource Descriptions from Dialects of Languages
[Connolly, 2007] permet de faire le pont entre ces diffrentes visions. GRDDL offre en effet
la possibilit de traduire diffrents dialectes XML en RDF et permet ainsi de transformer un
document XHTML contenant des microformats ou des annotations RDFa en donnes RDF
brutes qui peuvent tre utilises comme nimporte quelles donnes RDF natives.
Pour en revenir aux assertions RDF elles-mmes, il est galement possible de considrer
un ou plusieurs triplets RDF comme source(s) de nouveaux triplets, par exemple pour dfinir la date laquelle une assertion a t tablie. Si une premire approche pour modliser ce
processus se base sur lutilisation des principes de rification RDF17 , celle-ci introduit diffrents problmes (notamment une explosion du nombre de triplets [Caroll et Stickler, 2004])
que [Carroll et al., 2005] permettent de rsoudre avec lutilisation des graphes nomms (named graphs). La notion de graphes nomms tend celle de graphe RDF (i.e. un ensemble de
triplets18 ) en permettant dassigner chacun une URI propre. Cette URI permet de considrer chaque graphe comme une ressource part entire et donc de lutiliser comme sujet
dune nouvelle relation. Il est ainsi possible de modliser lauteur dun ensemble de triplets (Figure 1.4, page 20) ou encore de certifier les informations via un systme de signature de graphes [Caroll, 2003] dans une optique de confiance des sources dinformations
comme dfinie par la pile du Web Smantique (Figure 1.2, page 15). Malgr ces avantages
et en raison de la structure par triplets de RDF, lutilisation des graphes nomms au sein de
documents RDF est complexe et ncessite une volution des syntaxes actuelles. Les extensions TRIX19 [Caroll et Stickler, 2004] ou TRIG [Bizer et Cyganiak, 2007] permettent de modliser ces graphes nomms respectivement en RDF/XML et Turtle. [Bottollier et al., 2007]
ont propos une nouvelle manire de procder via lutilisation dune proprit spcifique
(http://www.inria.fr/acacia/corese#graph) pour indiquer la source dun ensemble
de triplets au sein de documents RDF/XML. En pratique cependant, une manire simple
de procder lidentification de ces sources et de regrouper les triplets dans un document
accessible en ligne est de considrer lURL du dit document comme lURI du graphe source.
Ces mthodes sont en outre toutes compatibles avec lutilisation de la clause GRAPH au sein
de requtes SPARQL (Section 1.1.3, page 25).
Il est galement important lorsquon modlise une ressource sur le Web Smantique,
de faire la distinction entre son URI (i.e. son identifiant) et lURL du ou des documents la
dcrivant, quil sagisse dun document RDF regroupant un certain nombre dassertions
son sujet ou dune description (X)HTML. On considre ainsi ce sujet [Lewis, 2007] :
les ressources informationnelles (un document, un billet de blog ...) pour lesquelles
lURL du document peut correspondre lURI de son identifiant. Il est en effet coh17

http://www.w3.org/TR/rdf-mt/#ReifAndCont
http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/#dfn-rdf-graph
19
http://sw.nokia.com/trix/TriX.html
18

19

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

athena:EDF

rdf:type

foaf:Organization
Alexandre Passant

geonames:locatedIn
http://sws.geonames.org/
3017382/
http://example.org/ng_1

dc:creator

Figure 1.4: Graphes nomms et identification de lauteur dun ensemble de triplets

rent de considrer que le document identifi par cette URI correspond au document
situ cette mme adresse ;
les ressources non-informationnelles, i.e. des donnes monde rel (une personne, un
pays ...) que lon souhaite reprsenter sur le Web et o la distinction est ncessaire.
On ne peut en effet pas considrer que http://fr.wikipedia.org/wiki/France
correspond lidentifiant de la France, puisquon a dun ct un document Web et de
lautre un pays20 .
Ainsi :
http://sws.geonames.org/3017382 correspond une URI identifiant la France
(et non pas un document son sujet) ;
http://sws.geonames.org/3017382/about.rdf correspond au document RDF
associ comportant un certain nombre de triplets son sujet ;
http://www.geonames.org/3017382/republic-of-france.html correspond
sa description (X)HTML associe.
Cette distinction est particulirement importante au moment de la dfinition dassertions.
Lorsquon va modliser des informations au sujet du pays (par exemple sa population),
on va utiliser lURI identifiant la ressource (e.g. http://sws.geonames.org/3017382) en
tant que sujet des diffrents triplets mais si lon souhaite dfinir une assertion au niveau du
document (e.g. son auteur) on utilisera lURL dun document la dcrivant (e.g. http://www.
geonames.org/3017382/republic-of-france.html). Afin de faire le lien entre ces niveaux de reprsentation, une bonne pratique veut que chaque URI associe une ressource
soit drfrenable21 et renvoie vers un ensemble dinformations son sujet en (X)HTML
ou RDF selon lagent logiciel utilis pour drfrencer cette URI. Pour plus de dtails sur
la dfinition dURIs pour le Web Smantique, on pourra consulter [Ayers et Vlkel, 2008] et
20

Ceci introduirait de plus des problmes de consistance. Par exemple FOAF dfinit les classes Agent et
Document comme disjointes, ce qui implique quune mme URI ne peut pas reprsenter la fois une personne
(ressource non-informationnelle) et sa page personnelle (ressource informationnelle).
21
"Agents may use a URI to access the referenced resource ; this is called dereferencing the URI."
[W3C Technical Architecture Group, 2004]

20

1.1 Formalismes et structures de donnes avec le Web Smantique

diffrentes discussion ce sujet au sein du W3C22 .


Enfin, signalons que rien noblige lensemble des triplets concernant une ressource donne tre stock au sein du mme graphe ou document. Au contraire, puisque cette approche se base sur les principes du Web et donc dune architecture distribue il est tout
fait possible de dfinir ces informations dans plusieurs documents, lidentification des
sources permettant par la suite de tracer lorigine de chaque assertion. Nous dtaillerons
cette pratique de gestion distribue des connaissances dans le chapitre consacr lannotation smantique et au peuplement dontologies (Section 4.2.2, page 154).
Vocabulaires et ontologies : RDFS et OWL
Si les URIs et RDF offrent un cadre commun pour reprsenter les informations dans
le contexte du Web Smantique, ils ne permettent pas de dfinir la smantique des donnes manipules. Il faut en effet fournir aux agents capables de lire ces informations un
moyen dinterprter que, par exemple, http://xmlns.com/foaf/0.1/Organization reprsente le concept dorganisation qui peut avoir diffrentes proprits et tre galement li
dautres concepts galement interprtables. Pour ce faire, il est ncessaire de disposer de
vocabulaires ou dontologies pour modliser cette smantique.
Si le terme ontologie trouve son origine en philosophie o lontologie reprsente la "partie de la philosophie qui a pour objet ltre en tant qutre, qui tudie les proprits gnrales de
ltre"23 , linformatique la dfinit comme tant "la spcification explicite dune conceptualisation" [Gruber, 1995]. Nous verrons plus loin (Section 3, page 83) quil existe plusieurs types
dontologies, ayant cependant en commun diffrents lments :
des concepts, ou classes, dfinissant des ensembles dobjets, abstraits ou concrets, que
lon souhaite modliser pour un domaine donn. En fonction de celui-ci et des choix de
modlisation (puisque la dfinition dune ontologie implique un certain point de vue)
le niveau dabstraction peut-tre trs large (ex : la notion de temps) ou au contraire
trs prcis (ex : un lment de robinetterie nuclaire). Il faut donc prendre cette notion
de concept de manire trs large fortement dpendant du domaine ;
des proprits attribues ces concepts parmi lesquelles on distingue gnralement
(1) les relations qui peuvent exister entre concepts ou instances de ces concepts et (2)
les attributs primitifs quil est possible dassocier aux diffrents concepts ou leurs
instances (chane de caractre, entier ...). Un exemple particulier de relation frquemment utilise dans les ontologies est la relation de subsomption qui permet dtablir
des hirarchies de concepts ;
des axiomes, qui permettent de modliser des assertions logiques et qui sont utiliss
dans la dfinition de concepts ou de proprits afin daffiner celles-ci. Associs des
raisonneurs, ils permettent dtablir de nouveaux faits partir des connaissances de
base ou de vrifier la consistance dun ensemble dassertions.
On peut associer chaque concept diffrentes dclinaisons linguistiques (ou termes) et il
est important de bien distinguer le terme du concept comme le rappelle [Bachimont, 2000].
[Kassel et Perpette, 1999] va galement plus loin dans cette distinction en considrant pour
22

http://www.w3.org/2001/tag/issues.html#httpRange-14

23

Dictionnaire de lAcadmie franaise, 9e dition, Version informatise http://atilf.atilf.fr.

21

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

chaque concept les termes associs, la notion (i.e. lintention du concept) et lobjet (i.e. son extension). Nous reviendrons sur cette distinction en prsentant nos propositions permettant
de lier tags et ontologies de domaine (Section 3.3.3, page 128).
On a gnralement coutume de distinguer lontologie (i.e. le modle) des individus ou
instances (i.e. les ralisations des diffrents concepts prsents dans le modle) et de considrer que ceux-ci ne font pas partie de lontologie mais appartiennent la base de connaissance
associe, lontologie tant alors un modle conceptuel venant en support de cette base de
connaissances et des faits quelle contient [Guarino et Giaretta, ]. Pour reprendre lexemple
prcdent, les notions dorganisation et de zone gographique feront ainsi partie dune ontologie donne et EDF, la France et le fait quEDF soit une organisation base en France seront eux des lments de la base de connaissance associe. Cette distinction entre instances
et base de connaissance est par ailleurs similaire ce que proposent les logiques de description [Baader et al., 2003] en distinguant les ABox et TBox. Pour plus de dtails sur ces
principes de modlisation, ainsi que les rseaux smantiques [Quillian, 1968], les graphes
conceptuels [Sowa, 1984]24 et autres formalismes de reprsentation des connaissances ayant
prcd les ontologies, on pourra se rfrer aux thses [Troncy, 2004] et [Isaac, 2005] ou
louvrage Ingnierie des connaissances [Charlet et al., 2000].
Pour prendre un exemple concret, on peut imaginer une ontologie qui dfinisse :
des concepts : Agent, Entreprise et P ersonne ;
des proprits :
isA, relation de subsomption telle que isA(Entreprise, Agent) et isA(P ersonne, Agent) ;
instanceOf , relation dinstanciation telle que instanceOf (AlexandreP assant, P ersonne)25 ;
aP ourEmploye, relation telle que aP ourEmploye(Entreprise, P ersonne) ;
aP ourN om, attribut assign aux concepts Agent, Entreprise et P ersonne26
aP ourN SS, attribut assign au concept P ersonne ;
des axiomes :
x, aP ourN SS(x) = 1 indiquant que les ralisations des concepts P ersonne nont
quun seul numro de scurit sociale ;
x, aP ourN om(x) >= 1 indiquant que les ralisations des concepts Agent, Entreprise
et P ersonne ont au moins un nom ;
(x, y), aP ourEmploye(x, y) >= 1 indiquant que toute ralisation du concept Entreprise
a au moins un employ (dfini en tant que P ersonne) ;
et y associer deux individus avec la base de connaissances qui suit (Listing 1.4, page 23).
RDFS RDF Schema [Brickley et Guha, 2004] est une premire tape pour modliser
des ontologies sur le Web Smantique. Ce langage introduit les notions de classe (rdfs:Class)
et de proprit (rdf:Property) associes des relations de subsomption permettant de
dfinir des hirarchies de classes et de proprits, respectivement rdfs:subClassOf et
24

On peut galement se rfrer [Berners-Lee, 2006a] pour une comparaison entre graphes conceptuels et

RDF.
25

On peut en fait considrer que les relations isA et instanceOf ne font pas partie de lontologie elle-mme,
mais dun mtamodle permettant la dfinition dontologies, comme nous allons le voir avec RDFS et OWL.
26
Notons ici quen fonction des langages utiliss pour dfinir lontologie, il peut suffire de dfinir cet attribut comme proprit de Agent pour que les concepts Entreprise et P ersonne en hritent en raison de rgles
dinfrence associes lutilisation de la relation de subsomption isA.

22

1.1 Formalismes et structures de donnes avec le Web Smantique

instanceOf ( AlexandrePassant , Personne )


instanceOf ( EDF , Entreprise )
aPourNom ( AlexandrePassant ) = " Alexandre Passant "
aPourNSS ( AlexandrePassant ) = "1800669 XXXXXXXX "
aPourNom ( EDF ) = " Electricit de France "
aPourEmploye ( EDF , AlexandrePassant )

Listing 1.4: Exemple de base de connaissances associe une ontologie

rdfs:subPropertyOf. RDFS permet galement pour chaque proprit de dfinir son domaine (rdfs:domain) et son codomaine (rdfs:range), soit respectivement Entreprise
et Personne pour la relation aPourEmploye de lexemple prcdent.
Une ontologie RDFS scrit sous forme de triplets RDF qui vont ainsi dfinir des identifiants pour ses diffrentes classes et proprits, ceux-ci tant uniques puisque bass sur des
URIs. Le code qui suit (Listing 1.5, page 23) reprsente une ontologie modlisant une partie
des classes et proprits que nous avons prsentes dans lexemple prcdent. Il introduit
galement la possibilit dans une ontologie dutiliser et dtendre des classes et proprits dfinies dans dautres modles. Dans notre cas, la classe Entreprise tend la classe
Organisation dfinie dans lontologie FOAF [Brickley et Miller, 2004a].
: Entreprise a rdfs : Class ;
rdfs : subClassOf foaf : Organization ;
rdfs : label " Entreprise " .
: aPourEmploye a rdf : Property ;
rdfs : domain : Entreprise
rdfs : range foaf : Agent

Listing 1.5: Exemple dontologie reprsente en RDFS et srialise en Turtle


Pour finir, RDFS laisse entrevoir via la smantique associe RDF/RDFS [Hayes, 2004]
des premires rgles dinfrence simples permettant une base de connaissance de senrichir de nouvelles assertions partir du moment o certains faits sont prsents dans celle-ci.
Ces rgles incluent notamment la transitivit des proprits subClassOf (rgle rdfs7) et
subPropertyOf (rgle rdfs9) comme le montre le tableau qui suit (Tableau 1.1, page 23).
Rgle
rdfs7
rdfs9

Si
aaa rdfs :subPropertyOf bbb .
uuu aaa yyy .
uuu rdfs :subClassOf xxx .
vvv rdf :type uuu .

Alors
uuu bbb yyy.
vvv rdf :type xxx.

Tableau 1.1: Exemple de rgles dinfrence RDFS


Lexpressivit de RDFS est malgr tout assez restreinte. Ce langage ne permet pas entre
autres de dfinir la notion de symtrie dune proprit qui pourrait sappliquer une rela23

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

tion aP ourV oisin27 . Ainsi, pour aller plus loin dans la dfinition dontologies pour le Web
Smantique, le W3C a mis en place ds 2001 un groupe de travail autour dOWL Web
Ontology Language [Bechhofer et al., 2004] , langage de dfinition dontologies sur le Web
dans la continuit de DAML+OIL [Horrocks, 2002], issu lui-mme des projets et langages
OIL [Fensel et al., 2000] en Europe et DAML-Ont [McGuinness et al., 2003] aux Etats-Unis.
OWL, pass au statut de recommandation du W3C en 2004, reprend ainsi les notions de
classes et de proprits dfinies en RDFS en les prcisant respectivement par owl:Class
(sous-classe de rdfs:Class) et owl:dataTypeProperty et owl:objectProperty (sousclasse de rdf:Property) distinguant ainsi les attributs (types primitifs) des relations (liens
vers dautres classes). Surtout, OWL ajoute de nouveaux constructeurs et axiomes permettant daccrotre lexpressivit des ontologies, avec une smantique plus pousse que celle
de RDFS [Patel-Schneider et al., 2004]. OWL se compose en ralit de trois sous langages,
lexpressivit croissante28 :
OWL-Lite qui tend RDFS et ajoute de nouveaux constructeurs comme la symtrie des
proprits et des contraintes de cardinalit (uniquement 0 ou 1) ;
OWL-DL dont le nom est hrit des logiques de description et qui ajoute des constructeurs supplmentaires (et regroupe en fait lensemble des constructeurs disponibles
en OWL) comme les combinaisons boolennes de classes (union ou intersection), des
axiomes de classes (disjonction) et tend les contraintes de cardinalit dOWL-Lite ;
OWL-Full qui najoute pas de constructeur par rapport OWL-DL mais qui les interprte diffremment offrant ainsi une expressivit plus forte (toute classe est vue la
fois comme une classe, un individu et un ensemble dindividus) mais sans garantie de
calculabilit, OWL-Full ntant pas dcidable.
Les diffrents axiomes dfinis dans une ontologie OWL peuvent tre pris en compte dans
un processus de raisonnement avec des systmes comme Pellet29 [Sirin et al., 2007] ou Racer30 [Haarslev et Mller, 2001]. Ceux-ci peuvent tre utiliss par exemple (1) pour la classification automatique dinstances en fonction de leurs proprits et des axiomes dfinis dans
lontologie ou (2) pour la cration de nouvelles relations entre instances en fonction de ltat
initial dune base de connaissance. Par exemple, un axiome dfinissant la symtrie dune
proprit aP ourV oisin conduira la rgle suivante :
(x, y), aP ourV oisin(x, y) aP ourV oisin(y, x)

(1.1)

En outre, il est important de garder lesprit que ces langages (RDFS et OWL) se situent dans lhypothse dun monde ouvert et donc que labsence de dclaration dun fait
ne permet pas de considrer celui-ci comme faux. Ainsi, si dans un ensemble dassertions
aucune dentre elles nindique quEDF est situ en France, un systme bas sur ces langages
ne dduira pas quEDF nest pas une entreprise franaise, mais simplement quil nest pas
27
Nous considrons ici la notion de voisinage au sens large, i.e. ne distinguons pas aP ourV oisin et
aP ourV oisine.
28
Alors que OWL 2 est en cours de standardisation, notons que tout au long de ce mmoire, nous tudierons
uniquement sa version 1 et utiliserons lappellation OWL (et non pas OWL 1) par simplicit.
29
30

24

http://pellet.owldl.com/
http://www.racer-systems.com/

1.1 Formalismes et structures de donnes avec le Web Smantique

capable de rpondre cette question. De ce fait, labsence de dfinition dune proprit


dans une ontologie ninterdit pas son utilisation et de mme le fait de dclarer une ressource
instance dune classe ninterdit pas de lutiliser comme instance dune autre classe. Si lon
souhaite a contrario quune proprit ne puisse pas tre utilise pour une classe donne ou
qutre instance dune classe ne permette pas dtre instance dune seconde, il est ncessaire
de spcifier certains axiomes (cardinalit et disjonction dans notre cas) dans lontologie, le
passage de RDFS OWL tant alors requis. De plus, notons que ces langages sont descriptifs
et non prescriptifs31 [Davis, 2005]. Ainsi, le fait de dfinir Entreprise comme domaine de
aPourEmploye nimplique pas que les instances associes cette proprit soient explicitement types Entreprise mais quelles le deviennent par infrence lorsque la proprit leur
est assigne. Les possibilits de raisonnement prsentes en amont peuvent alors se rvler
utiles pour vrifier la consistance du modle, dans cette vision du monde ouvert qui droute
parfois, notamment lorsquon est habitu des reprsentations plus classiques de typage.
1.1.3

Interrogation de donnes avec SPARQL

Alors que RDFS et OWL permettent de dfinir des ontologies sur le Web Smantique
et RDF de modliser des assertions en se basant sur celles-ci, il est ncessaire pour en tirer
parti de disposer dun langage de requte adapt. SPARQL SPARQL Protocol and RDF
Query Language [Prudhommeaux et Seaborne, 2008] propose ainsi la fois un langage
et un protocole pour interroger des donnes modlises en RDF. Ces travaux sinscrivent
dans la continuit de RDQL [Seaborne, 2004] et lon peut voir SPARQL comme le SQL du
Web Smantique : "Tenter dutiliser le Web smantique sans SPARQL revient exploiter une base
de donnes relationnelle sans SQL"32 . SPARQL utilise le principe didentification de chemins
dans un graphe [West, 2000] pour rcuprer les rsultats dune requte donne. Ainsi, une
requte SPARQL se compose dun oprateur (dfinissant le type de requte), dun patron
(la partie ncessaire pour lidentification des graphes correspondants) et de modifieurs (par
exemple, ORDER BY). Une requte peut interroger un ou plusieurs documents RDF, soit par
lutilisation dun attribut FROM en dbut de requte, soit par lintermdiaire dAPIs Application Programming Interface qui permettent de considrer simultanment plusieurs sources,
soit via lutilisation dentrepts de donnes RDF associs des points daccs (ou endpoints)
SPARQL (Section 5.1, page 188). SPARQL dispose des quatre oprateurs suivants33 :
SELECT qui comme son nom lindique va slectionner diffrents lments selon un
patron de requte particulier. Une requte destine rcuprer la localisation dEDF
pourrait tre :
SELECT ? pays
WHERE { athena : EDF geonames : locatedIn ? pays }

Listing 1.6: Exemple de requte SPARQL SELECT

31
32
33

http://lists.w3.org/Archives/Public/public-xg-geo/2007Jan/0002.html
http://www.w3.org/2007/12/sparql-pressrelease
Nous avons ici volontairement supprims les dfinitions de prfixes pour des raisons de lisibilit.

25

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

CONSTRUCT qui permet de transformer un graphe RDF en un autre graphe. On peut


ainsi voir cet oprateur comme le XSLT du Web Smantique (Section 4.1.2, page 140).
Par exemple, pour passer de notre modle un autre vocabulaire, on peut utiliser :
CONSTRUCT { ? entreprise mon_ontologie : situeDans ? pays }
WHERE { ? entreprise geonames : locatedIn < http :// sws . geonames .
org /3017382/ > }

Listing 1.7: Exemple de requte SPARQL CONSTRUCT


ASK qui permet de rpondre une requte, en identifiant si oui ou non le patron recherch est prsent dans le graphe interrog. Ainsi, "EDF est-il situ en France ?" peut
scrire :
ASK { athena : EDF geonames : locatedIn < http :// sws . geonames . org
/3017382/ > }

Listing 1.8: Exemple de requte SPARQL ASK


DESCRIBE qui renvoie sous forme dun graphe RDF une description de la ressource
passe en argument. Cette description est laisse la discrtion des implmenteurs
de moteurs SPARQL et peut pas exemple retourner lensemble des triplets ayant pour
sujet cette ressource. Dans ce cas, pour connatre lensemble des assertions relatives
EDF, on crira :
DESCRIBE athena : EDF

Listing 1.9: Exemple de requte SPARQL DESCRIBE


SPARQL offre galement la possibilit dutiliser les graphes nomms via le patron GRAPH,
par exemple pour restreindre les graphes o lidentification de patrons doit tre applique.
Nous reviendrons en dtail sur cette utilisation dans la partie consacre aux wikis smantiques (Section 4.2.1, page 148) et plus particulirement sur lutilisation que nous en faisons
au sein de loutil que nous avons mis en place (Section 4.2.2, page 154).
SPARQL souffre cependant de diffrentes limites, notamment par rapport un langage
comme SQL. Par exemple, il ne propose pas pour le moment de fonctions dagrgat, ni de
possibilit dajouter des donnes dans un graphe, SPARQL tant uniquement ddi des
requtes en lecture seule. Diverses extensions veillent cependant rsoudre ces limites et
ajouter de nouvelles fonctionnalits. Citons pas exemple la recherche par chemins et plus
uniquement par triplets (SPARQLer [Kochut et Janik, 2007]) ou lapproximation de requtes
(iSPSPARL [Kiefer et al., 2007]), des fonctionnalits proches tant implmentes dans le moteur SPARQL Corese [Corby et al., 2004]. Pour en revenir aux fonctions dagrgat, si elles
ne sont pas dfinies par la smantique de SPARQL, elles sont malgr tout implmentes

26

1.1 Formalismes et structures de donnes avec le Web Smantique

dans des moteurs comme ARC234 ou Virtuoso35 . Nous dtaillerons plus tard les efforts
concernant lajout et les modifications de donnes RDF avec SPARUL SPARQL Update
[Seaborne et al., 2008] (Section 5.1.3, page 195). Notons galement que certaines de ces propositions sont lordre du jour du nouveau groupe de travail au W3C autour de SPARQL36
dont nous sommes aujourdhui membre.
Enfin, [Prez et al., 2006] ont montr que certains types de requtes faisaient partie de
la catgorie des problmes N P complets [Garey et Johnson, 1979] tant donn le principe
de parcours de graphes quutilise SPARQL. Cependant, il est intressant de constater que
les requtes peuvent, de faon plus gnrale, tre optimises en fonction de lordre des patrons de requtes, de manire rduire successivement le graphe o la requte sapplique
[Stocker et al., 2008]. Nous pouvons imaginer qu lavenir, ces stratgies doptimisations seront implmentes dans la plupart des moteurs SPARQL, la manire de ce qui se fait pour
la rcriture automatique de requtes dans les systmes SQL [Kraft et al., 2003].
1.1.4

Web Smantique et Web of Data

Malgr les efforts de standardisation de ces diffrents langages qui posent les bases de
la reprsentation et de linterrogation de donnes sur le Web Smantique, il faut reconnatre
que jusqu rcemment, les donnes RDF disponibles sur le Web taient peu nombreuses.
Si FOAF, notamment au travers dexports natifs depuis certains sites comme LiveJournal37 ,
a permis dentrevoir une dmocratisation de ces donnes, le domaine est longtemps rest
limit. En contrepartie, de nombreuses donnes libre daccs (utilisant par exemple des
licences Creative Commons38 ) sont aujourdhui disponibles sur le Web. Cest devant ce
double constat quest ne linitiative Linking Open Data, supporte par le groupe Semantic
Web Education and Outreach du W3C39 , avec lobjectif dexposer en RDF un grand nombre
de donnes dj prsentes sur le Web (mais dans des formats htrognes ou sous forme de
simples documents HTML) et dinterconnecter celles-ci.
Pour parvenir cette vision plus pragmatique du Web Smantique (au sens o ce sont les
donnes et les bases de connaissances qui sont mises en avant, et non pas les ontologies et les
possibilits quelles offrent, vision que lon peut ainsi considrer comme un sous-ensemble
du Web Smantique), le projet repose sur les quatre principes du Linked Data dfinis par
[Berners-Lee, 2006b] :
utiliser des URIs pour nommer les choses ;
utiliser des URIs HTTP afin que lon puisse drfrencer ces choses ;
lorsque quelquun drfrence une URI, lui fournir des informations utiles son sujet ;
inclure des liens vers dautres URIs, afin que lon puisse dcouvrir plus dinformations ;
Linitiative, dbute en Juin 2007, a permis de produire un nombre impressionnant de
donnes lies (Figure 1.5, page 28), estimes aujourdhui plusieurs milliards dassertions
34

http://arc.semsol.org
http://virtuoso.openlinksw.com/
36
http://www.w3.org/2009/01/sparql-charter.html
37
http://livejournal.com
38
http://creativecommons.org
39
http://www.w3.org/2001/sw/sweo/
35

27

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

et issues de diffrentes sources de donnes aussi diverses que DBpedia40 (export RDF de Wikipedia) [Auer et al., 2007], les programmes de la BBC [Scott et al., 2008] ou encore les profils
utilisateurs de Flickr41 [Passant, 2008b]. Diffrentes stratgies sont utilises pour produire
ces liens entre donnes, de la contribution manuelle utilisateur [Hausenblas et al., 2008]
lutilisation dheuristiques plus pousses [Raimond et al., 2008], notamment pour grer les
problmes dambigut qui se posent.

Figure 1.5: Nuage de donnes du projet Linking Open Data42


Ces donnes tant issues de sources existantes, pour la plupart des documents (X)HTML,
nous pouvons nous poser la question de la relation qui existe entre (1) le document Web tel
que nous le connaissons aujourdhui, avec sa notion hyperliens, et (2) les donnes associes
et les relations quelles partagent. Selon nous, le document peut tre vu comme un simple
support ces donnes via les annotations smantiques associes, que celles-ci soient modlises dans un document RDF annexe associ la page (X)HTML ou inclues directement
avec RDFa. Par ailleurs, le document peut tre un support la fois pour la production (annotations extraites depuis celui-ci) et la visualisation de donnes (interface de navigation
40

http://dbpedia.org
http://apassant.net/blog/2007/12/18/rdf-export-flickr-profiles-foaf-and-sioc
42
Depuis http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData,
41

sous licence Creative Commons BY-SA

28

1.1 Formalismes et structures de donnes avec le Web Smantique

dans un graphe de connaissances). Nous aborderons ces deux points de vue dans la suite
de ce mmoire, tout dabord concernant la production (Section 4, page 137), puis la visualisation (Section 5, page 187) de donnes RDF. Comme le montre la figure qui suit, cette
correspondance se fait de plus assez naturellement en termes de reprsentation (Figure 1.6,
page 29). Une prochaine tape est selon nous lexploitation de toutes ces donnes et plus
uniquement des documents comme le font la majorit des moteurs de recherche traditionnels ou les navigateurs Web. Nous reviendrons sur cette exploitation de donnes RDF dans
le dernier chapitre de cette thse (Section 5, page 187).

foaf:Person

mo:MusicArtist

rdf:type

rdf:type

dbtune:terraces

Alexandre Passant

ex:listensTo

zitgistartist:aa7a2827-f74b-473cbd79-03d065835cf7>

coute

Franz Ferdinand

hyperlien

Web Smantique:
Donnes, modles
et relations

Interpretation

Web:
Documents et
hyperliens

Figure 1.6: Le document en tant que support de donnes pour le Web Smantique
On peut cependant reprocher certaines limites cette initiative Linking Open Data, notamment parfois un manque de formalisme dans les reprsentations extraites. Par exemple,
les premires versions de DBpedia ne reposaient sur aucune ontologie, la version 3.2 rsolvant ce problme43 mais avec une ontologie qui ne suis pas toujours ce que nous considrons
tre des bonnes pratiques de modlisation (Section 3.2.4, page 109). galement, lutilisation
abondante de certaines proprits la smantique forte, comme owl:sameAs44 qui introduit la notion didentit sur le Web Smantique, se fait parfois au dtriment de la qualit
des annotations produites et infres. owl:sameAs est en effet plus quun simple lien puisquil implique, via cette notion didentit entre instances (ou entre classes, dans le cas de
modles OWL-Full), la fusion des assertions lies celles-ci. Cette proprit est cependant
43
44

http://lists.w3.org/Archives/Public/public-lod/2008Nov/0025.html
http://www.w3.org/TR/owl-ref/#sameAs-def

29

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

frquemment utilise comme une simple relation entre deux ressources et entrane diffrents
problmes.
Dune part, comme le montre le listing qui suit (Listing 1.10, page 30), cette fusion peut
entrainer des inconsistances logiques. On peut ici voir que lutilisation de owl:sameAs
conduit des resources instances la fois de foaf:Person et de foaf:Document, fait inconsistant puisque ces deux classes sont disjointes dans FOAF (via owl:disjointWith)45 .
Dautre part, cette fusion entrane galement une perte de la provenance des diffrentes assertions au sujet des ressource concernes, comme le rappellent [Jaffri et al., 2008]. Ainsi, si
lon utilise owl:sameAs entre deux ressources au sujet desquelles des assertions ont t tablies des instants distincts (e.g. lge dune personne T et T + n), ces informations sont
combines sans que lon puisse identifier leur provenance, et en consquence lesquelles sont
aujourdhui valides ( moins de conserver les assertions dorigine sparment).
{
: resourceA a foaf : Person .
: resourceB a foaf : Document .
: resourceA owl : sameAs : resourceB .
} => {
: resourceA a foaf : Person ;
a foaf : Document .
: resourceB a foaf : Person ;
a foaf : Document .
}

Listing 1.10: Inconsistence logique cause par lutilisation de liens owl:sameAs entre
ressources
Afin de reprsenter la notion didentit entre ressources sur le Web Smantique46 sans
pour autant utiliser owl:sameAs, on peut considrer des alternatives comme lutilisation
dun Consistent Reference Service pour modliser URIs canoniques et URIs dquivalence
[Jaffri et al., 2007] (qui conserve un aspect distribu la diffrence de ce que propose OKKAM avec une centralisation des URIs [Bouquet et al., 2008]) ou lontologie UMBEL Upper
Mapping and Binding Exchange Layer [Bergman et Giasson, 2008] qui propose une proprit
umbel:isLike la smantique volontairement plus faible que owl:sameAs.
Malgr ces remarques, nous ne pouvons que nous rjouir de la vivacit du projet Linking Open Data et de sa communaut (notamment via lorganisation de workshops ddis
[Bizer et al., 2008]) et en consquence de cet amas de donnes RDF aujourdhui disponibles
en ligne. Celles-ci ont permis de faire un grand pas en avant dans lacceptation du Web
Smantique en tant que graphe global de connaissances, notamment au niveau du grand
public47 et dans la sphre entrepreneuriale avec des entreprises comme Zemanta48 ou Free45

On pourra se rfrer http://apassant.net/blog/2009/05/17/inconsistencies-lod-cloud


pour une brve analyse de ce genre derreurs au sein du project Linking Open Data.
46
Ce principe mme tant sujet dbat, comme le souligne [Halpin, 2009].
47
Mme si cela reste pour le moment destin une audience technophile.
48

30

http://zemanta.com

1.2 Du consommateur au producteur avec le Web 2.0

base49 qui rejoignent ces efforts en termes de production et dinterconnexion de donnes.


Nous pensons galement que celles-ci vont permettre daborder de nouveaux domaines de
recherche en grandeur nature, comme la notion de confiance des sources de donnes ou
linfrence large chelle.
1.2

D U CONSOMMATEUR AU PRODUCTEUR AVEC LE W EB 2.0

1.2.1

Une vision participative du Web

En contrepartie de cette volution du Web vers un modle o les donnes formalises


permettent de faciliter les changes dinformation, ces dernires annes ont vu apparatre
une autre vision du Web, plus sociale et conomique que technique, communment
appele Web 2.0. [OReilly, 2005] dfinit le Web 2.0 comme "a set of principles and practices
that ties together a veritable solar system of sites that demonstrate some or all of those principles,
at a varying distance from that core". Si cette dfinition reste assez floue on trouve cependant
parmi cet ensemble de principes fondamentaux (Figure 1.7, page 32) deux notions qui nous
paraissent particulirement importantes, savoir celles de Web en tant que plate-forme et celle
darchitecture participative (architecture of participation).
Cette premire notion reconsidre lutilisation du Web et de ses principes pour y fournir
des services et applications forte valeur ajoute plutt que des contenus essentiellement
statiques. Le rle du Web peut mme tre ddi celui de simple plate-forme dchange et
de transit de linformation comme dans le cas de RSS (Section 1.2.2, page 37). Par extension,
on regroupe galement sous ce terme la migration de services traditionnels (client mail, suite
bureautique ...) vers des applications en ligne.
Dans ce contexte, la notion darchitecture participative met en avant la production de
contenus forte valeur ajoute par effet de bord des usages rguliers et des intrts personnels que chacun poursuit en utilisant ces applications. Ceci se fait par ailleurs de manire
autonome en raison de la manire mme dont ces applications ont t conues. Nous verrons
par exemple en dtaillant lutilisation des wikis (Section 1.2.2, page 36) de quelle manire des
modifications tablies individuellement permettent denrichir globalement un document ou
un site de manire collaborative mais surtout continue et transparente. [OReilly, 2005] fait
ainsi lanalogie avec Dan Bricklin qui prsente comment les processus de dveloppement
open-source (le dveloppement de fonctionnalits par un utilisateur pour un besoin prcis
impliquant une volution gnrale de lapplication dont tous peuvent bnficier) et les architectures peer-to-peer (chaque consommateur devenant son tour fournisseur de donnes)
parviennent ce mme objectif50 . On peut galement comparer ces principes larchitecture
mme du Web, lajout dhyperliens entre documents permettant daccrotre la structure du
graphe global quil reprsente, renforant ainsi les possibilits gnrales de navigation.
Plus gnralement, on peut considrer le Web 2.0 comme une vision du Web mettant
disposition des utilisateurs un ensemble de services et de technologies visant faciliter
la production et le partage dinformations de manire intuitive et collaborative. Ainsi, le
Web devient un mdia participatif many-to-many, plus quun simple espace de stockage
49
50

http://freebase.com
http://www.bricklin.com/cornucopia.htm

31

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

Figure 1.7: Lcosystme Web 2.0 [OReilly, 2005]

titre essentiellement consultatif, lutilisateur final ayant de ce fait un rle central dans cette
dmarche51 . Pour y parvenir, les services Web 2.0 partagent pour la plupart un ensemble de
principes communs :
lutilisateur est au centre du service, en termes de publication et de raction. On peut
mme aller jusqu dire quil fait loutil, la valeur de ce dernier dpendant de son
contenu. Nous nous situons ici dans un schma inverse de celui des portails Web de
la fin des annes 90 abonds par une autorit ou une quipe de rdaction tablie a
priori. On peut ainsi considrer que de nombreux services Web 2.0 sont des contenants
vierges de tout contenu, ceux-ci tant soumis ladoption de loutil par les utilisateurs ;
le passage du statut de consommateur celui de producteur doit se faire simplement.
Le lecteur doit tre en mesure de ragir linformation quil consulte, a minima un
niveau infrieur celui du producteur originel de linformation consulte (commentaires sur les blogs), au mieux au mme niveau que celui-ci (dition de contenu sur un
wiki, services de partage de contenu, etc.). Pour accentuer cette simplicit, les interfaces se doivent galement dtre intuitives et sans prrequis technique ;
la composante sociale se doit dtre prsente non seulement en termes de publication
mais aussi en termes dchanges entre membres de la plate-forme. De tels services
doivent tre en mesure de stimuler les synergies entre internautes, voire de participer
51

Cest ainsi que le Time a consacr les internautes personnalit de lanne 2006. http://www.time.com/

time/magazine/article/0,9171,1569514,00.html

32

1.2 Du consommateur au producteur avec le Web 2.0

llaboration de rseaux sociaux, virtuels ou rels, certains outils y tant entirement


ddis.
Puisque nous voquons la notion dinterfaces intuitives, signalons que si les interfaces
utilisateur Web 2.0 mettent laccent sur la simplicit (AJAX Asynchronous JavaScript and
XML , autocompltion, etc.), leur usabilit est parfois mise dfaut [Silva et Dix, 2006]. Par
exemple, certaines pages gnres totalement ave AJAX nont pas dURL propre, do une
difficult pour y accder, alors que lutilisation de CAPTCHAs pour sinscrire sur certains
sites rend complexe leur accs pour les dficients visuels, comme le souligne un rapport analysant cinq sites majeurs de rseaux sociaux [AbilityNet, 2008]. A cet gard, on peut consulter les documents Web Content Accessibility Guidelines (WCAG) 2.0 [Caldwell et al., 2008] et
Accessible Rich Internet Applications (WAI-ARIA) [Craig et al., 2009] qui listent un ensemble
de bonnes pratiques pour la mise en place de sites Web.
Malgr ces caractristiques communes, les services offerts sont relativement divers. Ainsi,
les blogs (Section 1.2.2, page 34) mettent en avant lindividu, en offrant un systme de publication personnelle en ligne. Les wikis (Section 1.2.2, page 36) ont quant eux pour objectif
de participer llaboration collective et consensuelle de contenu. De nombreux services de
partage de donnes ont galement fait leur apparition, favorisant gnralement la dfinition
de rseaux sociaux (Section 1.2.3, page 42). Afin doffrir un cadre lgal ces diffrentes donnes publies et partages, linitiative Creative Commons permet aux utilisateurs de choisir,
via diffrentes licences, de quelle manire ils autorisent la rutilisation des donnes ainsi
mises disposition sur le Web. Un autre aspect important dans lutilisation de ces outils est
la notion de mash-up, ou application composite, permettant de combiner les donnes provenant de divers services ou de les visualiser avec de nouvelles interfaces. De nombreux
services Web 2.0 proposent en effet aux dveloppeurs des APIs permettant de rutiliser les
donnes produites en leur sein. Il est ainsi possible de combiner les donnes provenant des
diffrentes applications, mais galement de les combiner avec dautres interfaces de visualisation, par exemple dans un but de golocalisation comme le propose lAPI Google Maps52 .
Malheureusement, ces APIs sont le plus souvent propritaires au sens o chaque service
dispose dune API distincte, contraignant les dveloppeurs apprendre les spcificits de
chacune. Il en est de mme pour les formats de rponse de ces APIs, dpendants des services interrogs. Pour une liste et une actualit plus complte des pratiques et services qui
fleurissent chaque jour sur le Web, on pourra consulter un site comme Techcrunch53 .
Indpendamment de cette diversit, il est intressant de constater que cette gnration
doutils a introduit de nouvelles pratiques sociales en termes de partage dinformation. L
o linternaute avait auparavant tendance restreindre la diffusion dinformation un public prdfini, ces outils introduisent une notion de publication ouverte, o la cible nest
pas contrle par lutilisateur. Si lon peut comprendre une certaine rticence partager sa
vie prive ou son savoir de cette manire, notamment dans un contexte dentreprise (Section 2.1.4, page 59), nombreux sont les utilisateurs publiant volontairement de cette manire.
On parle ainsi de social software ou de social media pour voquer certains de ces outils et les
paradigmes sociaux associs.
52
53

http://code.google.com/intl/fr-FR/apis/maps/
http://techcrunch.com

33

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

Bien que lutilisation de lindice 2.0 laisse entrevoir, la manire des versions logicielles,
une volution du Web par rapport sa vision originelle (Section 1.1.1, page 12), il sagit
principalement dvolutions sociologiques et conomiques comme le souligne louvrage Wikinomics54 [Tapscott et Williams, 2007]. Malgr tout, en raison de sa forte interaction avec
les utilisateurs, cette volution a introduit de nouvelles pratiques en matire de dveloppement logiciel, notamment un certain nombre de design patterns spcifiques au Web 2.0
[Nickull et al., 2008]. Parmi ceux-ci, [OReilly, 2005] incite les concepteurs de services dpasser les processus traditionnels de dveloppement et de livraison de nouvelles versions
par paliers pour proposer aux utilisateurs de tester en flux continu leurs nouvelles ides, et
bnficier dun retour sur exprience immdiat, avec cette notion de bta perptuelle. Pour
complter ce point, le lecteur pourra se rfrer aux tudes sociologiques de Danah Boyd sur
la manire dont les adolescents sapproprient ou font voluer des services forte audience
comme MySpace55 par leur pouvoir dacceptation ou de refus de nouvelles fonctionnalits
[Boyd, 2008]. Dun point de vue plus technique, on peut faire lanalogie entre ces pratiques
et les principes du dveloppement agile [Cohen et al., 2004], mis en avant par lavnement
de frameworks logiciels comme Ruby On Rails56 . Ceux-ci mettent aussi laccent sur des interactions frquentes entre clients et matre douvrage la manire de ce que peut proposer
lextreme programming [Beck, 1999].
1.2.2

Blogs, wikis, rseaux sociaux et syndication de contenu

Blogs et publication personnelle dinformation


Un blog, diminutif de weblog, est un site prsentant sur sa page daccueil un ensemble
de billets (posts dans le vocabulaire anglophone) consistant en des notes ou articles plus ou
moins longs et ordonns de manire antchronologique, lusage dhyperliens (internes et externes) y tant abondant. Un blog est en gnral personnel et donc maintenu par un unique
auteur ou blogueur , mais peut aussi tre partag entre plusieurs rdacteurs, chacun
ayant alors pour habitude de signer distinctement ses billets. En effet, le blog, contrairement
au wiki que nous voquerons dans la section suivante, met fortement laccent sur la notion
didentit de lauteur en tant que producteur de contenu. La notion de collaboration nest
alors pas lie la rdaction de billets, mais la possibilit que les lecteurs ont de ragir
aux propos consults par lintermdiaire de commentaires associs aux billets. Cet aspect
participatif permet ainsi chacun de former et de fidliser une communaut de lecteurs
volutive et ractive autour de soi et de ses crits ou opinions, notion de rseau social que
nous dtaillerons par la suite (Section 1.2.3, page 42).
nouveau, ce nest pas laspect technologique des blogs qui fait leur force, mais leur
simplicit de mise en uvre et dutilisation couple la composante collaborative voque
ci-dessus. De nombreux services proposent la cration dun blog en quelques minutes (Blogger57 , Wordpress.com58 ...) et les outils pour installer son propre systme sont galement
54

http://www.wikinomics.com/book/
http://myspace.com
56
http://rubyonrails.com
57
http://blogger.com
58
http://wordpress.com
55

34

1.2 Du consommateur au producteur avec le Web 2.0

nombreux. La publication se fait sans connaissance technique via une interface Web ou dans
certains cas directement depuis son poste de travail ou un terminal mobile, contribuant
lubiquit de la prsence en ligne dun individu. Ainsi, les blogs ont remis au got du jour le
concept de page personnelle, la nature spontane et rgulire des billets et leur prsentation
antchronologique offrant cependant une dynamique tout autre.
La nature des blogs aujourdhui disponibles sur le Web est assez diverse, puisquon y
trouve aussi bien des journaux intimes dadolescents, des blogs dexports, que des blogs
dopinion. Certains dentre eux, notamment les blogs dopinion ou les blogs politiques,
qui mettent en avant le concept de journalisme citoyen, ou grassroots journalism, peuvent
mme concurrencer en termes daudience les grands quotidiens comme le montrent notamment des tudes de Technorati sur le sujet59 . Il est galement intressant de constater, toujours dans cette perspective de rapport lactualit, le parallle en termes de publication et de temporalit de linformation qui existe entre blogs et mdias traditionnels
[Cointet et al., 2007]. Pour une tude sociologique plus complte sur ce phnomne de journalisme citoyen on pourra consulter louvrage We the Media60 [Gillmor, 2004]. On peut enfin
galement noter que si les contenus sont variables, tout comme les frquences de mise jour,
le nombre de blogs est en constante augmentation. Ainsi, Technorati61 , service rfrenant
les blogs sur le Web et proposant un moteur de recherche associ, en recensait plus de 70
millions dbut 2007 (Figure 1.8, page 36) et plus de 130 millions en 200862 .
Une des forces des blogs, comme nous lavons voque, est la possibilit dexpression
spontane quils offrent et en consquence les discussions quils engendrent. cet gard,
il nous semble important de signaler lexplosion rcente du phnomne de microblogging,
popularis par Twitter64 . mi-chemin entre le blog et la messagerie instantane, ce mode
de communication se traduit par la publication de courts messages (gnralement moins de
140 caractres) non-titrs et sans restriction de contenu. Si ces messages sont gnralement
proches de la notification de statut personnel, ils peuvent aussi servir au signalement lger
dinformations (en postant par exemple un simple lien vers une ressource en ligne juge
intressante) et permettent de manire plus gnrale une communication agile entre les personnes les postant et ceux y rpondant ou simplement les suivant [Java et al., 2007]. Puisque
nous voquions auparavant la notion de journalisme citoyen, notons galement le rle jou
par Twitter ce sujet, du fait des diffrentes possibilits quil offre pour la publication de
message (via Web, e-mail, SMS, etc.) ainsi que vis--vis des modes de ractions associs et
de la propagation de ces messages 65 .
59

http://technorati.com/weblog/2006/02/83.html
http://wethemedia.oreilly.com/
61
http://technorati.com
62
http://technorati.com/blogging/state-of-the-blogosphere/
63
http://www.sifry.com/alerts/archives/000493.html
64
http://twitter.com
65
http://www.journalisme.sciences-po.fr/index.php?option=com_content&task=view&id=
303&Itemid=112
60

35

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

Figure 1.8: Etat de la blogosphre, Avril 200763

Wikis et consensus informationnel


Un wiki [Leuf et Cunningham, 2001] est un site Web dynamique et volutif, au sens o
il permet chaque lecteur de modifier les pages consultes et den ajouter de nouvelles mais
aussi den supprimer. Ainsi, la dynamique dun wiki sobserve non seulement vis--vis du
contenu de ses pages mais aussi via larchitecture gnrale de celui-ci, voluant selon les
actions utilisateurs. Un wiki nest gnralement pas ax sur des informations contextualises temporellement et produites par un auteur unique identifi (cas du blog), mais sur
la construction collaborative et incrmentale de contenu consensuel. Les usages des wikis
sont divers, de lencyclopdie gnraliste lexemple le plus parlant tant Wikipedia66
la documentation de projets open-source (par exemple Trac67 ), louverture du site sinscrivant ici dans la continuit du libre accs du code. Mme si ces outils ont t populariss
rcemment, le premier prototype de wiki date de 199468 le nom trouvant son origine dans
le terme hawaen wiki wiki, signifiant vite. Parmi les caractristiques essentielles des wikis,
nous retiendrons :
des processus simples pour la participation. Par dfaut, chaque lecteur doit tre en
mesure dditer le contenu dun wiki quelque soit le niveau de modification souhait
(ajout, cration ou suppression de pages) via le mme outil que celui qui permet la
66

http://wikipedia.org
http://trac.edgewall.org/
68
http://c2.com/cgi/wiki
67

36

1.2 Du consommateur au producteur avec le Web 2.0

visualisation du site. Pour ce faire, une syntaxe particulire est gnralement utilise
et des processus de normalisation tels que Creole69 ont t proposs ce sujet, sans
grand succs cependant ;
en consquence de cette dition ouverte, chaque page doit bnficier dun historique
des modifications. Celui-ci permet de revenir simplement une version prcdente
(en cas de modifications juges non souhaites pour la communaut, ou de vandalisme) ou simplement de consulter les modifications apportes entre deux versions.
Certains wikis permettent galement de sabonner au flux des modifications dune
page (Section 1.2.2, page 37) ;
le rle important jou par les hyperliens. Un wiki doit permettre dtablir facilement
des liens entre pages du mme wiki. Pour ce faire, on utilise gnralement la syntaxe
MotWiki qui permet dtablir automatiquement un lien vers une page portant ce nom
ou den crer une si celle-ci nexiste pas. Cette pratique renforce la dynamique des
wikis et vite la prsence de pages orphelines, i.e. sans lien entrant. La notion de rtrolien est galement trs prsente, chaque page listant lensemble des pages ayant un
lien entrant vers celle-ci. Cette pratique tend ainsi la notion de source et de direction
des hyperliens pour offrir une navigation double sens entre les pages.
Si le principe douverture des wikis en fait dans lidal un outil adquat pour la constitution collaborative de documents ou de sites, il soulve de nombreuses questions et introduit
galement des problmes de spam ou de vandalisme. Ainsi, si certains systmes introduisent
des restrictions daccs pour la modification des pages, dautres sorganisent comme des espaces autogrs o les utilisateurs rectifient eux-mmes les pages modifies dans un sens
nallant pas avec celui dfini, explicitement ou non, par la communaut. Nous reviendrons
plus loin dans ce manuscrit sur des exemples dutilisation des wikis dans un contexte dentreprise et sur les problmes rencontrs pour faire accepter loutil dans un tel milieu (Section
2.2, page 62).
Syndication de contenu et personnalisation de laccs linformation avec RSS
Devant cette abondance de contenus en ligne et leur rgulire volution, il est ncessaire
de fournir un moyen dobtenir le signalement dinformations pertinentes selon les centres
dintrt de chacun. La syndication de contenu a pour objectif de rpondre ce problme,
en offrant aux sites un moyen de dlivrer automatiquement un flux constamment actualis
de leurs dernires mises jour, auquel les lecteurs peuvent sabonner. Dans le but de formaliser ce processus et doffrir un format standard de donnes, plusieurs modles ont vu
le jour, comme NewsML70 ds 2000 pour les changes entre fournisseurs dinformations et
agrgateurs de donnes. Aujourdhui, ces flux majoritairement modliss en RSS ou Atom et
gnralement srialiss en XML sont disponibles sur la plupart des plates-formes de blogs
et de wikis et sur une majorit dapplications Web 2.0. Lutilisateur peut souscrire ces
flux via un agrgateur, logiciel client ou service en ligne offrant une vision humainement
lisible de ces informations brutes et tirant partie des diffrentes mtadonnes contenues
dans ces flux pour ordonner les lments par date, source ou encore par auteur. Ces ap69
70

http://www.wikicreole.org/wiki/Creole1.0
http://www.newsml.org

37

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

plications permettent galement de rcuprer intervalles rguliers les dernires mises


jour des dits flux, certains flux RSS spcifiant directement leur frquence de rafrachissement via leurs mtadonnes71 . RSS se dcline en diffrentes versions, certaines provenant
de groupements privs (0.9, propose par Netscape), certaines fermes (2.0, fige) et dautres
provenant de groupes de travail ouverts (1.072 , base sur RDF et en consquence volutive
puisque permettant lintgration de vocabulaires externes). Cest notamment devant cette
confusion que sest cr le groupe de travail autour dAtom, aujourdhui standard de lIETF
[Nottingham et Sayre, 2005] et galement associ un protocole de publication73 .
Quelque soit sa version, un flux RSS se compose dun conteneur (channel), contenant
un certain nombre dlments (item) gnralement limits aux 10 ou 20 dernires mises
jour de ce conteneur. Un exemple classique de flux RSS pour un blog va par exemple lister
les 20 derniers billets posts sur celui-ci. Atom, propose quand lui cette mme organisation, mais via lutilisation des lments feed et entry. chaque lment est associ un
certain nombre de mtadonnes comme la date, lauteur ou encore lURL de llment, certaines obligatoires, dautres optionnelles, ce point variant selon les formats. Le code qui suit
prsente un flux RSS 2.0 pour un blog comportant deux entres (Listing 1.11, page 38).
< rss version ="2.0" >
< channel >
< title > Mon site exemple </ title >
< description > Flux RSS exemple </ description >
< link > http :// www . example . org </ link >
< item >
< title > Actualit 2 </ title >
< description > Contenu d un billet </ description >
< pubDate > Wed , 27 Jul 2007 04:30:00 -0700 </ pubDate >
< link > http :// www . example . org / actu2 </ link >
</ item >
< item >
< title > Actualit 2 </ title >
< description > Contenu d un billet </ description >
< pubDate > Mon , 25 Jul 2007 00:30:30 -0700 </ pubDate >
< link > http :// www . example . org / actu1 </ link >
</ item >
</ channel >
</ rss >

Listing 1.11: Exemple de flux RSS 2.0


Alors que les outils du Web 2.0 ont remis en cause certains principes de publication sur
le Web, en mettant lutilisateur final au centre de cette dmarche de production, la syndication de contenu met celui-ci au centre de la consommation dinformation. Celle-ci est devenue
71
72
73

http://web.resource.org/rss/1.0/modules/syndication/
http://web.resource.org/rss/1.0/
Une version RDF dAtom est galement disponible avec Atom-OWL. http://bblfish.net/work/

atom-owl/2006-06-06/AtomOwl.html

38

1.2 Du consommateur au producteur avec le Web 2.0

galement personnalisable et paramtrable, par opposition la diffusion dinformations par


e-mail o le lecteur ne peut contrler la frquence o linformation lui est dlivre. On retrouve de plus via la syndication de contenu cette notion de Web en tant que plate-forme
voque prcdemment (Section 1.2, page 31), le Web pouvant mme tre utilis comme
simple interface de diffusion de donnes. Ceci est dautant plus flagrant lorsque les contenus sont posts et consomms depuis des applications hors-ligne, le Web ntant alors plus
quun hub numrique de transit de linformation (Figure 1.9, page 39). Enfin, comme nous
le montrerons tout au long de ce mmoire via nos travaux, nous retiendrons de cette section que lutilisation de modles communs pour la reprsentation de donnes du Web 2.0,
dont RSS est un premier exemple, offre de nombreuses perspectives en termes dchange,
douverture et dinterrogation de linformation dans un contexte distribu comme celui du
Web.

Publication via une


application desktop

Souscription au flux RSS


via un terminal mobile
Serveur de blogs

Consommateur

Producteur

Figure 1.9: Le Web en tant que plate-forme, lexemple de RSS

1.2.3

Mtadonnes sociales : tags et folksonomies

Enfin, face cette abondance dinformations, facilite par les outils et services prsents
en amont, se pose le problme dun accs pertinent celle-ci. Jusqu prsent, cette tche
tait essentiellement rendue possible via des systmes classiques dindexation de pages
Web. Le Web 2.0 a introduit une autre pratique, base sur la catgorisation des contenus
par les utilisateurs eux-mmes via lassociation aux ressources en ligne de mots-cls libres
(aussi bien en type, nombre ou langue), ou tags. Il est important de noter que :
dune part cette pratique ne se limite pas aux donnes textuelles mais quil est possible
de taguer des ressources numriques aussi diverses que des photos (Flickr) ou des
vidos (YouTube) comme nous le verrons par la suite (Section 1.2.3, page 42)
dautre part, certains sites proposent dtiqueter non seulement les contenus des utilisateurs, mais aussi ceux, dj tagus, dautres utilisateurs (Delicious).
Cette pratique sest galement rpandue sur la blogosphre, de nombreux billets de blog
tant annots de cette manire, un service comme Technorati permettant ensuite de visualiser ceux-ci et de restreindre la recherche dinformation un tag prcis.
De par son rattachement un contenu existant, un tag peut essentiellement tre vu
comme une mtadonne supplmentaire associe une ressource. Cependant, alors quun
39

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

outil de blog associe automatiquement un billet la date de cration de celui-ci et le nom de


son auteur, quune photo possde ses mtadonnes EXIF pour identifier ses caractristiques,
les mtadonnes ici gnres sont de lordre de mtadonnes contrles et personnalises
par lutilisateur lui-mme, ou mtadonnes sociales. Si lon se rfre lusage de mtadonnes dans les bibliothques numriques, on peut en identifier trois types [Taylor, 1999] :
les mtadonnes descriptives, caractrisant le contenu de la ressource et utilises essentiellement dans une optique de recherche dinformation ;
les mtadonnes structurelles, tablissant des liens entre ressources et tablies gnralement de manire automatique depuis ces mmes ressources ;
les mtadonnes administratives, qui dfinissent par exemple les droits daccs ou les
restrictions de copyright de la ressource.
Il est intressant de constater que si la majorit des tags peuvent facilement tre perus comme des mtadonnes descriptives (car essentiellement relatifs au contenu de la ressource, y dcrivant ses sujets principaux), certains sont utiliss par les utilisateurs comme
des mtadonnes administratives ou mme structurelles. Ainsi, on observe sur Delicious
lutilisation des tags creativecommons ou gpl relatifs aux licences du contenu annot, ou
encore w3c ou slashdot pour indiquer que la ressource est issue du site en question. Des
tudes ont galement montr que les tags pouvaient se rvler de diverse nature. Ainsi,
[Golder et Huberman, 2006] ont identifi sept usages diffrents des tags comme lannotation relative au contenu du document annot (cas le plus classique), la rfrence personnelle
(a_lire), ou lopinion au sujet dune ressource (drole). [Marlow et al., 2006] ont galement
montr que les tags pouvaient dans certains cas avoir un aspect social permettant lutilisateur de se mettre en avant (ex : vu_en_concert). Enfin, [Berendt et Hanser, 2007] ont
montr que les tags pouvaient dans certains cas, plus que des mtadonnes, tre considrs
comme du contenu additionnel relatif la ressource annote. Quoi quil en soit, la pratique
des tags est donc assez diverse est dpend fortement du contexte dutilisation et du vcu numrique des utilisateurs, ce que nous confirmerons plus tard en prsentant une utilisation
de ces mmes principes dans un contexte dentreprise (Section 2.2.3, page 63).
lutilisation de ces tags est lie la pratique dtiquetage ou de tagging, association par
un utilisateur dun tag une ressource donne (billet de blog, photo ...). Cette relation qui
forme ainsi une relation tripartite [Mika, 2005] peut se reprsenter par :
T agging(U tilisateur, Ressource, T ag)

(1.2)

telle que :
U tilisateur correspond lutilisateur qui effectue laction ;
Resource correspond la ressource annote (billet de blog, page Web ...) ;
T ag correspond au tag utilis ;
T agging correspond laction liant ces trois lments.
Certains ont propos de contextualiser cette relation temporellement [Newman et al., 2005]
ou en fonction de la source (i.e le site) o laction a t effectue [Gruber, 2007]. Nous verrons
plus tard comment nous proposons dtendre ce modle en prenant en compte la signification dun tag dans un contexte particulier de tagging (Section 3.3.2, page 126).

40

1.2 Du consommateur au producteur avec le Web 2.0

tant donn que plusieurs tags peuvent tre associs par un mme utilisateur une
mme ressource, et quun mme tag peut tre associ une mme ressource par diffrents
utilisateurs, les actions de tagging ne sont en gnral pas isoles (Figure 1.10, page 41). On
utilise donc lappellation de social tagging ou de mtadonne sociales comme nous lavons
voqu auparavant pour dfinir ce phnomne. Ainsi, la figure qui suit reprsente trois
actions de tagging (T 1, T 2, T 3) associs une mme ressource (photo) via deux utilisateurs
(U 1, U 2) et deux tags distincts (mac, laptop) de la manire suivante :
T 1(U 1, mac, photo)
T 2(U 2, mac, photo)
T 3(U 3, laptop, photo)
laptop

photo

T3

U2

T2

T1

U1

mac

Figure 1.10: Actions de tagging combines autour dune mme photo


Cet ensemble dactions de tagging au sein dun espace donn (site Web, plate-forme de
blogs ...) forme ce quon appelle une folksonomie [Vander Wal, 2007], terme hrit du croisement entre folks (les gens) et taxonomy (taxonomie) et dont la pratique a fait lobjet de
nombreuses publications ces dernires annes [Mathes, 2004] [Halpin et al., 2007]. Une folksonomie est ainsi issue dun ensemble dactions de tagging et peut se formaliser comme suit.
F olksonomie(U ser, Resource, T ag, T agging)

(1.3)

telle que :
U ser correspond un ensemble (fini) dutilisateurs ;
Resource correspond un ensemble (fini) de ressources annotes ;
T ag correspond un ensemble (fini) de tags ;
T agging correspond la relation qui permet de lier les lments de ces diffrents ensembles, telle que dfinie prcdemment (quation 1.2, page 40).
Si la simplicit de lapproche fait la force des systmes base de tags, ceux-ci souffrent
de nombreux dfauts en termes de recherche dinformation, causs aussi bien par les problmes dambigut ou de synonymie des mots-cls que par leur nature totalement plate et
labsence de liens entre tags. Nous dtaillerons ces diffrents problmes par la suite (Section
41

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

2.2.3, page 63). A contrario, une de leurs forces se situe dans leur utilisation en termes de
navigation et dans les possibilits quils offrent pour la dcouverte de nouvelles informations. Lorganisation des liens entre ressources, tags et utilisateurs forme en effet un graphe
dans lequel il est possible de naviguer renforant ainsi la srendipit, quil sagisse de dcouvrir de nouveaux documents ou de nouveaux utilisateurs. La popularit des tags dans une
folksonomie est dautre part rendue visible par lutilisation de nuages de tags ou tagclouds,
offrant galement un autre mode de navigation pour les systmes base de tags (Figure 1.11,
page 42). Ces interfaces permettent galement davoir un aperu du champ lexical associ
une folksonomie, et peuvent tre restreintes aux tags dun utilisateur donn.

Figure 1.11: Exemple de nuage de tags (Delicious)

Partage de contenus, rseaux sociaux en object-centered sociality


En complment des outils et pratiques prsents jusqu maintenant, il nous semble important dvoquer des services de partage de contenus et les notions de rseaux sociaux qui
en dcoulent. Si les outils comme les blogs et les wikis permettent principalement ldition et
le partage de documents textuels, de nombreux services visent permettre la mise en ligne
(toujours via des interfaces simples daccs) de divers types dinformations : bookmarks (Delicious), photos (Flickr), vidos (YouTube), transparents (SlideShare74 ), etc. Dans un objectif
de dcouverte des contenus publis, ces services se basent gnralement sur lutilisation de
tags tels que prsents auparavant (Section 1.2.3, page 39).
Plus que le simple partage de contenus, une des forces de ces services est la notion de
rseaux sociaux associs aux diffrents contenus publis. Par exemple, Flickr permet de poster des photos mais surtout de crer des groupes autour de diffrentes thmatiques, sur
lesquels des discussions peuvent tre menes. Il en est de mme sur Slideshare, o les transparents peuvent tre rassembls au sein de groupes particuliers, offrant ainsi une visibilit
plus grande aux contenus publis. Dans un registre diffrent, last.fm75 permet dtablir des
74
75

42

http://slideshare.net
http://last.fm

1.3 Complmentarit entre les deux domaines

communauts dintrt autour dartistes ou de styles musicaux. Si dautres services sont


consacrs la simple laboration de rseaux sociaux, quils soient destins un public professionnel comme LinkedIn76 ou de manire plus large comme Facebook77 , les services sont
en gnral centrs autour de notions (photos, vidos, etc.) ou de thmatiques particulires
(style musical, technologie, etc.). Ainsi, comme soulign par [Breslin et Decker, 2007], on
parle souvent dobject-centered sociality78 , les utilisateurs changeant et se retrouvant autour
de ces objets particuliers pour y former des rseaux sociaux.
Cette notion de rseaux sociaux est galement prsente sur les blogs. [Cardon et al., 2007]
ont ainsi prsent diffrentes manires dont des communauts pouvaient se former autour
dun blog donn, en fonction des liens que les membres dune communaut partagent dans
la vie relle, ou bien selon des centres dintrts communs. Dans ce contexte, des services
comme MyBlogLog79 permettent en outre de formaliser ces communauts et dinterconnecter certaines en fonction de leurs membres.
1.3

C OMPLMENTARIT ENTRE LES DEUX DOMAINES

1.3.1

Synthse des deux visions

la lecture des sections prcdentes, nous pouvons donc identifier :


dun ct une vision du Web axe sur la reprsentation formelle des donnes et des
moyens dchanger celles-ci (RDF, ontologies, SPARQL ...) avec le Web Smantique
(Section 1.1, page 12) ;
de lautre une vision centre sur la collaboration entre internautes via des outils aux
fonctionnalits attractives (systme de tags, mash-ups ...) (Section 1.2, page 31).
Le tableau suivant synthtise, de manire volontairement exagre, diffrents aspects de ces
deux visions (Tableau 1.3.1, page 43).

Destination
A priori
Background
Langages de reprsentation
Modes de publication
Indexation
Interrogation

Web Smantique
Agents logiciels
Complexit
Acadmique
RDF(S)/OWL
Centralise
Annotations et Ontologies
SPARQL

Web 2.0
Humains
Pragmatisme
Dveloppeurs Web
(X)HTML, Microformats
Collaboration
Tags et Folksonomies
APIs propritaires

Tableau 1.2: Caractristiques compares du Web Smantique et du Web 2.0


Si cette synthse cloisonne fortement et volontairement ces deux visions, il faut reconnatre que certains a priori ici prsents ont souvent t voqus pour mettre en opposition
76

http://linkedin.com
http://facebook.com
78
http://www.zengestrom.com/blog/2005/04/why_some_social.html
79
http://mybloglog.com
77

43

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

celles-ci. On peut par exemple se rfrer aux discussions via blogs interposs entre Clay
Shirky80 et James Hendler81 au sujet des folksonomies et des ontologies o lopposition
entre Web Smantique top-down et bottom-up82 , qui est selon nous un non-sens83 . Ces discussions font cho une incomprhension gnrale qui a longtemps caus du tort au Web
Smantique, savoir la vision dune unique ontologie centralise et rfrente pour dcrire
le monde, chose dont il na jamais t fait tat, du moins dans [Berners-Lee et al., 2001]
Malgr ces distinctions, nous pensons comme dautres [Gandon, 2006] [Gruber, 2008]
[Ankolekar et al., 2008] que ces deux visions ne sont pas contradictoires et que, bien au
contraire, elles peuvent - et doivent - chacune bnficier des apports et travaux de lautre
communaut. Ceci doit permettre de converger vers une unique vision du Web, optimis
la fois pour les humains et les machines, au niveau des modes de publication pour le premier
et de la modlisation des donnes pour le second. Cest cette convergence qui, selon nous,
permettra daboutir un Web de Donnes issues dinteractions sociales tout en tant rutilisable de manire autonome via des agents logiciels au sein dcosystmes informationnels
smantiques et sociaux (Social Semantic Information Spaces) (Figure 1.14, page 47).
Nous allons ainsi dans les sections suivantes prsenter de manire assez gnrale comment nous envisageons cette convergence et comment se situent certains travaux au sein de
cette mouvance de Social Semantic Web ou Semantic Web 2.0 qui progresse depuis quelques
annes [Breslin et Decker, 2006]. Ces rflexions seront au centre des travaux prsents dans
les chapitres suivants, o nous dtaillerons les modles de reprsentation et les outils que
nous avons mis en place pour y parvenir, notamment au sein dun mdiateur smantique
collaboratif pour lEntreprise 2.0 (Section 2.3, page 69). Les ides qui suivent sont ici prsentes essentiellement dans une perspective de rflexion qui permettra au lecteur de mieux
apprhender la suite de ce mmoire. Celles-ci seront en outre reprises en dtail dans les
chapitres suivants.
1.3.2

Apports du Web 2.0 pour le Web Smantique

Si lon se base sur la vision du Web 2.0 en tant que systme centr sur lutilisateur (Section 1.2, page 31), il nous semble important pour le Web Smantique de rutiliser certains
paradigmes de celui-ci afin de monter en puissance :
lutilisation doutils simples pour la production grande chelle de donnes formalises selon les principes du Web Smantique, publies de manire personnelle (blogs)
ou collaborative (wikis). Ainsi, et nous le verrons par la suite, les blogs et les wikis peuvent savrer des interfaces efficaces pour la production dannotations smantiques, sans pour autant confronter lutilisateur aux modles sous-jacents (Section 4,
page 137) ;
la masse importante dutilisateurs passs du statut de consommateur celui dacteur.
Si le Web 2.0 est en effet un read-write Web, qui plus est collaboratif, les outils du Web
80

http://www.shirky.com/writings/ontology_overrated.html
http://www.mindswap.org/blog/2007/11/21/shirkyng-my-responsibility/
82
http://www.readwriteweb.com/archives/the_top-down_semantic_web.php
81

83

On peut certes considrer quil existe des ontologies top-down ou bottom-up, notamment via la notion de
smantique mergente partir des tags (Section 3.3.1, page 121), mais lappellation Web Smantique bottom-up
nous semble inapproprie partir du moment o lon parle dun mode de reprsentation de donnes.

44

1.3 Complmentarit entre les deux domaines

Smantique peuvent ainsi bnficier dune masse importante dutilisateurs producteurs de donnes formalises, pour autant que les outils soient simples et adapts
comme indiqu dans le point prcdent ;
la collaboration entre utilisateurs des fins de cration collective et consensuelle dinformations et de connaissances, en corollaire des lments prcdents. Ainsi, les folksonomies mais surtout les wikis peuvent tre utiliss pour peupler ou maintenir des
ontologies de manire collaborative, comme nous le verrons par la suite (Section 4.2.1,
page 148) ;
lutilisation dinterfaces simples et intuitives, pour la visualisation et la navigation de
graphes complexes dannotations smantiques. Si ces structures de donnes sont relativement complexes, lutilisation doutils comme des interfaces facettes permettrons
de masquer cette complexit aux utilisateurs (Section 5.2.3, page 206) ;
plus gnralement la mise en place de mash-ups smantiques attractifs, proposant des
nouveaux moyens de parcourir et visualiser ces informations modlises en RDF et
issues de sources de donnes rparties sur le Web (Section 5.2.3, page 207).

Utilisateurs

Collaboration
Interfaces

Publication

Mash-ups

Web Smantique

Figure 1.12: Web 2.0 pour le Web Smantique


On considre donc ici le Web 2.0 comme un support la cration, visualisation et manipulation de donnes formalises selon les principes du Web Smantique (Figure 1.12,
page 45). En effet, la plupart des outils actuels du Web Smantique ncessitent un temps
dapprentissage qui nest pas ngligeable, ajouter aux connaissances ncessaires pour aborder la modlisation de donnes selon ses principes et lutilisation dontologies. Si la russite
du Web en termes de publication de contenu est passe en partie par lutilisation dditeurs
(X)HTML simples, dinterfaces WYSIWYG et autres outils avec un temps dapprentissage
45

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

trs faible (blogs, wikis ...), nous pensons que les technologies du Web Smantique ont tout
gagner en proposant galement des interfaces intuitives et collaboratives pour la visualisation et la production dannotations smantiques.
1.3.3

Apports du Web Smantique pour le Web 2.0

Rciproquement, si les outils du Web 2.0 proposent des mthodes qui nous semblent
efficaces en termes dusages et dinterfaces, nous pensons que lutilisation des technologies
du Web Smantique ne peut tre quun plus en termes de structuration et dchange de
donnes sur le Web 2.0.

Mtadonnes

Ontologies

Reprsentation
Requtes

Web 2.0

Figure 1.13: Web Smantique pour le Web 2.0


En se basant sur les outils et langages du Web Smantique, les outils du Web 2.0 peuvent
ainsi profiter de (Figure 1.13, page 46) :
lutilisation de modles communs pour reprsenter leurs mtadonnes, logiquement
bass sur RDF, en lieu et place dAPIs htrognes. SIOC [Breslin et al., 2005] rpond
cette problmatique en proposant un vocabulaire pour dfinir les mtadonnes du
Web 2.0 (notion de billet, dutilisateur, de commentaire ...) via les technologies du Web
Smantique. Il permet ainsi de ne plus considrer blogs, wikis et autres services en
ligne comme des silos de donnes indpendants mais comme des services interconnects o lchange dinformations peut se faire de manire transparente (Section 3.1,
page 84), permettant de rsoudre la problmatique des "walled gardens" que sont gnralement les services Web 2.0 (Section 3.1.5, page 96) ;
lutilisation dontologies mtier pour permettre la structuration des connaissances produites via ces outils. Lutilisation dontologies du domaine doit permettre de capitaliser des connaissances (issues par exemple de blogs ou de wikis) de manire formelle
46

1.3 Complmentarit entre les deux domaines

des fins de rutilisation entre services. En ce sens, les wikis smantiques nous semblent
un bon exemple dutilisation de technologies du Web Smantique pour augmenter le
potentiel doutils existants et dj bien accepts sur le Web 2.0 (Section 4.2.1, page 148) ;
lutilisation de protocoles de requtes et dchange standardiss. Lutilisation de RDF
pour la production de donnes et de SPARQL pour leur interrogation permet ainsi
de simplifier linteroprabilit entre applications. On favorise en ce sens la dcouverte
de contenus rpartis sur diffrents services Web 2.0 ainsi que la cration de mash-ups
smantiques moindre cot.
Ainsi, les outils du Web 2.0 peuvent bnficier des technologies du Web Smantique
pour assurer la structuration et lhomognit des donnes produites : en saffranchissant
des formats internes et dAPIs propritaires, on facilite les changes entre et depuis des systmes originellement htrognes. En consquence, les outils du Web 2.0 peuvent galement
participer cet essor du Web of Data, en produisant non plus de simples documents, mais
un ensemble de donnes interoprables.
C ONCLUSION
Ce chapitre nous a permis de prsenter diffrents concepts essentiels pour la comprhension de nos travaux. Nous avons tout dabord dtaill les principes et langages du Web
Smantique, en termes de reprsentation des connaissances et dinterrogation, puis prsent
linitiative Linking Open Data (Section 1.1, page 12). Dans la seconde partie, nous avons introduit les changements et paradigmes introduits par le Web 2.0, en prsentant plus prcisment certains outils et pratiques, savoir blog, wikis, syndication de contenu et principes
de tagging (Section 1.2, page 31). La dernire partie de ce chapitre nous a par la suite permis
dintroduire certaines pistes relatives la convergence entre ces deux visions, convergence
qui sera au cur des travaux que nous allons prsenter dans la suite de ce mmoire.

Figure 1.14: Convergence entre Web Smantique et Web 2.0 [Breslin et Decker, 2006]

47

C HAPITRE 1 : V ERS UNE CONVERGENCE ENTRE W EB S MANTIQUE ET W EB 2.0

Cette convergence, quon lappelle Web n.0, Social Semantic Web ou Metaweb84 , permettra
daboutir :
des contenus Web issus dinteractions sociales entre internautes et interoprables grce
lutilisation combine de RDF et dontologies pour dfinir la structure et la smantique de ces contenus ;
un Web de Donnes, et non plus seulement un Web de documents, puisque lon considre alors les systmes Web 2.0 comme fournisseurs de donnes interoprables, dfinies selon les principes voqus au point prcdent ;
des outils en ligne simples dutilisation pour crer et mettre jour ces diffrentes donnes, comme les blogs et les wikis agrments de capacits de reprsentation smantique de linformation ;
des interfaces de navigation, dinterrogation, de visualisation et des mash-up intuitifs et
simple daccs capables dabsorber ces donnes complexes et rparties pour proposer
des services pertinents lutilisateur final.
Cest travers cette complmentarit que pourront se former des espaces informationnels la frontire de ces deux domaines, utilisant au maximum le potentiel des diffrents
courants actuels du Web (Figure 1.14, page 47). Nous allons ainsi dans la suite de cette thse
identifier diffrents moyens, aussi bien en termes de modles de reprsentation (Section 3,
page 83) que dapplications (Section 4, page 137) (Section 5, page 187), de parvenir cette
convergence. Enfin, pour conclure ce chapitre, on citera [Berners-Lee, 2005b] : "I think we
could have both Semantic Web technology supporting online communities, but at the same time also
online communities can also support Semantic Web data by being the sources of people voluntarily
connecting things together", pour mettre nouveau laccent sur ce qui est non pas un apport
sens unique, mais une vritable complmentarit entre ces deux visions.

84

48

http://novaspivack.typepad.com/nova_spivacks_weblog/2003/12/the_birth_of_th.html

Chapitre 2

SemSLATES : Une approche smantique


pour lEntreprise 2.0
I NTRODUCTION
Aprs avoir introduit dans le chapitre prcdent les caractristiques du Web Smantique
et du Web 2.0 ainsi que diffrentes pistes relatives une complmentarit entre ces deux approches, nous allons prsenter ici lutilisation des technologies du Web 2.0 dans un contexte
dentreprise.
Nous prsenterons tout dabord le contexte du projet Athna au sein dEDF R&D (Section 2.1, page 50). Ce projet vise introduire au sein de lentreprise diffrents outils Web 2.0
pour faciliter les changes et la constitution collaborative dinformation au sein de celle-ci,
dans la mouvance de lEntreprise 2.0 [Mcafee, 2006] (Section 2.1.1, page 50). Nous reviendrons sur les diffrents besoins du projet et la manire dont les diffrents outils mis en place
(Section 2.1.2, page 53) offrent une complmentarit permettant de rpondre au paradigme
SLATES introduit par cette notion dEntreprise 2.0 (Section 2.1.3, page 57). Cette premire
partie sera galement loccasion de revenir sur les statistiques dutilisation de ces outils au
sein dEDF R&D (Section 2.1.4, page 59).
Nous montrerons ensuite en quoi cette plate-forme et plus gnralement les systmes
dinformation dEntreprise 2.0 (tout comme les outils Web 2.0 pris indpendamment) sont limits sur certains points et nous proposerons ainsi la mthodologie SemSLATES permettant
denrichir ce paradigme via une architecture de mdiation de donnes base sur les technologies du Web Smantique (Section 2.3.1, page 69). Notre entendons ici par architecture de
mdiation la mise en place dun ensemble doutils et de modles permettant dintgrer les
donnes des diffrents services de cette plate-forme grce une smantique commune, afin
notamment de proposer un ensemble de services additionnels. Nous prsenterons alors la
vision gnrale et larchitecture de ce systme de reprsentation et dintgration smantique
pour lEntreprise 2.0. Nous prsenterons ensuite les diffrents composants de cette architecture, aussi bien en termes de modle que de production de donnes formalises, qui nous
permettrons de dtailler les limites des outils Web 2.0 que notre mthode vise rsoudre
aussi bien en termes de capitalisation des connaissances que dindexation documentaire.
Outre une description approfondie de lcosystme smantique dentreprise que nous
proposons, ce chapitre donnera une vision densemble de nos travaux vis--vis (1) de la
dfinition de modles de reprsentation de donnes pour lEntreprise 2.0 et (2) de la mise
49

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

en place doutils associs pour produire et utiliser des connaissances reprsentes selon ces
modles. Ces points seront en outre approfondis dans les chapitres suivants de ce mmoire.
2.1

W EB COLLABORATIF EN ENTREPRISE : LE PROJET ATHNA

2.1.1

Origine et objectifs du projet

Afin de collecter, analyser et diffuser linformation provenant de diffrentes sources externes destination de ses ingnieurs, chercheurs et dirigeants, EDF R&D dispose du groupe
ID-Net et plus particulirement de la Cellule Appui-Veille (CAV), situs au sein du Secrtariat Gnral1 . La mission essentielle de cette cellule est doffrir une structure dIntelligence
Economique [Wilensky, 1967] la R&D, sur des thmes aussi bien techniques que sociaux ou
conomiques. [Martre, 1994] dfinit lIntelligence Economique comme "lensemble des actions
coordonnes de recherche, de traitement et de distribution, en vue de son exploitation, de linformation utile aux acteurs conomiques". Dans le contexte dEDF ces actions permettent ainsi au
personnel de la R&D dtre au fait des dernires innovations, partenariats et technologies
utilises ou potentiellement utilisables concernant leur activit. Elles permettent de plus
aux dirigeants davoir une vision globale de diffrents domaines permettant dlaborer ou
daffiner la stratgique du groupe.
Jusqu rcemment, une partie de ce processus reposait sur des mthodes classiques de
veille, capitalisation et diffusion de linformation en entreprise. Parmi les process et outils
mis en place, citons lutilisation doutils de collecte et de suivi de sites Web comme WebSiteWatcher2 , la capitalisation de connaissances via des bases Lotus Notes3 ou encore la diffusion dinformations par la voie classique du courrier lectronique. Dbut 2005, commandit
par la direction de la R&D, le projet Athna a vu le jour, avec des objectifs doubles :
dune part, optimiser et mutualiser la collecte, la capitalisation et la diffusion de linformation via des solutions innovantes ;
dautre part, mettre en place des processus collaboratifs diffrents niveaux de cette
chane informationnelle, notamment en termes dchanges et de coconstruction de
connaissances.
De part son domaine dactivit et son historique, EDF est une entreprise o la culture du
secret et des rseaux sociaux informels prdomine, au dtriment dune circulation globale de
linformation entre individus. Ceci sexplique en partie par la nature des sujets abords par
les experts de lentreprise, quils soient sensibles pour des raisons de scurit (nuclaire) ou
de stratgie et dinnovation (nergies renouvelables). Plus gnralement, une autre composante de cette absence dchange intra-entreprise sexplique, comme dans beaucoup dorganisations, par la nature mme du savoir, souvent quivalent au pouvoir. Les connaissances
sont ainsi la proprit de celui qui les possde, dissmines au compte-goutte de faon plus
ou moins formelle et gnralement uniquement un cercle priv de relations. En consquence, cette rtention dinformation se fait au dtriment de lentreprise, de ses comptences
et ventuellement de sa stratgie adopter vis--vis de domaines mergents.
1

Celui-ci gre ladministration des trois sites franais de la R&D.

http://aignes.com
http://www.ibm.com/software/fr/lotus

50

2.1 Web collaboratif en entreprise : le projet Athna

Ainsi, en cherchant repousser les frontires dune information cloisonne tout en y introduisant une composante participative, le projet vise faire entrer lIntelligence Collective
[Bonabeau et Theraulaz, 1994] au sein de lentreprise. Un des objectifs vis par le projet est
donc dentraner une synergie permettant de faire merger des connaissances suprieures
celles que pourraient produire isolment chacun des individus, selon la maxime "We are
smarter than me"4 , [Libert et al., 2007]. La russite de ce projet ne repose donc pas uniquement
sur la technique avec la mise en place de nouveaux outils (Section 2.1.2, page 53) mais
galement sur des aspects sociologiques et organisationnels, savoir ladoption de ces outils
et des pratiques associes par les utilisateurs. De manire plus globale, le projet Athna se situe dans la mouvance de lEntreprise 2.0 [Mcafee, 2006], vision o les outils du Web 2.0 et les
mthodes collaboratives associes de plus en plus communes dans la sphre personnelle
pntrent les murs de lentreprise : "Enterprise 2.0 is the use of emergent social software platforms within companies, or between companies and their partners or customers"5 . Cette vision de
lentreprise o le ct social joue un rle majeur dans llaboration de connaissances rejoint
galement la notion dcologie de linformation propose par [Davenport et Prusak, 1997], o
lhumain est au centre du systme dinformation.
Tout comme le Web 2.0, la notion dEntreprise 2.0 est relativement porteuse, que cela soit
pour la communication interne ou externe des entreprises. Mme si nous nous sommes intresss cette mouvance principalement en termes dinformations internes (Section 2.1.2,
page 53), notons la place importante de ces solutions pour favoriser la communication entre
certaines entreprises et leurs clients ou le grand public. Une rcente tude montre ainsi que
prs de 13% des entreprises du top 500 de Fortune ont un blog public maintenu par les
employs6 . Les blogs ne sont dailleurs pas les seuls outils utiliss puisque lon retrouve
certaines entreprises sur Twitter ou SecondLife7 , univers virtuel en ligne. Le premier peut
tre utilis pour informer ses clients de la mise en place de nouveaux services ou pour simplement communiquer directement avec eux, comme le fait par exemple le service Web 2.0
SlideShare (Figure 2.1, page 52), alors que le second est utilis dans certains cas pour procder des entretiens de recrutement en ligne8 .
Dun point de vue de limpact conomique de lEntreprise 2.0, le march est galement
porteur et devrait en outre, selon diffrentes tudes, voluer dans les annes qui viennent.
Forrester Research prdit ainsi un march global pour les solutions dEnterprise 2.0 de 4.6
milliards de dollars en 20139 alors que Gartner identifie que les plates-formes de social computing10 seront adoptes par les entreprises dans les dix prochaines annes11 . Autre signe
de cet essor, de nombreuses solutions logicielles cl-en-main sont aujourdhui disponibles,
4

http://www.wearesmarter.org/
http://andrewmcafee.org/blog/?p=76
6
http://www.asia.socialtext.net/bizblogs/index.cgi
7
http://secondlife.com
8
http://online.wsj.com/public/article/SB118229876637841321-NkCuEAak8wFXmvmPVWkALxqNS3M_
20070719.html
9
http://www.forrester.com/Research/Document/Excerpt/0,7211,43850,00.html
5

10

Comprendre rseaux sociaux.

11

http://gartner.com/it/page.jsp?id=739613

51

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

Figure 2.1: Utilisation de Twitter par le service Web 2.0 Slideshare pour communiquer avec
ses utilisateurs
comme IBM Lotus Connections12 ou Jive Clearspace13 . Certaines entreprises se spcialisent
galement dans ce domaine aussi bien dun point de vue technique que pour laccompagnement lutilisation de tels outils, comme SocialText14 ou HeadShift.
Pour en revenir la notion mme dEntreprise 2.0, [Mcafee, 2006] voque en dfinissant
ce terme la manire dont des outils comme les blogs et les wikis permettent de transformer les intranets en structures dynamiques et volutives grce la participation des utilisateurs. Il caractrise galement les diffrents principes introduits par ces outils par lacronyme SLATES :
Search Recherche dinformation ;
Links Liens entre contenus ;
Authoring Publication aise ;
Tags Annotations des contenus par tags ;
Extensions Extension de la navigation ;
Signals Signalement dinformation.
Par exemple, les blogs et les wikis peuvent tre utiliss pour la publication dinformation
(Authoring) et la dfinition de liens entre document (Links) de manire intuitive sans aucun
prrequis technique. Les systmes base de tags peuvent quant eux tre utiliss pour annoter les contenus publis (Tags) et favoriser la dcouverte de nouvelles informations (Extensions). De plus, les principes de syndication RSS mais aussi des outils comme le microblogging peuvent tre utiliss pour favoriser le signalement de nouvelles informations (Signals).
Ce dernier mode de communication et de partage de linformation nous semble de plus
12

http://www-01.ibm.com/software/lotus/products/connections/
http://www.jivesoftware.com/products/clearspace
14
http://www.socialtext.com/
13

52

2.1 Web collaboratif en entreprise : le projet Athna

particulirement adapt cette notion de signalement puisquil offre une mthode de communication agile et spontane au sein de lentreprise. En complment, la plupart des outils
bnficient de capacit de recherche dinformation, quil sagisse de recherche plein-texte ou
de recherche par tags (Search). Ainsi, si lon peut difficilement contredire le fait que ces outils
permettent aux utilisateurs de simplement lier, diter ou taguer des contenus, nous sommes
plus rservs quand leur capacit offrir une recherche dinformation efficace, des extensions de celle-ci et un signalement dinformations pertinent, comme nous le montrerons
plus tard (Section 2.2, page 62).
2.1.2

Rpondre efficacement aux diffrents besoins

Comme nous lavons voqu, un des objectifs dAthna est la mise en place de nouveaux outils pour faciliter la constitution et lchange dinformations au sein de la R&D,
notamment dans un contexte de veille informationnelle. Diffrents services ont ainsi t
successivement mis en place, labelliss de manire unifie sous le nom de plate-forme Herms.
Flux RSS et mutualisation des sources dinformation
La premire phase du projet a consist en la mise en place dun systme de collecte
et dabonnement des flux RSS issus du Web. Lobjectif vis est ainsi doptimiser la collecte, la diffusion et la mutualisation dinformations externes au sein de lentreprise. Cest
dailleurs ce que [Mcafee, 2006] identifie comme les canaux de communication permettant
de rpondre la problmatique de signalement (le second S de SLATES). Cette pratique
dutilisation de flux RSS externes au sein de lentreprise est en outre aujourdhui de plus
en plus courante. Un sondage Ipsos datant de dcembre 2007 montre ainsi que 21% des
dcideurs informatiques ont recours aux abonnements des flux RSS15 . Plus rcemment,
une tude dAIIM16 indique que cette technologie est dj acquise par 51% des entreprises
sondes et que 21% ont prvu de lintgrer dans leur stratgie [Frappaolo et Keldsen, 2008].
La slection des flux collecter se fait de manire continue par la CAV selon les demandes des clients de la plate-forme, i.e. les entits de la R&D qui souhaitent suivre lactualit dun thme donn. Ces flux sont classs selon diffrentes thmatiques (nergie solaire, tlcommunications ...), les utilisateurs pouvant ensuite sy abonner. Cette interface
dabonnement permet galement davoir accs aux dernires nouvelles des flux souscrits
(Figure 2.2, page 54), ceux-ci tant rafrachis plusieurs fois par jour.
Les flux slectionns peuvent en outre provenir de sites de nature relativement diverse :
grands quotidiens, sites dactualit, mais aussi forums ou blogs dexperts. Cette perspective
permet de bien comprendre quel point la diffusion des connaissances sur le Web, accentue
par lutilisation doutils Web 2.0, peut tre bnfique pour une entreprise en termes dacquisition de nouveaux savoirs. Il est en effet possible de tirer parti des connaissances dun
expert sans que celui-ci nait de relation directe avec lentreprise et ce moindre cot et sans
dmarche proactive, au contraire de ce que proposent les Ideagoras [Tapscott et Williams, 2007].
15
16

http://www.ipsos.fr/CanalIpsos/poll/8359.asp
http://aiim.org

53

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

Figure 2.2: Interface personnelle de visualisation de flux RSS au sein dHerms

Par rapport la mthodologie utilise avant cette pratique dagrgation, trois progrs
importants sont retenir :
l o les processus prcdents faisaient intervenir diffrents outils pour agrger les
donnes source, dfinissant chacun leur propre format, nous disposons via lutilisation
de RSS dun modle standard pour la reprsentation des informations collectes. Ceci
se traduit par la possibilit dutiliser des outils gnriques pour la lecture et le stockage
des informations agrges (en loccurrence des APIs ddies aux flux RSS) ;
ce nouveau processus permet galement de mutualiser les sources dinformation
destination des utilisateurs. Cette mutualisation est une premire tape dans la dmarche dIntelligence Collective vise par le projet Athna. Les flux ne sont en effet
plus seulement rservs aux commanditaires de la veille thmatique, mais disponibles
pour tous les utilisateurs de la plate-forme via linterface dabonnement ;
contrairement la pratique prcdente o les informations taient envoyes par email intervalles rguliers, celles-ci sont ici fournies lutilisateur sa demande, i.e.
chaque consultation de son interface de lecture, vitant la surcharge dinformations
non sollicites.
Ractions et informations spontanes grce aux weblogs
Si cette premire tape permet de simplifier et de mutualiser lacquisition et la diffusion
dinformations externes au sein de lentreprise, elle ne prend pas en compte une autre des
problmatiques initiales. En effet, un autre besoin est de fournir une certaine valeur ajoute
ces informations brutes et dchanger autour de celles-ci ou au sujet de nouvelles informations. Nous avons ainsi mis en place une plate-forme proposant un blog chaque utilisateur
le souhaitant. Un premier objectif est la valorisation des lments de flux RSS, en permet54

2.1 Web collaboratif en entreprise : le projet Athna

tant de crer simplement un billet partir dune nouvelle, la manire dun outil comme
ReBlog17 . Bien entendu, le systme ne se limite pas la cration de contenus partir dlments existants, mais offre la possibilit de crer des billets originaux et de commenter les
billets existants, intgrant ainsi une composante participative au service. Ce processus rpond ainsi au A de SLATES en permettant tous de passer du statut de consommateur
celui de rdacteur via la publication de nouvelles informations ou en accentuant le signalement dinformations existantes (second S de SLATES).
Lintrt de cette dmarche est double :
premirement, en matire de mise en valeur de linformation. Une nouvelle issue dun
flux se retrouve rapidement noye au sein dune masse importante dinformations. De
plus elle nest pas immdiatement accessible pour les utilisateurs qui nont pas souscrit au flux dorigine. La plate-forme de blogs dressant une liste antchronologique et
visible par tous des derniers billets cres, les lments y bnficient dune meilleure
visibilit (certes parfois courte, mais qui permet cependant tous de les remarquer) ;
en second, en matire de valeur ajoute et danalyse pertinente de linformation. Dans
le cas o le billet est issu dinformations agrges, si rien nempche lutilisateur de
republier linformation telle quelle, lobjectif est dy ajouter une analyse personnelle
ou a minima de la situer dans le contexte EDF. Les aspects les plus pertinents dune
actualit donne peuvent ainsi tre mis en avant par le rdacteur du billet.
Chaque blog disposant son tour dun flux RSS, il est possible de sy abonner pour limiter sa veille personnelle aux informations dune thmatique donne, chaque utilisateur
ayant pour habitude de crer des billets autour dun sujet spcifique (nuclaire, nergies solaires ...). L aussi, plusieurs avantages sont signaler par rapport lchange dinformation
par e-mail. Tout dabord, en raison de la nature ouverte de la publication (a contrario dun email adress une communaut restreinte et tablie a priori par le rdacteur), linformation
circule de manire plus large. En consquence, il est possible un plus grand nombre de
personnes dy ragir, favorisant ainsi les changes spontans et lacquisition de nouveaux
savoirs. Dautre part, en plus dtre ouvertes et mutualises, les informations deviennent
prennes via un systme darchives des billets contrairement (1) aux archives de-mails qui
disparaissent gnralement lorsque leur propritaire quitte lentreprise et (2) aux lments
de flux RSS dont la survie dans notre agrgateur nest pas toujours assure18 .
Capitalisation dinformation via les wikis
Revenons maintenant sur un autre aspect dterminant pour le projet, celui de la capitalisation des connaissances. Bien quun pas ait dj t franchi dans ce domaine avec lutilisation des blogs, il faut garder lesprit quun billet de blog reprsente gnralement une
connaissance tablie un instant t. Un billet de blog insiste en gnral sur une actualit
contextualise temporellement, comme par exemple la fusion de deux entreprises ou le lancement dun projet. De ce fait, les informations de ce type ne peuvent pas du moins sous
cette forme de billet brut tre considres comme des connaissances encyclopdiques (les
secteurs dactivit dune entreprise, la liste de ses dirigeants ...). De plus, en raison de la pr17

http://reblog.org

18

Pour des raisons lgales, certains lments de flux sont supprims pass un certain dlai.

55

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

sentation antchronologique des blogs, ces billets sont vous tre rapidement remplacs
par dautres en termes daffichage. Le besoin initial de capitalisation nest donc pas compltement satisfait et il est ncessaire de fournir une solution permettant de produire efficacement des documents de rfrence sur divers domaines. Qui plus est, cette solution doit
aussi permettre de faire voluer ces documents, par opposition aux fonds documentaires
gnralement figs19 .
Devant ce besoin, nous avons naturellement opt pour la mise en place dun serveur
de wikis afin de capitaliser et de construire, non pas des informations volatiles mais des
connaissances prennes et consensuelles. Chaque utilisateur a ainsi la possibilit de crer
son propre wiki ddi un projet ou une thmatique donne mais peut aussi agir sur les
diffrents wikis mis en place par les autres utilisateurs de la plate-forme.
Cest essentiellement via lutilisation de ces outils que lon parviendra visualiser lmergence dune Intelligence Collective vise par le projet : lagrgation dun ensemble de processus individuels (ajout dune nouvelle page, modification de contenu existant ...) devant
conduire terme lapport de connaissances ayant une valeur ajoute plus forte que celle
des connaissances individuelles (Figure 2.3, page 56). La plate-forme mise en place conserve
en outre les caractristiques essentielles des wikis voques prcdemment : utilisation importante des hyperliens (L de SLATES), rtroliens (que lon peut voir dune certaine manire
comme une extension de la navigation, E de SLATES), historique des versions, cration aise de nouvelles pages, etc. Nous avons de plus, tout comme pour les blogs, intgr un
diteur WYSIWYG afin de faciliter la courbe dapprentissage de loutil, nouveau pour la
quasi-totalit des utilisateurs.
Page Wiki A

Page Wiki B

Cration

U1

Ajout de lien

U2

Cration de page

Edtion

U3

Figure 2.3: Coconstruction de connaissances avec les wikis

19

56

Ou, quand ils ne le sont pas, ncessitent un processus complexe pour mettre un document jour.

2.1 Web collaboratif en entreprise : le projet Athna

Indexation documentaire et recherche dinformation


La masse dinformation que les outils prcdents dlivrent impose la mise en place de
services permettant un accs optimal celles-ci. Deux processus ont t mis en place dans
cet objectif :
une indexation automatique des contenus reposant sur un moteur plein-texte. Les
donnes provenant de flux RSS, tout comme les billets de blog et les pages wikis internes sont donc indexes intervalle rgulier ;
une annotation manuelle des contenus produits par les utilisateurs via un systme de
tags. Les billets de blogs et pages wikis peuvent bnficier de ce processus permettant lutilisateur dindexer librement ses contenus selon les termes qui lui semblent
les plus pertinents. Afin de faciliter le processus et favoriser lutilisation de tags dj
prsents, un systme dautocompltion a t mis en place. De plus, un systme de recherche et de navigation est associ ce processus. Nous reviendrons plus tard dans ce
chapitre sur une analyse de lutilisation des tags dans ce contexte et sur les problmes
quils soulvent (Section 2.2.3, page 63).
2.1.3

Complmentarit gnrale des outils

Lensemble des outils mis en place permet ainsi de rpondre aux objectifs de SLATES de
la manire suivante (Tableau 2.1.3, page 57) :
Rgle
Search
Link

Authoring
Tags
Extension
Signals

Pratique et outils associs


Moteur de recherche plein-texte (blogs, wikis et flux RSS) et recherche
par tags (blogs et wikis)
Utilisation dhyperliens entre documents internes (notamment via les
wikis) ou entre documents internes et informations externes (via la republication RSS)
Publication dynamique, personnelle (blogs) ou collaborative (wikis) et
facilite par des interfaces intuitives (diteur WYSIWYG notamment)
Utilisation de tags avec systme dautocompltion pour en faciliter
lajout (blogs et wikis)
Liens, rtro-liens et rfrences vers des informations externes (wikis et
blogs) ainsi que navigation associe au systme de tags
Agrgation mutualise dinformations externes (flux RSS) et republication pour leur mise en avant (blogs)
Tableau 2.1: SLATES et la plate-forme Herms

On peut modliser un scnario optimal dutilisation de ces diffrents outils de la manire


suivante (Figure 2.4, page 58) :
un premier utilisateur consulte une nouvelle provenant dun flux RSS issu du Web
auquel il est abonn et signale linformation sur son blog ;
un second lit ce billet, puis capitalise linformation sur un wiki ddi la thmatique
associe ;
57

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

un troisime consulte cette page puis contribue au wiki en crant une nouvelle page
partir de celle-ci ;
un quatrime intervenant va lire puis commenter le billet dorigine ;
le second utilisateur va enfin consulter puis diter la page wiki nouvellement cre.
Flux RSS

Web

Page
wiki 1

Billet de
blog

Page
wiki 2

Agrgation

Lecture
U1
Signalement

Lecture
U2
Capitalisation

Lecture
Cration de page

U3

Lecture

U4

Commentaire
Lecture
Edition

Figure 2.4: Scnario idal dutilisation des diffrents lments de publication de la plateforme
Ce scnario met en avant les diffrents outils et processus introduits par la plate-forme
Herms dans cet objectif dIntelligence Collective. On y retrouve en particulier les notions
de partage dinformation et de constitution collaborative de connaissances volutives.

58

2.1 Web collaboratif en entreprise : le projet Athna

2.1.4

Retour sur exprience

Avant de revenir sur les limites de cette approche (Section 2.2, page 62), faisons un point
sur quelques statistiques qui nous permettent dvaluer la plate-forme en termes dacceptation par les utilisateurs. Environ trois ans aprs son lancement initial et une anne aprs
que la plate-forme ait t officiellement labellise comme lment de lIntranet de la R&D,
les chiffres sont plutt concluants, puisque plus de 3000 utilisateurs ont fait la dmarche
de sy inscrire (Tableau 2.2, page 59). Cependant, environ 6% seulement ont franchi ltape
consistant passer du statut de consommateur celui de producteur (i.e. ayant post a minima un billet). Sur ce pourcentage, on notera comme le montre le tableau suivant20 que la
majorit sont des utilisateurs de blogs, mme si certains utilisent uniquement les wikis. Notons galement quenviron la moiti des contributeurs ont dj post un commentaire sur la
plate-forme.
Nombre dutilisateurs
Nombre global de contributeurs
Nombre de contributeurs dans les blogs
Nombre de contributeurs dans les wikis
Nombre de contributeurs dans les commentaires

3068
203
167
88
109

Tableau 2.2: Utilisateurs et contributeurs au sein dHerms


Concernant les flux RSS, la plate-forme dispose de plus de 1500 flux disposition des
abonns, rpartis en prs de 300 thmes (Tableau 2.3, page 59).
Nombre de flux
Nombre de thmes
Nombre moyen dabonns par flux
Nombre maximum dabonns un flux

1528
295
4.46
118

Tableau 2.3: Statistiques des flux RSS au sein dHerms


Au niveau des outils eux-mmes, on constate donc que le blog est loutil le plus utilis, avec prs de 16000 billets. Seulement 600 dentre eux ont cependant t comments,
ce qui montre malgr le nombre de billets et dutilisateurs actifs une certaine timidit dans
les ractions (Tableau 2.4, page 60). La composante sociale en termes de conversations et
dchanges sur des sujets dactualit ou des rflexions personnelles nest donc pas aussi
avance que souhaite et les discussions spontanes ne naissent visiblement pas aussi facilement que nous laurions espr. La figure qui suit (Figure 2.5, page 60) illustre galement
cette diffrence entre billets et commentaires. On peut notamment la comparer une tude
mene chez DrKW ce sujet o les commentaires sont dans ce cas beaucoup plus nombreux
que les billets [Mcafee, 2006]. Nuanons cependant ce rapport assez faible par le fait que de
nombreux billets sont, comme nous lavons prsent, rdigs dans un processus de signalement des nouvelles issues de flux RSS et nappellent pas ncessairement discussion.
20

Statistiques de dcembre 2008, tout comme lensemble des statistiques qui suivent.

59

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

Nombre de billets
Nombre de billets comments
Nombre de commentaires
Nombre de wikis
Nombre de pages wikis

21614
700
1195
83
4378

Tableau 2.4: Statistiques des contributions utilisateur au sein dHerms


7000
Billets
Commentaires
6000

Volume

5000

4000

3000

2000

1000

0
0

100

200

300

400

500

Jours

Figure 2.5: volution des billets et des commentaires sur la plate-forme

La situation des wikis est diffrente puisque prs de 80 wikis pour plus de 4000 pages
ont t cres, ce qui tmoigne de la bonne adoption et prise en main de ce type doutils
parmi les utilisateurs. Cinq wikis notamment comptent plus de 300 pages. Bien que loutil
ait t initialement imagin pour une utilisation but encyclopdique au sein de la R&D,
certaines communauts lont adopt spontanment dans une optique de gestion de projet
afin dy stocker les documentations techniques, les derniers comptes-rendus de runion ou
les contacts clients. Il est ainsi important de noter un parallle qui sest naturellement tabli
entre les cas dutilisations des wikis sur le Web et leur utilisation en interne, malgr des utilisateurs jusque l novices vis--vis de ce mode de publication. Cette observation conforte
le fait que le wiki est un outil dont les usages et pratiques dpendent fortement des besoins
de la communaut qui se lapproprie (Section 1.2.2, page 36). Malgr tout, diffrents administrateurs ont dcid de restreindre ldition de leur wikis (voire parfois la lecture) des
groupes prdfinis. Il est intressant de remarquer que dans ce cas, certains ont revu leur
position en autorisant au final a minima la lecture et les commentaires, aprs avoir eu cho
des retours positifs dont bnficiaient les wikis des communauts ouvertes.
Plus gnralement, quil sagisse de blogs ou de wikis, les rticences la publication et
au partage dinformation peuvent sexpliquer de diffrentes manires, tel que nous lavons
60

2.1 Web collaboratif en entreprise : le projet Athna

constat :
comme nous lavons dj voqu, la valeur de linformation reste essentielle pour celui qui la possde, notamment en termes de reconnaissance dans lentreprise. Ainsi,
il nest pas toujours vident daccepter de partager son temps ou ses connaissances
ouvertement sans avoir lassurance que lon sera valoris pour des actions de ce type ;
a contrario, certains utilisateurs ne saventurent pas dans cette pratique, particulirement pour les wikis, de peur que les informations quils partagent soient modifies
dans une optique qui ne leur convienne pas. De plus, certains nentrevoient justement
pas lintrt de sy investir, partir du moment o dautres seraient tout aussi en mesure deffectuer cette dmarche dchange ou de capitalisation leur place.
Rappelons que ces processus de diffusion ouverte dinformations ne faisaient pas jusqu prsent partie de la culture dentreprise. Ainsi, passer dune vision ferme de la diffusion du savoir un point de vue radicalement oppos mettant en avant laspect volontaire et spontan du partage dinformations nest pas simple accepter pour la majorit
des utilisateurs. Si dautres entreprises, notamment dans la culture anglo-saxonne ont pu
mettre plus en avant cette ouverture comme le montre une tude mene chez Sun et IBM
[Kolari et al., 2007], on peut se demander jusquo la confidentialit de linformation et le
dsir de rester garant dun certain niveau dexpertise prvaut sur le fait de partager celle-ci
et den faire bnficier ses pairs et les diffrentes strates de lentreprise. Cest une question
sociologique laquelle nous ne tenterons pas de rpondre, mais qui rvle bien les impacts
que ce nouveau mode de participation et dchange de savoir ont au niveau dentreprises
dont la culture a t toute autre pendant de longues annes. Cette relation entre la culture
dentreprise et lacceptation dun systme dinformation dEntreprise 2.0 se retrouve galement dans ltude dAIIM voque prcdemment qui indique que 41% des sonds nont
pas de comprhension claire de la notion dEntreprise 2.0, contre seulement 15% pour les
entreprises orientes Knowledge Management. Ainsi, il est important de garder lesprit que,
plus quun ensemble doutils et de prrequis technique, lEntreprise 2.0 est une philosophie
qui peut parfois prendre du temps pour tre accepte. Comme le souligne galement Dion
Hinchcliffe21 , "lentreprise 2.0 est davantage un tat desprit quun produit que lon peut acheter".
Malgr tout, les chiffres obtenus nous semblent encourageants pour la suite du projet et
lusage croissant des wikis laisse entrevoir de nombreuses communauts demandeuses de
cette pratique lavenir. Un autre point qui nous semble favorable une augmentation du
nombre dutilisateurs et de contributeurs aux outils est une combinaison des stratgies topdown et bottom-up pour faire entrer loutil dans les murs, comme nous avons pu le constater
et tel que suggr par Suw Charman22 :
dune part, stratgie bottom-up, les outils mis en place et tests successivement auprs
des diffrentes communauts ont permis de faire connatre la plate-forme par bouche-oreilles. Certains utilisateurs sont mmes devenus vanglistes de la plate-forme,
participant aux actions de communication autour de celle-ci (interviews par exemple) ;
dautre part, stratgie top-down, le management et lquipe projet ont rgulirement
promu loutil via diffrents canaux de communication, quil sagisse de messages
21
22

http://blogs.zdnet.com/Hinchcliffe/?p=143
http://strange.corante.com/2006/03/05/an-adoption-strategy-for-social-software-in-enterprise

61

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

destination des diffrents dpartements ou de sminaires plus larges au sein de la


R&D.
La combinaison de ces stratgies fait que loutil est aujourdhui connu dans lensemble
de la R&D et que les demandes dabonnement sont de plus en plus courantes. Nous pouvons ainsi penser que la philosophie associe lEntreprise 2.0 voque plus haut est en
route, malgr certaines rticences initiales. De plus, ladoption de ces nouvelles mthodes
de travail devrait selon nous crotre durant les prochains cycles de vie du projet, la masse
critique de contributeurs tant maintenant en place et ayant permis de lancer la dynamique
initiale. On peut galement imaginer que de nouveaux outils viennent sajouter au systme
actuel, offrant une nouvelle dynamique dchange qui pourrait intresser de nouvelles communauts. Nous pensons par exemple lintroduction doutils de messagerie instantane,
de microblogging ou encore de partage de signets, proposant ainsi de nouvelles manires
de rpondre au paradigme SLATES.
2.2

L IMITES DE L APPROCHE CLASSIQUE

Alors que nous venons de recenser quelques limites sociologiques et culturelles la mise
en place de ces outils dans un contexte dentreprise, nous allons ici prsenter diffrentes
problmatiques auxquelles nous avons t confronts, aussi bien en implmentant quen
utilisant ces outils.
2.2.1

Fragmentation de linformation et htrognit des formats

Comme nous lavons prsent auparavant diffrentes suites logicielles sont disponibles
pour introduire les outils Web 2.0 dans un contexte dentreprise. Or, lEntreprise 2.0 repose
dans de nombreux cas sur un ensemble de services indpendants, plusieurs raisons peuvent
conduire cette disparit :
les outils peuvent par exemple avoir t introduits par les employs eux-mmes, sans
consultation pralable des autres quipes ou de la direction. Une quipe va donc crer
son wiki de gestion de projet, une deuxime va installer un autre wiki pour ses documentations logicielles, alors quune troisime va mettre en place son propre agrgateur
de flux RSS ou sa plate-forme de blogs ;
une autre cause peut simplement tre due la nature des outils, des services demands
et lvolution des besoins. On peut par exemple envisager une plate-forme uniquement ddie aux blogs et aux wikis et se rendre compte, au moment dintroduire des
outils de microblogging, que celle-ci ne permet pas une telle utilisation, un nouvel
outil tant alors introduit.
Cette diversit des outils introduit en consquence un problme de fragmentation de
linformation. Comme nous lavons voqu dans le chapitre prcdent, la notion de partage
dinformations sur le Web 2.0 est en gnral centre autour dobjets particuliers (Section
1.2.3, page 42). Il en est de mme en entreprise o les changes et requtes sont gnralement centrs autour dune socit, dun projet, dun domaine technologique. Or, en raison
de la diversit des outils utiliss, linformation peut-tre rpartie au sein de plusieurs systmes. Un utilisateur devra donc interroger plusieurs sources dinformation puis recouper
les rsultats, le cot de ce processus tant proportionnel au nombre doutils. Dans notre
62

2.2 Limites de lapproche classique

contexte, il arrive frquemment que linformation au sujet dun domaine particulier soit rpartie au sein de plusieurs wikis, blogs et flux RSS. Si le moteur de recherche plein-texte
ou lutilisation des tags permettent en partie dassister lutilisateur dans cette tche, nous
verrons sous peu quils soulvent galement de nombreux problmes.
Consquence de cette disparit des applications, les formats de donnes sont galement
distincts. La tche dintgration se rvle donc fastidieuse pour le dveloppeur, avec diffrentes structures de base de donnes, APIs ou formats dchange apprhender et intgrer.
On retrouve cette mme problmatique sur le Web o les donnes sont encore plus htrognes et distribues que dans ces systmes dentreprise o lon peut en gnral identifier
plus facilement les sources dinformation.
2.2.2

Capitalisation des connaissances

Si les wikis sont abondamment utiliss (comme nos statistiques le montrent (Section
2.1.4, page 59)) pour la capitalisation dinformation, ils souffrent de certains dfauts qui
ne permettent pas dexploiter celle-ci de manire optimale. Malgr la puissance de loutil
(dition libre, archivage des versions, liens bidirectionnels ...) il est en effet difficile daccder
rapidement linformation souhaite. En effet, de par la nature dstructure et extensible
des wikis, les informations au sujet dune thmatique particulire peuvent tre rparties sur
un grand nombre de pages. On retrouve ici une partie du problme voqu prcdemment,
mais cette-fois ci lchelle de loutil.
Selon nous, le principal problme des wikis dans cet objectif de capitalisation efficace des
connaissances est li leur nature plein-texte. Celle-ci fait quil est en effet difficile, moins
dutiliser des algorithmes complexes de traitement des langues et/ou dextraction dentits
nommes et de relations, dinterprter et rutiliser automatiquement le contenu des diffrentes pages. En consquence, comme nous lavons dj voqu en amont, un moteur de
recherche est uniquement capable de valider ou non la prsence dune chane de caractres
dans une page wiki. La rponse des questions comme "Quelles sont les entreprises franaises
sintressant au domaine des nergies renouvelables" ou "Lister toutes les entreprises prsentes dans
ce wiki" est ainsi impossible. Le wiki ne modlise en effet que des documents textuels et des
liens hypertextes et non pas par des entits types lies par des liens eux aussi typs, do
une diffrence de reprsentation entre ce qui est stock au sein de loutil et linterprtation
que le lecteur en fait.
2.2.3

Tags et recherche dinformation

Un autre cueil des systmes Web 2.0, notamment dans notre contexte, est d lutilisation abondante de tags pour annoter les diffrents contenus produits. Si les avantages
des tags sont multiples en termes dannotation, lutilisateur pouvant notamment adapter
les termes ses souhaits particuliers appels galement lignes de dsir (desire lines23 )
cette ouverture complexifie la recherche dinformation. [Mathes, 2004] estime ainsi qu"une
folksonomie reprsente simultanment une partie du pire et du meilleur dans lorganisation de linformation". En effet, contrairement des systmes de classification modlisant une vision
23

http://www.adaptivepath.com/publications/essays/archives/000361.php

63

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

hirarchique du monde, comme par exemple le systme dcimal de Dewey24 ou la classification scientifique propose par lACM25 , une folksonomie nest quun amas de tags chaotiques et non organiss. Il devient ainsi difficile daccder linformations si lon ne se rfre
pas directement au tag souhait et il est encore plus complexe dtendre ou de spcifier sa
recherche. Ainsi, certains pensent que si le gain de temps est considrable en termes de publication, il est perdu en termes de recherche dinformation et que la pratique de tagging
perd ainsi de son intrt26 . Nous allons maintenant dtailler spcifiquement certaines problmatiques lies ces pratiques telles que nous avons pu les constater au sein du projet et
galement souleves par [Mathes, 2004] ou [Golder et Huberman, 2006].
Problmes dambigut
Un tag peut en effet tre associ plusieurs significations. Par exemple le mot-cl pac
peut correspondre pile combustible, politique agricole commune ou encore pompe chaleur
selon le contexte de lannotation et le contenu annot. Une recherche sur ce terme rcuprera
cependant les contenus annots par le mot-cl quelque soit son sens, induisant un problme
de bruit. Les mots-cls ne portent en effet pas suffisamment de smantique pour dfinir par
eux-mmes et sans ambigut lentit quils reprsentent.

Figure 2.6: Rsultats dune recherche associe au tag apple sur Flickr
En pratique nous navons pas particulirement t confronts ce problme dans notre
contexte (Section 4.4, page 183). Il nous est apparu cependant plus frquent sur le Web.
Par exemple, une recherche sur les contenus tagus apple sur Flickr identifie aussi bien
des photos de fruits que de produits Apple, comme le montre la figure qui suit (Figure 2.6,
page 64).
24

http://www.oclc.org/dewey/
http://www.acm.org/about/class/
26
http://blogs.talis.com/panlibus/archives/2005/09/why_tagging_is_.php
25

64

2.2 Limites de lapproche classique

Problmes dhtrognit
Si un tag peut avoir plusieurs significations, il est galement possible que plusieurs
tags soient utiliss pour reprsenter la mme entit. Cest l toute lambigut des systmes
de tags et du choix de ces termes par les utilisateurs eux-mmes. Cette htrognit est
souvent morphologique ou morphosyntaxique (synonymes, pluriels, variations de casse,
multilinguisme ...). Par exemple les tags EDF, ElectriciteDeFrance et lectricit de
france identifient la mme entreprise. Si des systmes de suggestion ou dautocompltion
peuvent permettre de restreindre cette htrognit, il arrive cependant quelle soit motive par des raisons lies des choix plus personnels (on trouve par exemple sur Delicious
un certain nombre de tags dbutant par _ permettant leur placement en dbut de liste alphabtique).
Nous avons constat cette htrognit plusieurs reprises dans notre contexte applicatif. En analysant notre systme, nous avons en effet pu nous rendre compte que certains concepts taient associs plus de cinq tags diffrents et que certains utilisateurs employaient eux-mmes plusieurs tags pour se rfrer un mme concept (Section 4.4, page
183).
nouveau, on retrouve abondamment ce problme sur le Web. Pour exemple, nous
avons observ que plus de dix tags distincts sont utiliss des frquences diverses pour le
concept de Web Smantique sur Delicious, comme le montre le tableau qui suit (Tableau 2.5,
page 65)27 et ce sans prendre en compte les termes connexes (e.g. SPARQL, RDFa, etc.), sujet
que nous allons maintenant voquer.
Tag
semanticweb
semantic-web
semweb
websemantique
web-semantique
websemantica
web-semantica
websemantic
web-semantic
websemantico
web-semantico
websem
semaweb

URL de la page associe

http://delicious.com/tag/semanticweb
http://delicious.com/tag/semantic-web
http://delicious.com/tag/semweb
http://delicious.com/tag/websemantique
http://delicious.com/tag/web-semantique
http://delicious.com/tag/websemantica
http://delicious.com/tag/web-semantica
http://delicious.com/tag/websemantic
http://delicious.com/tag/web-semantic
http://delicious.com/tag/websemantico
http://delicious.com/tag/web-semantico
http://delicious.com/tag/websem
http://delicious.com/tag/semaweb

Bookmarks
151229
29369
19919
1646
1028
1693
1196
210
170
113
138
12
15

Tableau 2.5: Tags utiliss pour le concept de Web Smantique sur Delicious

27

Analyse de Mai 2009.

65

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

Absence dorganisation
Une dernire limite associe ces pratiques de tagging est labsence dorganisation entre
tags. Une folksonomie nest en effet quun amas de mots-cls dsorganiss au sens o aucune relation nest explicitement dfinie entre les termes utiliss. Ainsi, bien quil puisse
exister une relation entre les concepts reprsents par diffrents tags, celle-ci nest prise en
compte aucun moment. Ces systmes ne sont ainsi pas capables didentifier la relation
qui existe entre les tags nergie des vagues et nergie marine (ou plutt entre les
concepts correspondants) et en consquence de prendre en compte cette relation au niveau
de la recherche dinformation et de la navigation. nouveau, cette absence dorganisation
est lie au manque de smantique qui existe dans des organisations comme les folksonomies.
Si certaines mthodes statistiques permettent de pallier ce manque dorganisation,
nous allons maintenant montrer en quoi celles-ci sont limites, notamment dans un contexte
o le niveau dexpertise des diffrents utilisateurs est relativement htrogne.
Approches de clustering et limites de celles-ci dans notre contexte
Pour pallier ces limitations, des mthodes classiques de clustering peuvent tre utilises afin didentifier des ensembles de tags proches ou similaires [Begelman et al., 2006]. En
se basant sur des stratgies de cooccurrence, on peut suggrer des tags partir dun tag
particulier afin denrichir les possibilits de recherche dinformation, comme le propose par
exemple Delicious avec une liste de related tags (Figure 2.7, page 66).

Figure 2.7: Tags suggrs par cooccurrence sur Delicious


Il nous est cependant apparu que ces stratgies taient difficilement applicables dans
certains contextes, notamment dans notre systme de tagging dentreprise. En effet, une analyse plus complte de notre folksonomie, reposant sur un ensemble de 12257 tags utiliss au
sein de 21614 billets de blog, nous a conduits des rsultats intressants ce sujet. Comme
le montre la figure qui suit (Figure 2.8, page 67) et les statistiques associes (Tableau 2.6,
page 67), la distribution de nos tags au sein de la folksonomie suit une distribution de Pa-

66

2.2 Limites de lapproche classique

reto28 : un trs grand nombre de tags sont utiliss trs peu de fois. On voit par exemple
que 68% dentre eux sont utiliss au maximum deux fois, et seulement 10% plus de dix fois.
Comme tudi par [Hayes et al., 2007], ce type de distribution rend difficile lapplication des
mthodes de clustering, moins de combiner celles-ci avec dautres techniques, par exemple
prendre en compte le contenu associ aux tags.

Frquence d'utilisation

10000

1000

100

10

1
1

10

100

1000

Nombre de tags

Figure 2.8: Distribution des tags au sein de notre folksonomie

Frquence
f
1
2
3
4
5
6
7
8
9
10

Nombre
de tags
6643
1787
857
501
334
288
189
166
102
114

f fois
54.2
14.58
6.99
4.09
2.72
2.35
1.54
1.35
0.83
0.93

Pourcentage utilis
f fois ou moins f + 1 fois ou plus
54.2
45.8
68.78
31.22
75.77
24.23
79.86
20.14
82.58
17.42
84.93
15.07
86.47
13.53
87.83
12.17
88.66
11.34
89.59
10.41

Tableau 2.6: Distribution des tags au sein de la plate-forme Herms


Cette analyse nous a galement permis de constater que le niveau dexpertise des utilisateurs sur un domaine donn influait fortement sur la manire dutiliser les tags. Par exemple,
28

Egalement connue dans le monde Web 2.0 sous lappellation de long tail. http://www.wired.com/

wired/archive/12.10/tail.html

67

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

les experts en nergie solaire utilisent des tags tels que TF29 , alors que les non-experts vont
utiliser des termes gnriques comme solaire. Un problme particulier associ ces diffrentes manires dannoter les contenus est que les experts nutilisent pas toujours les termes
gnriques, car vidents ou trop spcifiques pour eux. Il existe en effet une diffrence du niveau de base (basic level) pour un domaine donn entre experts et non-experts, comme lont
soulign [Tanaka et Taylor, 1991], celle-ci se ressentant dans les principes dannotation par
tags. ce sujet, [Golder et Huberman, 2006] ont dailleurs remarqu des comportements similaires au sein de Delicious. Dun point de vue de la distribution des tags associs et de
leur cooccurrence, ceci conduit un lien trs faible entre le tag gnrique et les diffrents
tags spcifiques associs. Nous avons ainsi constat que seulement 1% des 194 billets tagus TF taient galement taggus solaire, alors que moins de 0.5% des 704 billets tagus
solaire le sont avec TF. Ce faible rapport de cooccurrence rend nouveau les algorithmes
de clustering difficilement applicables pour identifier une similarit entre ces tags, comme
lont montr [Begelman et al., 2006]. En effet, la rapport entre tags est trop faible pour tre
pris en compte par de tels algorithmes, moins de diminuer leur seuil dacceptation, les
rendant peu pertinents puisque suggrant alors un nombre de tags beaucoup trop lev. En
consquence, les systmes ne seront pas capable didentifier certains tags comme proches
bien quil soit vident quil existe un lien fort entre les concepts associs. Ceci complexifie
dautant plus la recherche de contenus annots ds lors que lutilisateur nexplicite pas le
tag exact.
2.2.4

Synthse des problmes rencontrs

Nous pouvons ainsi synthtiser les diffrents problmes rencontrs par rapport la vision de lEntreprise 2.0 dfinie par SLATES de la manire suivante (Tableau 2.7, page 68) :
Rgle
Search
Link
Authoring
Tags
Extension
Signals

Problme
Pas de prise en compte des problmes dambigut et dhtrognit,
information fragmente, difficult didentifier les sources
Production de lien hypertextes entre documents et non pas de relations
types entre les concepts quils reprsentent
Production de documents et non pas des concepts associs
Ambigut, htrognit et absence dorganisation
Extension possible uniquement sur des mthodes statistiques ou de cooccurrences, limites pour les raisons voques plus haut
Difficult de suivi de linformation du labondance de nouvelles issues
de flux RSS

Tableau 2.7: Problmatiques soulevs par lapproche SLATES classique au sein dHerms
Si les limites mentionnes sappliquent chacun des outils pris individuellement sur
le Web (blogs, wikis ou agrgateur RSS), elles sont dautant plus problmatiques dans un
contexte dentreprise. En effet, un accs efficace linformation est un prrequis dans un
29

68

Acronyme pour Thin Film, un type particulier de cellule solaire.

2.3 cosystme smantique pour lEntreprise 2.0

environnement tel que celui-ci. Les limites voques sont ainsi particulirement problmatiques, dans le sens o lutilisation de ces outils accentue la publication et le partage dinformations de valeur, mais ne permet pas de les identifier et les rutiliser de manire optimale. Il nous semble ainsi que lanalyse de [Mathes, 2004] au sujet des systmes de tags peut
sappliquer lensemble des applications Web 2.0. On peut considrer que si les outils classiques de lEntreprise 2.0 facilitent la publication dinformation, la recherche peut savrer
au contraire trs complexe. A nouveau, cette complexit est proportionnelle au nombre de
documents crs et doutils utiliss.
2.3
2.3.1

COSYSTME SMANTIQUE POUR LE NTREPRISE 2.0


Web Smantique et mthodologie SemSLATES

Afin de rpondre efficacement aux problmatiques poses dans la section prcdente,


nous proposons dappliquer les technologies du Web Smantique (Section 1.1, page 12)
de tels systmes dinformation dEntreprise 2.0. Notre proposition tend ainsi la vision
classique des systmes dEntreprise 2.0 en se concentrant sur la modlisation dannotations smantiques associes de telles architectures, proposant la mise en place dun cosystme smantique pour lEntreprise 2.0 en support de lexistant, la manire de ce que
[Gandon, 2002] considre comme des semantic intrawebs.
Plus prcisment, ces annotations se font avec trois objectifs complmentaires en tte
(Figure 2.9, page 70) :
la modlisation de mtadonnes socio-structurelles associes aux diffrents outils, i.e. la
reprsentation des diffrentes activits tablies au sein de ceux-ci. Ces annotations
vont ainsi permettre de reprsenter quun billet de blog a t cr par tel auteur ou
quune page wiki fait partie de tel wiki ;
le peuplement dontologies, i.e. la cration et le maintien dinstances et des proprits associes. Ces annotations vont ainsi tre utilises pour modliser des assertions comme
le fait quEDF est une entreprise franaise ;
lindexation smantique de contenu, i.e. lindexation de documents avec des concepts
dontologies, en pratique des instances dontologies de domaine. Ces annotations permettent donc de modliser quun billet de blog a pour sujet EDF, identifi non pas
comme simple chane de caractre mais comme instance dune classe Entreprise, avec
une URI propre. Elles permettent de plus dtablir un pont entre les mtadonnes
socio-structurelles et les ontologies de domaine et les instances associes.
Cet cosystme smantique nous permet ainsi denvisager SemSLATES, extension de
SLATES bas sur les technologies du Web Smantique et que nous dfinissons comme suit
(Tableau 2.8, page 70).
Comme le montre galement la figure qui suit (Figure 2.9, page 70), il est ncessaire de
considrer ce niveau de reprsentation comme une extension venant en support de lexistant
et non pas comme un systme annexe, tout comme lest le Web Smantique par rapport au
Web. De ce fait, deux points importants sont retenir :
lutilisation des outils dorigine (blogs, wikis, agrgateur RSS) pour permettre la production des annotations smantiques, sans pour autant complexifier leur utilisation.
69

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

Ontologies

Annotations smantiques
et ontologies

Energie

Entreprise

produit

situ en

Pays

est une
EDF

est un
situ en

France

a pour sujet

fait partie de

a pour auteur
AP

S.I. Entreprise 2.0

Indexation
smantique

Meta-donnes
socio-structurelles

Page wiki 2

a un lien vers

Billet 2

Peuplement
d'ontologies

Wiki A

hyperlien
Billet 2

cre

Page wiki 2

contient

a pour tag
EDF

Wiki A

Figure 2.9: Annotations smantiques en support dun systme dEntreprise 2.0 existant selon
trois niveaux dannotations

Link
Authoring

SLATES
Recherche plein-texte et/ou par
tags
Liens entre documents
Publication de contenus

Tags

Annotation de contenus par tags

Extension

Extension par hyperliens et systmes de tags

Signals

Suivi de nouvelles par flux RSS

Rgle
Search

SemSLATES
Recherche smantique, i.e. par
concepts
Relations types entre concepts
Publication dannotations smantiques
Indexation smantique avec des
ontologies de domaine
Extension par parcours du graphe
de connaissances induit par les annotations
Indexation smantique de flux RSS
et cration de flux ddis

Tableau 2.8: Fonctionnalits compares de SLATES et SemSLATES

70

2.3 cosystme smantique pour lEntreprise 2.0

La pratique nous ayant montr que la simplicit des diffrents outils contribuait leur
russite, conserver celle-ci est un prrequis la russite de notre proposition ;
le rle central jou par lutilisateur final, par extension du point prcdent. Les diffrentes annotations sont en effet le produit de la participation volontaire des utilisateurs ces outils et plus gnralement des interactions sociales qui en dcoulent. Le
rle de ces utilisateurs est en ralit double, puisque (1) dune part notre systme permet la reprsentation des actions utilisateurs (mtadonnes socio-structurelles) et que
(2) dautre part les diffrentes annotations produites (pour le peuplement dontologies
et lindexation smantique) sont le fait de ces interactions sociales.
2.3.2

Dfinition dune architecture sociale de mdiation smantique

Limplmentation de lcosystme prcdent se traduit par la mise en place dune architecture de mdiation en complment du systme dinformation initial, permettant dinterconnecter et denrichir les diffrentes dorigine [Passant, 2008a] [Passant et al., 2009c].
[Rousset et al., 2002] donne la dfinition suivante dun mdiateur : "Un mdiateur joue un
rle dinterface de requtes entre un utilisateur et des sources de donnes. Il donne lutilisateur lillusion dinterroger un systme homogne et centralis en lui vitant davoir trouver les sources de donnes pertinentes pour sa requte, de les interroger une une, et de combiner lui-mme les informations
obtenues". Sil sagit bien dun prrequis aux objectifs que nous visons, notre implmentation
diffre quelque peu de cette dfinition classique de mdiation [Wiederhold, 1992]. Comme
[Rousset et al., 2002] le prcise, les architectures de mdiation ont gnralement pour objectif de proposer des mthodes pour unifier les requtes au dessus de sources de donnes
htrognes et rparties. Ceci seffectue via un systme de distribution des requtes puis de
recomposition des rsultats partir de vues proposes par les outils sources. loppos,
notre approche consiste non pas dcomposer les requtes pour interroger les diffrentes
sources de donnes mais au contraire modliser les sources selon un ensemble dontologies prdfinies en fonction dannotations RDF associes. Ces graphes dannotations sont
ensuite immdiatement stocks au sein dun entrept de donnes associ au mdiateur, faisant de notre approche un modle hybride entre les systmes de mdiation et les datawarehouse la manire de Xylme [Xyleme, 2001]. Nous discuterons ce choix architectural en
dtail dans la suite du mmoire (Section 5.1, page 188), motiv essentiellement pour des raisons de performance devant le besoin rel de fournir aux utilisateurs des rponses rapides
leurs requtes. Notons que nous emploierons par la suite simplement le terme darchitecture
de mdiation pour dfinir notre proposition, et considrons le systme de stockage comme
faisant partie intgrante de celle-ci. Malgr cette structure hybride, notre systme conserve
les diffrents niveaux dune architecture de mdiation, savoir :
des sources de donnes, i.e. les diffrents outils du systme dorigine auxquels viennent
se greffer diffrents adaptateurs, plug-ins permettant la production aise dannotations
smantiques partir de ceux-ci ;
un mdiateur intgrant (1) les donnes RDF produites par ces diffrents adaptateurs et
(2) les ontologies utilises pour modliser ces donnes, intgrant donc le systme de
stockage voqu auparavant ;
des services additionnels venant sy greffer et permettant lutilisateur deffectuer dif71

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

frentes requtes et de naviguer simplement au sein des donnes du mdiateur, i.e. de


considrer de manire unifie les sources htrognes dorigines.
De plus, de la mme manire quun mdiateur lautorise, lajout dune nouvelle source
de donne implique uniquement la mise en place dun nouvel adaptateur pour celle-ci. Il
est galement important de noter que si le mdiateur lui-mme repose sur lintgration de
graphes dannotations smantiques, modlises en RDF, les diffrents services additionnels
masquent totalement cette complexit. Nous utilisons notamment des interfaces issues des
principes Web 2.0 pour reprsenter les donnes ainsi agrges, proposant de cette manire
une double complmentarit entre Web 2.0 et Web Smantique (Figure 2.10, page 72) :
dune part, les donnes du mdiateur modlises selon les principes du Web Smantique sont produites partir des diffrents outils initiaux et des comportements utilisateurs. Cest en ce sens que nous parlons de mdiation sociale, ces comportements
tant galement modliss dans notre architecture de mdiation ;
dautre part, les annotations peuvent tre visualises par lintermdiaire doutils simples,
masquant la complexit de celles-ci lutilisateur et notamment inspirs de certains
concepts introduits par le Web 2.0, comme la notion de mash-ups smantiques.

Interfaces de requtes et de navigation

Architecture de mdiation Web Smantique


(Ontologies, graphes d'annotations)

Systme d'information Entreprise 2.0

Figure 2.10: Architecture de mdiation smantique pour lEntreprise 2.0


Comme nous lavons indiqu, notre mdiateur (M ) repose sur un ensemble dannotations smantiques issues du systme dinformation initial (SI) et modlises en RDF selon
un ensemble dontologies RDF(S)/OWL. Nous modlisons ainsi les diffrents lments pris
72

2.3 cosystme smantique pour lEntreprise 2.0

en compte par le mdiateur de la manire suivante :


Input(M ) = (O, G)

(2.1)

O = {Om(SI) } {Od(SI) }

(2.2)

G = {Gm(SI) } {Gd(SI) } {Gd(W ) }

(2.3)

o
Om(SI) est un ensemble dontologies relatives la reprsentation des mtadonnes
socio-structurelles du SI ;
Od(SI) est un ensemble dontologies relatives la reprsentation des donnes mtier
voques dans les diffrents contenus du SI ;
Gm(SI) est un ensemble de graphes dannotations RDF (Section 1.1.2, page 16) modlisant les mtadonnes socio-structurelles du SI ;
Gd(SI) est un ensemble de graphes dannotations RDF modlisant des donnes mtier
prsentes dans les documents du systme dinformation, i.e. annotations relatives au
peuplement dontologies ;
Gd(W ) est un ensemble de graphes dannotations RDF issus du Web et modlisant essentiellement des donnes mtier, pouvant provenir notamment des efforts du projet
Linking Open Data (Section 1.1.4, page 27).
Le mdiateur est donc aliment (Input(M )) par un ensemble dontologies (prdfinies)
et de graphes dannotations smantiques reposant sur celles-ci (crs depuis les diffrents
adaptateurs). Comme nous lavons voqu dans la section prcdente, ces annotations peuvent
avoir plusieurs rles : mtadonnes socio-structurelles, peuplement dontologies et indexation smantique mais sont toujours cres via les diffrents outils dorigines et adaptateurs
associs (hormis celles issues des graphes Gd(W ) , provenant du Web). Par exemple, comme
nous allons maintenant le voir, des graphes dannotations du type Gm(SI) vont tre produits partir dinteractions sur les blogs alors que les wikis vont permettre le peuplement
dinstances dontologies de domaine et en consquence la production dannotations du type
Gd(SI) . Notons par ailleurs, pour des raisons de suivi de linformation et de traabilit de
celle-ci au sein du mdiateur que nous dtaillerons quand nous aborderons les wikis smantiques (Section 4.2.1, page 148), les graphes dannotations mtier issus des outils internes
sont lis aux graphes de mtadonnes socio-structurelles et ne peuvent sintgrer seuls au
mdiateur.
2.3.3

Modles, adaptateurs et services

Production des mtadonnes socio-structurelles partir des outils dorigine


Notre premier besoin pour la ralisation de cet cosystme smantique consiste en la dfinition dun ensemble dontologies permettant une reprsentation unifie des mtadonnes
socio-structurelles du SI. Nous souhaitons que de tels modles permettent de reprsenter :
les documents mais aussi les outils eux-mmes en tant que conteneurs de donnes (un
blog, un wiki donn) ;
les utilisateurs en tant quentits virtuelles reprsentes dans le systme (et non pas
directement les personnes physiques) ;
73

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

les liens entre ces diffrents composants permettant de prendre en compte la composante sociale voque ci-dessus.
Cest en raison de cette combinaison entre activits sociales et structures des diffrents outils et documents que nous utilisons lappellation de mtadonnes socio-structurelles. De
tels modles ({Om(SI) }) vont ainsi venir en support de la production des graphes dannotations associes ({Gm(SI) }) permettant de rsoudre en partie le problme dhtrognit des
sources dinformation (Section 2.2.1, page 62). Cette smantique commune permet terme
dinterroger les outils de manire unifie, rduisant la problmatique de fragmentation.
Pour satisfaire ces diffrents besoins, nous avons particip la dfinition de lontologie SIOC Semantically-Interlinked Online Communities [Breslin et al., 2005] que nous
dtaillerons par la suite (Section 3.1, page 84). SIOC offre un modle destin la reprsentation des activits des communauts en ligne via une ontologie lgre et modulaire . Ce
modle se compose dun noyau et de diffrents modules dont un module Types permettant
de dfinir de manire assez fine les diffrents objets manipuls dans le contexte du Web 2.0
(blog et billets, wiki et pages wiki...). SIOC rutilise galement des vocabulaires existants et
populaires (DublinCore, FOAF ...) pour dfinir certaines proprits, vitant ainsi de redfinir des besoins dj satisfaits par des modles existants. La production de donnes RDF
modlises avec SIOC se fait de manire automatique depuis les diffrents outils mis en
place dans le systme dinformation dorigine. Par le biais de diffrents adaptateurs, sous
la forme dexporteurs ou de traducteurs, ces mtadonnes sont ainsi produites sans aucune
intervention utilisateur, de manire totalement transparente. Nous dtaillerons dans les chapitres qui suivent les diffrents outils ncessaires pour permettre cette traduction dans notre
contexte mais aussi de manire gnrale sur le Web (Section 4, page 137). SIOC est en effet
aujourdhui utilis et recommand dans un grand nombre de services combinant principes
du Web Smantique et du Web 2.0.
La figure suivante illustre la modlisation uniforme de diffrentes sources de donnes
htrognes grce SIOC (Figure 2.11, page 75). Elle montre ainsi lintrt dune smantique commune, les instances des classes reprsentant les documents hritant toutes de
sioc:Item et utilisant la mme proprit sioc:has_container pour les rattacher leur
conteneur. On obtient ainsi un modle homogne, tout en conservant la spcificit de chacun des contenus grce lutilisation du module Types. Cette unification se traduit par un
ensemble dannotations RDF similaires quelque soit loutil dorigine et permet donc lutilisation de requtes SPARQL uniformes. Le systme bnficie ainsi dun premier niveau
de smantique commune pour notre architecture de mdiation, permettant par exemple
didentifier tous les contenus crs il y a plus de dix jours et ce quelque soit loutil dorigine.
Capitalisation des connaissances et peuplement dontologies
Alors que le point prcdent sintresse essentiellement la structure des diffrents outils, notre second besoin concerne le contenu mme des documents, dans un objectif de
capitalisation des connaissances. Cest ici quintervient le second niveau de smantique ncessaire notre architecture, comprenant un ensemble dontologies de domaine ({Od(SI) })
et les graphes dannotations associs ({Gd(SI) }). Comme nous lavons voqu, la mthodologie SemSLATES repose fortement sur le rle des utilisateurs dans ce contexte de mdiation
74

2.3 cosystme smantique pour lEntreprise 2.0

rdf:type

:item_1

sioct:NewsItem
Flux RSS aux
formats divers
:billet_1

rdfs:subClassOf
sioc:Item

rdf:type
rdfs:subClassOf
sioct:BlogPost

Modle de donnes
pour les blogs

rdfs:subClassOf

rdf:type
sioct:WikiArticle
:article_1

Modle de donnes
pour les wikis
Modles
distincts

Exports ou
traduction

Smantique commune

Figure 2.11: Reprsentation unifie des mtadonnes documentaires avec SIOC

smantique et sociale. Ainsi, si ce processus se rapproche du peuplement dontologies, nous


avons fait en sorte de lassocier aux comportements des utilisateurs travers les outils initiaux. Notre proposition en termes de capitalisation des connaissances pour lEntreprise 2.0
repose donc sur lutilisation de wikis smantiques en tant quinterfaces de peuplement dontologies de domaine (Section 4.2.1, page 148). Cette proposition permet ainsi de bnficier
des principes de la philosophie wiki (ouverture, collaboration ...) pour peupler une ou plusieurs ontologies de domaine, tout en masquant la complexit du processus aux utilisateurs.
Dans notre contexte applicatif, ce processus se traduit par un enrichissement de la plateforme de wiki avec un systme dannotations guides par un ensemble de formulaires reposant sur des ontologies de domaine, sous le nom dUfoWiki (Section 4.2.2, page 154). Ces
ontologies tant par nature dpendantes des besoins de modlisation, nous nous sommes
concentrs, du fait de notre contexte industriel, sur des ontologies permettant de modliser diffrents acteurs et technologies associes (Section 3.2, page 103). Lexemple suivant
reprsente ainsi la modlisation de connaissances tablies au sujet dEDF produite via cet
adaptateur. partir dune page wiki, on modlise ainsi en RDF le fait quil sagit dune entreprise voluant en France dans le domaine de la production dnergie nuclaire (Listing
2.1, page 76)30 .
30

Les ontologies utilises dans cet exemple seront dtailles par la suite.

75

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

athena : EDF a foafplus : Company ;


role : hasRole [
role : roleDomain athena : Nucleaire ;
role : roleType athena : Production ;
geonames : locatedIn < http :// dbpedia . org / resource / France > .
] .

Listing 2.1: Reprsentation dassertions au sujet dEDF

Tags et indexation smantique


Si les systmes base de tags souffrent de nombreux dfauts en termes de recherche
de documents annots (Section 2.2.3, page 63), les processus dindexation smantique permettent selon nous dy rpondre efficacement. En associant ces documents non pas de
simples termes linguistiques (tags) mais des concepts ou instances dontologies identifis (via leur URI) de manire universelle et non ambige, les diffrents problmes recenss
prcdemment peuvent tre rsolus :
via lutilisation dURIs pour annoter les contenus, les problmes dambigut et dhtrognit sont rsolus. Ces URIs sont en effet non-ambigus par rapport aux concepts
quelles identifient et font abstraction du terme. Par exemple, pour identifier le terme
Web Smantique, nous pouvons utiliser lunique URI dbpedia:Semantic_Web en
lieu et place de diffrents termes ;
la dcouverte de contenus proches peut se faire en utilisant les diffrentes relations
entre instances, palliant ainsi aux diffrentes limites que nous avons voques quant
aux mthodes statistiques poursuivant un but similaire via lanalyse de cooccurrence
de tags. Par exemple, puisquil existe au sein de DBpedia une relation directe entre les
URIs dbpedia:Category:Semantic_Web et dbpedia:RDFa, les documents au sujet
de RDFa pourront tre retrouvs partir de ceux relatifs au Web Smantique.
Cependant, il existe en gnral une marge assez large entre ces deux mthodes dindexation documentaire. Alors que la premire repose sur lassociation de simples mots-cls
aux documents annoter, sans prrequis technique ni connaissance dun vocabulaire prdfini, la seconde fait appel des connaissances plus pousses la fois en termes de connaissance du (ou des) vocabulaire(s) disponible(s) pour lindexation et en termes dingnierie
des connaissances et de reprsentation des annotations smantiques associes.
Pour ce faire, nous avons ainsi dfini le modle MOAT Meaning Of A Tag ,dont lobjectif est de proposer une approche mixte entre la simplicit dutilisation des tags et la complexit mais la puissance de lindexation smantique [Passant et Laublet, 2008b]. Lapproche dfendue au sein de notre mthodologie consiste ainsi fournir aux utilisateurs un
moyen simple de franchir le pas qui spare ces deux principes dindexation. Cette approche
permet aux utilisateurs dassigner chaque tag utilis sa signification correspondante, en
utilisant une ressource du Web Smantique. Nous entendons donc ici par signification dun
tag le sens quil porte, i.e. le concept auquel il se rfre.
Par exemple, ce modle permet de reprsenter que dans un contexte particulier, le tag
apple est utilis pour reprsenter le fruit (identifi par dbpedia:Apple) mais quil est utilis
76

2.3 cosystme smantique pour lEntreprise 2.0

dans un autre contexte pour reprsenter lentreprise informatique (dbpedia:Apple_Inc.).


En particulier, dans ce contexte dEntreprise 2.0, notre approche permet dutiliser non pas
uniquement des URIs de concepts disponibles sur le Web (via DBpedia par exemple) mais
aussi des instances dontologies de domaine peuples en interne, notamment via les wikis.
Cette approche repose sur une ontologie lgre (Section 3.3.3, page 128) et sur un processus
participatif permettant de partager ces diffrentes significations au sein dune communaut
(Section 4.3, page 171). Le tout se fait de manire la plus transparente possible pour lutilisateur de manire rester proche de la simplicit des systmes base de tags.
Exploitation des donnes via de nouveaux services
Bien que produites via des outils distincts, les diffrentes annotations smantiques sorganisent sous la forme dun unique graphe dannotations issues des diffrents outils du
systme initial dEntreprise 2.0 et comprenant annotations socio-structurelles, donnes mtier (interconnectes aux prcdentes notamment via MOAT) et ontologies. Afin dexploiter
au mieux ces diffrents niveaux de reprsentation, interconnects au sein de cet cosystme smantique venant se greffer sur notre plate-forme dorigine, diffrentes applications
peuvent-tre envisages. En effet, partir du moment o nous disposons de graphes dannotations RDF interconnectes, ceux-ci peuvent tre manipuls de diverses manires. Ceci
nous semble un point important considrer dans lapproche du Web Smantique : considrer les annotations RDF comme lment fondamental de lapproche, certaines applications
ntant ainsi que des systmes de visualisation adaptables au dessus de ces donnes, comme
nous lavons introduit dans le chapitre prcdent (Section 1.1.4, page 27) et le dtaillerons
par la suite (Section 5, page 187) notamment en prsentant doap:store31 [Passant, 2007b].
Dans notre contexte, les services permettant de rpondre ces divers points peuvent donc
tre de nature assez diverses : indexation automatique de flux RSS entrants, moteur de recherche smantique, mash-ups, navigation facettes ... Par exemple, nous avons mis en place
un service de mash-up smantique combinant donnes internes et des donnes publiques
proposes sur le Web par le projet Geonames32 afin de golocaliser les diffrentes instances
dontologies de domaine produites par nos wikis (Section 5.2.3, page 207). Ce service met
ainsi en valeur lintgration de donnes publiques au sein dune plate-forme dentreprise,
intgration rendue possible via lutilisation de formats communs entre le Web et le systme
dinformation interne (Section 4.2.4, page 164).
Nous prsenterons en dtail dans le dernier chapitre de ce mmoire les diffrents outils
mis en place dans notre contexte et la manire dont ils offrent de nouvelles manires de
visualiser et accder linformation dans ce contexte dEntreprise 2.0 ainsi que les principes
architecturaux associs (Section 5, page 187).
2.3.4

Situation de lapproche vis--vis de ltat de lart

Alors que nous reviendrons dans les chapitres suivants sur des aspects particuliers de
nos travaux et leur situation par rapport ltat de lart (SIOC, MOAT, UfoWiki), il nous
semble pertinent de positionner lapproche SemSLATES dans son ensemble.
31
32

http://doapstore.org
http://geonames.org

77

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

Nous pouvons tout dabord situer celui-ci par rapport aux architectures de mdiation
bases sur les principes du Web Smantique. [Wiederhold, 1992] justifie le besoin darchitectures de mdiation en raison de la surcharge dinformation, problme que nous avons
galement expos dans ce chapitre33 : "Without smart software we will gain access to more data
but not improve access to the type and quality of information needed for decision making". En proposant des formats de structuration et dchange de donnes standardiss avec RDF(S)/OWL,
les technologies du Web Smantique sont particulirement adaptes pour la mise en place
de tels systmes de mdiation et de gestion de linformation reposant sur des ontologies. De
nombreux travaux ont ainsi t proposs dans cette direction, parmi lesquels :
PICSEL [Rousset et al., 2002] qui sattache notamment lintgration de sources de
donnes dans le domaine du tourisme. Il repose sur lutilisation de diffrentes ontologies (modlises en CARIN-ALN ) pour permettre lintgration de sources de donnes
distribues et htrognes de manire transparente pour lutilisateur ;
Ontobroker [Decker et al., 1999], lun des premiers systmes dintgration de donnes
reposant sur des principes prcurseurs au Web Smantique. Celui-ci est aujourdhui
commercialis par la socit Ontoprise34 et repose sur les formalismes RDF(S)/OWL
mais aussi F logic). Il sintresse particulirement lintgration de de bases de
donnes et dispose dadaptateurs pour les principales solutions du march ;
SCORE Semantic Content Organization and Retrieval Engine [Sheth et al., 2002] qui
sintresse galement lintgration de sources de donnes htrognes laide dontologies. Dans cette approche, la phase dextraction de connaissances et leur normalisation depuis les diffrentes sources de donnes joue un rle majeur pour permettre
la mise en place de nouveaux services, notamment en termes de recherche dinformation.
Plus proche de nos travaux, [Maedche et al., 2003] proposent galement une vision des
systmes de gestion de connaissances en entreprise bass sur des ontologies avec OMKS
Ontology-based Knowledge Management System. Leur proposition de concentre notamment sur
lintgration et lalignement de diffrentes sources de donnes internes (bases de donnes,
annuaires ...) via un systme central de mdiation. Plus particulirement, une caractristique
de cette approche est la notion dalignement entre diffrentes ontologies locales au sein du
systme de mdiation. Les diffrents cas dutilisation du Web Smantique en entreprise recenss par le W3C35 regroupent galement de nombreux scnarios de mdiation reposant
sur ces technologies. On les trouve ainsi utilises pour lidentification de profils dexperts
la NASA36 ou la gestion de donnes biomdicales chez Eli Lilly37 . Enfin, si notre approche
se concentre sur lutilisation des technologies du Web Smantique pour le bnfice de lutilisateur final, ces techniques de mdiation peuvent galement tre utilises pour faciliter
les changes directs entre applications dans un processus dintgration dapplications dentreprises ou EAI Enterprise Architecture Integration. Cest par exemple ce que proposent
33

Il est par ailleurs intressant de constater que cette problmatique datant dune quinzaine dannes est
toujours prsente et sest mme accentue avec lexplosion du Web et des modes de publications Web 2.0.
34

http://ontoprise.de
http://www.w3.org/2001/sw/sweo/
36
http://www.w3.org/2001/sw/sweo/public/UseCases/Nasa/
37
http://www.w3.org/2001/sw/sweo/public/UseCases/Lilly/
35

78

2.3 cosystme smantique pour lEntreprise 2.0

[Anicic et al., 2006] avec lutilisation dontologies OWL et de scripts dedis permettant daligner les entres et sorties XML de diffrentes applications selon des modles communs.
Cependant, ces approches ne prennent gnralement pas en compte les notions dutilisateurs et dinteractions sociales dans ces processus de mdiation, se focalisant essentiellement sur des donnes mtier provenant de bases de connaissances figes (annuaires, fonds
documentaires, etc.). Cest selon nous une des originalits de notre approche, le rle de lutilisateur tant pris en compte de deux manires :
dune part travers la prise en compte des interactions sociales auxquelles il participe avec la reprsentation en RDF de mtadonnes socio-structurelles associes aux
diffrents outils et documents crs. Le rle de lutilisateur est ainsi pris en compte
en termes de comportements sociaux et dannotations documentaires, principalement
via les modles SIOC et MOAT ;
dautre part, son rle en tant quacteur principal du peuplement dontologie, via lutilisation de wikis smantiques. Alors que les approches classiques de mdiation se
basent gnralement sur des ontologies peuples par un nombre restreint dutilisateurs ou reposant sur des bases de connaissances prdfinies, les ontologies sont ici
peuples par les utilisateurs eux-mmes, les bases de connaissances voluant ainsi en
fonction de leurs comportements.
Cest en ce sens que nous pouvons qualifier notre approche de systme de mdiation sociale, lutilisateur final ayant un rle important selon deux points de vue, distincts mais non
disjoints, dans la mise en place de cet cosystme informationnel.
Bien que non ax sur une mdiation de donnes Web, il nous parait galement important
de mentionner ici linitiative du Semantic Desktop, notamment au travers du projet Nepomuk38 [Bernardi et al., 2008]. Celui-ci vise proposer un systme de mdiation pour le poste
de travail, permettant une interoprabilit entre diffrentes applications (carnet dadresses,
outils bureautique, client e-mail, etc.) via lutilisation dontologies communes et de systmes
dextraction dinformation combine lannotation manuelle de documents par les utilisateurs. En tablissant ainsi une smantique commune entre les donnes produites par ces
diffrents outils, qui peut tre couple certaines interactions sociales (et les reprsentations RDF associes), cette approche propose ainsi une ide similaire la ntre, au niveau
du poste de travail et non pas dun systme dinformation dentreprise.
En terme plus gnral darchitecture et puisque nous ne nous basons pas sur un systme
de vues et de requtes distribues mais sur lannotation smantique de sources existantes,
le modle que nous proposons se rapproche de ce que dfinit [Berners-Lee, 2005a] avec la
notion de RDF Bus (Figure 2.12, page 80). Cette solution propose la mise en place dune
couche additionnelle de smantique au dessus doutils htrognes sans pour autant repenser ceux-ci mais via de simples ajouts traduisant les donnes source en RDF (en utilisant des
modles communs pour leur reprsentation) pour ensuite utiliser celles-ci avec SPARQL.
Une autre catgorie considrer dans cet tat de lart est celle des solutions combinant principes du Web 2.0 et du Web Smantique pour les systmes dinformation dentreprise. Bien que non ddi spcifiquement aux contextes dentreprise mais plus gnralement toute communaut en ligne, Openlink DataSpaces [Idehen et Erling, 2008] propose
38

http://nepomuk.semanticdesktop.org/

79

C HAPITRE 2 : SemSLATES : U NE APPROCHE SMANTIQUE POUR LE NTREPRISE 2.0

Figure 2.12: Architecture RDF Bus [Berners-Lee, 2005a]

une plate-forme combinant notamment blogs, wikis et systmes de favoris. Ce systme bnficie de certains de nos travaux, puisquil intgre notamment SIOC et MOAT en son sein
pour proposer cette architecture smantique intgre. Nous pouvons galement citer Talis
Engage39 , plate-forme collaborative base sur un certain nombre dontologies, dont nouveau SIOC. Plus particulirement ddi aux structures dentreprise, notamment les PME, citons enfin le rcent projet Europen Organik40 [Bibikas et al., 2008]. Celui-ci vise galement
tendre la vision de lEntreprise 2.0 propose par SLATES : annotation par concepts, recherche smantique, etc. Il semble cependant (dans ltat actuel) ne pas prendre en compte
le rle de lutilisateur pour le peuplement dontologies : contrairement la vision que nous
dfendons avec lutilisation de wikis smantiques pour permettre ce peuplement dontologies par lutilisateur, lobjectif est ici dextraire ce type dannotations avec des algorithmes
ddis.
Les approches pr-cites se basant sur des systmes monolithiques, leur introduction
dans un systme dj en place peut alors se rvler dlicate. Bien quune migration des
donnes existantes vers ce type de plate-forme soit envisageable, il faut garder lesprit
le temps ncessaire ladoption de tels systmes par les utilisateurs, comme nous lavons
voqu plus tt dans ce chapitre (Section 2.1.4, page 59). Ainsi, basculer vers de nouveaux
outils est un risque quil est ncessaire dvaluer, notamment dans des contextes o, comme
nous lavons vu, lappropriation de tels outils collaboratifs et des principes associs peut
prendre du temps.
Enfin, nous pouvons galement citer les travaux autour de CoMMA, systme galement
ax sur la notion dcosystme smantique pour lentreprise mais reposant sur une approche
diffrente pour parvenir cet objectif, i.e. sur un systme multi-agents [Gandon, 2002]. Celui39
40

80

http://talis.com/engage
http://www.organik-project.eu/

2.3 cosystme smantique pour lEntreprise 2.0

ci nous semble pertinent dans la manire o, bien que la prise en compte de lutilisateur ne
soit pas assure (du moins en termes dinteractions sociales) au niveau de la production
dinformations, celui-ci est pris en compte au moment de la diffusion de celle-ci. Les informations publies au sein de cette mmoire smantique dentreprise sont en effet diffuses
vers les utilisateurs en fonction des centres dintrts de chacun, centres dintrts dfinis
via des profils utilisateurs.
C ONCLUSION
Dans ce chapitre, nous avons tout dabord introduit la notion dEntreprise 2.0, notamment au travers du projet Athna et de la plate-forme Herms, mise en place au sein dEDF
R&D pour faciliter les changes dinformation entre ingnieurs et chercheurs. Nous avons
prsent en quoi cette plate-forme rpondait au paradigme SLATES mais restait limite sur
certains points. Nous avons ainsi introduit diffrents problmes soulevs par les outils Web
2.0 classiques, savoir lhtrognit des modles, labsence de connaissances interprtables de manire autonome, et les cueils des systmes base de tags. Nous avons ensuite
prsent en quoi il nous paraissait intressant daller plus loin via lutilisation dune couche
dabstraction base sur les technologies du Web Smantique et la mise en place dune architecture de mdiation au dessus de ces diffrents outils avec le paradigme SemSLATES.
Les chapitres suivants dtailleront les trois points principaux de notre approche, savoir la
dfinition des ontologies utilises au sein de cette architecture, le fonctionnement de chacun
des adaptateurs permettant la production de donnes homognes et interprtables et enfin
lutilisation que nous faisons de ces donnes via diffrents services qui viennent se greffer
au mdiateur.
Notons pour finir que si notre approche est ici prsente dans un contexte fortement
orient entreprise, elle peut sappliquer selon nous toute communaut en ligne utilisant
un ensemble doutils Web 2.0 et souhaitant aller au-del des fonctionnalits proposes traditionnellement par ceux-ci. Ainsi, cette vision SemSLATES nous semble aller plus loin que
le contexte dEntreprise 2.0 au sens o elle peut sadapter tout cosystme social dutilisateurs et doutils centr autour dintrts communs. De plus, via lutilisation de modles
et dURIs communs, il est galement possible denvisager une complmentarit entre diffrentes communauts de ce type pour parvenir un Web de donnes interconnects o
chaque lment contribue un cosystme gnral de la connaissance [Passant et al., 2009d].

81

Chapitre 3

Rle et dfinition dun ensemble


dontologies pour lEntreprise 2.0
I NTRODUCTION
Comme nous lavons voqu dans le chapitre prcdent, notre systme de mdiation
smantique fait appel des ontologies que lon peut considrer dune part comme des ontologies socio-structurelles et dautre part des ontologies mtier ou de domaine. Bien que ces
ontologies aient des objectifs relativement distincts, nous avons fait chaque fois le choix
de dvelopper des ontologies lgres de manire permettre une appropriation simple de
celles-ci et leur rutilisation dans dautres contextes. Nous prsenterons ici ces deux types
dontologies, rpondant chacun un besoin distinct, ainsi que la manire dont elles interagissent pour proposer un modle complet pour la modlisation la fois des contenus et
des contenants produits au sein dcosystmes dEntreprise 2.0.
Tout dabord, nous expliciterons nos travaux autour de SIOC, ontologie ddie la reprsentation des communauts en ligne et de leurs activits. Nous dtaillerons ainsi le modle
(son noyau et les modules associs) et la manire dont il interagit avec diffrentes ontologies
dj populaires sur le Web Smantique. Nous prsenterons galement dans cette premire
partie diffrents vocabulaires prcurseurs au travers dun tat de lart consacr aux modles
de reprsentation dactivits Web 2.0 via les technologies du Web Smantique. Nous tudierons galement en guise dvaluation la manire dont SIOC a pu tre adopt grande
chelle, mettant ainsi laccent sur ce qui nous semble tre des bonnes pratiques pour lacceptation dun vocabulaire sur le Web Smantique.
Nous prsenterons ensuite les diffrentes ontologies de domaine que nous avons dfinies au sein de notre architecture de mdiation. Puisque celles-ci sont par nature relatives
aux domaines abords, nous allons particulirement nous intresser aux choix de modlisation auxquels nous avons t confronts et la manire dont nous y avons fait face. Nous
allons galement voir en quoi, malgr le besoin dun lien fort avec les domaines mtier, le
niveau dabstraction que nous avons choisi permet den rutiliser une partie dans dautres
domaines. Ceci conduit des ontologies que lon pourrait considrer mi-chemin entre
des ontologies de domaine et des ontologies gnriques au sens o ladhrence avec le domaine se situe plus au niveau de la base de connaissances que du modle lui-mme. Plus
particulirement, nous prsenterons lutilisation et lextension de modles existants pour reprsenter la notion dagent et ses diffrentes proprits et expliciterons le choix du modle
83

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
SKOS [Miles et Bechhofer, 2008] pour la reprsentation taxonomique de domaines et mtiers
sintgrant une ontologie des rles
Ensuite, nous prsenterons MOAT, modle ddi la formalisation de liens entre tags
et concepts du Web Smantique et permettant ainsi dtablir un pont entre les pratiques
classiques de tagging et lindexation smantique. Nous nous attarderons galement dans
cette partie sur ltat de lart relatif aux liens entre ontologies et folksonomies et situerons
nos travaux dans ce contexte, la fois dans le domaine de la dfinition dontologies partir
danalyse de tags mais aussi dans celui de la reprsentation des tags (et des objets associs)
via des modles du Web Smantique. Plus particulirement, nous motiverons la dfinition
de MOAT au travers de cet tat de lart et prsenterons de quelle manire celui-ci sintgre
avec des modles existants. Nous prsenterons galement de quelle manire cette vision que
nous dfendons, savoir lutilisation dontologies de domaine et de base de connaissance
en support des tags pour rsoudre certaines de leurs limites, a t accepte sur le Web.
Enfin, nous dtaillerons comment sintgrent globalement ces diffrents niveaux dontologies pour proposer un modle complet de reprsentation des connaissances pour lEntreprise 2.0, combinant ainsi des aspects purement documentaires et sociaux et des aspects plus
formels de connaissances mtier. Outre les modles dfinis, une des originalits de notre approche est ainsi de proposer une combinaison cohrente au sein dun mme systme de
mdiation de ces diffrents niveaux de reprsentation, alors que la plupart des systmes de
mdiation se concentrent uniquement sur la couche mtier comme nous lavons vu dans le
chapitre prcdent (Section 2.3.4, page 77).
3.1
3.1.1

M TADONNES SOCIO - STRUCTURELLES POUR LE W EB 2.0 AVEC SIOC


Identification des Besoins

Comme nous lavons dj mentionn dans ce mmoire, les changes dinformations sur
le Web et en entreprise sont gnralement centrs autour dobjets particuliers (Section 1.2.3,
page 42). Or, la diversit des services proposs (blogs, wikis, agrgateurs RSS, services de
partage de contenus ...) introduit gnralement une fragmentation des informations et des
documents crs au sujet de ces objets. Par exemple, les informations relatives un artiste
particulier peuvent tre rparties entre une ventuelle biographie sur Wikipedia, un profil
sur Last.fm, des photos de concerts sur Flickr ou bien encore des billets de blogs distribus
au sein de la blogosphre. En entreprise, le problme est sensiblement le mme. Si lon prend
un projet particulier, il est fort probable que sa description soit publie sur un wiki mais que
des comptes-rendus de runion soient posts sur diffrents blogs ou bien encore que les flux
RSS contiennent des informations importantes sur les diffrents partenaires du projet. On
peut mme imaginer lutilisation de canaux de messagerie instantane ou de microblogging
pour communiquer plus agilement au sujet de certains aspects du projet, fragmentant encore un peu plus les informations son sujet. En consquence, que cela soit sur le Web ou
dans un contexte dEntreprise 2.0, cette fragmentation de services complexifie la recherche
dinformation (Section 2.2.1, page 62). Il est en effet ncessaire dinterroger diverses sources
de donnes pour obtenir une vue globale au sujet dun objet ou dun domaine particulier.

84

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

En complment, il est de plus ncessaire de connatre lexistence et lemplacement de ces


diffrentes sources.
Cette htrognit des applications se traduit galement par labsence de format commun pour reprsenter les documents et les interactions sociales produites depuis celles-ci.
En particulier, les structures de bases de donnes ou les APIs proposes (pour peu que les
services en possdent) reposent gnralement sur des modles distincts, obligeant les dveloppeurs et utilisateurs adapter les requtes loutil utilis. Ainsi, une requte pour
identifier les derniers documents publis scrira diffremment si lon interroge un service
comme Flickr, un blog sous Wordpress, un autre sous Drupal ou bien un wiki utilisant ce
mme outil.
Afin de rpondre cette double problmatique, et permettre la dfragmentation dinformations issues doutils sociaux, il nous a sembl utile de proposer un modle RDF de reprsentation commun de contenus Web 2.0 pour sabstraire des formats de donnes initiaux
et permettre la reprsentation standardise de contenus crs partir doutils distincts. Un
tel modle offre galement la possibilit de crer un lien entre outils Web 2.0, ceux-ci partageant alors une smantique commune pour reprsenter une partie de leurs mtadonnes.
laide de ce modle, une mme requte peut-tre utilise pour rpondre la question "Quels
sont les titres de tous les items cres en Janvier 2008 ayant reu au moins un commentaire" que
loutil dorigine soit un blog sous Wordpress, un wiki sous Drupal ou que lon interroge un
service de partage de photos, partir du moment o il a t possible de reprsenter les donnes produites de manire uniforme. Surtout, cette smantique commune permet dunifier
diffrents outils qui interagissent gnralement comme des lots de donnes compltement
dcorrels.
Nous avons ainsi activement particip au dveloppement du projet SIOC SemanticallyInterlinked Online Communities [Breslin et al., 2005] , vocabulaire poursuivant ce but de reprsentation des activits des communauts en ligne. Pour reprendre le vocabulaire propos
dans le chapitre prcdent, nous considrons donc SIOC comme une ontologie permettant
la reprsentation de mtadonnes socio-structurelles : celui-ci va permettre aussi bien de
reprsenter les communauts et leurs activits que les documents produits et la faon dont
ceux-ci sont structurs et interconnects. Comme le montre le schma qui suit (Figure 3.1,
page 86), SIOC permet une reprsentation uniforme des outils collaboratifs et des documents quils permettent de gnrer, permettant denvisager une notion de forums virtuels
en support de lexistant. Notre intrt pour SIOC a dbut fin 2005, alors que nous tions
nous mme partis sur la dfinition dun tel modle et nous avons particip son laboration jusqu sa Member Submission au W3C en Juin 20071 en tant que coauteur de la spcification [Berrueta et al., 2007] et diteur de certains documents associs [Bojars et al., 2007a]
[Fernndez et al., 2007b]. Ajourdhui encore, nous sommes des contributeurs actifs du projet,
travaillant notamment sur dautres cadres dutilisation de SIOC, sur lesquels nous reviendrons plus tard (Section 3.1.6, page 101).
Avant de prsenter SIOC plus en dtail (Section 3.1.3, page 89), nous allons revenir sur
un tat de lart relatif aux approches antrieures poursuivant ce mme but de reprsentation
des activits Web 2.0 via les technologies du Web Smantique.
1

http://www.w3.org/Submission/2007/02/

85

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0

Figure 3.1: Intgration de donnes htrognes rparties avec SIOC [Bojars et al., 2006]

3.1.2

Positionnement par rapport de lart

Un des premiers modles qui vient lesprit lorsque lon parle de reprsentation uniforme de documents provenant doutils sociaux est gnralement RSS (Section 1.2.2, page
37). Celui-ci offre en effet un modle commun pour la syndication de donnes, et dispose
dune version RDF2 qui permet denvisager son utilisation dans le contexte du Web Smantique. Il souffre cependant de certaines limites :
RSS reprsente les items (billets de blogs, pages wiki ...) mais ne permet pas de reprsenter les autres donnes relatives la plate-forme. Ainsi, on nexporte ni la description du site associ, ni les utilisateurs et les interactions sociales associes. Nous
sommes donc ici dans un contexte de modlisation de mtadonnes essentiellement
documentaires plutt que structurelles et socio-structurelles. De plus il nest pas possible de faire la distinction entre les types de documents exports (pour distinguer
par exemple un billet de blog dune page wiki), RSS modlisant uniquement la notion
dlment au sens large ;
il sagit dun format de syndication et non dexport. En ce sens, il est possible de suivre
en continu les mises jour dun site mais pas dexporter lensemble des contenus publis sur un site depuis sa cration. On ne peut donc pas disposer dun historique
complet dune application en utilisant RSS, moins davoir mis en place un tel export
ds le dbut, et conserv les diffrents flux exports ;
si RSS 1.0 est un format RDF et peut donc tre tendu avec dautres vocabulaires
pour par exemple affiner les types dlments publis , il nest malheureusement pas
2

86

http://web.resource.org/rss/1.0/

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

majoritaire en termes de prsence sur le Web, et la plupart des lecteurs RSS ne savent
interprter que son modle de base, et non pas ses ventuelles extensions. On peut
cependant nuancer ce point partir du moment o il sagit plus dun problme dimplmentation que thorique. Ceci met cependant en avant un problme dadoption
des technologies du Web Smantique grande chelle, tel que nous lavons voqu au
dbut de ce mmoire (Section 1.1.4, page 27).
Hormis RSS, de nombreux travaux ont eu lieu plus spcifiquement autour de la modlisation des donnes de blogs, recenss pour la plupart dans un premier tat de lart sur le
sujet [Cayzer, 2006]. [Cayzer et Shabajee, 2003] ont ainsi dfini une premire ide du semantic blogging en envisageant deux facteurs permettant daugmenter le potentiel des outils de
blogs grce aux technologies du Web Smantique savoir (1) une structure riche (aussi bien
au niveau des mtadonnes des billets que de leurs thmatiques avec des ontologies partages) et (2) des requtes plus puissantes (en termes de souscription, de dcouverte et de
navigation de contenu). [Cayzer, 2004] revient plus tard sur ces propositions en dfinissant
cette fois trois ides, auxquelles par ailleurs SIOC et les diffrentes applications utilisant ce
modle permettent daboutir :
la vue, i.e. lutilisation des mtadonnes des diffrents billets pour enrichir les interfaces de visualisation et dagrgation ;
la navigation, i.e. lutilisation des mtadonnes pour faciliter la navigation, en fonction
par exemple dune thmatique donne ;
les requtes, i.e. lutilisation des mtadonnes pour rpondre des requtes avances,
par exemple lister les billets dune communaut donne.
Un premier outil mettant en pratique ces trois propositions est galement propos, le
Snippet manager [Cayzer et Castagna, 2005].
[Karger et Quan, 2004] dfinissent quant eux les implications de bloguer sur le Web Smantique. Ils prcisent notamment que les outils capables de produire des contenus structurs et interprtables doivent pouvoir le faire de manire autonome, sans intervention supplmentaire de lutilisateur. Nous reviendrons sur ce point dans le chapitre suivant en dtaillant la manire dont nous automatisons la production dannotations socio-structurelles
dans nos outils (Section 4.1, page 138). [Karger et Quan, 2004] proposent galement une architecture permettant de parvenir cet objectif. En se basant sur RSS, ils dfinissent :
dune part des possibilits de passer des diffrents formats RSS RSS 1.0 en utilisant
des feuilles de style XSLT. Cette ide de transformation de formats sera reprise plus
tard par des outils comme Triplr3 ou Babel4 ;
dautre part une ontologie tendant RSS avec la notion de rponse et de sujets partags
(via une classe Collection). Ce modle reprend sur certains points leurs travaux
prcdents relatifs la modlisation de messages en ligne (IRC ...) [Quan et al., 2003a].
Un prototype bas sur Haystack [Quan et al., 2003b] est galement prsent et montre de
quelle manire la smantique commune offre de nouvelles mthodes dagrgation et de
navigation entre billets de blog. Dans cet outil, les billets sont essentiellement considrs
comme des annotations au sujet dautres contenus Web. Ils bnficient ainsi en plus dun
3
4

http://triplr.org
http://simile.mit.edu/babel/

87

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
modle pour reprsenter les opinions de leurs auteurs par rapport aux contenus dorigine
(opposition, accord ...), envisageant une premire manire de modliser la notion dargumentation sur le Web Smantique.
Si ces approches sattachent principalement reprsenter des mtadonnes documentaires, dautres travaux se sont consacrs extraire ou modliser le contenu mme des documents. Si ceux-ci sont assez importants dans le monde des wikis smantiques (Section
4.2.1, page 148) certains travaux sont signaler dans le domaine des blogs. Par exemple,
lide du Structured Blogging5 permet de dfinir des patrons de pages (ou templates) pour
crer des contenus selon des champs prdfinis. On peut par exemple dfinir un patron
avis permettant de donner son opinion sur un objet donn avec un champ nom, une note et
un commentaire6 . En plus de permettre un affichage uniforme des documents, ces templates
peuvent tre associs lutilisation des microformats7 , introduits dans le premier chapitre
de ce mmoire. Dans cette mme direction, [Cayzer, 2006] prsente avec BlogAccord une
manire de combiner structuration et production de donnes RDF partir de billets de blog.
Un composant supplmentaire vient sy ajouter avec la possibilit dintgrer automatiquement des informations externes au sein dun billet en fonction de ressources disponibles sur
le Web. Il est par exemple possible dintgrer automatiquement des informations issues de la
base de connaissance MusicBrainz8 lors de lcriture dun article sur un artiste donn. Nous
reviendrons sur cette notion dintgration de sources externes dans les chapitres suivants
(Section 4.2.4, page 164). Dautres outils permettent galement de rutiliser les donnes prsentes sur le poste de travail utilisateur pour enrichir les informations publies en ligne,
cette vision sintgrant dans lide du Semantic Desktop introduit dans le chapitre prcdent.
[Mller et al., 2006] offrent ainsi avec semiBlog la possibilit dintgrer au sein de billets de
blog des informations issues par exemple dune application de carnet dadresses, le contenu
tant ensuite publi en RDF et pouvant donc tre utilis par dautres applications.
Dautres modles spcifiques, non lies aux blogs, ont galement t proposs dans cet
objectif de reprsentation de donns sociales avec les technologies du Web Smantique.
SAM [Franz et Staab, 2005] ou NABU [Osterfeld et al., 2005] proposent tous deux des vocabulaires relatifs la messagerie instantane, rutilisant notamment FOAF et DublinCore.
Plus rcemment, des projets de modlisation des listes de diffusions e-mail comme SWAML
[Fernndez et al., 2007a] ou mle [Rehatschek et Hausenblas, 2007] ont vu le jour. Tous deux
sont bass entre autre sur SIOC, SWAML tant dsormais entirement intgr ce dernier9 .
Pour les wikis, dont nous dtaillerons plus loin dautres aspects (Section 4.2.1, page 148),
des modles ont t proposs avec WIF et WAF [Vlkel et Oren, 2006] respectivement pour
lchange et larchivage des donnes entre wikis. WikiOnt [Harth et al., 2005] suit cette mme
ide de modle standard pour dfinir la structure des wikis, ce dernier rutilisant DublinCore et dfinissant les notions de pages, de catgories et de liens internes et externes. Une
partie de WikiOnt est dailleurs aujourdhui intgre dans SIOC et nous avons rcemment
5

http://structuredblogging.org
http://structuredblogging.org/formats.php
7
http://microformats.org
8
http://musicbrainz.org
9
http://developer.berlios.de/forum/forum.php?forum_id=25510
6

88

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

approfondi lutilisation de SIOC pour prendre en compte certaines caractristiques particulires des wikis [Orlandi et Passant, 2009]. De plus, des outils comme SweetWiki ou IkeWiki
(Section 4.2.1, page 148) dfinissent galement leur propre format de reprsentation pour la
structure des wikis.
3.1.3

Prsentation du modle de reprsentation SIOC

Classes et proprits
SIOC est une ontologie volontairement lgre (au sens des lightweight ontologies comme
dfini par [Gmez-Prez et Corcho, 2002]) de manire ce quelle puisse facilement tre
tendue selon les besoins de chacun. La cible vise par SIOC tant celle des communauts
Web 2.0 et notamment des dveloppeurs Web 2.0, nous avons souhait que le modle soit
suffisamment simple pour tre abord par tous, tout en tant suffisamment expressif pour
capter lensemble des activits des communauts en ligne. SIOC se compose dun noyau10
et de deux modules principaux : un module Types11 et un module Services12 , sa spcification complte tant disponible en ligne13 . Le noyau se compose de 11 classes14 , que lon
peut regrouper en deux parties : une premire consacre laspect social (comptes utilisateur), une seconde laspect structurel (contenus et conteneurs). Lensemble permet ainsi
de reprsenter la quasi-totalit des lments dune communaut en ligne. la frontire de
ces deux aspects se trouve justement la classe sioc:Community qui comme son nom lindique permet de reprsenter une communaut en ligne. Elle peut ainsi regrouper un certain
nombre dlments qui peuvent faire partie sans distinction des deux groupes prcdents.
Bien entendu, une communaut peut rassembler des lments provenant despaces distincts
sur le Web, et cest l un des objectifs de SIOC, savoir crer des passerelles entre diffrents
outils Web 2.0.
Afin de reprsenter les comptes utilisateurs et le ou les rles qui peuvent leur tre associs au sein de diffrents services, SIOC dfinit trois classes :
sioc:User un compte utilisateur sur un service en ligne, auquel vont tre rattachs
les diffrents contenus produits. Il sagit ici du compte au sens entit virtuelle et non
pas de la personne physique associe, celle-ci tant modlise avec FOAF (Section
3.1.4, page 93) ;
UserGroup un groupe dutilisateurs (sioc:User), runis (explicitement) car partageant par exemple des intrts ou des rles communs au sein dun service en ligne ;
Role le rle assign un utilisateur ou un groupe. Ce rle est typ (administrateur,
modrateur ...) et contextualis en fonction dun espace de communication donn (un
forum, un blog ...).
SIOC ne sattache pas modliser le contenu des documents mais uniquement certaines
de leurs mtadonnes. Trois classes principales (et diffrentes sous-classes associes) sont
proposes dans cette perspective de modlisation :
10

Espace de noms http://rdfs.org/sioc/ns, prfixe sioc par la suite.


Espace de noms http://rdfs.org/sioc/types, prfixe sioct par la suite.
12
Espace de noms http://rdfs.org/sioc/services, prfixe siocs par la suite.

11

13

http://rdfs.org/sioc/spec/#sec-modules

14

Rvision 1.30 du 9 Janvier 2009.

89

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
sioc:Space un espace communautaire. Le niveau dabstraction est volontairement
lev, permettant de reprsenter aussi bien un systme de fichier quun site Web. La
classe sioc:Site dfinie dans le noyau de SIOC est ainsi une reprsentation concrte
des sous-classes possibles ;
sioc:Container : un conteneur de donnes communautaires, inclu dans le prcdent espace. Ce Container reprsente le niveau o sont prsentes les donnes. Plus
prcisment, sioc:Forum et sioc:Thread sont deux sous-classes de ce Container,
le module Types en dfinissant dautres ;
sioc:Item un lment prsent dans un conteneur. sioc:Post, sous-classe, reprsentant un message au sens large (sur un forum, dans un blog, une page wiki ...).
nouveau le module Types dfinit des sous-classes plus spcifiques (Section 3.1.3, page
92).
ces classes viennent sajouter un certain nombre de proprits. Sans toutes les dtailler,
voici celles qui nous intressent plus particulirement dans notre contexte dexprimentation en entreprise :
sioc:content le contenu textuel dun sioc:Item. Celui-ci est reprsent en texte
brut et peut ainsi tre utilis dans une requte SPARQL avec une clause FILTER pour
limiter les recherches aux documents devant contenir certains termes15 ;
sioc:container_of16 cette proprit permet de faire le lien entre une instance
de sioc:Container et lensemble des instances de sioc:Item quil contient. Cest
par son intermdiaire que lon modlise par exemple quun billet appartient un blog
donn. Nous verrons plus en dtail lintrt de cette proprit pour limiter la recherche
dinformation un conteneur donn (Section 5.4, page 215) ;
sioc:creator_of (inverse : sioc:has_creator) permet dtablir un lien entre
un utilisateur (sioc:User) et un sioc:Item afin didentifier lauteur dun contenu.
Une instance de sioc:Item peut avoir plusieurs proprits de ce type qui lui sont
assignes selon le type dobjet manipul, par exemple une page wiki ;
sioc:reply_of (inverse : sioc:has_reply) : permet dtablir des liens entre deux
instances de sioc:Item, en considrant lun comme rponse de lautre. Rien noblige
les deux items en question tre issus du mme outil ce qui permet ainsi de reprsenter un systme de commentaire dcentralis comme les trackbacks17 ;
sioc:num_replies et sioc:num_views : indiquent respectivement le nombre de rponses associes un sioc:Item et son nombre de lectures. Ces proprits sont particulirement utiles tant donn que SPARQL nimplmente pas nativement de fonctions agrgat (Section 1.1.3, page 25)18 ;
sioc:topic : permet dassigner un ensemble de sujets un Item, chaque sujet correspondant une ressource identifie via son URI. Nous verrons successivement comment se modlise ainsi lassignation dun item un lment de taxonomie dfini par
15

Notons que pour reprsenter un contenu encod en HTML, nous suggrons avec SIOC lutilisation de la
proprit content du module RSS 1.0 du mme nom. http://purl.org/rss/1.0/modules/content/
16
Proprit inverse : sioc:has_container
17
18

http://www.sixapart.com/pronet/docs/trackback_spec

On peut cependant regretter que des choix de modlisation soient orients principalement en raison des
outils associs.

90

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

exemple via SKOS (Section 3.1.4, page 93) mais aussi de manire plus large toute ressource du Web Smantique ou instance dontologie du domaine avec MOAT (Section
3.3, page 119).
Le schma suivant (Figure 3.2, page 91) synthtise les diffrentes classes et proprits du
cur de SIOC.

Figure 3.2: Le modle de classes et proprits de SIOC [Berrueta et al., 2007]


Avant de terminer cette prsentation du noyau de SIOC, prenons un exemple de document reprsent avec ce modle et une requte SPARQL associe. Lexemple qui suit reprsente donc un lment et sa rponse associe (Listing 3.1, page 91) alors que la requte
correspond la question "Quel est le titre des items crs en Janvier 2008 ayant reu au moins un
commentaire" (Listing 3.2, page 92) :
< http :// example . org / blog / post /33 > a sioc : Post ;
dct : title " Mon billet exemple " ;
sioc : content " Ceci est mon premier billet " ;
sioc : has_creator < http :// example . org / user / alex > ;
sioc : num_replies 1 .
< http :// example . org / blog / post /33/ comment_1 > a sioc : Post ;
sioc : reply_of < http :// example . org / blog / post /33 > .

Listing 3.1: Exemple de contenu Web 2.0 avec SIOC


Enfin, signalons pour finir que SIOC est modlis en OWL avec un niveau dexpressivit
OWL-Lite. En consquence, le modle ne dispose pas de contraintes de cardinalit relatives
aux diffrentes proprits, mme si cette question a t plusieurs fois aborde lors de sa
dfinition. Si le modle a longtemps t dfini en RDFS, induisant notamment par certaines
proprits une expressivit OWL-Full, nos rcents travaux autour de SWANSIOC (Section
3.1.6, page 101) nous ont amen affiner celui-ci pour passer un niveau OWL-Lite. SIOC
91

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
SELECT ? item ? title
WHERE {
? item rdf : type sioc : Post ;
dct : title ? title ;
dct : created ? date ;
sioc : num_replies ? replies .
FILTER ( ? date > "2008 -01 -01 T00 :00:00"^^ xsd : dateTime ) .
FILTER ( ? date < "2008 -02 -01 T00 :00:00"^^ xsd : dateTime ) .
FILTER ( ? replies >= 1 ) .
}

Listing 3.2: Exemple de requte SPARQL ddie SIOC

peut ainsi tre utilis au sein dapplications bnficiant de capacits de raisonnement, tout
en sassurant que celles-ci peuvent seffectuer en un temps fini.
Les modules de SIOC
Comme nous lavons voqu prcdemment, la volontaire lgret de SIOC fait que certaines caractristiques des services Web 2.0 sont reprsentes au sein de modules additionnels et non pas directement dans le noyau de SIOC.
Le module Services19 permet ainsi de reprsenter la prsence (et lemplacement) de services Web associes des lments Web 2.0, par exemple lemplacement dune API ou dun
point daccs SPARQL. Il utilise pour cela une proprit siocs:has_service et une classe
siocs:Service ventuellement associs siocs:has_format pour reprsenter le format de celui-ci. Ce module est relativement lger et son objectif est de fournir un moyen
simple de modliser des services Web et APIs Web 2.0 sans saventurer dans des descriptions plus complexes avec des modles comme WSDL [Christensen et al., 2001] ou WSMO
[Vitvar et al., 2008]. Nous ninsisterons pas plus sur ce module, ne layant pas mis en pratique dans nos travaux. Il peut cependant tre utile partir du moment o des services Web
2.0 exposent leurs donnes via SPARQL.
Le second module de SIOC est le module Types20 qui dfinit un certain nombre de conteneurs et ditems venant sous-classer sioc:Container (ou plus prcisment sioc:Forum)
et sioc:Item (ou sioc:Post). Ceci permet de typer plus finement les documents gnrs
par des services Web 2.0 afin de prendre en compte la spcificit de certains dentre eux. Par
exemple, on peut laide de ce module formellement diffrencier un blog (sioct:Blog)
dune liste de diffusion (sioct:MailingList), et une page wiki (sioct:WikiArticle)
dun message de microblogging (sioct:MicroblogPost). De plus, le fait de dfinir ces diffrents types comme sous-classes de sioc:Container et sioc:Item, coupl aux principes
dinfrence associs ces hirarchies de classes (Section 1.1.2, page 21), permet au travers
dune requte telle que "Lister les instances de sioc :Item" didentifier des instances qui nont
pas t dfinies directement en tant que sioc:Item mais comme instances dune des sousclasses proposes par le module. Ce module Types dfinit ainsi une vingtaine de classes
19
20

92

http://rdfs.org/sioc/services
http://rdfs.org/sioc/types

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

distinctes dont certaines sont de plus alignes avec des vocabulaires existants. Le tableau
suivant (Tableau 3.1, page 93) reprsente ainsi un ensemble de sous-classes de Container
et les ventuelles classes Item associes, ainsi que dans certains cas les alignements avec des
modles existants, tels que dfini dans ce module.
Conteneur

Item

sioct:AudioChannel
sioct:BookmarkFolder
sioct:ImageGalery
sioct:MailingList
sioct:MessageBoard
sioct:Microblog
sioct:VideoChannel
sioct:Webglog
sioct:Wiki

dcmitype:Sound
bookmark:Bookmark
exif:IFD
sioct:MailMessage
sioct:BoardPost
sioct:MicroblogPost
dcmitype:MovingImage
sioct:BlogPost
sioct:WikiArticle

Tableau 3.1: Elments du module Types de SIOC


Le code qui suit reprend ainsi lexemple prcdent en rutilisant certaines classes dfinies dans le module Type pour spcifier les instances de sioc:Post utiliss (Listing 3.3,
page 93). Comme on peut le constater, lutilisation de ce module nimplique pas de modification vis--vis des autres lments utiliss.
< http :// example . org / blog / post /33 > a sioct : BlogPost ;
dct : title " Mon billet exemple " ;
sioc : content " Ceci est mon premier billet " ;
sioc : has_creator < http :// example . org / user / alex > ;
sioc : num_replies 1 .
< http :// example . org / blog / post /33/ comment_1 > a sioct : Comment ;
sioc : reply_of < http :// example . org / blog / post /33 > .

Listing 3.3: Exemple de billet de blog avec SIOC et son module Types
En permettant ainsi de typer finement les diffrents documents produits, ce module
est ainsi un lment essentiel de notre proposition dcosystme smantique, aussi bien en
termes de modlisation des contenus partir des diffrents adaptateurs (Section 4, page
137) que pour les requtes associes. En effet, comme nous le verrons par la suite, il permet
de bnficier dune smantique commune pour reprsenter les documents crs aussi bien
depuis les blogs, les wikis ou lagrgateur de flux RSS mis en place dans notre systme, tout
en offrant la possibilit de distinguer ceux-ci au moment des requtes.
3.1.4

Alignement avec des vocabulaires existants

Lors de la dfinition de SIOC, nous avons au maximum essay de rutiliser des vocabulaires existants et dj populaires sur le Web Smantique, soit en alignant les classes et pro93

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
prits de SIOC avec celles de ces ontologies, soit en suggrant leur utilisation dans certains
contextes (comme nous lavons vu auparavant avec le module Types). Ceci nous semble ncessaire dans la mesure o nous souhaitons que les activits et documents reprsents avec
SIOC fassent partie intgrante du Web Smantique et ne soient pas considrs comme faisant partie dun cosystme disjoint de lexistant. Ces bonnes pratiques ont dautre part t
consignes dans un document associ sa Soumission Membre au W3C [Bojars et al., 2007a]
et nous allons ici prsenter certains de ces alignements.
DublinCore
De nombreuses proprits ncessaires la modlisation des lments viss par SIOC
sont disponibles dans DublinCore21 [Dublin Core Metadata Initiative, 2006]. Cest par exemple
le cas du titre (dct:title) ou de la date de cration (dct:created) et de modification
(dct:modified) dun lment22 . SIOC suggre ainsi lutilisation de ces proprits, comme
le montre lexemple suivant (Listing 3.4, page 94).
< http :// athena . der . edf . fr / blog /2006/08/09/104 - sample - post > a
sioct : BlogPost ;
dct : title " Billet de test " ;
dct : created "2006 -08 -03 T22 :50:32 Z ";
dct : modified "2006 -09 -19 T23 :36:05 Z ";
dct : subject " EDF " .

Listing 3.4: Utilisation de proprits issues du DublinCore avec SIOC

FOAF
Si SIOC dfinit la notion dutilisateur dun service Web en tant quentit en ligne, il
ne sattache pas modliser la personne physique associe ce compte. Pour prendre en
compte cet aspect, SIOC se base ainsi sur le vocabulaire FOAF (Section 3.2.2, page 104). Nous
utilisons ainsi la proprit foaf:holdsAccount pour tablir un lien entre une personne
physique (en ralit une instance foaf:Agent) et son ou ses diffrents comptes en ligne
(sioc:User) et introduisons galement une proprit inverse sioc:account_of. Cette utilisation combine de SIOC et FOAF rend donc possible le rattachement dun ensemble de
comptes en ligne une mme personne physique (Figure 3.3, page 95). Ces comptes peuvent
bien entendu tre distribus sur le Web, cette complmentarit prenant alors tout son sens
pour modliser lensemble des activits sociales dune personne selon diffrents services
(Section 3.1.5, page 96).
Nous suggrons galement dans [Bojars et al., 2007a] lutilisation de foaf:maker pour
tablir directement un lien entre documents et personne physique, et non pas uniquement
via le couple sioc:has_creator / sioc:User qui permet dtablir un lien entre document et compte utilisateur. Cette relation directe entre un document et une personne peut
21

Espace de noms http://purl.org/dc/terms/, prfixe dct par la suite.


Les premires versions de SIOC ont dfini des proprits similaires, aujourdhui dclares comme obsoltes
avec owl :DeprecatedProperty.
22

94

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

foaf:Person

sioc:User
rdf:type

rdf:type

:mySlideshare

:myTwitter

foaf:holdsAccount

:me
:myDelicious
Identit et
comptes en ligne

:myFlickr
Reprsentation
avec FOAF et SIOC

Figure 3.3: Comptes utilisateur et personne physique avec SIOC et FOAF

cependant tre infre partir de ce couple sioc:has_creator / sioc:User et de la rgle


dinfrence qui suit (Listing 3.5, page 95) :
{
iii a sioc : Item ;
sioc : has_creator uuu .
uuu a sioc : User ;
sioc : email_sha1 mmm .
aaa a foaf : Agent ;
foaf : mbox_sha1sum mmm .
} => {
iii foaf : maker aaa .
}

Listing 3.5: Rgle dinfrence pour lier SIOC et FOAF, reprsente en N3

RSS 1.0
Comme nous lavons signal, SIOC rutilise la proprit encoded du module Content23
de RSS 1.0 en suggrant son utilisation pour reprsenter le contenu encod en (X)HTML
dune instance de sioc:Item, le contenu plein-texte tant lui reprsent avec sioc:content.
Notons galement quil est possible de manire assez simple de passer dun flux RSS une
modlisation SIOC comme nous le verrons en dtail dans le chapitre suivant (Section 4.1.2,
page 140).
SKOS
SIOC peut galement tre combin efficacement avec SKOS Simple Knowledge Organisation Schema [Miles et Bechhofer, 2008] dans un but dindexation smantique de contenus Web 2.0. Nous dtaillerons SKOS plus loin dans ce mmoire (Section 3.2.4, page 109)
23

http://web.resource.org/rss/1.0/modules/content/

95

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
mais signalons simplement ici que ce modle permet la dfinition de vocabulaires contrls
ou de taxonomies en RDF. SKOS permet en effet de dfinir des relations skos:narrower et
skos:broader pour organiser hirarchiquement diffrentes instances de skos:Concept.
SKOS peut ainsi tre utilis par exemple pour dfinir une hirarchie de catgories de blog,
comme le propose un plug-in pour la plate-forme Wordpress24 , ou une taxonomie de concepts
plus pousse qui peut tre dfinie au sein dune organisation.
La proprit sioc:topic permet ainsi de faire le lien entre les instances de sioc:Item
et les instances de diffrents skos:Concept proposes par de telles taxonomies. Notons
que par le pass, SKOS proposait une proprit similaire skos:subject dans son vocabulaire SKOS Core25 , aujourdhui remplac par le SKOS Vocabulary26 , ce premier vocabulaire
et la proprit voque devenant ainsi obsoltes27 . On retrouve ici une optique similaire
ce quont propos [Cayzer et Shabajee, 2003] et [Karger et Quan, 2004] pour modliser des
thmatiques partags entre billets de blog, comme nous lavons voqu auparavant (Section
3.1.2, page 86). Nous verrons par la suite que des mthodes avances de tagging couples
aux technologies du Web Smantique permettent daller plus loin dans ce processus dindexation smantique (Section 3.3, page 119).
3.1.5

SIOC, FOAF et la portabilit des donnes Web 2.0

Comme nous lavons voqu en dbut de ce chapitre, si lascension du Web 2.0 a contribu la publication spontane de donnes et de rseaux sociaux sur le Web, elle entrane
galement en contrepartie leur fragmentation. Les contributions sociales dun utilisateur
sont en effet souvent clates entre diffrents services agissant comme des lots dconnects, la communication et lchange de donnes ntant possibles qu lintrieur dune mme
plate-forme. Ainsi, linscription diffrents services Web 2.0 implique :
dune part la ncessit de rpliquer ses donnes si lon souhaite quelles soient disponibles sur chacun des outils utiliss ;
dautre part de dfinir son rseau social sur chaque application, mme si celui-ci a dj
t identifi sur un autre service.
Ce processus rptitif conduit ce que certains appellent la social network fatigue28 . Si cela
peut ne pas sembler problmatique premire vue, lanalogie avec lutilisation de le-mail
permet de prendre conscience de ces limites : qui accepterait aujourdhui de souscrire un
service o les e-mails ne peuvent tre envoys qu des utilisateurs du mme service ?
Ainsi, Brad Fitzpatrick dfinit mi-2007 sa vision dun graphe social distribu et ouvert29
en rponse cette problmatique. La charte A Bill of Rights for Users of the Social Web30 insiste quelque temps plus tard sur la notion de proprit relative aux donnes issues de ces
diffrents sites. Alors que les conditions dutilisation de la plupart dentre eux stipulent que
celles-ci appartiennent aux dits sites, cette charte dfend la notion de proprit par leur
24

http://www.wasab.dk/morten/blog/archives/2004/09/01/skos-output-from-wordpress
http://www.w3.org/2004/02/skos/core.rdf
26
http://www.w3.org/2008/05/skos
27
http://www.w3.org/2004/02/skos/vocabs
28
http://factoryjoe.com/blog/2007/09/20/stop-building-social-networks/
29
http://bradfitz.com/social-graph-problem/
30
http://opensocialweb.org/2007/09/05/bill-of-rights/
25

96

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

auteur, i.e. lutilisateur, afin den faire lusage quil souhaite. Lance plus rcemment, linitiative DataPortability31 sinscrit galement dans ce but dchange transparent de donnes
et de rseaux sociaux entre applications. En complment de ces efforts communautaires, des
solutions propritaires ont t proposes pour rsoudre cette problmatique (Google OpenSocial32 , Facebook Connect33 ...). Leur acceptation dpend cependant de notions politiques
et conomiques entre les diffrents acteurs de services de rseaux sociaux. Nous pensons
que le Web Smantique, notamment travers SIOC et FOAF, permet de rpondre cette
problmatique dinteroprabilit entre donnes sociales de manire ouverte et qui plus est
en se basant sur des formats et protocoles standards [Bojars et al., 2008a].
Tout dabord, concernant les donnes, SIOC permet une modlisation uniforme des contenus quelque soit loutil dorigine. Ainsi les contributions sociales dun utilisateur, bien que
produites via des outils distincts et distribus, sont unifies au niveau de leur reprsentation
sur le Web Smantique. Cette smantique commune permet en consquence de standardiser
les requtes associes (avec SPARQL) mais surtout de faciliter les changes de donnes entre
services bass sur le mme modle. Pour exemplifier cette possibilit, un premier prototype
dimport SIOC a t dvelopp pour le systme de blog WordPress34 .
Alors que SIOC permet de rsoudre ce problme de portabilit et dinteroprabilit pour
les donnes issues doutils Web 2.0, un autre aspect important concerne les rseaux sociaux
modliss depuis ces applications. Ici, FOAF a un rle important jouer en tant que modle de rfrence pour reprsenter lidentit personnelle et les rseaux daccointance sur le
Web Smantique. Tout comme pour les contenus, le passage un niveau de modlisation
uniforme pour la reprsentation de ces rseaux permet de proposer une interoprabilit
entre diffrentes applications. Diffrents exporteurs FOAF pour des services grand public
(par exemple pour Flickr [Passant, 2008b]) permettent dj de bnficier de cette smantique
commune et des avantages quelle procure. Ainsi, en couplant cette notion de rseau social
avec FOAF aux contenus modliss avec SIOC, il est possible de reprsenter uniformment
via un unique graphe RDF lensemble des contributions sociales et des accointances dun
individu au sein de diffrentes plates-formes (Figure 3.4, page 98).
Malgr tout, un problme dunification didentit se pose avec lutilisation des exporteurs FOAF mentionns prcdemment. Ceux-ci redfinissent en effet chacun une URI particulire pour lindividu modlis. Brutes, ces donnes ne permettent donc pas didentifier
quune personne prsente sur Flickr (identifie par exemple par lURI http://apassant.
net/home/2007/12/flickrdf/people/33669349@N00) est la mme que telle autre sur
Last.fm (http://dbtune.org/last-fm/terraces). Il est donc ncessaire dunifier ces reprsentations de manire explicite ou implicite :
explicitement, une bonne pratique consiste en lutilisation des principes didentit OWL
reposant sur la proprit owl:sameAs. Dfinir une relation de ce type entre deux instances de foaf:Person va ainsi permettre un raisonneur dtablir que les deux
URIs, bien que distinctes, identifient la mme ressource, en loccurrence la mme per31

http://dataportability.org
http://code.google.com/apis/opensocial/
33
http://developers.facebook.com/fbconnect.php
34
http://wiki.sioc-project.org/w/SIOC_Import_Plugin
32

97

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0

Figure 3.4: Interoprabilit entre donnes sociales avec SIOC et FOAF [Bojars et al., 2008b]

sonne physique ;
implicitement, et toujours en utilisant les possibilits de raisonnement offertes par le
Web Smantique, la solution consiste se baser sur les proprits inverses fonctionnelles (owl:InverseFunctionalProperty)35 . FOAF dfinit un certain nombre de
proprits de ce type comme foaf:mbox et foaf:openid. Ainsi, associer un mme
e-mail deux instances de foaf:Person va permettre didentifier quil sagit de la
mme personne.
Quelle soit implicite ou explicite, cette unification va permettre dagrger les rseaux
distribus dun mme individu, conduisant la dfinition dun rseau social distribu et
ouvert (Figure 3.5, page 99). partir de celui-ci, il est relativement ais de dvelopper des
applications de visualisation associs, comme nous lavons fait avec lapplication FOAFGear36 (Figure 3.6, page 99). Celle-ci permet de visualiser de manire uniforme un ensemble
de rseaux sociaux distribus et modliss avec FOAF. De plus, le code permettant deffectuer cette agrgation de rseaux sociaux ne compte quune centaine de lignes, et deux
requtes SPARQL, mettant ainsi en avant ces processus dinteroprabilit avec les technologies du Web Smantique du point du vue du dveloppement dapplications Web 2.0, et
cette complmentarit entre les deux mondes.
Pour aller plus loin dans cette interoprabilit entre applications Web 2.0, on peut galement considrer lutilisation dOpenID37 . Ce systme dauthentification dcentralis permet
35
Pour rappel, deux ressources partageant une mme valeur pour une proprit de ce type sont considres
comme identiques.
36
37

98

http://apassant.net/home/2008/01/foafgear
http://openid.org

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

http://apassant.net/home/2007/12/flickrdf/data/people/33669349N00

flickr:2233977@N00
flickr: 24266175@N00
foaf:knows
flickr: 43184127@N00
foaf:knows

foaf:knows
flickr:33669349@N00

twitter:CaptSolo

owl:sameAs

twitter:Wikier
twitter:CharlesNepote

myuri:me
owl:sameAs

foaf:knows

foaf:knows

foaf:knows
twitter:potiontv

owl:sameAs
twitter:terraces
foaf:knows
myblog:a2

http://tools.opiumfield.com/twitter/terraces/rdf

foaf:knows
foaf:knows

foaf:knows

myblog:a30
myblog:a26

myblog:a19

http://myblog/foaf-export

Figure 3.5: Unification de rseaux sociaux distribus avec owl :sameAS

Figure 3.6: Visualisation uniforme de rseaux sociaux distribus

99

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
de se connecter (sur les sites qui le supportent) avec un login (en loccurrence une URL) et
un mot de passe unique l o il est en gnral ncessaire de crer un nouveau compte utilisateur. Un point intressant est la manire dont OpenID et FOAF peuvent tre connects.
Dune part, il est possible de lier une URL OpenID un profil FOAF. Ceci peut se faire soit
via un lien dans lentte du document (X)HTML vers le profil FOAF, soit directement via
linclusion du profil au sein du fichier avec RDFa ou eRDF. Dautre part, FOAF permet de
dfinir lURL OpenID dun agent avec la proprit foaf:openid. En pratique, ce couplage
peut tre utilis lorsquun utilisateur sauthentifie sur un site avec OpenID. On peut ainsi dcouvrir le profil FOAF associ puis rcuprer partir de l lensemble des donnes sociales
de lutilisateur connect. Cest par exemple ce que nous avons mis en place au sein de SparqlPress38 , un plug-in pour WordPress permettant limport et lexport de donnes RDF. Ici,
lorsquun utilisateur se connecte, on affiche diffrentes informations le concernant (profils
en ligne, nom ...) sans aucune intervention de sa part39 (Figure 3.7, page 100). Cette complmentarit entre initiatives communautaires et Web Smantique nous parait ainsi idale
pour rpondre ces problmatiques dinteroprabilit entre applications Web 2.0.

Informations issues du
profile FOAF de l'utilisateur

Figure 3.7: Utilisation combine de FOAF et OpenID avec SparqlPress


Des challenges importants restent selon nous prendre en compte dans cette optique
de donnes sociales ouvertes et interoprables, savoir ceux de la protection des donnes
prives et de la fragmentation volontaire didentit entre services Web 2.0. nouveau, nous
pensons que le Web Smantique a un rle important jouer dans ce contexte.
Dune part, concernant la protection des donnes prives, nous pensons que cette ouverture des rseaux sociaux et des diffrents contenus crs ne signifie pas moins de protection
mais au contraire, la possibilit de grer plus finement les droits daccs ses donnes en
ligne [Passant et al., 2009b]. En effet, en offrant la possibilit de combiner les informations
issues de plusieurs services, il est possible de dfinir des polices daccs relativement pointues. Par exemple, en combinant des informations modlises avec FOAF et SIOC depuis
diffrents services, on peut imaginer un systme de droits daccs o lutilisateur spcifie
que son CV nest accessible qu des personnes qui font partie la fois de son rseau social LinkedIn et Twitter (utilisation de FOAF) et qui ont comment au moins deux fois son
blog (utilisation de SIOC). Puisque modlises en RDF, ces polices daccs peuvent galement utiliser dautres donnes prsentes sur le Web Smantique. On peut ainsi tendre la
rgle prcdente en indiquant que la personne ne peut accder ce CV que si elle fait partie
38
39

100

http://wiki.foaf-project.org/SparqlPress
http://apassant.net/blog/2008/02/16/foaf-hacks-day

3.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC

dune entreprise considre comme non-concurrente de celle de lutilisateur, ce type dinformation pouvant tre extrait de DBpedia. Ces diffrentes pistes font partie de travaux quil
nous semble important dapprofondir par la suite dans ce contexte daccs aux donnes
sociales et de complmentarit entre Web Smantique et Web 2.0 (Section 5.4.3, page 230).
Dautre part, si la fragmentation didentit est le plus souvent un effet de bord de lutilisation de diffrents services (en fonction du type de contenu partager), il nous faut garder
en mmoire quelle est parfois volontaire. Certaines personnes vont ainsi utiliser LinkedIn
pour leurs contacts professionnels et MySpace pour leurs amis, ne souhaitant pas que les
deux identits en ligne puissent tre associes. Un rapport du cabinet Fabernovel rappelle en
outre cette notion de fragmentation volontaire sur le Web 40 . Malgr tout, certains principes
de raisonnement proposs par le Web Smantique (notamment les proprits inverses fonctionnelles que nous avons voques auparavant) vont conduire cette fusion didentit. Il
est donc selon nous ncessaire de prendre en compte ces problmatiques et de nexposer certaines donnes (par exemple la proprit foaf:openid) quavec laccord de lutilisateur ou
bien encore de prendre en compte des notions dinfrence avec autorit [Hogan et al., 2008]
en effectuant par exemple des raisonnements que si le demandeur fait partie du rseau social de lutilisateur.
Plus gnralement, ces problmes relatifs la protection de donnes sociales ne sont
bien entendu pas seulement techniques et il est selon nous galement ncessaire dinformer
et dduquer les utilisateurs de services Web 2.0 afin de faire prendre conscience des risques
possibles associs aux informations quils dvoilent.
3.1.6

Adoption du modle et valuation

Etant donns la nature et lobjectif de SIOC, il nous semble peu pertinent dutiliser des
mtriques formelles comme celles recenses dans [Hartmann et al., 2004] pour valuer lontologie. Cependant, un point qui nous parait important prendre en compte est son acceptation sur le Web Smantique. On peut ainsi parler dvaluation par lacceptation, proposition
qui nous semble pertinente pour des ontologies de ce type qui ont pour but de devenir des
modles de rfrence pour la reprsentation de donnes sur le Web Smantique. partir
du moment o lobjectif de SIOC est de permettre une interoprabilit entre applications
Web 2.0 et leur intgration au sein du Web Smantique, on peut en effet considrer que la
russite dun tel modle repose sur le nombre de donnes ainsi reprsentes. En considrant
logiquement lensemble de ces donnes interconnectes comme un graphe, il est vident que
la valeur de ce graphe dpend du nombre de nuds et darcs qui le composent, comme le
rappelle la loi de Metcalfe41 . Ainsi, plus le nombre de donnes reprsentes avec ce mme
modle crot, plus la valeur inhrente de SIOC est importante. Cette observation sur la valeur dun graphe est galement valable pour le Web Smantique dans son ensemble, notamment dans cet objectif de reprsentation et dunification de donnes sociales comme le
rappelle [Hendler et Golbeck, 2008].
40

http://www.fabernovel.com/news/research-paper-social-network-websites/

41

Selon Bob Metcalfe, co-inventeur du protocole Ethernet, la valeur dun rseau saccrot avec son nombre
de connections et est proportionnelle au carr du nombre de ses utilisateurs. http://en.wikipedia.org/

wiki/Metcalfe%27s_law

101

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
En ce sens, on peut considrer ladoption de SIOC comme un succs. Ping The Semantic
Web42 (service sur lequel nous reviendrons plus tard (Section 5.1.3, page 195)) recense plus
de 127000 documents utilisant le noyau de SIOC et plus de 115000 utilisant son module
Types43 , ce qui en font respectivement les quatrime et cinquime espaces de nom les plus
utiliss. La figure qui-suit indique indique galement un nombre croissant de donnes ainsi
reprsentes sur le Web Smantique (Figure 3.8, page 102), toujours daprs ce mme service.

Figure 3.8: Statistiques de production de donnes SIOC sur le Web [Bojars et al., 2008b]
De plus, il nous semble important de considrer cette acceptation non pas uniquement
en nombre de donnes, mais en observant la diversit des systmes utilisant SIOC et lactivit de la communaut associe. Ainsi, la Soumission Membre de SIOC au W3C en Juin 2007
a runi plus dune dizaine dorganisations diffrentes, aussi bien acadmiques (LaLIC, DERI
Galway, Fundation CTIC44 ...) quindustrielles (Opera Software45 , OpenLink46 ...). Cette soumission comporte en outre trois documents qui servent aujourdhui de rfrence SIOC et
pour lesquels nous avons eu chaque fois un rle particulier :
SIOC Core Ontology Specification [Berrueta et al., 2007], spcification du cur de lontologie SIOC (coauteur) ;
SIOC Ontology : Applications and Implementation Status [Fernndez et al., 2007b], document listant un ensemble dapplications utilisant SIOC au moment de la soumission
(coditeur) ;
SIOC Ontology : Related Ontologies and RDF Vocabularies [Bojars et al., 2007a], document
listant les relations entre SIOC et dautres ontologies populaires sur le Web Smantique
comme FOAF ou DublinCore (coditeur).
42

http://pingthesemanticweb.com
Janvier 2009, cf. http://pingthesemanticweb.com/stats/namespaces.php pour une mise jour.
44
http://www.fundacionctic.org/
45
http://www.opera.com/
46
http://www.openlinksw.com/
43

102

3.2 Modlisation des ontologies mtier

Elle a de plus a t favorablement reue, comme en tmoignent les commentaires du W3C


son gard47 "SIOC has the potential to become one of the foundational vocabularies that make
Semantic Web applications useful, alongside DOAP, FOAF, Dublin Core, etc." ou "The SIOC vocabulary is a useful component of the Semantic Web", malgr certaines remarques sur labsence de
considrations relatives au respect de la vie prive, sujet que nous avons voqu auparavant.
SIOC est considr aujourdhui comme une brique fondamentale du Social Semantic Web
et plus dune cinquantaine dapplications lutilisant sont aujourdhui disponibles, la plupart tant des applications open-source (Section 4.1, page 138). nouveau, cest selon nous
la lgret dun tel modle qui a permis une telle acceptation, celui-ci pouvant tre simplement apprhend, du moins dans ses termes principaux. Concernant ces outils, si les
premiers ont logiquement t dvelopps par des membres actifs de la communaut SIOC,
on trouve aujourdhui une importante diversit concernant les partenaires et les domaines
dapplications utilisant SIOC. Ainsi, Yahoo ! SearchMonkey48 , moteur de recherche tirant
bnfices des annotations smantiques disponibles sur le Web pour enrichir la prsentation
de ses rsultats, suggre lutilisation de SIOC comme modle de rfrence pour reprsenter
les activits Web 2.0 sur le Web Smantique49 . Un autre exemple pertinent est selon nous
lutilisation de SIOC dans des contextes autres que celui dapplications purement Web 2.0,
en plus du cas dutilisation que nous dcrivons dans cette thse. Par exemple, un de nos rcents efforts se concentre autour du projet SWANSIOC50 , qui vise intgrer les vocabulaires
SIOC et SWAN Semantic Web Applications in Neuromedicine [Ciccarese et al., 2008] dans un
objectif de reprsentation du discours scientifique et des argumentations associes autour
du traitement de la maladie dAlzheimer. Ce projet men dans le cadre du groupe dintrt Health Care and Life Science du W3C51 montre bien selon nous le potentiel que peut avoir
SIOC pour des secteurs non-relatifs au Web 2.0 mais o laspect social prdomine. Pour plus
de dtails sur SIOC, on pourra se rfrer la thse [Bojars, 2009]
3.2
3.2.1

M ODLISATION DES ONTOLOGIES MTIER


Besoins en termes de reprsentation mtier

tant donn le contexte du projet Athna, le niveau de reprsentation que nous souhaitons atteindre au sein de notre systme de mdiation doit nous permettre de modliser des
assertions comme :
lectricit de France est une entreprise franaise du secteur de lnergie ;
lnergie solaire est une nergie renouvelable ;
Pierre Gadoneix est le prsident dElectricit de France ;
EDF a diffrents partenaires autour des nergies renouvelables.
Les besoins de modlisation mtier se situent donc principalement autour des acteurs
(au sens personnes physiques et morales), de leurs domaines dactivit et des proprits associes (relations entre ces entits, localisation ...). En consquence, cette partie du mmoire
47

http://www.w3.org/Submission/2007/02/Comment
http://developer.yahoo.com/searchmonkey/
49
http://developer.yahoo.com/searchmonkey/smguide/profile_vocab.html
50
http://esw.w3.org/topic/HCLSIG/SWANSIOC
51
http://www.w3.org/2008/05/HCLSIGCharter
48

103

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
est sans doute celle o les travaux prsents auront le plus dadhrence avec les besoins exprims par lentreprise. En effet, alors que les autres modles dfinis dans ce chapitre (SIOC
prsent prcdemment et MOAT par la suite) ont t conus de manire gnrique, la modlisation dontologies mtier implique un rapprochement avec les domaines abords par
lentreprise. Cependant, si ces modles ont t conus de manire ad hoc, il nous semble utile
de les dtailler notamment parce que nous avons t confronts des choix de modlisation
quil nous parait intressant dargumenter et de partager. Ceux-ci ont en effet influenc la
modularit et la rusabilit des modles dvelopps et nous semblent tre de bonnes pratiques quant au dveloppement dontologies lgres.
Comme nous allons le voir, nous avons fait le choix de modliser un certain nombre
dontologies interconnectes plutt que de proposer une unique ontologie globale permettant de modliser des choses aussi diverses que des zones gographiques, des secteurs dactivit ou des types dagents. En effet, ce choix dontologies lgres (tout comme nous lavons
explicit en prsentant SIOC auparavant) nous semble plus pertinent dans une optique de
rutilisation des modles dans dautres contextes mais aussi dans une optique de passage
lchelle de certaines de nos propositions. De plus, comme nous le verrons, nous avons fait
le choix dans certains cas dtendre des modles existants, ce qui nous a dune part permis
de bnficier de lexistant mais aussi de permettre la communaut de bnficier de nos
rflexions en termes de nouvelles classes ou proprits (Section 3.2.3, page 107). Nous allons
maintenant dtailler les diffrents modles mis en uvre dans notre contexte.
3.2.2

FOAF pour la reprsentation des personnes physiques et morales

Concernant la reprsentation des personnes physiques et morales, nous avons considr


diffrents modles avant dtablir notre choix de dpart. Tout dabord, des ontologies gnriques comme Proton [Terziev et al., 2005] (et notamment ses modules Upper52 et Top53 ), Cyc
[Lenat et al., 1990] et son quivalent open-source OpenCyc54 , OCoMMA55 (associe au projet
CoMMA [Gandon, 2002]) ou Yago [Suchanek et al., 2007], plus rcente, voire mme un certain niveau Wordnet [Fellbaum, 1998] et sa reprsentation RDF/OWL56 pour sa taxonomie
de classes. Nous avons rapidement mis ces choix de ct pour deux raisons majeures :
du fait de leur caractre gnral (i.e. couvrant un large spectre de domaines) et de
leur abondance de classes (jusqu plusieurs centaines) et de proprits, celles-ci sont
dlicates aborder. Cest ici tout le problme de la modularit des ontologies et de
lquilibre entre usabilit et rusabilit qui se pose [Klinker et al., 1991]. Il sagit donc
de trouver le juste milieu entre un modle complet mais trop complexe et un modle
plus lger et rutilisable ;
dans leurs hirarchies de classes, ces modles considrent gnralement le rle jou
par une entit comme une sous-classe de lentit elle-mme, par exemple Student est
dfinie en tant que sous-classe de Person dans OCoMMA, ou Bank de Entreprise
dans Proton (Figure 3.9, page 105). Or dun point de vue du formalisme logique mais
52
53

http://proton.semanticweb.org/2005/04/protonu
http://proton.semanticweb.org/2005/04/protont

54

http ://www.opencyc.org/

55

http://pauillac.inria.fr/cdrom/ftp/ocomma/comma.rdfs
http://www.w3.org/2001/sw/BestPractices/WNET/wn-conversion.html

56

104

3.2 Modlisation des ontologies mtier

aussi de lutilisation et lvolution du modle, il nous semble plus pertinent de considrer la notion de rle comme un concept indpendant de lentit laquelle il est rattach. Nous dtaillerons plus loin notre approche ce sujet (Section 3.2.4, page 109).
En consquence, nous avons considr des modles plus lgers, focaliss essentiellement sur
ces notions dagents, en particulier de personnes et de groupes. Nous avons donc tudi la
Portal Ontology57 dAKT - Universit de Southampton (encore trop riche pour nos besoins),
la Person Ontology58 deBiquity - Universit du Maryland (UMBC) ou encore SWRC Semantic Web Research Community [Sure et al., 2005] , ces deux dernires tant plus adaptes
la modlisation du monde universitaire. Nous avons finalement considr FOAF Friend
Of A Friend [Brickley et Miller, 2004b] comme modle de base pour la description de ce
domaine.

Figure 3.9: Taxonomie des sous-classes dAgent dans Proton


FOAF a pour objectif de reprsenter la notion dagent (foaf:Agent) et de diffrentes
sous-classes lies : personnes (foaf:Person), groupes dagents (foaf:Group) et organisations (foaf:Organization), ainsi quun certain nombre de proprits associes ces
concepts : nom (foaf:name), accointance (foaf:knows), appartenance (foaf:member)...
Comme voqu en amont, une des raisons de ce choix est due la simplicit du modle
57
58

http://www.aktors.org/ontology/portal
http://ebiquity.umbc.edu/ontology/person.owl

105

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
et le fait quil se concentre essentiellement sur la notion dagent sans stendre sur des aspects complmentaires comme les rles. Ceci nous permet de disposer dun noyau simple
et extensible sans sencombrer dune structure ontologique trop riche. Une autre raison de
ce choix est lutilisation abondante de ce vocabulaire sur le Web59 . Si FOAF a longtemps
t utilis essentiellement pour dfinir des profils personnels, son intgration comme ontologie de rfrence au projet Linking Open Data (comme le suggrent [Bizer et al., 2007b])
en fait un vocabulaire que lon retrouve dsormais frquemment pour la reprsentation
de donnes relatives aux agents sur le Web Smantique. Par exemple, les personnalits de
DBpedia sont dclares en tant quinstances de foaf:Person et utilisent des proprits
comme foaf:name ou foaf:depiction (cf. http://dbpedia.org/resource/Albert_
Einstein). De ce fait, utiliser ce vocabulaire en interne nous permet dutiliser les mmes
outils pour les donnes produites au sein de notre cosystme que pour les donnes agrges depuis lextrieur (Section 4.2.4, page 164).
Tel quel, FOAF permet de modliser des assertions comme "Alexandre Passant, personne,
est membre du LaLIC, organisation" ou bien "Electricit De France est une organisation" mais ne
permet pas de prendre en compte dautres notions qui nous intressent comme "Electricit
de France est une entreprise et a pour acronyme EDF" ou bien encore "Le LaLIC est bas Paris". Nous avons donc tendu FOAF au sein dun modle OWL-DL que nous avons nomm
FOAFplus et introduisant diffrentes classes permettant de prendre en compte ces spcificits (Listing 3.6, page 106). Cette utilisation de FOAF nous a galement permis de suggrer
des volutions du modle en termes de taxonomie de classes et de domaine et codomaine
de certaines proprits60 .
foafplus : Company rdf : type owl : Class ;
rdfs : subClassOf foaf : Organization .
foafplus : ResearchInstitute rdf : type owl : Class ;
rdfs : subClassOf foaf : Organization .
foafplus : Institution rdf : type owl : Class ;
rdfs : subClassOf foaf : Organization .
foafplus : Association rdf : type owl : Class ;
rdfs : subClassOf foaf : Organization .
foafplus : acronym rdf : type owl : DataTypeProperty ;
rdfs : domain foaf : Agent ;
rdfs : range rdfs : Literal .

Listing 3.6: Extension de FOAF pour la gestion de diffrents types dagents


Afin de modliser les relations entre entreprises plus finement quavec la simple relation
foaf:knows, nous avons galement introduit un modle lger pour reprsenter la notion de
partenariat entre diffrentes entits autour dun domaine donn. Une classe Partenariat
59

Une tude mene en Aot 2006 sur les donnes stockes par Swoogle [Ding et al., 2004] a montr que FOAF
tait le quatrime espace de noms le plus utilis. http://ebiquity.umbc.edu/resource/html/id/196/

Most-common-RDF-namespaces
60
http://lists.foaf-project.org/pipermail/foaf-dev/2007-January/008396.html

106

3.2 Modlisation des ontologies mtier

permet donc de reprsenter une relation entre diffrents agents autour dun domaine donn,
reprsent via la classe (role:Domain) sur laquelle nous reviendrons par la suite (Section
3.2.4, page 109). Notons que cette classe peut simplement saligner avec la classe Relationship
du vocabulaire du mme nom61 , nous conduisant ainsi au modle suivant (Listing 3.7, page
107).
partenariat : Partenariat rdf : type owl : Class .
rdfs : subClassOf relationship : Relationship .
partenariat : hasMember rdf : type owl : ObjectProperty ;
rdfs : domain partenariat : Partenariat ;
rdfs : range foaf : Agent .
partenariat : hasDomain rdf : type owl : ObjectProperty ;
rdfs : domain partenariat : Partenariat ;
rdfs : range role : Domain .

Listing 3.7: Modlisation de partenariats entre agents

3.2.3

Localisation avec Geonames

Avant dvoquer la notion de rle associe aux agents, un autre aspect qui nous intresse
est leur localisation. Il est en effet pertinent de pouvoir localiser ceux-ci, par exemple pour
tudier lmergence dune technologie sur un domaine donn ou identifier gographiquement le rseau (membres ou partenaires) gravitant autour dun acteur.
Une premire possibilit est lutilisation de la proprit foaf:based_near propose
par FOAF. Celle-ci permet de lier deux instances de SpatialThing du vocabulaire Geo
Vocabulary62 [Brickley, 2003] propos par le groupe dintrt Web Smantique du W3C et
bas sur la spcification World Geodetic System 1984. Lutilisation de cette proprit permet
de modliser une relation entre une instance de foaf:Agent (ou sous-classe) et un simple
point (geo:Point) associ ses coordonnes de latitude et de longitude. Lexemple qui suit
modlise de cette manire quEDF est bas Paris (Listing 3.8, page 107).
athena : EDF a foafplus : Company ;
foaf : based_near [
a geo : Point ;
geo : lat "48 ,5144" ;
geo : long "2 ,213" .
] .

Listing 3.8: Localisation dune entreprise avec FOAF et le Geo Vocabulary


Modliser la golocalisation des acteurs de cette manire pose deux principaux problmes dans notre contexte :
61
62

http://vocab.org/relationship/
Espace de noms http://www.w3.org/2003/01/geo/wgs84_pos#, prfixe geo par la suite.

107

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
les points ainsi dfinis sont en gnral des nuds anonymes, i.e. nont pas dURI
propre. Ceci complexifie les requtes SPARQL destines identifier des entits localises en un lieu donn. Il est en effet ncessaire dutiliser une clause FILTER base sur
des valeurs de coordonnes pour identifier que deux agents sont bass au mme endroit, ce type de requte est gnralement plus complexe quune simple comparaison
dURIs. De plus, dans le cas o les coordonnes ne sont pas identiques, il est ncessaire
dutiliser un moteur SPARQL grant limprcision ou la logique floue [Pan et al., 2008]
ou bien de dlguer cette comparaison une application externe pour permettre cette
identification ;
lutilisation directe de coordonnes rend complexe lannotation smantique, obligeant
indiquer explicitement celles-ci dans les outils produisant ces annotations. Si cela
est envisageable pour des spcialistes de bases de donnes gographiques ou des personnes dont cest le cur de mtier, a lest plus difficilement dans notre contexte,
les utilisateurs tant plus prompts utiliser simplement des noms de zones gographiques pour localiser les entits.
Fin 2005, le projet Geonames a vu le jour avec pour objectif de fournir une base de donnes gographique de rfrence sous licence Creative Commons, comptant aujourdhui plus
de six millions dentits63 . Le point qui nous intresse particulirement ici est lintgration
de celle-ci au sein du Web Smantique la mi-octobre 200664 . En particulier, les points suivants ont retenu notre attention :
la dfinition dune ontologie65 dfinissant la notion de zone gographique avec une
classe geonames:Feature ;
la mise disposition dURIs pour identifier chaque zone, et surtout lassociation
chaque URI drfrenable de la description RDF de lentit, notamment ses coordonnes avec le Geo Vocabulary dfini prcdemment ;
la dfinition de relations entre entits, en particulier la prsence dune proprit pour
indiquer le parent immdiat dune zone donne (geonames:parentFeature) ;
la place de plus en plus importante de Geonames au sein du projet Linking Open Data,
notamment son intgration avec DBpedia et de fait sa mise en avant naturelle comme
ontologie et base de connaissances de rfrence pour la localisation dentits sur le
Web Smantique.
Il nous a donc paru pertinent dutiliser ce modle dans notre contexte pour reprsenter la golocalisation des diffrents agents. Nous pouvons ainsi bnficier de la base de
connaissance Geonames et de son service web66 pour simplement produire des annotations RDF relatives la localisation de diffrents concepts (Section 4.2.4, page 164). Si la
proprit foaf:based_near peut-tre envisage pour lier chaque entit une instance de
geonames:Feature, sa smantique est assez faible puisquelle indique simplement "We do
not say much about what near means in this context ; it is a rough and ready concept"67 . Nous
63

http://geonames.org/about.html
http://geonames.wordpress.com/2006/10/14/semantic-web/
65
Espace de noms http://www.geonames.org/ontology#, prfixe |geonames| par la suite.
66
http://geonames.org/export
67
http://xmlns.com/foaf/spec/#term_based_near
64

108

3.2 Modlisation des ontologies mtier

avons ainsi propos lajout dune relation locatedIn permettant dindiquer quune ressource est situe dans une zone gographique prcise (Listing 3.9, page 109). Celle-ci a t
ajoute au modle Geonames dans sa version 2.0 dAvril 200768 .
geonames : locatedIn rdf : type owl : ObjectProperty ;
rdfs : domain rdfs : Resource ;
rdfs : range geonames : Feature .

Listing 3.9: Dfinition de la proprit locatedIn de Geonames


Un autre avantage relatif lutilisation de ce modle est la transitivit de la relation
geonames:parentFeature. La figure suivante (Figure 3.10, page 110) reprsente ainsi (1)
des relations entre des agents et leur zone gographique pouvant tre dfinies au sein de
notre systme, (2) des relations entre zones gographiques modlises au sein de la base de
connaissances Geonames et (3) une des relations infres par transitivit. Il est donc possible
didentifier que deux acteurs sont bass dans une zone similaire (par exemple un mme
continent) mme si lannotation au sein du systme spcifie des localisations un niveau de
finesse plus prcis (pays ou ville). Dans lexemple qui suit, on peut donc infrer quEDF et
Gazprom sont bass (dans une zone situe) en Europe partir du fait quEDF est localise
Paris et Gazprom en Russie.
3.2.4

Ontologies des rles et utilisation de SKOS

Notion de rles associs aux agents


Aprs cet apart gographique, revenons sur la notion de rle associ aux diffrents
acteurs. Un de nos besoins est en effet de reprsenter les diffrentes activits de ceux-ci,
par exemple indiquer que telle entreprise est productrice dnergies marines en Angleterre
ou que telle autre commercialise des panneaux solaires en France. Nous considrons ces
diffrentes activits comme des rles associs aux agents et non pas comme la nature mme
de ceux-ci. Cette vision reprend les principes dfinis par [Sowa, 1984] qui distingue dans
sa dfinition des rseaux smantiques les types naturels qui sont lis lessence mme des
entits et les rles qui dpendent dune relation accidentelle avec dautres entits. En effet,
contrairement au fait dtre une entreprise ou une personne, statut qui fait partie de lessence
mme de lentit en question, produire des nergies marines dpend dun certain contexte
(autres acteurs, march industriel ...). De plus, le rle contrairement au type naturel est
considr comme anti-rigide [Welty et Guarino, 2001], une entreprise pouvant changer de
domaine dactivit tout en restant la mme entreprise, i.e. la mme entit. Pour exemplifier
les propos prcdents, on considre ainsi que la notion de personne fait parti de lessence
mme dun individu, mais que des notions aussi diverses que celles dtudiant, de chercheur
ou de mari sont des rles que cet individu peut jouer un moment ou un autre de son
existence sans pour autant que sa nature change.
Contrairement [Sowa, 1984] qui considre dun point de vue du modle les rles comme
des sous-classes des types naturels, nous prfrons la vision de [Guarino, 1992] qui dfinit
68

http://lists.w3.org/Archives/Public/public-xg-geo/2007Jan/0001.html

109

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0

http://sws.geonames.org/
2988507/
geonames:parentFeature
geonames:locatedIn
http://sws.geonames.org/
6455259/
athena:EDF
geonames:parentFeature

geonames:parentFeature

http://sws.geonames.org/
2988506/
geonames:parentFeature
http://sws.geonames.org/
2968815/
geonames:parentFeature
http://sws.geonames.org/
3012874/

athena:Gazprom

geonames:locatedIn
http://sws.geonames.org/
2017370/

geonames:parentFeature
http://sws.geonames.org/
3017382/
geonames:parentFeature
http://sws.geonames.org/
6255148/

(1) Relations
internes

(2) Relations
Geonames

(3) Relation
infre

Figure 3.10: Relations gographiques entre entits et transitivit de la proprit


parentFeature de Geonames

ceux-ci comme des entits indpendantes et associes aux types naturels avec des proprits ddies. On retrouve cette modlisation notamment dans DOLCE [Claudio et al., 2005]
avec la notion de rles fonctionnels qui se rapprochent des ntres (producteur dnergie,
ingnieur ...). Nous avons pu galement nous rendre compte dun point de vue plus pratique en utilisant Proton (qui suit lide de [Sowa, 1984] en considrant les rles comme
des sous-classes) que les modles RDF(S)/OWL de ce type entranent des relations taxonomiques assez complexes ds lors quon les tend pour permettre des types dentits
diffrents de jouer un mme rle. On se retrouve en effet confront des treillis de classes
complexes, sujets explosion combinatoire, lajout dun rle particulier qui peut tre assign
n classes distinctes entranant la cration de n nouvelles classes. Nous avons ainsi volontairement limit le nombre de types naturels dans notre modle dacteurs (comme dfini
prcdemment) pour concentrer les rles dans un modle indpendant. Ainsi, nous avons
tout dabord dfini un modle trs lger pour la dfinition des rles (prfixe role) compre-

110

3.2 Modlisation des ontologies mtier

nant une simple classe Role et une proprit permettant de faire le lien entre un agent et ses
diffrents rles (Listing 3.10, page 111).
role : Role rdf : type owl : Class .
role : hasRole rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Agent ;
rdfs : range role : Role .

Listing 3.10: Modle simple pour la reprsentation des rles


Une fois ce premier modle tabli, la modlisation du rle en lui-mme a demand
nouveau rflexion. Une premire possibilit est de considrer les rles comme des concepts
part entire, par exemple athena:ProdEnMarAng69 ou athena:ComPanSolFra. Ce choix
implique galement la dfinition dun treillis de concepts complexe si lon souhaite pouvoir
identifier des acteurs associs des thmatiques similaires. Il est en effet ncessaire de modliser que athena:ProdEnMarAng est li la fois athena:EnMarAng, athena:ProdEnMar
et athena:ProdAng. Plutt que partir dans cette direction, nous avons choisi de considrer
la classe rle (role:Role) comme modlisant un triptyque entre70 :
un type de mtier, par exemple Producteur, modlis avec une classe role:Type ;
un domaine, par exemple Energies Marines, modlis avec une classe role:Domain ;
et une zone gographique, logiquement reprsente avec geonames:Feature et la
proprit geonames:locatedIn. Elle nest donc pas reprsente dans la description
qui suit puisque le domaine (rdfs:domain) de geonames:locatedIn est volontairement ouvert et nest donc pas sujet redfinition.
Le modle prcdent (Listing 3.10, page 111) se redfinit donc de la manire suivante
(Listing 3.11, page 112). En consquence, notre exemple prcdent reprsentant le fait quune
entreprise soit productrice dEnergies Marines en Angleterre se traduit en RDF comme suit
(Listing 3.12, page 112).
Pour en revenir la modlisation des rles au sens large, [Fukazawa et al., 2006] ont
galement montr quil tait parfois ncessaire de prendre en compte le contexte social
dun rle : famille, loisirs, travail, etc. Si nous navons pas pris en compte cette contextualisation dans notre modle, on peut considrer que par dfaut, tous nos rles se situent dans un contexte de rle industriel. Par ailleurs, pour une analyse plus complte de
la littrature sur cette notion de rle en Ingnierie des Connaissances, on pourra consulter
[Steimann, 2000]. Notons aussi que si nous ne les avons pas pris en compte, dautre modles plus lgers peuvent tre considrer pour modliser les rles associs des agents,
comme par exemple DOAC71 Description Of A Career - , ou le vocabulaire ResumeRDF72
[Bojars et Breslin, 2007].
69

URI fictive pour dfinir le concept de Producteur dEnergies Marines en Angleterre, nous ne dtaillerons pas
les autres URIs de cet exemple qui suivent le mme principe.
70
Malgr leur nom, ces diffrentes classes nont aucun lien avec les notions de type et de domaine que lon
retrouve en RDFS et OWL.
71
72

http://ramonantonio.net/doac/
http://rdfs.org/resume-rdf/

111

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
role : Role rdf : type owl : Class .
role : Domain rdf : type owl : Class .
role : Type rdf : type owl : Class .
role : hasRole rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Agent ;
rdfs : range role : Role .
role : hasDomain rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Role ;
rdfs : range role : Domain .
role : hasType rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Role ;
rdfs : range role : Type .

Listing 3.11: Modle pour la reprsentation des rles avec prise en compte du mtier et du
domaine
athena : entreprise1 a foafplus : Company ;
role : hasRole [
role : hasDomaine athena : EnergiesMarines
role : hasType athena : Production
geonames : locatedIn < http :// sws . geonames . org /6269131/ >
] .

Listing 3.12: Association dun rle un agent

Organisation des diffrents domaines et mtiers associs aux rles


Si nous utilisons Geonames pour la localisation dun rle, le problme dorganiser entre
eux les domaines industriels et les mtiers reste ouvert, toujours dans cette optique dtablir
terme des relations entre acteurs partir de leurs activits. Nous avons ainsi dcid dorganiser hirarchiquement ces informations et dtablir deux hirarchies distinctes de domaines
et mtiers. Pour justifier ce choix de hirarchie de concepts (avec uniquement une relation
de subsomption) et non pas dontologie plus prcise (qui ferait par exemple la distinction
entre une relation utiliseLeMateriau et permetDeProduire), il est important de comprendre que nous modlisons des domaines dactivit ou dexpertise (notions abstraites) et
non pas les objets physiques en eux-mmes (notions concrtes). Nous faisons ainsi la distinction entre lobjet panneau solaire et le domaine des panneaux solaires. Ainsi, le fait quune
entreprise commercialise des panneaux solaires en France se traduira par "a un rle de commercialisation dans le domaine des panneaux solaires". Cest bien une relation de subsomption
classique qui peut exister entre les domaines, indiquant par exemple que le domaine des
panneaux solaires est plus spcifique que celui de lnergie solaire. Si lon stait attach
au contraire modliser lobjet panneau solaire, il aura fallu une relation autre quun lien
hirarchique entre celui-ci et la notion dnergie solaire (e.g. permetDeProduire).
Cette reprsentation nous permet donc de modliser ces domaines au niveau dun mo-

112

3.2 Modlisation des ontologies mtier

dle taxonomique comportant une unique classe (Domain) et une seule relation (plus spcifique que) plutt quune ontologie plus pousse avec diffrentes classes et proprits comme
le montre la figure qui suit avec cet exemple de panneaux solaires et dnergie solaire (Figure 3.11, page 113)73 . La production des annotations associes ce modle tant en outre
laisse discrtion des utilisateurs via lutilisation de wikis smantiques (Section 4.2.4, page
161), cest une autre raison qui nous a amen utiliser un modle simple avec une unique
relation pour structurer ces domaines et mtiers.

Domaine des Energies


Renouvelables

Energies Renouvelables

a pour type
plus spcifique que
a pour type

nergie plus spcifique que

Energie
a pour type

Domaine de
l'Energie Solaire

Energie Solaire

plus spcifique que

permet la production de

Domaine des
Panneaux Solaires

Panneau Solaire

a pour type

Domaine
a pour type

Taxonomie de
domaines

a pour type

Composant
Industriel

Ontologie

Figure 3.11: Distinction entre taxonomies et ontologies


partir de cette vision, une premire manire dorganiser ces domaines et mtiers est
naturellement de penser une taxonomie de classes dfinies en tant quowl:Class et organises avec rdfs:subClassOf sous les classes principales role:Domain et role:Type. Par
exemple, on peut considrer la classe role:PanneauxSolaires comme une sous-classe
de role:EnergieSolaire, elle-mme sous-classe de role:ENR, son tour sous-classe de
role:Domain. Cependant, cette classe role:PanneauxSolaires sera galement considre comme tant instance de Domain du fait de lutilisation de la proprit role:hasDomain
pour associer ce domaine un rle et du codomaine de cette proprit (i.e. role:Domain)
(Figure 3.12, page 114). Nous basculons alors dans le dialecte OWL-Full ce que nous ne
souhaitons pas pour des raisons dindcidabilit74 . Mme si notre architecture nutilise pas
pour le moment de raisonneur OWL, nous prfrons nous assurer que le modle ne devra
pas tre repens pour cette raison dans le futur.
Une autre solution est de toujours considrer une taxonomie de classes mais dassocier chacune une instance de rfrence qui sera utilise pour la modlisation des rles au
73
74

Il en est de mme pour la reprsentation des mtiers avec la classe Type.


Rappelons que nous voquons uniquement OWL1 dans ce mmoire.

113

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0

role:Domain

rdfs:subClassOf
rdf:type

role:ENR

rdfs:subClassOf
athena:Role1

rdfs:subClassOf

role:EnergieSolaire

role:hasDomain

role:EnergiesMarines

rdfs:subClassOf

role:PanneauxSolaires

Instanciation

Ontologie OWL-Full

Figure 3.12: Taxonomies de domaines en OWL-Full

niveau des assertions, distinguant ainsi classes et instances et permettant de rester un niveau OWL-Lite (ou OWL-DL en fonction des autres axiomes de lontologie) (Figure 3.13,
page 115). Ceci complique cependant inutilement le modle et introduit des relations supplmentaires qui alourdissent les requtes, puisque le parcours de graphe se complexifie
avec ce noeud supplmentaire.
Enfin, une solution est dutiliser non pas une taxonomie de classes reprsente au sein
dun modle OWL classique, mais de se baser sur SKOS. SKOS Simple Knowledge Organisation Schema [Miles et Bechhofer, 2008] permet en effet de dfinir une hirarchie dinstances, au sens organisation taxonomique dinstances et non plus de classes. Plus exactement et comme nous lavons brivement explicit auparavant, SKOS dfinit une classe
skos:Concept et considre les relations skos:narrower et skos:broader (sous-proprits
dune relation plus gnrique skos:semanticRelation) ainsi quune relation skos :related pour tablir des liens entre diffrentes instances de cette classe. Lobjectif de SKOS est
ainsi de permettre la dfinition sur le Web Smantique de modles de reprsentation des
connaissances plus lgers que des ontologies comme des thesaurus ou des taxonomies. La
smantique des relations proposes par SKOS est en effet volontairement faible l o des
ontologies plus pousses vont typer et distinguer diffrentes relations comme nous lavons
montr dans une figure prcdente (Figure 3.11, page 113). De plus, les relations hirarchiques proposes par SKOS ont une smantique diffrente de celles proposes par RDFS/OWL puisque lon se situe au niveau des instances et non plus des classes. Ceci permet
donc dans notre contexte de dfinir quune entreprise est active dans un domaine considr
comme plus spcifique quune autre en modlisant uniquement des relations entre instances
et ce sans basculer dans un niveau dexpressivit OWL-Full (Figure 3.12, page 114) ni intro114

3.2 Modlisation des ontologies mtier

role:Domain

rdfs:subClassOf
role:ENR

rdfs:subClassOf
athena:PanneauxSolaires

role:EnergieSolaire

rdfs:subClassOf
role:EnergiesMarines

rdf:type
role:hasDomain

athena:Role1

Instanciation

rdfs:subClassOf

role:PanneauxSolaires

Ontologie OWL Lite

Figure 3.13: Taxonomies de domaines en OWL-Lite

duire des instances associes chaque classe (Figure 3.13, page 115).
Ainsi, nous avons utilis SKOS pour modliser les notions de domaine et de mtier en
dfinissant role:Domain et role:Type comme sous-classes de skos:Concept, en en utilisant la relation skos:broader pour identifier les relations de hirarchie qui existent entre
les instances associes. Lontologie se trouve donc ainsi rduite un simple modle OWLDL bas sur SKOS et dfinissant comme suit les deux classes prcites en plus de la notion
principale de rle (role:Role). En consquence, les diffrents domaines et mtiers ainsi que
leurs relations sont de ce fait modliss au travers dinstances et de relations entre instances
conformment avec SKOS (Figure 3.14, page 116), le modle complet tant dfini comme
suit (Listing 3.13, page 116).
Ce choix dutilisation de SKOS et dune dlgation des domaines, mtiers et relations au
niveau des instances a galement t motiv par notre contexte dannotations smantiques
guides par des applications sociales comme nous lavons brivement voqu auparavant.
Nous ne souhaitons pas en effet que les utilisateurs modifient le modle mais aient uniquement grer des instances. Lvolution des domaines et mtiers peut donc tre assure
par les utilisateurs finals, via les wikis (Section 4.2.4, page 161), sans que le modle ne soit
affect. Lutilisation de SKOS nous semble ainsi tre une bonne pratique ds lors quon souhaite modliser des hirarchies de concepts et dune part avoir un modle stable et dautre
part rester un niveau OWL dcidable. Dautres cas dutilisation de SKOS confirment en
outre cette bonne pratique [Isaac et al., 2007].
Rappelons enfin que largumentation prcdente se base sur lutilisation dOWL1 et que
OWL2 permet de contourner les problmes prcdents. Cette volution dOWL (en cours de
standardisation au moment de la rdaction de ce mmoire) introduit en effet la possibilit de
115

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0

role : Role rdf : type owl : Class .


role : Domain rdf : type owl : Class ;
rdfs : subClassOf skos : Concept .
role : Type rdf : type owl : Class ;
rdfs : subClassOf skos : Concept .
role : hasRole rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Agent ;
rdfs : range role : Role .
role : hasDomain rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Role ;
rdfs : range role : Domain .
role : hasType rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Role ;
rdfs : range role : Type .

Listing 3.13: Modle complet pour la reprsentation des rles

Ontologie OWL-Lite
skos:Concept

rdfs:subClassOf
role:Domain

rdf:type
role:ENR

skos:broader
athena:Role1

skos:broader

role:EnergieSolaire

role:EnergiesMarines

skos:broader
role:hasDomain
role:PanneauxSolaires

Relations SKOS
Instanciation

Figure 3.14: Taxonomies de domaines avec SKOS

116

3.2 Modlisation des ontologies mtier

dfinir une taxonomie de classes et dutiliser ces classes comme instances sans pour autant
basculer dans un modle OWL-Full. Ceci seffectue grce au punning (ou mtamodlisation),
qui permet dutiliser une mme URI pour reprsenter la fois une classe et une instance tout
en restant dcidable en temps fini75 .
3.2.5

Articulation globale des diffrentes ontologies mtier

Les diffrents modles prsents ci-avant sont donc chacun ddis un domaine particulier :
FOAF permet de dfinir la notion dagents (notamment de personnes et dorganisations) et certaines de leurs proprits ;
FOAFplus tend FOAF avec de nouvelles classes et proprits ;
la classe Partenariat du module du mme nom permet de reprsenter et contextualiser les relations entre acteurs autour de domaines particuliers ;
notre modle pour la reprsentation des rles permet de dfinir les diffrentes activits
associes aux agents tout en en sparant le domaine du mtier ;
SKOS nous permet de dfinir une taxonomie de domaines et mtier non pas au niveau
du modle (classes), mais de la base de connaissance (instances) ;
Geonames permet de localiser les entits, aussi bien avec un lien direct que via leur(s)
rle(s), les deux nayant videmment pas la mme valeur en termes de reprsentation.
Du fait de la faible adhrence des modles en eux-mmes avec notre contexte applicatif
(cette adhrence se situant principalement au niveau des bases de connaissances associes
comme nous lavons vu), cet cosystme dontologies nous semble pertinent pour tout systme dEntreprise 2.0 partir du moment o lon souhaite disposer de modles simples et
extensibles pour dfinir un contexte industriel particulier.
Lexemple suivant (Listing 3.14, page 119) reprsente ainsi diffrentes assertions au sujet
dEDF utilisant les modles prcits, assertions que lon retrouve par la suite reprsentes
de manire graphique (Figure 3.15, page 118). Ce schma permet de plus de faire apparatre les diverses relations qui peuvent exister entre modles et instances dfinies aussi
bien en interne via nos outils (relations skos:broader entre instances de role:Domain)
quen externe via des donnes prsentes sur le Web (relations geonames:parentFeature
entre instances de geonames:Feature).
Enfin, si ces modles forment le noyau de reprsentation mtier au sein de notre mdiateur, dautres ontologies peuvent tre utilises, notamment en termes de proprits :
celles pour lesquelles le domaine (rdfs:domain) ou le codomaine (rdfs:range) nest
pas restreint et peut donc tre adapt nimporte quelle classe de nos modles. On
peut par exemple utiliser dct:description pour ajouter une description complte
chaque instance ;
celles pour lesquelles le domaine ou le codomaine, bien que dfini, est consistant
avec nos vocabulaires. Par consistant, nous entendons quil ne va pas lencontre
des axiomes dfinis la fois dans nos modles et dans le modle des proprits en
question. Ceci ncessite cependant lutilisation dun raisonneur pour valider leur utilisation et la consistance du modle, quil sagisse de simple raisonnement RDFS sur
75

http://www.w3.org/TR/owl2-semantics/

117

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0

SKOS

skos:Concept

Role Ontology
Geonames

rdfs:subClassOf

rdfs:subClassOf

geonames:Feature

role:Type

rdf:type

role:Domain

rdf:type

rdf:type

http://
sws.geonames.org/
3017382/

rdf:type

rdf:type

athena:Producteur

athena:EnergieNucleaire

geonames:parentFeature
role:hasDomain
http://
sws.geonames.org/
2988507/

geonames:locatedIn

role:hasType

skos:broader

athena:Constructeur

athena:Role1

Ontologies

athena:CentraleNucleaire

Base de
connaissances

geonames:locatedIn

role:hasType

role:hasDomain

role:hasRole
athena:Role2
athena:PierreGadonneix

foaf:member

role:hasRole

athena:EDF

partenariat:hasDomain

athena:Areva

rdf:type

partenariat:hasMember

athena:part1

rdf:type
rdf:type

foaf:Person

rdf:type

foafplus:Company
partenariat:Partenariat

rdfs:subClassOf

rdfs:subClassOf

FOAFplus
Partenariat

foaf:Agent

FOAF

Figure 3.15: Combinaison dontologies et base de connaissance associe pour dfinir des
assertions au sujet dEDF

118

3.3 MOAT pour lier tags et ontologies

athena : EDF a foafplus : Company ;


role : hasRole [
role : hasType athena : Constructeur ;
role : hasDomain athena : CentraleNucleaire ;
geonames : locatedIn < http :// sws . geonames . org /3017382/ >
] ;
role : hasRole [
role : hasType athena : Producteur ;
role : hasDomain athena : EnergieNucleaire ;
geonames : locatedIn < http :// sws . geonames . org /3017382/ >
] ;
geonames : locatedIn < http :// sws . geonames . org /2988507/ > ;
foaf : member athena : PierreGadonneix .
athena : PierreGadonneix a foaf : Person ;
geonames : locatedIn < http :// sws . geonames . org /2988507/ > .

Listing 3.14: Ensemble dassertions au sujet dEDF laide de diffrents modles

les classes / sous-classes ou de raisonnement OWL plus pouss prenant en compte les
ventuelles unions (owl:unionOf), intersections (owl:intersectionOf) ou disjonctions (owl:disjointWith).
3.3
3.3.1

MOAT POUR LIER TAGS ET ONTOLOGIES


Tags, folksonomies et ontologies : un tat de lart

Folksonomies et ontologies ont rgulirement t confrontes, le plus souvent tort.


Un point de vue frquent est ainsi de considrer la folksonomie comme une classification
bottom-up oriente utilisateurs qui soppose lontologie considre comme une approche
top-down centralise. Cette opposition va dailleurs dans le sens dune confrontation globale
entre Web 2.0 et Web Smantique que lon retrouve souvent sur le Web et qui nous semble
strile comme nous lavons dj voqu (Section 1.3, page 43). Comme nous le montrons
tout au long de ce mmoire, cest selon nous une complmentarit et non une distinction
quil faut envisager entre Web Smantique et Web 2.0 et il en est de mme pour les relations entre folksonomies et ontologies. Ainsi rien ne soppose la complmentarit des
deux approches puisque lon a dun ct une pratique utilisateur et un modle mergent
(folksonomie) de lautre un mode de reprsentation formelle (ontologie) comme lont soulign [Gandon et Giboin, 2008] : "Les ontologies se dfinissent par le type de leur contenu. Les folksonomies se dfinissent par leur moyen dobtention". Diffrents travaux sintressent ainsi aux
rapprochements et convergences possibles entre ces deux approches et lon peut les classer
en deux grandes familles, qui peuvent galement se rejoindre sur certains points :
les travaux cherchant identifier une smantique mergente depuis les folksonomies,
voire extraire des modles taxonomiques ou ontologiques partir de celles-ci ;

119

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
les travaux visant proposer des modles de reprsentation pour les tags, les folksonomies et les objets associs (actions de tagging, nuages de tags ...) avec les technologies
du Web Smantique.
Avant de prsenter nos travaux sur le sujet (Section 3.3.2, page 126), nous allons nous
intresser ltat de lart associ ces deux courants et prsenter certaines applications qui
sy rapportent.
Extraire une smantique mergente depuis les tags
De nombreux travaux poursuivent lobjectif dextraire des modles structurs taxonomies ou ontologies depuis les folksonomies, principalement dans lobjectif de rsoudre les
problmes classiques des systmes base de tags (Section 2.2.3, page 63). Lobjectif est alors
dexpliciter la smantique qui peut exister dans ces systmes l o celle-ci nest quimplicite en raison de la nature mme des folksonomies. La plupart dentre eux se basent sur la
notion de smantique mergente [Staab, 2002] o lusage collectif fait apparatre une smantique contrle par la base (approche bottom-up) en opposition aux approches o la smantique est dfinie en amont (top-down). [Mika, 2005] voque ce sujet "ontologies would thus
become an emergent effect of the system as opposed to be a fixed, limited contract of the majority".
Lontologie (ou la taxonomie) merge ainsi par effet de bord de larchitecture participative
des systmes base de tags. Ce processus permet galement de diminuer le goulot dtranglement li lacquisition dun modle structur, tape gnralement coteuse, puisque ce
modle est ici issu des actions utilisateurs et des tags utiliss.
Afin didentifier cette smantique mergente au sein des folksonomies, [Mika, 2005] propose ainsi une approche sociale de constitution dontologies. Il dfinit alors lontologie comme
un modle tripartite bas sur celui des folksonomies et ne considre plus uniquement les
notions de classes et dinstances mais fait intervenir une composante sociale pour tablir
un modle entre concepts (quil considre ici comme tant les tags), instances (les contenus
tagus) et acteurs (les responsables des actions de tagging). En quelque sorte, il rifie la notion dinstanciation des ontologies au travers de la structure sociale des systmes base de
tags. laide de ce modle et en se basant sur des approches de clustering et de cooccurrence combines avec des techniques danalyse de rseaux sociaux, il observe lmergence
de modles taxonomiques partir de folksonomies. En appliquant son approche diffrents jeux de donnes, il identifie galement un parallle entre la subsomption dun concept
par un autre et linclusion de la communaut utilisant le tag le plus spcifique au sein de
la seconde. Cette constatation nous semble en outre lie la notion dexpertise au sein des
systmes base de tags que nous avons constate dans notre systme et galement voque par [Golder et Huberman, 2006] (Section 2.2.3, page 63). [Halpin et al., 2006] se basent
quand eux sur une approche de cooccurrences rciproques entre tags pour extraire des
relations taxonomiques, modlises en RDFS avec rdfs:subClassOf, partir dune tude
des bookmarks annots par diffrents utilisateurs sur Delicious. [Schmitz, 2006] propose galement une approche base sur les cooccurrences de tags et sur un modle statistique de
subsomption (propos par [Sanderson et Croft, 1999]) pour tablir une hirarchie de tags
depuis Flickr. Tout comme les deux approches prcdentes, la smantique des relations se
rsume une unique relation de subsomption et mlange ce que lon aurait probablement
120

3.3 MOAT pour lier tags et ontologies

distingu entre classes et instances dans une approche de constitution classique dun tel
modle. Il nous semble par ailleurs que SKOS serait ici plus appropri quune hirarchie de
classes RDFS/OWL pour la modlisation de tels exports.
La mthodologie FLOR76 Folksonomy Ontology enRichment [Angeletou, 2008] dfinit
quand elle une mthode totalement non-supervise (se basant notamment sur les rsultats obtenus par [Specia et Motta, 2007]) permettant dexpliciter la smantique des tags
et surtout des relations entre tags. Contrairement aux travaux prcdents qui se limitent
des relations taxonomiques, leur approche permet dextraire des relations types entre
concepts. Cette mthodologie repose notamment sur des notions de filtrage linguistique et
dexpansion de termes et utilise diffrents outils proposs par le moteur smantique Watson77 [dAquin et al., 2008]. Avec FolksOntology, [Van Damme et al., 2007] proposent une approche semblable, lutilisateur ayant en plus la possibilit de dfinir explicitement la smantique des tags pour lesquels le systme na pu trouver dontologie adapte, i.e. de spcifier
sil sagit dune classe, dune instance ou dune proprit. On peut ainsi, plus qualigner la
folksonomie avec des ontologies existantes, crer de nouveaux concepts. Malheureusement,
contrairement FLOR, cette approche se content dextraire un modle mais napplique pas
celui-ci aux contenus tagus, ce qui nous semble pourtant tre un des avantages de lontologie ainsi gnre.
Modliser les tags avec les technologies du Web Smantique
Nous allons dans cette section prsenter un certain nombre de travaux visant modliser les diffrents lments des systmes base de tags (tags, actions de tagging ...) avec les
technologies du Web Smantique. De tels modles, que lon peut considrer comme des ontologies pour les folksonomies, permettent ainsi denvisager les systmes base de tags comme
partie intgrante du Web Smantique, puisque reprsents en RDF(S)/OWL.
[Gruber, 2007] propose un premier modle78 tendant la notion tripartite classique dune
action de tagging (Section 1.2.3, page 39) et o il dfinit celle-ci comme une relation faisant
intervenir quatre lments :
un Objet, i.e. la ressource annote quelque soit son type (billet de blog, photo, etc.) ;
un Tag, i.e. le tag annotant la ressource ;
un Agent, i.e. lagent en rgle gnral une personne qui cre la relation ;
une Source, i.e. lespace o est effectue cette action (e.g. Flickr). Cest cette dernire
proprit qui enrichit la relation initiale et qui permet de distinguer deux actions de
tagging dun mme auteur pour la mme ressource mais sur deux espaces distincts.
Un cinquime lment peut galement intervenir dans cette relation, savoir une polarit
permettant dassigner une valeur positive ou ngative la relation, dans lobjectif de rsoudre des problmes de spam. [Gruber, 2007] introduit galement la notion didentit dun
tag et considre que des tags peuvent tre dfinis comme identiques malgr des labels distincts, tablissant un premier pas vers lunification de tags htrognes et la notion de sens
76

http://flor.kmi.open.ac.uk/
http://watson.kmi.open.ac.uk/
78
Publi originellement en 2005 http://tomgruber.org/writing/ontology-of-folksonomy.htm
77

121

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
associs aux tags (Section 3.3.2, page 126). Ce modle thorique sera la base du projet
TagCommons79 mais ne propose cependant pas dontologie RDFS/OWL prte utilise.
[Newman et al., 2005] dfinit avec la Tag Ontology80 une ontologie OWL-Full reprenant
certains des principes dfinis par [Gruber, 2007]. Cette ontologie dfinit une classe tag:Tag
pour modliser les tags, sous-classe de skos:Concept, chaque tag disposant dun ou plusieurs labels (via la proprit tag:tagName). Ce label reprsente le tag en tant que simple
chane de caractres, tel que vu par lutilisateur. Lutilisation dune classe spcifique pour reprsenter les tags implique que chaque tag est dfini par une URI et non plus par une simple
chane de caractres. En consquence, il est possible dtablir des assertions RDF entre tags et
notamment de les organiser en crant des relations de proximit entre eux. Le modle dfinit
ainsi une proprit tag:relatedTag (sous-proprit de skos:semanticRelation) pour
reprsenter les relations possibles entre diffrents tags. Malheureusement, cette relation-ci
ne porte pas suffisamment de smantique pour dfinir si deux tags sont lis par proximit
linguistique (ex : un tag est le pluriel dun autre) ou parce quils voquent des domaines
plus ou moins proches (ex : EDF et nergie). Un autre dfaut de ce modle est labsence de
cardinalit vis--vis de la relation tag:tagName. Ainsi une instance de tag:Tag peut avoir
deux labels totalement distincts qui lui sont rattachs. Par exemple un mme tag peut tre
associ aux labels RDF et nergie, entranant une incohrence vidente quun raisonneur
ne pourra cependant dtecter puisque non reprsente dans le modle. Ce modle dfinit
galement la notion daction de tagging via une classe tag:Tagging et des relations partir
de celle-ci vers lutilisateur tag:taggedBy (cette proprit tant dfinie avec un codomaine
foaf:Agent), le tag tag:taggedWithTag et la ressource tag:taggedResource associs.
Il propose de plus une classe tag:RestrictedTagging, sous-classe de tag:Tagging, permettant de reprsenter une action de tagging pour un unique tag (via lutilisation dune restriction de cardinalit sur la proprit taggedWithTag), considrant ainsi laction de tagging
comme une relation tripartite stricte o un unique tag entre en jeu. La figure qui suit montre
ainsi la reprsentation dune telle action o un tag apple est ici assign un billet de blog
reprsent avec SIOC (Figure 3.16, page 123). Si la source et la polarit de chaque action ne
sont pas prises en compte dans ce modle contrairement [Gruber, 2007], une composante
temporelle peut-tre ajoute via la proprit tag:taggedOn, sous-proprit de dc:date81 .
Partant dun besoin dinteroprabilit des tags entre applications, SCOT Semantic Cloud
Of Tags [Kim et al., 2007] se base sur les travaux prcdents pour dfinir un modle relatif la reprsentation des nuages de tags. Lobjectif est notamment de permettre lexport
de lensemble des tags dun utilisateur et leur frquence dutilisation dun service vers un
autre, toujours dans cette ide de portabilit des donnes sociales (Section 3.1.5, page 96).
Pour ce faire, SCOT82 introduit diffrentes classes et proprits pour modliser entre autres
les cooccurrences entre tags au sein dun systme particulier (proprit scot:cooccurIin
et classe scot:Cooccurrence). SCOT permet galement de reprsenter plus finement que
dans la Tag Ontology les relations entre tags, avec une dizaine de proprits distinctes comme
79

http://tagcommons.org
Espace de noms http://www.holygoat.co.uk/owl/redwood/0.1/tags/, prfixe tag par la suite.
81
http://purl.org/dc/elements/1.1/date
82
Espace de noms http://scot-project.org/scot/ns#, prfixe scot par la suite.
80

122

3.3 MOAT pour lier tags et ontologies

tag:RestrictedTagging

http://example.org/tag/
apple

rdf:type

tag:associatedTag

http://example.org/
tagging1
tag:taggedBy

Tag Ontology

tag:taggedResource

http://example.org/
post/1

foaf:maker
http://apassant.net/alex/

dct:title
Nouvel iPhone
disponible

rdf:type

sioct:BlogPost

FOAF

SIOC + DC

Figure 3.16: Tags et actions de tagging avec la Tag Ontology

scot:acronym ou scot:plural mais ne rsout malheureusement pas le problme de cardinalit voqu prcdemment.
Toujours dans cette optique dontologies pour reprsenter les tags, [Knerr, 2006] propose
TagOnt83 qui reprend le modle de [Newman et al., 2005] en y ajoutant la notion de visibilit
dune action de tagging. Malheureusement, ce modle redfinit ses propres classes et proprits au lieu dtendre la Tag Ontology, et bien que disponible en ligne84 il ne semble tre
utilis dans aucun projet. Un modle similaire est propos par [Echarte et al., 2007]85 mais ne
semble galement pas avoir t utilis en pratique. NEPOMUK propose via le vocabulaire
NAO NEPOMUK Annotation Ontology [Scerri et al., 2007] 86 une classe nao:Tag et une
proprit nao:has_tag pour identifier les tags rattachs une ressource quelconque, sans
pour autant considrer laction de tagging en tant que modle tripartite. SIOC quant lui
dfinit une simple classe Tag qui peut tre utilise en complment avec sioc:topic pour
reprsenter les tags associs un item. Il est galement possible dutiliser SKOS pour reprsenter des tags via la classe skos:Concept (sioc:Tag hrite dailleurs de cette classe),
les instances associes pouvant ensuite tre associes aux contenus tagus via la proprit
sioc:topic o jusqu peu via skos:subject, aujourdhui obsolte comme nous lavons
signal en voquant les relations entre SIOC et SKOS (Section 3.1.4, page 94). Enfin, il est
important galement de signaler le modle Bookmark87 [Koivunen et al., 2001] propos par
83

http://code.google.com/p/tagont/
http://tagont.googlecode.com/files/tagont.owl
85
http://www.eslomas.com/tagontology-1.owl
86
Espace de noms http://www.semanticdesktop.org/ontologies/2007/08/15/nao#, prfixe nao
84

par la suite.
87
Espace de noms
bookmark par la suite.

http://www.w3.org/2003/07/Annotea/BookmarkSchema-20030707, prfixe

123

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
Annotea88 [Kahan et Koivunen, 2001]. Bien quil ne fasse pas explicitement rfrence la
notion de tags telle que popularise ces dernires annes, ce vocabulaire permet de faire le
lien entre une ressource et un ensemble de termes annotants, reprsents via une classe
bookmark:Topic et une proprit bookmark:Bookmark. Ce modle permet galement
dorganiser hirarchiquement diffrentes instances de bookmark:Topic avec une proprit
bookmark:subTopicOf, proposant un processus similaire la proprit skos:broader
dfinie dans SKOS. Citons galement le module Taxonomy de RSS 1.089 qui propose une
proprit pour reprsenter les diffrents sujets associs un lment de flux RSS. Pour finir, notons lexistence du microformat rel:tag. Mme sil ne sagit pas dun modle RDF,
lutilisation de GRDDL, que nous avons prsent dans le premier chapitre de cette thse
(Section 1.1.2, page 16), permet de transformer des donnes XHTML utilisant ce microformat en donnes RDF en utilisant par exemple un des modles prsents en amont.
Le tableau qui suit (Tableau 3.2, page 125) synthtise les diffrents modles tudis prcdemment et les compare selon diffrents critres. Ici, nous considrons uniquement ce que
les modles en eux-mmes permettent de modliser et non pas la manire dont ils utilisent
des vocabulaires externes (notamment en dfinissant des sous-classes ou sous-proprits).
Par exemple, bien que la Tag Ontology permette lutilisation de la proprit foaf:maker,
elle ne dfinit pas elle-mme la notion dagent ayant annot une ressource (mais se base sur
FOAF), ce qui explique que ce critre soit ici considr comme non satisfait, tout comme lest
la notion de modle tripartite pour SCOT, qui utilise pour se faire la Tag Ontology.
Notons galement que ce que nous appelons tagging (simple) se rfre la modlisation dune relation directe entre une ressource et ses tags annotant et que tagging (tripartite)
voque la modlisation dune actions de tagging en tant que modle (a minima) tripartite. Le
dialecte de chaque ontologie OWL a en outre t valid par Pellet.
Outils combinant tagging et technologies du Web Smantique
De nombreux outils combinent systme de tags et technologies du Web Smantique et
nous allons ici prsenter certains dentre eux.
Tout dabord, citons Annotea [Kahan et Koivunen, 2001] qui propose ds 2001 un systme dannotations et de partage de ressources Web ouvert et reposant sur les technologies
du Web Smantique. Cet outil permet chaque communaut de disposer de son propre
serveur dannotations, les diffrentes annotations produites tant ensuite disponibles en
RDF utilisant un modle particulier dannotations91 combin au vocabulaire Bookmark prsent auparavant. On peut ainsi considrer Annotea comme une des premires applications
sociales de partage de contenus bas sur les technologies du Web Smantique. Dans cette
mme ide de reprsenter des contenus annots avec les technologies du Web Smantique,
Revyu92 [Heath et Motta, 2007] est un service de revues entirement bas sur les standards
du Web Smantique. Il repose notamment sur des heuristiques permettant de lier automatiquement les revues des ressources dj existantes, par exemple des livres en vente sur
88
89

http://www.w3.org/2001/Annotea/
http://web.resource.org/rss/1.0/modules/taxonomy/

90
91

correspond aux critres satisfaits, aux critres non satisfaits.

http://www.w3.org/2000/10/annotation-ns#
92
http://revyu.com

124

3.3 MOAT pour lier tags et ontologies

Ontologie

Format
Tag

Gruber
Tag Ontology
SCOT
NAO
TagOnta
Echarte
SKOS Core
SIOC
Annotea
Taxonomy
rel-tag
a

N/A
OWL-Full
OWL-Full
RDFS
OWL
OWL-DL
OWL-Full
OWL-Lite
RDFS
RDFS
Microformat

Supporte la modlisation de
Tagging
Tagging
Agent Nuage
(simple) (tripartite)
de tags

Ce modle na pu tre valid par Pellet.

Tableau 3.2: Comparaison de diffrentes ontologies pour la reprsentation des tags et des
objets associs90

Amazon.com auxquels une URI propre a t assigne [Bizer et al., 2007a]. Lensemble des
annotations produites au sein de cet outil est en outre disponible en RDF et utilise la Tag Ontology pour la reprsentation des tags. Toujours dans une approche de partage de contenus,
Faviki93 propose un service de gestion de favoris o les tags sont des identifiants DBpedia [Milicic, 2008]. Il prend ainsi en compte la notion de multilinguisme associe aux tags,
puisquune mme URI peut tre associe plusieurs termes.
Dautres outils sont axs plus spcifiquement sur la gestion des tags, et plus particulirement sur la manire de les organiser pour pallier leurs limites (Section 2.2.3, page 63).
Ainsi, les outils de bookmarking SemanticScuttle94 [Huynh-Kim-Bang et Dan, 2008], Gnizr95
et Semanlink96 [Servant, 2006] permettent de dfinir des relations hirarchiques entre tags,
le second offrant un export RDF des contenus annots en utilisant certaines des ontologies prsentes plus haut (notamment la angTag Ontology, SIOC et SKOS), le dernier tant
bas sur son propre modle de reprsentation des tags reposant sur SKOS9798 . Dans une
approche diffrente, GroupMe99 propose aux utilisateurs de regrouper les tags par catgories pour faciliter la recherche dinformation, reprsentant le tout avec sa propre ontologie
[Abel et al., 2007]. Sweetwiki [Buffa et al., 2008] permet galement lorganisation de tags (et
93

http://faviki.com
http://sourceforge.net/projects/semanticscuttle/
95
http://code.google.com/p/gnizr/
96
http://www.semanlink.net/sl/home
97
http://www.semanlink.net/2001/00/semanlink-schema#
94

98

Puisque bas sur SKOS et napportant pas de spcificit particulire en terme de fonctionnalits par rapport
celui-ci, nous ne lavons pas inclu dans le comparatif prcdent.
99

http://groupme.org/GroupMe/

125

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
utilise son propre modle de reprsentation), cette fois-ci au sein dun wiki (Section 4.2.1,
page 148). Lapproche reste fidle la philosophie wiki en permettant tous les utilisateurs
du systme de grer cette organisation commune de lensemble des tags du wiki de manire
ouverte et collaborative.
Sils nutilisent pas explicitement les technologies du Web Smantique, dautres outils
permettent manuellement de structurer ou denrichir les systmes base de tags et de bnficier de ces enrichissements au moment de la recherche dinformation. Ainsi, toujours
dans une approche permettant de driver des relations taxonomiques partir de folksonomies, [Jschke et al., 2008] proposent aux utilisateurs de Bibsonomy100 (outil collaboratif
de gestion de rfrences bibliographiques issu du projet TagOra101 ) de dfinir eux-mmes
des relations hirarchiques entre tags. [Tanasescu et Streibel, 2007] proposent une autre solution pour structurer les folksonomies avec lExtreme Tagging. Les utilisateurs ont ici la possibilit de typer les tags et les relations entre ces tags, nouveau en utilisant des tags. Par
exemple, on va pouvoir taguer le tag apple par fruit dans une action de tagging, et par mac
dans une autre. Si lide est intressante, lutilisation de simples tags pour dfinir ces types
nous semble conduire aux mmes problmes que ceux quelle souhaite rsoudre. Enfin, on
peut galement citer les machine tags de Flickr102 , o les utilisateurs peuvent dfinir des tags
prdicat=objet, par exemple dct:description=New-York ou geo:lat=42.33. Sils ne
sont nativement pas modliss en RDF, ces machine tags peuvent tre traduits comme tels via
lAPI Flickcurl103 .
3.3.2

Reprsentation de la signification des tags avec MOAT

Si les ontologies tudies dans la section prcdente modlisent les notions de tag et
dactivit de tagging, aucune ne permet de prendre en compte la signification qui peut tre
associe un tag dans le cadre dune action de tagging particulire. Nous considrons en
effet que lorsquun utilisateur associe un tag une ressource, il lui assigne une signification
particulire quil est ncessaire de prendre en compte pour interprter correctement cette
annotation. Comme nous lavons dj voque, plusieurs problmes se posent dans lassignation de tags en tant que simple libells. On peut ainsi voir les limitations des tags en tant
que simples mots-cls de la manire suivante :
dune part, comme le souligne [Bachimont, 2000] en voquant la notion de libells et
dontologies "si ces libells sont interprtables, rien nimpose quils soient interprts de la
mme manire ou tout le moins de manire cohrente et compatible entre plusieurs spcialistes".
si linterprtation est possible, celle-ci dpend galement du contexte interprtatif :
un tag apple associ une photo de fruits aura un sens diffrent de celui associ au
mme tag apple annotant un billet de blog sur liPhone. Si lutilisateur est conscient de
la signification quil donne a son tag au moment de lannotation, celle-ci ne peut tre
prise en compte au moment de la recherche dinformation, la machine ne considrant
quune simple chane de caractres a-p-p-l-e sans aucune smantique ;
100

http://bibsonomy.org
http://www.tagora-project.eu/
102
http://www.flickr.com/groups/mtags/
103
http://librdf.org/flickcurl/
101

126

3.3 MOAT pour lier tags et ontologies

hors contexte, la smantique est donc multiple et ambigu. Si lon prend le prcdent
tag apple tel quel, i.e. non associe une ressource, il peut rfrencer aussi bien une
entreprise quune maison de disque ou un fruit.
partir de ce constat, il nous a sembl ncessaire de formaliser (1) la signification dun
tag dans le contexte dune action de tagging particulire et (2) lensemble des significations
potentielles que celui-ci peut avoir dans une folksonomie, i.e. selon un service ou une communaut donne. On retrouve dans ce besoin de formalisation certains fondamentaux du
Web Smantique savoir la notion didentifiants rfrents et partags pour reprsenter les
choses (au travers dURIs) et le passage de simples termes ces identifiants (Section 1.1.2,
page 16). Notre proposition, que nous allons maintenant dtailler, a donc pour objectif de
crer un pont entre cette notion souple de folksonomies et dannotation contrle par lutilisateur et les notions plus formelle du Web Smantique et notamment lindexation smantique, en indexant donc les documents non plus par de simple termes (i.e. les tags) mais
par des URIs de concepts. On passe ainsi dune indexation par mot-cl une indexation par
concept (ou instance) dontologie, permettant de rsoudre les diffrents problmes poss par
les systmes base de tags (Section 2.2.3, page 63). Lontologie devient alors un support la
folksonomie, permettant dassocier souplesse de lannotation par tag et langage formel pour
reprsenter sans ambigut et de manire interprtable les significations associes ces tags.
Ce processus nous permet ainsi dtablir un lien fort entre ces diffrents degrs de formalisation, offrant chacun des perspectives diffrentes en terme dannotation et de recherche
dinformation comme le souligne [Zacklad, 2007],
Si lapproche courante consiste considrer une action de tagging comme une relation tripartite entre un utilisateur, un tag et la ressource annote (Section 1.2.3, page 39),
relation qui peut-tre enrichie par des considrations temporelles ou despace social (cf.
[Newman et al., 2005] ou [Gruber, 2007]), nous y ajoutons un paramtre supplmentaire,
savoir la signification du tag dans ce contexte. Plus particulirement, nous distinguons :
la signification locale dun tag, i.e. la signification particulire et non ambigu dun tag
au sein dune action de tagging104 ;
les significations globales dun tag, i.e. lensemble des significations qui peuvent lui-tre
associes si lon considre le terme seul, hors contexte.
Nous tendons ainsi de la manire suivante le modle de reprsentation tripartite dune
action de tagging en un modle quadripartite o la signification (Signif ication) est ici considre comme locale :
T agging(U tilisateur, Ressource, T ag, Signif ication)

(3.1)

Dautre part, modliser lensemble des significations potentielles dun tag dans une folksonomie donne revient considrer qua chaque tag est associ un ensemble de significa104
En ralit, dans certains cas, il se peut que la signification locale soit envisage selon plusieurs points de
vue et que lon considre alors quil y a plus dune signification locale pour un tag donn. Par exemple, un tag
Paris va pouvoir tre considrer comme se rfrant la fois la ville de Paris et lentit administrative. Sil
sagit bien du mme concept (i.e. une zone gographique) celui-ci est vu simultanment selon deux points de
vue que lon peut considrer comme deux significations distinctes. On rentre cependant ici dans des notions plus
complexes sur ce qui fait le sens mme dune entit, considrations galement abordes sur le Web Smantique
comme nous lavons vu avec les notions de rle (Section 3.2.4, page 109) et didentit (Section 1.1.4, page 27).

127

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
tions, que nous considrons ici comme significations globales. Chaque signification globale est
de plus associe la liste des utilisateurs layant ainsi dfinie, afin de conserver un ct social dans cette association. Nous modlisons donc les significations globales dun tag comme
suit :
Signif ications(T ag) = {(Signif ication, {U tilisateur})}

(3.2)

Ainsi, partir de ces deux dfinitions, nous pouvons reprsenter une folksonomie non
plus comme compose de trois ensembles mais de quatre Utilisateurs, Tags, Ressources et
Significations associs un ensemble de relations (i.e. les actions de tagging) de la manire
suivante :
(3.3)

F olksonomie(U tilisateur, Resource, T ag, Signif ication, T agging)

On peut galement reprsenter ce modle quadripartite au travers de la figure qui suit,


identifiant ici au sein dune folksonomies deux actions de tagging distinctes qui portent sur
le mme tag pour deux significations distinctes (Figure 3.17, page 128).

R1

T1

U1

S2
T3

R2
R3

S1

U3

U2

R4

T2

S3

T4

S4
T5

R5
Ressources

S5

U4
Utilisateurs

Tags

Significations

Figure 3.17: Modlisation quadripartite de deux relations de tagging au sein dune folksonomie

3.3.3

Modle de reprsentation MOAT

Lintroduction de la notion de signification au sein des systmes base de tags nous


amne au problme de reprsentation de celle-ci. Si lon utilise un simple label, le problme est simplement dport, puisqu nouveau celui-ci peut-tre ambigu et est sujet
son interprtation par le lecteur. Comme le souligne nouveau [Bachimont, 2000] en voquant les ontologies, "il est ncessaire de contraindre linterprtation spontane que fait tout spcialiste des libells pour que, respectant ces contraintes dinterprtation, tout spcialiste associe les
mmes significations que ses confrres un libell". En allant plus loin, et puisque nous nous
situons dans le contexte du Web Smantique, nous souhaitons que non seulement tout spcialiste mais surtout tout agent logiciel interprte ces significations de la mme manire. La
notion dinterprtation par une machine est elle-mme sujet dbat comme nous lavons
128

3.3 MOAT pour lier tags et ontologies

soulign au dbut de cette thse (Section 1.1.1, page 12) et ici nous nous referons aux notions dinterprtations des donnes dans le contexte du Web Smantique avec lutilisation
dURIs et dontologies associes. Pour ce faire, nous reprsentons donc les significations
non pas avec de simples labels (ce qui ne ferait que dplacer du tag la signification les
problmes que lon souhaite rsoudre), mais via lutilisation dURIs de concepts du Web
Smantique, quil sagisse dinstances dontologies de domaines (qui peuvent alors tre internes une organisation) ou provenant de bases de connaissances comme DBpedia, Geonames ou autres ressources du projet Linking Open Data. Les significations associes aux
tags sont donc ainsi reprsentes par identifiants non-ambigus rfrenant des concepts interprtables par des agents logiciels. Pour en revenir lexemple prcdent, on peut ainsi
assigner au tag apple les significations globales dbpedia:Apple (identifiant pour le fruit)
et dbpedia:Apple_Inc. (identifiant pour lentreprise) permettant de distinguer ensuite,
via une signification locale, le sens quun utilisateur a voulu donner son tag au moment
dune action de tagging particulire. Si cette signification est destine en premier aux machines, on peut malgr tout simplement en proposer une interprtation humaine en utilisant
les diffrentes proprits associes ces URIs, notamment leur label (rdfs:label).
Nous avons ainsi propos un premier modle relativement simple permettant de considrer des ontologies de domaine (et les instances associes) en support des tags pour dfinir
ces significations [Passant, 2007c]. Dans un objectif de formaliser plus finement ces relations,
nous avons par la suite dfini MOAT105 Meaning Of A Tag [Passant et Laublet, 2008b]. Lobjectif de MOAT est ainsi de permettre la reprsentation formelle de ces diffrentes significations, aussi bien locale que globales, pour modliser des faits tels que "Dans le contexte de
cette photo, jutilise le tag apple reprsentant le concept identifi par dbpedia :Apple, i.e. le fruit
alors que pour ce billet de blog, jannote avec le mme tag apple mais cette fois-ci avec une signification associe dbpedia :Apple_Inc, i.e. lentreprise". Les ontologies et bases de connaissances
associes viennent donc ici en support des folksonomies, permettant de dfinir la smantique de chaque tag. En se rfrant aux notions de termes, notions et concepts proposes par
[Kassel et Perpette, 1999], MOAT permet donc le passage du terme (le tag apple) la notion
(la pomme en tant que fruit) et finalement au concept (identifi par une URI rfrante).
MOAT propose ainsi une ontologie OWL-DL106 et introduit une classe moat:Tag, sousclasse de tag:Tag. La raison de la dfinition de cette classe en complment de tag:Tag
est la prsence dans notre modle dune contrainte de cardinalit maximale de valeur 1 (via
owl:maxCardinality) sur la relation tag:name pour la classe Tag afin de rsoudre les
problmes que nous avons voqus auparavant au sujet de cette proprit (Section 3.3.1,
page 121). Concernant les reprsentations globales dun tag, nous reprsentons celles-ci
avec un classe ddie moat:Meaning, qui rifie la signification elle-mme en proposant un
lien moat:meaningURI vers une URI (la signification proprement dite, le lien tant unique)
ainsi quun ensemble de liens foaf:maker vers les utilisateurs layant dfini. Une proprit
moat:hasMeaning permet ensuite dtablir un lien entre une instance de moat:Tag et de
moat:Meaning afin de reprsenter ces diffrentes significations globales comme le montre
la figure (Figure 3.18, page 130) et le code RDF associ qui suivent (Listing 3.15, page 130). Ici
105
106

http://moat-project.org
Espace de noms http://moat-project.org/ns#, prfixe moat par la suite.

129

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
le tag apple est identifi par http://example.org/tag/apple puisque nous dfinissons
galement une URI pour le tag lui-mme, comme propos par la Tag Ontology sur laquelle
notre modle se base.
Signification 1
http://example.org/
meaning/apple/1

foaf:maker

http://apassant.net/
alex

moat:meaning

moat:hasMeaning

http://dbpedia.org/
resource/Apple_Inc.
http://example.org/
tag/apple

moat:meaning

moat:hasMeaning

http://example.org/
meaning/apple/2
foaf:maker

http://example.org/
alice

foaf:maker

http://dbpedia.org/
resource/Apple

http://example.org/
bob

Signification 2

Figure 3.18: Significations globales du tag apple avec MOAT

< http :// example . org / tag / apple > a moat : Tag ;
moat : hasMeaning < http :// example . org / meaning / apple /1 > ;
moat : hasMeaning < http :// example . org / meaning / apple /2 > .
< http :// example . org / meaning / apple /1 > a moat : Meaning ;
moat : meaningURI < http :// dbpedia . org / resource / Apple_Inc . > ;
foaf : maker < http :// apassant . net / alex / >
< http :// example . org / meaning / apple /2 > a moat : Meaning ;
moat : meaningURI < http :// dbpedia . org / resource / Apple > ;
foaf : maker < http :// example . org / alice > ;
foaf : maker < http :// example . org / bob > .

Listing 3.15: Significations globales du tag "apple" avec MOAT


La reprsentation de la signification locale dun tag se base quant elle sur lutilisation
de la classe tag:RestrictedTagging de la Tag Ontology. Il est en effet ncessaire pour
modliser cette signification locale de considrer les tags pris de manire individuelle et
en consquence de considrer autant dactions de tagging quil y a de tags afin dviter les
problmes de concordance qui peuvent arriver si lon reprsente au sein dune mme action
plusieurs tags et plusieurs significations. partir de cette classe, nous avons introduit une
130

3.3 MOAT pour lier tags et ontologies

proprit moat:tagMeaning qui permet de faire un lien au sein dune action de tagging
entre un tag et sa signification dans ce contexte comme lillustrent le code (Listing 3.16, page
131) et la figure qui suivent (Figure 3.19, page 131). Lontologie introduit galement une
contrainte de cardinalit maximale de valeur 1 sur la cette proprit tagMeaning.
< http :// example . org / post /1 > a sioc : Post ;
foaf : maker < http :// apassant . net / alex > ;
dct : title " Nouvel iPhone disponible " ;
moat : taggedWith < http :// dbpedia . org / resource / Apple_Inc . > .
< http :// example . org / tagging /1 > a tag : RestrictedTagging ;
tag : associatedTag < http :// example . org / tag / apple > ;
tag : taggedBy < http :// apassant . net / alex > ;
tag : taggedResource < http :// example . org / post /1 > ;
moat : tagMeaning < http :// dbpedia . org / resource / Apple_Inc . > .

Listing 3.16: Signification locale du tag "apple" avec MOAT

tag:RestrictedTagging

http://example.org/tag/
apple

rdf:type

tag:associatedTag

http://example.org/
tagging1
tag:taggedBy

Tag Ontology

tag:taggedResource

moat:tagMeaning
http://example.org/
post/1

foaf:maker
http://apassant.net/alex/

FOAF

moat:taggedWith

http://dbpedia.org/
resource/Apple_Inc.

dct:title
Nouvel iPhone
disponible

MOAT + DBpedia

rdf:type

sioct:BlogPost

SIOC + DC

Figure 3.19: Reprsentation de la signification locale du tag apple avec MOAT et DBpedia
Cet exemple laisse de plus apparatre lutilisation dune proprit moat:taggedWith.
Celle-ci permet dtablir un lien direct entre la ressource annote et le concept reprsentant
la signification du tag, sans pour autant passer par une reprsentation du modle quadripartite de laction de tagging. SIOC, SKOC ou encore la Tag Ontology proposent des proprits similaires avec respectivement sioc:topic, skos:subject (la prcdente tant une
131

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
sous-proprit de celle-ci) ou encore tag:taggedWithTag. Cependant, la smantique de
ces proprits indique quelles modlisent explicitement une relation vers le sujet associ au
contenu annot107 . Or, comme nous lavons explicit dans le premier chapitre de cette thse,
certains tags peuvent tre de lordre de mtadonnes administratives ou structurelles, le tag
ne refltant alors pas un sujet associ au contenu, mais par exemple une information sur la
source (e.g. un tag Flickr pour identifier une photo issue de ce site) (Section 1.2.3, page
39). De ce fait, en considrant comme propos par MOAT que des concepts vont tre utiliss en complment de ces tags, il est ncessaire de proposer une proprit qui va permettre
dtablir un lien direct entre ressource annote et concept sans pour autant considrer ce
concept comme sujet. La proprit moat:taggedWith a ainsi pour objectif de rpondre
cette problmatique. Notons galement quune simple rgle dinfrence permet de passer
dune relation quadripartite une relation directe entre ressource et concept utilisant cette
proprit, comme le montre le code qui suit (Listing 3.17, page 132).
{
iii a tag : RestrictedTagging ;
tag : taggedResource uuu ;
moat : tagMeaning vvv .
} => {
uuu moat : taggedWith vvv .
}

Listing 3.17: Rgle dinfrence pour MOAT, reprsente en N3


La figure suivante reprsente plus globalement le modle MOAT et la manire dont interagissent significations locales et globales108 (Figure 3.20, page 133) . Nous verrons dans
le chapitre suivant comment tirer bnfice de ce modle, puisquen plus de celui-ci, MOAT
propose galement une architecture collaborative et des outils permettant une communaut de franchir ce pas entre tagging et indexation smantique sans tre directement confront
au modle et aux annotations (Section 4.3, page 171).
Si nous avons essentiellement dfini un modle et un ensemble de services associs,
nous ne nous sommes pas directement intresss dans nos travaux lautomatisation du
processus. Cependant, ce modle peut venir en support de telles approches, comme celles
prsentes auparavant telles que [Specia et Motta, 2007] ou [Van Damme et al., 2007]. Cest
par exemple ce que propose [Abel, 2008] en ayant rcemment intgr MOAT lapplication GroupMe voque plus tt et en ayant automatis lapproche dindexation smantique.
Ainsi, si notre approche se situe dans le domaine des modles de reprsentation pour les
tags, elle peut tre utilise pour supporter et formaliser les processus de structuration des
systmes base de tags, permettant par exemple une interoprabilit entre diffrents algorithmes.
107
108

http://librarytechnz.natlib.govt.nz/2008/09/adding-tags-to-dc-metadata.htm
La proprit moat:taggedWith ntant pas reprsente pour considrer ici uniquement la reprsentation

quadripartite du modle.

132

3.3 MOAT pour lier tags et ontologies

moat:Tag

moat:hasMeaning
tags:associatedTag
Resource URI
moat:Meaning

moat:tagMeaning
moat:meaningURI

tags:RestrictedTagging

moat:Meaning

tags:taggedBy

foaf:maker

tags:taggedResource
foaf:Agent

foaf:Agent

Resource

Local meaning

Global meanings

Figure 3.20: Modle de reprsentation MOAT

Enfin, une autre spcificit de notre modle, notamment par rapport ce que proposent
la Tag Ontology, SCOT ou le modle thorique propos par [Jschke et al., 2008] (et mis en
place dans Bibsonomy) est de ne pas chercher organiser les tags entre eux pour pallier
leurs limites mais passer par les concepts associs aux tags pour arriver cet objectif.
Si la possibilit dorganiser hirarchiquement les tags permet de contextualiser les relations
et de conserver une notion de point de vue personnalise, la manire de ce que propose
[Zacklad, 2005] avec la notion dontologies smiotiques, notre proposition nous semble plus
pertinente pour plusieurs raisons :
tout dabord, il nous est apparu en consultant diffrents cas dusage de ces principes de
structuration de tags que de nombreuses relations ainsi dfinies sont assez gnrales
comme par exemple, le fait que le tag apple soit associ iphone ou macintosh ou
que france soit plus spcifique que europe. Or ces relations sont pour la plupart dj
reprsentes dans des bases de connaissances existantes, notamment issues du projet
Linking Open Data. Les relations des deux exemples prcdents se retrouvent ainsi respectivement dans DBpedia et Geonames. Dans les cas o de telles relations nexistent
pas, il nous semble galement plus pertinent denrichir une base de connaissances
existante plutt que de reprsenter celles-ci dans un systme clos, afin de permettre
une rusabilit de telles informations ;
de plus, alors que les relations taxonomiques classiques ne permettent pas de distinguer les diffrents liens qui peuvent exister entre tags (par exemple une notion de spcificit gographique ou le lien entre une marque et ses produits), notre approche permet de prendre en compte ces spcificits partir du moment o les relations existent
dans la base de connaissances associe et dans les ontologies sous-jacentes ;
en consquence, en ce qui concerne la recherche dinformation et la possibilit de dcouvrir des documents proches, de nombreuses possibilits soffrent lutilisateur.
133

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0
On passe en effet de lutilisation dun unique lien relationnel un parcours de graphe
multidimensionnel plus complet. On peut donc dcider de visualiser des lments
proches selon un critre ou un autre, par exemple en fonction des produits associs
une marque ou des diffrentes personnes affilies une organisation. Nous dlguons
alors la suggestion et lidentification de documents pertinents aux bases de connaissances associes. Se pose malgr tout le problme de la pertinence des diffrents liens,
notamment devant des bases de connaissances contenant des milliers dassertions, et
nous laborderons plus tard dans ce mmoire (Section 5.4.3, page 219).
Notons enfin malgr tout que, bien que cela ne soit pas lapproche que nous dfendons, notre modle nempche pas la dfinition de relations simples entre tags, notamment
puisque nous rutilisons la Tag Ontology et pouvons en consquence rutiliser les diffrentes
proprits quelle dfinit ce sujet.
3.3.4

Positionnement de MOAT par rapport ltat de lart

Pour finir ce descriptif de MOAT, nous allons ici tudier le positionnement du modle
propos par rapport aux diffrentes ontologies permettant la modlisation des systmes
base de tags tudies prcdemment (Section 3.3.1, page 121). En termes dvaluation, nous
dtaillerons galement dans le chapitre suivant diffrents chiffres relatifs lutilisation de
MOAT dans notre contexte afin dvaluer la pertinence de notre approche (Section 4.4, page
183).
Ontologie

Format
Tag

Gruber
Tag Ontology
SCOT
NAO
TagOnt
Echarte
SKOS Core
SIOC
Annotea
Taxonomy
rel-tag
MOAT
Tag Ontology
+ SCOT
+ SIOC
+ MOAT

N/A
OWL-Full
OWL-Full
RDFS
OWL
OWL-DL
OWL-Full
OWL-Lite
RDFS
RDFS
Microformat
OWL-DL
OWL-Full

Supporte la modlisation de
Tagging
Tagging
Agent Nuage
(simple) (tripartite)
de tags

Tableau 3.3: Situation de MOAT par rapport ltat de lart

134

Signifi-cation

3.3 MOAT pour lier tags et ontologies

la lecture du tableau prcdent (Tableau 3.3, page 134), on observe que lapproche
propose par MOAT est la seule permettant de prendre en compte la signification des tags.
Si certains modles permettent dorganiser ceux-ci (comme SKOS ou la Tag Ontology), ils
ne permettent pas dassocier ces tags des reprsentations formelles (identifies par leur
URI) comme nous le proposons. De plus, comme nous lavons vu, certains de ces modles
permettent dtablir directement des liens entre ressources annotes et reprsentations formelles mais ceux-ci ne prennent alors pas en compte la notion de tag associ. Ajoutons galement le fait que ce lien direct ne peut tre utilis pour des ressources dont le concept annotant nest pas considr comme sujet de la ressource. Lapproche propose par MOAT est
donc complmentaire avec les modles existants tout en permettant de prendre en compte
ce lien entre tag et signification et non pas uniquement entre ressource et signification du
tag.
Cette complmentarit permet ainsi MOAT, associe la Tag Ontology, SIOC et SCOT
de proposer un ensemble complet dontologies ddies la reprsentation des diffrentes
caractristiques des systmes base de tags sur le Web Smantique : actions de tagging (Tag
Ontology), utilisateurs (SIOC), nuages de tags (SCOT) et significations (MOAT). Par lintermdiaire de cet cosystme dontologies, de tels systmes peuvent tre considrs comme
des lments part entire du Web Smantique, toujours dans cette vision dune complmentarit globale entre Web 2.0 et Web Smantique.
C ONCLUSION
Nous avons prsent dans ce chapitre lensemble des ontologies utilises au sein de notre
mdiateur smantique et la manire dont elles interagissent pour former un modle complet de reprsentation pour les activits, les documents et les donnes manipules au sein
de communauts Web 2.0 en entreprise. Nous avons tout dabord prsent SIOC, modle
aujourdhui utilis dans de nombreux cas dutilisation relatifs cette complmentarit entre
Web 2.0 et Web Smantique et qui nous permet dans notre contexte de reprsenter uniformment les documents crs depuis diffrents outils, de manire autonome comme nous
allons le voir dans le chapitre suivant (Section 4.1, page 138). Nous avons ensuite prsent
un ensemble dontologies de domaine relativement lgres (pour la plupart reposant sur
des modles existants) qui permettent ainsi de modliser diffrentes assertions mtier au
sujet de certains domaines dexpertise abords par lentreprise. Enfin, nous avons prsent
MOAT, modle permettant de combiner ontologies, bases de connaissances formelles, tags
et folksonomies afin doffrir un moyen de rsoudre les problmes de ces dernires tout en
conservant leur souplesse. Nous avons galement vu que certains de ces modles dpassaient le cadre de lEntreprise 2.0 et pouvaient tre galement utiliss sur le Web.
Plus particulirement, nous retiendrons de ce chapitre la manire dont ces diffrents
modles se compltent pour offrir une vision complte et modulaire de diffrentes strates
de reprsentation des connaissances dans un contexte de communauts actives autour de
thmatiques particulires. Ces diffrents modles permettent ainsi de prendre en compte
aussi bien les interactions sociales que les contenus crs via ces interactions sociales, tout
en articulant ces diffrents niveaux de reprsentation via MOAT comme le montre la figure
qui suit (Figure 3.21, page 136).
135

C HAPITRE 3 : R LE ET DFINITION D UN ENSEMBLE D ONTOLOGIES POUR LE NTREPRISE


2.0

Ontologies mtier

MOAT

Ontologies socio-structurelles
RDFS / OWL

Figure 3.21: Articulation dontologies pour lEntreprise 2.0

Nous allons maintenant nous intresser aux outils et processus permettant le peuplement de ces diffrents modles.

136

Chapitre 4

Annotations smantiques et peuplement


collaboratif dontologies
I NTRODUCTION
Dans ce chapitre, nous allons nous intresser aux diffrents outils mis en place pour
exploiter les modles prcdents (Section 3, page 83) dans un objectif dannotations smantique et de peuplement collaboratif dontologies, aussi bien dans notre contexte dcosystme smantique pour lEntreprise 2.0 que sur le Web en gnral.
Tout dabord, nous prsenterons les solutions mises en place pour la production automatique dannotations socio-structurelles depuis les outils de blogs, wikis et les flux RSS
(Section 3.1, page 84). Ces annotations sont naturellement bases sur SIOC et les diffrents
vocabulaires associs (Section 4.1, page 138). Nous dtaillerons ici les outils dvelopps dans
le contexte de la plate-forme Herms mais aussi ceux destins usage plus large, notamment
une API ddie la production de donnes SIOC. Ces diffrents outils permettent ainsi la
production grande chelle de donnes reprsentes avec SIOC, favorisant son acceptation
sur le Web comme nous lavons vu prcdemment (Section 3.1.6, page 101).
Nous nous intresserons ensuite aux mthodes de peuplement dontologies mtier
laide doutils Web 2.0. Nous argumenterons tout dabord en quoi les outils habituels nous
semblent limits dans un contexte o linformation doit-tre constamment jour puis en
quoi les wikis smantiques nous semblent offrir une rponse adapte pour permettre un
peuplement dontologie collaboratif, ouvert et volutif. Un tat de lart nous permettra de
dresser un panorama (non exhaustif) des outils et approches actuels dans ce domaine (Section 4.2.1, page 148). Nous prsenterons ensuite un nouveau systme de wiki smantique,
UfoWiki (Section 4.2.2, page 154) et dtaillerons ses diffrents objectifs, ses principes ainsi
que son architecture logicielle. Nous verrons galement la manire dont celui-ci est utilis
dans notre contexte pour peupler les ontologies de domaine prsentes auparavant (Section
3.2, page 103). En guise dvaluation de loutil, nous comparerons ses caractristiques avec
les systmes existants et mettrons laccent sur la manire dont celui-ci a t pris en main
dans notre contexte.
Enfin, nous dtaillerons le processus et larchitecture logicielle associs MOAT (Section
3.3, page 119) mis en place pour permettre dassocier tagging et indexation smantique de la
manire la plus souple possible (Section 4.3, page 171). Nous verrons galement comment
celui-ci se couple avec la production automatique dannotations socio-structurelles dfinie
137

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
auparavant dans ce chapitre. Si nos efforts ne se sont pas concentrs sur une automatisation
de lapproche, nous avons mis en place un processus ouvert et collaboratif pour parvenir
cet objectif. Celui-ci combine ainsi principes du Web 2.0 et modlisation des donnes selon la vision du Web Smantique. Nous verrons galement en quoi ce processus permet de
manire plus large dintgrer des contenus Web 2.0 existants (produits depuis des services
populaires comme Delicious ou Flickr) au sein du Web Smantique avec loutil LODr (Section 4.3.2, page 179).
4.1
4.1.1

A NNOTATION SMANTIQUE DE DOCUMENTS W EB 2.0


Une approche automatise pour lannotation socio-structurelle

Comme prsent auparavant, notre premier objectif en termes dannotation smantique


est de fournir une reprsentation uniforme des mtadonnes socio-structurelles de chaque
contenu produit au sein de notre plate-forme, quelque soit loutil dorigine (Section 2.3.3,
page 73). Il peut donc sagir de flux RSS agrgs depuis lextrieur ou de billets de blogs et
pages wiki rdigs en interne. Ces annotations doivent permettre daccentuer linteroprabilit des diffrents outils en offrant un cadre commun de reprsentation pour les documents
crs au sein de notre cosystme.
Comme lont soulign [Karger et Quan, 2004] dans leur vision du semantic blogging, lexport dannotations smantiques depuis les outils de blog doit se faire sans intervention supplmentaire de lutilisateur. Si leur argumentaire sattache essentiellement aux blogs, nous
pensons que cela doit-tre le cas quelque soit le site ou le service utilis (blog, wiki, outil de
social networking ...), partir du moment o les donnes exporter sont dj disponibles
sous une forme ou une autre au sein du systme. Il est en effet inutile de demander aux utilisateurs dajouter eux-mmes ces annotations socio-structurelles (par exemple de dfinir la
valeur de dct:title pour un billet de blog auquel un titre est dj assign) puisquelles seront redondantes avec les donnes dj prsentes au sein du systme. De faon plus prcise,
ces donnes peuvent soit avoir t fournies directement par lutilisateur (titre dun billet,
tags associs un contenu, connections au sein dun rseau social ...) soit dfinies automatiquement par le service lui-mme (date de cration, URL du document ...). On les distinguera
ainsi selon les appellations de mtadonnes sociales et de mtadonnes computationnelles
(Figure 4.1, page 139).
La production de ce type dannotations est donc automatise partir doutils alignant les
formats internes (base de donnes, systme de fichiers, APIs...) avec un certain nombre dontologies utilises pour reprsenter ces donnes en RDF. Concernant celles-ci, les ontologies
prsentes au chapitre prcdent sont particulirement adaptes : SIOC, FOAF, DublinCore
... (Section 3.1, page 84) Cette automatisation, que nous allons dcrire par la suite, permet
dassocier chaque document son graphe dannotations correspondant sans intervention
supplmentaire de lutilisateur. Tout document est modlis de manire autonome en une
instance de sioc:Item (ou dune sous-classe) laquelle diffrentes proprits sont rattaches. Notons que nous utilisons sioc:Item en raison de notre contexte Web 2.0 mais que
nous pouvons simplement utiliser la classe foaf:Document si nous souhaitons modliser
des documents plus classiques (rapports de runion, dossiers dexpertise ...). Les conteneurs
138

4.1 Annotation smantique de documents Web 2.0

de donnes sont quant eux exports en tant quinstances de sioc:Container (ou dune
sous-classe). Les instances de sioc:Item associes sont rattaches au conteneur via la proprit sioc:has_container, le conteneur tant lui-mme rattach au site correspondant
(sioc:Site) via sioc:has_host. Lauteur du document est quant lui modlis en tant
quinstance de sioc:User, associ au document source via sioc:has_creator. La figure
qui suit exemplifie cette traduction pour un contenu particulier (Figure 4.1, page 139).
sioc:has_host

:site_1

:blog_1

sioc:Item
sioc:has_container
rdf:type

:item_1

dct:created

"2008-07-01"

dc:title
sioc:has_creator
meta-donnes
computationnelles
"Nouveau billet"

user_1

meta-donnes
sociales

Rdaction
Intervention
Utilisateur

Stockage

Exports ou
traduction

Donnes modlises en RDF


Automatisation

Figure 4.1: Processus gnrique de production de donnes RDF depuis des services Web 2.0
Nous allons maintenant dtailler diffrentes mthodes logicielles permettant la production automatique de ces annotations. Celles-ci sont utilises au sein de notre systme mais
galement de manire plus large sur le Web. Si nous prsentons dans cette partie une approche compltement automatise, nous verrons par la suite que la modlisation des contenus est plus complexe et ncessite gnralement une intervention supplmentaire (cest du
moins le choix que nous avons fait) (Section 4.2.1, page 148). Cest galement le cas pour le
passage du processus classique de tagging lindexation smantique (Section 4.3, page 171).
4.1.2

Implmentation au sein de la plate-forme Herms

Pour rappel, notre systme dinformation se compose de trois outils partir desquels
nous souhaitons modliser ces annotations socio-structurelles : un agrgateur de flux RSS,
un systme de blog et un serveur de wikis (Section 2.1.1, page 50). Lautomatisation des
exports va donc permettre partir de ces trois outils dobtenir un graphe unifi de donnes RDF comme nous lavons prsent dans un prcdent chapitre (Figure 2.11, page 75).
139

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Nous allons maintenant prsenter les diffrentes mthodes dexport associes chaque outil. Cette partie est volontairement technique, les principes de bases ayant t prsents dans
la section prcdente.
De RSS et Atom vers SIOC
Si RSS offre un premier modle pour linteroprabilit entre services Web 2.0, nous avons
montr en quoi il nous semblait trop limit et de quelle manire SIOC permettait de pallier
ces limites (Section 3.1.2, page 86). Un premier besoin est donc de traduire les donnes RSS
agrges au sein de notre systme en donnes RDF reprsentes avec SIOC. Pour ce faire,
nous avons envisag diffrentes solutions dans cette optique de production automatise de
donnes RDF (selon des vocabulaires particuliers) partir de flux RSS ou Atom1 .
Une premire solution est lutilisation de la clause SPARQL CONSTRUCT (Section 1.1.3,
page 25). Celle-ci permet la construction dun graphe RDF partir dun (ou plusieurs)
autre(s) graphe(s) RDF et dun patron de requte donn. On peut ainsi la voir, quoique beaucoup moins riche (pas dexpression conditionnelle par exemple), comme le XSLT [Clark, 1999]
du Web Smantique dans le sens o elle permet la transformation de graphes RDF l o
XSLT permet la transformation de documents XML. Lutilisation de cette clause est une
premire manire denvisager la transformation dun flux RSS 1.0 en graphe RDF utilisant
SIOC, dautant plus que lon peut simplement aligner RSS 1.0 et SIOC, par exemple en considrant rss:channel comme une sous-classe de sioc:Forum2 . On trouvera en annexe de
ce mmoire la requte associe cette transformation (Annexe B, page 235). Si lutilisation
de CONSTRUCT permet la traduction de flux RSS 1.0 vers SIOC, elle ne sapplique cependant qu cette version de RSS. Ses autres versions ne sont en effet pas bases sur RDF et ne
peuvent donc pas tre traites par un processeur de requtes SPARQL. Il est donc ncessaire
de passer par dautres mthodes pour la conversion de flux RSS non-1.0 et Atom.
Une seconde possibilit est lutilisation directe de XSLT pour la traduction de flux XML
(RSS et Atom) en donnes RDF. Cest dailleurs de cette manire que [Karger et Quan, 2004]
transforment les flux RSS de diffrentes versions en flux RSS 1.0 ou que GRDDL propose
communment dextraire des donnes RDF de documents XML ou XHTML [Gandon, 2007].
Si les diffrentes versions XML de RSS et Atom reposent sur des DTDs ou schmas XML
connus permettant lcriture de feuilles de styles appropries, la flexibilit de la srialisation
RDF/XML fait que la production dune feuille de style pour des flux RSS 1.0 est relativement complexe du fait du nombre de cas prendre en compte. En pratique cependant, la
plupart de ces flux suivent un modle standard ce qui permet dutiliser une unique feuille
de style. Une autre limite de cette approche est limpossibilit de grer des flux RSS 1.0 non
srialiss en XML. Cependant, cet aspect relativement thorique est galement nuancer
puisquil nous est apparu que le nombre de flux RSS 1.0 prsents en ligne et non disponibles
en RDF/XML est quasi-nul3 .
1

Notons quen pratique, nous avons systmatiquement choisi dans notre agrgateur dintgrer la version
RSS dun flux lorsque ces deux formats taient disponibles.
2
Notons que nous ne prenons pas ici en compte la notion dautorit dans la gestion dune hirarchie de
classes distribue, problme soulev par [Hogan et al., 2008].
3
Mis part quelques exemples, nous nen avons en fait pas trouv.

140

4.1 Annotation smantique de documents Web 2.0

Une dernire solution est lutilisation dune API permettant de manipuler des donnes
RSS ou Atom. Ce type dAPI permet gnralement la transformation de flux RSS en objets
(au sens Programmation Oriente Objet, POO par la suite) quil est possible de manipuler et
dexporter en RDF via des scripts ddis. Si cette solution est relativement simple mettre
en place, elle reste malgr tout nouveau limite des flux srialiss uniquement en XML
et selon un schma prdfini. Les problmes voqus plus tt (principalement thoriques
cependant) ne sont donc pas rsolus mais nous avons cependant opt pour cette solution
notamment par volont (1) de ne pas nous aventurer dans les transformations XSL et (2) de
re-utiliser une partie des dveloppements effectus autour de lagrgateur RSS originel (Section 2.1.2, page 53). Ainsi, nous avons utilis lAPI MagpieRSS4 , permettant de manipuler
des flux RSS avec PHP. Cest partir de cette API que nous avons implment lagrgateur
RSS utilis au sein de la plate-forme. Il a donc t possible dajouter simplement un processus de traduction vers SIOC en tant que plug-in de la plate-forme dorigine, toujours dans
cette ide de systme de mdiation au-dessus doutils existants. Notre script de conversion
est de ce fait assez lger (une trentaine de lignes de code), lessentiel tant gr par lagrgateur et lAPI en question. Nous verrons par la suite de quelle manire nous avons enrichi
cet export avec lajout dannotations destines lindexation smantique des contenus issus
de flux RSS (Section 5.3.2, page 212).
Quoi quil en soit, ces trois solutions, chacune avec leurs avantages et leurs limites, permettent de traduire des flux RSS en donnes RDF bases sur SIOC, comme lillustre la figure
qui suit (Figure 4.2, page 141).
sioc:has_host

:site_1

:feed_1

sioc:Item

SPARQL + CONSTRUCT
(RSS 1.0)

sioc:has_container
rdf:type

XSLT / XQuery
(RSS / Atom)

:item_1

dct:created

"2008-07-01"

dc:title
API Gnrique
(RSS / Atom)

"Nouveau billet"

Flux RSS / Atom

Transformations

Donnes modlises en RDF

Figure 4.2: Processus de traduction RSS / Atom vers SIOC


Ce processus de traduction nous permet en outre didentifier un rel besoin en termes
dunification des mondes RDF et XML. Des efforts rcents se sont concentrs sur cette pro4

http://magpierss.sourceforge.net/

141

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
blmatique comme par exemple :
une approche permettant de combiner transformations XSL et SPARQL, propose par
[Berrueta et al., 2008] ;
XSPARQL [Akhtar et al., 2008], qui propose une extension la fois de SPARQL et de
XQuery pour permettre des requtes combinant ces deux langages. Cette proposition
identifie par ailleurs un ensemble de cas dutilisation relatifs ces processus de traduction de donnes XML en RDF [Passant et al., 2009a] ;
les extensions spcifiques de certains moteurs SPARQL comme par exemple celles proposes par Corese qui permettent de combiner SPARQL, XSLT et Xquery5 .
Enfin, citons galement SPARQL++ [Polleres et al., 2007] qui vise proposer des mthodes
plus pousses de traduction de graphes RDF pour pallier certaines limites de CONSTRUCT
par rapport XSLT mais aussi, comme nous lavons dj voqu prcdemment, GRDDL
qui permet dextraire un ensemble dannotations RDF depuis nimporte quel document
XML (Section 1.1.1, page 12).
Annotations socio-structurelles avec SIOC depuis les blogs et les wikis
Contrairement la traduction de donnes RSS vers SIOC, pour laquelle les outils peuvent
bnficier dun format source semi-structur et standardis (malgr ses diffrentes versions),
la production dannotations socio-structurelles en RDF depuis des services Web 2.0 gnriques est plus complexe. En effet, chaque outil ou service dispose gnralement de sa
propre structure pour modliser ses donnes, quil sagisse dinformations documentaires
et structurelles (titre dun billet, appartenance dun document un wiki donn, etc.) ou
des comportements sociaux qui sy rapportent (commentaire, dition dune page, etc.). Les
structures de bases de donnes sont ainsi distinctes sous Drupal, Wordpress tout comme le
sont les APIs (aussi bien en termes de requtes que de structuration des rsultats) sous Flickr
ou Twitter. Si lutilisation de SIOC permet de rsoudre cette htrognit en proposant une
reprsentation standardise de telles informations, elle implique galement en premier lieu
le dveloppement dapplications spcifiques pour chaque outil et service. On peut certes
imaginer utiliser les flux RSS associs ces services pour reprsenter ces informations avec
SIOC comme nous lavons tudi prcdemment mais cet export restera alors limit aux
derniers contenus publis (Section 3.1.2, page 86).
Dans notre contexte, nous nous sommes plus particulirement intresss la production dannotations socio-structurelles depuis nos plates-formes de blogs et de wikis, cellesci tant abondamment utilises (Section 2.1.4, page 59) et comportant de ce fait un grand
nombre de documents quil nous semble important de reprsenter avec SIOC au sein dun
tel cosystme smantique. Bien que ces deux outils soient bass sur le systme Drupal6 ,
les structures de bases de donnes sous-jacentes restent distinctes. Ainsi, une seule table est
ncessaire au stockage des blogs et de leurs billets, alors que trois dentre elles sont utilises
pour les wikis. celles-ci vient galement sajouter une table partage pour la reprsentation des utilisateurs. Afin de passer de ces structures htrognes un modle commun
dannotations smantiques, nous avons particip au dveloppement dun plug-in gnrique
5
6

142

http://www-sop.inria.fr/edelweiss/software/corese/v2_4_1/manual/new.php
http://drupal.org

4.1 Annotation smantique de documents Web 2.0

permettant lexport de donnes SIOC depuis Drupal7 . Ce plug-in permet ainsi de reprsenter de manire compltement autonome le graphe dannotations socio-structurelles associ
chaque document cr via ce systme. Lexport se fait de plus en temps rel, i.e. chaque
document cr dispose immdiatement de son graphe RDF associ.
Afin de coller au plus prs de nos besoins, ce plug-in public a en outre t adapt en
fonction de certaines caractristiques spcifiques notre plate-forme :
dune part, le module wiki tant un module spcifique notre systme dinformation,
lexport de ses donnes nest pas gr par le plug-in public. Nous avons donc dfini
diffrents alignements entre les structures de bases de donnes relatives aux wikis et
les proprits et relations dfinies dans SIOC. Par exemple, la table de jointure entre
les wikis et leurs pages permet dtablir des liens sioc:has_container entre les
instances associes (respectivement de sioct:WikiArticle et sioct:Wiki)
dautre part, le plug-in public se contente de crer des instances de sioc:Item sans
spcifier un type plus prcis. Puisque nous souhaitons dans nos requtes pouvoir distinguer le type de contenu (Section 5.2.1, page 199), nous avons prcis celui-ci en
typant les contenus exports avec le module Types de SIOC (Section 3.1.3, page 92).
De ce fait, notre implmentation produit soit des instances de sioct:BlogPost soit
de sioct:WikiArticle, en fonction de loutil utilis et du type de document cr.
Contrairement aux flux RSS qui proviennent de lextrieur et pour lesquels nous ne reprsentons pas le crateur de chaque lment de flux, nous nous attachons ici fournir
une reprsentation RDF de celui-ci, la fois dun point de vue de son compte en ligne
(sioc:User) et de la personne physique associe (foaf:Person). chaque utilisateur de
la plate-forme sont donc associes deux URIs distinctes et un graphe dannotations RDF
associ, par exemple :
http://athena.der.edf.fr/?q=sioc/user/1#user, identifiant de lutilisateur en
tant quentit virtuelle ;
http://athena.der.edf.fr/?q=sioc/user/1#person, identifiant de la personne
physique correspondante ;
http://athena.der.edf.fr/?q=sioc/user/1 fichier RDF associ listant certaines
proprits associes ces deux identifiants (nom, e-mail, URL du blog ...).
Ce plug-in permet ainsi dobtenir automatiquement, pour chaque contenu de blog ou de
wiki, un graphe dannotations RDF associ comme le montre la figure qui suit (Figure 4.3,
page 144). De manire plus prcise, la figure qui suit reprsente la traduction dun billet de
blog donn en instance de sioct:BlogPost grce ce plug-in (Figure 4.4, page 144).
4.1.3

API SIOC et passage lchelle de lannotation socio-structurelle de documents


Web 2.0

Comme nous lavons vu dans la section prcdente, la production dannotations sociostructurelles depuis des services Web 2.0 implique le dveloppement de plug-ins ou outils
spcifiques depuis ces diffrents services. Pour faciliter ces dveloppements et dans loptique de gnraliser la production de telles annotations lchelle du Web, nous avons ainsi
mis en place une API ddie la production de donnes RDF reprsentes avec SIOC.
7

http://drupal.org/project/sioc

143

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES

:site_1

:container_1

sioc:has_host

sioc:has_container

sioc:Item

rdf:type
Wikis

:item_1
dct:created
Objects PHP
(API Drupal)
traduits en donnes SIOC

"2008-07-01"

sioc:has_creator
dc:title

:u_1
foaf:maker

Utilisateurs

"Nouveau billet"

:p_1

Blogs

Base de donnes
distinctes

Module SIOC pour Drupal

Donnes modlises en RDF

Figure 4.3: Processus de traduction des donnes de blogs et wikis vers SIOC

Figure 4.4: Exemple de traduction dun billet de blog vers SIOC

144

4.1 Annotation smantique de documents Web 2.0

Par nature, la programmation ddie au Web Smantique est gnralement oriente triplets. Des APIs comme Jena8 , Redland9 ou RAP10 proposent ainsi par dfaut de dfinir un
modle (ou graphe) RDF auquel on ajoute un certain nombre de triplets. Le code ci-dessous
montre par exemple lutilisation de Jena pour crer une instance de sioc:Post associe
diverses proprits et relations (Listing 4.1, page 145).
String postURL = " http :// example . org / blogpost ";
String siocPost = " http :// rdfs . org / sioc / ns # Post ";
String dcCreator = " http :// purl . org / dc / terms / creator ";
String rdfType = " http :// www . w3 . org /1999/02/22 - rdf - syntax - ns #
type ";
Model model = ModelFactory . createDefaultModel () ;
Resource myBlogPost = model . createResource ( postURL ) ;
myBlogPost . addProperty ( rdfType , siocPost ) ;
myBlogPost . addProperty ( dcCreator , " Alexandre Passant ") ;

Listing 4.1: Utilisation de Jena pour reprsenter des donnes RDF


Mme si cette approche est assez intuitive lorsque lon est habitu aux reprsentations
du Web Smantique, puisque lon construit un graphe en instanciant des ressources (dfinies par des URIs) et en leur assignant diverses proprits et relations, elle est peu naturelle
pour les dveloppeurs adeptes des principes de POO. Tout comme nous pensons que le
succs du Web Smantique passera par des interfaces simples en termes de publication et
de visualisation de donnes RDF, tel que nous le rappelons rgulirement au sein de ce
mmoire, nous estimons quil en sera de mme pour ladoption de celui-ci par les dveloppeurs. Dans cet objectif, nous avons donc dvelopp une API PHP proposant une interface
oriente-objet pour la production de graphes dannotations RDF bass sur SIOC11 . Notre
API dfinit ainsi un ensemble de classes PHP (ainsi que diffrentes fonctions associes) alignes avec le noyau de SIOC (Section 3.1.3, page 89). Par exemple, la classe (PHP) SIOCSite
permet de crer une instance (RDF) de sioc:Site et ses mthodes permettent dajouter les
utilisateurs (sioc:User) et forums (sioc:Forum) associs. Un extrait du code de cette API
se trouve en annexe de ce mmoire (Annexe 4.1.3, page 143).
LAPI dispose galement dune classe SIOCExporter qui permet la gnration du graphe
RDF associ. Celle-ci dispose de deux mthodes distinctes :
une premire (createRDF) permettant simplement de gnrer le graphe RDF srialis
en RDF/XML, qui peut alors tre sauvegard au sein dun fichier ;
une seconde (output) ddie lutilisation de lAPI sur le Web et permettant dafficher
le graphe en se chargeant de dfinir le type de contenu appropri au niveau du serveur
Web, i.e. application/rdf+xml12 .
8

http://jena.sf.net
http://librdf.org
10
http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/
11
http://wiki.sioc-project.org/index.php/PHPExportAPI
12
http://www.ietf.org/rfc/rfc3870.txt
9

145

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Outre les facilits offertes au dveloppeur pour la production de graphes dannotations,
cette API permet de sassurer que les donnes produites sont conformes lontologie et aux
bonnes pratiques associes (Section 3.1.4, page 93). De plus, en cas dvolution de SIOC,
une simple mise jour de lAPI est ncessaire pour adapter les contenus produits la nouvelle version de lontologie. Cette API permet donc aux dveloppeurs de se soucier ni de
lontologie en elle-mme, ni des principes de modlisation RDF.
Parmi les autres fonctionnalits que propose cette API, signalons la production automatique de liens rdfs:seeAlso entre contenus exports au sein dun mme site (documents, utilisateurs, conteneurs), suivant ainsi les bonnes pratiques de publication de donnes interconnectes sur le Web Smantique [Bizer et al., 2007b]. Par exemple, pour un billet
comportant un commentaire, en plus dexporter des relations entre le billet et (1) son commentaire (sioc:has_reply), (2) son conteneur (sioc:has_container) et (3) son crateur (sioc:has_creator), diffrents liens rdfs:seeAlso seront produits vers les graphes
dannotations RDF correspondants. Ceci permet des navigateurs RDF comme Tabulator13
[Berners-Lee et al., 2006] de profiter de ces liens pour dcouvrir de nouvelles donnes au
sujet de ces diffrentes instances mais surtout aux approches de crawling de dcouvrir un
rseau complet de donnes partir dun unique document [Harth et al., 2006]. En effet, la
prsence de ces liens au sein des graphes crs par lAPI permet partir de nimporte quel
point dentre de remonter jusqu linstance de sioc:Site et partir de l de retrouver
lensemble des donnes exportes depuis un site donn (Figure 4.5, page 146).

Personne A

Billet A2
...

Commentaire

Billet A1

Utilisateur A

Billet An

Blog B
Blog A

Site

...

Blog n

Figure 4.5: Reprsentation de liens rdfs :seeAlso entre documents RDF avec lAPI SIOC
Si lAPI peut-tre utilise partir de donnes brutes, une utilisation plus judicieuse est
de la coupler avec lAPI fournie par le service que lon souhaite exporter. Dans ce contexte,
on utilise (1) lAPI du service pour transformer les donnes source en objets PHP puis (2)
13

146

http://www.w3.org/2005/ajar/tab

4.1 Annotation smantique de documents Web 2.0

lAPI SIOC pour transformer ces objets PHP en donnes RDF. On profite ainsi dune double
couche dabstraction qui permet au dveloppeur de se soucier ni des formats internes, ni du
modle RDF souhait en sortie. Cest cette solution qui a t privilgie au sein de lexporteur SIOC vBulletin14 (outil pour la mise en place de forums de discussions) ou encore pour
mettre en place le service dexport de donnes FOAF et SIOC depuis Flickr que nous avons
dvlopp [Passant, 2008b].
Cette API est aujourdhui utilise dans diffrentes applications, quil sagisse dexporteurs et plug-ins pour des services existants (VBulletin, Flickr, MediaWiki ...) ou dapplications spcifiques comme SMOB [Passant et al., 2008]. Cette dernire application bnficie
ainsi de lAPI pour proposer un systme de microblogging ouvert et dcentralis, et qui plus
est reprsentant lensemble des donnes produites avec SIOC. permettant ainsi leur intgration au sein de la SIOC-o-sphre. Notons galement que suite la mise disposition de cette
API, dautres APIs SIOC ont t proposes par la communaut, notamment en Java15 et en
Perl16 , avec des principes similaires. Ces diffrentes APIs poursuivant toutes le mme but
nous permettent ainsi denvisager une multitude de nouveaux services produisant des donnes reprsentes avec SIOC, accentuant encore plus sa prsence sur le Web (Section 3.1.6,
page 101).
Pour conclure, signalons que lAPI que nous proposons ici a t dveloppe pour les
besoins prcis de SIOC et nest donc pas aussi flexible que les APIs permettant de gnraliser la dfinition de classes (au sens POO) partir de tout modle RDFS ou OWL. ce
sujet, citons ActiveRDF [Oren et al., 2007] (Ruby On Rails), le module schemagen17 de Jena
(Java) ou encore RAP18 (PHP). Ces solutions, plus gnriques, sont cependant plus lourdes
et nous avons prfr pour cette API SIOC proposer un module indpendant et lger (un
seul fichier), plutt que de se baser sur une API plus complexe dont la gnricit naurait
pas t utile dans notre contexte. Dans le cas dune API oriente lecture, la dmarche est
diffrente puisquil est ncessaire dinterprter le graphe RDF, tape qui savre plus complexe. Le module dimport SIOC pour WordPress19 utilise par exemple RAP, tout comme
PHOAF20 , API que nous avons dveloppe pour permettre de manipuler simplement des
fichiers FOAF via des mthodes de POO. Cette dernire est notamment utilise dans FOAFMap21 [Passant, 2006], un des premiers services de mash-up smantique, permettant de visualiser un rseau social modlis avec FOAF sur une carte GoogleMap et de naviguer au
sein des diffrents profils ainsi reprsents mais aussi didentifier des personnes partageant
des centres dintrts similaires (Figure 4.6, page 148).
14

http://www.vbulletin.com/
http://mavenrepo.fzi.de/semweb4j.org/site/sioc-api/index.html
16
http://search.cpan.org/~geewiz/SIOC-v1.0.0/
17
http://jena.sourceforge.net/how-to/schemagen.html
18
http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/
19
http://wiki.sioc-project.org/w/SIOC_Import_plug-in
20
https://gna.org/projects/phoaf
21
http://foafmap.net
15

147

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES

Figure 4.6: Cartographie de rseaux sociaux avec FOAFMap

4.2

U FO W IKI POUR LE PEUPLEMENT D ONTOLOGIES MTIER

4.2.1

Wikis smantiques et peuplement dontologies : intrt et tat de lart

Un autre aspect important prendre en compte dans notre contexte est celui du peuplement dontologies, dans cet objectif de reprsentation interprtable de donnes mtier
(Section 3.2, page 103). Bien que ce processus puisse dans certains cas tre assist ou semiautomatis via lanalyse de corpus de textes [Kiryakov et al., 2004] [Amardeilh et al., 2005],
il peut aussi se baser sur une approche manuelle de production dannotations confie une
quipe ddie. Celle-ci est gnralement restreinte et peut tre compose aussi bien dexperts du domaine que de spcialistes en ingnierie des connaissances. Si cette collaboration
permet de sassurer de la qualit des donnes produites, la fois en termes de valeur intellectuelle (via lexpert du domaine) et de qualit smantique (via les spcialistes en ingnierie
des connaissances), elle rend dlicat le maintien et lvolution de bases de connaissances
flux tendu. Ce maintien seffectuant en effet en vase clos, via une quipe restreinte et prdfinie, il implique limpossibilit pour des contributeurs externes de faire profiter lquipe de
leur expertise, partir du moment o ils ne font pas partie du groupe destin maintenir
ces bases de connaissances. Un autre point prendre en compte est celui du transfert de
connaissances, notamment lorsque le ou les experts du domaine quittent lentreprise. Dune
part, ce processus peut tre relativement long selon les domaines et dautre part, certains
corps de mtier peuvent ne plus exister, rendant ce transfert encore plus dlicat. De plus, signalons que les outils associs (Protg22 par exemple) sont en gnral destins un public
avanc, ne serait-ce quen termes dinterface utilisateur.
On peut ici faire un parallle avec ce que nous avons prsent prcdemment dans ce
mmoire, savoir lavantage des outils Web 2.0 en entreprise (et des pratiques lies) par
rapport des structures informationnelles classiques (quipe restreinte, workflow ...) (Section
2.1.1, page 50). Si ceux-ci permettent une volution ouverte et spontane de linformation,
22

148

http://protege.stanford.edu

4.2 UfoWiki pour le peuplement dontologies mtier

il nous a paru intressant de rflchir des principes similaires pour une ingnierie des
connaissances collaborative et ouverte. En consquence, dans ce contexte dEntreprise 2.0,
nous avons tudi le rapprochement entre ces processus Web 2.0 et les principes de peuplement dontologies. Cest au travers des wikis smantiques et plus particulirement au sein
dun nouvel outil de ce type, UfoWiki (Section 4.2.2, page 154), que nous avons tudi et mis
en place cette convergence.
Tout comme le Web Smantique est une extension du Web, les wikis smantiques sont
une extension des wikis permettant dajouter ceux-ci des mthodes de reprsentation formelle des connaissances. Ces reprsentations peuvent se concentrer selon les outils sur la
structure ou sur le contenu des pages et conservent dans tous les cas les principes dutilisation des wikis (Section 1.2.2, page 36). Alors que nous avons insist dans la section prcdente sur les annotations socio-structurelles (Section 4.1, page 138), nous allons ici considrer principalement les wikis permettant la modlisation du contenu des pages, i.e. la formalisation de connaissances mtier. Ceux-ci permettent ainsi dtablir un pont entre le Web de
documents et le Web de Donnes (Section 1.1.4, page 27), comme lillustre nouveau la figure
ci-aprs (Figure 4.7, page 149). Le wiki devient ainsi le support dun ensemble de donnes
connectes via diffrents graphes dannotations, permettant terme lenrichissement des
fonctionnalits offertes. Nous voyons donc les wikis smantiques comme des interfaces permettant, du fait de leur philosophie (ouverture, collaboration ...) le peuplement dontologies
par et pour tous [Passant et Laublet, 2008e].

hyperlien

Entreprise

est une

EDF

France

Documents

EDF

Ontologies et
instances

produit

Pays

situ en
Energie

est un

hyperlien

Energie
France

Wiki classique

Wiki smantique

Figure 4.7: Du wiki au Web Smantique


Depuis le premier workshop consacr aux wikis smantiques [Vlkel et Schaffert, 2006],
de nombreux prototypes suivant cette approche de gestion de base(s) de connaissance(s)
ont vu le jour. Nous allons ici prsenter ceux qui nous semblent les plus pertinents par
rapport ltat de lart du domaine. Celui-ci nest pas exhaustif et nous invitons le lecteur
souhaitant approfondir le sujet parcourir les actes de la srie SemWiki23 ou consulter
[Buffa et al., 2008] qui dresse galement un tat de lart assez complet sur le sujet. Rappelons
23

http://semwiki.org

149

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
nouveau que nous nous concentrons ici sur lutilisation de wikis pour le peuplement dontologies de domaine et que nous ne considrons pas des prototypes orients mtadonnes
socio-structurelles, comme par exemple SweetWiki [Buffa et al., 2008] que nous voquerons
dans la partie de ce chapitre consacr au tagging (Section 4.3.2, page 177). Nous mettons galement de ct les approches permettant lextraction dontologies ou de bases de connaissances partir de wikis existants, comme par exemple DBpedia [Auer et al., 2007] ou les
nombreux travaux autour de lutilisation de Wikipedia en tant que base de connaissances
formelle24 [Nakayama, 2008] [Wu et Weld, 2008].
Platypus
Platypus25 [Tazzoli et al., 2004] est certainement le premier prototype de wiki smantique
recens. Il permet lannotation smantique au travers de formulaires prdicat / objet associs
chaque page (mais distincts de la zone ddition principale), un certain nombre dontologies
prdfinies (FOAF, DOAP, DublinCore...) permettant le choix du prdicat. Il est galement
possible dinsrer directement des annotations RDF/XML ou Turtle au sein des documents.
Il ny a malheureusement pas de distinction entre le document et le concept associ, le sujet
de chaque assertion tant lURL de la page wiki, alors que les formulaires peuvent laisser
penser le contraire (par exemple en proposant le prdicat foaf:knows, dont le domaine
est foaf:Agent, disjoint de la notion de document, i.e. foaf:Document). Ce manque de
distinction (que nous avons introduit en introduction de ce mmoire (Section 1.1.2, page
16)) peut conduire des inconsistances, notamment si un utilisateur cre une annotation en
considrant la page comme sujet alors quun autre annote en considrant le concept.
En termes de valeur ajoute, les annotations sont utilises pour enrichir linterface de
visualisation du wiki. Platypus permet ainsi lutilisateur de naviguer entre pages via ces
annotations en complment de la navigation hypertexte classique. Par exemple, il est possible de passer dune page une autre lorsque celles-ci (ou les concepts sous-jacents) sont
lies par une proprit quelconque via les annotations.
SemPerWiki
SemPerWiki26 Semantic Personal Wiki [Oren, 2005] est un wiki personnel qui sutilise
sur le poste de travail, dans la mouvance des outils du Semantic Desktop. Il se rapproche
plus du bloc-notes personnel avec un mode ddition wiki que dun vritable wiki dans
la mesure o laspect participatif nentre pas en jeu. Les annotations doivent tre saisies
directement par lutilisateur en RDF (syntaxe Turtle) au sein de la page, sans assistance malgr certains prfixes prdfinis. Ceci destine loutil principalement des utilisateurs avancs. Tout comme Platypus, le sujet des annotations est par dfaut lURL de la page, posant
les mmes problmes que prcdemment. Il est cependant possible dexpliciter le sujet de
chaque triplet ce qui permet de modliser au sein dune page wiki des informations propos
de nimporte quel concept.
Les annotations produites sont galement utilises pour enrichir la navigation. SemperWiki propose galement un systme de requte au sein mme des pages, sous la forme de
24
25

A ce sujet, on peut consulter le projet Wikipedia Lab - http://wikipedia-lab.org/

http://platypuswiki.sourceforge.net/
26
http://www.eyaloren.org/semperwiki.html

150

4.2 UfoWiki pour le peuplement dontologies mtier

triplets o le concept recherch est remplac par un ?. Par exemple la requte identifie par
? rdf:type foaf:Organisation listera lensemble des organisations recenses dans le
wiki.
Semantic MediaWiki
Semantic MediaWiki27 (SMW par la suite) [Krtzsch et al., 2006] est une extension du
moteur MediaWiki28 , utilis entre autres par Wikipedia. Son mode dannotation ne se base
pas sur lcriture directe de triplets mais sur une extension de la syntaxe wiki, facilitant
la tche dappropriation. Par exemple, pour indiquer quEDF est situ en France, on saisira EDF est implante en [[se_situe_en::France]], texte qui sera traduit en lassertion onto:EDF onto:se_situe_en onto:France partir du moment o ce texte est
saisi sur une page relative EDF, le sujet de chaque triplet tant par dfaut le concept associ la page en cours. SMW distingue donc document et concept, en dfinissant une URI
pour chaque concept, diffrente de lURL de la dite page29 . Lutilisation dun systme dannotations totalement ouvert, conforme avec la philosophie wiki, permet de considrer SMW
comme un wiki smantique ddi non seulement au peuplement dontologies, mais aussi au
maintien des modles associs (voire leur dfinition). Cependant, cette ouverture conduit
rapidement des problmes dhtrognit smantique. Alors quun utilisateur choisira la
syntaxe se_situe_en pour modliser une relation de localisation, un second pourra prfrer est_localis_en. Les annotations produites seront donc totalement indpendantes,
leur intrt se trouvant restreint puisque sans smantique commune. Le mme problme se
pose pour la gestion des classes, celles-ci tant dtermines partir des catgories assignes
aux pages. Notons cependant que SMW offre la possibilit daligner certaines relations et
catgories avec des ontologies existantes et que les modles crs partir du wiki sont exports en OWL-DL et donc rutilisables dans dautres applications.
Pour tirer parti des annotations, SMW propose diffrents modes de navigation avancs. Cest notamment le cas des pages Property listant lensemble des triplets utilisant une
proprit particulire30 ou des pages Special:Browse listant lensemble des assertions relatives un concept31 . Mais surtout, SMW offre un systme de requtes avances, modlises avec une syntaxe wiki particulire et permettant linclusion de rponses des requtes
complexes au sein mme des pages wiki. Il est par exemple possible de lister lensemble
des vnements recenss au sein dun wiki, comme le montre le code suivant utilis pour
crer un tableau des vnements venir, ordonns par date et indiquant galement leur
emplacement gographique32 (Listing 4.2, page 152).
27
28

http://semantic-mediawiki.org/
http://mediawiki.org

29

Les premires versions de loutil ne faisaient cependant pas cette distinction.


e.g. http://semanticweb.org/wiki/Property:Swoogle_hits
31
e.g. http://semanticweb.org/wiki/Special:Browse/SIOC
32
Code source issu de http://semanticweb.org/wiki/Events.
30

151

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
{{# ask :[[ Category : Event ]] [[ end date :: >{{ CURRENTYEAR }} -{{
CURRENTMONTH }} -{{ CURRENTDAY }}]] |
? title = Name |
? has location city = City |
? has location country = Country |
? Start date |
? End date |
? Category : Conference = C |
? Category : Workshop = W |
format = table | limit =50| sort = end date
}}

Listing 4.2: Requte interne au sein de MediaWiki

IkeWiki
IkeWiki33 [Schaffert, 2006] se base quant lui sur des ontologies prdfinies, permettant
de sassurer de la qualit smantique des annotations produites. Lutilisateur est assist au
moment de la pose de liens entre pages : un certain nombre de prdicats lui sont proposs,
qui sont ensuite traduits en relations entre les concepts associs ces pages. De plus, chaque
page peut tre associe une classe via un parcours de lontologie (ou plutt de la taxonomie
des classes), le concept associ la page tant alors dfini comme instance de la classe en
question. IkeWiki utilise galement les annotations produites pour laide la navigation,
notamment en affichant pour chaque page la hirarchie de classes associes. Loutil bnficie
galement de capacits dinfrence, en grant les notions de sous-classes et sous-proprits
pour laide la navigation et permet lutilisation de requtes SPARQL pour interroger la
base de connaissance.
Notons galement quIkeWiki modlise galement un certain nombre dannotations sociostructurelles laide dun vocabulaire propre et propose en plus une modlisation des discussions associes aux pages wikis, en utilisant SIOC34 . Cest notre connaissance le seul
outil modliser ses pages de discussions en RDF. Ceci nous semble particulirement intressant dans la mesure o lon peut ainsi identifier la communaut qui stablit autour dun
concept donn. Sil sagit pour linstant dun simple export, il y a selon nous un fort intrt
considrer une approche plus pousse permettant de modliser le discours argumentatif
associ.
OntoWiki
Bas sur Powl35 [Auer, 2005], diteur dontologies en ligne, OntoWiki [Auer et al., 2006]
est la frontire entre le wiki smantique et lditeur classique dontologies et de bases de
connaissances. En effet, OntoWiki nutilise pas strictement parler de pages wikis comme
dans les outils prcdents mais propose un systme de vues virtuelles tablies au dessus
33

http://ikewiki.salzburgresearch.at/
http://tinyurl.com/6n2dg2
35
http://ontowiki.net/Projects/Powl
34

152

4.2 UfoWiki pour le peuplement dontologies mtier

dune ou plusieurs bases de connaissances. Chaque graphe ou triplet est ainsi reprsent
via un fragment de page dynamique qui lui sert la fois dinterface de visualisation et
ddition. Ceci permet doffrir diffrents niveaux de reprsentation et de granularit pour
une navigation trs souple. Par exemple, il est possible dobtenir une page listant lensemble
des instances dune classe donne, une seconde relative lensemble des proprits (et leurs
valeurs) dune instance particulire, ou bien encore une autre indiquant tous les triplets
de la base de connaissance utilisant une certaine proprit. Lutilisateur est l aussi assist
lors de ldition et la cration de nouvelles assertions, avec notamment un systme dautocompltion suggrant les instances possibles pour chaque proprit. Tout comme SMW,
OntoWiki permet de faire voluer le modle dynamiquement mais utilise une approche
plus formelle : chaque nouvelle proprit doit ainsi tre dfinie comme ObjectProperty
ou DataTypeproperty.
Les annotations produites sont utilises dune part pour produire les diffrentes vues et
ainsi proposer une navigation directement lie lontologie, mais aussi pour offrir lutilisateur un moteur de recherche enrichi de fonctionnalits smantiques. Ainsi, la recherche
plein-texte est couple aux connaissances acquises, permettant lutilisateur de spcifier
quelle classe, instance ou proprit il veut restreindre celle-ci. De plus, un systme de vue
avanc permet de visualiser les annotations sous diffrentes formes : vue calendaire pour
les donnes proposant des attributs temporels, golocalisation pour celles associes des
coordonnes, etc. Une autre originalit dOntoWiki rside dans ses aspects pousss de collaboration et de participation. Chaque modification quelque soit sa nature est trace selon
les principes de rification RDF, permettant didentifier lauteur ou la date de cration de
chaque assertion. Il est en outre possible de commenter et annoter chaque triplet, ceci dans
une optique dlaboration de rseaux sociaux autour de la construction de ressources ontologiques.
Malgr cette composante, OntoWiki reste plus proche comme nous lavons dj mentionn de lditeur dontologies en ligne que du wiki smantique tel que nous le concevons, i.e. un outil offrant une certaine modularit entre le wiki plein-texte et lannotation
smantique et reposant sur des ontologies, prdfinies ou volutives.
AceWiki
Le systme AceWiki36 [Kuhn, 2008] est assez original dans sa dmarche, puisque son approche dannotations repose sur lutilisation du modle de langue naturelle contrle propos par ACE Attempto Controlled English [Fuchs et al., 2000]. Ainsi, la saisie de chaque
page wiki est assiste (ou contrainte, selon le point de vue) pour produire un contenu directement interprtable par le moteur wiki et par extension traduit en annotations RDF
grce un processus dalignement entre ACE et RDF(S)/OWL. Tout comme SMW ou Ontowiki, AceWiki permet de faire voluer le modle utilis. Par exemple, une phrase comme
Country is a Class induira la cration dune nouvelle classe Country, permettant ensuite lutilisation de France is a Country, immdiatement traduit en lannotation RDF
correspondante.
36

http://attempto.ifi.uzh.ch/acewiki/

153

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Laspect qui nous semble le plus intressant dans AceWiki est lutilisation de possibilits
avances de raisonnement, via lintgration du raisonneur Pellet [Sirin et al., 2007]. Toujours
en utilisant ACE, les utilisateurs ont la possibilit de dfinir des contraintes de classes
par exemple Every country has at least 1 city qui seront ensuite modlises en
OWL et utilises pour valider la consistance du modle lors de lajout de nouvelles annotations. Si des faits non conformes aux contraintes sont ajouts, ceux-ci seront immdiatement notifis leur auteur. On peut ici reprocher un manque de traabilit dans le raisonnement, puisque cest toujours (dans la version actuelle) le dernier fait ajout qui est considr comme faux si une incohrence est dtecte, sans que lon puisse visualiser les autres
faits qui ont conduit cette conclusion37 . Un systme de discussion associ chaque fait
non consistant serait une option intressante, permettant dintroduire un aspect collaboratif
dans la rsolution de conflits.
Sil sagit dun prototype original, il est selon nous considrer principalement si lon
souhaite bnficier de possibilits avances de raisonnement, lutilisation dACE limitant
les cadres dutilisation de loutil (ne serait-ce que pour des wikis non anglophones).
4.2.2

Objectifs, principes et architecture dUfoWiki

En considrant ltat de lart prcdent et lensemble des critres que nous avons pris
en compte, nous avons dcid dimplmenter UfoWiki38 Unifying Forms and Ontologies in
a Wiki [Passant et Laublet, 2008a] [Passant et Laublet, 2008d] nouvel outil de wiki smantique. Celui-ci est une extension de la plate-forme dveloppe initialement au sein dHerms
(Section 2.1.2, page 55). Ainsi, plus quun simple outil de wiki, il sagit dun serveur de wiki,
i.e. une application permettant chaque utilisateur dinstancier un nouveau wiki smantique pour sa communaut. Se baser sur le service existant nous permet de bnficier des
dveloppements relatifs la partie wiki classique de loutil (rtro-liens, historique des versions, etc.) mais surtout de ne pas troubler les utilisateurs en les confrontant un nouvel
outil39 . Si loutil nest pas public, nous esprons que les ides dfendues ici pourront tre
par la suite implmentes dans des outils comme ceux prsents dans la section prcdente.
UfoWiki repose sur les principes suivants :
Une reprsentation des connaissances base sur des ontologies prdfinies. Le fait de reposer
sur des ontologies connues nous permet de nous assurer que les annotations produites
sont conformes des modles pralablement identifis. Ceci nous semble essentiel
dans un contexte dentreprise afin dviter les problmes dhtrognit smantique
et facilite de plus lcriture de requtes relatives aux annotations produites (Section
5.2.1, page 199). Bien que lon puisse supposer quun modle cohrent merge de lutilisation dun wiki smantique au modle ouvert (tel que Semantic MediaWiki), comme
cest le cas pour les systmes base de tags, nous ne pouvons nous permettre dans
un contexte industriel dattendre cette masse critique qui permettra (ventuellement)
37

Il sagit ici dun choix guid par une optimisation en termes de performance qui consiste ne pas recalculer
lensemble de la base de connaissance chaque nouveau fait saisi.
38
39

http://ufowiki.org

Cest galement une des raisons qui nous a pouss implmenter UfoWiki plutt que denrichir une plateforme existante parmi celles prsentes auparavant.

154

4.2 UfoWiki pour le peuplement dontologies mtier

40

lmergence dune smantique commune. UfoWiki est donc capable, ds sa mise en


place, de produire des annotations reposant sur des modles ontologiques prdfinis ;
Une interface utilisateur simplifie pour le peuplement dontologies. Si nous souhaitons que
les annotations mtier soient conformes un ensemble dontologies, notre volont est
galement de simplifier leur processus de cration, en se basant sur des interfaces ne
reposant sur aucun prrequis technique. Ainsi, nous avons fait le choix dune interface
combinant page wiki plein-texte et formulaires destins lannotation. Si lon peut argumenter que cette restriction (tout comme le choix dontologies prdfinies et figes
pour lutilisateur final) va lencontre des principes de la philosophie wiki, gardons
lesprit le contexte dentreprise dans lequel se situe notre approche et limpratif de
qualit smantique des annotations que nous visons ;
Une reprsentation couple des annotations socio-structurelles et mtier. Si notre objectif
principal avec UfoWiki est le peuplement dontologies, nous souhaitons galement reprsenter les diffrentes mtadonnes socio-structurelles sy rattachant (auteurs, pages,
tags ...). Pour ce faire, notre systme rutilise des principes dfinis par ailleurs dans
ce chapitre, savoir la production automatique dannotations socio-structurelles avec
SIOC (Section 4.1, page 138) et la possibilit de tagging avanc avec MOAT (Section 4.3,
page 171). Afin daller plus loin, nous avons tendu le modle propos par SIOC pour
une modlisation plus fine des liens entre ces deux niveaux de reprsentation (Section
4.2.3, page 156). Cette extension nous permet de reprsenter des faits comme "Le fait
quEDF est bas en France est issu dune page wiki cre par Alexandre Passant dans le wiki
HPdia", ce que les wikis smantiques traditionnels ne sont en gnral pas en mesure
de faire ;
Une utilisation immdiate des connaissances produites. Afin de bnficier des diffrentes
annotations produites, nous nous sommes ici essentiellement attachs la mise en
place dun processus de requtes internes, avec un systme de macros inspir de Semantic MediaWiki. Ces macros sont dfinies par les administrateurs et peuvent tre
ensuite utilises au sein de toute page wiki. Elles permettent de plus diffrents modes
de visualisation (Section 5.2.1, page 199), la manire dOntoWiki. Concernant laide
la recherche et la navigation, ces fonctions ont t portes au niveau du mdiateur (Section 5.4, page 215). De plus, ces macros prennent galement en compte des
principes dinfrence RDFS reposant sur la subsomption de classes et de proprits
des ontologies utilises. Lobjectif de rutiliser les annotations immdiatement, sil
nest pas nouveau, permet de motiver les utilisateurs en leur montrant directement
lintrt dune telle dmarche dannotation smantique40 . Cest galement une particularit de notre approche SemSLATES, savoir que lutilisateur final est la fois
producteur et utilisateur des annotations smantiques, la diffrence par exemple de
[Maedche et al., 2003] o la production et lutilisation dannotations sont reserves
des communauts distinctes ;
Une rutilisation de donnes externes. Si certains wikis proposent limport massif de donnes RDF (par exemple OntoWiki), notre approche consiste lier les donnes du wiki
des donnes prsentes sur le Web Smantique au moment de lannotation. Alors que

Ou plutt dutilisation du Wiki car le principe dannotation smantique leur est entirement masqu.

155

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
la plupart des wikis, en termes de peuplement dontologies, peuvent tre vus comme
des lots de donnes dconnects puisque dfinissant leurs propres URIs en vase clos,
notre vision permet dintgrer plus globalement les donnes produites par UfoWiki
au sein du Web Smantique et rciproquement (Section 4.2.4, page 164). noter que
ces principes permettent galement denvisager UfoWiki comme un producteur de
donnes lies dans cette optique dun graphe global de donnes RDF (Section 1.1.4,
page 27). Dun point de vue plus pratique, cette intgration est propose dans un objectif denrichissement des fonctionnalits proposes par loutil, via la mise en place
de mash-ups smantiques ;
Des annotations mutualises entre les diffrents wikis. Enfin, bien quUfoWiki repose sur
lide dun serveur proposant des wikis indpendants (par rapport aux communauts
qui se les approprient, aux sujets abords ...), les annotations produites sont partages
par lensemble dentre eux au sein dune base de connaissance commune (Section 4.2.3,
page 160). De cette manire, diffrents wikis peuvent tablir des assertions aux sujets
des mmes concepts, dans un objectif dunification des donnes produites. Cette mutualisation permet galement de rutiliser au sein dun wiki particulier les informations issues dun autre wiki, que cela soit pour laide la saisie ou plus gnralement
pour enrichir les pages laide des macros voques prcdemment.
4.2.3

Architecture logicielle

Pour arriver ces diffrents objectifs, notre systme fait intervenir trois composants majeurs : (1) un ensemble dontologies, (2) des interfaces dadministration et ddition et (3)
un systme de production et de stockage des annotations. Si nous lavons conu comme un
plug-in de loutil wiki dorigine, nous allons ici le dtailler comme un systme part entire, notamment parce que loutil sur lequel il repose est un outil ad hoc dvelopp pour
les besoins de la plate-forme Herms. Gardons malgr tout cette notion dextension lesprit notamment par rapport notre vision qui propose denrichir les outils dun systme
dinformation existant et dj pris en main par les utilisateurs plutt que den proposer de
nouveaux.
Ontologies
La premire partie de larchitecture dUfoWiki consiste donc en un ensemble dontologies venant en support des annotations produites. Puisque nous souhaitons reprsenter la
fois des annotations socio-structurelles et des annotations mtier, deux types dontologies
sont ncessaires :
pour la premire partie, nous avons naturellement fait le choix de SIOC et de son
module Types, pour modliser la structure dun wiki et les pages associes avec les
classes sioct:Wiki et sioct:WikiArticle. Le systme permettant aussi de taguer
les pages, nous reposons sur la Tag Ontology et sur MOAT puisquUfoWiki intgre des
fonctionnalits dindexation smantiques partir de tags (Section 4.3, page 171) ;
pour la seconde, le wiki reste indpendant des ontologies utilises, le seul prrequis
tant leur modlisation en RDFS/OWL. Dans le cas dusage qui nous intresse, nous
avons considr les modles du chapitre prcdent (Section 3.2, page 103).
156

4.2 UfoWiki pour le peuplement dontologies mtier

Toujours en termes dontologies, nous avons voqu dans la section prcdente un point
qui nous parait particulirement novateur, savoir la modlisation des liens entre annotations socio-structurelles et annotations mtier. Pour ce faire, nous avons introduit une proprit embedsKnowledge, qui permet de faire le lien entre ces deux ensembles dassertions.
Celle-ci repose sur lutilisation des graphes nomms [Carroll et al., 2005] et propose ainsi
une autre manire darticuler mtadonnes socio-structurelles et donnes mtier en plus de
MOAT comme nous lavons vu en conclusion du prcdent chapitre (Section 3.3.4, page
135). Cette proprit permet de lier toute instance de sioc:Item un graphe RDF dannotations mtier (Figure 4.8, page 157). En pratique, nous disposons lors de la cration dune
page sous UfoWiki de deux graphes dannotations, regroups au sein de deux documents
distincts. Nous lions ainsi linstance de sioc:Item lURL du document contenant les annotations mtier.

http://athena/alex

:embedsKnowledge

sioc:has_creator

EDF
dc:title

Page wiki A

athena:EDF
http://sws.geonames.org/
3017382

sioc:has_container
rdf:type

geonames:locatedIn

http://athena/wiki/A
sioct:WikiArticle

Graphe RDF
d'annotations mtier

Graphe RDF
d'annotations sociostructurelles

Figure 4.8: Interactions entre annotations documentaires et annotations mtier dans UfoWiki
Cest grce cette relation embedsKnowledge couple lutilisation de graphes nomms
que nous pouvons modliser finement certaines proprits associes aux annotations mtier.
On peut ainsi considrer cette combinaison comme un moyen de rifier des assertions mtier
via lutilisation des annotations socio-structurelles. Comme le montre la figure prcdente,
cette complmentarit entre les deux graphes dannotations nous permet didentifier par
exemple qui, quand et depuis quel wiki le fait quEDF est bas en France a t tabli. Nous
verrons dans le chapitre suivant comment nous tirons bnfice de cette proprit au sein de
requtes SPARQL (Section 5.2.2, page 204). Ce choix de sparer les annotations dans deux
documents distincts nous permet galement denvisager un export et une utilisation des
annotations selon diffrents points de vue : annotations socio-structurelles uniquement ou
annotations mtier, les deux pouvant bien sur tre combines.

157

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Interfaces
Il convient ici de distinguer (1) les interfaces dadministration ddies la gestion des
wikis et des ontologies et (2) les interfaces utilisateur ddies la visualisation et ldition de
pages. Nous ne dtaillerons ici que le premier type et prsenterons le second dans la section
suivante (Section 4.2.4, page 161).
Pour chaque wiki, une interface dadministration permet de dfinir, sous forme de widgets, les diffrents patrons dannotations disponibles. Rappelons que notre outil se base sur
une approche dannotations assistes par formulaires afin de guider lutilisateur et de sassurer de leur cohrence avec les ontologies utilises. Les administrateurs dun wiki ont ainsi
la possibilit de dfinir :
des types de pages, chacun associ une unique classe des ontologies mtier utilises.
Il est ainsi possible de dfinir une page Personne et une page Entreprise, associes respectivement aux classes foaf:Person et foafplus:Company (Figure 4.9, page 158).
Les classes associes sont dfinies sous forme prfixes, les prfixes tant aligns par
ladministrateur gnral de la plate-forme avec des modles existants. Comme nous
le verrons, lutilisateur a ensuite la possibilit de choisir un des types proposs lors
de la cration dune nouvelle page, induisant la cration dune instance de la classe
correspondante ;

Figure 4.9: Association dun type de page une classe avec UfoWiki
des lments de formulaires qui sont associs aux types de pages prcdents via une
interface AJAX de glisser-dposer (Figure 4.10, page 159). Ces lments peuvent tre
de diffrents types (zone de texte, case cocher ...) et permettent la production dannotations RDF associes aux instances cres via le wiki. Une syntaxe particulire est
utilise par ladministrateur pour dfinir le lien entre formulaires et annotations, sous
la forme $idA proprit $idB. Ainsi, $1 foaf:member $main permettra dtablir une relation foaf:member entre le concept identifi par le premier champ de formulaire ($1) et celui identifi par la page en cours ($main). Pour faire la distinction
entre les proprits ObjectProperty et DatatypeProperty, ces widgets ncessitent
galement dindiquer le type dobjet attendu pour chaque lment dans les cas dune
proprit ObjectProperty. Ce type est ensuite utilis pour lautocompltion ou pour
158

4.2 UfoWiki pour le peuplement dontologies mtier

la cration de nouvelles instances si ncessaire (Section 4.2.4, page 161). Dautre part,
ces widgets peuvent tre mutualiss au sein de plusieurs pages, i.e. associs plusieurs
classes. Cest par exemple le cas dun widget Localisation qui peut-tre associ la fois
Personne et Entreprise.

Figure 4.10: Cration de formulaire pour une classe donne avec UfoWiki
la lecture de ce second point, on peut se demander pourquoi cette gnration de formulaires nest pas automatique partir du moment o chaque page est associe une classe
et o lon dispose des modles associes. Cette automatisation est certes possible (en analysant lontologie utilise) mais conduit selon nous des formulaires beaucoup moins pertinents, en raison de la nature mme des ontologies RDFS/OWL et notamment de la modlisation du domaine (au sens rdfs:domain) des proprits. En effet, si lon souhaite automatiser la cration de formulaires, il est ncessaire de prendre en compte non seulement les
proprits ayant un domaine correspondant exactement chaque classe, mais aussi celles
ayant un domaine compatible41 . Si cela impose dune part lutilisation dun raisonneur pour
identifier ces proprits, cela peut aussi conduire une abondance de champs non pertinents. Ainsi puisque nous utilisons FOAF, cette automatisation aurait intgr au formulaire
Personne un champ Code ADN (foaf:dnaChecksum, domaine non restreint) et au formulaire Entreprise un champ Compte MSN (foaf:msnChatID, domaine dfini par foaf:Agent
dont notre classe foafplus:Company hrite). Si nos principes de formulaires explicites et
de la mme manire le fait de spcifier le type attendu pour les valeurs de chaque proprit
ferment en quelque sorte lhypothse du monde ouvert, cela nous semble indispensable
pour proposer une interface utilisateur pertinente pour la saisie dinformation42 .
41

Nous nous rfrons ici la notion de compatibilit des domaines telle que nous lavons voqu plus tt
dans ce mmoire (Section 3.2.5, page 117).
42
Nous navons pas considr ici la possibilit dutiliser des ontologies ddies la prsentation et
mise en forme de contenus qui pourraient rpondre en partie la question, comme proposes par
[Khushraj et Lassila, 2005].

159

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Production et stockage dannotations
Enfin, la dernire partie de larchitecture dUfoWiki est relative la production et au
stockage des annotations RDF. Comme nous lavons indiqu prcdemment, chaque page
wiki sont associs deux graphes dannotations, distincts mais pour autant interconnects
via une relation embedsKnowledge (associe un lien rdfs:seeAlso). Les annotations
relatives aux ontologies de domaine sont produites en fonction des formulaires saisis par
lutilisateur, alors que les annotations socio-structurelles sont produites automatiquement
de la mme manire que nous lavons vu prcdemment (Section 4.1, page 138).
Le stockage de celles-ci se fait de manire unifie et en temps rel au sein dun entrept
de donnes. Si celui-ci est commun tous les wikis de la plate-forme, nous lavons galement mutualis avec les autres outils (Section 5.1, page 188). Cest grce cet entrept global
qui agrge lensemble des connaissances produites par les diffrents wikis que le systme
dautocompltion peut tre mis en place, tout comme les diffrentes possibilits de requtes
offertes par UfoWiki (Section 5.2, page 199). La figure qui suit (Figure 4.11, page 160) reprsente en outre le systme de stockage pour un wiki particulier, ici exemplifi au travers
de deux pages wiki, soit quatre graphes dannotations distincts mais interconnects. Cette
figure met galement en avant la possibilit dtablir des annotations au sujet dune mme
ressource laide de diffrentes pages wiki .

dite

Page wiki
A

dite

produit

Metadonnes
RDF au
sujet de la
page A

utilise

Ontologies
documentaires
(SIOC, DC,
MOAT ...)

lien hypertexte

Page wiki
B

Niveau wiki

produit

produit

Description
RDF des
donnes
mtier de
la page A

lien smantique
(via embedsKnowledge)

Annotations
smantiques
entre donnes

Description
RDF des
donnes
mtier de
la page B

utilise

produit

Entrept RDF

Metadonnes
RDF au
sujet de la
page B

lien smantique
(via embedsKnowledge)

Ontologies mtier
(FOAF, SKOS,
Geonames ...)

Niveau Web
Smantique

Figure 4.11: Architecture dun wiki au sein dUfoWiki

160

Stockage

4.2 UfoWiki pour le peuplement dontologies mtier

4.2.4

Utilisation dUfoWiki et peuplement collaboratif dontologies

UfoWiki en pratique
Parmi lensemble des wikis mis en place au sein dHerms, trois dentre eux ont t
enrichis des fonctionnalits de peuplement dontologies proposes par UfoWiki43 :
un wiki destin la modlisation des acteurs et de leurs domaines dactivits, nomm
HPdia ;
un wiki destin la modlisation et lorganisation taxonomique des diffrents domaines et mtiers ;
un wiki destin la gestion des partenariats.
Pour chacun dentre eux, diffrents types de pages et de formulaires ont t crs, associs
aux modles prsents dans le prcdent chapitre (Section 3.2, page 103). Ainsi, chaque
cration de page depuis lun de ces wikis, lutilisateur a la possibilit de choisir le type de
page correspondant parmi ceux disponibles pour le wiki en question, chaque type tant associ une classe particulire. Par exemple, dans HPdia, lutilisateur peut choisir parmi diffrents types dont Personnalit (associ foaf:Person) ou Socit (foafplus:Company),
les URIs tant masques lutilisateur (Figure 4.12, page 161). Il a galement la possibilit de
ne pas utiliser de formulaire : dans ce cas, seules les annotations socio-structurelles seront
produites.

Figure 4.12: Slection dun type de contenu avec UfoWiki


Dans le cas o un type particulier de page est slectionn, lutilisateur se voit alors proposer une page ddition compose de :
un champ ddition classique (i.e. une zone de texte libre), identique celui propos
dans loutil initial ;
un ensemble dlments de formulaires correspondants aux widgets dfinis par ladministrateur du wiki pour le type de page concern.
43

Les autres wikis bnficient cependant des autres caractristiques dUfoWiki, notamment les macros.

161

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
La figure suivante reprsente ainsi linterface ddition associe au type de page Association
au sein du wiki HPdia (Figure 4.13, page 162). On y distingue la zone principale et diffrents widgets (Localisation, Rattachement, Domaine et Mtier), dont un premier qui met en valeur les possibilits dautocompltion offertes par loutil. Cette autocompltion est rendue
possible via lutilisation dune requte SPARQL en temps rel sur lensemble des annotations des diffrents wikis. Elle prend en compte les caractres saisis par lutilisateur et la
classe associe ce widget afin de dterminer les instances ayant un label (rdfs:label) correspondant la saisie, tout en grant linfrence pour proposer galement les ventuelles
instances des sous-classes associes.

Macro interne

Champ avec
auto-compltion

Instance interne

Figure 4.13: dition dune page wiki pour la cration dinstance via UfoWiki
Avant de revenir plus tard sur la macro prsente dans cet exemple (Section 5.2.1, page
199), dtaillons tout dabord ce que nous appelons instance interne. Dans la plupart des wikis smantiques, les relations entre instances sont possibles dans la mesure o chaque instance est identifie par une page donne. Ce choix sexplique notamment (1) par le lien
implicite entre chaque page et une instance associe et (2) par lutilisation des liens hypertextes pour modliser les relations entre ces instances. Ceci oblige cependant disposer
dune page wiki par instance. Si lon se remmore nos modles, nous disposons dune classe
role:Role quil nous semble peu pertinent de reprsenter de cette manire, notamment
car il sagit dune simple relation tripartite entre un domaine, un mtier et une zone gographique, sans description particulire (Section 3.2.4, page 109). UfoWiki offre ainsi, via
un type de widget particulier, la possibilit de crer des instances au sein de pages en plus
de linstance principale, comme lillustre la figure prcdente avec cette notion dinstance
interne (Figure 4.13, page 162). Notons galement que, pour chaque champ dont la valeur
est associe une classe particulire, une nouvelle instance est cre (et type selon cette
162

4.2 UfoWiki pour le peuplement dontologies mtier

classe) sil nen nexiste pas encore au sein de la base de connaissance pour la valeur entre.
Enfin, afin dassocier chaque page wiki linstance principale correspondante nous utilisons la proprit foaf:primaryTopic au sein du graphe dannotations socio-structurelles,
alors que sioc:topic est utilis pour identifier les autres instances associes la page en
question. Nous verrons dans le chapitre suivant comment cette proprit nous permet de
contextualiser les macros au sein dUfoWiki (Section 5.2.2, page 204). Notons galement que
pour chaque nouvelle instance cre, UfoWiki va considrer lURI de cette instance comme
signification globale du tag correspondant son label, et intgrer cette signification au sein
du serveur MOAT (Section 4.3, page 171), afin de faciliter le processus dindexation smantique partir de tags.
Lensemble des annotations RDF produites depuis cet exemple de page wiki, associe
lorganisation Association des Maires de France, est disponible en annexe :
dune part les annotations socio-structurelles (Section E, page 243) ;
dautre part les annotations mtier (Section D, page 239).
Comme on peut le voir en analysant ce second document, des URIs particulires sont utilises pour modliser les domaines et mtiers. En effet, comme nous lavons voqu, UfoWiki permet le partage dannotations produites entre les diffrents wikis du systme, en
particulier le partage dURIs associes aux diffrentes instances produites. Ainsi, les instances cres au sein du wiki mis en place pour lorganisation des domaines et mtiers (et
reposant galement sur UfoWiki) sont rutilises lors de la cration dannotations au sein
dHPdia, rutilisation facilit par le systme dautocompltion. Notons que ce second wiki
(relatif aux domaines et mtiers) bnficie galement, tout comme HPdia, de possibilits
de compltion qui permettent ici dassister lutilisateur dans la dfinition des taxonomies de
domaines et mtiers (Figure 4.14, page 163). Lutilisation dun tel wiki permet ainsi une volution constante de ces taxonomies afin de sadapter rapidement lmergence de nouveaux
domaines.

Figure 4.14: Gestion dune taxonomie de domaines avec UfoWiki

163

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Intgration de ressources externes
Nous avons galement voqu dans les objectifs dUfoWiki la possibilit dintgrer des
liens vers des concepts dj existants sur le Web Smantique et de rutiliser ceux-ci au sein
de notre systme. Alors que la plupart des wikis smantiques dfinissent de nouvelles URIs
pour chaque concept quils instancient, il nous semble intressant de rutiliser dans la mesure du possible des URIs dj dfinies pour identifier ces concepts. Ce processus de rutilisation et dintgration nous parait pertinent ds lors que lon veut parvenir un Web Smantique o les donnes sont interconnectes globalement et non pas seulement au sein
dcosystmes clos.
Supposons en effet que dix wikis smantiques diffrents dfinissent une page au sujet
dune entreprise tablie en France. Pour chaque wiki, la relation va tre tablie en utilisant
une URI locale du type http://mon-wiki.org/resource/France pour dfinir lidentifiant associ la France. Il y aura donc en consquence, pour un mme concept, autant
dURIs quil existe de wikis, ce qui est assez paradoxal dans une optique de smantique
commune entre applications. Cette abondance dURIs conduira en effet des problmes
dhtrognit smantique similaires ce que lon rencontre par exemple pour les tags (Section 2.2.3, page 63). loppos, utiliser une URI existante pour tablir ce lien ou indiquer
que le concept instanci est identique tel autre permet de rsoudre ce problme dhtrognit. Par exemple, utiliser dans chaque cas lURI http://dbpedia.org/resource/
France permettra dinterconnecter ces wikis entre eux via cette URI unique et rfrante,
partage entre applications. On tablit ainsi de cette manire des passerelles entre des wikis
initialement conus comme des lots de donnes indpendants.
En termes dimpacts plus immdiats, ceci offre la possibilit denrichir un wiki de connaissances dj disponibles sur le Web. Dans lexemple prcdent, on peut bnficier des assertions RDF qui sont rattaches http://dbpedia.org/resource/France pour identifier
au sein du wiki quelles sont les entreprises bases en Europe sans que lon ait eu besoin de
dclarer que la France en fait partie, cette relation tant dj prsente dans la description
DBpedia associe lURI en question.
Pour en revenir UfoWiki, nous avons donc mis en place un systme permettant de
rutiliser certaines bases de connaissances externes en son sein. Toujours dans loptique de
ne pas confronter les utilisateurs ces notions dURIs, nous avons dfini des widgets particuliers qui permettent cette intgration de manire simple. Le widget Localisation a ainsi
t mis en place de manire interroger automatiquement le service Web Geonames44 pour
identifier lURI correspondant chaque localisation saisie45 . Il est cependant ncessaire pour
lutilisateur dentrer explicitement une localisation prcise pour viter les problmes dambigut associs celle-ci (e.g. Paris, France plutt que simplement Paris), mais cette
lgre contrainte nous a paru plus simple que de demander lutilisateur de lever lventuelle ambigut lui-mme. Notons que cette restriction est due au fait que nous interrogeons
44
45

http://www.geonames.org/export/

Notons plus gnralement que la dpendance des services externes peut poser des problmes la fois
de dpendance lapplication interne tant soumise au bon fonctionnement dun systme public et de confidentialit en fonction du service interrog et du type de requte, des informations confidentielles peuvent
filtrer.

164

Macro interne

Champ avec
auto-compltion

4.2 UfoWiki pour le peuplement dontologies mtier

le service au moment de la validation et que nous ne possdons pas au sein de notre base
de connaissance de lensemble des donnes proposes par Geonames. Dans ce cas, nous aurions pu dfinir un systme dautocompltion adapte afin de rsoudre plus simplement ce
Macro interne
problme dambigut, comme le proposent [Hildebrand et al., 2007].
Instance interne

Champ avec
auto-compltion

Interrogation du
service Web
geonames.org

Instance interne

Figure 4.15: Production dannotations bases sur Geonames avec UfoWiki


Une fois la ressource identifie, nous intgrons dans notre mdiateur les assertions relatives celle-ci, ce qui nous permet de :
bnficier par la suite du systme dautocompltion associ ce widget, qui va donc effectuer une requte locale pour identifier les instances de la classe geonames:Feature
correspondant la saisie de lutilisateur. Cest en ce sens que lon a pu voir sur lexemple
prcdent la suggestion de Paris, France pour la saisie de Paris, Fra (Figure 4.13,
page 162) ;
profiter de nouveaux services de mash-ups smantiques, permettant notamment de
visualiser diffrentes entreprises dun secteur dactivit sur une carte Google (Section
5, page 187).
Plus gnralement, cette possibilit pour des cosystmes dinformation smantique dEntreprise 2.0 de rutiliser des donnes RDF publiques nous semble avoir un intrt majeur
pour lavenir de tels systmes. En effet, ce processus permet de bnficier dun large volume
de donnes publiques, issues notamment de linitiative Linking Open Data (Section 1.1.4,
page 27), pour augmenter moindre cot les capacits de systmes dinformation existants.
la manire des flux RSS qui permettent un entreprise de bnficier des connaissances de
diffrents experts sans pour autant tre en contact direct avec eux et sans dmarche proactive, lintgration de donnes publiques permet de bnficier de connaissances formalises
et rutilisables immdiatement, puisquinterprtables sans ambigut. De plus, en supposant que certaines donnes dentreprise soient terme publies sur le Web, on bnficie dj
au sein de ces donnes de relations vers des ressources existantes, permettant damplifier la
dcouverte des informations produites par lentreprise partir dautres sources de donnes.
Au sujet de cette intgration de donnes externes, on peut galement citer des travaux sem165

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
blables au sein du projet Comma [Cao et al., 2003]. La diffrence majeure se situe ici selon
nous dans la phase dacquisition et dintgration de donnes. Alors que lapproche propose
ncessite diffrentes mthodes de conversion de donnes prsentes sur le Web en RDF, nous
bnficions dans notre contexte de donnes dj disponibles selon ce format mais surtout
compatibles avec nos modles internes, puisque nous avons fait le choix de nous baser sur
des modles abondamment utiliss sur le Web (Section 3.2, page 103). Ceci nous semble ainsi
tre un point particulirement pertinent en termes dadoption des technologies du Web Smantique en entreprise, et notamment de valeur ajoute pour linitiative Linking Open Data.
Enfin, pour accentuer cette rutilisation de donnes publiques, nous avons galement
mis en place un prototype de widget permettant de lier nos instances celles dfinies par
DBpedia. Toujours dans cette optique dinterfaces de publication simples, lutilisateur nest
pas confront la gestion de lURI DBpedia, mais utilise simplement un champ qui lui
permet dindiquer la page Wikipedia correspondante, lURI DBpedia tant identifie partir
de celle-ci. Cette connexion nous permet nouveau denvisager un enrichissement des outils
existants, par exemple en affichant lextrait de larticle Wikipedia associ au concept identifi
sur une page donne.
Comme nous lavons voqu en amont, bien quUfoWiki ne soit pas un outil disponible
publiquement, nous esprons que dautres wikis viendront terme bnficier de cette vision
pour tre partie intgrante du Web of Data.
4.2.5

Evaluation de loutil et statistiques dutilisation

Position par rapport ltat de lart


Afin dvaluer notre prototype, comparons tout dabord ses caractristiques avec les outils mentionns auparavant. Notons quil sagit ici dune comparaison en termes de fonctionnalits, nayant pas pu faire dtude oriente utilisateur afin dvaluer les avantages et inconvnients des diffrents outils, aussi bien en termes dadoption des interfaces de production
dannotations que de qualit smantique de celles-ci. Ce tableau identifie donc diffrents
aspects qui nous semblent important en termes de wikis smantiques pour le peuplement
dontologies. Nous reviendrons plus particulirement sur les services additionnels offerts
par UfoWiki, notamment les possibilits de macros internes et de navigation avance, dans
le chapitre suivant (Section 5.2, page 199).
En termes de production dannotations, il nous semble important de signaler quil ny
a pas selon nous de wiki smantique idal. Selon le contexte, la communaut dutilisateurs
et lusage que lon souhaite faire des annotations, les diffrentes mthodes proposes (et les
fonctionnalits associes par les outils qui les implmentent) nous semblent toutes avoir des
avantages et des inconvnients. Par exemple, ACE se rvle intressant pour des cas dutilisation o la consistance des donnes et les capacits dinfrence passent en premier plan,
alors que Semantic MediaWiki peut-tre plus pertinent dans un contexte plus souple o lon
souhaite avoir un modle ouvert et volutif, en esprant une autorgulation de celui-ci via la
communaut. La solution propose par UfoWiki nous semble tre un bon compromis dans
un contexte organisationnel o lon souhaite sassurer des annotations produites sans pour
autant confronter les utilisateurs aux principes de modlisation RDF(S)/OWL. Vis--vis des
autres caractristiques dUfoWIki, ses plus-values par rapport lexistant nous semblent
166

4.2 UfoWiki pour le peuplement dontologies mtier

tre :
les principes dannotations par formulaire, permettant une reprsentation simple et
assiste dannotations smantiques mtier ;
la production simultane dannotations socio-structurelles et dannotations mtier, les
deux tant de plus combines. Parmis les wikis considrs, seul IkeWiki offre un modle complet et pertinent pour ce premier type dannotations, le modle SWIVT46 de
Semantic MediaWiki tant relativement pauvre (seule la notion de page wiki est modlise) ;
la complmentarit avec des ressources dj prsentes sur le Web Smantique, dans un
objectif de wikis interconnects et non plus considrs comme des outils indpendants
dfinissant leurs propres instances en vase clos.

46

http://semantic-mediawiki.org/swivt/1.0#

167

168

SWIVT

Semantic
MediaWiki
IkeWiki

SIOC
MOAT (Tagging)

UfoWiki

Prdfinies par ladministrateur


volution (assiste) via le wiki
Gnres via le wiki
volution (contrle) via le wiki
Dfinies par ladministrateur
Formulaires

Contraintes (ACE)

Formulaires

Peuplement
dontologies
Ontologies
Annotations
Dfinies par ladministrateur
Formulaires triplets
Annotations RDF/XML

Annotations RDF/XML
Annotations Turtle
Gnres via le wiki
Syntaxe wiki tendue
volution libre
Dfinies par ladministrateur
Assistance (liens typs)

Macros internes
Raisonnement RDFS
Point daccs SPARQL
Visualisation avance

Aide la navigation
Macros internes
Aide la navigation
Macros internes
Aide la navigation
Raisonnement RDFS
Aide la navigation
Visualisation avance
Raisonnement OWL

Aide la navigation

Services
Additionnels

Tableau 4.1: Positionnement dUfoWiki par rapport dautres wikis smantiques

AceWiki

Ontowiki

SemPerWiki

Modle IkeWIki
SIOC (discussions)

Platypus

Mtadonnes
socio-structurelles

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES

4.2 UfoWiki pour le peuplement dontologies mtier

Statistiques dutilisation
Comme nous lavons prcdemment voqu, trois wikis utilisant UfoWiki ont t mis
en place au sein dHerms. Afin de mesurer lacceptation de loutil, nous avons tudi sur
une priode de plusieurs mois lutilisation de lun dentre eux, savoir HPdia, wiki destin capitaliser des informations au sujet de diffrents acteurs acadmiques et industriels.
Celui-ci permet donc le peuplement des ontologies de domaine prsentes dans le chapitre
prcdent, dans le sens o chaque acteur est reprsent par des informations gnrales le
concernant (type dentit, nom, etc.), sa localisation et les diffrents rles qui lui sont associs, comme nous avons pu le voir sur une prcdente figure (Figure 4.13, page 162). Sur
une priode de 200 jours sur laquelle porte notre analyse, on peut observer que 173 pages
wiki ont t cres, pour un total de 352 instances (Figure 4.16, page 169). Une vingtaine
dutilisateurs ont pris part cette dmarche volontaire de peuplement dontologies travers lutilisation dHPdia. Il est important de signaler que la majorit de ceux-ci ntaient
ni forms sur les technologies du Web Smantique ni particulirement adeptes dinterfaces
logicielles avances, certains dentre eux nayant jamais utilis de wiki avant la mise en
place de la plate-forme Herms. Il nous semble en consquence quUfoWiki a pu jouer correctement son rle doutil simple ddi au peuplement dontologies, dautant plus que les
utilisateurs ayant particip ce peuplement nont jamais t directement confronts cette
notion dontologies et de bases de connaissances au travers de loutil. On peut galement
remarquer sur cette figure un pic aux alentours du 75eme jour, correspondant une priode
o certaines donnes prsentes dans dautres bases de connaissances internes lentreprise
(Lotus Notes) ont t portes au sein dHPdia.
400
Pages wiki
Instances

300

200

100

0
0

50

100

150

200

Days

Figure 4.16: Statistiques dutilisation dUfoWiki : Pages et instances


Une seconde figure significative du nombre de triplets produits (nous ne considrons
ici que les annotations mtier) nous montre galement quune moyenne de 9 triplets RDF
ont t produits pour chaque page (Figure 4.17, page 170). Ce nombre est en fait assez
169

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
ingal, puisque lon compte par exemple 29 triplets dans le graphe RDF correspondant
lAssociation des Maires de France (Annexe D, page 239). Les formulaires sont donc remplis
assez diffremment selon les acteurs tudis, certaines pages tant relativement compltes
(avec des informations assez pousses sur les diffrents rles, les membres associs, etc.) et
dautres plus lgres (avec par exemple uniquement la localisation et le domaine dactivit,
soit quatre triplets seulement dans ce cas, i.e. les deux prcdents plus la description de lacteur en question et son type). Quoi quil en soit, cette moyenne nous semble relativement
acceptable vu le nombre dutilisateurs. Si lon prend par exemple la page Wikipedia consacre cette mme association, on ne trouve dans son infobox47 que 13 assertions, pour 37
personnes ayant particip son laboration et 69 ditions 48 .
1800
Pages wiki
Triplets RDF
Instances

1600
1400
1200
1000
800
600
400
200
0
0

50

100

150

200

Days

Figure 4.17: Statistiques dutilisation dUfoWiki : Pages, instances et triplets


Enfin, malheureusement, nous navons pas pu tudier lvolution de chaque instance
et la manire dont la collaboration permettait de faire valuer celles-ci, le suivi de versions
des annotations ntant pas assur par UfoWiki, et nayant pas conserv les versions prcdentes des graphes dannotations associs chaque page. Nous tirons cependant bnfice
de cet aspect collaboratif ddition dans la mesure o, comme nous lavons dit, les instances
sont partages entre pages dun mme wiki (et de manire plus large entre diffrents wikis). Ainsi, un utilisateur crant une instance permet dautres utilisateurs de dfinir de
nouvelles annotations utilisant cette mme instance, par exemple pour dfinir une personnalit en tant que membre dune organisation donne. Les principes Web 2.0 darchitecture
participative sont donc ici directement appliqus la dfinition et lexpansion de graphes
dannotations RDF.
47

Partie dune page Wikipedia contenant des informations structures, qui sert notamment au maintien de
DBpedia.
48

http://vs.aka-online.de/cgi-bin/wppagehiststat.pl?lang=fr.wikipedia&page=
Association_des_maires_de_France

170

4.3 Du tagging lindexation smantique

4.3
4.3.1

D U TAGGING L INDEXATION SMANTIQUE


Processus dindexation smantique associ MOAT

Si la production dannotations socio-structurelles, telle que dfinie au dbut de ce chapitre, peut tre automatise, passer dun processus classique de tagging une indexation
smantique guide par des ontologies de domaine est plus complexe. Nous avons prsent
dans le chapitre prcdent MOAT, modle permettant de lier tags et ontologies de domaine
dans cet objectif de transition entre tags et indexation smantique (Section 3.3, page 119).
Celui-ci repose sur la notion de significations associes aux tags, celles-ci tant reprsentes
avec des URIs de concepts du Web Smantique, en particulier des instances dontologies.
Afin de mettre ce modle en pratique et lintgrer des systmes de tagging, il est primordial de rpondre aux deux questions suivantes :
tout dabord, comment rendre ce passage aussi souple que possible pour lutilisateur
final. La simplicit des tags ayant contribu leur acceptation, il est ncessaire de
conserver une approche intuitive pour permettre la russite de tels systmes ;
ensuite, comment mettre en place une architecture de participation au sein de ce processus. Une telle architecture doit permettre le partage des significations au sein dune
communaut, de la mme manire que les plates-formes classique de systmes base
de tags permettent tous de bnficier des apports de chacun (autocompltion, suggestion ...).
Pour ce faire, nous avons mis en place une architecture logicielle reposant sur le modle
MOAT et base sur :
un serveur qui va stocker lensemble des tags utiliss au sein dune communaut donne ainsi que les significations globales associes ceux-ci, i.e. les URIs des concepts
signifiants ;
diffrents clients qui vont permettre aux utilisateurs de bnficier de ces significations
lors dactions de tagging pour dfinir les significations locales de leurs tags. Ces clients
interagissent avec le serveur pour permettre lajout de nouvelles significations globales au sein de la communaut.
Le processus associ cette architecture permet ainsi de faire le lien entre tagging et
indexation smantique de la manire suivante (Figure 4.18, page 172) :
lutilisateur cre un contenu et le tague avec de simples mots-cls ;
pour chaque tag, le client MOAT va rcuprer depuis le serveur auquel lutilisateur a
souscrit la liste, qui peut ne contenir quun lment, des significations globales associes ce tag (i.e. les URIs des diffrents concepts associes) ;
lutilisateur va choisir parmi cette liste le concept correspondant son tag dans ce
contexte particulier dannotation. Si rien ne convient, il a la possibilit de dfinir une
nouvelle signification ;
une fois le choix valid, le client produit automatiquement lensemble des annotations
RDF relatives lindexation smantique du contenu annot.
Ce processus permet donc, via un worflow assez lger, de passer du document tagu un
graphe dannotations RDF relatives lindexation smantique de celui-ci. Nous verrons
dans le chapitre suivant comment tirer profit des diffrentes annotations ainsi cres en
171

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
termes de requtes et de recherche de documents (Section 5.4, page 215).

L'utilisateur
cre un contenu et
le taggue

L'application interroge
un serveur de tags

<http://geonames.org/resourceid>

L'utilisateur slectionne
la ressource correspondant son
tag dans le contexte du contenu cr

<http://dbpedia.org/resource/example>

Le serveur renvoie les URIs


correspondant aux
significations potentielles

<http://athena/data/uri>
<http://something.net/resource>

L'utilisateur sauvegarde
son contenu

http://athena/blog/post/117

Le contenu est
smantiquement annot

moat:taggedWith

http://athena/data/uri

Figure 4.18: Framework utilisateur MOAT


Avant de rentrer dans les dtails techniques des outils mis en place pour satisfaire ce
processus (Section 4.3.2, page 175), prenons un exemple concret de lapproche. Nous avons
volontairement contextualis celui-ci avec lutilisation que nous en faisons au sein de notre
systme, en utilisant ici diffrentes instances prsentes dans notre base de connaissances.
Un workflow dutilisation, galement identifi par la figure qui suit (Figure 4.19, page 174),
peut donc tre le suivant :
un utilisateur va taguer un billet au sujet dun nouveau type de pompe chaleur avec
le mot-cl pac ;
le client interroge le serveur associ pour connatre les significations globales associs ce tag. Celui-ci lui renvoie une liste de deux lments qui contient les URIs
athena:PolitiqueAgricoleCommune et athena:PileACombustible} ;
ces deux significations ne correspondant pas, lutilisateur en ajoute une nouvelle49 :
athena:PompeAChaleur ;
le choix est valid et le contenu est alors annot et associ lURI choisie (selon les
relations dfinies au chapitre prcdent (Section 3.3, page 119)). De plus, la nouvelle
signification relative au tag pac est stocke au sein du serveur ;
un second utilisateur rdige plus tard un billet sur un thme similaire et lui associe le
mme mot-cl ;
49

Nous dtaillerons sous peu de quelle manire se fait cette assignation dune nouvelle signification pour un
tag donn.

172

4.3 Du tagging lindexation smantique

le serveur va alors renvoyer trois URIs, lutilisateur na donc qu en valider une pour
que son contenu soit correctement index et annot, de la mme manire que prcdemment. Cest donc cette tape qui permet de grer lambigut. Dans le cas dun
billet annot avec le mme tag mais relatif aux piles combustible, une autre URI
aurait t slectionne par lutilisateur ;
un troisime utilisateur va ensuite annoter un billet avec le mot-cl pompe-a-chaleur ;
le serveur ne renvoie ici aucune URI, aucune association nayant t dfinie jusque l
au sein du serveur de la communaut concerne pour ce tag ;
lutilisateur fait donc le choix dune nouvelle URI pour la signification associe ce
tag, savoir athena:PompeAChaleur50 , celle-ci tant ensuite intgre au serveur,
alors que le contenu est par ailleurs annot aprs validation.
Ce cas dutilisation et les annotations associes mettent en avant deux principes qui sont
la base de MOAT : (1) la gestion de lambigut des tags, puisque lon a deux documents
associs au mme tag (pac) mais lis deux URIs distinctes (athena:PompeAChaleur et
athena:PileACombustible) et (2) la gestion de leur htrognit, puisque nous avons
ici deux tags distincts (pac et pompe-a-chaleur) qui rattachs localement la mme URI
(athena:PompeAChaleur) permettent au final davoir deux contenus indexs avec le mme
concept. En ce qui concerne lautre problme classique des tags, i.e. labsence de relations,
nous grons celui-ci en considrant les relations au niveau des URIs signifiantes, et non
pas des tags eux-mmes. Ainsi, dans lexemple prcdent, on pourra suggrer un contenu
index par lURI athena:EconomieDEnergie lors de la lecture du billet associ lURI
athena:PompeAChaleur, puisquil existe (via par exemple une relation SKOS cre partir du wiki destin aux domaines et mtiers) une relation entre ces deux concepts. Nous
dtaillerons ces possibilits de dcouverte de contenus et de thmatiques proches dans le
chapitre suivant (Section 5.4.3, page 219).
Un aspect mis en avant par le scnario prcdent et qui nous semble important quant
lutilisation de MOAT dans ce contexte dcosystme smantique pour lEntreprise 2.0 est
lutilisation dinstances cres par les wikis smantiques voqus prcdemment (Section
4.2.2, page 154) afin de dfinir les significations associes aux tags. Par exemple, un premier utilisateur va crer lAssociation des Maires de France (instance de foaf:Organization)
via UfoWiki, un second pouvant ensuite dfinir ce concept comme signification associe au
tag amf. Il sagit donc dun enchanement naturel entre wikis, ontologies, instances et folksonomies pour enrichir les capacits dannotations proposes par le systme initial. Bien
entendu, les principes de MOAT ne sont pas limits aux instances produites ou stockes
en interne, comme par exemple les diffrentes instances de geonames:Feature rcupres
depuis Geonames. Il est donc possible dutiliser nimporte quel concept pour reprsenter les
significations des tags, notamment ceux proposs par linitiative Linking Open Data, comme
nous le verrons en dtaillant une implmentation publique du client associ ainsi que loutil
LODr (Section 4.3.2, page 179).
Un autre intrt de ce framework est selon nous son cadre darchitecture participative.
Puisque les liens entre tags et significations sont partags au sein dun serveur de tag utilis
50

Nous dtaillerons galement par la suite comment nos diffrentes implmentations permettent didentifier
de nouvelles URIs pour des tags isols.

173

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES

Serveur MOAT

Client MOAT

Cration d'un billet annot "pac"


Demande des URIs associes au tag 'pac'

Renvoi des URIs:


(athena:PolitiqueAgricoleCommune,
athena:PileACombustible)

Ajour d'une nouvelle URI


(athena:PompeAChaleur)
et validation de l'association

Stockage de la nouvelle URI

Export du contenu annot


Annotations RDF
(avec MOAT)

Cration d'un billet annot "pac"

Demande des URIs associes au tag 'pac'


Renvoi des URIs:
(athena:PolitiqueAgricoleCommune,
athena:PileACombustible,
athena:PompeAChaleur)

Choix de l'URI
(athena:PompeAChaleur.)
et validation de l'association

Export du contenu annot


Annotations RDF
(avec MOAT)

Cration d'un billet annot


"pompe-a-chaleur"

Demande des URIs associes


au tag 'pompe-a-chaleur'

Renvoi des URIs:()

Ajour d'une nouvelle URI


(athena:PompeAChaleur)
et validation de l'association
Stockage de la nouvelle URI

Export du contenu annot


Annotations RDF
(avec MOAT)

Figure 4.19: Workflow client / serveur et processus MOAT

174

4.3 Du tagging lindexation smantique

par une communaut donne, un utilisateur assignant une signification donne un tag
permet lensemble de la communaut de bnficier de cette association, comme le montre
le scnario prcdent avec le tag pac. Le bnfice de cette architecture de participation est
dautant plus flagrant dans le cas o le processus est combin avec des instances cres
depuis nos wikis smantiques : les wikis, peupls par diffrents utilisateurs, viennent en
support de notre folksonomie, galement utilise par diffrentes personnes. De plus, cette
architecture nest pas fige comme nous lavons signal, puisque chaque communaut peut
installer son propre serveur, dans la continuit de ce qui est propos par Annotea (Section
3.3.1, page 124). Les utilisateurs ne sont donc pas lis un unique serveur central et rfrent,
choix motiv par une optique douverture des donnes sociales (Section 3.1.5, page 96).
4.3.2

Implmentations logicielles

Client gnrique pour Drupal


Comme expos en amont, le rle dun client MOAT est (1) dinteragir avec un serveur
pour rcuprer les significations globales dun tag au moment de la cration dun contenu,
(2) de permettre lutilisateur de choisir quelle signification locale il souhaite donner son
tag dans ce contexte et ventuellement den dfinir une nouvelle et (3) de produire les annotations smantiques associes. Bien entendu, si ces diffrentes tapes font intervenir des
modles et des mcanismes dchange reposant sur RDF, il est vident que lutilisateur ne
doit pas directement y tre confront, le client devant tre aussi intuitif que possible. Pour
ce faire, nous avons implment un client MOAT gnrique pour la plate-forme Drupal51 .

Figure 4.20: Interface utilisateur du module MOAT pour Drupal couple au widget Sindice
51

http://drupal.org/project/moat

175

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Ce premier client se prsente donc sous la forme dun plug-in Drupal et propose pour
chaque contenu tagu un onglet supplmentaire permettant dassigner aux diffrents tags
utiliss leur signification locale. La figure suivante illustre son fonctionnement, ici pour un
billet de blog au sujet dun vnement relatif au Web Smantique ayant eu lieu Paris auquel
ont t associs trois tags (Figure 4.20, page 175). Celle-ci met en avant trois cas possibles,
tels quils ont t voqus prcdemment :
en bas (tag sparql), une unique signification a t rcupre depuis le serveur. Il sagit
ici de lidentifiant associ au langage SPARQL via DBpedia. Dans ce cas, la signification a t valide par lutilisateur (bote de dialogue coche) ;
au dessus, trois URIs ont t rcupres pour le tag paris, lutilisateur ayant fait son
choix parmi celles-ci. Afin de faciliter ce choix, les diffrentes URIs sont proposes en
tant quhyperliens de manire ce que lutilisateur puisse en savoir plus leur sujet52 .
On remarque galement dans cet exemple que si trois URIs sont affiches, en ralit
deux dentre elles sont lies par une proprit owl:sameAs, signifiant quen dpit de
deux URIs distinctes il sagit de la mme instance. Si cette relation nest pas prise en
compte pour le moment dans notre client, nous souhaitons lintgrer aux prochains
dveloppements de manire limiter les URIs afficher celles correspondant des
ressources rellement distinctes vitant ainsi de surcharger linterface ;
enfin, pour le tag barcamp (premier dans linterface), aucune URI na t associe.
Ici, lutilisateur a la possibilit den ajouter une nouvelle dans le champ textuel correspondant. Pour simplifier ce processus, nous avons intgr le widget propos par
Sindice53 [Tummarello et al., 2007]. Cet index du Web Smantique met en effet disposition des dveloppeurs un service permettant, pour un terme donn, de lister un ensemble dURIs correspondantes54 (en fonction par exemple du label associ au concept
dfini par cette URI ou de lURI elle-mme). Cette intgration facilite ainsi le choix de
nouvelles URIs pour lutilisateur. Dans le cas o aucun concept nexiste pour la signification souhaite, il est ncessaire de passer par un outil annexe pour crer celui-ci (par
exemple un wiki smantique) afin de pouvoir ensuite lutiliser au sein du client55 .
Ce module MOAT pour Drupal permet galement lexport des donnes ainsi annotes.
Lensemble du contenu export utilise donc SIOC, la Tag Ontology et MOAT comme nous
lavons prsent dans le chapitre prcdent (Figure 3.19, page 131)56 . Ce plug-in se base
dailleurs sur le plug-in SIOC que nous avons dvelopp et prsent au dbut de ce chapitre (Section 4.1.2, page 142). Notons galement quaprs notre implmentation pour Drupal, un client MOAT a t dvelopp par OpenLink au sein de la plate-forme OpenLink
DataSpaces57 (Section 2.3.4, page 77).
52
En supposant bien sur quelles soient drfrenables et renvoient vers un ensemble dinformations leur
sujet, selon les principes du Linked Data dfinis par [Berners-Lee, 2006b] (Section 1.1.4, page 27).
53
54

http://sindice.com/
http://sindice.com/developers/widget

55

Notons que limplmentation actuelle du client Drupal ne vrifie pas que les URIs slectionnes sont
conformes aux principes du Linked Data, contrairement LODr (Section 4.3.2, page 179).
56
Si plusieurs significations sont slectionnes pour un tag donn, diffrentes instances de
RestrictedTagging sont cres, en conformit avec la contrainte de cardinalit sur la relation hasMeaning.
57

176

http://vanirsystems.com/danielsblog/2008/02/09/a-few-new-features-in-openlink-data-spaces/

4.3 Du tagging lindexation smantique

Adaptation du client au sein dHerms


Afin de faciliter lintgration de MOAT au sein de la plate-forme Herms, nous avons
procd diffrentes adaptations par rapport au plug-in que nous venons de prsenter. Nous
pouvons en effet faire deux reproches majeurs celui-ci notamment dans un objectif dacceptation grand public :
proposer des URIs pour choisir la signification dun tag est vraisemblablement peu
intuitif et ce mme si elles sont reprsentes sous forme de liens hypertextes vers leur
description. Lobjectif de MOAT tant de rendre le processus dindexation smantique
le plus simple possible et accessible au plus grand nombre, nous sommes ici face une
contradiction en confrontant directement lutilisateur la notion dURI (confrontation
encore plus gnrale avec notre vision dun systme ne dstabilisant pas les utilisateurs) ;
en admettant quil nexiste pas de concept relatif la signification souhaite, il est
ncessaire de passer par un outil annexe pour crer celui-ci, puis de retourner ensuite
au client MOAT pour associer le tag lURI de linstance nouvellement cre.
Pour prendre en compte ces deux problmatiques, le client MOAT mis en place dans le
cadre de la plate-forme a t adapt de la manire suivante. Tout dabord, puisque notre
approche se base principalement sur lutilisation de concepts instancis en interne, notamment via les wikis identifis prcdemment, nous proposons en lieu et place des URIs dafficher les labels des diffrentes significations proposes58 . Ceci rend linterface beaucoup plus
conviviale en termes de validation du concept (classe ou instance) appropri pour un tag
comme lillustre la figure qui suit (Figure 4.21, page 177). Pour aller plus loin, on peut imaginer un lien (voire une pop-up), qui affiche une description plus complte du concept, en
utilisant diffrentes proprits dfinies pour celui-ci (par exemple dct:description). Notons galement que lorsque le tag utilis est non ambigu et dj associ un concept, le lien
est pr-valid pour simplifier la dmarche dannotation smantique, lutilisateur naccdant
ainsi cette interface de validation que si le concept associ ne lui convient pas.

Figure 4.21: Choix dun concept pour dsambiguser un tag au sein du client MOAT Athna
58

Notons que nous pourrions envisager ce type dinterface pour les donnes du Web, mais un cot plus
important puisquil faudrait dfrrencer chaque URI, identifier son label, etc. Pour simplifier cette tche, nous
avons rcemment mis en place le service SPARCool, qui permet de construire ce genre de requtes en appelant
une simple URL fournissant directement le code HTML correspondant http://sparcool.net.

177

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Lorsquaucune URI ne convient, comme cest par exemple le cas pour le tag GDF-Suez
dans cet exemple, lutilisateur a la possibilit de passer une interface avance qui lui permet de parcourir la taxonomie des classes associe nos diffrentes ontologies afin de choisir la classe ou linstance signifiante associe ce tag. Ici, ces diffrentes classes et instances
sont nouveau identifies par leur label, les URIs associes tant masques lutilisateur
(Figure 4.22, page 178).

Figure 4.22: Parcours de la taxonomie des classes pour dfinir une nouvelle signification
Si nouveau aucune URI nest disponible pour reprsenter la signification souhaite,
linterface permet la cration dune nouvelle instance59 . Lutilisateur a alors la possibilit de
slectionner une classe, le systme demandant alors sil souhaite :
associer le tag la classe, i.e. considrer la classe comme la signification de ce tag, par
exemple pour un tag gnrique entreprise qui serait associ foafplus:Company ;
associer le tag une nouvelle instance de la classe en question, e.g. dans notre exemple
choisir dassocier GDF-Suez une nouvelle instance de foafplus:Company. Dans ce
cas, linstance est automatiquement cre et type selon la classe choisie et lutilisateur
a la possibilit de dfinir un label plus parlant que le tag lui-mme afin didentifier la
nouvelle instance (Figure 4.23, page 179).
Dans les deux cas, le tag est associ cette nouvelle URI via MOAT, la fois localement
(pour laction de tagging en cours) et globalement (au sein du serveur).
Cette interface permet de plus de visualiser lensemble des tags associs un concept. On
peut ainsi voir que trois tags diffrents sont associs linstance W3C (Figure 4.24, page 179),
lun dentre eux ayant t comme nous lavons dit assign automatiquement via UfoWiki
partir du label de cette instance.
59

178

On retrouve galement ce type dinterface de cration dinstance partir de tags dans SweetWiki.

4.3 Du tagging lindexation smantique

Figure 4.23: Cration dune nouvelle instance et association dun tag via le client MOAT

Figure 4.24: Visualisation des diffrents tags associs un concept

LODr : Indexation smantique pour des contenus Web 2.0 existants


Si les deux interfaces prcdentes proposent des possibilits dannotations smantiques
avec MOAT pour des documents crs spcifiquement au sein des plates-formes associes, il
nous a sembl pertinent de proposer un moyen dutiliser ces mmes principes pour indexer
smantiquement des donnes prsentes sur le Web. Nous avons ainsi dvelopp lapplication LODr [Passant, 2007a] permettant dannoter, via MOAT, des contenus produits depuis
diverses applications Web 2.0 : Flickr, SlideShare, Delicious, etc.
Le principe de lapplication, qui repose galement sur la notion de clients et de serveur
de tags, est le suivant (Figure 4.25, page 180) :
un utilisateur installe lapplication LODr60 sur son serveur Web, et sidentifie via son
URI principale (e.g. http://apassant.net/alex). A partir de cette URI, lapplication va identifier les diffrents services Web 2.0 auquel cet utilisateur a souscrit, en
supposant que cette URI soit drfrenable et que ces informations y soient fournies
en utilisant foaf:holdsAccount (Section 3.1.4, page 94). Cette premire tape permet
galement dviter la notion de social network fatigue voque prcdemment (Section
60

http://code.google.com/p/moat-project/

179

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES

Serveur MOAT

Production

Aggrgation
Client LODr
Contenu Web 2.0 taggu et distribu

Annotations RDF interconnectes

Figure 4.25: Architecture de LODr

3.1.5, page 96) et met en avant lutilisation de FOAF comme point daccs central
diffrentes activits en ligne. Notons galement qu la diffrence de Faviki, LODr
permet un utilisateur de continuer utiliser ses applications favorites pour publier
et annoter ses contenus ;
partir de ces diffrents profils, lapplication va identifier les flux RSS correspondants
chacun dentre eux61 . Ces flux sont alors agrgs au sein du client et immdiatement
traduits en RDF en utilisant SIOC, FOAF et la Tag Ontology via un systme dadaptateurs propre chaque service. Des adaptateurs sont ainsi disponibles pour Flickr,
Delicious, SlideShare, Bibsonomy ou encore Twitter, et il est relativement ais den
crire de nouveaux (une vingtaine de lignes de code). Par ailleurs, nous nous sommes
ici aperu que ces diffrents services avaient des manires relativement distinctes de
modliser les tags dans leurs flux RSS, certains utilisant une proprit dc:subject,
dautres leur propre proprit, etc., renforant le besoin dune smantique commune
pour reprsenter ceux-ci (Section 3.3.1, page 121). Une fois ces donnes traduites et reprsentes en RDF au sein de lapplication, chaque lment de flux est immdiatement
export en RDFa au sein de linterface de visualisation, offrant un premier niveau de
smantique commune pour des outils et silos de donnes initialement distincts et aux
formats htrognes ;
enfin, lutilisateur a la possibilit dassocier les diffrents tags utiliss des concepts
existants en suivant les principes de MOAT et via une interface similaire celle propose par le client Drupal (Figure 4.26, page 181). Cette interface a cependant lavantage
de pouvoir : (1) se greffer diffrents endpoints SPARQL pour suggrer des concepts
en fonction du tag utilis et (2) de proposer un label humainement lisible pour le tag
partir du moment o le concept associ est dj utilis au sein de lapplication, les
annotations RDF qui lui sont associes tant alors intgres au sein du client.
61

180

Ce processus seffectuant ensuite de manire rgulire.

4.3 Du tagging lindexation smantique

Figure 4.26: Assignation dune URI un tag particulier avec LODr

Ces trois tapes permettent ainsi de passer de contenus Web 2.0 disjoints et annots via
de simple mots-cls un ensemble de graphes RDF interconnects et utilisant des URIs de
rfrence, permettant leur dcouverte et leur exploitation de manire avance, comme nous
le verrons dans le chapitre qui suit (Section 5.4.3, page 219). Signalons galement quune
fois les contenus annots de cette manire, lapplication permet de visualiser un nuage de
concepts, en plus du traditionnel nuage de tags, celui-ci tant gnr partir des labels
(rdfs:label) des diffrentes instances annotantes et pouvant de ce fait tre visualis en
plusieurs langues (Figure 4.27, page 181). Le problme de multilinguisme est ainsi pris en
compte en passant des tags au URIs, non seulement pour la pose de tags mais aussi pour
leur visualisation.

Figure 4.27: Nuage de concepts avec LODr

181

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
Serveur de tags et protocoles de communication
La notion de serveur de tags joue un rle central au sein du processus dindexation smantique li MOAT. Cest en effet en son sein que vont tre stockes les diffrentes significations globales des tags et cest par son intermdiaire quelles sont dlivres aux clients.
Ces significations, reprsentes sous forme dannotations RDF dfinies avec MOAT (Listing 3.15, page 130), sont stockes au sein du serveur non pas sous forme de fichiers (e.g.
un fichier associ chaque tag) mais dans un entrept de donnes RDF. Notre implmentation dun serveur MOAT est crite en PHP et est galement disponible librement62 . Plutt
que de dpendre dun entrept spcifique, le serveur dispose dune interface qui lui permet de se greffer sur diffrentes solutions logicielles existantes. Deux entrepts sont pour le
moment supports : ARC263 et 3store64 . Ladaptateur ARC2 est en ralit un adaptateur gnrique qui permet de sadapter nimporte quel entrept supportant les langages SPARQL
et SPARUL pour lajout de nouvelles donnes (avec sa clause LOAD) (Section 5.1.3, page 195).
Linteraction client-serveur, aussi bien en lecture quen mise jour, repose exclusivement sur
le protocole HTTP et sur les principes darchitecture REST Representational state transfer
[Fielding, 2000] ce qui rend assez simple son intgration au sein de systmes Web 2.0 existants, puisquil nest pas ncessaire de repenser larchitecture applicative. Enfin, la communication entre clients et serveur se fait par lchange de graphes dannotations MOAT, RDF
tant ici idalement utilis comme format dchange entre diffrents composants logiciels.
Concernant la dfinition des tags et linterrogation du serveur pour en obtenir la liste des
significations globales, nous utilisons les principes dfinis par [Berners-Lee, 2006b], notamment avec des URIs drfrenables pour chacun dentre eux. chaque URI de tag est donc
associe sa reprsentation, i.e. la description du tag (label) et ses diffrentes significations
globales. Ceci permet pour chaque tag didentifier simplement les diffrentes significations
globales qui lui sont rattaches, chaque tag portant de cette manire lui-mme la smantique qui lui est associe. La reprsentation renvoye dpend galement de lagent logiciel
qui effectue la requte, renvoyant ainsi partir de lURI dun tag soit une description HTML,
soit une description RDF. Il est galement possible dobtenir une reprsentation JSON65 du
tag, toujours dans cette optique de faciliter le travail des dveloppeurs qui nont ainsi pas
apprhender les principes de reprsentation RDF, tout comme pour lAPI SIOC.
Pour chaque tag, nous disposons donc :
dune URI drfrenable qui lidentifie, dtermine en fonction de ladresse du serveur et du label du tag, par exemple http://tags.moat-project.org/tag/sparql ;
dune description RDF, e.g. http://tags.moat-project.org/tag/sparql/rdf ;
dune description HTML, e.g. http://tags.moat-project.org/tag/sparql/html ;
dune description JSON, e.g. http://tags.moat-project.org/tag/sparql/json.
Pour ce dernier point, nous avons galement dfini la possibilit dajouter un paramtre supplmentaire light, permettant de dlivrer une description plus lgre ne
62

http://moat-project.org/server
http://arc.semsol.org
64
http://threestore.sf.net
63

65

JSON JavaScript Object Notation est en effet un format de reprsentation populaire dans les applications
Web 2.0 permettant la reprsentation dobjets structurs en JavaScript. http://json.org

182

4.4 Retour sur lutilisation de MOAT dans notre contexte dEntreprise 2.0

prenant pas en compte la composante sociale (via FOAF) des assignations entre tags et
URIs, par exemple http://tags.moat-project.org/tag/sparql/json/light ;
La mise jour du serveur, i.e. lajout de nouvelles significations globales, seffectue selon
des principes similaires, le client envoyant les nouvelles significations au serveur qui les
stocke en son sein.
Un autre aspect qui nous semble important et qui nest pas pour le moment pris en
compte dans les diffrentes implmentations MOAT (client ou serveur) est la prise en compte
du rseau social de lutilisateur pour affiner la suggestion des tags. Comme nous lavons vu,
le modle MOAT associe en effet chaque signification globale lensemble des utilisateurs
ayant considr celle-ci (Section 3.3.3, page 128). Ainsi, il est imaginable de renvoyer non
pas toutes les significations possibles pour un tag lorsque lutilisateur interroger un serveur,
mais uniquement celles dfinies par des personnes dfinies comme proches, par exemple
avec la proprit foaf:knows ou en utilisant des notions de groupes dintrt, pouvant tre
galement reprsents avec FOAF ou SIOC. Ceci nous semble particulirement pertinent
dans un contexte dEntreprise 2.0 : en supposant que diffrentes communauts utilisent le
mme serveur, un utilisateur de la communaut solaire se verra suggrer en priorit les significations de personnes de sa communaut. Nous pensons que cette mthode permettra
de proposer des suggestions de significations pertinentes, puisque centre sur une communaut dintrt plus restreinte et associe lutilisateur en faisant la demande.
4.4

R ETOUR SUR L UTILISATION DE MOAT DANS NOTRE CONTEXTE D E NTREPRISE 2.0

Pertinence dune telle approche


Un critre important en termes dvaluation de MOAT nous semble tre la manire dont
il permet de rsoudre les problmatiques voques auparavant quant aux systmes base de
tags (Section 2.2.3, page 63). Nous prsenterons plus tard les outils de recherche associs et
la manire dont ils bnficient de notre proposition pour prendre en compte ces diffrentes
problmatiques, mais donnons simplement ici quelques statistiques qui tmoignent selon
nous de lintrt dun tel modle et de la pertinence de cette notion de concepts (URIs) en
support des tags. En analysant notre folksonomie dorigine et les diffrentes annotations
RDF reprsentes avec MOAT grce au workflow et outils prsents dans ce chapitre, nous
avons constat que 1176 tags avaient t associs 715 URIs de significations diffrentes.
Comme nous lavons dj voqu (Section 2.2.3, page 63), nous navons constat que trs
peu de tags sujets aux problmatiques dambigut dans notre contexte, seul un dentre eux
tant associ plusieurs URIs66 . En contrepartie, nous avons constat un problme dhtrognit beaucoup plus prsent, comme le montre le tableau qui suit (Tableau 4.2, page 184).
On observe ainsi que si 510 URIs sur les 715 recenses ne sont pas sujettes des problmes
dhtrognit, puisquassignes un seul tags, 205 le sont. 96 instances ont ainsi t associs deux tags, 70 trois dentre eux et 39 quatre tags ou plus. Par exemple linstance dfinissant la notion de Supercapacit est associ aux tags supercapacit, supercondensateur,
ultracapacit, ultracapacitor, ultracondensateur. On retrouve ici aussi bien des
66

Notons que cela ne signifie pas quun seul tag est ambigu dans la folksonomie, puisque seuls 1176 tags sur
un total de 12257 ont t ici considrs.

183

C HAPITRE 4 : A NNOTATIONS SMANTIQUES ET PEUPLEMENT COLLABORATIF


D ONTOLOGIES
variations de synonymie (supercondensateur, ultracondensateur, etc.) que des variations causes par la nature multilingue des tags (ultracapacit, ultracapacitor). Nous
avons galement observ que si cette htrognit est en gnral le fait de plusieurs utilisateurs annotant avec diffrents tags, elle peut galement merger un niveau personnel.
Ainsi, dans lexemple prcdent, trois utilisateurs ont permis darriver cette htrognit,
lun dentre eux utilisant trois tags distincts. Nous avons plus particulirement constat
cette htrognit personnelle au niveau de tags et dinstances reprsentatifs de noms de
personne (nom complet et nom de famille), de zones gographiques (par exemple USA et
tats-unis et de technologies (synonymie, multilinguisme mais aussi abrviations).
Il nous semble ainsi que notre approche consistant utiliser des reprsentations formelles en support de ces tags pour dfinir leur signification prend tout son sens. Nous verrons plus tard de quelle manire un moteur de recherche ddi aux diffrents documents
annots dans le cadre de notre plate-forme tire bnfice de MOAT pour prendre en compte
ce problme abondant dhtrognit.
Nombre de tags associs lURI
1
2
3
4 et plus

Nombre dURIs correspondant


510
96
70
39

Tableau 4.2: Distribution des tags au sein de la plate-forme Herms

Adoption de MOAT sur le Web


En termes dadoption, bien que le modle soit utilis dans certaines applications (en
dehors de celles que nous avons dveloppes (Section 4.3, page 171)) comme par exemple
Openlink Data Spaces ou GroupMe, nous devons reconnatre que limpact de MOAT sur
le Web est beaucoup moins important que celui de SIOC (Section 3.1.6, page 101). Cependant, lide dfendue ici et initie avant la dfinition de MOAT et des outils associs
[Passant et al., 2006] [Passant, 2007c] savoir lutilisation de connaissances formelles, non
ambigus et interoprables en support des systmes base de tags a t rcemment intgre au sein du standard Common Tag67 , auquel nous avons contribu et dont un des
objectifs est de simplifier et populariser cette ide de tags smantiques sur le Web. Men par
diffrents acteurs du Web 2.0 et du Web Smantique (AdaptiveBlue68 , DERI Galway, Faviki,
FreeBase, Yahoo ! SearchMonkey, Zemanta et Zigtag) il vise proposer un modle certes
moins complet que ceux dfinis prcdemment mais en contrepartie beaucoup plus simple
prendre en main69 , dans un objectif dadoption grande chelle de cette pratique au sein
doutils Web 2.0, principalement via des annotations RDFa pour reprsenter ces liens entre
67

http://commontag.org
http://www.adaptiveblue.com/
69
http://commontag.org/ns
68

184

4.4 Retour sur lutilisation de MOAT dans notre contexte dEntreprise 2.0

tags et URIs. Le modle propos est par ailleurs align avec certains vocabulaires prsents
ici, dont MOAT70 .
C ONCLUSION
Dans ce chapitre, nous avons prsent diffrents outils permettant la production dannotations smantiques partir doutils Web 2.0. Nous avons tout dabord prsent diffrentes
applications ddies la production automatise dannotations socio-structurelles depuis
les blogs, wikis et flux RSS via des alignements entre ontologies et structure internes. Nous
avons ensuite dtaill UfoWiki, plate-forme de wikis enrichie de fonctionnalits permettant
le peuplement dontologies via un systme assist dannotations, en prsentant notamment
la manire dont cet outil permettait de sintgrer plus globalement dans la vision dun Web
of Data. Nous avons galement pu voir la manire dont cet outil a t adopt dans notre
contexte afin de permettre un peuplement collaboratif dontologies de domaine. Enfin, nous
avons prsent les diffrents processus et outils associes MOAT, permettant de passer
dun processus simple de tagging la production dannotations smantiques dans un but
dindexation de contenus Web 2.0 via des URIs de classes ou dinstances dontologies.
Ainsi, il est important de garder en tte le rle jou par lutilisateur final dans ces diffrents outils, quil soit acteur pour la production dannotations (cas des wikis et de MOAT)
ou bien quil soit pris en compte dans les annotations elles-mmes (production automatise dannotations socio-structurelles). Cette convergence entre Web 2.0 et Web Smantique
est ainsi rendue possible en prenant en compte aussi bien le facteur humain que limplmentation logicielle, lutilisateur ayant un rle primordial jouer dans la russite de cette
convergence. Nous allons maintenant, dans le chapitre qui suit, nous intresser la manire
dexploiter ces diffrentes annotations.

70

http://commontag.org/mappings

185

Chapitre 5

Intgration et utilisation dannotations


smantiques distribues
I NTRODUCTION
Alors que nous avons dtaill dans le prcdent chapitre la production dannotations smantiques depuis diffrents outils, nous allons ici nous concentrer sur leur utilisation. Plus
particulirement, nous allons voir en quoi ces annotations permettent la mise en place de
services innovants en termes dintgration de donnes, de navigation et daccs linformation. Ce chapitre permettra ainsi de voir lapport concret de la mthodologie SemSLATES et
de lutilisation des technologies du Web Smantique au sein de systmes dEntreprise 2.0.
Pour dbuter, nous reviendrons sur la nature distribue des annotations que nous cherchons utiliser, organisation due la nature mme des processus dannotations (Section 4,
page 137). Nous prsenterons diffrentes mthodes permettant dexploiter ces donnes ainsi
rparties et argumenterons notre choix de disposer dun entrept de donnes au cur de
larchitecture de mdiation. Nous dtaillerons galement les critres que nous avons pris en
compte pour le choix de celui-ci parmi les solutions existantes sur le march. Enfin, nous insisterons sur son intgration au sein de larchitecture existante. Plus particulirement, nous
dtaillerons les protocoles de communication mis en place qui nous permettent de disposer
dun niveau dabstraction tel que larchitecture est indpendante de lentrept lui-mme,
aussi bien en termes dintgration de donnes que de services venant exploiter celles-ci.
Puisque cest ici ce qui nous intresse, nous allons ensuite dtailler diffrents services
exploitant ces annotations. Tout dabord, nous nous concentrerons sur la manire dont UfoWiki (Section 4.2.2, page 154) tire bnfice des diffrentes annotations produites en son sein.
Nous verrons plus particulirement comment ces annotations sont utilises pour la mise en
place de pages dynamiques via un processus de macros smantiques (Section 5.2.1, page
199). Ces macros, qui peuvent tre contextualises (Section 5.2.2, page 204), permettent notamment de masquer lutilisateur la complexit des requtes SPARQL associes linterrogation de ces graphes dannotations. Nous verrons galement comment ces annotations sont
utilises pour la mise en place de processus avancs de visualisation, au travers dinterfaces
facettes et de mash-ups smantiques combinant instances dontologies peuples depuis les
wikis et donnes RDF publiques (Section 5.2.3, page 206).
Ensuite, nous verrons comment ces annotations permettent, en couplant diffrents niveaux de reprsentation (SIOC, MOAT et ontologies du domaine), dinterconnecter blogs
187

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

et wikis, deux lments distincts en termes doutils mais lis par les donnes auxquelles ils
font rfrence (Section 5.3.1, page 210). Cette interoprabilit nous permet de rpondre
la problmatique de fragmentation dinformations au sein de systmes dEntreprise 2.0, o
les informations au sujet de diffrents objets sont rparties entre plusieurs services. Nous
montrerons ensuite (1) en quoi il est possible dutiliser ces annotations pour lindexation
automatique de flux RSS entrants (Section 5.3.2, page 212) et (2) de quelle manire elles permettent daugmenter lexprience utilisateur en termes de navigation des contenus internes
via un systme de projection des connaissances (Section 5.3.3, page 214).
Enfin, nous dtaillerons les principes et la mise en place dun moteur de recherche smantique intgr au sein de cette architecture de mdiation (Section 5.4, page 215). Nous
expliciterons tout dabord ce que nous entendons par recherche dinformation sur le Web
Smantique et dtaillerons ensuite le fonctionnement de ce moteur et la manire dont il tire
bnfice des diffrentes annotations produites et des ontologies associes, tout en masquant
nouveau la complexit du systme aux utilisateurs. Pour finir, nous montrerons aussi comment il est possible dexploiter cette smantique pour tendre la recherche dinformation et
suggrer de nouveaux concepts, en se basant sur les relations existantes au sein des graphes
dannotations.
5.1
5.1.1

S TOCKAGE DES DONNES ET PROTOCOLES ASSOCIS


De la ncessit dun entrept de donnes

Comme nous lavons vu au travers des chapitres prcdents, notre proposition dcosystme smantique pour lEntreprise 2.0 repose sur (Figure 5.1, page 189) :
diffrents outils destins la production et ldition de contenus (blogs, wikis, agrgateur RSS) pour lesquels les actions utilisateur et la composante sociale jouent un rle
important (Section 2.1, page 50) ;
des graphes dannotations smantiques produits partir de ces outils, relatifs dune
part la structure et aux interactions sociales qui en dcoulent et dautre part au
contenu mme des documents produits via ces outils (Section 4, page 137) ;
un ensemble cohrent dontologies lgres venant en support de ces diffrentes annotations, o lon distingue notamment celles ddies la reprsentations des mtadonnes socio-structurelles de celles portant sur donnes mtier (Section 3, page 83).
Lensemble des donnes RDF(S)/OWL ainsi produites et utilises forme ainsi un unique
graphe de reprsentation via des liens directs entre instances ou par lutilisation dontologies communes. Or, celui-ci en plus dtre relativement complexe du fait des diffrents
niveaux de reprsentation quil prend en compte est fortement distribu au sens o les
diffrents sous-graphes (i.e. les documents RDF) qui le composent sont rpartis dans lcosystme smantique mis en place. En effet, chaque document produit correspond un ou
plusieurs pour les wikis graphe(s) dannotations, stocks au niveau de loutil dorigine,
les ontologies tant elles stockes au sein dun serveur central, certaines tant cependant
rparties sur le Web (Figure 5.2, page 190).
Comme nous lavons mentionn auparavant (Section 2.3, page 69), nous avons fait le
choix de ne pas interroger la vole les diffrents graphes dannotations mais de stocker
188

5.1 Stockage des donnes et protocoles associs

Annotations sociostructurelles

Ontologies sociostructurelles

Donnes mtier

Ontologies mtier

rdf:Resource

sioct:WikiArticle

rdfs:subClassOf

Ontologies

rdfs:subClassOf
rdfs:subClassOf

sioc:topic

skos:Concept

rdf:type
sioc:Post

rdfs:subClassOf

rdfs:subClassOf

role:Domain

athena:domaine

foaf:Agent

sioct:BlogPost

rdf:type
rdf:type

rdf:type
skos:narrower

Annotations

athena:EnergieSolaire
athena:PanneauPhotovoltaique

role:hasDomain
role:hasRole

rdf:type

moat:taggedWith

athena:roleX
athena:EDF

http://athena/blog/
post/113
athena:embedsKnowledge
http://athena/
wiki/page/6
formalisation en RDF
(aprs validation MOAT)

Actions

Billet de
blog sur le
photovolta
que

rdaction

formalisation en RDF
(wiki smantique)
PV

tag

Page wiki
sur EDF et
l'energie
solaire

rdaction

Figure 5.1: Vision globale des actions, annotations et ontologies dun cosystme smantique
pour lEntreprise 2.0

189

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

utilise

Annotations smantiques
et ontologies

SIOC

FOAF

Ontologies

Geonames

utilise
FOAFPlus

Role
utilise

Annotations RDF

utilise
Web

Server interne
d'ontologies
produit
produit

Plate-forme de
blogs

produit

produit
produit

S.I. Entreprise 2.0

Serveur de wikis

hyperlien
Billet 2

cre

Page wiki 2

contient

a pour tag
EDF

Wiki A

Figure 5.2: Rpartition des ontologies et annotations au sein du systme

ceux-ci au sein dun entrept central situ au sein de notre architecture de mdiation. Ce
choix, essentiellement motiv par des raisons de performances, fait ainsi de notre architecture une approche hybride entre les systmes de mdiation classiques (qui considrent
linterrogation de donnes la source) et les entrepts de donnes, la manire de ce que
propose par exemple [Xyleme, 2001]. Nous allons ici prsenter les diffrents arguments qui
nous ont conduits cette dcision, en dcrivant notamment les alternatives qui se sont offertes nous et les problmes quelles soulvent.
Une premire solution, si lon ne souhaite pas disposer dentrept global, est dinterroger directement les donnes la source au moment de la requte1 . Il est ici ncessaire de
considrer lensemble des annotations si lon veut disposer dune base de connaissances
exhaustive pour y rpondre2 . Ceci pose deux problmes majeurs :
il faut tout dabord accder chaque graphe dannotations et donc connatre son existence et son emplacement sur le rseau. Bien que lutilisation de liens rdfs:seeAlso
1
Tout au long de ce chapitre, nous ferons rfrence la notion de requtes SPARQL quand nous parlerons
de requtes et dinterrogation de donnes.
2
Exhaustive, et non complte, en raison de la notion de monde ouvert lie au Web et au Web Smantique.

190

5.1 Stockage des donnes et protocoles associs

offre cette possibilit (Section 4.1.3, page 143), cela implique de parcourir chaque document pour en dcouvrir de nouveaux. Nous ne disposons donc pas de moyen immdiat den obtenir une liste complte qui permettrait leur chargement en mmoire ;
de plus, les annotations tant rparties, le temps de latence lors de laccs celles-ci est
galement prendre en compte, sans parler des possibilits derreur rseau qui sont
aussi considrer. Le tout tant bien entendu li au nombre de documents prsents
dans lcosystme.
Si lon peut se satisfaire dune telle solution dans un systme ne comptant quune dizaine
voire centaine de graphes, lapproche est dlicate dans un contexte comme le ntre avec
plusieurs dizaines de milliers de graphes. Nos diffrents adaptateurs ont en effet permis la
production de plus de 17000 graphes relatifs aux billets de blog et prs de 2000 pour les
wikis, auxquels viennent sajouter les graphes dannotations produits partir des contenus
RSS. De plus, la gnration dynamique de donnes du fait de la nature mme des outils
oblige constamment identifier les nouveaux graphes produits afin de maintenir cette base
jour3 .
Malgr tout, il est sens de penser quen fonction de la requte, tous les graphes dannotations ne seront pas ncessaires pour y rpondre. Par exemple, une requte comme "Quels
sont tous les acteurs investis dans lnergie solaire" naura sans doute pas besoin des annotations
associes un billet annot par le seul concept de Centrale Nuclaire. On peut ainsi imaginer, pour rpondre une requte donne, nutiliser que les documents RDF qui comportent
des assertions juges ncessaires sa rsolution. Paradoxalement, cette solution impose une
connaissance a priori des graphes interroger en fonction des critres de recherche, impliquant par exemple un systme dindex permettant dvaluer si un graphe est ncessaire
ou non la rsolution dune requte. Ceci nous amne penser quil est tout aussi simple,
quitte centraliser des informations, de stocker directement les graphes dannotations dans
un entrept centralis, comme nous lexpliciterons juste aprs4 . De plus, une telle structure dindex est relativement complexe mettre en uvre, particulirement si lon souhaite
prendre en compte les ventuelles unions, intersections, disjonctions et autres axiomes qui
peuvent tre modliss dans les ontologies utilises en support de ces annotations.
Une autre ide, mi-chemin entre lagrgation complte de documents et la structure
dindex est de laisser le systme dcouvrir lui-mme les graphes dannotations potentiellement ncessaires la rsolution de diffrentes requtes. Cest ce que propose en partie lAPI
Semantic Web Client5 , qui permet deffectuer des requtes sur le Web Smantique partir dun point dentre unique. LAPI va dcouvrir de nouveaux graphes dannotations en
suivant les liens rdfs:seeAlso et identifier selon certains critres si ces graphes sont potentiellement utiles pour la requte dorigine6 . Afin doptimiser cette dcouverte de graphes,
lAPI permet galement lutilisation de Sindice, index du Web Smantique que nous avons
3

Devant le dynamisme des cette gnration de donnes, nous avons galement cart les solutions qui
consistent stocker en mmoire un ensemble dannotations, celles-ci tant en gnral adaptes des jeu de
donnes nvoluant pas.
4
Bien entendu, lutilisation dun entrept nempche pas lapport dun systme dindex supplmentaire
pour optimiser la rsolution de requtes.
5

http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/

Le site Web du projet dcrit lalgorithme en dtail.

191

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

introduit prcdemment7 (Section 4.3.2, page 175). nouveau, on revient ici lutilisation
dune structure centralise pour optimiser les requtes.
Devant les difficults et paradoxes soulevs par ces solutions, nous avons dcid la mise
en place dun entrept de donnes centralis au sein de notre architecture de mdiation,
stockant les diffrents graphes produits par les adaptateurs en quasi temps-rel via un protocole de communication que nous dcrirons plus loin (Section 5.1.3, page 195), proposant
ainsi une architecture pour lexploitation dannotations smantiques dans un contexte dEntreprise 2.0 [Passant et al., 2009c]. Lutilisation dun entrept coupl ces protocoles de mise
jour offre lavantage de permettre laccs aux diffrents graphes dannotations via un
unique point daccs clairement identifi et constamment jour, les problmes de dcouverte et daccs aux donnes tant donc vits. En consquence, les requtes sont tout moment rsolues en utilisant lensemble des connaissances produites au sein de lcosystme.
Le fait de disposer de cet entrept nous permet galement denvisager de meilleures performances en termes de requtes complexes qui articulent les diffrents niveaux dannotations
et dontologies utiliss dans notre cosystme.
Si lon peut reprocher cette solution une certaine redondance en termes de donnes
(les graphes dannotations tant en effet prsents la fois au niveau des outils dorigine et
au sein de lentrept, ce qui implique galement dintgrer au sein de lentrept les donnes
publiques utilises en interne, comme nous lavons vu avec UfoWiki (Section 4.2.4, page
164)), gardons lesprit que nos travaux sinscrivent dans un contexte industriel o un bon
niveau de performances est ncessaire en termes daccs linformation. Notons galement
que la russite de ce choix architectural repose sur le fait (comme nous allons le voir en
prsentant les protocoles de communication) que nous avons un certain contrle sur les
outils production de donnes. Malgr ces observations, cette solution nous semble donc
optimale dans cette approche darchitecture de mdiation smantique venant se greffer au
dessus dun systme dEntreprise 2.0 existant.
5.1.2

Besoins et choix de lentrept

La notion dentrept de donnes RDF est sans doute aussi large que celle de systme
de gestion de base de donnes relationnelles au sens o il sagit dun concept gnrique et
quil existe de nombreuses implmentations logicielles. Ainsi, bien que les outils de ce type
partagent le mme objectif de stockage et dinterrogation de donnes RDF, ils diffrent par
les fonctionnalits quils offrent ainsi que par leur manire de grer ces donnes et bien
sur par leurs performances. Bien que les diffrentes mthodes de stockage utilises (structures spcifiques, bases de donnes relationnelles, etc.) puissent jouer sur les performances,
comme lont montrs diffrents benchmarks ([Lee, 2004] [Bizer et Schultz, 2008]), nous avons
bas notre choix non pas sur ce critre mais sur un ensemble de caractristiques ncessaires
la mise en place de notre architecture. Nous avons ainsi identifi les prrequis suivants :
la gestion des graphes nomms, ou named graphs (Section 1.1.2, page 16). Un entrept supportant ceux-ci peut ainsi grer la provenance de chaque assertion RDF, chose
importante partir du moment o notre mdiateur se base sur des graphes complets
dannotations et non pas de simples triplets (i.e. nous considrons chaque triplet dans
7

192

http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/#sindice

5.1 Stockage des donnes et protocoles associs

le contexte du graphe auquel il appartient et souhaitons conserver ce contexte). Ce


support est galement un prrequis la combinaison {Gm(SI) Gd(SI) } que nous avons
introduit prcdemment (Section 2.3.2, page 71) et qui permet darticuler les diffrents
niveaux de smantique proposs dans notre approche via lutilisation de la proprit
embedsKnowledge introduite avec dUfoWiki (Section 4.2.2, page 154) ;
un support du langage de requte SPARQL. Si certains entrepts proposent leur propre
langage, nous avons fait le choix ds le dbut de baser notre architecture sur SPARQL8 .
En particulier, nos prrequis concernant SPARQL sont un support des clauses SELECT
et ASK, et des patrons FILTER et OPTIONAL (Section 1.1.3, page 25). Cest en utilisant a
minima cette sous-grammaire que nous pourrons proposer des services avancs nos
utilisateurs, comme nous le verrons par la suite avec des exemples de requtes utilises au sein de nos outils. En complment du point prcdent, le moteur SPARQL
doit galement tre en mesure de supporter la clause GRAPH qui permet dintgrer la
gestion de graphes RDF lors de requtes, par exemple pour limiter linterrogation
un certain nombre de ressources ( nouveau, nous exemplifierons ceci par la suite) ;
en complment du point prcdent, le support du protocole de communication associ SPARQL [Clark et al., 2008]. Ceci nous permet en effet dimaginer des services
dvelopps de manire indpendante de lentrept et venant interroger celui-ci via
son point daccs HTTP selon un protocole standardis ;
la disponibilit dune interface (au sens API) ou dun langage de requte permettant
lajout de donnes dans lentrept, non pas par triplet, mais toujours par graphe complet dannotations. Des efforts rcents sur ce point se concentrent autour de SPARUL
(ou SPARQL Update) [Seaborne et al., 2008] et nous reviendrons plus loin sur son utilisation dans notre contexte ;
des capacits dinfrence, a minima concernant les rgles RDFS de subsomption associes rdfs:subClassOf et rdfs:subPropertyOf (Section 1.1.2, page 21). Ce support va nous permettre, par exemple, pour une requte demandant de lister les instances de la classe foaf:Agent, de rcuprer galement les instances de foaf:Person
ou de foafplus:Company partir du moment o ces dernires subsument la premire dans la hirarchie de classes associe. Notons ici nouveau que les entrepts
qui supportent ces capacits dinfrence nemploient pas tous les mmes stratgies,
certains crant les triplets infrs lors de lajout de donnes, dautres gnrant ceux-ci
au moment des requtes.
Au moment o nous avons initi notre architecture, peu doutils proposaient lensemble
de ces fonctionnalits9 . Sesame10 offrait un support de SeRQL [Broekstra et Kampman, 2005],
alors que son implmentation SPARQL tait encore embryonnaire et ne couvrait pas la sousgrammaire que nous souhaitions. Joseki11 , entrept de donnes associ lAPI Jena ne supportait pas nativement les graphes nomms. ARC (dans sa premire version12 ) ne permettait
8

Ce choix se situant dans une stratgie plus globale dutiliser les technologies du W3C, comme nous avons
pu le voir tout au long de ce mmoire.
9
Nous avons concentr uniquement notre tude sur les solutions gratuites ou libres.
10

http://openrdf.org
http://joseki.sf.net
12
http://bnode.org/blog/2006/02/20/arc-rdf-store-for-php-ensparql-your-lamp
11

193

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

pas la gestion de linfrence, alors que RAP rendait celle-ci possible mais en contraignant
ladministrateur dfinir lui-mme les rgles, celles-ci ne pouvant paradoxalement pas tre
drives automatiquement des ontologies utilises13 .
Notre choix sest finalement port vers 3store14 [Harris et Gibbins, 2003]. Ce systme
dentrept de donnes RDF supporte en effet nativement la gestion des graphes nomms
(ainsi que leur utilisation avec SPARQL) et les possibilits dinfrence associes RDFS
(subsomption de classes et de proprits) sont automatiquement assures en fonction des
ontologies intgres lentrept. Ainsi, partir du moment o nos diffrents vocabulaires
sont pris en compte par celui-ci, la requte qui suit identifiera aussi bien des instances de
sioct:BlogPost que de sioct:WikiPage stockes au sein de lentrept, grce aux relations dfinies dans le module Types de SIOC (Section 3.1.3, page 92).
SELECT ? item
WHERE {
? item rdf : type sioc : Post .
}

Listing 5.1: Requte SPARQL pour linterrogation de donnes SIOC via un moteur
supportant les principes dinfrence RDFS
Aujourdhui, dautres entrepts nous semblent intressants considrer15 pour parvenir
aux mmes fins, comme par exemple Virtuoso [Erling et Mikhailov, 2007], AllegroGraph16 ,
Sesame2, Mulgara17 , ou encore ARC218 . Bien que ce dernier ne supporte pas linfrence nativement, il offre la possibilit de dfinir des rgles qui seront dclenches lors de lajout
de triplets afin dy parvenir19 . Virtuoso propose quant lui une indexation plein-texte des
littraux ainsi que des possibilits de raisonnement bases sur OWL. Citons galement Corese [Corby et al., 2004], qui intgre des extensions SPARQL particulirement intressantes
comme la notion de requtes par chemins, et plus uniquement par patrons de triplets. Au
vu de cette liste, notons que les protocoles utiliss dans notre architecture pour permettre
aux diffrentes sources de communiquer avec lentrept (Section 5.1.3, page 195) sont indpendants de loutil utilis et permettent ainsi un remplacement simple de celui-ci sans avoir
napporter de modification au reste de larchitecture. Enfin, sil est probable que ces outils
auront des performances suprieures celui que nous utilisons actuellement, gardons en
mmoire comme lont montr [Bizer et Schultz, 2008], quil nexiste pas dentrept idal et
que les performances compares varient grandement en fonction du jeu de donnes, de leur
nombre et du type de requtes que lon souhaite faire.
13
14
15
16

http://apassant.net/blog/2006/03/08/relationship-vocabulary-phoaf-rap-inference-engine
http://threestore.sf.net
Toujours parmi les solutions gratuites ou libres.

http://agraph.franz.com/allegrograph/
http://mulgara.org/
18
http://arc.semsol.org
19
http://apassant.net/blog/2008/10/01/lightweight-subpropertyof-subclassof-inference-arc2
17

194

5.1 Stockage des donnes et protocoles associs

5.1.3

Protocoles de communication

Comme nous lavons dj voqu, il est ncessaire que les donnes stockes au sein de
lentrept soient constamment jour par rapport aux donnes produites afin de proposer
des services optimaux aux utilisateurs. La composante industrielle de tels cosystmes smantiques pour lEntreprise 2.0 impose en effet un accs pertinent linformation, la fracheur et la temporalit de celle-ci jouant un rle important dans cette pertinence. Du fait
de la structure dynamique et volutive des diffrents outils mis en place (qui dcoule des
interactions sociales auxquelles ils sont lis) et de lobjectif de signalement quils visent
satisfaire (notamment les blogs) il est en effet peu pertinent davoir un laps de temps trop
important entre leur cration et leur stockage, celui-ci tant ncessaire leur interrogation.
Ainsi, un systme classique de dcouverte de nouveaux contenus via un processus de
crawling lanc intervalles rguliers ne permet pas de satisfaire totalement notre objectif, du
fait du dcalage qui existe ncessairement entre la production de contenus et leur intgration
dans les outils de recherche. Ce mme problme de fracheur et de dcouverte des donnes
RDF se pose galement sur le Web, o la distribution est encore plus large et rend le crawling
dautant plus complexe [Harth et al., 2006]. Pour aider cette dcouverte, une solution pour
les producteurs de donnes consiste fournir des informations au sujet de la prsence de
nouvelles annotations. Ceci peut se faire par exemple avec lutilisation du protocole Semantic Sitemaps [Cyganiak et al., 2008] qui permet dindiquer lemplacement de donnes RDF
au sein dun site dans un format interprtable par ces crawlers. Cependant, il existe toujours
un delta entre la production et le stockage des annotations.
Une autre possibilit, cette fois proactive, est la notion de signalement de ressources,
processus mis en avant avec lavnement des blogs et des services comme Technorati ou
blo.gs20 . Dans ce contexte, les blogueurs peuvent configurer leurs outils afin quils envoient
automatiquement un signalement (ou ping) ces services chaque nouveau document cr.
Concernant les donnes RDF, le service Ping The Semantic Web21 (PTSW) sinscrit dans ce
contexte de signalement adapt au Web Smantique. De la mme manire quexpos prcdemment avec les blogs, les services produisant des annotations RDF ont la possibilit
de signaler ceux-ci PTSW, qui constitue ainsi un index librement accessible de documents
RDF rcemment produits sur le Web. Ce signalement peut en outre tre effectu directement par les utilisateurs naviguant sur le Web, via lutilisation du plug-in Firefox Semantic
Radar22 , qui va notifier PTSW de la prsence de documents RDF dcouverts lorsque lutilisateur navigue simplement sur le Web. On retrouve ici nouveau les principes darchitecture
de participation appliqus au Web Smantique puisque par simple navigation volontaire
du Web, un index de documents RDF se forme, celui-ci pouvant tre utilis pour la mise
en place de diffrents services. Ces services peuvent par ailleurs tre considrs comme le
dernier maillon de ce que nous considrons tre une chane complte de production, dcouverte et consommation de documents sur le Web Smantique [Bojars et al., 2007b] (Figure 5.3, page 196).
20

http://blo.gs
http://pingthesemanticweb.com
22
http://sioc-project.org/firefox
21

195

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

Figure 5.3: Architecture associe PTSW pour lindexation et la dcouverte de documents


RDF sur le Web Smantique [Bojars et al., 2007b]

Par exemple, nous avons mis en place le service doap:store23 [Passant, 2007b] qui rcupre les descriptions RDF de diffrents projets open-source (modlises avec le vocabulaire
DOAP Description Of A Project24 ) depuis PTSW afin de proposer un annuaire ouvert et distribu de projets logiciels comptant aujourdhui plus de 9725 projets et 4645 graphes25 . Outre
le caractre volutif de lannuaire grce un systme rgulier dinterrogation de PTSW pour
la dcouverte de nouveaux projets, le principal avantage que nous voyons dans lutilisation
de cette chane de traitement est quelle rsout en partie la problmatique de dcouverte de
sources de donnes pertinentes pour btir une application du Web Smantique, permettant
de se concentrer sur lapplication elle-mme. Ainsi, nous avons pu dans doapstore nous
intresser la mise en place dune interface intuitive pour parcourir diffrentes descriptions RDF de projets logiciels, visualisables sous la forme de simples fiches synthtiques. Le
systme propose galement un nuage de tags extrait des diffrentes annotations de chaque
projet ainsi quun moteur de recherche ddi (Figure 5.4, page 197). Si lensemble de lapplication repose donc sur un ensemble de graphes dannotations RDF, leur stockage au sein
dun entrept de donnes (utilisant ici OpenLink Virtuoso) et sur lutilisation de SPARQL
pour produire les diffrentes interfaces de recherche et de navigation, lapproche est compltement transparente pour lutilisateur.
23

http://doapstore.org
http://trac.usefulinc.com/doap
25
http://doapstore.org/about.php
24

196

5.1 Stockage des donnes et protocoles associs

Figure 5.4: doap :store : Annuaire et interface de visualisation de projets logiciels modliss
avec DOAP
En reprenant les principes de cette approche de signalement et en les appliquant lEntreprise 2.0, nous avons donc propos et mis en place au sein de notre architecture un systme similaire entre les diffrents outils producteurs dannotations RDF et le mdiateur. La
principale diffrence avec PTSW se situe dans le fait quau lieu de constituer une liste des
documents RDF partir de ces signalements, les notifications permettent directement la
mise jour de lentrept avec lajout en temps-rel de ces documents au sein de celui-ci. Le
signalement (et les actions qui sen suivent au niveau de lentrept) ne sont en outre pas
limits la cration de documents, mais sadaptent galement aux actions de modification
et de suppression. Un scnario classique de signalement et dindexation est ainsi le suivant :
un utilisateur cre, commente, supprime ou modifie un document, ce qui entrane
la cration ou la modification du (ou des pour les wikis) graphe(s) dannotation(s)
associ(s) ;
loutil envoie alors un signal au mdiateur pour linformer de la cration du ou des
graphe(s) ainsi cr(s) ;
le mdiateur reoit le signalement et indexe le ou les graphe(s) cr(s) au sein de
lentrept (en cas de cration ou modification) ou bien les supprime (suppression
du document). Dans le cas dun commentaire, le graphe dannotations du commentaire nouvellement cr est ajout lentrept, celui-ci contenant des assertions RDF
(sioc:reply_of) permettant de faire le lien avec le document dorigine ;
En ce qui concerne les donnes externes lentreprise intgres au sein du systme,
celles-ci sont stockes au sein de lentrept lors de leur premire utilisation26 . Si ncessaire,
des informations additionnelles sont galement stockes, comme par exemple les descrip26

Notons quil est ncessaire de sassurer que ces donnes sont disponibles sous des licences qui permettent
une telle utilisation.

197

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

tions RDF de lensemble des zones gographiques parent dune zone donne (identifies
transitivement avec geonames:parentFeature). Ici, le systme de signalement ne peut
cependant pas tre utilis ici pour indiquer lentrept que ces donnes sont mises jour
sur le Web. Une re-intgration rgulire est donc ncessaire, et on peut imaginer optimiser celle-ci en consultant Ping The Semantic Web ou Sindice pour sassurer de ne prendre en
compte que les donnes modifies depuis leur dernier import.
Alors que 3store dispose dune API spcifique pour lajout de graphes dannotations
dans lentrept, nous avons choisi de rendre notre approche plus gnrique et de ne pas
dpendre dune API propre lentrept utilis. Nous nous sommes ainsi bass sur SPARUL,
langage de mise jour de donnes RDF, et son protocole HTTP associ. Alors que SPARQL
permet dinterroger les donnes RDF dun entrept, SPARUL propose leur mise jour via
des principes similaires. Ainsi, nous avons implment une partie de la grammaire SPARUL
au sein de 3store, en loccurrence le support des clauses LOAD <graph>, DROP <graph>
qui permettent respectivement lajout et la suppression dun graphe dannotations au sein
de lentrept27 . Signalons que si SPARUL nest pass que rcemment au statut de Member
Submission au W3C 28 , la proposition initiale nous a permis dutiliser ses principes assez
tt29 .
Ainsi, les interactions au sein de notre architecture entre les diffrents outils et lentrept
se font dune part avec SPARQL pour linterrogation de donnes et dautre part SPARUL
pour leur mise jour et suppression, en utilisant dans les deux cas les protocoles HTTP
associs par lintermdiaire du point daccs SPARQL/SPARUL de lentrept. De ce fait,
nimporte quel entrept supportant SPARQL et SPARUL via HTTP peut tre utilis dans
notre systme30 , larchitecture tant ainsi comme nous lavons voque compltement indpendante des outils mais reposant uniquement sur un ensemble de langages et protocoles
standardiss. Cette couche dabstraction nous permet donc au final davoir un systme compltement indpendant de loutil utilis pour le stockage de donnes comme le montre la
figure qui suit (Figure 5.5, page 199) et peut se gnraliser tout cosystme smantique
dEntreprise 2.0 alors compos :
dadaptateurs qui informent le mdiateur de la prsence de nouveaux graphes dannotations dans une optique de stockage (SPARUL) ;
des services externes qui viennent utiliser ces annotations dans un objectif de requtes,
navigation ou visualisation (SPARQL).
27

Ces modifications ont rcemment t intgres 3store. http://threestore.svn.sourceforge.net/


viewvc/threestore?view=rev&revision=8
28
http://www.w3.org/Submission/2008/SUBM-SPARQL-Update-20080715/
29
http://jena.hpl.hp.com/~afs/SPARQL-Update.html
30

198

Ceux-ci sont de plus en plus nombreux, comme Virtuoso ou ARC2.

Entrept RDF
du mdiateur

Interface
SPARQL

Stockage des graphes


d'annotations cres

Interface
SPARUL

5.2 Enrichissement des fonctionnalits des wikis

Requte sur les graphes


d'annotations scocks

Mdiateur

Figure 5.5: Protocoles dabstraction au-dessus de lentrept de donnes du mdiateur

5.2

E NRICHISSEMENT DES FONCTIONNALITS DES WIKIS

5.2.1

Utilisation de macros smantiques pour lutilisation dannotations

Principes des macros smantiques au sein dUfoWiki


Dans le chapitre prcdent, nous avons prsent les diffrentes fonctionnalits offertes
par UfoWiki en termes de publication de donnes et de peuplement dontologies (Section
4.2.2, page 154). Si celles-ci permettent dassurer le maintien dun ensemble de graphes dannotations RDF, elles noffrent pas directement la possibilit den bnficier. Or, il est vident
que ces annotations ont un rle jouer en termes denrichissement des fonctionnalits offertes par les wikis. Afin den tirer profit et ce de la manire la plus transparente qui soit
pour les utilisateurs, nous avons rflchi la mise en place dun systme de macros smantiques, permettant dintgrer dynamiquement au sein des pages les rponses diffrentes
requtes SPARQL. Un exemple relativement simple de macro peut tre une fonction listant
lensemble des associations connues au sein dun wiki, via lidentification des diffrentes
instances de foafplus:Association cres. Plus complexe, on peut imaginer une macro
qui liste les diffrents acteurs dun domaine donn localiss dans une rgion particulire.
Ce systme de macros nest pas une originalit propre UfoWiki puisque dautres outils,
notamment Semantic MediaWiki, proposent dj un systme similaire duquel nous nous
sommes inspirs31 . Comme nous allons le voir, les diffrences se situent principalement dans
la manire dont nous combinons plusieurs niveaux dannotations.
partir du moment o nous disposons dun grand nombre de graphes dannotations
RDF, un des avantages de ces macros est de permettre la rsolution de requtes complexes
sans que lutilisateur ne soit confront ni la complexit des annotations ni aux patrons
SPARQL associs. Nos macros reposent en effet sur lutilisation dune syntaxe trs simple,
i.e. [onto|fonction|param1,...,paramn], o fonction correspond lidentifiant de
la macro appele et param1,...,paramn identifient une liste de paramtres optionnels.
Chaque identifiant est associ une fonction PHP (dfinie par ladministrateur32 ) qui va
31

http://semantic-mediawiki.org/wiki/Help:Inline_queries

32

Ceux-ci sont pour le moment les seuls pouvoir dfinir de nouvelles macros puisquelles requirent un
accs au code source de lapplication, nayant pu dfinir dinterface Web pour assurer leur gestion, voire la
possibilit de les diter directement au sein de pages wiki.

199

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

excuter une ou plusieurs requtes SPARQL sur lentrept (via les protocoles dfinis auparavant) et formater les rsultats obtenus en fragments de documents (X)HTML. Cest ici une
des principales diffrences avec Semantic MediaWiki, nos macros tant dfinies sous forme
de fonctions l o SMW utilise une syntaxe particulire de requtes au sein des pages wikis
(Section 4.2.1, page 151). Si cette souplesse permet tout utilisateur de dfinir ses propres requtes, la syntaxe utilise se serait sans doute rvle trop complexe dans un contexte dutilisateurs non-technophiles. Alors que notre approche de macros se concentre sur les wikis,
on peut noter la rcente proposition de SPARQLScript et des templates associs afin de gnraliser cette notion de requtes SPARQL intgres au sein de pages Web [Nowack, 2008]
ainsi que lextension Firefox Kalpana33 propose par [Ankolekar et Vrandecic, 2008] ou les
travaux de [Gandon, 2005] pour la gnration dinterfaces utilisateur ddies la visualisation de donnes RDF.
Ces macros sont interprtes au moment du chargement de la page (via un parseur dexpression rgulire qui identifie leur ventuelle prsence) et les rsultats sont immdiatement
disponibles laffichage (Figure 5.6, page 200). La fracheur des donnes stockes (grce au
systme de signalement prsent auparavant) combine ce systme de macros interprtes offre donc un moyen efficace de profiter en quasi-temps rel dannotations smantiques
distribues au sein dun systme dinformation. De plus, les instances et annotations tant
cres et maintenues de manire collaborative (selon la philosophie wiki), nous tirons profit
des principes dintelligence collective et darchitecture de participation en termes de valeur
ajoute de ces macros et daccs pertinent linformation.

Transformation
des macros en
requtes SPARQL
en fonction des
mthodes
associs

Envoi de la requte

Moteur
UfoWiki
Transformation
des rsultats
SPARQL/JSON en
HTML en fonction
de la macro
utilise

Entrept RDF
du mdiateur
Rsultats de requte

Figure 5.6: Processus dinterprtation des macros au sein dUfoWiki

33

200

http://www.anupriya-ankolekar.info/kalpana/

5.2 Enrichissement des fonctionnalits des wikis

Prise en compte du contexte


Comme nous lavons voqu dans le chapitre prcdent, UfoWiki permet la mise en
place de plusieurs wikis, les annotations produites tant ensuite mutualises au sein dun
entrept de donnes global. Ainsi, il est ncessaire de prendre en compte le wiki partir
duquel les macros sont interprtes pour sassurer de la qualit des rsultats. En effet, une
macro identifiant un ensemble dassociations, si elle ne prend pas en compte le wiki depuis lequel elle est excute, conduira au mme rsultat si elle est interprte depuis le wiki
utilis pour la gestion des partenariats que depuis HPdia, lutilisateur sattendant certainement ce que la liste obtenue corresponde aux entreprises recenses dans ce wiki particulier.
Il est donc ncessaire de prendre en compte le contexte de production de la macro pour sassurer de la pertinence des rsultats.
Cette contextualisation est rendue possible en limitant les graphes dannotations utiliss pour rsoudre la requte ceux produits par ce mme wiki. En pratique, nous utilisons lextension embedsKnowledge que nous avons prsent prcdemment (Section 4.2.3,
page 156) qui trouve ici tout son intrt en termes dexploitation dannotations smantiques.
Combine au niveau des requtes SPARQL avec lutilisation de graphes nomms et de la
proprit has_container de SIOC, elle nous permet de limiter les requtes aux graphes
produits partir dun wiki particulier. La requte SPARQL suivante (Listing 5.2, page 201)
exemplifie cette combinaison en identifiant ici les associations cres partir dun wiki particulier (que nous associons ici lURI athena:wiki_8). Celle-ci va identifier les graphes
(?data) associs aux pages (ici reprsentes par un nud anonyme avec []) contenues dans
le wiki athena:wiki_8, et rcuprer au sein de ces graphes (et uniquement de ceux-ci) les
instances (?asso) de la classe foafplus:Association.
SELECT ? asso
WHERE {
GRAPH ? data {
? asso rdf : type foafplus : Association .
} .
[] : embedsKnowledge ? data ;
sioc : has_container athena : wiki_8 .
}

Listing 5.2: Restriction dune requte SPARQL aux graphes produits par un wiki donn
Alors que les approches classiques dutilisation de graphes nomms pour restreindre
le contexte dinterrogation de triplets RDF se basent gnralement sur lutilisation dune
simple proprit associe ces graphes (par exemple dct:creator pour en identifier lauteur) notre proposition va plus loin en permettant dexploiter un ensemble dinformations
supplmentaires au sujet de la page ayant conduit la production de ce graphe dannotations mtier. Si lexemple prcdent utilise simplement les proprits associes au conteneur de la page en question, on peut imaginer de la mme manire utiliser des informations
au sujet de son auteur ainsi que dautres mtadonnes documentaires associes, pour par
exemple identifier les donnes produites depuis des pages dites par un utilisateur parti201

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

culier sur une priode donne. Plus gnralement, cette contextualisation des annotations
mtier en fonction des annotations socio-structurelles nous semble un point important
prendre en compte si lon souhaite utiliser avec pertinence ces deux types dannotations au
sein dapplications du Web Smantique.
Utilisation combine de donnes mtier de dannotations socio-structurelles
La plupart des requtes associes notre systme de macros sont en ralit plus complexes que le prcdent exemple. Ce dernier montre en effet une requte qui permet didentifier lURI des diffrentes associations, mais ni les pages wikis associes, ni le titre de ces
pages. Pour ce faire, nous tirons nouveau profit de cette articulation que nous avons proposs entre annotations socio-structurelles et donnes mtier. Nous tendons tout dabord la
requte avec lutilisation de foaf:primaryTopic qui nous permet didentifier la page principale associe chaque instance. Cette page identifie, nous pouvons rcuprer diffrentes
informations comme son titre, son URL, son auteur, etc. Ainsi, une macro listant lensemble
des associations connues et les pages associes sera dfinie par la fonction PHP et la requte
SPARQL qui suivent (Listing 5.3, page 202) et sera simplement appele par lutilisateur avec
[onto|associations]34 .
function associations () {}
$query = "
SELECT ? page ? title
WHERE {
GRAPH ? data {
? asso rdf : type foafplus : Association .
} .
? page : embedsKnowledge ? data ;
foaf : primaryTopic ? asso ;
dc : title ? title ;
rdf : type sioct : WikiArticle ;
sioc : has_container athena : wiki_8 .
}
";
$res = sparql_query ( $query ) ;
foreach ( $res as $r ) {
$page = $r [ page ][ value ];
$title = $r [ title ][ value ];
$n = " < li > < a href = $page > $title </ a > </ li >";
}
return " < ul > $li </ ul >";
}

Listing 5.3: Fonction PHP et requte SPARQL associes une macro UfoWiki
34
La fonction sparql_query prsente dans cet exemple fait partie dune API mise en place en interne pour
interagir simplement avec lentrept depuis des applications PHP.

202

5.2 Enrichissement des fonctionnalits des wikis

Le rsultat dune telle macro est visible sur la figure qui suit, chaque lien de la liste
puces renvoyant vers la page wiki en question, la liste permettant galement de crer une
nouvelle page associe la classe en question (Figure 5.7, page 203). Une telle macro va
donc permettre didentifier simplement ces associations sans obliger lutilisateur parcourir les 173 pages dHPdia, le bnfice de lutilisation des annotations et de manire plus
large le passage de documents des donnes formalises tant alors non ngligeable. De
plus, il est important de noter que les rsultats sont immdiatement mis jour. Ainsi, ds
quun utilisateur va crer une page conduisant la cration dune nouvelle instance de
foafplus:Association, celle-ci sera liste via la macro en question.

Figure 5.7: Rsultat dune macro smantique listant lensemble des associations recenses
au sein dun wiki
Au final, si ces requtes peuvent savrer complexes, notamment puisquelles couplent
plusieurs niveaux dannotations et dontologies tout en articulant ceux-ci via lutilisation
de relations entre graphes en non plus seulement entre triplets, cette complexit est masque lutilisateur final. Celui-ci ne se soucie lors de ldition dune page que de lappel de la macro via une syntaxe relativement simplifie et bnficie immdiatement
dun rendu de celle-ci. Signalons galement que si les exemples prcdents font tat de requtes prenant en compte uniquement le type dinstances rcuprer, les macros peuvent
se concentrer non pas sur le type mais sur diffrentes proprits, comme par exemple les
domaines dactivits ou de la localisation des acteurs, reprsents au travers de la notion
de rle (Section 3.2.4, page 109), les deux pouvant tre combins. Par exemple, une macro
comme [onto|acteurs|domaine,localit] va identifier des acteurs selon le domaine
et la localisation associs leur(s) rle(s) tout en prenant galement en compte les principes
dinfrence RDFS afin didentifier simultanment toutes les instances des sous-classes de
foaf:Agent correspondant ces critres.

203

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

5.2.2

Contextualisation des macros pour augmenter le potentiel de veille

Alors que les processus prsents auparavant permettent de dfinir des macros prenant
en compte le wiki partir duquel elles sont inities, il nous a sembl intressant daller plus
loin en offrant la possibilit de contextualiser les macros de manire plus fine, i.e. non plus
au niveau du wiki mais de la page en question, ou plutt de linstance associe. Ceci permet
ainsi didentifier simplement des informations concernant celle-ci comme par exemple, pour
une organisation, lensemble des acteurs dun mme secteur ou ses diffrents membres, sans
rfrence explicite linstance puisque celle-ci est automatiquement identifie par la macro
elle-mme.
Pour ce faire, une premire tape consiste en lidentification de linstance associe
chaque page wiki et nous tirons ici nouveau profit de lutilisation de foaf:primaryTopic
introduite dans UfoWiki. Une fois cette proprit identifie, il est ais dadapter les diffrentes requtes et de produire les macros associes. Par exemple, la requte qui suit (Listing
5.4, page 204) associe une macro [onto|members] et excute depuis une page relative
une organisation donne permet didentifier ses diffrents membres. La variable $self
est ici dfinie pour identifier lorganisation en cours et est remplace par lURI associe au
moment de lexcution de la requte. Le rsultat dune telle macro est en outre visible sur la
figure suivante (Figure 5.8, page 205). On peut ainsi considrer ces macros contextualises et
permettant dafficher au sein dune page des informations sur les concepts en relation avec
le concept en cours comme des rtroliens smantiques. Alors que les rtroliens classiques identifient simplement les pages ayant des liens vers la page en cours, ces macros permettent de
lister (et de catgoriser selon diffrentes proprits) les concepts en relation avec le concept
associ la page en cours, les affichant un endroit appropri sur la page wiki. Cette requte
met galement en avant lintrt dutiliser des URIs communes entre diffrentes pages wikis, processus facilit par UfoWiki avec lautocompltion associe aux annotations. En effet,
cette requte utilise un patron <$self> foaf:member ?uri, ou $self reprsente lURI
de lassociation en question. Alors que ces diffrents triplets sont produits partir de diffrentes pages wikis, lutilisation dURIs communes permet didentifier partir de chaque
graphe dannotations quil sagit bien de la mme organisation (Figure 5.9, page 205).
select distinct ? page ? name
where {
graph ? g {
< $self > foaf : member ? uri .
? uri rdfs : label ? name .
}
? page : embedsKnowledge ? g ;
foaf : primaryTopic ? uri ;
sioc : has_container athena : wiki_8 .
} ORDER BY ASC (? name )

Listing 5.4: Requte SPARQL avec contextualisation des macros


Nous pouvons galement voir sur la copie dcran associe cette macro (Figure 5.8,
204

5.2 Enrichissement des fonctionnalits des wikis

Macro simple
affichant une liste
contextualise
d'acteurs

Macro complexe
affichant une liste
contextualise
d'activits et d'acteurs
associs

Figure 5.8: Rsultat dune macro contextualise

foaf:Person
produit

rdf:type

Page wiki 3

:people
foaf:member

foaf:Person
:organisation
rdf:type

foaf:member
foaf:member

:people

:people

rdf:type
foaf:Person
produit

Page wiki 1

produit

Page wiki 2

Figure 5.9: URIs partages entre graphes dannotations

205

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

page 205) le rsultat dune seconde macro plus complexe, qui va lister les diffrentes activits dun acteur (domaines et mtiers associs son rle) mais galement pour chaque domaine dactivit lensemble des acteurs associs, ainsi que ceux voluant dans des domaines
plus spcifiques. Nous tirons ici bnfice du choix de SKOS pour reprsenter les rles et les
domaines, avec la possibilit didentifier simplement pour un domaine donn lensemble
de ses sous-domaines grce la transitivit de la proprit skos:broaderTransitive35 ,
super-proprit de skos:broader utilise dans notre contexte36 . Nous bnficions nouveau dans ce cas dutilisation dannotations issues de diffrents wikis : un premier wiki pour
la gestion de ces taxonomies de domaines et un second pour tablir les relations entre domaines et acteurs de la mme manire que prcdemment, lutilisation dURIs communes
permettant de faire le lien entre les diffrents graphes RDF. Un problme auquel nous avons
cependant t confront et qui reste ouvert est le besoin didentifier jusquo il est ncessaire de considrer un sous-domaine comme pertinent par rapport au domaine initial. Nous
reviendrons sur cette problmatique en fin de chapitre (Section 5.4.3, page 219).
5.2.3

Interfaces avances de visualisation et mash-ups smantiques

Navigation facettes
Si lon considre le Web Smantique comme un graphe de relations types entre nuds,
il est possible daccder chaque nud selon plusieurs critres, i.e. selon les proprits
qui lui sont assignes et les valeurs correspondantes. Par exemple, en considrant les ontologies utilises dans notre contexte pour dfinir la notion dacteur, chaque acteur peuttre considr selon son type (rdf:type), sa localisation (geonames:locatedIn), ses rles
(role:hasRole et objets associs), ses membres (foaf:member), etc. Or, les macros prsentes prcdemment ne permettent pas de prendre en compte toute la richesse de ce graphe
de manire simple et extensible, i.e. de visualiser les instances dontologies de domaine dynamiquement selon plusieurs points de vue. Ces macros sont en effet gnralement conues
pour visualiser une unique proprit (le nom de chaque instance, via rdfs:label) et requirent comme nous lavons montr des requtes plus complexes pour afficher dautres
proprits, par exemple les domaines dactivit.
Afin de prendre en compte cette richesse en termes de navigation, nous avons appliqu
les principes de navigation facettes nos graphes dannotations [Yee et al., 2003]. Ce procd, qui permet de proposer diffrents points de vue pour aborder un objet donn, dans
notre cas une instance dontologie de domaine, nous semble le plus adapt pour visualiser
ces donnes multidimensionnelles reprsentes en RDF. Nous avons ainsi dfini diffrentes
facettes prendre en compte pour visualiser chaque acteur (instance de foaf:Agent cre
depuis UfoWiki) partir des diffrentes ontologies utilises pour reprsenter celui-ci. Lalignement entre ontologies et facettes a ici t effectu manuellement partir du moment o
nous avons une connaissance prcise des modles utiliss. Dans un contexte o les donnes
reposent sur des modles plus htrognes (par exemple contrls par les utilisateurs), la dtection automatique de facettes telle que propose par [Oren et al., 2006] peut alors se rv35
36

http://www.w3.org/TR/2008/WD-skos-reference-20080829/skos.html#broaderTransitive

Nous avons en effet intgr au sein de notre entrept les possibilit de raisonnement associs la transitivit de cette proprit dfinie comme instance de owl:TransitiveProperty.

206

5.2 Enrichissement des fonctionnalits des wikis

ler ncessaire. Comme nous pouvons le voir avec le schma qui suit (Figure 5.10, page 207),
nous ne nous limitons pas des facettes qui sont lies des proprits directement associes
chaque instance (par exemple rdf:type) mais explorons certains objets associs, ici les
rles pour identifier des facettes pertinentes.
Geonames
:feature
:type
geonames:locatedIn
role:roleType
:instance

role:hasRole

:role

rdf:type

role:roleDomain

:type

:domain

FOAF / FOAFplus

Ontologie des
rles

Figure 5.10: Slection de facettes partir de diffrentes ontologies (les facettes slectionnes
sont en gris fonc)
Une fois ces facettes dfinies, nous utilisons Exhibit [Huynh et al., 2007] pour offrir une
visualisation dynamique de ces diffrents acteurs. Les valeurs proposes pour chaque facettes ainsi que la liste des diffrents acteurs sont en outre calcules au moment de laffichage de la page (toujours via SPARQL) ce qui permet davoir aussi bien une liste dacteurs
que des facettes de navigation constamment jour (Figure 5.11, page 208).
Si les facettes proposes ici sont relatives des donnes mtier, il est possible dutiliser
ces mmes principes pour visualiser un ensemble de documents (toujours reprsents en
RDF) en prenant en compte leurs diffrentes mtadonnes socio-structurelles. Bien que nous
nayons pas mis en place une telle interface au sein de notre plate-forme dentreprise, nous
avons expriment cette approche travers lapplication de microblogging SMOB prsente auparavant. Ici, les facettes sont alignes avec diffrentes proprits associes chaque
instance de sioc:Item. Lauteur (foaf:maker), les sujets associs (sioc:topic) et la date
de cration (dct:created) de chaque instance de sioc:Item sont ainsi prises en compte
pour dfinir les facettes comme le montre la figure qui suit (Figure 5.12, page 208).
Mash-ups smantiques
Toujours dans cette optique de visualisation avance de donnes RDF, nous avons mis en
place un systme de mash-ups smantiques au sein de notre systme. Comme nous lavons
dtaill prcdemment, UfoWiki intgre automatiquement en son sein des informations
207

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

Figure 5.11: Visualisation facettes dun wiki avec Exhibit

Figure 5.12: Interface facettes pour visualiser des donnes SIOC avec SMOB

208

5.2 Enrichissement des fonctionnalits des wikis

RDF proposes par Geonames lorsquun acteur est identifi comme associ une zone
gographique particulire. De ce fait, pour chaque acteur li (via geonames:locatedIn)
une instance de geonames:Feature, nous disposons de diffrentes informations relatives
cette zone, en particulier ses coordonnes gographiques. De ce fait, nous avons pu mettre
en place, toujours en utilisant Exhibit, un systme de golocalisation permettant de visualiser les acteurs reprsents au sein dHPdia (Figure 5.13, page 209). Lutilisation couple
de ce systme de golocalisation et de navigation facettes propose par linterface permet de plus de contextualiser cette cartographie selon diffrents critres. Il est ainsi possible
dtudier la situation gographique des acteurs dun domaine donne, par exemple localiser
lensemble des entreprises actives dans le domaine des Energies Marines.
Comme nous lavons dj mentionn, cet aspect de rutilisation des savoirs externes en
entreprise nous semble particulirement intressant, encore plus dans ce contexte de mashups construit partir doutils relativement simples et forte composante sociale comme les
wikis. cet gard, nous pensons que les applications du Web Smantique peuvent tre juges non seulement sur leur valeur utiliser et proposer des donnes RDF(S)/OWL, mais
galement sur leur capacits tirer profit dautres donnes reprsentes selon les mmes
modles. On peut alors considrer la notion de mash-up comme faisant partie intgrante
du Web Smantique, partir du moment o diffrentes applications produisent des donnes interconnectes, permettant ensuite de sabstraire de ces applications source pour les
consommer via dautres outils.

Figure 5.13: Golocalisation dun ensemble dacteurs avec Exhibit et Geonames


Cette notion de mash-up smantique est galement prise en compte dans les macros que
nous avons prsentes auparavant. Nous avons ainsi dfini une macro contextualise qui
va rcuprer pour une organisation donne lensemble des membres associs pour nouveau visualiser ceux-ci sur une carte avec le mme principe que prcdemment (Figure 5.14,
page 210). Il est ainsi possible de visualiser simplement le rseau (filiales, etc.) dun acteur
209

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

donn, toujours partir dinformations issues de diffrentes pages wiki.

Figure 5.14: Golocalisation au sein dune macro contextualise


Dans lensemble, lutilisation de ce type dinterfaces (aussi bien en termes de navigation
facettes que de mash-ups smantiques) nous permet de retrouver une hypothse que nous
avons dfendue dans le premier chapitre de ce mmoire, savoir lutilisation dinterfaces
la mode Web 2.0 pour visualiser des donnes modlises selon les principes du Web Smantique (Section 1.3.2, page 44). De plus, ces interfaces intuitives permettent de masquer la
complexit du systme sous-jacent (agrgation de graphes, intgration de donnes externes,
infrence RDFS) en proposant une navigation relativement simple et originale. Enfin, si ces
interfaces sont essentiellement textuelles, cartographie mise part, il nous semble intressant de manire plus large de considrer des approches graphiques pour la visualisation de
graphes [Herman et al., 2000] dans le contexte du Web Smantique.
5.3
5.3.1

I NTEROPRABILIT ENTRE APPLICATIONS VIA LES ANNOTATIONS


Intgration des contenus des blogs au sein des wikis

Bien que les exemples prsents auparavant se limitent lutilisation de donnes produites au sein des wikis, nous avons vu dans le chapitre prcdent que la plate-forme de
blogs permettait galement la production dannotations smantiques. Il nous semble de ce
fait important de prendre celles-ci en compte. Si les annotations produites par les wikis combinent mtadonnes socio-structurelles et donnes mtier, les annotations issues de blogs se
rfrent quant elles uniquement laspect socio-structurel. Or, comme nous lavons vu,
MOAT nous permet de reprsenter au sein de ces annotations les liens qui existent entre
documents (ici les billets de blog) et des instances dontologies de domaine, plus particulirement dans notre contexte les instances cres depuis les wikis. Ainsi, si les deux outils
restent distincts en termes de pratiques et dusages, ils permettent tous deux la production
dannotations RDF qui dune manire ou dune autre font rfrence des instances dontologies de domaine :
210

5.3 Interoprabilit entre applications via les annotations

Annotations smantiques
et ontologies

dune part, la proprit foaf:primaryTopic est utilise au sein des wikis pour identifier le concept principal (instance dontologie de domaine) associ une page wiki ;
dautre part, le lien entre document et instance est reprsent au niveau des blogs
via lutilisation de la Tag Ontology et de MOAT et en particulier dune instance de
tag:RestrictedTagging couple la proprit moat:tagMeaning.
Ces instances tant identifies par une mme URI, qui fait alors office de jointure, les diffrents graphes dannotations sont interconnects au travers de celles-ci, permettant ainsi de
faire le rapprochement entre les deux outils (Figure 5.15, page 211)37 . Ce lien entre outils via
les annotations smantiques offre ainsi une interoprabilit accrue entre applications.

:tagging

moat:tagMeaning

tag:taggedResource

:blogPost

rdf:type

foaf:primaryTopic
sioc:Post

rdf:type

:wikiPage

produit

produit

S.I. Entreprise 2.0

:EDF

Plate-forme de
blogs

Billet 2

cre

Page wiki 2

Serveur de wikis

contient

a pour tag
EDF

Wiki A

Figure 5.15: Interoprabilit entre applications via lutilisation dannotations smantiques


Afin de tirer profit de cette interoprabilit, nous avons mis en place une macro listant
les derniers billets de blogs se rapportant au concept associ une page wiki donne. Ceci
permet nouveau daugmenter lexprience utilisateur en proposant la mise en commun
contextualise dinformations produites depuis diffrents outils. Dun point de vue pratique, ce processus repose galement sur une simple macro [onto|billets] traduite en la
requte SPARQL qui suit (comme prcdemment, $self est utilis pour reprsenter linstance en cours) (Listing 5.5, page 212). Le rendu est propos sous forme de liste puces
avec des liens vers les billets dorigine. Il est ici important de noter que les diffrents billets
de blog peuvent avoir t tagus originellement avec diffrents tags, lutilisation de MOAT
37

On remarque galement sur cette figure que le lien entre les deux outils est rendu possible avec SIOC.

211

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

nous permettant de considrer linstance associe et non plus le simple mot-cl pour ainsi
tablir ce lien ncessaire entre ressources.
SELECT ? post ? title
WHERE {
? post a sioct : BlogPost ;
dc : title ? title .
[] a tag : RestrictedTagging ;
moat : tagMeaning < $self > ;
tag : taggedResource ? post .
}

Listing 5.5: Requte SPARQL pour identifier des billets annots avec un concept particulier
Nous avons voqu plus tt dans cette thse la notion dobject-centered sociality (Section 1.2.3, page 42) en insistant notamment sur un problme particulier, savoir que celleci tait gnralement fragmente, les contenus au sujet dobjets similaires tant rpartis
entre diffrentes applications (blogs, wikis, forums, rseaux sociaux) (Section 2.2.1, page 62).
Comme nous venons de lexemplifier, lutilisation dURIs communes pour rfrencer les sujets abords via ces diffrents outils permet dinterconnecter ceux-ci autour des objets quils
voquent, et de parvenir cette notion de forums virtuels mise en avant par SIOC. Plus
particulirement, cest lutilisation de MOAT couple SIOC qui nous permet de considrer
ces forums comme des espaces de discussions lis des sujets communs, rduisant ainsi
cette fragmentation. Bien entendu, cette intgration repose galement sur la mise disposition dURIs communes pour identifier ces objets, et cest en ce sens que le project Linking
Open Data nous parait plus que pertinent puisquoffrant un nombre important dURIs de
rfrence (notamment via DBpedia) qui peuvent tre utilises dans ce contexte.
5.3.2

Indexation de flux RSS guide par les annotations

Alors que les possibilits offertes par les outils prcdents permettent de visualiser des
informations existantes, il nous semble galement souhaitable dexploiter ces informations
pour en produire de nouvelles. Ici, nous ne faisons pas rfrence des principes dinfrences
reposant sur des axiomes dfinis au sein de nos ontologies mais la manire dutiliser les
diffrentes annotations produites dans un but dindexation de flux RSS.
Comme nous lavons explicit plus tt dans ce mmoire, un trs grand nombre de sources
de donnes RSS sont mises disposition de lutilisateur au sein de la plate-forme dagrgation. Pour viter la surcharge dinformation, les utilisateurs ont la possibilit de souscrire
prcisment certains flux via une interface ddie (Section 2.1.2, page 53). En contrepartie, cette pr-slection conduit parfois passer ct de certaines informations importantes,
dans la mesure o elles peuvent provenir de flux auquel lutilisateur nest volontairement
pas abonn (Section 2.2, page 62). Ainsi, plutt que de considrer les lments de flux RSS
en fonction de leur source (i.e. le flux auquel ils appartiennent) il nous semble pertinent de
considrer ces flux en fonction des thmatiques quils abordent. On envisage ainsi des flux
RSS virtuels organiss par thmes, ces thmes tant reprsents via des instances dontologies de la mme manire que nous proposons lindexation smantique de billets de blogs.
212

5.3 Interoprabilit entre applications via les annotations

Afin de passer de ces lments organiss par source des lments organiss par thmatiques, nous avons mis en place un prototype dindexation automatique de flux RSS en
fonction des diffrentes instances qui ont t cres via les wikis (limites aux sous-classes
de foaf:Agent) . Le processus dindexation est assez sommaire et repose sur lutilisation
des liens entre tags et instances dfinis avec MOAT ainsi que sur les labels associs ces
instances via les wikis afin de construire une table de correspondance entre chanes de caractres et URIs de concepts, comme le tableau suivant lexemplifie (Tableau 5.1, page 213).
Cette correspondance est ensuite utilise pour annoter les flux RSS laide dexpressions rgulires. Si les critres dindexation sont satisfaits, une relation sioc:topic est cre entre
llment de flux, reprsent avec SIOC comme nous lavons vu auparavant (Section 4.1.2,
page 140), et le concept associ.
URI

athena:Areva
athena:EDF
athena:EDF
athena:EDF

Terme associ
areva
EDF
E.D.F
lectricit de france

Tableau 5.1: Associations entre URIs et termes contrles par les utilisateurs

Bien entendu, il sagit ici dun processus dindexation trs sommaire notamment en
termes de rapport signal-bruit, loin davoir des rsultats aussi pertinents quun systme
comme KIM [Kiryakov et al., 2004]. Si nous pouvons via MOAT reprer plusieurs patrons
dindexation associs la mme instance (par exemple EDF et electricit de france
pour lentreprise EDF), ce qui permet nouveau didentifier des sujets communs malgr
des termes distincts, la gestion de lambigut nest pas assure. Les termes associs plusieurs URIs ne sont ainsi pas pris en compte dans le processus dindexation. De plus, la
lemmatisation nest pas assure, ce qui nest ici pas un problme particulier puisque nous
indexons essentiellement des entits nommes mais qui le serait si lon souhaitait tendre
cette indexation aux domaines dactivit par exemple. Pour permettre une indexation plus
prcise, il est de plus ncessaire de prendre en compte dautres lments pour dfinir plus
finement nos schmes dindexation et les processus associs. Des techniques comme lexploration contextuelle [Descls, 1997] sont sans doute une solution pertinente cette problmatique et cest par exemple sur ces principes que repose le moteur dindexation EXCOM
[Djioua et al., 2006]. Signalons ici galement les rcents services dindexation smantique
proposes par Reuters OpenCalais38 ou Zemanta39 qui permettent lindexation de donnes non-structures par des concepts dfinis au sein du projet Linking Open Data. Celles-ci
peuvent savrer particulirement utiles dans ce contexte dcosystme smantique pour
lEntreprise 2.0, partir du moment o des donnes publiques sont utilises en interne
comme nous le faisons avec Geonames.
38
39

http://www.opencalais.com/
http://www.zemanta.com/api/

213

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

Malgr la simplicit de notre approche, plus que lindexation en soi, cest le processus
de cration de lindex qui nous semble pertinent et novateur. Cet index est en effet dfini
non pas en vase clos (avec les cueils que cela peut entraner, tout comme pour la cration dontologies (Section 4, page 137)) mais est directement driv des comportements des
utilisateurs sur la plate-forme : cration de pages wiki et dinstances correspondantes, association de tags ces instances, etc. Laspect interaction homme-machine, non pas en termes
dinterface, mais en termes dutilisation de donnes produites par lutilisateur pour enrichir
les applications, prend ici tout son sens comme le rappelle [Gandon et Giboin, 2008] : dans
ces nouvelles approches un point important est que lutilisateur nest plus simplement le commanditaire dun service pour lequel il fournit des entres et attend des sorties, mais devient une ressource
computationnelle de larchitecture logicielle.
Enfin, puisque nous avons voqu le bnfice de lapproche pour lutilisateur, signalons
quune macro contextualise [onto|news] permet de rcuprer les dernires nouvelles au
sujet dun acteur donn pour les afficher au sein dune page wiki, renforant nouveau la
dcouverte dinformations pertinentes autour dun objet particulier.
5.3.3

Projection de connaissances pour laide la veille technologique

En complment de cette indexation de flux entrants et afin de proposer une manire


supplmentaire daugmenter lexprience utilisateur en termes de navigation, nous avons
mis en place un systme de projection des connaissances. Cette ide, propose par exemple
dans Magpie [Domingue et Dzbor, 2004] permet lutilisateur didentifier au sein de pages
Web diffrentes entits connues par le systme dans lobjectif daccder un ensemble dinformations au sujet de celles-ci. Le processus mis en place pour lidentification dinstances
au sein des pages est similaire celui de lindexation de flux RSS dtaill en amont (et donc
sujet aux mmes critiques) et pour chaque instance identifie la page est enrichie dun lien
vers les rsultats du moteur de recherche associs cette instance (nous dcrirons ce moteur dans la section suivante (Section 5.4, page 215)). La copie dcran suivante montre ici
lidentification du concept CEA au sein dun billet de blog (Figure 5.16, page 214).

Identification d'une
instance connue

Figure 5.16: Projection de connaissances sur des contenus internes


Outre la possibilit de dcouvrir des informations supplmentaires au sujet de ces instances, un autre aspect intressant de ce processus en termes de veille est le signalement
dentits non rfrences dans le systme, ou plutt leur non-signalement. Ceci permet par
214

5.4 Recherche smantique pour lEntreprise 2.0

exemple davoir une ide des acteurs mergents dans un domaine, au sens o ils nont pas
t identifies par la projection puisque non rfrences dans la base de connaissance du
mdiateur.
5.4

R ECHERCHE SMANTIQUE POUR LE NTREPRISE 2.0

5.4.1

Recherche dinformation et Web Smantique

Avant de dcrire en dtail les principes du moteur de recherche implment au sein de


notre cosystme, dfinissons ce que nous entendons par recherche dinformation sur le Web
Smantique. Traditionnellement, les moteurs de recherche tels que nous les utilisons aujourdhui se basent sur une recherche documentaire, i.e. proposent des documents rpondant
un terme de recherche saisi par lutilisateur. Ceux-ci utilisent gnralement des structures
dindex inverss (type TF-IDF) permettant didentifier les documents contenant le terme recherch par lutilisateur [Salton et McGill, 1986], coupls avec des stratgies plus ou moins
fines doptimisation comme le PageRank de Google [Brin et Page, 1998]. Deux choses nous
semblent importantes dans la manire dont ces moteurs fonctionnent :
la recherche se fait par terme et donc en prenant en compte uniquement une notion
syntaxique. Les problmes dambigut et dhtrognit sont donc relativement frquents et peuvent nuire la qualit des rsultats, tout comme pour les systmes de
recherche dinformation par tags (Section 2.2.3, page 63) ;
le rsultat obtenu est un ensemble de documents (textuels ou multimdia) quil est ncessaire de parcourir pour avoir une vue synthtique du concept recherch, imposant
un travail de recherche supplmentaire lutilisateur.
Ainsi, de la mme manire que la publication de contenus sur le Web Smantique consiste
considrer non plus uniquement les documents mais un ensemble de donnes auxquelles
ils font rfrence, nous pensons que la recherche dinformation doit elle aussi prendre en
compte ces particularits. En exploitant annotations smantiques et ontologies, on peut ainsi
passer dun paradigme de recherche centre sur les documents une recherche centralise
autour des objets reprsents dans ces documents [Guha et al., 2003]. Chaque objet peut en
outre tre considr selon diffrents angles, comme nous lavons vu en prsentant lutilisation dinterfaces facettes pour la navigation. Ainsi, un moteur de recherche bas sur les
technologies du Web Smantique doit selon nous tre capable :
dune part de permettre une recherche par concept et non plus par simple chane de
caractre. On franchit ici le pas entre le terme de recherche et le concept associ (par
exemple une instance dontologie) en passant de la syntaxe la smantique ;
dautre part de dlivrer des rsultats qui donnent lutilisateur une vue synthtique
de ce concept, non plus simplement en termes de documents y faisant rfrence, mais
en termes de proprits et de relations avec dautres concepts.
Des moteurs comme Yahoo ! SearchMonkey40 [Mika, 2008] ou SWSE41 [Harth et al., 2007]
prennent ainsi en compte ces aspects pour proposer des rsultats de recherche synthtisant
des informations provenant de diffrentes sources de donnes structures (RDF au sens
40
41

http://developer.yahoo.com/searchmonkey/
http://swse.deri.org

215

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

large pour SWSE, RDFa et microformats pour SearchMonkey). Notons que si SWSE est capable de prendre en compte nimporte quel modle utilis pour dcrire ces objets, SearchMonkey se limite linterprtation restreinte de certains vocabulaires, parmi lesquels SIOC,
comme nous lavons voqu auparavant (Section 3.1.6, page 101). Si ces deux moteurs se
situent dans une optique de recherche centre autour de concepts, optique qui nous semble
la plus pertinente en termes de recherche dinformation sur le Web Smantique, dautres outils sorientent vers une recherche documentaire plus traditionnelle, la diffrence prs que
les documents indexs sont des documents structurs. Cest le cas de certains moteurs que
nous avons dj voqus dans cette thse, savoir Sindice [Tummarello et al., 2007], Watson
[dAquin et al., 2008] ou Swoogle [Ding et al., 2004], plutt ddis la ralisation dapplication utilisant des donnes structures qu une navigation humaine.
5.4.2

Mise en place dun moteur de recherche exploitant ontologies et annotations

Nous avons mis en pratique ces principes de recherche smantique au sein dHerms en
proposant un moteur de recherche associ notre architecture de mdiation et venant tirer
profit des diffrentes ontologies et annotations prsentes dans notre cosystme. Celui-ci
permet de visualiser, pour un concept donn, un ensemble cohrent et synthtique dinformations son sujet, avec des pointeurs vers les diffrents documents source ayant permis
cette synthse. Notre approche est ainsi une approche mixte entre les moteurs de recherche
traditionnels qui dlivrent des liens vers un ensemble de documents et les moteurs smantiques comme SWSE qui dlivrent des informations au sujet dobjets particuliers. Ce moteur
respecte en outre les deux phases que nous avons mises en avant, savoir (1) lidentification
dun concept particulier partir dun terme de recherche et (2) la mise disposition dune
synthse informationnelle au sujet de ce concept.
La premire tape consiste ainsi passer du terme de recherche (e.g. solaire) au concept
associ (ici linstance identifie par lURI athena:EnergieSolaire). Pour ce faire, notre
stratgie se base sur lutilisation des connaissances produites au sein de la plate-forme, tout
comme nous lavons fait pour lindexation de flux RSS ou la projection de connaissances
(Section 5.3, page 210). Pour un terme de recherche t, le moteur va ainsi identifier le concept
C qui satisfait au moins un des critres suivants :
le label (rdfs:label) du concept C est gal ou contient le terme t ;
un tag associ ce concept C (via MOAT et la notion de signification globale) est gal
ou contient le terme t, i.e. il existe un tag gal ou contenant t et dont la signification
globale est associe C ;
Une fois le concept identifi (via son URI), la recherche va porter sur celui-ci et non plus
sur le terme dorigine, le moteur se situant alors au niveau smantique et non plus un
simple niveau syntaxique. Si plusieurs concepts sont identifis, lutilisateur se voit proposer
la liste correspondante afin de slectionner lui-mme le concept recherch et rsoudre ainsi
les problmes dambigut (Figure 5.17, page 217).
La seconde tape consiste ensuite en lidentification dinformations pertinentes au sujet
de ce concept. Comme nous lavons expos au dbut de cette section, il nous semble important de ne pas uniquement proposer une liste de documents mais doffrir un synthse informationnelle propos des diffrents attributs et proprits de ce concept. Plus exactement,
216

5.4 Recherche smantique pour lEntreprise 2.0

Figure 5.17: Choix dun concept partir dun terme de recherche

nous souhaitons proposer un juste milieu entre ces deux approches, en contextualisant les
documents proposs en fonction des proprits qui les lient (directement ou via les sujets
abords) au concept principal. Ainsi, notre systme prend en compte lensemble des annotations RDF prsentes dans la base de connaissances et faisant rfrence ce concept pour
proposer lutilisateur une page de rsultats listant (Figure 5.18, page 218) :
lensemble des tags associs au concept, dans un but informatif permettant lutilisateur de prendre connaissance des diffrents mots-cls qui lui sont associs. Cette
premire tape repose sur lutilisation de MOAT ;
la page de rfrence associe au concept en question, en loccurrence la page wiki
principale issue du wiki HPdia dans le cas des acteurs. Nous reposons ici la fois
sur SIOC et embedsKnowledge (pour identifier quil sagit bien dune instance de
sioct:WikiArticle appartenant au conteneur souhait) et FOAF pour identifier
quil sagit de la page principale (avec foaf:primaryTopic) ;
les pages faisant rfrence des concepts en relation avec ce concept, toujours identifis depuis HPdia. Pour une organisation, il peut ainsi sagir des pages identifiant ses
diffrents membres. La requte utilise est prsente ci-aprs et combine ainsi SIOC et
annotations mtier (Listing 5.6, page 218) ;
enfin, les diffrentes pages wiki, billets de blog et flux RSS annots avec lURI du
concept en question, via lutilisation de SIOC (sioc:topic) et MOAT pour les billets
de blog. La recherche se faisant ici par concept, et non plus par mot-cl, cela nous
permet de prendre en compte les problmes initiaux dhtrognit smantique. En
effet, les diffrents contenus annots par le concept en question peuvent avoir originellement t tagus avec des mots-cls distincts. Notons galement que le moteur fait ici
la distinction entre les diffrents types de documents grce lutilisation du module
Types de SIOC au niveau des annotations smantiques.
nouveau, lapplication mise en place repose entirement sur un ensemble de requtes
SPARQL utilisant diffrents graphes dannotations et ontologies associes, sans confronter
lutilisateur ces processus de parcours de graphes. De plus, un autre aspect mis en avant
par notre interface est la possibilit de crer de nouveaux contenus partir de celle-ci, notamment lorsquil nen existe pas ce sujet pour le wiki principal HPdia. Le moteur est
ainsi utilis dans une dmarche dincitation la production de contenu permettant denri217

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

SELECT ? page ? title


WHERE {
GRAPH ? data {
{ ? uri ? p < $self > } UNION { < $self > ? p ? uri }
} .
? page : embedsKnowledge ? data ;
foaf : primaryTopic ? uri ;
dct : title ? title ;
rdf : type sioct : WikiArticle ;
sioc : has_container athena : wiki_8 .
}

Listing 5.6: Identification de pages associes un concept proche

Tags asocis ce
concept
(MOAT)

Page wiki principale


(SIOC + FOAF)

Pages wiki associes


(SIOC + Annotations
mtier)

Autres pages wikis,


billets de blogs et
lments RSS
annots
(SIOC + MOAT)

Figure 5.18: Rendu du moteur de recherche smantique au sein dHerms

chir les connaissances globales au sein du systme. Tout utilisateur venant consommer de
linformation est donc invit son tour devenir acteur, suivant les principes classiques de
collaboration sur le Web 2.0, coupls nouveau des principes de structuration de donnes
lis au Web Smantique.
Nous avons de plus dfini diffrents points daccs permettant darriver ces pages de
rsultat. Si le premier est naturellement une zone de recherche plein-texte, nous avons vu
dans la section prcdente que la projection des connaissances permettait galement darriver sur la page de rsultats pour un concept donn. Une autre manire daccder ces
rsultats est galement propose ds lors quun billet de blog ou une page wiki est associe
un concept via MOAT. Dans ce cas, en plus dindiquer simplement les tags associs ce
document, le systme liste lensemble des concepts associs avec pour chacun dentre eux
un lien vers la page associe au sein du moteur de recherche (Figure 5.19, page 219). En
218

5.4 Recherche smantique pour lEntreprise 2.0

termes dutilisation, des analyses de fichiers de logs sur une priode dun mois nous ont
indiqu une trentaine de visiteurs diffrents ayant accd ce moteur.

Concepts identifis via MOAT


et lien vers le moteur de recherche

Figure 5.19: Accs au moteur de recherche via les concepts identifis avec MOAT

5.4.3

Suggestion de concepts et de contenus proches

Implmentation au sein du moteur de recherche interne


En recensant les diffrents problmes poss par les systmes dannotations base de
tags, nous avons mentionn labsence dorganisation de ceux-ci comme tant un dfaut majeur (Section 2.2.3, page 63). Nous avons en effet montr que cette absence rendait complexe la dcouverte de contenus proches (au sens des thmatiques abordes), particulirement dans un contexte o les niveaux dexpertise des utilisateurs taient relativement
htrognes. En contrepartie, nous avons voqu la manire dont les processus proposs
par MOAT permettaient de rpondre cette problmatique. En effet, en passant de termes
syntaxiques des concepts clairement identifis et interconnects sur le Web Smantique
pour annoter les documents, il est possible de naviguer dans le graphe dannotations centr
autour de ce concept pour identifier des concepts proches et en consquence les contenus
associs. La figure qui suit montre ainsi comment deux billets de blog peuvent tre connects partir du moment o lun a t associ <http://sws.geonames.org/2988507/> et
le second <http://sws.geonames.org/3017382/>, ces deux URIs tant lies par une
relation geonames:locatedIn fournie par Geonames (Figure 5.20, page 220). Il est galement possible partir de relations de ce type de lier directement les billets avec la proprit
sioc:related_to en utilisant la rgle dinfrence qui suit (Listing 5.7, page 220), o :prop
reprsente une proprit quelconque liant deux ressources :m1 et :m2.
Comme pour la mise en place dinterfaces facettes, il est important de considrer que
nous sommes en prsence de modles de graphes, au sens o plusieurs types de relations
peuvent exister entre concepts, permettant denvisager diffrentes manires de suggrer des
concepts (et des contenus) proches. En effet, il nous semble pertinent de proposer des suggestions diffrentes selon le type dobjet tudi (personne, domaine, zone gographique,
etc.) puisque les proprits quil possde sont gnralement diffrentes. Cest lun des avantages majeurs dune structure ontologique riche par rapport une simple taxonomie et cest
219

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

une des raisons qui nous a motiv mettre MOAT en place, notamment par rapport des
approches plus classiques dorganisations taxonomiques de tags o une unique relation hirarchique est propose.

http://example.org/
tagging/1

tags:associatedTag

http://example.org/
tag/paris

tags:taggedResource
moat:tagMeaning

produit
Billet de blog 1

http://example.org/
post/1
http://sws.geonames.org/
2988507/
geonames:parentFeature
produit

http://sws.geonames.org/
3017382/

Billet de blog 2
http://example.org/
post/2

produit
Geonames

moat:tagMeaning
tags:taggedResource

http://example.org/tag/
france

tags:associatedTag

http://example.org/
tagging/2

Figure 5.20: Identification de contenus proches via des relations entre concepts associs

{
: p1 a sioc : Post .
[] moat : tagMeaning : m1 ;
tag : taggedResource : p1 .
: p2 a sioc : Post .
[] moat : tagMeaning : m2 ;
tag : taggedResource : p2 .
: m1 : prop : m2 .
} => {
: p1 sioc : related_to : p2 .
}

Listing 5.7: Rgle dinfrence pour identifier deux contenus proches en utilisant MOAT,
SIOC et des relations entre URIs
Ainsi, nous avons mis en place au sein de notre outil un systme de suggestion de
concepts proches en dfinissant pour diffrentes classes de nos ontologies des rgles dinfrence, comme par exemple :
une premire rgle, sappliquant toute instance de role:Domain et permettant diden-

220

5.4 Recherche smantique pour lEntreprise 2.0

tifier comme lis42 des domaines considrs comme plus spcifiques dans la hirarchies de domaines. Cette rgle fait appel la proprit skos:broaderTransitive de
manire considrer tous les concepts plus spcifiques (Listing 5.8, page 221). Comme
on peut le voir dans lexemple qui suit, appliqu ici au concept dnergie solaire, des
concepts relativement pointus tels que cellule silicium monocristallin sont suggrs (Figure 5.21, page 221). Cependant, bous sommes ici confronts, en utilisant ces principes
de transitivit, au mme problme que dans les macros prsentes auparavant : partir du moment o cette infrence est mise en place, il ny a plus possibilit didentifier
la distance originelle qui spare les concepts, moins de parcourir lensemble des relations non-infres skos:broader. Les extensions SPARQL proposant des requtes
par chemin nous paraissent ainsi particulirement utiles dans ce contexte, pour par
exemple limiter la suggestion des concepts situs un maximum de N relations
skos:broader par rapport au concept dorigine ;
{
xxx
yyy
xxx
} =>
xxx
}

a role : Domain .
a role : Domain .
skos : broaderTransitive yyy .
{
: related yyy .

Listing 5.8: Rgle dinfrence base sur SKOS pour lidentification de concepts proches

Figure 5.21: Identification des domaines plus spcifiques qunergie solaire


une seconde, sappliquant toute instance de foaf:Agent et permettant didentifier dautres agents partageant un domaine dactivit en commun avec cette instance
(Listing 5.9, page 222). La figure qui suit reprsente lapplication de cette rgle pour
linstance associe Gaz de France (Figure 5.22, page 222).
On peut voir ici que la complexit des rgles varie selon lusage mais surtout que cellesci permettent nouveau de prendre en compte les caractristiques de chaque objet pour
suggrer des concepts proches, en combinant ontologies et annotations. Bien entendu, plu42

On utilise ici une proprit :related pour reprsenter ce lien.

221

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

{
xxx a foaf : Agent ;
role : hasRole [
role : hasDomain ddd .
] .
yyy a foaf : Agent ;
role : hasRole [
role : hasDomain ddd .
] .
} => {
xxx : related yyy .
}

Listing 5.9: Rgle dinfrence pour lidentification de concepts proches partir de relations
entre domaines

Figure 5.22: Identification dacteurs proches de Gaz de France selon une rgle prdfinie

sieurs rgles peuvent tre dfinies pour une mme classe, soit puisque dfinies explicitement, soit en appliquant les principes dinfrence RDFS. Par exemple, la seconde rgle sappliquera toute instance de foafplus:Company, sous-classe de foaf:Agent. Dun point
de vue pratique, ces rgles dinfrence sont dfinies au sein de notre systme en tant que requtes SPARQL (modlises partir des rgles dinfrence N3 dtailles prcdemment), et
sont appliques ds lors quune instance de la classe donne est identifie. Chaque concept
proche ainsi identifi est galement propos sous forme de lien hypertexte vers la page associe au sein du moteur de recherche, afin daccder aux documents correspondants.
Ces principes de suggestion de concepts proches, notamment via lutilisation de la rgle
utilisant les relations SKOS (Listing 5.8, page 221), nous permettent de prendre en compte le
problme des diffrents niveaux dexpertise voqu plus tt dans ce mmoire (Section 2.2.3,
page 66). En effet, nous avons vu que les non-experts avaient tendance utiliser des tags
reprsentant des concepts de haut niveau (e.g. solaire) l ou les experts utilisaient des tags
beaucoup plus spcifiques (e.g. TF pour Thin Film), les algorithmes de clustering tant limits
ds lors que les tags spcifiques et gnriques ntaient pas utilises en commun. Lapport
des rgles dinfrence bases sur SKOS pour suggrer des concepts spcifiques partir de
concepts gnriques permet donc dtablir une passerelle entre les concepts gnriques et
les concepts spcifiques, et par extension entre les contenus annots par des non-experts
222

5.4 Recherche smantique pour lEntreprise 2.0

et les contenues annots par des experts, comme le montre la figure qui suit (Figure 5.23,
page 223). On remarque galement, via lutilisation combine de FOAF, SIOC, MOAT et
SKOS, que ces connections forment un graphe complet qui permet de considrer les relations
aussi bien entre contenus, concepts et utilisateurs.
Modles

skos:Concept

sioc:Post

foaf:Person

rdf:type

rdf:type

rdf:type

athena:Solaire

moat:taggedWith

:billet1

foaf:maker

Niveau non-expert

skos:broader

athena:TF

:NonExpert

moat:taggedWith

:billet2

foaf:maker

::Expert

Niveau expert

Figure 5.23: Relations entre experts et non-experts en combinant FOAF, SIOC, MOAT et
SKOS

Applications de principes similaires sur le Web


Alors que les rgles dfinies prcdemment pour la suggestion de concepts proches sont
appliques essentiellement sur des donnes internes lentreprise, il nous a sembl pertinent de voir de quelle manire cette ide pouvait sappliquer sur le Web, notamment en
prenant en compte le nombre croissant de donnes RDF disponibles via le projet Linking
Open Data. Nous avons ainsi mis en place deux exprimentations bases sur ces principes.
Tout dabord, nous avons implment ce principe de suggestion au sein de LODr (Section 4.3.2, page 179) en mettant en place deux rgles relativement simples :
une premire identifiant tous les concepts en relation directe avec le concept en cours,
i.e. identifis comme sujet ou objet dune relation avec ce concept ;
une seconde identifiant tous les concepts pour lesquels une proprit donne est partage avec le concept en cours (i.e. la mme valeur).
On peut voir dans lexemple qui suit que XSLT (dbpedia:XSL_Transformations) est suggr lors de la visualisation de contenus annots SPARQL (dbpedia:SPARQL) puisque ces
deux concepts partagent la mme valeur pour la proprit skos:subject au sein de DBpedia, en loccurence dbpedia:Category:World_Wide_Web_Consortium_standards (Figure 5.24, page 224). Loutil propose en plus une dfinition du concept visualis (correspon223

C HAPITRE 5 : I NTGRATION ET UTILISATION D ANNOTATIONS SMANTIQUES DISTRIBUES

dant la valeur de la proprit dc:description) ainsi quune liste dlments annots via
ce concept, en utilisant galement diffrentes facettes, notamment pour identifier la source
associe chaque lment. Un aspect intressant est ainsi la possibilit de visualiser au sein
dune mme interface des contenus issus de systmes distincts (Flickr, SlideShare, etc.) mais
au final reprsents avec les mmes modles (SIOC, MOAT, etc.) et interconnects via lutilisation dURIs communes pour reprsenter leurs thmatiques.

Concept identifi
(description via
dc:description)

Concepts identifis
par co-occurence

Concepts en relation
directe

Concepts ayant une


proprit commune

Contenus annots (via


MOAT)

Figure 5.24: Suggestion de concepts proches au sein de LODr


Nous avons galement mis en place un processus similaire au sein dun prototype de
systme de recommandations musicales bases sur DBpedia [Passant et Raimond, 2008] (Figure 5.25, page 225). partir dun artiste slectionn, le systme propose diffrentes listes
organises par critres de similarit (mme genre, mme label, etc.) en analysant les proprits associes chaque instance. Ces critres sont ici dfinis par avance et il nous est ici
apparu en analysant 400 instances dartistes et de groupes reprsents au sein de DBpedia
que sur les vingt proprits les plus couramment associes ceux-ci, un certain nombre
ntaient pas pertinentes dans cette optique de recommandation (par exemple la proprit
dbpedia:wikiPageUsesTemplate) (Annexe F, page 247). Si nous navons pas explor plus
loin cette problmatique, cela nous semble un challenge important prendre en compte
dans la mesure o un grand nombre de donnes structures et interconnectes sont maintenant disponibles sur le Web. Des notions de distance smantique appliques celles-ci
pourraient sans doute apporter plus de pertinence de tels moteurs de recommandation
[Rada et al., 1989].

224

5.4 Recherche smantique pour lEntreprise 2.0

Figure 5.25: Systme de recommendations musicales bases sur DBpedia

C ONCLUSION
Dans ce chapitre, nous avons prsent diffrents services et outils permettant de tirer
profit dannotations smantiques dans un contexte dEntreprise 2.0. Nous avons, dans un
premier temps, argument de la ncessit dun entrept de donnes dans ce contexte et dfini un ensemble de protocoles permettant son intgration au sein dun systme dynamique
de production dannotations. Nous avons ensuite prsent diffrentes approches permettant de bnficier de ces annotations parmi lesquelles un systme de macros smantiques
intgres au sein dUfoWiki, lutilisation dinterfaces facettes pour la visualisation dinstances dontologies de domaine et le mise en place de mash-ups smantiques. Nous avons
ensuite dtaill le fonctionnement dun moteur de recherche smantique associ cette architecture ainsi que lutilisation de rgles permettant lextension de requtes via le parcours
des graphes dannotations associs aux donnes mtier.
Pour chaque outil, nous avons fait en sorte que ces interfaces soient les plus intuitives
possible pour lutilisateur, pour qui la mcanique sous-jacente (i.e. lutilisation de technologies du Web Smantique) importe peu. Pour reprendre les propos de David Karger voquant
les interfaces de navigation pour le Web Smantique lors dun panel SWUI200643 , "whatever is in the cake, what people see is the candle !". cet gard, un point quil est selon nous
important de retenir de ce chapitre est qu partir du moment o lon dispose sur le Web
Smantique de donnes accessibles et interoprables, il est possible dimaginer une multitude dinterfaces de navigation et de recherche associes ces donnes, la valeur de celles-ci
tant alors inestimable dans ce contexte.
43 me

workshop Semantic Web User Interaction http://swui.semanticweb.org/swui06/

225

Conclusion gnrale
R ETOUR SUR LES IMPACTS DE LA THSE
Rponses aux problmatiques initiales
En introduction de ce mmoire, nous avons rsum la problmatique scientifique motivant nos travaux de la manire suivante : Comment combiner Web Smantique et Web 2.0 afin de
tirer profit dinteractions sociales issues doutils du Web 2.0 pour la reprsentation et lexploitation
de connaissances formalises selon les principes du Web Smantique ? Ainsi, nous avons montr
tout au long de cette thse de quelle manire nous envisagions cette complmentarit la
fois en termes de modles (Section 3, page 83) et dapplications pour la production (Section
5, page 187) puis pour lexploitation (Section 4, page 137) de telles connaissances. Avant de
resituer globalement nos travaux et dy apporter un regard critique, revenons sur les trois
axes de recherche majeurs dfinis au dbut de ce mmoire.
La modlisation des mtadonnes socio-structurelles associes aux outils Web 2.0
Nos travaux se sont ici concentrs sur deux modles principaux, SIOC et MOAT, permettant de prendre en compte pour le premier la modlisation des activits des communauts
en ligne (et des documents ainsi crs) et pour le second des aspects particuliers des tags et
des actions de tagging en faisant notamment le lien avec des ontologies de domaine venant
en support des folksonomies. Nous avons ici fait en sorte que ces modles soient suffisamment gnriques pour pouvoir sintgrer au sein de diffrents types de communauts, ces
deux ontologies tant en outre publies sur le Web. De plus, afin de faciliter les processus
dannotation smantique associs ces modles, de nombreux outils ont t mis en place,
aussi bien au sein de notre cosystme dEntreprise 2.0 que sur le Web.
La reprsentation de connaissances termino-ontologiques et le peuplement dontologies de domaine
partir doutils Web 2.0
Ici, nous nous sommes principalement intresss lutilisation de wikis smantiques
pour le peuplement dontologies, avec la mise en place dUfoWiki, systme combinant principes ddition wiki et reprsentation des connaissances selon les technologies du Web Smantique. Un point important dans cette approche est le rle actif de lutilisateur final, dans
une approche collaborative et ouverte de constitution de bases de connaissances terminoontologiques qui masque lutilisateur la complexit des technologies associes. Pour mener
bien cette tape, nous avons galement mis en place diffrentes ontologies de domaine,
227

C ONCLUSION GNRALE

processus qui nous a permis didentifier ce qui nous semble tre un ensemble de bonnes
pratiques en termes de reprsentation des connaissances pour lEntreprise 2.0, en tendant
notamment des modles couramment accepts sur le Web.
Lexploitation de graphes dannotations smantiques pour linteroprabilit, la mise en commun et la
recherche dinformations
En consquence des deux points prcdents, nous avons identifi diffrentes manires
dexploiter des graphes dannotations smantiques, quil sagisse de graphes reprsentant
des mtadonnes socio-structurelles ou associs des donnes mtier. Nous avons ainsi mis
en place diffrentes interfaces permettant dexploiter ces annotations, de simples macros
smantiques des interfaces facettes plus complexes permettant lutilisateur de sapproprier la nature multidimensionnelle des objets manipuls pour les visualiser selon diffrents
points de vue. Nous avons ici galement vu comment lutilisation dURIs communes entre
applications, facilite via MOAT, permettait une interoprabilit accrue entre outils distincts
et facilitait galement la recherche dinformation associe. Enfin, nous avons vu de quelle
manire diffrentes sources de donnes pouvaient tre combines au sein de mash-ups smantiques articulant donnes internes et externes.
Vision globale de notre recherche
Plus gnralement, nos travaux et le contexte dentreprise dans lequel nous nous situons
nous ont permis de dfinir la mthodologie SemSLATES, vision o les technologies du Web
Smantique viennent en support dcosystmes dEntreprise 2.0 pour rpondre leurs limites via une architecture de mdiation entre diffrents composants logiciels. Ainsi, alors
que de nombreuses entreprises migrent lheure actuelle vers des solutions dEntreprise
2.0 o comme le veulent les principes dcologie de linformation, lutilisateur a un rle aussi
voire plus important que les applications elles-mmes, il nous a paru pertinent daller
plus loin dans cette vision et de montrer en quoi ces solutions pouvaient tirer profit de technologies du Web Smantique.
De plus, bien que cette thse sintitule Technologies du Web Smantique pour lEntreprise 2.0,
nous avons fait en sorte que lensemble de nos recherches puisse tre appliqu de manire
plus large sur le Web. Pour exemple, SIOC est aujourdhui utilis dans de nombreuses applications du Web Smantique composante sociale, dpassant ainsi le cadre dutilisation
dentreprise que nous avons tudi dans cette thse. Limpact de MOAT est quant lui plus
restreint mais la vision quil dfend est aujourdhui mise en valeur par dautres initiatives
du mme type dans lesquelles il sintgre. Dautre part, certaines de nos rflexions et ralisations logicielles sintgrent de manire plus large dans cette vision de convergence entre
Web Smantique et Web 2.0.
Si, comme nous avons pu le voir dans ce manuscrit, nous ne sommes pas les seuls
dfendre ces thories de convergence, il nous semble intressant davoir montr selon diffrents axes que les reprsentations formelles proposes par les technologies du Web Smantique (via RDF(S)/OWL et SPARQL) ne sopposaient pas, et bien au contraire, la souplesse
des services Web 2.0 et aux notions de participations sociales qui en dcoulent. Plus particulirement, un point qui nous semble pertinent dans notre approche est la prise en compte
de ces notions de participations sociales selon deux axes complmentaires :
228

Retour sur les impacts de la thse

dune part en reprsentant laide de modles formels les interactions sociales qui
peuvent exister au sein de diffrentes communauts Web 2.0 ;
dautre part en permettant lmergence de bases de connaissances ouvertes et volutives, diriges par les utilisateurs finals.
Nous nous inscrivons ainsi dans une vision du Web Smantique (et du Web de manire
plus gnrale) o lutilisateur est au centre dun systme global dinformation que lon peut
voir comme une chane humain-machine-humain et o la composante sociale est aussi importante que la machine elle-mme. Ainsi, nous pouvons reprendre une de nos prcdentes
figures et ladapter comme suit pour dfinir cette vision dun Web o les interactions sociales
permettent la production dun ensemble de donnes interoperables et interconnectes pour
le bnfice de lutilisateur final (Figure 5.26, page 229). En consquence, gardons lesprit
que la russite dune telle complmentarit entre Web Smantique et Web 2.0 repose sur des
critres sociaux de participation et dchange et que laspect social est considrer autant
que les formalismes de reprsentation de donnes.

Interfaces de requte et de navigation

Formalismes de reprsentation du Web Smantique


et formats d'changes standardiss

Interactions sociales et production de donnes

World Wide Web

Figure 5.26: Vision du Web axe sur une convergence humain-machine-humain

Regard critique sur nos travaux


Il nous semble galement important dans cette conclusion de porter un regard critique
sur nos travaux, revenant sur certains aspects qui auraient pu tre amliors. Tout dabord,
il aurait sans doute t intressant de proposer dautres services et interfaces exploitant les
229

C ONCLUSION GNRALE

donnes RDF produites dans notre contexte dexprimentation en entreprise. La cration des
macros smantiques est en effet pour le moment limite aux administrateurs et le processus
de navigation par facettes, sil permet de visualiser une partie des connaissances produites
selon diffrents points de vue, ne prend pas en compte toute la richesse et la complexit des
graphes dannotations. Des interfaces graphiques avances auraient sans doute t pertinentes mais nous pouvons penser que celles-ci pourront se greffer par la suite lcosystme
mis en place, partir du moment o les donnes sont disponibles et reprsentes selon des
vocabulaires et formalismes connus. Notons galement que nous avons du faire face certaines limitations techniques qui ont retard certains dveloppements et contraint certains
autres rester au statut de prototype.
De manire plus globale, on peut nous reprocher davoir ax nos recherches sur la dfinition de modles et de processus ncessitant une intervention utilisateur plutt que sur la
mise en place des traitements automatiques, notamment pour nos travaux autour des liens
entre tags et ontologies avec MOAT. Nous avons cependant vu que ces deux approches ne
sopposaient pas et pouvaient ainsi tre combines. De plus, il nous semble que la dfinition
de vocabulaires de rfrence est ncessaire pour mener bien la vision du Web Smantique
et cest ce en quoi nous avons essay de contribuer avec MOAT.
Enfin en termes dvaluation, il aurait sans doute t pertinent de confronter notre systme de wikis smantiques dautres outils du mme type, la fois en termes de prise en
main et de qualit des annotations produites.
P ERSPECTIVES ET RFLEXIONS
Perspectives de recherche
lissu de cette thse, diffrentes perspectives de recherche venant dans la continuit
des travaux prsents dans ce mmoire soffrent nous. Nous souhaitons ainsi axer une
partie de nos travaux futurs autour des problmatiques suivantes :
lextension de la mthodologie SemSLATES afin de prendre en compte dautres sources
de donnes dynamiques dans cette perspective dintgration dinformations sociales
en entreprise. Il peut ici sagir de donnes provenant aussi bien du poste de travail
(dans la ligne du Semantic Desktop) que de flux dinformation issus de services de
microblogging, terminaux mobiles et autres senseurs favorisant lubiquit numrique ;
la protection des donnes personnelles et lvaluation du degr de confiance des sources
dinformation sur le Web 2.0, pour lesquelles les technologies du Web Smantique
nous semblent offrir un cadre appropri. Comme nous lavons voqu, louverture des
donnes sociales ne nous semble pas aller lencontre de ces principes mais nous permet au contraire denvisager des possibilits avances de contrle des informations
personnelles, en couplant reprsentation unifie de donnes structures, politiques
daccs et langages de rgles ;
la mise en place de mthodes avances permettant lexploitation de donnes RDF
de plus en plus nombreuses sur le Web, notamment via le projet Linking Open Data.
Plus particulirement, il nous semble intressant de rflchir la manire dont cellesci peuvent tre utilises avec pertinence en termes de navigation, recommandation,
230

Perspectives et rflexions

rutilisation et dcouverte dinformation, toujours en prenant en compte leur caractre multi-dimensionnel. Il nous semble galement intressant dy intgrer nouveau
un aspect social pour identifier des communauts dintrt ou des rseaux dexpertise
stablissant autour de ces donnes.
Rflexions autour du Web (Smantique)
Nous aimerions conclure ce mmoire en tentant de rpondre une question qui nous
a t pose plusieurs fois pendant cette thse, savoir "O est la killer-app du Web Smantique ?". cet gard, il nous semble que cette killer-app est le Web Smantique lui-mme. En
effet, partir du moment o celui-ci permet une mise en commun et un accs universel linformation, celle-ci tant lessence mme du savoir, lapplication nest en ralit quun moyen
dy accder, de la visualiser, de linterroger. Il faut certes encore du temps pour pouvoir lexploiter sa juste mesure. Du temps pour que les donnes soient accessibles et interconnectes, ce en quoi le projet Linking Open Data contribue grandement. Du temps galement pour
que certains challenges, comme les possibilits de requtes ou dinfrence grande chelle
puissent tre pris en compte. Du temps peut-tre aussi pour que lon prenne conscience du
potentiel et de la rupture technologique et sociale que le Web Smantique peut provoquer,
au mme titre que le Web la lui-mme entrain en tant que mdium de communication.
Le Web arrive une certaine maturit et complexit quil est ajourdhui ncessaire dtudier et de comprendre, comme le montre linitiative Web Science44 qui envisage celui-ci
comme lobjet dune science part entire, combinant sociologie, droit, informatique, etc.
l o celui-ci a longtemps t considr comme un sous-ensemble de cette dernire.
Malgr tout, le Web est encore jeune, et les technologies du Web Smantique le sont
encore plus. Laissons lui ainsi du temps ; aprs tout, comme le chantaient certains, "Its a
long way to the top (If you wanna RocknRoll)".

44

http://webscience.org

231

Annexe A

Prfixes et espaces de noms utiliss dans


ce mmoire
Le tableau suivant recense les diffrents prfixes et espaces de noms utiliss dans ce
mmoire (par ordre alphabtique).
Prfixe

Espace de nom

athena
bookmark
dcmi
dct
exif
foaf
foafplus
geo
geonames
moat
owl
nao
partenariat
rdf
rdfs
role
sioc
siocs
sioct
scot
skos
tag

http://athena.edf.fr/data/
http://www.w3.org/2002/01/bookmark#Bookmark
http://purl.org/dc/dcmitype/Sound
http://purl.org/dc/terms/
http://www.w3.org/2003/12/exif/ns#IFD
http://xmlns.com/foaf/0.1
http://athena.der.edf.fr/ontologies/foafplus#
http://www.w3.org/2003/01/geo/wgs84_pos#
http://www.geonames.org/ontology#
http://moat-project.org/ns#
http://www.w3.org/2002/07/owl#
http://www.semanticdesktop.org/ontologies/2007/08/15/nao#
http://athena.der.edf.fr/ontologies/partenariat#
http://www.w3.org/1999/02/22-rdf-syntax-ns#
http://www.w3.org/2000/01/rdf-schema#
http://athena.der.edf.fr/ontologies/roles#
http://rdfs.org/sioc/ns#
http://rdfs.org/sioc/services#
http://rdfs.org/sioc/types#
http://scot-project.org/scot/ns#
http://www.w3.org/2008/05/skos#
http://www.holygoat.co.uk/owl/redwood/0.1/tags/

233

Annexe B

Requte SPARQL pour la traduction de


donnes RSS vers SIOC
Requte SPARQL permettant la traduction de flux RSS 1.0 en donnes reprsentes avec
SIOC. Une explication complte du processus est disponible lURL http://apassant.
net/blog/2006/10/05/from-rss-to-sioc-using-sparql/.
CONSTRUCT {
? channel rdf : type sioc : Forum .
? channel sioc : link ? channel_url .
? channel dc : title ? channel_title .
? channel dc : description ? channel_description .
? channel sioc : container_of ? item .
? item rdf : type sioc : Post .
? item sioc : link ? item_url .
? item dc : title ? item_title .
? item dcterms : created ? item_created .
? item sioc : content ? item_content .
? item content : encoded ? item_content_encoded .
? item dc : subject ? item_subject .
? item foaf : maker _ : foaf .
_ : foaf foaf : name ? item_creator .
_ : foaf foaf : holdsAccount _ : sioc .
_ : foaf rdf : type foaf : Person .
? item sioc : has_creator _ : sioc .
_ : sioc rdf : type sioc : User .
_ : sioc sioc : name ? item_creator .
} WHERE {
? channel rdf : type rss : channel .
? channel rss : link ? channel_url .
? channel rss : title ? channel_title .
? channel rss : description ? channel_description .
? channel rss : items ? items .
? items ? li ? item .
? item rdf : type rss : item .
? item rss : link ? item_url .
? item rss : title ? item_title .
? item rss : description ? item_content .
OPTIONAL {

235

R EQUTE SPARQL POUR LA TRADUCTION DE DONNES RSS VERS SIOC

? item dc : date ? item_created


} . OPTIONAL {
? item content : encoded ? item_content_encoded
} . OPTIONAL {
? item dc : subject ? item_subject
} . OPTIONAL {
? item dc : creator ? item_creator
}
}

236

Annexe C

Ontologie des rles


Ontologie pour la reprsentation des rles, domaines et mtiers associs un agent
(foaf:Agent).
<? xml version ="1.0"? >
< rdf : RDF
xmlns =" http :// athena . der . edf . fr / ontologies / role #"
xmlns : rdf =" http :// www . w3 . org /1999/02/22 - rdf - syntax - ns #"
xmlns : rdfs =" http :// www . w3 . org /2000/01/ rdf - schema #"
xmlns : owl =" http :// www . w3 . org /2002/07/ owl #"
xml : base =" http :// athena . der . edf . fr / ontologies / role " >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / Role " >
< rdf : type rdf : resource =" http :// www . w3 . org /2002/07/ owl #
Class "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// www . w3 . org /2004/02/ skos /
core # Concept " >
< rdf : type rdf : resource =" http :// www . w3 . org /2002/07/ owl #
Class "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// xmlns . com / foaf /0.1/ Agent
">
< rdf : type rdf : resource =" http :// www . w3 . org /2002/07/ owl #
Class "/ >
</ rdf : Description >
< owl : Class rdf : ID =" Role " >
< rdfs : subClassOf rdf : resource =" http :// www . w3 . org /2004/02/
skos / core # Concept "/ >
< rdfs : comment > Le rle associe a un Agent </ rdfs : comment >
</ owl : Class >
< owl : Class rdf : ID =" RoleType " >
< rdfs : subClassOf rdf : resource =" http :// www . w3 . org /2004/02/
skos / core # Concept "/ >
< rdfs : label > Metier </ rdfs : label >
< rdfs : comment > Le metier associ au rle </ rdfs : comment >

237

O NTOLOGIE DES RLES

</ owl : Class >


< owl : Class rdf : ID =" RoleDomain " >
< rdfs : subClassOf rdf : resource =" http :// www . w3 . org /2004/02/
skos / core # Concept "/ >
< rdfs : label > Domaine </ rdfs : label >
< rdfs : comment > Le domaine associ au rle </ rdfs : comment >
</ owl : Class >
< owl : ObjectProperty rdf : ID =" hasRole " >
< rdfs : label > rle </ rdfs : label >
< rdfs : domain rdf : resource =" http :// xmlns . com / foaf /0.1/ Agent
"/ >
< rdfs : range rdf : resource ="# Role "/ >
</ owl : ObjectProperty >
< owl : ObjectProperty rdf : ID =" type " >
< rdfs : label > type de rle </ rdfs : label >
< rdfs : domain rdf : resource ="# Role "/ >
< rdfs : range rdf : resource ="# RoleType "/ >
</ owl : ObjectProperty >
< owl : ObjectProperty rdf : ID =" domain " >
< rdfs : label > domaine associe au rle </ rdfs : label >
< rdfs : domain rdf : resource =" Role "/ >
< rdfs : range rdf : resource ="# RoleDomain "/ >
</ owl : ObjectProperty >
</ rdf : RDF >

238

Annexe D

Exemple dannotations mtier produites


avec UfoWiki
Graphe dannotations mtier produit avec UfoWiki et relatif lAssociation des Maires de
France.
<? xml version ="1.0" encoding =" utf -8"? >
< rdf : RDF
xmlns : sioc =" http :// rdfs . org / sioc / ns #"
xmlns : content =" http :// purl . org / rss /1.0/ modules / content /"
xmlns : foaf =" http :// xmlns . com / foaf /0.1/"
xmlns : xsd =" http :// www . w3 . org /2001/ XMLSchema #"
xmlns : rdfs =" http :// www . w3 . org /2000/01/ rdf - schema #"
xmlns : rdf =" http :// www . w3 . org /1999/02/22 - rdf - syntax - ns #"
xmlns : dc =" http :// purl . org / dc / elements /1.1/"
xmlns : dcterms =" http :// purl . org / dc / terms /"
xmlns : sioct =" http :// rdfs . org / sioc / types #"
xmlns : direct =" http :// triplestore . aktors . org / direct /#"
xmlns : tstore =" http :// triplestore . aktors . org / ontology /#"
xmlns : owl =" http :// www . w3 . org /2002/07/ owl #"
xmlns : geonames =" http :// www . geonames . org / ontology #"
xmlns : geo84 =" http :// www . w3 . org /2003/01/ geo / wgs84_pos #"
xmlns : skos =" http :// www . w3 . org /2004/02/ skos / core #"
xmlns : tags =" http :// athena . der . edf . fr / ontologies / tags #"
xmlns : event =" http :// purl . org / NET / c4dm / event . owl #"
xmlns : topic =" http :// athena . der . edf . fr / ontologies / topic #"
xmlns : foafplus =" http :// athena . der . edf . fr / ontologies /
foafplus #"
xmlns : athena =" http :// athena . der . edf . fr / ontologies / athena
#"
xmlns : role =" http :// athena . der . edf . fr / ontologies / role #"
xmlns : moat =" http :// moat - project . org / ns #"
xmlns : tag =" http :// www . holygoat . co . uk / owl / redwood /0.1/
tags /"
xmlns : doap =" http :// usefulinc . com / ns / doap #"
xmlns : admin =" http :// webns . net / mvcb /"
xmlns : dbprop =" http :// dbpedia . org / property /"
xmlns : partenariat =" http :// athena . der . edf . fr / ontologies /
partenariat #"

239

E XEMPLE D ANNOTATIONS MTIER PRODUITES AVEC U FO W IKI

xmlns : wkn =" http :// athena . der . edf . fr / ontologies / wkn #"
>
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< athena : name > <![ CDATA [ AMF - Association des Maires de
France ]] > </ athena : name > </ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< foaf : name > <![ CDATA [ Association des Maires de France ]] > </
foaf : name > </ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< foafplus : acronym > <![ CDATA [ AMF ]] > </ foafplus : acronym > </ rdf :
Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< geonames : locatedIn rdf : resource =" http :// sws . geonames . org
/2988507/"/ >
</ rdf : Description >
< foafplus : Association rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< role : hasRole rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e2a7ee "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< role : hasRole rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e5151b "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s " >
< athena : name > <![ CDATA [ Activits Associatives ]] > </ athena :
name > </ rdf : Description >
< role : RoleDomain rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s " >
< skos : broader rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e " >
< athena : name > <![ CDATA [ Administration Publique ]] > </ athena :
name > </ rdf : Description >
< role : RoleDomain rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /

240

ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e " >


< skos : broader rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # RoleTypeAssociatif " >
< athena : name > <![ CDATA [ Associatif ]] > </ athena : name > </ rdf :
Description >
< role : RoleType rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # RoleTypeAssociatif "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # RoleTypeAssociatif " >
< skos : broader rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # RoleTypeAssociatif "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R ole Ty pe Re pre se nt ati on " >
< athena : name > <![ CDATA [ Reprsentation ]] > </ athena : name > </
rdf : Description >
< role : RoleType rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R ole Ty pe Re pre se nt ati on "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R ole Ty pe Re pre se nt ati on " >
< skos : broader rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R ole Ty pe Rep re se nt ati on "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e2a7ee " >
< geonames : locatedIn rdf : resource =" http :// sws . geonames . org
/3017382/"/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e2a7ee " >
< role : domain rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e2a7ee " >
< role : type rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # RoleTypeAssociatif "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e5151b " >
< geonames : locatedIn rdf : resource =" http :// sws . geonames . org
/3017382/"/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e5151b " >
< role : domain rdf : resource =" http :// athena . der . edf . fr /

241

E XEMPLE D ANNOTATIONS MTIER PRODUITES AVEC U FO W IKI

ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e "/ >


</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e5151b " >
< role : type rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R ole Ty pe Re pre se nt ati on "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// sws . geonames . org
/2988507/" >
< athena : name > <![ CDATA [ Paris , France ]] > </ athena : name > </ rdf :
Description >
< geonames : Feature rdf : about =" http :// sws . geonames . org
/2988507/"/ >
< rdf : Description rdf : about =" http :// sws . geonames . org
/3017382/" >
< athena : name > <![ CDATA [ France ]] > </ athena : name > </ rdf :
Description >
< geonames : Feature rdf : about =" http :// sws . geonames . org
/3017382/"/ >
</ rdf : RDF >

242

Annexe E

Exemple dannotations socio-structurelles


produites avec UfoWiki
Graphe dannotations socio-structurelles produit avec UfoWiki et relatif lAssociation
des Maires de France. Le contenu textuel a volontairement t supprim de cette annexe pour
des raisons de lisibilit.
<? xml version ="1.0" encoding =" utf -8"? >
< rdf : RDF
xmlns : sioc =" http :// rdfs . org / sioc / ns #"
xmlns : content =" http :// purl . org / rss /1.0/ modules / content /"
xmlns : foaf =" http :// xmlns . com / foaf /0.1/"
xmlns : xsd =" http :// www . w3 . org /2001/ XMLSchema #"
xmlns : rdfs =" http :// www . w3 . org /2000/01/ rdf - schema #"
xmlns : rdf =" http :// www . w3 . org /1999/02/22 - rdf - syntax - ns #"
xmlns : dc =" http :// purl . org / dc / elements /1.1/"
xmlns : dcterms =" http :// purl . org / dc / terms /"
xmlns : sioct =" http :// rdfs . org / sioc / types #"
xmlns : direct =" http :// triplestore . aktors . org / direct /#"
xmlns : tstore =" http :// triplestore . aktors . org / ontology /#"
xmlns : owl =" http :// www . w3 . org /2002/07/ owl #"
xmlns : geonames =" http :// www . geonames . org / ontology #"
xmlns : geo84 =" http :// www . w3 . org /2003/01/ geo / wgs84_pos #"
xmlns : skos =" http :// www . w3 . org /2004/02/ skos / core #"
xmlns : tags =" http :// athena . der . edf . fr / ontologies / tags #"
xmlns : event =" http :// purl . org / NET / c4dm / event . owl #"
xmlns : topic =" http :// athena . der . edf . fr / ontologies / topic #"
xmlns : foafplus =" http :// athena . der . edf . fr / ontologies /
foafplus #"
xmlns : athena =" http :// athena . der . edf . fr / ontologies / athena #"
xmlns : role =" http :// athena . der . edf . fr / ontologies / role #"
xmlns : moat =" http :// moat - project . org / ns #"
xmlns : tag =" http :// www . holygoat . co . uk / owl / redwood /0.1/ tags
/"
xmlns : doap =" http :// usefulinc . com / ns / doap #"
xmlns : admin =" http :// webns . net / mvcb /"
xmlns : dbprop =" http :// dbpedia . org / property /"
xmlns : partenariat =" http :// athena . der . edf . fr / ontologies /

243

E XEMPLE D ANNOTATIONS SOCIO - STRUCTURELLES PRODUITES AVEC U FO W IKI

partenariat #"
xmlns : wkn =" http :// athena . der . edf . fr / ontologies / wkn #"
>
< foaf : Document rdf : about = >
< dc : title > SIOC profile for Hermes </ dc : title >
< dc : description > A SIOC profile describes the structure and
contents of a community site ( e . g . , weblog ) in a machine
processable form . For more information refer to the & lt ; a
href =& quot ; http :// rdfs . org / sioc & quot ;& gt ; SIOC project
page & lt ;/ a & gt ; </ dc : description >
< foaf : primaryTopic rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = node /16853"/ >
< admin : generatorAgent rdf : resource =" http :// drupal . org /
project / sioc "/ >
</ foaf : Document >
< sioct : WikiArticle rdf : about =" http :// athena . der . edf . fr / hermes
/? q = node /16853" >
< dc : creator > <![ CDATA [ Ariane Bouchet ]] > </ dc : creator >
< dc : title > <![ CDATA [ AMF - Association des Maires de France
]] > </ dc : title >
< dc : description > <![ CDATA [...]]] > </ dc : description >
< content : encoded > <![ CDATA [...]]]] > </ content : encoded >
< dcterms : created >2007 -11 -14 T15 :36:00+01:00 </ dcterms : created >
< dcterms : modified >2008 -05 -26 T15 :22:22+02:00 </ dcterms :
modified >
< sioc : link rdf : resource =" http :// athena . der . edf . fr / hermes /? q =
node /16853" / >
< sioc : has_creator rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = user /630" rdfs : seeAlso =" http :// athena . der . edf .
fr / hermes /? q = sioc / user /630" / >
< sioc : has_container rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = wiki /80" rdfs : seeAlso =" http :// athena . der . edf . fr
/ hermes /? q = sioc / wiki /80" / >
< wkn : embedsKnowledge rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = rdfdata / node /16853" rdfs : seeAlso =" http :// athena
. der . edf . fr / hermes /? q = rdfdata / node /16853"/ >
< foaf : primaryTopic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e "/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R ole Ty pe Re pre se nt ati on "/ >
< sioc : topic rdf : resource =" http :// sws . geonames . org
/3017382/"/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e "/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s "/ >
< sioc : topic rdf : resource =" http :// sws . geonames . org
/3017382/"/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /

244

ontologies / athena # RoleTypeAssociatif "/ >


< sioc : topic rdf : resource =" http :// sws . geonames . org
/2988507/"/ >
</ sioct : WikiArticle >
< tag : RestrictedTagging >
< tag : taggedResource rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = node /16853"/ >
< tag : associatedTag >
< moat : Tag rdf : about =" http :// athena . der . edf . fr / tags / tag /
hp % C3 % A9dia " >
< moat : name > <![ CDATA [ hpdia ]] > </ moat : name >
</ moat : Tag >
</ tag : associatedTag >
</ tag : RestrictedTagging >
</ rdf : RDF >

245

Annexe F

Analyse de proprits DBpedia


Analyse des proprits les plus couramment associes la notion dartiste sous DBpedia,
suivant un chantillon alatoire de 400 instances. Tableau extrait de [Passant et Raimond, 2008].
Position
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

Proprit

skos:subject
rdf:type
dbpedia:reference
dbpedia:genre
dbpedia:page
dbpedia:hasPhotoCollection
dbpedia:origin
dbpedia:wikiPageUsesTemplate
dbpedia:label
dbpedia:wordnet_type
dbpedia:associatedActs
foaf:homepage
dbpedia:currentMembers
dbpedia:url
dbpedia:pastMembers
dbpedia:occupation
owl:sameAs
foaf:depiction
foaf:img
dpbedia:wikipage-de

247

Nombre de relations
1930
882
847
450
400
400
355
333
265
194
189
178
151
114
108
97
95
89
89
85

Bibliographie
[Abel, 2008] Fabian Abel (2008). The benefit of additional semantics in folksonomy systems.
In PIKM 08 : Proceeding of the 2nd PhD workshop on Information and Knowledge Management,
pages 4956. ACM Press.
[Abel et al., 2007] Fabian Abel, Mischa Frank, Nicola Henze, Daniel Krause, Daniel Plappert et Patrick Siehndel (2007). GroupMe ! Where Semantic Web Meets Web 2.0. In
Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web
Conference (ISWC/ASWC2007), volume 4825 de Lecture Notes in Computer Science, pages
871878. Springer.
[AbilityNet, 2008] AbilityNet (2008). State of the eNation web accessibility reports - Social
Networking Websites. Rapport technique, AbilityNet.
[Adida et Birbeck, 2008] Ben Adida et Mark Birbeck, diteurs (2008). RDFa Primer 1.0. W3C
Working Group Note 14 October 2008, World Wide Web Consortium. http://www.w3.
org/TR/xhtml-rdfa-primer/.
[Akhtar et al., 2008] Waseem Akhtar, Jacek Kopecky, Thomas Krennwallner et Axel Polleres
(2008). XSPARQL : Traveling between the XML and RDF worlds and avoiding the XSLT
pilgrimage. In Proceedings of the 5th European Semantic Web Conference (ESWC 2008), volume 5021 de Lecture Notes in Computer Science, pages 432447. Springer.
[Amardeilh, 2007] Florence Amardeilh (2007). Web Smantique et Informatique Linguistique :
propositions mthodologiques et ralisation dune plateforme logicielle. Thse de doctorat, Universit Paris-X.
[Amardeilh et al., 2005] Florence Amardeilh, Philippe Laublet et Jean-Luc Minel (2005). Annotation documentaire et peuplement dontologie partir dextractions linguistiques. In
IC2005, 16mes Journes Francophones dIngnierie des Connaissances.
[Angeletou, 2008] Sofia Angeletou (2008). Semantic Enrichment of Folksonomy Tagspaces.
In International Semantic Web Conference, volume 5318 de Lecture Notes in Computer Science,
pages 889894. Springer.
[Anicic et al., 2006] Nenad Anicic, Nenad Ivezic et Albert Jones (2006). An Architecture for Semantic Enterprise Application Integration Standards, In Dimitri Konstantas, Jean-Paul Bourrires, Michel Lonard et Nacer Boudjlida, diteurs : Interoperability of Enterprise Software
and Applications, chapitre 3, pages 2534. Springer.
249

B IBLIOGRAPHIE

[Ankolekar et al., 2008] Anupriya Ankolekar, Markus Krtzsch, Duc Thanh Tran et Denny
Vrandecic (2008). The Two Cultures : Mashing up Web 2.0 and the Semantic Web. Journal
of Web Semantics, 6(1):7075.
[Ankolekar et Vrandecic, 2008] Anupriya Ankolekar et Denny Vrandecic (2008). Kalpana
enabling client-side web personalization. In HYPERTEXT 2008, Proceedings of the 19th
ACM Conference on Hypertext and Hypermedia, pages 2126. ACM Press.
[Auer, 2005] Sren Auer (2005). Powl - A Web Based Platform for Collaborative Semantic
Web Development. In First Workshop on Scripting for the Semantic Web (SFSW2005), volume
135 de CEUR Workshop Proceedings. CEUR-WS.org.
[Auer et al., 2007] Sren Auer, Chris Bizer, Jens Lehmann, Georgi Kobilarov, Richard Cyganiak et Zachary Ives (2007). Dbpedia : A nucleus for a web of open data. In Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007), volume 4825 de Lecture Notes in Computer Science, pages 715728.
Springer.
[Auer et al., 2006] Sren Auer, Sebastian Dietzold et Thomas Riechert (2006). OntoWiki - A
Tool for Social, Semantic Collaboration. In Proceedings of the 5th International Semantic Web
Conference (ISWC 2006), volume 4273 de Lecture Notes in Computer Science. Springer.
[Auillans et al., 2002] Pascal Auillans, Patrice Ossona de Mendez, Pierre Rosenstiehl et Bernard Vatant (2002). A Formal Model for Topic Maps. In The Semantic Web - ISWC
2002. First International Semantic Web Conference, volume 2342 de Lecture Notes in Computer
Science, pages 6983. Springer.
[Ayers et Vlkel, 2008] Danny Ayers et Max Vlkel, Leo Sauermann et Richard Cyganiak,
diteurs (2008). Cool URIs for the Semantic Web. W3C Interest Group Note 03 December
2008, World Wide Web Consortium. http://www.w3.org/TR/cooluris/.
[Baader et al., 2003] Franz Baader, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi
et Peter F. Patel-Schneider (2003). The Description Logic Handbook : Theory, Implementation,
and Applications. Cambridge University Press.
[Bachimont, 2000] Bruno Bachimont (2000). Engagement Smantique et Engagement Ontologique : Conception et Ralisation Dontologies En Ingnierie Des Connaissances, In Manuel Zacklad, Jean Charlet, Gilles Kassel et Didier Bourigault, diteurs : Ingnierie des connaissances : volutions rcentes et nouveaux dfis, chapitre 19, pages 305324. Eyrolles.
[Bechhofer et al., 2004] Sean Bechhofer, Frank ven Harmelen, James A. Hendler, Ian Horrocks, Deborah L. McGuinness, Peter F. Patel-Schneider et Lynn Andrea Stein, Mike Dean
et Guus Schreiber, diteurs (2004). OWL Web Ontology Language Reference. W3C Recommendation 10 February 2004, World Wide Web Consortium. http://www.w3.org/
TR/owl-ref/.
[Beck, 1999] Kent Beck (1999). Extreme Programming Explained : Embrace Change. AddisonWesley Professional.

250

Bibliographie

[Beckett, 2004] David Beckett, diteur (2004). RDF/XML Syntax Specification (Revised).
W3C Recommendation 10 February 2004, World Wide Web Consortium. http://www.
w3.org/TR/rdf-syntax-grammar/.
[Beckett et Berners-Lee, 2008] David Beckett et Tim Berners-Lee (2008). Turtle - Terse RDF
Triple Language. W3C Team Submission 14 January 2008, World Wide Web Consortium.
http://www.w3.org/TeamSubmission/turtle/.
[Begelman et al., 2006] Grigory Begelman, Philipp Keller et Frank Smadja (2006). Automated Tag Clustering : Improving search and exploration in the tag space. In Proceedings of
the WWW2006 Workshop on Collaborative Tagging.
[Berendt et Hanser, 2007] Bettina Berendt et Christoph Hanser (2007). Tags are not metadata, but "just more content" - to some people. In Proceedings of the First International
Conference on Weblogs and Social Media (ICWSM2007).
[Bergman et Giasson, 2008] Michael K. Bergman et Frdrick Giasson, diteurs (2008). UMBEL Ontology Documentation. Technical Report TR 08-08-28-A1, none. http://umbel.
org/technical_documentation.html.
[Bernardi et al., 2008] Ansgar Bernardi, Stefan Decker, Ludger van Elst, Gunnar Grimnes,
Tudor Groza, Siegfried Handschuh Mehdi Jazayeri, Cedric Mesnage, Knud Moeller, Gerald Reif et Michael Sintek (2008). The Social Semantic Desktop : A New Paradigm Towards
Deploying the Semantic Web on the Desktop, In Jorge Cardoso et Miltiadis D. Lytras, diteurs : Semantic Web Engineering in the Knowledge Society, chapitre 7, pages 290312. IGI
Global.
[Berners-Lee, 1989] Tim Berners-Lee (1989). Information Management : A Proposal. Rapport technique, CERN. http://www.w3.org/History/1989/proposal.html.
[Berners-Lee, 2005a] Tim Berners-Lee (2005a). Putting the web back in semantic web.
http ://www.w3.org/2005/Talks/1110-iswc-tbl/(1).
[Berners-Lee, 2005b] Tim Berners-Lee (2005b). Tim Berners-Lee Podcast at ISWC2005.
www. http://esw.w3.org/topic/IswcPodcast.
[Berners-Lee, 2006a] Tim Berners-Lee (2006a). Conceptual Graphs and the Semantic Web.
Design issues for the world wide web, World Wide Web Consortium. http://www.w3.
org/DesignIssues/CG.html.
[Berners-Lee, 2006b] Tim Berners-Lee (2006b). Linked Data. Design issues for the
world wide web, World Wide Web Consortium. http://www.w3.org/DesignIssues/
LinkedData.html.
[Berners-Lee, 2006c] Tim Berners-Lee (2006c).
DesignIssues/Notation3.html.

Notation 3.

http://www.w3.org/

[Berners-Lee et al., 2006] Tim Berners-Lee, Yuhsin Chen, Lydia Chilton, Dan Connolly, Ruth
Dhanaraj, James Hollenbach, Adam Lerer et David Sheets (2006). Tabulator : Exploring
and Analyzing linked data on the Semantic Web. In Proceedings of the 3rd International
Semantic Web User Interaction Workshop (SWUI2006).
251

B IBLIOGRAPHIE

[Berners-Lee et al., 2005] Tim Berners-Lee, Roy Fielding, U.C. Irvine et Larry Masinter
(2005). Uniform Resource Identifiers (URI) : Generic Syntax. Request for comments :
3986, Internet Engineering Task Force. http://www.ietf.org/rfc/rfc3986.txt.
[Berners-Lee et Fischetti, 1999] Tim Berners-Lee et Mark Fischetti (1999). Weaving the Web :
The Original Design and Ultimate Destiny of the World Wide Web by its Inventor. Harper
Collins Publishers, New York.
[Berners-Lee et al., 2001] Tim Berners-Lee, James A. Hendler et Ora Lassila (2001). The Semantic Web. Scientific American, 284(5):3443.
[Berrueta et al., 2007] Diego Berrueta, Dan Brickley, Stefan Decker, Sergio Fernndez, Christoph Grn, Andreas Harth, Tom Heath, Kingsley Idehen, Kjetil Kjernsmo, Alistair Miles,
Alexandre Passant, Axel Polleres, Luis Polo et Michael Sintek, Uldis Bojars et John G.
Breslin, diteurs (2007). SIOC Core Ontology Specification. W3C Member Submission 12 June 2007, World Wide Web Consortium. http://www.w3.org/Submission/
sioc-spec/.
[Berrueta et al., 2008] Diego Berrueta, Jose E. Labra. et Ivan Herman (2008). XSLT+SPARQL :
Scripting the Semantic Web with SPARQL embedded into XSLT stylesheets. In 4th Workshop on Scripting for the Semantic Web (SFSW2008), volume 368 de CEUR Workshop Proceedings. CEUR-WS.org.
[Bibikas et al., 2008] Dimitris Bibikas, Dimitrios Kourtesis, Iraklis Paraskakis, Ansgar Bernardi, Leo Sauermann, Dimitris Apostolou, Gregoris Mentzas et Ana Cristina Vasconcelos (2008). Organisational Knowledge Management Systems in the Era of Enterprise 2.0 :
The case of OrganiK. In BIS 2008 Workshops Proceedings, volume 333 de CEUR Workshop
Proceedings, pages 4553. CEUR-WS.org.
[Biezunski et al., 2002] Michel Biezunski, Martin Bryan et Steven R. Newcomb, diteurs
(2002). ISO/IEC 13250, Topic Maps (Second Edition). Rapport technique, ISO/IEC.
[Bizer et Cyganiak, 2007] Christian Bizer et Richard Cyganiak (2007). The TriG Syntax.
Rapport technique, Freie Universitt Berlin. http://www4.wiwiss.fu-berlin.de/
bizer/TriG/.
[Bizer et al., 2007a] Christian Bizer, Richard Cyganiak et Tobias Gauss (2007a). The rdf book
mashup : From web apis to a web of data. In 3rd Workshop on Scripting for the Semantic
Web (SFSW2007), volume 248 de CEUR Workshop Proceedings. CEUR-WS.org.
[Bizer et al., 2007b] Chris Bizer, Richard Cyganiak et Tom Heath (2007b). How to Publish
Linked Data on the Web. Rapport technique. http://www4.wiwiss.fu-berlin.de/
bizer/pub/LinkedDataTutorial/.
[Bizer et al., 2008] Christian Bizer, Tom Heath, Kingsley Idehen et Tim Berners-Lee, diteurs
(2008). First Workshop on Linked Data on the Web (LDOW2008). volume 369 de CEUR
Workshop Proceedings. CEUR-WS.org.

252

Bibliographie

[Bizer et Schultz, 2008] Christian Bizer et Andreas Schultz (2008). Benchmarking the Performance of Storage Systems that expose SPARQL Endpoints. In Proceedings of the 4th
International Workshop on Scalable Semantic Web knowledge Base Systems (SSWS2008).
[Bojars, 2009] Uldis Bojars (2009). Establishing a Multipurpose Ontology for Describing UserGenerated Content on the Semantic Web. Thse de doctorat, National University of Ireland,
Galway. paraitre.
[Bojars et Breslin, 2007] Uldis Bojars et John G. Breslin (2007). ResumeRDF : Expressing
Skill Information on the Semantic Web. In Proceedings of the 1st International ExpertFinder
Workshop.
[Bojars et al., 2006] Uldis Bojars, John G. Breslin et Alexandre Passant (2006). SIOC Browser
Towards a Richer Blog Browsing Experience. In Proceedings of the 4th Blogtalk Conference
(Blogtalk Reloaded). Books on demand.
[Bojars et al., 2007a] Uldis Bojars, John G. Breslin, Alexandre Passant et Axel Polleres, diteurs (2007a). SIOC Ontology : Related Ontologies and RDF Vocabularies. W3C Member Submission 12 June 2007, World Wide Web Consortium. http://www.w3.org/
Submission/sioc-related/.
[Bojars et al., 2008a] Uldis Bojars, Alexandre Passant, John G. Breslin et Stefan Decker
(2008a). Social Network and Data Portability using Semantic Web Technologies. In
BIS 2008 Workshops Proceedings, volume 333 de CEUR Workshop Proceedings, pages 519.
CEUR-WS.org.
[Bojars et al., 2008b] Uldis Bojars, Alexandre Passant, Richard Cyganiak et John G. Breslin
(2008b). Weaving sioc into the web of linked data. In Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Bojars et al., 2007b] Uldis Bojars, Alexandre Passant, Frederick Giasson et John G. Breslin
(2007b). An architecture to discover and query decentralized RDF data. In 3rd Workshop
on Scripting for the Semantic Web (SFSW2007), volume 248 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Bonabeau et Theraulaz, 1994] Eric Bonabeau et Guy Theraulaz (1994). Intelligence collective.
Hermes Science Publications.
[Bottollier et al., 2007] Virginie Bottollier, Olivier Corby et Priscille Durville, Fabien L. Gandon, diteur (2007). RDF/XML Source Declaration. W3C Member Submission 5
September 2007, World Wide Web Consortium. http://www.w3.org/Submission/
rdfsource/.
[Bouquet et al., 2008] Paolo Bouquet, Heiko Stoermer, Daniele Cordiolo et Giovanni Tummarello (2008). An Entity Name System for Linking Semantic Web Data. In Proceedings
of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369 de CEUR
Workshop Proceedings. CEUR-WS.org.

253

B IBLIOGRAPHIE

[Boyd, 2008] Danah M. Boyd (2008). Taken Out of Context : American Teen Sociality in Networked Publics. Thse de doctorat, University of California, Berkeley.
[Breslin et al., 2008] John G. Breslin, Uldis Bojars, Alexandre Passant et Sergio Fernndez,
diteurs (2008). First Workshop on Social Data on the Web (SDoW2008). volume 405 de
CEUR Workshop Proceedings. CEUR-WS.org.
[Breslin et Decker, 2006] John G. Breslin et Stefan Decker (2006). Semantic Web 2.0 : Creating
Social Semantic Information Spaces. Tutorial at the 15th International World Wide Web
Conference (WWW2006).
[Breslin et Decker, 2007] John G. Breslin et Stefan Decker (2007). The Future of Social Networks on the Internet : The Need for Semantics. IEEE Internet Computing, 11(6):8690.
[Breslin et al., 2005] John G. Breslin, Andreas Harth, Uldis Bojars et Stefan Decker (2005).
Towards Semantically-Interlinked Online Communities. In Proceedings of the 2nd European
Semantic Web Conference (ESWC2005), volume 3532 de Lecture Notes in Computer Science,
pages 500514. Springer.
[Breslin et al., 2009] John G. Breslin, Alexandre Passant et Stefan Decker (2009). The Social
Semantic Web. Springer.
[Brickley, 2003] Dan Brickley, diteur (2003). Basic Geo (WGS84 lat/long) Vocabulary. Rapport technique, World Wide Web Consortium. http://www.w3.org/2003/01/geo/.
[Brickley et Guha, 2004] Dan Brickley et Ramanatgan V. Guha, diteurs (2004). RDF Vocabulary Description Language 1.0 : RDF Schema. W3C Recommendation 10 February
2004, World Wide Web Consortium. http://www.w3.org/TR/rdf-schema/.
[Brickley et Miller, 2004a] Dan Brickley et Libby Miller (2004a). FOAF Vocabulary Specification. Namespace Document 2 Sept 2004. http://xmlns.com/foaf/0.1/.
[Brickley et Miller, 2004b] Dan Brickley et Libby Miller (2004b). FOAF Vocabulary Specification. Namespace Document 2 Sept 2004, FOAF Project. http ://xmlns.com/foaf/0.1/.
[Brin et Page, 1998] Sergey Brin et Lawrence Page (1998). The Anatomy of a Large-Scale
Hypertextual Web Search Engine. Computer Networks and ISDN Systems, 30(17):107117.
[Broekstra et Kampman, 2005] Jeen Broekstra et Arjohn Kampman (2005). The SeRQL
query language (revision 1.2). Rapport technique, Aduna. http://www.openrdf.org/
doc/sesame/users/ch06.html.
[Buffa et al., 2008] Michel Buffa, Fabien L. Gandon, Guillaume Ereteo, Peter Sander et Catherine Faron (2008). SweetWiki : A semantic wiki. Journal of Web Semantics, 6(1):8497.
[Bush, 1945] Vannevar Bush (1945). As We May Think. The Atlantic Monthly, 176(1):101108.
[Caldwell et al., 2008] Ben Caldwell, Michael Cooper, Loretta Guarino Reid et Gregg Vanderheiden, diteurs (2008). Web Content Accessibility Guidelines (WCAG) 2.0. W3C
Recommendation 11 December 2008, World Wide Web Consortium. http://www.w3.
org/TR/WCAG20/.
254

Bibliographie

[Cao et al., 2003] Tuan-Dung Cao, Fabien L. Gandon et Rose Dieng-Kuntz (2003). Intgration de sources extrieures dans un Web smantique dentreprise gr par un systme
multiagents. In IC2003, 14mes Journes Francophones dIngnierie des Connaissances.
[Cardon et al., 2007] Dominique Cardon, Hlne Delaunay-Teterel, Cdric Fluckiger et
Christophe Prieur (2007). Sociological Typology of Personal Blogs. In Proceedings of the
First International Conference on Weblogs and Social Media (ICWSM2007).
[Caroll, 2003] Jeremy J. Caroll (2003). Signing RDF graphs. In Proceedings of International
Semantic Web Conference 2003 (ISWC03), volume 2870 de Lecture Notes in Computer Science,
pages 369384. Springer.
[Caroll et Stickler, 2004] Jeremy J. Caroll et Patrick Stickler (2004). TriX : RDF Triples in XML.
Technical Report HPL-2004-56, HP Labs.
[Carroll et al., 2005] Jeremy Carroll, Christian Bizer, Patrick Hayes et Patrick Stickler (2005).
Named Graphs, Provenance and Trust. In Proceedings of the 14th International World Wide
Web Conference (WWW2005), pages 613622.
[Cayzer, 2004] Steve Cayzer (2004). Semantic blogging and decentralized knowledge management. Communications of the ACM, 47(12):4752.
[Cayzer, 2006] Steve Cayzer (2006). What next for Semantic Blogging ? Technical Report
HPL-2006-149, HP Labs.
[Cayzer et Castagna, 2005] Steve Cayzer et Paolo Castagna (2005). How to build a snippet manager. In Proceedings of the 1st Workshop on The Semantic Desktop, 4th International
Semantic Web Conference, volume 175 de CEUR Workshop Proceedings. CEUR-WS.org.
[Cayzer et Shabajee, 2003] Steve Cayzer et Paul Shabajee (2003). Semantic Blogging and
Bibliography Management. In BlogTalk Proceedings.
[Charlet et al., 2000] Jean Charlet, Manuel Zacklad, Gilles Kassel et Didier Bourigault, diteurs (2000). Ingnierie des connaissances. Eyrolles.
[Christensen et al., 2001] Erik Christensen, Francisco Curbera, Greg Meredith et Sanjiva
Weerawarana (2001). Web Service Description Language (WSDL) 1.1. W3c note 15 march
2001, World Wide Web Consortium. http://www.w3.org/TR/wsdl.
[Ciccarese et al., 2008] Paolo Ciccarese, Elizabeth Wu, Gwen Wong, Marco Ocana, June Kinoshita, Alan Ruttenberg et Tim Clark (2008). The SWAN biomedical discourse ontology.
Journal of Biomedical Informatics, 41(5):739751.
[Clark, 1999] James Clark, diteur (1999). XSL Transformations (XSLT) Version 1.0. W3c
recommendation 16 november 1999, World Wide Web Consortium. http://www.w3.
org/TR/xslt.
[Clark et al., 2008] Kendall Grant Clark, Lee Feigenbaum et Elias Torres, diteurs (2008).
SPARQL Protocol for RDF. W3C Recommendation 15 January 2008, World Wide Web
Consortium. http://www.w3.org/TR/rdf-sparql-protocol/.
255

B IBLIOGRAPHIE

[Claudio et al., 2005] Masolo Claudio, Guarino Nicola, Oltramari Alessandro et Shneider
Luc (2005). The WonderWeb Library of Foundational Ontologies. Projet WonderWeb,
Dlivrable D18.
[Cohen et al., 2004] David Cohen, Mikael Lindvall et Patricia Costa (2004). An introduction
to agile methods, In Marvin V. Zelkowitz, diteur : Advances in Computers, volume 62, pages
267. Elsevier Academic Press.
[Cointet et al., 2007] Jean-Philippe Cointet, Emmanuel Faure et Camille Roth (2007). Intertemporal Topic Correlations in Online Media : A Comparative Study on Weblogs and
News Websites. In Proceedings of the First International Conference on Weblogs and Social
Media (ICWSM2007).
[Connolly, 2007] Dan Connolly, diteur (2007). Gleaning Resource Descriptions from Dialects of Languages (GRDDL). W3C Recommendation 11 September 2007, World Wide
Web Consortium. http://www.w3.org/TR/grddl/.
[Corby et al., 2004] Olivier Corby, Rose Dieng-Kuntz et Catherine Faron-Zucker (2004).
Querying the Semantic Web with Corese Search Engine. pages 705709. IOS Press.
[Craig et al., 2009] James Craig, Michael Cooper, Lisa Pappas, Rich Schwerdtfeger et Lisa
Seeman, diteurs (2009). Accessible Rich Internet Applications (WAI-ARIA) 1.0. W3C
Working Draft 24 February 2009, World Wide Web Consortium. http://www.w3.org/
TR/wai-aria/.
[Cyganiak et al., 2008] Richard Cyganiak, Holger Stenzhorn, Renaud Delbru, Stefan Decker
et Giovanni Tummarello (2008). Semantic Sitemaps : Efficient and Flexible Access to Datasets on the Semantic Web. In Proceedings of the 5th European Semantic Web Conference
(ESWC 2008), volume 5021 de Lecture Notes in Computer Science, pages 690704. Springer.
[dAquin et al., 2008] Mathieu dAquin, Marta Sabou, Enrico Motta, Sofia Angeletou, Laurian Gridinoc, Vanessa Lopez et Fouad Zablith (2008). What Can be Done with the Semantic Web ? An Overview Watson-based Applications. In Proceedings of the 5th Workshop
on Semantic Web Applications and Perspectives (SWAP2008), volume 426 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Davenport et Prusak, 1997] Thomas H. Davenport et Laurence Prusak (1997). Information
Ecology : Mastering the Information and Knowledge Environment. Oxford University Press.
[Davis, 2005] Ian Davis (2005). An Introduction to RDF. http://research.talis.com/
2005/rdf-intro/.
[Decker et al., 1999] Stefan Decker, Michael Erdmann, Dieter Fensel et Rudi Studer (1999).
Ontobroker : Ontology Based Access to Distributed and SemiStructured Information. In
Database Semantics : Semantic Issues in Multimedia System, pages 351369. Kluwer Academic Publisher.
[Descls, 1997] Jean-Pierre Descls (1997). Systmes dexploration contextuelle, In Claude Guimier, diteur : Co-texte et Calcul du sens, pages 215232. Presses Universitaires de Caen.
256

Bibliographie

[Ding et al., 2004] Li Ding, Tim Finin, Anupam Joshi, Rong Pan, R. Scott Cost, Yun Peng,
Pavan Reddivari, Vishal Doshi et Joel Sachs (2004). Swoogle : a search and metadata
engine for the semantic web. In Proceedings of the thirteenth ACM International Conference
on Information and Knowledge Management (CIKM 04), pages 652659. ACM Press.
[Djioua et al., 2006] Brahim Djioua, Jorge J. Garca Flores, Antoine Blais, Jean-Pierre Descls, Gall Guibert, Agata Jackiewicz, Florence Le Priol, Leila Nait-Baha et Benot Sauzay
(2006). EXCOM : An Automatic Annotation Engine for Semantic Information. In Proceedings of the Nineteenth International Florida Artificial Intelligence Research Society Conference
(FLAIRS), pages 285290. AAAI Press.
[Domingue et Dzbor, 2004] John Domingue et Martin Dzbor (2004). Magpie : supporting
browsing and navigation on the semantic web. In Proceedings of the 9th International conference on Intelligent user interface, pages 191197. ACM Press.
[Dublin Core Metadata Initiative, 2006] Dublin Core Metadata Initiative (2006). Dcmi metadata terms.
[Echarte et al., 2007] Francisco Echarte, Jos Javier Astrain, Alberto Crdoba et Jess Villadangos (2007). Ontology of Folksonomy : A New Modeling Method. In Proceedings of the
Semantic Authoring, Annotation and Knowledge Markup Workshop (SAAKM2007), volume
289 de CEUR Workshop Proceedings. CEUR-WS.org.
[Engelbart, 1962] Douglas C. Engelbart (1962). Augmenting Humain Intellect : A Conceptual Framework. Rapport technique, Stanford Research Institute.
[Engelbart, 1990] Douglas C. Engelbart (1990). Knowledge-Domain Interoperability and an
Open Hyperdocument System. In Proceedings of the 1990 ACM conference on Computersupported cooperative work, pages 143156. ACM Press.
[Erling et Mikhailov, 2007] Orri Erling et Ivan Mikhailov (2007). RDF Support in the Virtuoso DBMS. In SABRE Conference on Social Semantic Web (CSSW 2007), volume 113 de
Lecture Notes in Informatics, pages 5968. GI-EDITION.
[Fellbaum, 1998] Christiane Fellbaum, diteur (1998). Wordnet, an Electronic Lexical Database.
MIT Press.
[Fensel et al., 2000] Dieter Fensel, Ian Horrocks, Frank van Harmelen, Stefan Decker, Michael Erdmann et Michel Klein (2000). OIL in a nutshell. In Proceedings of the European
Knowledge Acquisition Conference (EKAW-2000), volume 1937 de Lecture Notes in Computer
Science, pages 116. Springer.
[Fernndez et al., 2007a] Sergio Fernndez, Diego Berrueta et Jose E. Labra (2007a). Mailing
Lists Meet The Semantic Web. In Proceedings of the BIS 2007 Workshop on Social Aspects of
the Web (SAW2007), volume 245 de CEUR Workshop Proceedings. CEUR-WS.org.
[Fernndez et al., 2007b] Sergio Fernndez, Frdrick Giasson et Kingsley Idehen, Uldis
Bojars, John G. Breslin et Alexandre Passant, diteurs (2007b). SIOC Ontology : Applications and Implementation Status. W3C Member Submission 12 June 2007, World Wide
Web Consortium. http://www.w3.org/Submission/sioc-applications/.
257

B IBLIOGRAPHIE

[Fielding, 2000] Roy Thomas Fielding (2000). REST : Architectural Styles and the Design of
Network-based Software Architectures. Thse de doctorat, University of California, Irvine.
[Franz et Staab, 2005] Thomas Franz et Steffen Staab (2005). SAM : Semantics Aware Instant
Messaging for the Networked Semantic Desktop. In Proceedings of the 1st Workshop on The
Semantic Desktop, 4th International Semantic Web Conference, volume 175 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Frappaolo et Keldsen, 2008] Carl Frappaolo et Dan Keldsen (2008). Enterprise 2.0 : Agile,
Emergent Integrated. Rapport technique, AIIM The Enterprise Content Management
Association.
[Fuchs et al., 2000] Norbert E. Fuchs, Uta Schwertel et Sunna Torge (2000).
Controlled English (ACE). Journal of Language and Computation, 1(2):199214.

Attempto

[Fukazawa et al., 2006] Yusuke Fukazawa, Takefumi Naganuma, Kunihiro Fujii et Shoji Kurakake (2006). Construction and Use of Role-Ontology for Task-Based Service Navigation
System. In Proceedings of the 5th International Semantic Web Conference (ISWC 2006), volume
4273 de Lecture Notes in Computer Science, pages 806819. Springer.
[Gandon, 2005] Fabien Gandon (2005). Generating Surrogates to Make the Semantic Web
Intelligible to End-Users. In WI 05 : Proceedings of the 2005 IEEE/WIC/ACM International
Conference on Web Intelligence, pages 352358. IEEE Computer Society.
[Gandon, 2002] Fabien L. Gandon (2002). Intelligence artificielle distribue et gestion des
connaissances : ontologies et systmes multi-agents pour un web smantique organisationnel.
Thse de doctorat, INRIA Sophia-Antipolis.
[Gandon, 2006] Fabien L. Gandon (2006). Le web smantique nest pas antisocial. In IC2006,
17mes Journes Francophones dIngnierie des Connaissances, pages 131140.
[Gandon, 2007] Fabien L. Gandon, diteur (2007). GRDDL Use Cases : Scenarios of extracting RDF data from XML documents. W3c working group note 6 april 2007, World Wide
Web Consortium. http://www.w3.org/TR/grddl-scenarios/.
[Gandon et Giboin, 2008] Fabien L. Gandon et Alain Giboin (2008). Vers des ontologies
ltat sauvage. In Atelier Ingnierie des Connaissances 2.0.
[Garey et Johnson, 1979] Michael R. Garey et David S. Johnson (1979). Computers and Intractability A Guide to the Theory of NP-Completeness. W. H. Freeman And Company.
[Giboin et al., 2008] Alain Giboin, Alexandre Passant, Philippe Laublet, Nathalie AussenacGilles et Yannick Pri, diteurs (2008). Atelier IC 2.0 : Vers une ingnierie "sociale" des
connaissances : Dans quelle mesure les usages du Web 2.0 font-ils voluer les pratiques
dIC ?
[Gillmor, 2004] Dan Gillmor (2004). We the Media. OReilly.
[Golder et Huberman, 2006] Scott Golder et Bernardo A. Huberman (2006). Usage patterns
of collaborative tagging systems. Journal of Information Science, 32(2):198208.
258

Bibliographie

[Gmez-Prez et Corcho, 2002] Asuncin Gmez-Prez et Oscar Corcho (2002). Ontology


languages for the Semantic Web. IEEE Intelligent Systems, 17(1):5460.
[Gruber, 2007] Thomas Gruber (2007). Ontology of Folksonomy : A Mash-up of Apples and
Oranges. International Journal on Semantic Web and Information Systems, 3(2):111.
[Gruber, 1995] Thomas. R. Gruber (1995). Towards Principles for the Design of Ontologies
Used for Knowledge Sharing. International Journal Human-Computer Studies, 43(56):907
928.
[Gruber, 2008] Thomas R. Gruber (2008). Collective Knowledge Systems : Where the Social
Web Meets the Semantic Web. Journal of Web Semantics, 6(1):413.
[Guarino, 1992] Nicola Guarino (1992). Concepts, attributes and arbitrary relations. Data
Knowledge Engineering, 8(3):249261.
[Guarino et Giaretta, ] Nicolas Guarino et Pierdaniele Giaretta. Ontologies and Knowledge
Bases : Towards a Terminological Clarification. In Towards Very Large Knowledge Bases
(Proceedings of the 2nd International Conference on Building and Sharing of Very-Large Scale
Knowledge Bases), pages 2532. IOS Press.
[Guha et al., 2003] Ramanatgan V. Guha, Rob McCool et Eric Miller (2003). Semantic Search.
In Proceedings of the 12th International World Wide Web Conference (WWW2003), pages 700
709. ACM Press.
[Haarslev et Mller, 2001] Volker Haarslev et Ralf Mller (2001). Description of the RACER
System and its Applications. In Proceedings of the 2001 International Workshop on Description Logics (DL-2001), volume 49 de CEUR Workshop Proceedings. CEUR Workshop Proceedings.
[Halpin, 2009] Harry Halpin (2009). Social Meaning on the Web : From Wittgenstein To
Search Engines. In Proceedings of the WebSci09 : Society On-Line.
[Halpin et al., 2006] Harry Halpin, Valentin Robu et Hana Shepard (2006). The Dynamics
and Semantics of Collaborative Tagging. In Proceedings of the 1st Semantic Authoring
and Annotation Workshop (SAAW06), volume 209 de CEUR Workshop Proceedings. CEURWS.org.
[Halpin et al., 2007] Harry Halpin, Valentin Robu et Hana Shepherd (2007). The Complex
Dynamics of Collaborative Tagging. In Proceedings of the 16th International World Wide Web
Conference (WWW2007), pages 211220.
[Harris et Gibbins, 2003] Steve Harris et Nicholas Gibbins (2003). 3store : Efficient Bulk RDF
Storage. In Proceedings of the First International Workshop on Practical and Scalable Semantic
Systems, volume 89 de CEUR Workshop Proceedings. CEUR-WS.org.
[Harth et al., 2005] Andreas Harth, Hannes Gassert, Ina OMurchu, John G. Breslin et Stefan
Decker (2005). WikiOnt : An Ontology for Describing and Exchanging Wikipedia Articles.
In Proceedings of Wikimania 2005 The First International Wikimedia Conference.

259

B IBLIOGRAPHIE

[Harth et al., 2007] Andreas Harth, Aidan Hogan, Jrgen Umbrich et Stefan Decker (2007).
SWSE : Objects before documents ! In Semantic Web Challenge 2008, collocated with the 7th
International Semantic Web Conference (ISWC).
[Harth et al., 2006] Andreas Harth, Jrgen Umbrich et Stefan Decker (2006). MultiCrawler :
A Pipelined Architecture for Crawling and Indexing Semantic Web Data. In Proceedings
of the 5th International Semantic Web Conference (ISWC 2006), volume 4273 de Lecture Notes
in Computer Science, pages 258271. Springer.
[Hartmann et al., 2004] Jens Hartmann, York Sure, Alain Giboin, Diana Maynard, Mari del
Carmen Surez-Figueroa et Roberta Cuel (2004). Methods for ontology evaluation. Projet
KWeb, Dliverable 1.2.3.
[Hausenblas et al., 2008] Michael Hausenblas, Wolfgang Halb et Yves Raimond (2008).
Scripting User Contributed Interlinking. In 4th Workshop on Scripting for the Semantic Web
(SFSW2008), volume 368 de CEUR Workshop Proceedings. CEUR-WS.org.
[Hausenblas et al., 2009] Michael Hausenblas, Philipp Krger, Daniel Olmedilla, Alexandre
Passant et Axel Polleres, diteurs (2009). Proceedings of the First Workshop on Trust and
Privacy on the Social and Semantic Web (SPOT2009). volume 447 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Hayes et al., 2007] Conor Hayes, Paolo Avesani et Sriharsha Veeramachaneni (2007). An
Analysis of the Use of Tags in a Blog Recommender System. In Twentieth International
Joint Conferences on Artificial Intelligence, pages 27722777.
[Hayes, 2004] Patrick Hayes, diteur (2004). RDF Semantics. W3C Recommendation 10
February 2004, World Wide Web Consortium. http://www.w3.org/TR/rdf-mt/.
[Heath et Motta, 2007] Tom Heath et Enrico Motta (2007). Revyu.com : A Reviewing and
Rating Site for the Web of Data. In Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007), volume 4825 de Lecture
Notes in Computer Science, pages 895902. Springer.
[Heflin et Hendler, 2000] Jeff Heflin et James A. Hendler (2000). Searching the Web with
SHOE. In Artificial Intelligence for Web Search. Papers from the AAAI Workshop. WS-00-01.,
pages 3540. AAAI Press.
[Hendler et Golbeck, 2008] James A. Hendler et Jenifer Golbeck (2008). Metcalfes law, Web
2.0, and the Semantic Web. Journal of Web Semantics, 6(1):1420.
[Herman et al., 2000] Ivan Herman, Guy Melanon et M. Scott Marshall (2000). Graph Visualization and Navigation in Information Visualization : a Survey. IEEE Transactions on
Visualization and Computer Graphics, 6(1):2443.
[Hildebrand et al., 2007] Michiel Hildebrand, Jacco van Ossenbruggen, Alia K. Amin, Lora
Aroyo, Jan Wielemaker et Lynda Hardman (2007). The Design Space Of A Configurable
Autocompletion Component. Rapport technique, CWI Amsterdam.

260

Bibliographie

[Hogan et al., 2008] Aidan Hogan, Andreas Harth et Axel Polleres (2008). SAOR : Authoritative Reasoning for the Web. In Proceedings of the 3rd Asian Semantic Web Conference
(ASWC 2008), volume 5367 de Lecture Notes in Computer Science, pages 7690. Springer.
[Horrocks, 2002] Ian Horrocks (2002). DAML+OIL : a Description Logic for the Semantic
Web. IEEE Data Engineering Bulletin, 25(1):49.
[Huynh et al., 2007] David F. Huynh, David R. Karger et Robert C. Miller (2007). Exhibit :
Lightweight structured data publishing. In Proceedings of the 16th International World Wide
Web Conference (WWW2007), pages 737746.
[Huynh-Kim-Bang et Dan, 2008] Benjamin Huynh-Kim-Bang et Eric Dan (2008). Social
bookmarking et tags structurs. In IC2008, 19mes Journes Francophones dIngnierie des
Connaissances.
[Idehen et Erling, 2008] Kingsley Idehen et Orri Erling (2008). Linked Data Spaces Data
Portability. In Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008),
volume 369 de CEUR Workshop Proceedings. CEUR-WS.org.
[Isaac, 2005] Antoine Isaac (2005). Conception et utilisation dontologies pour lindexation de
documents audiovisuels. Thse de doctorat, Universit Paris-IV, Paris, France.
[Isaac et al., 2007] Antoine Isaac, John Phipps et Daniel Rubin, diteurs (2007). SKOS Use
Cases and Requirements. W3C Working Draft 16 May 2007, World Wide Web Consortium. http://www.w3.org/TR/2007/WD-skos-ucr-20070516/.
[Jaffri et al., 2007] Afraz Jaffri, Hugh Glaser et Ian Millard (2007). URI Identity Management
for Semantic Web Data Integration and Linkage. In On the Move to Meaningful Internet
Systems 2007 : OTM 2007 Workshops - 3rd International Workshop On Scalable Semantic Web
Knowledge Base Systems, volume 4806 de Lecture Notes in Computer Science, pages 1125
1134. Springer.
[Jaffri et al., 2008] Afraz Jaffri, Hugh Glaser et Ian Millard (2008). Managing URI Synonymity to Enable Consistent Reference on the Semantic Web. In Proceedings of the First International Workshop on Identity and Reference on the Semantic Web (IRSW2008), volume 422 de
CEUR Workshop Proceedings. CEUR Workshop Proceedings.
[Jschke et al., 2008] Robert Jschke, Andreas Hotho, Christoph Schmitz, Bernhard Ganter
et Gerd Stumme (2008). Discovering Shared Conceptualizations in Folksonomies. Journal
of Web Semantics, 6(1):3853.
[Java et al., 2007] Akshay Java, Xiaodan Song, Tim Finin et Belle Tseng (2007). Why We
Twitter : Understanding Microblogging Usage and Communities. In WebKDD/SNA-KDD
07 : Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and
social network analysis, pages 5665. ACM Press.
[Kahan et Koivunen, 2001] Jos Kahan et Marja-Ritta Koivunen (2001). Annotea : an open
RDF infrastructure for shared Web annotations. In Proceedings of the 10th International
World Wide Web Conference (WWW10), pages 623632.
261

B IBLIOGRAPHIE

[Karger et Quan, 2004] David R. Karger et Dennis Quan (2004). What Would It Mean to
Blog on the Semantic Web ? In The Semantic Web - ISWC 2004 : Third International Semantic
Web Conference, volume 3298 de Lecture Notes in Computer Science. Springer.
[Kassel et Perpette, 1999] Gilles Kassel et Sbastien Perpette (1999). Co-operative ontology
construction needs to carefully articulate terms, notions and objects. In Proceedings of
the International Workshop on ontological Engineering on the Global Information Infrastructure,
pages 5770.
[Khushraj et Lassila, 2005] Deepali Khushraj et Ora Lassila (2005). Ontological Approach to
Generating Personalized User Interfaces for Web Services. In International Semantic Web
Conference, volume 3729 de Lecture Notes in Computer Science, pages 916927. Springer.
[Kiefer et al., 2007] Christoph Kiefer, Abraham Bernstein, Hong Joo Lee, Mark Klein et Markus Stocker (2007). Semantic Process Retrieval with iSPARQL. In Proceedings of the 4th
European Semantic Web Conference (ESWC 2007), volume 4519 de Lecture Notes in Computer
Science, pages 609623. Springer.
[Kim et al., 2007] Hak Lae Kim, Sung-Kwon Yang, John G. Breslin et Hong-Gee Kim (2007).
Simple algorithms for representing tag frequencies in the scot exporter. In Proceedings
of the 2007 IEEE/WIC/ACM International Conference on Intelligent Agent Technology, pages
536539. IEEE Computer Society.
[Kiryakov et al., 2004] Atanas Kiryakov, Borislav Popov, Ivan Terziev, Dimitar Manov et
Damyan Ognyanoff (2004). Semantic Annotation, Indexing, and Retrieval. Journal of Web
Semantics, 2(1):4979.
[Klinker et al., 1991] Georg Klinker, Carlos Bhola, Geoffroy Dallemagne, David Marques et
John McDermott (1991). Usable and reusable programming constructs. Knowledge Acquisition, 3(2):117136.
[Klyne et Carroll, 2004] Graham Klyne et Jeremy J. Carroll (2004). Resource Description
Framework (RDF) : Concepts and abstract syntax. W3C Recommendation 10 February
2004, World Wide Web Consortium. http://www.w3.org/TR/rdf-concepts/.
[Knerr, 2006] Thomas Knerr (2006). Tagging Ontology - Towards a Common Ontology for
Folksonomies. http://code.google.com/p/tagont/.
[Kochut et Janik, 2007] Krys Kochut et Maciej Janik (2007). SPARQLeR : Extended Sparql for
Semantic Association Discovery. In Proceedings of the 4th European Semantic Web Conference
(ESWC 2007), volume 4519 de Lecture Notes in Computer Science, pages 145159. Springer.
[Koivunen et al., 2001] Marja-Riitta Koivunen, Ralph Swick, Jose Kaha et Eric Prudhommeaux (2001). An Annotea Bookmark Schema. Rapport technique, World Wide Web
Consortium. http://www.w3.org/2003/07/Annotea/BookmarkSchema-20030707.
[Kolari et al., 2007] Pranam Kolari, Tim Finin, Yelena Yesha, Yaacov Yesha, Kelly Lyons, Stephen Perelgut et Jen Hawkins (2007). On the Structure, Properties and Utility of Internal
Corporate Blogs. In Proceedings of the First International Conference on Weblogs and Social
Media (ICWSM2007).
262

Bibliographie

[Kraft et al., 2003] Tobias Kraft, Holger Schwarz, Ralf Rantzau et Bernhard Mitschang
(2003). Coarse-Grained Optimization : Techniques for Rewriting SQL Statement Sequences. In Proceedings of the 29th international conference on Very large data bases, pages
488499. Morgan Kaufmann.
[Krtzsch et al., 2006] Markus Krtzsch, Denny Vrandecic et Max Vlkel (2006). Semantic
MediaWiki. In Proceedings of the 5th International Semantic Web Conference (ISWC 2006),
volume 4273 de Lecture Notes in Computer Science, pages 935942. Springer.
[Kuhn, 2008] Tobias Kuhn (2008). AceWiki : Collaborative Ontology Management in
Controlled Natural Language. In Third Semantic Wiki Workshop The Wiki Way of Semantics, volume 360 de CEUR Workshop Proceedings. CEUR-WS.org.
[Lee, 2004] Ryan Lee (2004). Scalability report on triple store applications. Rapport
technique, MIT Massachusetts Institute of Technology. http://simile.mit.edu/
reports/stores/index.html.
[Lenat et al., 1990] Douglas B. Lenat, Ramanathan V. Guha, Karen Pittman, Dexter Pratt et
Mary Shepherd (1990). Cyc : Toward Programs with Common Sense. Communications of
the ACM, 33(8):3049.
[Leuf et Cunningham, 2001] Bo Leuf et Ward Cunningham (2001). The Wiki Way : Collaboration and Sharing on the Internet. Addison-Wesley Professional.
[Lewis, 2007] Rhys Lewis (2007). Dereferencing http uris. Draft Tag Finding 31 May 2007,
World Wide Web Consortium. http://www.w3.org/2001/tag/doc/httpRange-14/
2007-05-31/HttpRange-14.html.
[Libert et al., 2007] Barry Libert, Jon Spector et Don Tapscott (2007). We Are Smarter Than
Me : How to Unleash the Power of Crowds in Your Business. Wharton School Publishing.
[Luke et Heflin, 2000] Sean Luke et Jeff Heflin (2000). Shoe 1.01. Rapport technique, Parallel Understanding Systems Group, Department of Computer Science, University of
Maryland at College Park.
[Maedche et al., 2003] Alexander Maedche, Boris Motik, Ljiljana Stojanovic, Rudi Studer et
Raphael Volz (2003). Ontologies for Enterprise Knowledge Management. IEEE Intelligent
Systems, 18(2):2633.
[Marlow et al., 2006] Cameron Marlow, Mor Naaman, Danah Boyd et Marc Davis (2006).
HT06, tagging paper, taxonomy, Flickr, academic article, to read. In HYPERTEXT 06 :
Proceedings of the seventeenth conference on Hypertext and hypermedia, pages 3140. ACM
Press.
[Martin et Eklund, 1999] Philippe Martin et Peter Eklund (1999). Embedding Knowledge
in Web Documents. In Proceedings of the 8th International World Wide Web Conference
(WWW08).
[Martre, 1994] Henri Martre, Paris : La Documentation Franfaise, diteur (1994). Intelligence conomique et stratgie des entreprises. Rapport technique, Commissariat gnral
du Plan.
263

B IBLIOGRAPHIE

[Mathes, 2004] Adam Mathes (2004). Folksonomies : Cooperative Classification and Communication Through Shared Metadata.
[Mcafee, 2006] Andrew P. Mcafee (2006). Enterprise 2.0 : The Dawn of Emergent Collaboration. MIT Sloan Management Review, 47(3):2128.
[McGuinness et al., 2003] Deborah L. McGuinness, Richard Fikes, Lynn Andrea Stein et
James A. Hendler (2003). DAML-ONT : An Ontology Language for the Semantic Web, In
Dieter Fensel, James A. Hendler, Henry Lieberman et Wolfgang Wahlster, diteurs : Spinning the Semantic Web, chapitre 3, pages 6593. MIT Press.
[Mika, 2005] Peter Mika (2005). Ontologies Are Us : A Unified Model of Social Networks
and Semantics. In Proceedings of the 4th International Semantic Web Conference (ISWC 2005),
volume 3729 de Lecture Notes in Computer Science, pages 522536. Springer.
[Mika, 2008] Peter Mika (2008). Microsearch : An Interface for Semantic Search. In Proceedings of the Workshop on Semantic Search (SemSearch 2008) at the 5th European Semantic Web
Conference (ESWC 2008), volume 334 de CEUR Workshop Proceedings. CEUR Workshop
Proceedings.
[Miles et Bechhofer, 2008] Alistair Miles et Sean Bechhofer (2008). SKOS Simple Knowledge
Organization System Reference. W3C Working Draft 29 August 2008, World Wide Web
Consortium. http://www.w3.org/TR/2008/WD-skos-reference-20080829/.
[Milicic, 2008] Vuc Milicic (2008). Semantic tags. W3C SWEO Case Study, World Wide Web
Consortium. http://www.w3.org/2001/sw/sweo/public/UseCases/Faviki/.
[Mller et al., 2006] Knud Mller, Uldis Bojars et John G. Breslin (2006). Using Semantics
to Enhance the Blogging Experience. In Proceedings of the 3th European Semantic Web
Conference (ESWC 2006), volume 4011 de Lecture Notes in Computer Science, pages 679696.
Springer.
[Nakayama, 2008] Kotaro Nakayama (2008). Wikipedia Mining for Triple Extraction Enhanced by Co-reference Resolution. In Proceedings of the ISWC2008 Workshop on Social Data on
the Web (SDoW2008), volume 405 de CEUR Workshop Proceedings. CEUR-WS.org.
[Nelson, 1965] Theodor H. Nelson (1965). Complex information processing : a file structure
for the complex, the changing and the indeterminate. In Proceedings of the 1965 20th ACM
national conference, pages 84100. ACM Press.
[Newman et al., 2005] Richard Newman, Danny Ayers et Seth Russell (2005). Tag ontology.
http://www.holygoat.co.uk/owl/redwood/0.1/tags/.
[Nickull et al., 2008] Duane Nickull, Dion Hinchcliffe et James Governor (2008). Web 2.0
Patterns : What entrepreneurs and information architects need to know. OReilly.
[Nottingham et Sayre, 2005] Mark Nottingham et Robert Sayre (2005). The Atom Syndication Format. Request for comments : 3986, Internet Engineering Task Force. http:
//www.ietf.org/rfc/rfc4287.txt.

264

Bibliographie

[Nowack, 2008] Benjamin Nowack (2008). Sparql+, sparqlscript, sparql result templates sparql extensions for the mashup developer. In Proceedings of the Poster and Demonstration
Session at the 7th International Semantic Web Conference (ISWC2008), volume 401 de CEUR
Workshop Proceedings. CEUR-WS.org.
[OReilly, 2005] Tim OReilly (2005). OReilly Network : What Is Web 2.0 : Design Patterns
and Business Models for the Next Generation of Software. http://www.oreillynet.
com/lpt/a/6228.
[Oren, 2005] Eyal Oren (2005). SemperWiki : a semantic personal Wiki. In Proceedings of the
1st Workshop on The Semantic Desktop, 4th International Semantic Web Conference, volume
175 de CEUR Workshop Proceedings. CEUR-WS.org.
[Oren et al., 2006] Eyal Oren, Renaud Delbru et Stefan Decker (2006). Extending faceted navigation for rdf data. In Proceedings of the 5th International Semantic Web Conference (ISWC
2006), volume 4273 de Lecture Notes in Computer Science, pages 559572. Springer.
[Oren et al., 2007] Eyal Oren, Renaud Delbru, Sebastian Gerke, Armin Haller et Stefan Decker (2007). Activerdf : Object-oriented semantic web programming. In Proceedings of the
16th International World Wide Web Conference (WWW2007), pages 817824.
[Orlandi et Passant, 2009] Fabrizio Orlandi et Alexandre Passant (2009). Enabling crosswikis integration by extending the SIOC ontology. In Proceedings of the Fourth Workshop
on Semantic Wikis (SemWiki2009).
[Osterfeld et al., 2005] Frank Osterfeld, Malte Kiesel et Sven Schwarz (2005). Nabu a semantic archive for xmpp instant messaging. In Proceedings of the 1st Workshop on The Semantic Desktop, 4th International Semantic Web Conference, volume 175 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Pan et al., 2008] Jeff Z. Pan, Giorgos Stamou, Giorgos Stoilos, Edward Thomas, et Stuart
Taylor (2008). Scalable Querying Service over Fuzzy Ontologies. In Proceedings of the 17th
International World Wide Web Conference (WWW 2008), pages 575584.
[Passant, 2006] Alexandre Passant (2006). FOAFMap : Web2.0 meets the Semantic Web. In
2nd Workshop on Scripting for the Semantic Web (SFSW2006), volume 181 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Passant, 2007a] Alexandre Passant (2007a). Linked Data tagging with LODr. In Semantic
Web Challenge 2008, collocated with the 7th International Semantic Web Conference (ISWC).
[Passant, 2007b] Alexandre Passant (2007b). A user-friendly interface to browse and find
DOAP project with doap :store. In 3rd Workshop on Scripting for the Semantic Web
(SFSW2007), volume 248 de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant, 2007c] Alexandre Passant (2007c). Using Ontologies to Strengthen Folksonomies
and Enrich Information Retrieval in Weblogs. In Proceedings of the First International Conference on Weblogs and Social Media (ICWSM2007).

265

B IBLIOGRAPHIE

[Passant, 2008a] Alexandre Passant (2008a). Enhancement and Integration of Corporate Social Software Using the Semantic Web. W3C SWEO Case Study, World Wide Web Consortium. http://www.w3.org/2001/sw/sweo/public/UseCases/EDF/.
[Passant, 2008b] Alexandre Passant (2008b). :me owl :sameAs flickr :33669349@N00. In
Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369
de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant et al., 2008] Alexandre Passant, Tuukka Hastrup, Uldis Bojars et John G. Breslin
(2008). Microblogging : A Semantic Web and Distributed Approach. In 4th Workshop on
Scripting for the Semantic Web (SFSW2008), volume 368 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Passant et al., 2009a] Alexandre Passant, Jacek Kopeck, Stphane Corlosquet, Diego Berrueta, Davide Palmisano et Axel Polleres, diteurs (2009a). XSPARQL : Use cases. Rapport
technique. http://xsparql.deri.org/spec/xsparql-use-cases.html.
[Passant et al., 2009b] Alexandre Passant, Philipp Krger, Michael Hausenblas, Daniel Olmedilla, Axel Polleres et Stefan Decker (2009b). Enabling Trust and Privacy on the Social
Web. In W3C Workshop on the Future of Social Networking.
[Passant et Laublet, 2008a] Alexandre Passant et Philippe Laublet (2008a). Combining
Structure and Semantics for Ontology-Based Corporate Wikis. In 11th International Conference on Business Information Systems, BIS 2008, volume 7 de Lecture Notes in Business Information Processing, pages 5869. Springer.
[Passant et Laublet, 2008b] Alexandre Passant et Philippe Laublet (2008b). Meaning Of A
Tag : A collaborative approach to bridge the gap between tagging and Linked Data. In
Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369
de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant et Laublet, 2008c] Alexandre Passant et Philippe Laublet (2008c). Ontologies et
Web 2.0. In IC2008, 19mes Journes Francophones dIngnierie des Connaissances.
[Passant et Laublet, 2008d] Alexandre Passant et Philippe Laublet (2008d). Towards an Interlinked Semantic Wiki Farm. In Third Semantic Wiki Workshop The Wiki Way of Semantics, volume 360 de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant et Laublet, 2008e] Alexandre Passant et Philippe Laublet (2008e). Wikis smantiques : Le peuplement dontologies pour tous ? In Atelier Ingnierie des Connaissances 2.0.
[Passant et al., 2009c] Alexandre Passant, Philippe Laublet, John G. Breslin et Stefan Decker
(2009c). Semantic Search for Enterprise 2.0. In Proceedings of the WWW2009 Workshop on
Semantic Search (SemSearch2009).
[Passant et Raimond, 2008] Alexandre Passant et Yves Raimond (2008). Combining Social
Music and Semantic Web for music-related recommender systems. In Proceedings of the
ISWC2008 Workshop on Social Data on the Web (SDoW2008), volume 405 de CEUR Workshop
Proceedings. CEUR-WS.org.
266

Bibliographie

[Passant et al., 2009d] Alexandre Passant, Matthias Samwald, John G. Breslin et Stefan Decker (2009d). Federating Distributed Social Data to Build an Interlinked Online Information Society. In Proceedings of the WebSci09 : Society On-Line.
[Passant et al., 2006] Alexandre Passant, Jean-David Sta et Philippe Laublet (2006). Folksonomies, Ontologies and Corporate Bloging. In Proceedings of the 4th Blogtalk Conference
(Blogtalk Reloaded). Books on demand.
[Patel-Schneider et al., 2004] Peter F. Patel-Schneider, Patrick Hayes et Ian Horrocks, diteurs (2004). OWL Web Ontology Language Semantics and Abstract Syntax. W3C Recommendation 10 February 2004, World Wide Web Consortium. http://www.w3.org/
TR/owl-semantics/.
[Prez et al., 2006] Jorge Prez, Marcelo Arenas et Claudio Gutierrez (2006). Semantics and
Complexity of SPARQL. In Proceedings of the 5th International Semantic Web Conference
(ISWC 2006), volume 4273 de Lecture Notes in Computer Science, pages 3043. Springer.
[Polleres et al., 2007] Axel Polleres, Franois Scharffe et Roman Schindlauer (2007).
SPARQL++ for Mapping Between RDF Vocabularies. In Proceedings of the 6th International
Conference on Ontologies, DataBases, and Applications of Semantics (ODBASE 2007), volume
4803 de Lecture Notes in Computer Science, pages 878896. Springer.
[Prudhommeaux et Seaborne, 2008] Eric Prudhommeaux et Andy Seaborne, diteurs
(2008). SPARQL query language for RDF. W3C Recommendation 15 January 2008, World
Wide Web Consortium. http://www.w3.org/TR/rdf-sparql-query/.
[Quan et al., 2003a] Dennis Quan, Karun Bakshi et David R. Karger (2003a). A Unified Abstraction for Messaging on the Semantic Web. In Proceedings of the 12th International World
Wide Web Conference (WWW2003), page 231. ACM Press.
[Quan et al., 2003b] Dennis Quan, David Huynh et David R. Karger (2003b). Haystack : A
Platform for Authoring End User Semantic Web Applications. In Proceedings of International Semantic Web Conference 2003 (ISWC03), volume 2870 de Lecture Notes in Computer
Science, pages 738753. Springer.
[Quillian, 1968] Ross Quillian (1968). Semantic Memory, In Marvin L. Minsky, diteur : Semantic Information Processing, pages 216270. MIT Press.
[Rada et al., 1989] R. Rada, H. Mili, E. Bicknell et M. Blettner (1989). Development and application of a metric on semantic nets. 19(1):1730.
[Rager et al., 1997] David Rager, James A. Hendler et Alice M. Mulvehill (1997). ForMAT
and Parka : A Technology Integration Experiment and Beyond. In Case-Based Reasoning
Research and Development : Proceedings of the Second International Conference on Case-Based
Reasoning, (ICCBR97), volume 1266 de Lecture Notes in Computer Science, pages 122132.
Springer.
[Raimond et al., 2008] Yves Raimond, Christopher Sutton et Mark Sandler (2008). Automatic Interlinking of Music Datasets on the Semantic Web. In Proceedings of the WWW2008
267

B IBLIOGRAPHIE

Workshop Linked Data on the Web (LDOW2008), volume 369 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Rehatschek et Hausenblas, 2007] Herwig Rehatschek et Michael Hausenblas (2007). Enhancing the Exploration of Mailing List Archives Through Making Semantics Explicit. In
Semantic Web Challenge 2007, collocated with the 6th International Semantic Web Conference
(ISWC).
[Rousset et al., 2002] Marie-Christine Rousset, Alain Bidault, Christine Froidevaux, Hlne
Gagliardi, Franois Goasdou, Chantal Reynaud et Brigitte Safar (2002). Construction de
Mdiateurs pour Intgrer des Sources dinformation multiples et htrognes. Revue I3,
2:959.
[Russell et Norvig, 2003] Stuart J. Russell et Peter Norvig (2003). Artificial Intelligence : A
Modern Approach. Pearson Education.
[Salton et McGill, 1986] Gerard Salton et Michael J. McGill (1986). Introduction to Modern
Information Retrieval. Mcgraw Hill Computer Science Series.
[Sanderson et Croft, 1999] Mark Sanderson et William Bruce Croft (1999). Deriving concept
hierarchies from text. In Proceedings of the 22nd Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval, SIGIR99, pages 206213. ACM Press.
[Scerri et al., 2007] Simon Scerri, Michael Sintek, Ludger van Elst et Siegfried Handschuh,
Simon Scerri, diteur (2007). NEPOMUK Annotation Ontology Specification. Rapport
technique. http://www.semanticdesktop.org/ontologies/nao/.
[Schaffert, 2006] Sebastian Schaffert (2006). IkeWiki : A Semantic Wiki for Collaborative
Knowledge Management. In First International Workshop on Semantic Technologies in Collaborative Applications (STICA 06).
[Schmitz, 2006] Patrick Schmitz (2006). Inducing Ontology from Flickr Tags. In Proceedings
of the WWW2006 Workshop on Collaborative Tagging.
[Scott et al., 2008] Tom Scott, Yves Raimond, Patrick Sinclair et Nicholas Humfrey (2008).
The Programmes Ontology. In XTech 2008 : The Web on the Move.
[Seaborne, 2004] Andy Seaborne (2004). RDQL A Query Language for RDF. W3c member submission 9 january 2004, World Wide Web Consortium. http://www.w3.org/
Submission/2004/SUBM-RDQL-20040109/.
[Seaborne et al., 2008] Andy Seaborne, Geetha Manjunath, Chris Bizer, John G. Breslin, Souripriya Das, Ian Davis, Steve Harris, Kingsley Idehen, Olivier Corby, Kjetil Kjernsmo et
Benjamin Nowack (2008). SPARQL Update A language for updating RDF graphs. W3C
Member Submission 15 July 2008, World Wide Web Consortium. http://www.w3.org/
Submission/2008/SUBM-SPARQL-Update-20080715/.
[Servant, 2006] Franois-Paul Servant (2006). Semanlink. In Jena User Conference (JUC).

268

Bibliographie

[Sheth et al., 2002] Amit P. Sheth, Clemens Bertram, David Avant, Brian Hammond, Krys
Kochut et Yashodhan S. Warke (2002). Managing Semantic Content for the Web. IEEE
Internet Computing, 6(4):8087.
[Silva et Dix, 2006] Paula Alexandra Silva et Alan Dix (2006). Usability - Not as we know
it ! In Proceedings of HCI 2007, The 21st British HCI Group Annual Conference.
[Sirin et al., 2007] Evren Sirin, Bijan Parsia, Bernardo Cuenca Grau, Aditya Kalyanpur et
Yarden Katz (2007). Pellet : A practical OWL-DL reasoner. Journal of Web Semantics,
5(2):5153.
[Sowa, 1984] John F. Sowa (1984). Conceptual Structures : Information processing in mind and
machine. Addison-Wesley Longman Publishing Co., Inc.
[Specia et Motta, 2007] Lucia Specia et Enrico Motta (2007). Integrating Folksonomies with
the Semantic Web. In Proceedings of the 4th European Semantic Web Conference (ESWC 2007),
volume 4519 de Lecture Notes in Computer Science, pages 624639. Springer.
[Staab, 2002] Steffen Staab (2002). Emergent semantics. IEEE Intelligent Systems, 17(1):7886.
[Steimann, 2000] Friedrich Steimann (2000). On the representation of roles in objectoriented and conceptual modelling. Data Knowledge Engineering, 35(1):83106.
[Stocker et al., 2008] Markus Stocker, Christoph Kiefer Andy Seaborne, Abraham Bernstein
et Dave Reynolds (2008). SPARQL Basic Graph Pattern Optimization Using Selectivity
Estimation. In Proceedings of the 17th International World Wide Web Conference (WWW 2008),
pages 595604.
[Suchanek et al., 2007] Fabian M. Suchanek, Gjergji Kasneci et Gerhard Weikum (2007).
Yago : A Core of Semantic Knowledge Unifying WordNet and Wikipedia. In Proceedings of the 16th International World Wide Web Conference (WWW2007), pages 697706. ACM
Press.
[Sure et al., 2005] York Sure, Stephan Bloehdorn, Peter Haase, Jens Hartmann et Daniel
Oberle (2005). The SWRC ontology Semantic Web for research communities. In Progress
in Artificial Intelligence Proceedings of the 12th Portuguese Conference on Artificial Intelligence
(EPIA 2005), volume 3808 de Lecture Notes in Computer Science. Springer.
[SVG Working Group, 2003] SVG Working Group, Jon Ferraiolo, Jun Fujisawa et Dean Jackson, diteurs (2003). Scalable Vector Graphics (SVG) 1.1 Specification. W3C Recommendation 14 January 2003, World Wide Web Consortium. http://www.w3.org/TR/
SVG11/.
[Tanaka et Taylor, 1991] James W. Tanaka et Marjorie Taylor (1991). Object categories and
expertise : Is the basic level in the eye of the beholder ? Cognitve Psychology, 23(3):457482.
[Tanasescu et Streibel, 2007] Vlad Tanasescu et Olga Streibel (2007). Extreme Tagging :
Emergent Semantics through the Tagging of Tags. In Proceedings of the International Workshop on Emergent Semantics and Ontology Evolution (ESOE2007), volume 292 de CEUR
Workshop Proceedings. CEUR-WS.org.
269

B IBLIOGRAPHIE

[Tapscott et Williams, 2007] Don Tapscott et Anthony D. Williams (2007). Wikinomics : How
Mass Collaboration Changes Everything. Pearson Education.
[Taylor, 1999] Arlene G. Taylor (1999). The Organization of Information. Libraries Unlimited.
[Tazzoli et al., 2004] Roberto Tazzoli, Paolo Castagna et Stefano Emilio Campanini (2004).
Towards a Semantic WikiWikiWeb. In The Semantic Web - ISWC 2004 : Third International
Semantic Web Conference, volume 3298 de Lecture Notes in Computer Science. Springer.
[Terziev et al., 2005] Ivan Terziev, Atanas Kiryakov et Dimitar Manov (2005). Base Upperlevel Ontology (BULO) Guidance. Projet SEKT, Dlivrable 1.8.1.
[Troncy, 2004] Raphal Troncy (2004). Formalisation des connaissance documentaires et des
connaissances conceptuelles laide dontologies : application la description de documents audiovisuels. Thse de doctorat, Universit Joseph Fourier-INPG.
[Tummarello et al., 2007] Giovanni Tummarello, Renaud Delbru et Eyal Oren (2007). Sindice.com : Weaving the Open Linked Data. In Proceedings of the 6th International Semantic
Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007), volume 4825 de
Lecture Notes in Computer Science, pages 552565. Springer.
[Van Damme et al., 2007] Cline Van Damme, Martin Hepp et Katharina Siorpaes (2007).
FolksOntology : An Integrated Approach for Turning Folksonomies into Ontologies. In
Proceedings of the ESWC2007 workshop Bridging the Gep between Semantic Web and Web 2.0.
[Vander Wal, 2007] Thomas Vander Wal (2007). Folksonomy Coinage and Definition.
url{http ://www.vanderwal.net/folksonomy.html.
[Vitvar et al., 2008] Tomas Vitvar, Jacek Kopecky, Jana Viskova et Dieter Fensel (2008).
WSMO-Lite Annotations for Web Services. In Proceedings of the 5th European Semantic Web
Conference (ESWC 2008), volume 5021 de Lecture Notes in Computer Science, pages 674689.
Springer.
[Vlkel et Oren, 2006] Max Vlkel et Eyal Oren (2006). Towards a Wiki Interchange Format
(WIF) - Opening Semantic Wiki Content and Metadata. In Proceedings of the First Workshop
on Semantic Wikis - From Wiki to Semantics (SemWiki-2006), volume 206 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Vlkel et Schaffert, 2006] Max Vlkel et Sebastien Schaffert, diteurs (2006). First Workshop on Semantic Wikis From Wiki to Semantics. volume 206 de CEUR Workshop Proceedings. CEUR-WS.org.
[W3C Technical Architecture Group, 2004] W3C Technical Architecture Group, Ian Jacobs
et Norman Walsh, diteurs (2004). Architecture of the World Wide Web, Volume One.
W3C Recommendation 15 December 2004, World Wide Web Consortium. http://www.
w3.org/TR/webarch/.
[Welty et Guarino, 2001] Christopher A. Welty et Nicola Guarino (2001). Supporting ontological analysis of taxonomic relationships. Data Knowledge Engineering, 39(1):5174.

270

Bibliographie

[West, 2000] Douglas B. West (2000). Introduction to Graph Theory (Second Edition). Prentice
Hall.
[Wiederhold, 1992] Gio Wiederhold (1992). Mediators in the Architecture of Future Information Systems. IEEE Computer, 25(3):3849.
[Wilensky, 1967] Harold L. Wilensky (1967). Organizational intelligence. Basic Books.
[Wu et Weld, 2008] Fei Wu et Daniel S. Weld (2008). Automatically refining the wikipedia
infobox ontology. In Proceedings of the 17th International World Wide Web Conference (WWW
2008), pages 635644.
[Xyleme, 2001] Lucie Xyleme (2001). A dynamic warehouse for XML Data of the Web. IEEE
Data Engineering Bulletin, 24(2):4047.
[Yee et al., 2003] Ka-Ping Yee, Kirsten Swearingen, Kevin Li et Marti Hearst (2003). Faceted
Metadata for Image Search and Browsing. In CHI 03 : Proceedings of the SIGCHI conference
on Human factors in computing systems, pages 401408. ACM Press.
[Zacklad, 2005] Manuel Zacklad (2005). Introduction aux ontologies smiotiques dans le
Web Socio Smantique. In IC2005, 16mes Journes Francophones dIngnierie des Connaissances.
[Zacklad, 2007] Manuel Zacklad (2007). Classification, thsaurus, ontologies, folksonomies :
comparaisons du point de vue de la recherche ouverte dinformation (roi). In CAIS/ACSI
2007, 35e Congrs annuel de lAssociation Canadienne des Sciences de lInformation.

271

Technologies du Web Smantique pour lEntreprise 2.0


Les travaux prsents dans cette thse proposent diffrentes mthodes, rflexions et ralisations associant Web 2.0 et Web Smantique. Aprs avoir introduit ces deux notions, nous prsentons les
limites actuelles de certains outils, comme les blogs ou les wikis, et des pratiques de tagging dans un
contexte dEntreprise 2.0. Nous proposons ensuite la mthode SemSLATES et la vision globale dune
architecture de mdiation reposant sur les standards du Web Smantique (langages, modles, outils
et protocoles) pour pallier ces limites. Nous dtaillons par la suite diffrentes ontologies (au sens
informatique) dveloppes pour mener bien cette vision : dune part, en contribuant activement au
projet SIOC Semantically-Interlinked Online Communities , des modles destins aux mta-donnes
socio-structurelles, dautre part des modles, tendant des ontologies publiques, destins aux donnes mtier. De plus, la dfinition de lontologie MOAT Meaning Of A Tag nous permet de coupler
la souplesse du tagging et la puissance de lindexation base dontologies. Nous revenons ensuite
sur diffrentes implmentations logicielles que nous avons mises en place EDF R&D pour permettre de manire intuitive la production et lutilisation dannotations smantiques afin denrichir
les outils initiaux : wikis smantiques, interfaces avances de visualisation (navigation facettes,
mash-up smantique, etc.) et moteur de recherche smantique. Plusieurs contributions ont t publies sous forme dontologies publiques ou de logiciels libres, contribuant de manire plus large
cette convergence entre Web 2.0 et Web Smantique non seulement en entreprise mais sur le Web
dans son ensemble.
Mot-cls : Web 2.0, Entreprise 2.0, Web Smantique, Ontologies, Folksonomies, Wikis, SIOC, MOAT

Semantic Web technologies for Enterprise 2.0


The work described in this thesis provides different methods, thoughts and implementations combining Web 2.0 and the Semantic Web. After introducing those terms, we present the current shortcomings of tools such as blogs and wikis as well as tagging practices in an Enterprise 2.0 context.
We define the SemSLATES methodology and the global vision of a middleware architecture based on
Semantic Web technologies (languages, models, tools and protocols) to solve these issues. Then, we
detail the various ontologies (as in computer science) that we build to achieve this goal: on the one
hand models dedicated to socio-structural meta-data, by actively contributing to SIOC SemanticallyInterlinked Online Communities , and on the other hands models extending public ontologies for domain data. Moreover, the MOAT ontology Meaning Of A Tag allows us to combine the flexibility
of tagging and the power of ontology-based indexing. We then describe several software implementations, at EDF R&D, dedicated to easily produce and use semantic annotations to enrich original
tools: semantic wikis, advanced visualization interfaces (faceted browsing, semantic mash-ups, etc.)
and a semantic search engine. Several contributions have been published as public ontologies or
open-source software, contributing more generally to this convergence between Web 2.0 and the Semantic Web, not only in enterprise but on the Web as a whole.
Keywords: Web 2.0, Enterprise 2.0, Semantic Web, Ontologies, Folksonomies, Wikis, SIOC, MOAT
Discipline : Informatique
Laboratoire : Langues, Logiques, Informatique, Cognition (LaLIC), quipe dAccueil (EA 4350),
Maison de la Recherche, 28 rue Serpente, 75006 Paris, France

S-ar putea să vă placă și