Documente Academic
Documente Profesional
Documente Cultură
Alexandre Passant
Dfendue devant un jury compos de:
|_|_|_|_|_|_|_|_|_|_|
(Numro denregistrement attribu par la bibliothque)
Ce mmoire est mis disposition sous un contrat Creative Commons "PaternitPas dUtilisation Commerciale-Pas de Modification 2.0 France". Les dtails de
ce contrat sont disponibles ladresse suivante : http://creativecommons.
org/licenses/by-nc-nd/2.0/fr/
Julie
Remerciements
Bien quelles ne maient pas permis de saisir la Grande Question sur la Vie, lUnivers
et le Reste, ces quatre annes de thse mont apport beaucoup, dun point de vue aussi
bien personnel que scientifique. Il me tient ainsi cur de remercier un certain nombre
de personnes sans qui je naurai sans doute pu franchir ce cap, en mexcusant par avance
auprs de celles et ceux que joublie.
Tout dabord, je tiens remercier chaleureusement Philippe Laublet pour lencadrement
sans faille de cette thse. Nos longues discussions et changes dides mont sans aucun
doute fait progresser dans mes recherches et permis de prendre le recul ncessaire pour
mieux apprhender celles-ci. Merci davoir toujours pris le temps de rpondre mes requtes (souvent tardives) et pour le dtail accord la relecture de ce mmoire. Merci galement Franois-Xavier Testard-Vaillant de mavoir propos cette thse et de mavoir fourni
ce terrain dexprimentation innovant et grandeur nature pour mener bien mes recherches
au sein dEDF R&D. Merci Jean-Pierre Descls davoir permis cette thse en mayant acceuilli dans son quipe et de mavoir montr dautres domaines de recherche, que je naurai
sans doute pas eu loccasion daborder en dautres circonstances. Merci Fabien Gandon
pour les commentaires apports la lecture de ce mmoire et les diffrentes discussions que
nous avons pu avoir ds le dbut de cette thse, grande source de motivation. Merci Gilles
Kassel davoir accept de prsider le jury de cette thse, ainsi que pour lintrt port mes
recherches et aux problmatiques abordes dans ce manuscrit. Merci galement Ivan Herman pour sa participation dans ce jury et lattention porte mes travaux et leur contexte
applicatif.
Merci lensemble des personnes avec qui jai pu changer et travailler durant cette
thse, de Paris Pkin en passant bien entendu par Galway : Axel, Fabrizio, Hak Lae, Michael, Milan, Philipp, Richard, Sergio, Yves et bien dautres encore. Nos changes et la vivacit que jai pu constater au sein de cette communaut ont galement t une grande source
de motivation et me laissent penser que le Web a encore de belles annes devant lui. Merci
bien entendu Uldis et John pour notre collaboration fructueuse autour de SIOC, et Stefan
Decker pour me permettre de continuer mes travaux dans cette direction. Merci galement
lquipe du project Athna avec qui jai partag mes journes EDF : Aurlie, Christine,
Fabien, Jean-David, Richard et Thierry ainsi que lensemble de la C.A.V.
Enfin, merci mes amis, Guillaume et Elodie, Fred et Nolwen, Kevin et Anne-Galle,
Olivier, Bertrand et Valrie, Pierre-Yves, Vincent et les autres, de mavoir suivi pendant ces
quatre annes et de mavoir rappel, de Paris Tokyo, quil y a une vie en dehors du Web.
i
Merci mes deux familles et leurs amis pour leur soutien constant et pour avoir suivi
avec intrt lvolution de ma thse. Merci en particulier mes parents de mavoir donn
le got de la curiosit et des sciences qui ma men jusquici et de mavoir toujours soutenu
dans mes dmarches. Merci mes beaux-parents, Anne et Camille, et ma belle famille, Sophie, Valrie, Benot et Damien, pour leurs encouragements permanents et leur joie de vivre.
Merci galement Lilou, Prune et Lucas pour leur sourire constant. Enfin, merci celle qui
a toujours t mes cts pour me soutenir et me comprendre durant cette longue tape et
qui je dois tant. Julie, ce mmoire test ddi.
Alexandre Passant, Galway, Juin 2009
Rsum
Cette thse sinscrit dans le cadre des rcents travaux relatifs la complmentarit entre
Web Smantique et Web 2.0, deux visions du Web qui ont souvent t considres, tort,
comme disjointes. Plus particulirement, nous nous intressons lutilisation des technologies du Web Smantique (i.e. langages, modles, outils et protocoles) dans le contexte de
lEntreprise 2.0, vision o les outils de plus en plus courants du Web 2.0 (blogs, wikis, services de partage de contenus, pratiques de tagging ...) font leur apparition dans les systmes
dinformation organisationnels. Si ces outils facilitent le partage et la collaboration entre
individus, dans lobjectif de faire merger une Intelligence Collective au sein de telles structures, ils introduisent de nouvelles problmatiques en termes dexploitation pertinente des
informations produites. Dune part, la diversit des outils utiliss complexifie lintgration
dinformations provenant de diverses sources (blogs, wikis, flux RSS ...) fragmentes au sein
du rseau dentreprise. Dautre part, la nature plein-texte des outils utiliss rend dlicate la
rutilisation de manire autonome des connaissances ainsi produites, notamment au sein
des wikis qui permettent pourtant llaboration de bases de connaissances prennes. Enfin,
les pratiques de tagging soulvent diffrents problmes en terme de recherche dinformations, dus notamment lambigut et lhtrognit des mots-cls utiliss, ainsi qua leur
manque dorganisation.
Afin de rpondre ces diffrentes problmes et en reprenant lacronyme SLATES (Search,
Links, Authoring, Tags, Extension, Signals) utilis pour identifier lEntreprise 2.0, nous dfinissons le paradigme SemSLATES, proposant la mise en place dune architecture de mdiation
sociale et smantique venant en support dun ensemble doutils existants. Cette volution
implique la dfinition et limplmentation de diffrents composants, aussi bien en termes de
reprsentation des connaissances que darchitecture logicielle, composants que nous avons
mis en place dans le cadre de cette thse, en sappuyant essentiellement sur les technologies
du Web Smantique via les standards du W3C.
Ainsi, nos travaux ont consist dune part en la mise en place dontologies formelles,
aussi bien en terme de mtadonnes socio-structurelles (afin de reprsenter les interactions
sociales produites au sein des diffrents applications utilises et les contenus issus de ces
interactions) que de mtadonnes mtier (afin dannoter les contenus eux-mmes). En ce qui
concerne le premier type, nous avons particip activement au projet SIOC SemanticallyInterlinked Online Communities , dfinissant une ontologie permettant de reprsenter les
activits des communauts en ligne et les contributions associes. En rapport au second
point, nous avons dfini un certain nombre dontologies de domaine, lgres et extensibles,
iii
reposant sur des modles dj existants et adopts sur le Web, proposant ainsi certaines
bonnes pratiques relatives la modlisation de telles ontologies. Enfin, afin dtablir un
lien entre ces deux niveaux de reprsentation, nous avons mis en place le modle MOAT
Meaning Of A Tag permettant de faire le lien entre tags et ressources du Web Smantique
(classes et instances dontologies), dans lobjectif de coupler la souplesse des folksonomies
et la puissance de lindexation smantique base sur des ontologies. Bien quindpendants,
lensemble de ces modles sarticule ainsi de manire cohrente afin de prendre en compte
les diffrentes strates de reprsentations des connaissances ncessaires de tels cosystmes
smantiques.
Nous avons galement mis en place diffrents composants logiciels permettant la production et lexploitation dannotations smantiques de manire intuitive pour les utilisateurs finals et communiquant au travers dun ensemble de protocoles ddis. En termes de
production dannotations, nous avons dvelopp diffrents services permettant lexport automatique dannotations reprsentes avec SIOC depuis des outils de blogs, wikis et flux
RSS dans ce contexte dentreprise. Nos travaux se sont galement concentrs sur la dfinition dun service de wiki smantique afin de permettre une constitution collaborative,
ouverte et incrmentale de bases de connaissances formelles reposant sur des ontologies,
sans pour autant confronter les utilisateurs la complexit des modles sous-jacents. Nous
avons galement propos diffrents services innovants venant tirer parti des graphes dannotation produits. Cest ainsi le cas dun moteur de recherche smantique que nous avons
mis en place et qui permet de visualiser des informations (agrges depuis diffrents outils
dentreprise) au sujet des instances dontologies peuples depuis les wikis, tout en proposant dtendre la recherche en considrant lensemble des diffrents graphes dannotations
disponibles au sein du systme. Nous avons galement propos de nouvelles manires de
visualiser ces informations, notamment au travers dun systme de mash-up combinant donnes internes au systme organisationnel et donnes RDF publiques et reposant sur une
interface facettes.
Alors que lensemble de nos recherches ont t valids dans un contexte industriel, la
porte de certaines de nos propositions est plus large que ce cadre dentreprise, et plus gnralement que ce contexte dEntreprise 2.0. Diffrents travaux ont ainsi t publis sous forme
dontologies publiques ou de logiciels libres, permettant leur utilisation a grande chelle sur
le Web. Ainsi, ce manuscrit propose, plus globalement, diffrentes rflexions sur la complmentarit, selon nous ncessaire, entre Web 2.0 et Web Smantique, pour mener bien la
vision dun Web social et introprable.
Mots-cls :
Web 2.0, Entreprise 2.0, Web Smantique, Ontologies, Folksonomies, Wikis, SIOC, MOAT,
Linked Data
Abstract
This Ph.D. thesis is part of some recent works regarding the complementarity between
the Semantic Web and the Web 2.0, two visions of the Web that have often been considered, wrongly, as disjoints. Especially, our focus is the use of Semantic Web technologies (i.e
languages, models, tools and protocols) in Enterprise 2.0 contexts, a vision in which most
of the commonly used Web 2.0 tools (such as blogs, wikis, content-sharing services, tagging
practices ...) became popular in corporate information systems.
Yet, while these tools can ease the process of information sharing and collaborations
between individuals, with the global aim to create a Collective Intelligence within such
structures, they introduce new issues regarding how to efficiently use the information they
helped to produce. On the one hand, the nature and diversity of the services used makes
the information integration process a complex task, from various sources fragmented in the
corporate network (blogs, wikis, RSS feeds ...). On the other hand, the plain-text nature of
these tools makes also difficult to reuse the created knowledge, especially regarding wikis,
generally used as valuable knowledge bases. Finally, the practice of tagging raises several
problems in terms of information retrieval, especially due to the ambiguity and heterogeneity of the tags used, as well as their lack of organization.
In order to solve these different issues and considering the SLATES acronym (Search,
Links, Authoring, Tags, Extension, Signals) used to define the Enterprise 2.0 vision, we have
defined the SemSLATES paradigm, proposing a social semantic middleware architecture on
the top of existing enterprise services. This proposal implies to define and implement various components, both in terms of knowledge engineering and software architecture, components that we have developed in the context of this Ph.D., relying essentially on Semantic
Web technologies, via W3C standards.
Hence, our research have consisted in modeling various formal ontologies, in order to
define both the socio-structural meta-data (in order to represent community interactions
happening in these applications as well as the content emerging from these interactions)
and business data (in order to annotate the data contained in the application) Regarding
the first type of ontologies, we have actively participated in the SIOC project SemanticallyInterlinked Online Communities that defines a model to represent activities of online communities and their related contributions. Regarding the second one, we have defined several domain ontologies, lightweight, extensible and based on existing and Web-used models, hence defining some good practices regarding lightweight ontologies modeling in such
context. Finally, in order to provide some relationships between these two levels of knowv
ledge representation, we defined MOAT Meaning Of A Tag that allows to create a bridge
between tags, tagged content and Semantic Web resources (i.e.aclasses and instances from
ontologies) in order to benefit both the flexibility of folksonomies and of the power of semantic indexing based on ontologies. While being independent, these various models articulate themselves in a consistent manner in order to take into account the different layers of
knowledge representation for such semantic ecosystems.
We have also developed several software components (communicating between each
other thanks to a set of dedicated protocols) in order to produce and use semantic annotations in a user-friendly way for end-users. In the context of producing semantic annotations,
we wrote different services that automatically export SIOC-based annotations from blogs,
wikis and RSS feeds in this enterprise context. We have also defined a semantic wiki service in order to let end-users participate in a collaborative, open and incremental process
to define formal knowledge bases driven by ontologies, without letting these users face the
complexity of the underlying models. Moreover, we have also designed several innovative
services using the produced annotations. We wrote a dedicated semantic search engine allowing to browse information (aggregated from various enterprise sources) related to ontologies instances, populated via the wikis. The engine also provides a search extension system
by considering the whole graphs of semantic annotations available in the ecosystem. We
have also proposed new ways to browse these information, building a dedicated mash-up
system combining internal information and public RDF data and using a faceted browsing
interface.
While our research has been done in an industrial context, the scope of our proposals
goes further than this corporate context and more generally than the Enterprise 2.0 context.
Hence, various works have then been published as public ontologies or free software, allowing to be used at a Web scale. Thus, this thesis suggests, more broadly, different ideas and
thoughts regarding the complementarity, in our opinion needed, between Web 2.0 and the
Semantic Web, to envision of a social and interoperable Web.
Keywords :
Web 2.0, Enterprise 2.0, Semantic Web, Ontologies, Folksonomies, Wikis, SIOC, MOAT,
Linked Data
iii
Abstract
vii
xi
xv
Listings
Introduction
Contexte et problmatique scientifique .
Contexte de la thse . . . . . . . .
Motivations et axes de recherche
Principaux rsultats . . . . . . . .
Organisation du mmoire . . . . . . . .
Plan du mmoire . . . . . . . . .
Guide de lecture . . . . . . . . . .
1
xvii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
1
2
4
6
6
8
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
12
16
25
27
31
31
34
39
43
43
1.3.2
Apports du Web 2.0 pour le Web Smantique . . . . . . . . . . . .
1.3.3
Apports du Web Smantique pour le Web 2.0 . . . . . . . . . . . .
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
46
47
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
49
49
50
50
53
57
59
62
62
63
63
68
69
69
71
73
77
81
83
83
84
84
86
89
93
96
101
103
103
104
107
109
117
119
119
126
128
134
135
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Conclusion gnrale
Retour sur les impacts de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Perspectives et rflexions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
137
137
138
138
139
143
148
148
154
156
161
166
171
171
175
183
185
187
187
188
188
192
195
199
199
204
206
210
210
212
214
215
215
216
219
225
227
227
230
233
235
237
239
243
247
Bibliographie
249
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
1.12
1.13
1.14
2.1
58
60
64
66
67
2.10
2.11
2.12
3.1
86
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
xi
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9
13
15
18
20
28
29
32
36
39
41
42
45
46
47
52
54
56
70
72
75
80
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
3.18
3.19
3.20
3.21
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
139
141
144
144
146
148
149
157
158
159
160
161
162
163
165
169
170
4.18
4.19
4.20
4.21
4.22
4.23
4.24
4.25
4.26
4.27
5.1
Vision globale des actions, annotations et ontologies dun cosystme smantique pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rpartition des ontologies et annotations au sein du systme . . . . . . . . . .
Architecture associe PTSW pour lindexation et la dcouverte de documents RDF sur le Web Smantique . . . . . . . . . . . . . . . . . . . . . . . . .
doap :store : Annuaire et interface de visualisation de projets logiciels modliss avec DOAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Protocoles dabstraction au-dessus de lentrept de donnes du mdiateur . .
Processus dinterprtation des macros au sein dUfoWiki . . . . . . . . . . . .
Rsultat dune macro smantique listant lensemble des associations recenses au sein dun wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Rsultat dune macro contextualise . . . . . . . . . . . . . . . . . . . . . . . .
URIs partages entre graphes dannotations . . . . . . . . . . . . . . . . . . . .
Slection de facettes partir de diffrentes ontologies . . . . . . . . . . . . . .
Visualisation facettes dun wiki avec Exhibit . . . . . . . . . . . . . . . . . .
Interface facettes pour visualiser des donnes SIOC avec SMOB . . . . . . .
Golocalisation dun ensemble dacteurs avec Exhibit et Geonames . . . . . .
Golocalisation au sein dune macro contextualise . . . . . . . . . . . . . . .
Interoprabilit entre applications via lutilisation dannotations smantiques
Projection de connaissances sur des contenus internes . . . . . . . . . . . . . .
Choix dun concept partir dun terme de recherche . . . . . . . . . . . . . . .
Rendu du moteur de recherche smantique au sein dHerms . . . . . . . . .
Accs au moteur de recherche via les concepts identifis avec MOAT . . . . .
Identification de contenus proches via des relations entre concepts associs .
Identification des domaines plus spcifiques qunergie solaire . . . . . . . . . .
Identification dacteurs proches de Gaz de France selon une rgle prdfinie .
Relations entre experts et non-experts en combinant FOAF, SIOC, MOAT et
SKOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Suggestion de concepts proches au sein de LODr . . . . . . . . . . . . . . . . .
Systme de recommendations musicales bases sur DBpedia . . . . . . . . . .
Vision du Web axe sur une convergence humain-machine-humain . . . . . . .
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14
5.15
5.16
5.17
5.18
5.19
5.20
5.21
5.22
5.23
5.24
5.25
5.26
172
174
175
177
178
179
179
180
181
181
189
190
196
197
199
200
203
205
205
207
208
208
209
210
211
214
217
218
219
220
221
222
223
224
225
229
23
43
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
57
59
59
60
65
67
68
70
3.1
3.2
93
3.3
125
134
4.1
4.2
168
184
5.1
213
xv
Listings
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
1.10
1.11
2.1
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
3.16
3.17
4.1
4.2
17
17
18
23
23
25
26
26
26
30
38
76
91
92
93
94
95
106
107
107
109
111
112
112
116
119
130
131
132
145
152
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
Requte SPARQL pour linterrogation de donnes SIOC via un moteur supportant les principes dinfrence RDFS . . . . . . . . . . . . . . . . . . . . . .
Restriction dune requte SPARQL aux graphes produits par un wiki donn
Fonction PHP et requte SPARQL associes une macro UfoWiki . . . . . .
Requte SPARQL avec contextualisation des macros . . . . . . . . . . . . . .
Requte SPARQL pour identifier des billets annots avec un concept particulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Identification de pages associes un concept proche . . . . . . . . . . . . .
Rgle dinfrence pour identifier deux contenus proches en utilisant MOAT,
SIOC et des relations entre URIs . . . . . . . . . . . . . . . . . . . . . . . . . .
Rgle dinfrence base sur SKOS pour lidentification de concepts proches
Rgle dinfrence pour lidentification de concepts proches partir de relations entre domaines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
194
201
202
204
212
218
220
221
222
To a computer, the Web is a flat, boring world, devoid of meaning. This is a pity,
as in fact documents on the Web describe real objects and imaginary concepts,
and give particular relationships between them. For example, a document might
describe a person. The title document to a house describes a house and also the
ownership relation with a person. Adding semantics to the Web involves two
things : allowing documents which have information in machine-readable forms,
and allowing links to be created with relationship values. Only when we have
this extra level of semantics will we be able to use computer power to help us
exploit the information to a greater extent than our own reading.
Tim Berners-Lee, Prsentation "W3 future directions"
1st World Wide Web Conference, Genve, Mai 1994
Introduction
C ONTEXTE ET PROBLMATIQUE SCIENTIFIQUE
Contexte de la thse
Les travaux prsents dans ce mmoire sinscrivent dans le cadre dune thse effectue
en contrat CIFRE1 en collaboration entre le LaLIC2 , Universit Paris-Sorbonne (Paris IV) et
le centre de Recherche et Dveloppement dElectricit de France (EDF R&D par la suite)
Clamart3 . Nous avons ainsi t rattachs EDF R&D de Fvrier 2005 Mai 2008, au sein
de trois services successifs, poursuivant ensuite nos travaux part entire au LaLIC puis au
DERI4 , National University of Ireland, Galway, partir de Septembre 2008.
Si ce contexte nous a parfois amen chercher un compromis entre impratifs industriels
court ou moyen terme et recherche scientifique, il nous a cependant permis de confronter
nos travaux des situations relles. Ainsi, nous avons pu tester nos diffrentes hypothses
et les outils associs au sein dun systme dploy en grandeur nature, nous permettant de
prendre en compte les retours utilisateur pour affiner certains choix. Ceci nous a en outre
conduit une certaine rigueur et essayer le plus souvent possible denvisager des solutions
volutives et adaptes un nombre croissant dutilisateurs. Si cette composante applique
nous a conduits dans certains cas dvelopper des solutions ad hoc pour lentreprise, nous
avons fait en sorte de toujours garder lesprit une problmatique de recherche plus large de
manire gnraliser nos rsultats lchelle du Web, comme nous le verrons tout au long
de ce mmoire. Ainsi, si la plupart des travaux prsents ici trouvent leur motivation et
sarticulent globalement dans un contexte dEntreprise 2.0, la porte de certains dentre eux
savre plus large que ce cadre industriel. Il nous a en effet sembl pertinent de considrer
cette thse CIFRE non pas comme un vase clos, mais comme un contexte dexprimentation
de ce quil est possible de raliser plus grand chelle sur le Web Smantique, notamment
en faisant le choix ds le dbut de nous baser sur les diffrents langages et recommandations
du W3C5 .
1
I NTRODUCTION
Enfin, dun pont de vue plus gnral, il est important de mentionner que nous sommes
arrivs au Web Smantique (et aux travaux de recherche prsents dans cette thse) par attrait pour le Web et par volont de participer, notre chelle, lvolution de ce formidable
mdium. Cest dailleurs la suite dun IUP Gnie Mathmatiques et Informatique et dun
DESS Technologies de lInternet pour les Organisations, accompagns en parallle de plusieurs annes dexprience en tant quingnieur dveloppement Web que nous avons dcid
de reprendre le chemin des tudes pour mener une thse sur le sujet. Un DEA Informatique
et Systmes Intelligents6 nous a ainsi amen dcouvrir la notion dontologies ddies
la modlisation de donnes sur le Web avant de poursuivre sur un stage relatif lannotation sur le Web Smantique au LaLIC, point de dpart de nos travaux. Notre exprience
passe autour des technologies du Web et notre passion pour celui-ci nous semblent importants signaler dans la mesure o ils permettent de comprendre certains choix relatifs
nos travaux. Nous dfendons ainsi dans ce mmoire une vision assez pragmatique du Web
Smantique, et plus gnralement une vision applique de la recherche. Cest en effet selon
nous en combinant recherche et standardisation autour de technologies cls associes un
contexte applicatif fort que lon parviendra mener le Web son plein potentiel7 .
Motivations et axes de recherche
Les travaux prsents dans ce mmoire sinscrivent dans la ligne des recherches autour du Web Smantique et du Web 2.0, deux visions rcentes dune certaine volution du
Web. Plus particulirement, nous nous intressons la manire dont celles-ci peuvent cohabiter et bnficier chacune des apports de lautre. Alors quelles ont souvent, tort, t
considres comme disjointes, il nous semble au contraire pertinent dtudier en quoi leur
complmentarit permettra de conduire un Web bas sur un ensemble dinteractions sociales entre internautes et aux donnes interprtables sans ambigut par des agents logiciels
autonomes.
Cest en envisageant cette complmentarit que lon pourra terme proposer de nouveaux services innovants en termes dintgration, de visualisation et de recherche dinformation sur le Web, alors considr comme une immense base de donnes sociale et distribue. Plus particulirement, ltude de cette convergence nous a amen approfondir nos
travaux en fonction de trois thmatiques principales, dont nous prsenterons de manire
succincte diffrents rsultats dans la seconde partie de cette introduction.
La modlisation des mtadonnes socio-structurelles associes aux outils Web 2.0
Si le Web 2.0 a introduit de nouvelles pratiques sociales en termes dchange dinformations et dmergence de communauts en ligne, la diversit des applications et des services
introduits nous confronte invitablement une htrognit des formats de modlisation.
Chaque outil ou service dispose en effet de ses propres modles de donnes, rendant de
ce fait complexes lintgration, lchange et la recherche dinformation partir de sources
multiples. Si cette diversit est problmatique dans un contexte comme celui du Web, elle
6
Celui-ci, tout comme lIUP et le DESS voqus prcdemment, a t suivi LUniversit Paris-Dauphine
(Paris IX).
7
Traduction du slogan du W3C
lest galement dans des environnements plus restreints utilisant ces mmes outils, tels que
les systmes dinformations dEntreprise 2.0 o un accs pertinent linformation est ncessaire. Ainsi, une partie de nos travaux a consist en la dfinition de modles pour permettre
la reprsentation commune des mtadonnes socio-structurelles associes aux outils Web
2.0 via lutilisation de technologies du Web Smantique. Par reprsentation des mtadonnes socio-structurelles, nous entendons la fois la modlisation de notions documentaires
et structurelles (distinguer par exemple un billet de blog dune page wiki, identifier le lien
entre une page wiki et le wiki associ, etc.) et celle des interactions sociales qui sy rapportent
(commentaire sur un blog, dition dune page wiki, etc.). De tels modles permettent de disposer dannotations smantiques partages depuis des systmes htrognes, facilitant ainsi
lintgration de contenus depuis diffrentes plates-formes et en consquence la recherche
dinformation associe.
La reprsentation de connaissances termino-ontologiques et le peuplement dontologies de domaine
partir doutils Web 2.0
Alors que le point prcdent se concentre sur des aspects documentaires et sociaux, il est
galement important de prendre en compte le contenu mme de ces documents Web 2.0. Si
lon se rfre aux dfinitions actuelles du Web Smantique telles que mises en avant par le
W3C "The Semantic Web is a Web of Data"8 , il sagit donc de passer de documents aux reprsentations des donnes du monde rel quils contiennent. Par exemple, nous souhaitons
modliser partir dune page wiki intitule LaLIC quil sagit dun laboratoire de recherche
bas Paris, i.e. passer du document et du terme la reprsentation du concept associ. Sil
sagit ici de thmatiques connues de peuplement dontologies, ou de manire plus large de
reprsentations de connaissances termino-ontologiques, la problmatique qui nous intresse
ici est la prise en compte de lutilisateur final dans cette dmarche, notamment au travers
doutils Web 2.0. Alors que le Web 2.0 facilite la production de contenus documentaires,
nous avons souhait approfondir la manire dont il permet la cration, lvolution et le partage de donnes, toujours au sens Web of Data, via ces outils Web 2.0. Plus particulirement
nous nous sommes ici intresss :
lutilisation de wikis pour le peuplement dontologies, en tudiant de quelle manire
ces outils permettent un peuplement ouvert, collaboratif et volutif dontologies de
domaine ;
aux relations entre les systmes dindexation libre (et spontane) base de tags et des
processus dindexation smantique plus classiques o les termes dindexation sont lis
des ressources termino-ontologiques.
Nos travaux dans ce domaine nous permettent ainsi denvisager en quoi les outils et les processus du Web 2.0 peuvent faciliter lmergence de donnes reprsentes selon les principes
du Web Smantique.
8
http://w3c.org/2001/sw
I NTRODUCTION
naux [Breslin et al., 2008] [Hausenblas et al., 2009], la participation plusieurs tutoriels sur le
sujet dans des confrences comme WWW9 , ESWC10 ou ISWC11 et la cordaction dun livre
sur le sujet [Breslin et al., 2009].
Modles de reprsentation
Afin de mettre en pratique ces rflexions, nous nous sommes attachs la dfinition de
diffrentes ontologies permettant de modliser la fois les activits, les interactions et les
contenus crs par des communauts Web 2.0 laide de technologies du Web Smantique.
Bien que voues des utilisations distinctes, ces diffrentes ontologies sarticulent de manire complmentaire au sein dune architecture de mdiation smantique pour lEntreprise
2.0.
En termes de modlisation des mtadonnes socio-structurelles, nous avons ainsi contribu activement SIOC Semantically-Interlinked Online Communities [Breslin et al., 2005] ,
de ses dbuts sa Soumission Membre au W3C en Juin 2007 [Berrueta et al., 2007], en tant
que coauteur de la spcification et diteur de deux documents associs. Concernant nos travaux autour de la complmentarit entre ontologies et tags, nous avons dfini le modle
MOAT Meaning Of A Tag [Passant et Laublet, 2008b] permettant de rsoudre les problmes classiques des systmes base de tags via lutilisation de bases de connaissances formelles venant en support des folksonomies. Enfin, de manire plus proche des besoins de
cette convention CIFRE, nous avons galement dvelopp plusieurs vocabulaires permettant la reprsentation des connaissances mtier, en se basant notamment sur des modles
publics et abondamment utiliss sur le Web Smantique et en proposant certaines bonnes
pratiques dans ce contexte.
Ainsi, nos diffrentes rflexions en termes de modles de reprsentation ont t bnfiques aussi bien dans le contexte dentreprise de cette thse que de manire plus large sur
le Web.
Ralisations logicielles
En plus des modles voqus prcdemment, nos travaux ont galement conduit la
ralisation de diffrentes implmentations logicielles. Si celles-ci sont lies aussi bien au
contexte dentreprise de notre thse qu des dveloppements plus larges sur le Web, elles
ont toutes en commun lobjectif de mettre en avant ce lien fort entre Web Smantique et Web
2.0.
Dune part, nous avons mis en place un ensemble doutils pour lEntreprise 2.0 agrments de modules ddis la production automatise dannotations smantiques, notamment
partir de blogs, ainsi quun serveur de wikis smantiques permettant la reprsentation
de donnes formalises selon les principes du Web Smantique [Passant et Laublet, 2008d].
En termes dutilisation de ces annotations, nous avons dvelopp diffrents services de visualisation de donnes RDF ainsi quun moteur de recherche smantique pour lentreprise
venant exploiter ontologies et annotations smantiques pour la recherche de documents an9
I NTRODUCTION
nots [Passant et al., 2009c]. Cette architecture logicielle, propose sous la forme dun mdiateur smantique pour lEntreprise 2.0 [Passant, 2008a], combine ainsi outils et principes du
Web 2.0 pour la production et visualisation dannotations et technologies du Web Smantique pour la reprsentation de celles-ci.
Dautre part, nous avons dvelopp diffrentes applications Web dans cet objectif de
convergence entre Web 2.0 et Web Smantique, certains dveloppements ayant t mutualiss avec les outils mis en place en entreprise, comme par exemple diffrents plug-in pour
la production dannotations smantiques depuis le systme Drupal en utilisant les vocabulaires SIOC et MOAT. Nous avons galement propos une API permettant de gnraliser la production automatique dannotations smantiques socio-structurelles avec SIOC
[Bojars et al., 2006], ainsi que des applications comme LODr [Passant, 2007a], permettant
dappliquer les principes de MOAT des contenus Web 2.0 issus de services comme Flickr
ou Delicious, ou SMOB, service de microblogging ouvert et dcentralis reposant entirement sur les standards et technologies du Web Smantique [Passant et al., 2008]. En termes
de visualisation de donnes, nous pouvons galement citer FOAFMap [Passant, 2006], un
des premiers services de mash-up smantique, proposant la golocalisation de rseaux sociaux modliss en RDF.
O RGANISATION DU MMOIRE
Plan du mmoire
Ce manuscrit est dcoup en cinq chapitres auxquels viennent sajouter cette introduction et une conclusion. Si le plan gnral ne suit pas une approche traditionnelle qui consiste
introduire ltat de lart puis nos travaux et leur valuation, chacun des chapitres reviendra
sur ces diffrents aspects en fonction du domaine abord. Ce mmoire, qui peut se considrer la fois comme un ensemble de propositions autour de la convergence entre Entreprise
2.0 (et plus gnralement Web 2.0) et Web Smantique et comme ltude dun cas pratique
autour de cette convergence, sorganise ainsi de la manire suivante.
Chapitre 1: Vers une convergence entre Web Smantique et Web 2.0, page 11
Ce premier chapitre introduira les notions de Web Smantique et de Web 2.0, essentielles
pour la bonne comprhension de ce mmoire. Dans la premire partie, nous prsenterons un
bref historique du Web et introduirons ensuite les fondements du Web Smantique. Nous
expliciterons RDF et la notion dURIs pour la reprsentation de donnes, lutilisation de
RDFS et OWL pour la dfinition dontologies et lutilisation de SPARQL pour linterrogation
de donnes. Nous reviendrons galement sur le projet Linking Open Data et la vision dun
Web of Data, notamment par rapport au Web tel que nous le connaissons aujourdhui. La
seconde partie dtaillera la notion de Web 2.0 et les principaux changements introduits par
celui-ci. Nous prsenterons tout dabord les principes gnraux de cette vision participative
du Web, puis introduirons diffrents composants qui seront au cur de nos travaux parmi
lesquels blogs, wikis et systmes dannotation base de tags. Enfin, nous prsenterons un
aperu gnral de la convergence possible entre ces deux domaines. Nous conclurons ainsi
ce chapitre en introduisant certains des travaux qui seront dtaills par la suite dans ce
6
Organisation du mmoire
mmoire, comme la notion de modles communs pour les outils Web 2.0 ou lutilisation de
wikis smantiques pour le peuplement dontologies.
Chapitre 2: SemSLATES : Une approche smantique pour lEntreprise 2.0, page 49
Nous introduirons le chapitre suivant en prsentant la notion dEntreprise 2.0 et le systme dinformation initial que nous avons mis en place au sein dEDF. Nous identifierons
ensuite ses limites, qui motivent nos travaux relatifs la mthodologie SemSLATES que nous
avons dfinie et qui sera dtaille dans ce chapitre. Nous prsenterons ainsi lapport dune
architecture de mdiation smantique dans ce contexte dEntreprise 2.0, architecture venant
se greffer au dessus de lexistant sans pour autant remettre en cause celui-ci. Nous verrons
en quoi lajout de diffrents composants logiciels sur des outils dj prsents permet de bnficier dune smantique commune qui ouvre la voix une interoprabilit accrue entre
applications. Nous comparerons galement notre proposition certains travaux similaires,
et tcherons de montrer en quoi notre approche nous semble novatrice et pertinente par
rapport ltat de lart. Ce chapitre nous permettra galement dintroduire les trois chapitres suivants, qui dtailleront les diffrents aspects ncessaires pour mener bien cette
approche, savoir (1) des modles communs de reprsentation, (2) des outils dannotations
smantiques et de peuplement dontologies et (3) des services exploitant ces ontologies et
bases de connaissances.
Chapitre 3: Rle et dfinition dun ensemble dontologies pour lEntreprise 2.0, page 83
Ce troisime chapitre prsentera en dtail diffrentes ontologies que nous avons mises
en place dans ce contexte dEntreprise 2.0, en distinguant les modles axs sur la reprsentation de donnes mtier et ceux mis en place pour la reprsentation des structures documentaires et des interactions sociales sur le Web 2.0. La premire partie prsentera principalement nos travaux autour de SIOC, modle pour la reprsentation des mtadonnes
socio-structurelles pour les outils et communauts Web 2.0. Nous prsenterons dautres modles poursuivant un but similaire et dtaillerons lalignement de SIOC avec des vocabulaires existants. Nous aborderons galement le rle de SIOC vis--vis des problmatiques
de portabilit des donnes sociales. La seconde partie prsentera ensuite les diffrentes ontologies de domaine utilises dans notre architecture de mdiation. Alors que ces modles
sont par nature dpendants du contexte applicatif, il nous semble utile de revenir dessus
notamment pour expliciter en quoi lutilisation et lextension de vocabulaires existants nous
semble une bonne pratique dans un contexte dentreprise. Nous prsenterons galement
certaines problmatiques de modlisation dontologies auxquelles nous avons t confrontes, et comment nous y avons fait face. Nous dtaillerons ensuite nos travaux en matire
de reprsentation des tags et plus particulirement la dfinition de MOAT, modle permettant de prendre en compte et de modliser la signification des tags via des concepts du
Web Smantique, offrant ainsi la possibilit dtablir un lien souple entre folksonomies et
ontologies. Cette partie sera galement loccasion de comparer ce modle aux autres ontologies permettant la reprsentation des tags et des folksonomies mais aussi de faire le parallle
avec les approches permettant lenrichissement smantique de folksonomies de manire automatique ou semi-automatique.
7
I NTRODUCTION
Organisation du mmoire
que le second donne une aperu global de nos problmatiques de recherche et des solutions
apportes. Les trois chapitres suivants dtaillent en profondeur nos travaux et peuvent par
ailleurs se considrer comme un tout permettant dapprofondir les thmes abords dans le
second chapitre.
Chapitre 3
Chapitre 1
Chapitre 2
Chapitre 4
Chapitre 5
Introduction
aux concepts
utiliss
Prsentation
gnrale des
travaux
Prsentation
dtaille des
travaux
Chapitre 1
Nous ne discuterons pas lutilisation de ce terme. Gardons simplement lesprit que, malgr les appellations, il ny a quun seul Web.
11
partie modifie de manire profonde la faon dont les contenus sont publis et changs en
ligne (Section 1.2, page 31). Cette rupture concernant la production dinformations en ligne,
qui est donc plus sociale que technologique saccompagne dun certain nombre doutils que
nous prsenterons ici. En particulier, nous dtaillerons deux outils phares de cette mouvance, savoir les blogs (Section 1.2.2, page 34) et les wikis (Section 1.2.2, page 36), ainsi que
la notion de rseaux sociaux (Section 1.2.3, page 42), les principes de syndication de contenu
(Section 1.2.2, page 37) et la notion de tagging (Section 1.2.3, page 39), mthode collaborative,
incrmentale et ouverte de catgorisation. Ces diffrents points tant au cur des travaux
qui seront prsents par la suite dans ce mmoire, il nous semble important de bien dtailler
leur fonctionnement et dentrevoir certaines de leurs limites que nous prsenterons par la
suite (Section 2, page 49).
Enfin, nous indiquerons dans la troisime partie de ce chapitre pourquoi il nous semble
utile, voire ncessaire, de faire cohabiter ces deux visions pour parvenir terme un Web o
lutilisateur est au centre de la production de donnes, mais o celles-ci sont reprsentes de
manire unifie afin dautomatiser, ou tout du moins de simplifier, certaines tches (Section
1.3, page 43). Nous reviendrons ici sur les prjugs supposs entre ces deux visions avant
dtudier cette convergence, qui conduira des espaces informationnels combinant principesaWeb 2.0 et technologies du Web Smantique. Ainsi, nous prsenterons dune part quels
peuvent tre les avantages du Web 2.0 pour le Web Smantique, essentiellement en termes
dinterfaces ddition et dannotations smantiques et dautre part les avantages du Web Smantique pour le Web 2.0, cette fois-ci en termes de structuration de donnes et de formats
dchange. Ces deux aspects nous permettrons ainsi de voir de quelle manire cette convergence conduit un cercle vertueux entre Web Smantique et Web 2.0. Cette dernire partie
du chapitre permettra galement dentrevoir plus en dtail les travaux qui seront dvelopps dans la suite de ce mmoire, savoir lutilisation des technologies du Web Smantique
pour modliser et structurer les donnes issues de services Web 2.0, de manire enrichir
leurs fonctionnalits.
1.1
1.1.1
En 1989, Tim Berners-Lee imagine pour le CERN2 une architecture informatique distribue permettant dinterconnecter les diffrents lments du systme dinformation interne
[Berners-Lee, 1989]. Il reprsente alors celui-ci comme un graphe o les nuds, tout comme
les arcs, sont typs et peuvent ainsi reprsenter (pour les nuds) des outils, des documents,
des projets ou des personnes ou bien encore (pour les arcs) des relations de production,
dinclusion ou dappartenance. Afin de faciliter la navigation dans un tel systme, sa proposition se base sur lutilisation de lhypertexte, tel que dfini par Ted Nelson ds les annes
60 au sein du projet Xanadu3 [Nelson, 1965]. Cest cette proposition darchitecture dcentralise qui donnera par la suite naissance au World Wide Web tel que nous le connaissons
aujourdhui.
12
http://www.xanadu.com/
Figure 1.1: Proposition darchitecture distribue qui conduira au World Wide Web
[Berners-Lee, 1989]
Si lon observe le schma correspondant cette vision dorigine du Web (Figure 1.1,
page 13) et que lon prend en compte ltat actuel de celui-ci, on ne peut sempcher de
constater que l o la proposition initiale fait tat de ressources et de liens fortement typs, le
Web tel que nous le connaissons aujourdhui ne considre que des documents, quils soient
textuels ou multimdia et des liens hypertextes non typs pour tablir des relations entre
ceux-ci. Ainsi, si un utilisateur est en mesure didentifier le concept induit par un document
(une personne ou un projet donn ...) ainsi que la nature du lien dfini entre deux concepts (
partir des liens entre documents), cette identification nest pas ralisable de manire simple
par un agent logiciel. En effet, celui-ci ne considre que des documents plein-texte (encods
dans un langage dont il ne sait pas interprter la smantique) connects entre eux par des
hyperliens unidirectionnels non typs. De plus, les mtadonnes associes ces documents
(auteur, date de cration ...) sont elles aussi difficilement interprtables. Enfin, mme pour un
utilisateur, ces interprtations peuvent-tre biaises puisquelles font appel lexprience,
la culture, et laffect mental de celui-ci, qui peut diffrer selon les personnes pour un mme
document.
Ainsi se pose le problme dun Web interprtable non seulement par les humains mais
surtout par les machines. Cest en ce sens que se situe linitiative du Web Smantique qui
vise rsoudre cette problmatique dinterprtation des donnes par les agents logiciels :
13
"The Semantic Web is an extension of the current Web in which information is given well-defined
meaning, better enabling computers and people to work in cooperation" [Berners-Lee et al., 2001].
Cest donc bien dextension et non pas de refonte dont il est question pour dfinir ce Web
comprhensible par les machines4 . On parle galement de Web de Donnes (Web of Data)
afin dvoquer la faon dont celui-ci permet de modliser sur le Web des reprsentations
interprtables de donnes et non plus uniquement de documents au sujet de ces donnes.
Nous reviendrons un peu plus tard sur cet aspect (Section 1.1.4, page 27).
Cette volution du Web repose sur la prsence dannotations smantiques, permettant de
modliser de manire formelle (1) les mtadonnes (date de cration, auteur, etc.) associes
aux documents prsents sur le Web et (2) les donnes prsentes au sein de ces documents.
Ces annotations smantiques, qui permettent ainsi denvisager linterprtation des contenus
en ligne, sont envisageables partir du moment o lon dispose :
dune part dun modle commun pour identifier les ressources sur le Web. Cest le rle
jou par lutilisation des URIs Uniform Resource Identifier [Berners-Lee et al., 2005]
couples RDF Ressource Description Framework [Klyne et Carroll, 2004] (Section
1.1.2, page 16) ;
dautre part de vocabulaires permettant de dfinir de manire formelle, mais surtout interprtable et interoprable, la smantique de ces donnes. Les ontologies, au
sens informatique du terme [Gruber, 1995], jouent ici un rle important. Nous verrons plus loin comment modliser des ontologies sur le Web Smantique avec des
langages RDFS RDF Schema [Brickley et Guha, 2004] et OWL Web Ontology Language) [Patel-Schneider et al., 2004] (Section 1.1.2, page 21).
Nous verrons par la suite que ces annotations peuvent tre produites selon diffrents objectifs, de lindexation de documents la modlisation du contenu de ceux-ci, les deux approches pouvant galement tre associes (Section 2.3.1, page 69).
Si cette initiative est aujourdhui essentiellement guide par les travaux du W3C, via
diffrents groupes de travail et efforts de standardisation mens depuis 20015 , il est important de signaler dautres travaux plus anciens, notamment Ontobroker [Decker et al., 1999],
WebKB [Martin et Eklund, 1999] ou encore SHOE6 [Heflin et Hendler, 2000]. Ce dernier intgre en effet diffrents composants permettant de rendre le contenu de pages Web comprhensible et exploitable par des agents logiciels :
un langage SHOE : Simple HTML Ontology Extensions7 [Luke et Heflin, 2000] dfini
sous forme dextension de HTML et permettant dinclure directement des donnes
interprtables au sein de pages Web. Celui-ci permet dune part de modliser les donnes mais aussi de dfinir leur smantique via la description dontologies (Section 1.1.2,
page 21) au sein des pages ;
un agent Expos permettant de retrouver sur le Web les diffrentes pages annotes
4
http://www.w3.org/2001/sw
http://www.cs.umd.edu/projects/plus/SHOE/
7
http://www.cs.umd.edu/projects/plus/SHOE/spec.html
6
14
pour les stocker ensuite dans un systme ddi - PARKA [Rager et al., 1997], sur lequel
il est possible deffectuer diffrentes requtes via un langage spcifique PIQ.
On retrouve bien dans la vision actuelle du Web Smantique des similarits avec cette
approche combinant (1) des langages de description de donnes et de modlisation dontologies comme RDF(S)/OWL et (2) des langages de requtes comme SPARQL (Section 1.1.3,
page 25) et lutilisation dentrepts de donnes RDF. ceux-ci viennent sajouter des notions de logique formelle, de preuve et de confiance utilises terme par diffrentes applications et reprenant certains principes de lIntelligence Artificielle [Russell et Norvig, 2003]
(Figure 1.2, page 15).
http://www.w3.org/2001/sw/
http://www.csl.sri.com/projects/ohs/
15
terme de raliser ces visions dun systme o linformation est universellement accessible,
interconnecte mais surtout dfinie avec une smantique formelle et interprtable par des
agents logiciels autonomes, de manire proposer de nouveaux services innovants notamment en termes de navigation et de recherche dinformation. Cest galement de cette manire que les social machines dfinies par [Berners-Lee et Fischetti, 1999] pourront galement
voir le jour, dans un modle unifi dinteractions entre humains et machines.
1.1.2
Avant-propos
Nous prsenterons ici uniquement des formalismes proposs ou standardiss via les
activits du W3C, formalismes que nous utilisons par ailleurs au sein des diffrents travaux
prsents dans cette thse. Pour dautres modes de reprsentation des connaissances, en
particulier les Topic Maps [Biezunski et al., 2002] [Auillans et al., 2002] et leur utilisation sur
le Web Smantique, le lecteur pourra se rfrer la thse [Amardeilh, 2007].
Reprsentation des ressources : les URIs et RDF
RDF Ressource Description Framework [Klyne et Carroll, 2004] est un lment fondamental du Web Smantique puisquil permet de reprsenter des ressources sur le Web de
manire uniforme pour les agents logiciels l o ceux-ci ne voient dans un document texte
quune succession de caractres inexploitables. Pour ce faire, chaque ressource est identifie
de manire universelle par une URI, qui peut tre assigne aussi bien (1) une donne prsente sur le Web (un document, un compte utilisateur sur un service donn ...), (2) un objet
du monde rel (un pays, une personne ...) auquel on souhaite associer un identifiant dans
ce contexte de reprsentation en ligne, ou encore (3) une relation (lappartenance, la filiation
...). Par exemple :
http://example.org/blog/112 identifie un billet de blog sur un site donn ;
http://sws.geonames.org/3017382/ identifie la France en tant que zone gographique ;
http://apassant.net/alex identifie lauteur de ce mmoire (et non sa page personnelle) :
http://www.w3.org/2000/01/rdf-schema#label identifie la relation qui lie une
ressource son label.
Afin de dcrire ces ressources, RDF se base sur la notion de triplets, permettant de dfinir
des assertions au sujet de celles-ci. Chaque triplet se compose de :
un sujet, i.e. la ressource laquelle on assigne une proprit, identifie par une URI ;
un prdicat, i.e. la proprit assigne la ressource, galement identifie par une URI ;
un objet, i.e. la valeur de la proprit. Celle-ci peut tre de type primitif (chane de caractre, entier ...) ou tre nouveau une ressource. Elle peut ainsi tre son tour sujet
dun autre triplet conduisant la formation dun graphe, les nuds tout comme les
arcs tant reprsents par des URIs. Tim Berners-Lee considre ainsi le Web Smantique comme un Giant Global Graph par analogie avec le World Wide Web10 , dans le
10
16
http://dig.csail.mit.edu/breadcrumbs/node/215
sens o il connecte des ressources types via des proprits identifies, l o le Web
connecte simplement des documents via des liens hypertextes (Section 1.1.4, page 27).
Diffrentes srialisations permettent de reprsenter des assertions modlises en RDF.
Cest le cas de N3 [Berners-Lee, 2006c], Turtle [Beckett et Berners-Lee, 2008] (sous-dialecte
du prcdent), RDF/XML 11 [Beckett, 2004], ou encore des reprsentations graphiques12 .
Ainsi, les deux exemples de code et la figure qui suivent (Figure 1.3, page 18) dfinissent les
mmes informations qui se traduisent par "EDF est une organisation situe en France", information constitue dans cet exemple de deux triplets13 , la srialisation RDF/XML tant elle
sous forme condense. Nous remarquerons aussi dans cet exemple lutilisation de prfixes
et despaces de noms ainsi que la prsence du raccourci N3 "a" utilis pour rdf:type14 .
@prefix
@prefix
@prefix
@prefix
17
Electricit
de France
rdfs:label
athena:EDF
rdf:type
foaf:Organization
geonames:locatedIn
http://sws.geonames.org/
3017382/
que lajout de mtadonnes directement au sein de pages Web (comme le proposait SHOE)
est aujourdhui au cur de diffrents travaux. En effet, reprsenter les annotations au sein
de documents annexes introduit gnralement un problme de duplicit dinformations.
Dans lexemple prcdent, on peut supposer que le fait de dfinir la chane de caractre
"Electricit de France" comme valeur pour rdfs:label est redondant avec une information dj prsente au sein de la page Web associe, certes en (X)HTML mais avec cette
mme chane de caractres (par exemple dans une balise <h1>). Des travaux comme eRDF15
ou RDFa [Adida et Birbeck, 2008] permettent ainsi linclusion directe dannotations RDF au
sein de documents (X)HTML, le second se basant sur lintroduction de nouveaux attributs
XHTML pour y parvenir, comme le montre lexemple ci-dessous (Listing 1.3, page 18).
< html xmlns =" http :// www . w3 . org /1999/ xhtml "
xmlns : foaf =" http :// xmlns . com / foaf /0.1/"
xmlns : rdfs =" http :// www . w3 . org /2000/01/ rdf - schema #"
xmlns : geonames =" http :// geonames . org / ontology # >
< body about =" http :// athena . der . edf . fr / data / EDF " typeof =" foaf :
Organization " >
< h1 property =" rdfs : label " > Electricit de France </ h1 >
<p >
EDF est situe en <a rel =" geonames : locatedIn " href =" http :// sws
. geonames . org /3017382/" > France </ a >.
</p >
</ body >
</ html >
18
http://research.talis.com/2005/erdf/wiki/Main/RdfInHtml
http://microformats.org
puissants que RDF(S)/OWL en termes dexpressivit (subsomption, infrence ...), mais sont
nanmoins utiliss plus frquemment sur le Web. De plus, ceux-ci ne bnficient pas de
la mme ouverture que les ontologies, puisquun microformat ne peut voluer quaprs
consensus de la communaut. Ces diffrentes limites leurs valent parfois le nom de lowercase semantic web, en opposition au Web Smantique et ses modles plus formels. Nanmoins, lutilisation de GRDDL Gleaning Resource Descriptions from Dialects of Languages
[Connolly, 2007] permet de faire le pont entre ces diffrentes visions. GRDDL offre en effet
la possibilit de traduire diffrents dialectes XML en RDF et permet ainsi de transformer un
document XHTML contenant des microformats ou des annotations RDFa en donnes RDF
brutes qui peuvent tre utilises comme nimporte quelles donnes RDF natives.
Pour en revenir aux assertions RDF elles-mmes, il est galement possible de considrer
un ou plusieurs triplets RDF comme source(s) de nouveaux triplets, par exemple pour dfinir la date laquelle une assertion a t tablie. Si une premire approche pour modliser ce
processus se base sur lutilisation des principes de rification RDF17 , celle-ci introduit diffrents problmes (notamment une explosion du nombre de triplets [Caroll et Stickler, 2004])
que [Carroll et al., 2005] permettent de rsoudre avec lutilisation des graphes nomms (named graphs). La notion de graphes nomms tend celle de graphe RDF (i.e. un ensemble de
triplets18 ) en permettant dassigner chacun une URI propre. Cette URI permet de considrer chaque graphe comme une ressource part entire et donc de lutiliser comme sujet
dune nouvelle relation. Il est ainsi possible de modliser lauteur dun ensemble de triplets (Figure 1.4, page 20) ou encore de certifier les informations via un systme de signature de graphes [Caroll, 2003] dans une optique de confiance des sources dinformations
comme dfinie par la pile du Web Smantique (Figure 1.2, page 15). Malgr ces avantages
et en raison de la structure par triplets de RDF, lutilisation des graphes nomms au sein de
documents RDF est complexe et ncessite une volution des syntaxes actuelles. Les extensions TRIX19 [Caroll et Stickler, 2004] ou TRIG [Bizer et Cyganiak, 2007] permettent de modliser ces graphes nomms respectivement en RDF/XML et Turtle. [Bottollier et al., 2007]
ont propos une nouvelle manire de procder via lutilisation dune proprit spcifique
(http://www.inria.fr/acacia/corese#graph) pour indiquer la source dun ensemble
de triplets au sein de documents RDF/XML. En pratique cependant, une manire simple
de procder lidentification de ces sources et de regrouper les triplets dans un document
accessible en ligne est de considrer lURL du dit document comme lURI du graphe source.
Ces mthodes sont en outre toutes compatibles avec lutilisation de la clause GRAPH au sein
de requtes SPARQL (Section 1.1.3, page 25).
Il est galement important lorsquon modlise une ressource sur le Web Smantique,
de faire la distinction entre son URI (i.e. son identifiant) et lURL du ou des documents la
dcrivant, quil sagisse dun document RDF regroupant un certain nombre dassertions
son sujet ou dune description (X)HTML. On considre ainsi ce sujet [Lewis, 2007] :
les ressources informationnelles (un document, un billet de blog ...) pour lesquelles
lURL du document peut correspondre lURI de son identifiant. Il est en effet coh17
http://www.w3.org/TR/rdf-mt/#ReifAndCont
http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/#dfn-rdf-graph
19
http://sw.nokia.com/trix/TriX.html
18
19
athena:EDF
rdf:type
foaf:Organization
Alexandre Passant
geonames:locatedIn
http://sws.geonames.org/
3017382/
http://example.org/ng_1
dc:creator
rent de considrer que le document identifi par cette URI correspond au document
situ cette mme adresse ;
les ressources non-informationnelles, i.e. des donnes monde rel (une personne, un
pays ...) que lon souhaite reprsenter sur le Web et o la distinction est ncessaire.
On ne peut en effet pas considrer que http://fr.wikipedia.org/wiki/France
correspond lidentifiant de la France, puisquon a dun ct un document Web et de
lautre un pays20 .
Ainsi :
http://sws.geonames.org/3017382 correspond une URI identifiant la France
(et non pas un document son sujet) ;
http://sws.geonames.org/3017382/about.rdf correspond au document RDF
associ comportant un certain nombre de triplets son sujet ;
http://www.geonames.org/3017382/republic-of-france.html correspond
sa description (X)HTML associe.
Cette distinction est particulirement importante au moment de la dfinition dassertions.
Lorsquon va modliser des informations au sujet du pays (par exemple sa population),
on va utiliser lURI identifiant la ressource (e.g. http://sws.geonames.org/3017382) en
tant que sujet des diffrents triplets mais si lon souhaite dfinir une assertion au niveau du
document (e.g. son auteur) on utilisera lURL dun document la dcrivant (e.g. http://www.
geonames.org/3017382/republic-of-france.html). Afin de faire le lien entre ces niveaux de reprsentation, une bonne pratique veut que chaque URI associe une ressource
soit drfrenable21 et renvoie vers un ensemble dinformations son sujet en (X)HTML
ou RDF selon lagent logiciel utilis pour drfrencer cette URI. Pour plus de dtails sur
la dfinition dURIs pour le Web Smantique, on pourra consulter [Ayers et Vlkel, 2008] et
20
Ceci introduirait de plus des problmes de consistance. Par exemple FOAF dfinit les classes Agent et
Document comme disjointes, ce qui implique quune mme URI ne peut pas reprsenter la fois une personne
(ressource non-informationnelle) et sa page personnelle (ressource informationnelle).
21
"Agents may use a URI to access the referenced resource ; this is called dereferencing the URI."
[W3C Technical Architecture Group, 2004]
20
http://www.w3.org/2001/tag/issues.html#httpRange-14
23
21
chaque concept les termes associs, la notion (i.e. lintention du concept) et lobjet (i.e. son extension). Nous reviendrons sur cette distinction en prsentant nos propositions permettant
de lier tags et ontologies de domaine (Section 3.3.3, page 128).
On a gnralement coutume de distinguer lontologie (i.e. le modle) des individus ou
instances (i.e. les ralisations des diffrents concepts prsents dans le modle) et de considrer que ceux-ci ne font pas partie de lontologie mais appartiennent la base de connaissance
associe, lontologie tant alors un modle conceptuel venant en support de cette base de
connaissances et des faits quelle contient [Guarino et Giaretta, ]. Pour reprendre lexemple
prcdent, les notions dorganisation et de zone gographique feront ainsi partie dune ontologie donne et EDF, la France et le fait quEDF soit une organisation base en France seront eux des lments de la base de connaissance associe. Cette distinction entre instances
et base de connaissance est par ailleurs similaire ce que proposent les logiques de description [Baader et al., 2003] en distinguant les ABox et TBox. Pour plus de dtails sur ces
principes de modlisation, ainsi que les rseaux smantiques [Quillian, 1968], les graphes
conceptuels [Sowa, 1984]24 et autres formalismes de reprsentation des connaissances ayant
prcd les ontologies, on pourra se rfrer aux thses [Troncy, 2004] et [Isaac, 2005] ou
louvrage Ingnierie des connaissances [Charlet et al., 2000].
Pour prendre un exemple concret, on peut imaginer une ontologie qui dfinisse :
des concepts : Agent, Entreprise et P ersonne ;
des proprits :
isA, relation de subsomption telle que isA(Entreprise, Agent) et isA(P ersonne, Agent) ;
instanceOf , relation dinstanciation telle que instanceOf (AlexandreP assant, P ersonne)25 ;
aP ourEmploye, relation telle que aP ourEmploye(Entreprise, P ersonne) ;
aP ourN om, attribut assign aux concepts Agent, Entreprise et P ersonne26
aP ourN SS, attribut assign au concept P ersonne ;
des axiomes :
x, aP ourN SS(x) = 1 indiquant que les ralisations des concepts P ersonne nont
quun seul numro de scurit sociale ;
x, aP ourN om(x) >= 1 indiquant que les ralisations des concepts Agent, Entreprise
et P ersonne ont au moins un nom ;
(x, y), aP ourEmploye(x, y) >= 1 indiquant que toute ralisation du concept Entreprise
a au moins un employ (dfini en tant que P ersonne) ;
et y associer deux individus avec la base de connaissances qui suit (Listing 1.4, page 23).
RDFS RDF Schema [Brickley et Guha, 2004] est une premire tape pour modliser
des ontologies sur le Web Smantique. Ce langage introduit les notions de classe (rdfs:Class)
et de proprit (rdf:Property) associes des relations de subsomption permettant de
dfinir des hirarchies de classes et de proprits, respectivement rdfs:subClassOf et
24
On peut galement se rfrer [Berners-Lee, 2006a] pour une comparaison entre graphes conceptuels et
RDF.
25
On peut en fait considrer que les relations isA et instanceOf ne font pas partie de lontologie elle-mme,
mais dun mtamodle permettant la dfinition dontologies, comme nous allons le voir avec RDFS et OWL.
26
Notons ici quen fonction des langages utiliss pour dfinir lontologie, il peut suffire de dfinir cet attribut comme proprit de Agent pour que les concepts Entreprise et P ersonne en hritent en raison de rgles
dinfrence associes lutilisation de la relation de subsomption isA.
22
rdfs:subPropertyOf. RDFS permet galement pour chaque proprit de dfinir son domaine (rdfs:domain) et son codomaine (rdfs:range), soit respectivement Entreprise
et Personne pour la relation aPourEmploye de lexemple prcdent.
Une ontologie RDFS scrit sous forme de triplets RDF qui vont ainsi dfinir des identifiants pour ses diffrentes classes et proprits, ceux-ci tant uniques puisque bass sur des
URIs. Le code qui suit (Listing 1.5, page 23) reprsente une ontologie modlisant une partie
des classes et proprits que nous avons prsentes dans lexemple prcdent. Il introduit
galement la possibilit dans une ontologie dutiliser et dtendre des classes et proprits dfinies dans dautres modles. Dans notre cas, la classe Entreprise tend la classe
Organisation dfinie dans lontologie FOAF [Brickley et Miller, 2004a].
: Entreprise a rdfs : Class ;
rdfs : subClassOf foaf : Organization ;
rdfs : label " Entreprise " .
: aPourEmploye a rdf : Property ;
rdfs : domain : Entreprise
rdfs : range foaf : Agent
Si
aaa rdfs :subPropertyOf bbb .
uuu aaa yyy .
uuu rdfs :subClassOf xxx .
vvv rdf :type uuu .
Alors
uuu bbb yyy.
vvv rdf :type xxx.
tion aP ourV oisin27 . Ainsi, pour aller plus loin dans la dfinition dontologies pour le Web
Smantique, le W3C a mis en place ds 2001 un groupe de travail autour dOWL Web
Ontology Language [Bechhofer et al., 2004] , langage de dfinition dontologies sur le Web
dans la continuit de DAML+OIL [Horrocks, 2002], issu lui-mme des projets et langages
OIL [Fensel et al., 2000] en Europe et DAML-Ont [McGuinness et al., 2003] aux Etats-Unis.
OWL, pass au statut de recommandation du W3C en 2004, reprend ainsi les notions de
classes et de proprits dfinies en RDFS en les prcisant respectivement par owl:Class
(sous-classe de rdfs:Class) et owl:dataTypeProperty et owl:objectProperty (sousclasse de rdf:Property) distinguant ainsi les attributs (types primitifs) des relations (liens
vers dautres classes). Surtout, OWL ajoute de nouveaux constructeurs et axiomes permettant daccrotre lexpressivit des ontologies, avec une smantique plus pousse que celle
de RDFS [Patel-Schneider et al., 2004]. OWL se compose en ralit de trois sous langages,
lexpressivit croissante28 :
OWL-Lite qui tend RDFS et ajoute de nouveaux constructeurs comme la symtrie des
proprits et des contraintes de cardinalit (uniquement 0 ou 1) ;
OWL-DL dont le nom est hrit des logiques de description et qui ajoute des constructeurs supplmentaires (et regroupe en fait lensemble des constructeurs disponibles
en OWL) comme les combinaisons boolennes de classes (union ou intersection), des
axiomes de classes (disjonction) et tend les contraintes de cardinalit dOWL-Lite ;
OWL-Full qui najoute pas de constructeur par rapport OWL-DL mais qui les interprte diffremment offrant ainsi une expressivit plus forte (toute classe est vue la
fois comme une classe, un individu et un ensemble dindividus) mais sans garantie de
calculabilit, OWL-Full ntant pas dcidable.
Les diffrents axiomes dfinis dans une ontologie OWL peuvent tre pris en compte dans
un processus de raisonnement avec des systmes comme Pellet29 [Sirin et al., 2007] ou Racer30 [Haarslev et Mller, 2001]. Ceux-ci peuvent tre utiliss par exemple (1) pour la classification automatique dinstances en fonction de leurs proprits et des axiomes dfinis dans
lontologie ou (2) pour la cration de nouvelles relations entre instances en fonction de ltat
initial dune base de connaissance. Par exemple, un axiome dfinissant la symtrie dune
proprit aP ourV oisin conduira la rgle suivante :
(x, y), aP ourV oisin(x, y) aP ourV oisin(y, x)
(1.1)
En outre, il est important de garder lesprit que ces langages (RDFS et OWL) se situent dans lhypothse dun monde ouvert et donc que labsence de dclaration dun fait
ne permet pas de considrer celui-ci comme faux. Ainsi, si dans un ensemble dassertions
aucune dentre elles nindique quEDF est situ en France, un systme bas sur ces langages
ne dduira pas quEDF nest pas une entreprise franaise, mais simplement quil nest pas
27
Nous considrons ici la notion de voisinage au sens large, i.e. ne distinguons pas aP ourV oisin et
aP ourV oisine.
28
Alors que OWL 2 est en cours de standardisation, notons que tout au long de ce mmoire, nous tudierons
uniquement sa version 1 et utiliserons lappellation OWL (et non pas OWL 1) par simplicit.
29
30
24
http://pellet.owldl.com/
http://www.racer-systems.com/
Alors que RDFS et OWL permettent de dfinir des ontologies sur le Web Smantique
et RDF de modliser des assertions en se basant sur celles-ci, il est ncessaire pour en tirer
parti de disposer dun langage de requte adapt. SPARQL SPARQL Protocol and RDF
Query Language [Prudhommeaux et Seaborne, 2008] propose ainsi la fois un langage
et un protocole pour interroger des donnes modlises en RDF. Ces travaux sinscrivent
dans la continuit de RDQL [Seaborne, 2004] et lon peut voir SPARQL comme le SQL du
Web Smantique : "Tenter dutiliser le Web smantique sans SPARQL revient exploiter une base
de donnes relationnelle sans SQL"32 . SPARQL utilise le principe didentification de chemins
dans un graphe [West, 2000] pour rcuprer les rsultats dune requte donne. Ainsi, une
requte SPARQL se compose dun oprateur (dfinissant le type de requte), dun patron
(la partie ncessaire pour lidentification des graphes correspondants) et de modifieurs (par
exemple, ORDER BY). Une requte peut interroger un ou plusieurs documents RDF, soit par
lutilisation dun attribut FROM en dbut de requte, soit par lintermdiaire dAPIs Application Programming Interface qui permettent de considrer simultanment plusieurs sources,
soit via lutilisation dentrepts de donnes RDF associs des points daccs (ou endpoints)
SPARQL (Section 5.1, page 188). SPARQL dispose des quatre oprateurs suivants33 :
SELECT qui comme son nom lindique va slectionner diffrents lments selon un
patron de requte particulier. Une requte destine rcuprer la localisation dEDF
pourrait tre :
SELECT ? pays
WHERE { athena : EDF geonames : locatedIn ? pays }
31
32
33
http://lists.w3.org/Archives/Public/public-xg-geo/2007Jan/0002.html
http://www.w3.org/2007/12/sparql-pressrelease
Nous avons ici volontairement supprims les dfinitions de prfixes pour des raisons de lisibilit.
25
26
dans des moteurs comme ARC234 ou Virtuoso35 . Nous dtaillerons plus tard les efforts
concernant lajout et les modifications de donnes RDF avec SPARUL SPARQL Update
[Seaborne et al., 2008] (Section 5.1.3, page 195). Notons galement que certaines de ces propositions sont lordre du jour du nouveau groupe de travail au W3C autour de SPARQL36
dont nous sommes aujourdhui membre.
Enfin, [Prez et al., 2006] ont montr que certains types de requtes faisaient partie de
la catgorie des problmes N P complets [Garey et Johnson, 1979] tant donn le principe
de parcours de graphes quutilise SPARQL. Cependant, il est intressant de constater que
les requtes peuvent, de faon plus gnrale, tre optimises en fonction de lordre des patrons de requtes, de manire rduire successivement le graphe o la requte sapplique
[Stocker et al., 2008]. Nous pouvons imaginer qu lavenir, ces stratgies doptimisations seront implmentes dans la plupart des moteurs SPARQL, la manire de ce qui se fait pour
la rcriture automatique de requtes dans les systmes SQL [Kraft et al., 2003].
1.1.4
Malgr les efforts de standardisation de ces diffrents langages qui posent les bases de
la reprsentation et de linterrogation de donnes sur le Web Smantique, il faut reconnatre
que jusqu rcemment, les donnes RDF disponibles sur le Web taient peu nombreuses.
Si FOAF, notamment au travers dexports natifs depuis certains sites comme LiveJournal37 ,
a permis dentrevoir une dmocratisation de ces donnes, le domaine est longtemps rest
limit. En contrepartie, de nombreuses donnes libre daccs (utilisant par exemple des
licences Creative Commons38 ) sont aujourdhui disponibles sur le Web. Cest devant ce
double constat quest ne linitiative Linking Open Data, supporte par le groupe Semantic
Web Education and Outreach du W3C39 , avec lobjectif dexposer en RDF un grand nombre
de donnes dj prsentes sur le Web (mais dans des formats htrognes ou sous forme de
simples documents HTML) et dinterconnecter celles-ci.
Pour parvenir cette vision plus pragmatique du Web Smantique (au sens o ce sont les
donnes et les bases de connaissances qui sont mises en avant, et non pas les ontologies et les
possibilits quelles offrent, vision que lon peut ainsi considrer comme un sous-ensemble
du Web Smantique), le projet repose sur les quatre principes du Linked Data dfinis par
[Berners-Lee, 2006b] :
utiliser des URIs pour nommer les choses ;
utiliser des URIs HTTP afin que lon puisse drfrencer ces choses ;
lorsque quelquun drfrence une URI, lui fournir des informations utiles son sujet ;
inclure des liens vers dautres URIs, afin que lon puisse dcouvrir plus dinformations ;
Linitiative, dbute en Juin 2007, a permis de produire un nombre impressionnant de
donnes lies (Figure 1.5, page 28), estimes aujourdhui plusieurs milliards dassertions
34
http://arc.semsol.org
http://virtuoso.openlinksw.com/
36
http://www.w3.org/2009/01/sparql-charter.html
37
http://livejournal.com
38
http://creativecommons.org
39
http://www.w3.org/2001/sw/sweo/
35
27
et issues de diffrentes sources de donnes aussi diverses que DBpedia40 (export RDF de Wikipedia) [Auer et al., 2007], les programmes de la BBC [Scott et al., 2008] ou encore les profils
utilisateurs de Flickr41 [Passant, 2008b]. Diffrentes stratgies sont utilises pour produire
ces liens entre donnes, de la contribution manuelle utilisateur [Hausenblas et al., 2008]
lutilisation dheuristiques plus pousses [Raimond et al., 2008], notamment pour grer les
problmes dambigut qui se posent.
http://dbpedia.org
http://apassant.net/blog/2007/12/18/rdf-export-flickr-profiles-foaf-and-sioc
42
Depuis http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData,
41
28
dans un graphe de connaissances). Nous aborderons ces deux points de vue dans la suite
de ce mmoire, tout dabord concernant la production (Section 4, page 137), puis la visualisation (Section 5, page 187) de donnes RDF. Comme le montre la figure qui suit, cette
correspondance se fait de plus assez naturellement en termes de reprsentation (Figure 1.6,
page 29). Une prochaine tape est selon nous lexploitation de toutes ces donnes et plus
uniquement des documents comme le font la majorit des moteurs de recherche traditionnels ou les navigateurs Web. Nous reviendrons sur cette exploitation de donnes RDF dans
le dernier chapitre de cette thse (Section 5, page 187).
foaf:Person
mo:MusicArtist
rdf:type
rdf:type
dbtune:terraces
Alexandre Passant
ex:listensTo
zitgistartist:aa7a2827-f74b-473cbd79-03d065835cf7>
coute
Franz Ferdinand
hyperlien
Web Smantique:
Donnes, modles
et relations
Interpretation
Web:
Documents et
hyperliens
Figure 1.6: Le document en tant que support de donnes pour le Web Smantique
On peut cependant reprocher certaines limites cette initiative Linking Open Data, notamment parfois un manque de formalisme dans les reprsentations extraites. Par exemple,
les premires versions de DBpedia ne reposaient sur aucune ontologie, la version 3.2 rsolvant ce problme43 mais avec une ontologie qui ne suis pas toujours ce que nous considrons
tre des bonnes pratiques de modlisation (Section 3.2.4, page 109). galement, lutilisation
abondante de certaines proprits la smantique forte, comme owl:sameAs44 qui introduit la notion didentit sur le Web Smantique, se fait parfois au dtriment de la qualit
des annotations produites et infres. owl:sameAs est en effet plus quun simple lien puisquil implique, via cette notion didentit entre instances (ou entre classes, dans le cas de
modles OWL-Full), la fusion des assertions lies celles-ci. Cette proprit est cependant
43
44
http://lists.w3.org/Archives/Public/public-lod/2008Nov/0025.html
http://www.w3.org/TR/owl-ref/#sameAs-def
29
frquemment utilise comme une simple relation entre deux ressources et entrane diffrents
problmes.
Dune part, comme le montre le listing qui suit (Listing 1.10, page 30), cette fusion peut
entrainer des inconsistances logiques. On peut ici voir que lutilisation de owl:sameAs
conduit des resources instances la fois de foaf:Person et de foaf:Document, fait inconsistant puisque ces deux classes sont disjointes dans FOAF (via owl:disjointWith)45 .
Dautre part, cette fusion entrane galement une perte de la provenance des diffrentes assertions au sujet des ressource concernes, comme le rappellent [Jaffri et al., 2008]. Ainsi, si
lon utilise owl:sameAs entre deux ressources au sujet desquelles des assertions ont t tablies des instants distincts (e.g. lge dune personne T et T + n), ces informations sont
combines sans que lon puisse identifier leur provenance, et en consquence lesquelles sont
aujourdhui valides ( moins de conserver les assertions dorigine sparment).
{
: resourceA a foaf : Person .
: resourceB a foaf : Document .
: resourceA owl : sameAs : resourceB .
} => {
: resourceA a foaf : Person ;
a foaf : Document .
: resourceB a foaf : Person ;
a foaf : Document .
}
Listing 1.10: Inconsistence logique cause par lutilisation de liens owl:sameAs entre
ressources
Afin de reprsenter la notion didentit entre ressources sur le Web Smantique46 sans
pour autant utiliser owl:sameAs, on peut considrer des alternatives comme lutilisation
dun Consistent Reference Service pour modliser URIs canoniques et URIs dquivalence
[Jaffri et al., 2007] (qui conserve un aspect distribu la diffrence de ce que propose OKKAM avec une centralisation des URIs [Bouquet et al., 2008]) ou lontologie UMBEL Upper
Mapping and Binding Exchange Layer [Bergman et Giasson, 2008] qui propose une proprit
umbel:isLike la smantique volontairement plus faible que owl:sameAs.
Malgr ces remarques, nous ne pouvons que nous rjouir de la vivacit du projet Linking Open Data et de sa communaut (notamment via lorganisation de workshops ddis
[Bizer et al., 2008]) et en consquence de cet amas de donnes RDF aujourdhui disponibles
en ligne. Celles-ci ont permis de faire un grand pas en avant dans lacceptation du Web
Smantique en tant que graphe global de connaissances, notamment au niveau du grand
public47 et dans la sphre entrepreneuriale avec des entreprises comme Zemanta48 ou Free45
30
http://zemanta.com
1.2.1
http://freebase.com
http://www.bricklin.com/cornucopia.htm
31
titre essentiellement consultatif, lutilisateur final ayant de ce fait un rle central dans cette
dmarche51 . Pour y parvenir, les services Web 2.0 partagent pour la plupart un ensemble de
principes communs :
lutilisateur est au centre du service, en termes de publication et de raction. On peut
mme aller jusqu dire quil fait loutil, la valeur de ce dernier dpendant de son
contenu. Nous nous situons ici dans un schma inverse de celui des portails Web de
la fin des annes 90 abonds par une autorit ou une quipe de rdaction tablie a
priori. On peut ainsi considrer que de nombreux services Web 2.0 sont des contenants
vierges de tout contenu, ceux-ci tant soumis ladoption de loutil par les utilisateurs ;
le passage du statut de consommateur celui de producteur doit se faire simplement.
Le lecteur doit tre en mesure de ragir linformation quil consulte, a minima un
niveau infrieur celui du producteur originel de linformation consulte (commentaires sur les blogs), au mieux au mme niveau que celui-ci (dition de contenu sur un
wiki, services de partage de contenu, etc.). Pour accentuer cette simplicit, les interfaces se doivent galement dtre intuitives et sans prrequis technique ;
la composante sociale se doit dtre prsente non seulement en termes de publication
mais aussi en termes dchanges entre membres de la plate-forme. De tels services
doivent tre en mesure de stimuler les synergies entre internautes, voire de participer
51
Cest ainsi que le Time a consacr les internautes personnalit de lanne 2006. http://www.time.com/
time/magazine/article/0,9171,1569514,00.html
32
http://code.google.com/intl/fr-FR/apis/maps/
http://techcrunch.com
33
Bien que lutilisation de lindice 2.0 laisse entrevoir, la manire des versions logicielles,
une volution du Web par rapport sa vision originelle (Section 1.1.1, page 12), il sagit
principalement dvolutions sociologiques et conomiques comme le souligne louvrage Wikinomics54 [Tapscott et Williams, 2007]. Malgr tout, en raison de sa forte interaction avec
les utilisateurs, cette volution a introduit de nouvelles pratiques en matire de dveloppement logiciel, notamment un certain nombre de design patterns spcifiques au Web 2.0
[Nickull et al., 2008]. Parmi ceux-ci, [OReilly, 2005] incite les concepteurs de services dpasser les processus traditionnels de dveloppement et de livraison de nouvelles versions
par paliers pour proposer aux utilisateurs de tester en flux continu leurs nouvelles ides, et
bnficier dun retour sur exprience immdiat, avec cette notion de bta perptuelle. Pour
complter ce point, le lecteur pourra se rfrer aux tudes sociologiques de Danah Boyd sur
la manire dont les adolescents sapproprient ou font voluer des services forte audience
comme MySpace55 par leur pouvoir dacceptation ou de refus de nouvelles fonctionnalits
[Boyd, 2008]. Dun point de vue plus technique, on peut faire lanalogie entre ces pratiques
et les principes du dveloppement agile [Cohen et al., 2004], mis en avant par lavnement
de frameworks logiciels comme Ruby On Rails56 . Ceux-ci mettent aussi laccent sur des interactions frquentes entre clients et matre douvrage la manire de ce que peut proposer
lextreme programming [Beck, 1999].
1.2.2
http://www.wikinomics.com/book/
http://myspace.com
56
http://rubyonrails.com
57
http://blogger.com
58
http://wordpress.com
55
34
nombreux. La publication se fait sans connaissance technique via une interface Web ou dans
certains cas directement depuis son poste de travail ou un terminal mobile, contribuant
lubiquit de la prsence en ligne dun individu. Ainsi, les blogs ont remis au got du jour le
concept de page personnelle, la nature spontane et rgulire des billets et leur prsentation
antchronologique offrant cependant une dynamique tout autre.
La nature des blogs aujourdhui disponibles sur le Web est assez diverse, puisquon y
trouve aussi bien des journaux intimes dadolescents, des blogs dexports, que des blogs
dopinion. Certains dentre eux, notamment les blogs dopinion ou les blogs politiques,
qui mettent en avant le concept de journalisme citoyen, ou grassroots journalism, peuvent
mme concurrencer en termes daudience les grands quotidiens comme le montrent notamment des tudes de Technorati sur le sujet59 . Il est galement intressant de constater, toujours dans cette perspective de rapport lactualit, le parallle en termes de publication et de temporalit de linformation qui existe entre blogs et mdias traditionnels
[Cointet et al., 2007]. Pour une tude sociologique plus complte sur ce phnomne de journalisme citoyen on pourra consulter louvrage We the Media60 [Gillmor, 2004]. On peut enfin
galement noter que si les contenus sont variables, tout comme les frquences de mise jour,
le nombre de blogs est en constante augmentation. Ainsi, Technorati61 , service rfrenant
les blogs sur le Web et proposant un moteur de recherche associ, en recensait plus de 70
millions dbut 2007 (Figure 1.8, page 36) et plus de 130 millions en 200862 .
Une des forces des blogs, comme nous lavons voque, est la possibilit dexpression
spontane quils offrent et en consquence les discussions quils engendrent. cet gard,
il nous semble important de signaler lexplosion rcente du phnomne de microblogging,
popularis par Twitter64 . mi-chemin entre le blog et la messagerie instantane, ce mode
de communication se traduit par la publication de courts messages (gnralement moins de
140 caractres) non-titrs et sans restriction de contenu. Si ces messages sont gnralement
proches de la notification de statut personnel, ils peuvent aussi servir au signalement lger
dinformations (en postant par exemple un simple lien vers une ressource en ligne juge
intressante) et permettent de manire plus gnrale une communication agile entre les personnes les postant et ceux y rpondant ou simplement les suivant [Java et al., 2007]. Puisque
nous voquions auparavant la notion de journalisme citoyen, notons galement le rle jou
par Twitter ce sujet, du fait des diffrentes possibilits quil offre pour la publication de
message (via Web, e-mail, SMS, etc.) ainsi que vis--vis des modes de ractions associs et
de la propagation de ces messages 65 .
59
http://technorati.com/weblog/2006/02/83.html
http://wethemedia.oreilly.com/
61
http://technorati.com
62
http://technorati.com/blogging/state-of-the-blogosphere/
63
http://www.sifry.com/alerts/archives/000493.html
64
http://twitter.com
65
http://www.journalisme.sciences-po.fr/index.php?option=com_content&task=view&id=
303&Itemid=112
60
35
http://wikipedia.org
http://trac.edgewall.org/
68
http://c2.com/cgi/wiki
67
36
visualisation du site. Pour ce faire, une syntaxe particulire est gnralement utilise
et des processus de normalisation tels que Creole69 ont t proposs ce sujet, sans
grand succs cependant ;
en consquence de cette dition ouverte, chaque page doit bnficier dun historique
des modifications. Celui-ci permet de revenir simplement une version prcdente
(en cas de modifications juges non souhaites pour la communaut, ou de vandalisme) ou simplement de consulter les modifications apportes entre deux versions.
Certains wikis permettent galement de sabonner au flux des modifications dune
page (Section 1.2.2, page 37) ;
le rle important jou par les hyperliens. Un wiki doit permettre dtablir facilement
des liens entre pages du mme wiki. Pour ce faire, on utilise gnralement la syntaxe
MotWiki qui permet dtablir automatiquement un lien vers une page portant ce nom
ou den crer une si celle-ci nexiste pas. Cette pratique renforce la dynamique des
wikis et vite la prsence de pages orphelines, i.e. sans lien entrant. La notion de rtrolien est galement trs prsente, chaque page listant lensemble des pages ayant un
lien entrant vers celle-ci. Cette pratique tend ainsi la notion de source et de direction
des hyperliens pour offrir une navigation double sens entre les pages.
Si le principe douverture des wikis en fait dans lidal un outil adquat pour la constitution collaborative de documents ou de sites, il soulve de nombreuses questions et introduit
galement des problmes de spam ou de vandalisme. Ainsi, si certains systmes introduisent
des restrictions daccs pour la modification des pages, dautres sorganisent comme des espaces autogrs o les utilisateurs rectifient eux-mmes les pages modifies dans un sens
nallant pas avec celui dfini, explicitement ou non, par la communaut. Nous reviendrons
plus loin dans ce manuscrit sur des exemples dutilisation des wikis dans un contexte dentreprise et sur les problmes rencontrs pour faire accepter loutil dans un tel milieu (Section
2.2, page 62).
Syndication de contenu et personnalisation de laccs linformation avec RSS
Devant cette abondance de contenus en ligne et leur rgulire volution, il est ncessaire
de fournir un moyen dobtenir le signalement dinformations pertinentes selon les centres
dintrt de chacun. La syndication de contenu a pour objectif de rpondre ce problme,
en offrant aux sites un moyen de dlivrer automatiquement un flux constamment actualis
de leurs dernires mises jour, auquel les lecteurs peuvent sabonner. Dans le but de formaliser ce processus et doffrir un format standard de donnes, plusieurs modles ont vu
le jour, comme NewsML70 ds 2000 pour les changes entre fournisseurs dinformations et
agrgateurs de donnes. Aujourdhui, ces flux majoritairement modliss en RSS ou Atom et
gnralement srialiss en XML sont disponibles sur la plupart des plates-formes de blogs
et de wikis et sur une majorit dapplications Web 2.0. Lutilisateur peut souscrire ces
flux via un agrgateur, logiciel client ou service en ligne offrant une vision humainement
lisible de ces informations brutes et tirant partie des diffrentes mtadonnes contenues
dans ces flux pour ordonner les lments par date, source ou encore par auteur. Ces ap69
70
http://www.wikicreole.org/wiki/Creole1.0
http://www.newsml.org
37
http://web.resource.org/rss/1.0/modules/syndication/
http://web.resource.org/rss/1.0/
Une version RDF dAtom est galement disponible avec Atom-OWL. http://bblfish.net/work/
atom-owl/2006-06-06/AtomOwl.html
38
Consommateur
Producteur
1.2.3
Enfin, face cette abondance dinformations, facilite par les outils et services prsents
en amont, se pose le problme dun accs pertinent celle-ci. Jusqu prsent, cette tche
tait essentiellement rendue possible via des systmes classiques dindexation de pages
Web. Le Web 2.0 a introduit une autre pratique, base sur la catgorisation des contenus
par les utilisateurs eux-mmes via lassociation aux ressources en ligne de mots-cls libres
(aussi bien en type, nombre ou langue), ou tags. Il est important de noter que :
dune part cette pratique ne se limite pas aux donnes textuelles mais quil est possible
de taguer des ressources numriques aussi diverses que des photos (Flickr) ou des
vidos (YouTube) comme nous le verrons par la suite (Section 1.2.3, page 42)
dautre part, certains sites proposent dtiqueter non seulement les contenus des utilisateurs, mais aussi ceux, dj tagus, dautres utilisateurs (Delicious).
Cette pratique sest galement rpandue sur la blogosphre, de nombreux billets de blog
tant annots de cette manire, un service comme Technorati permettant ensuite de visualiser ceux-ci et de restreindre la recherche dinformation un tag prcis.
De par son rattachement un contenu existant, un tag peut essentiellement tre vu
comme une mtadonne supplmentaire associe une ressource. Cependant, alors quun
39
(1.2)
telle que :
U tilisateur correspond lutilisateur qui effectue laction ;
Resource correspond la ressource annote (billet de blog, page Web ...) ;
T ag correspond au tag utilis ;
T agging correspond laction liant ces trois lments.
Certains ont propos de contextualiser cette relation temporellement [Newman et al., 2005]
ou en fonction de la source (i.e le site) o laction a t effectue [Gruber, 2007]. Nous verrons
plus tard comment nous proposons dtendre ce modle en prenant en compte la signification dun tag dans un contexte particulier de tagging (Section 3.3.2, page 126).
40
tant donn que plusieurs tags peuvent tre associs par un mme utilisateur une
mme ressource, et quun mme tag peut tre associ une mme ressource par diffrents
utilisateurs, les actions de tagging ne sont en gnral pas isoles (Figure 1.10, page 41). On
utilise donc lappellation de social tagging ou de mtadonne sociales comme nous lavons
voqu auparavant pour dfinir ce phnomne. Ainsi, la figure qui suit reprsente trois
actions de tagging (T 1, T 2, T 3) associs une mme ressource (photo) via deux utilisateurs
(U 1, U 2) et deux tags distincts (mac, laptop) de la manire suivante :
T 1(U 1, mac, photo)
T 2(U 2, mac, photo)
T 3(U 3, laptop, photo)
laptop
photo
T3
U2
T2
T1
U1
mac
(1.3)
telle que :
U ser correspond un ensemble (fini) dutilisateurs ;
Resource correspond un ensemble (fini) de ressources annotes ;
T ag correspond un ensemble (fini) de tags ;
T agging correspond la relation qui permet de lier les lments de ces diffrents ensembles, telle que dfinie prcdemment (quation 1.2, page 40).
Si la simplicit de lapproche fait la force des systmes base de tags, ceux-ci souffrent
de nombreux dfauts en termes de recherche dinformation, causs aussi bien par les problmes dambigut ou de synonymie des mots-cls que par leur nature totalement plate et
labsence de liens entre tags. Nous dtaillerons ces diffrents problmes par la suite (Section
41
2.2.3, page 63). A contrario, une de leurs forces se situe dans leur utilisation en termes de
navigation et dans les possibilits quils offrent pour la dcouverte de nouvelles informations. Lorganisation des liens entre ressources, tags et utilisateurs forme en effet un graphe
dans lequel il est possible de naviguer renforant ainsi la srendipit, quil sagisse de dcouvrir de nouveaux documents ou de nouveaux utilisateurs. La popularit des tags dans une
folksonomie est dautre part rendue visible par lutilisation de nuages de tags ou tagclouds,
offrant galement un autre mode de navigation pour les systmes base de tags (Figure 1.11,
page 42). Ces interfaces permettent galement davoir un aperu du champ lexical associ
une folksonomie, et peuvent tre restreintes aux tags dun utilisateur donn.
42
http://slideshare.net
http://last.fm
1.3.1
Destination
A priori
Background
Langages de reprsentation
Modes de publication
Indexation
Interrogation
Web Smantique
Agents logiciels
Complexit
Acadmique
RDF(S)/OWL
Centralise
Annotations et Ontologies
SPARQL
Web 2.0
Humains
Pragmatisme
Dveloppeurs Web
(X)HTML, Microformats
Collaboration
Tags et Folksonomies
APIs propritaires
http://linkedin.com
http://facebook.com
78
http://www.zengestrom.com/blog/2005/04/why_some_social.html
79
http://mybloglog.com
77
43
celles-ci. On peut par exemple se rfrer aux discussions via blogs interposs entre Clay
Shirky80 et James Hendler81 au sujet des folksonomies et des ontologies o lopposition
entre Web Smantique top-down et bottom-up82 , qui est selon nous un non-sens83 . Ces discussions font cho une incomprhension gnrale qui a longtemps caus du tort au Web
Smantique, savoir la vision dune unique ontologie centralise et rfrente pour dcrire
le monde, chose dont il na jamais t fait tat, du moins dans [Berners-Lee et al., 2001]
Malgr ces distinctions, nous pensons comme dautres [Gandon, 2006] [Gruber, 2008]
[Ankolekar et al., 2008] que ces deux visions ne sont pas contradictoires et que, bien au
contraire, elles peuvent - et doivent - chacune bnficier des apports et travaux de lautre
communaut. Ceci doit permettre de converger vers une unique vision du Web, optimis
la fois pour les humains et les machines, au niveau des modes de publication pour le premier
et de la modlisation des donnes pour le second. Cest cette convergence qui, selon nous,
permettra daboutir un Web de Donnes issues dinteractions sociales tout en tant rutilisable de manire autonome via des agents logiciels au sein dcosystmes informationnels
smantiques et sociaux (Social Semantic Information Spaces) (Figure 1.14, page 47).
Nous allons ainsi dans les sections suivantes prsenter de manire assez gnrale comment nous envisageons cette convergence et comment se situent certains travaux au sein de
cette mouvance de Social Semantic Web ou Semantic Web 2.0 qui progresse depuis quelques
annes [Breslin et Decker, 2006]. Ces rflexions seront au centre des travaux prsents dans
les chapitres suivants, o nous dtaillerons les modles de reprsentation et les outils que
nous avons mis en place pour y parvenir, notamment au sein dun mdiateur smantique
collaboratif pour lEntreprise 2.0 (Section 2.3, page 69). Les ides qui suivent sont ici prsentes essentiellement dans une perspective de rflexion qui permettra au lecteur de mieux
apprhender la suite de ce mmoire. Celles-ci seront en outre reprises en dtail dans les
chapitres suivants.
1.3.2
Si lon se base sur la vision du Web 2.0 en tant que systme centr sur lutilisateur (Section 1.2, page 31), il nous semble important pour le Web Smantique de rutiliser certains
paradigmes de celui-ci afin de monter en puissance :
lutilisation doutils simples pour la production grande chelle de donnes formalises selon les principes du Web Smantique, publies de manire personnelle (blogs)
ou collaborative (wikis). Ainsi, et nous le verrons par la suite, les blogs et les wikis peuvent savrer des interfaces efficaces pour la production dannotations smantiques, sans pour autant confronter lutilisateur aux modles sous-jacents (Section 4,
page 137) ;
la masse importante dutilisateurs passs du statut de consommateur celui dacteur.
Si le Web 2.0 est en effet un read-write Web, qui plus est collaboratif, les outils du Web
80
http://www.shirky.com/writings/ontology_overrated.html
http://www.mindswap.org/blog/2007/11/21/shirkyng-my-responsibility/
82
http://www.readwriteweb.com/archives/the_top-down_semantic_web.php
81
83
On peut certes considrer quil existe des ontologies top-down ou bottom-up, notamment via la notion de
smantique mergente partir des tags (Section 3.3.1, page 121), mais lappellation Web Smantique bottom-up
nous semble inapproprie partir du moment o lon parle dun mode de reprsentation de donnes.
44
Smantique peuvent ainsi bnficier dune masse importante dutilisateurs producteurs de donnes formalises, pour autant que les outils soient simples et adapts
comme indiqu dans le point prcdent ;
la collaboration entre utilisateurs des fins de cration collective et consensuelle dinformations et de connaissances, en corollaire des lments prcdents. Ainsi, les folksonomies mais surtout les wikis peuvent tre utiliss pour peupler ou maintenir des
ontologies de manire collaborative, comme nous le verrons par la suite (Section 4.2.1,
page 148) ;
lutilisation dinterfaces simples et intuitives, pour la visualisation et la navigation de
graphes complexes dannotations smantiques. Si ces structures de donnes sont relativement complexes, lutilisation doutils comme des interfaces facettes permettrons
de masquer cette complexit aux utilisateurs (Section 5.2.3, page 206) ;
plus gnralement la mise en place de mash-ups smantiques attractifs, proposant des
nouveaux moyens de parcourir et visualiser ces informations modlises en RDF et
issues de sources de donnes rparties sur le Web (Section 5.2.3, page 207).
Utilisateurs
Collaboration
Interfaces
Publication
Mash-ups
Web Smantique
trs faible (blogs, wikis ...), nous pensons que les technologies du Web Smantique ont tout
gagner en proposant galement des interfaces intuitives et collaboratives pour la visualisation et la production dannotations smantiques.
1.3.3
Rciproquement, si les outils du Web 2.0 proposent des mthodes qui nous semblent
efficaces en termes dusages et dinterfaces, nous pensons que lutilisation des technologies
du Web Smantique ne peut tre quun plus en termes de structuration et dchange de
donnes sur le Web 2.0.
Mtadonnes
Ontologies
Reprsentation
Requtes
Web 2.0
des fins de rutilisation entre services. En ce sens, les wikis smantiques nous semblent
un bon exemple dutilisation de technologies du Web Smantique pour augmenter le
potentiel doutils existants et dj bien accepts sur le Web 2.0 (Section 4.2.1, page 148) ;
lutilisation de protocoles de requtes et dchange standardiss. Lutilisation de RDF
pour la production de donnes et de SPARQL pour leur interrogation permet ainsi
de simplifier linteroprabilit entre applications. On favorise en ce sens la dcouverte
de contenus rpartis sur diffrents services Web 2.0 ainsi que la cration de mash-ups
smantiques moindre cot.
Ainsi, les outils du Web 2.0 peuvent bnficier des technologies du Web Smantique
pour assurer la structuration et lhomognit des donnes produites : en saffranchissant
des formats internes et dAPIs propritaires, on facilite les changes entre et depuis des systmes originellement htrognes. En consquence, les outils du Web 2.0 peuvent galement
participer cet essor du Web of Data, en produisant non plus de simples documents, mais
un ensemble de donnes interoprables.
C ONCLUSION
Ce chapitre nous a permis de prsenter diffrents concepts essentiels pour la comprhension de nos travaux. Nous avons tout dabord dtaill les principes et langages du Web
Smantique, en termes de reprsentation des connaissances et dinterrogation, puis prsent
linitiative Linking Open Data (Section 1.1, page 12). Dans la seconde partie, nous avons introduit les changements et paradigmes introduits par le Web 2.0, en prsentant plus prcisment certains outils et pratiques, savoir blog, wikis, syndication de contenu et principes
de tagging (Section 1.2, page 31). La dernire partie de ce chapitre nous a par la suite permis
dintroduire certaines pistes relatives la convergence entre ces deux visions, convergence
qui sera au cur des travaux que nous allons prsenter dans la suite de ce mmoire.
Figure 1.14: Convergence entre Web Smantique et Web 2.0 [Breslin et Decker, 2006]
47
Cette convergence, quon lappelle Web n.0, Social Semantic Web ou Metaweb84 , permettra
daboutir :
des contenus Web issus dinteractions sociales entre internautes et interoprables grce
lutilisation combine de RDF et dontologies pour dfinir la structure et la smantique de ces contenus ;
un Web de Donnes, et non plus seulement un Web de documents, puisque lon considre alors les systmes Web 2.0 comme fournisseurs de donnes interoprables, dfinies selon les principes voqus au point prcdent ;
des outils en ligne simples dutilisation pour crer et mettre jour ces diffrentes donnes, comme les blogs et les wikis agrments de capacits de reprsentation smantique de linformation ;
des interfaces de navigation, dinterrogation, de visualisation et des mash-up intuitifs et
simple daccs capables dabsorber ces donnes complexes et rparties pour proposer
des services pertinents lutilisateur final.
Cest travers cette complmentarit que pourront se former des espaces informationnels la frontire de ces deux domaines, utilisant au maximum le potentiel des diffrents
courants actuels du Web (Figure 1.14, page 47). Nous allons ainsi dans la suite de cette thse
identifier diffrents moyens, aussi bien en termes de modles de reprsentation (Section 3,
page 83) que dapplications (Section 4, page 137) (Section 5, page 187), de parvenir cette
convergence. Enfin, pour conclure ce chapitre, on citera [Berners-Lee, 2005b] : "I think we
could have both Semantic Web technology supporting online communities, but at the same time also
online communities can also support Semantic Web data by being the sources of people voluntarily
connecting things together", pour mettre nouveau laccent sur ce qui est non pas un apport
sens unique, mais une vritable complmentarit entre ces deux visions.
84
48
http://novaspivack.typepad.com/nova_spivacks_weblog/2003/12/the_birth_of_th.html
Chapitre 2
en place doutils associs pour produire et utiliser des connaissances reprsentes selon ces
modles. Ces points seront en outre approfondis dans les chapitres suivants de ce mmoire.
2.1
2.1.1
Afin de collecter, analyser et diffuser linformation provenant de diffrentes sources externes destination de ses ingnieurs, chercheurs et dirigeants, EDF R&D dispose du groupe
ID-Net et plus particulirement de la Cellule Appui-Veille (CAV), situs au sein du Secrtariat Gnral1 . La mission essentielle de cette cellule est doffrir une structure dIntelligence
Economique [Wilensky, 1967] la R&D, sur des thmes aussi bien techniques que sociaux ou
conomiques. [Martre, 1994] dfinit lIntelligence Economique comme "lensemble des actions
coordonnes de recherche, de traitement et de distribution, en vue de son exploitation, de linformation utile aux acteurs conomiques". Dans le contexte dEDF ces actions permettent ainsi au
personnel de la R&D dtre au fait des dernires innovations, partenariats et technologies
utilises ou potentiellement utilisables concernant leur activit. Elles permettent de plus
aux dirigeants davoir une vision globale de diffrents domaines permettant dlaborer ou
daffiner la stratgique du groupe.
Jusqu rcemment, une partie de ce processus reposait sur des mthodes classiques de
veille, capitalisation et diffusion de linformation en entreprise. Parmi les process et outils
mis en place, citons lutilisation doutils de collecte et de suivi de sites Web comme WebSiteWatcher2 , la capitalisation de connaissances via des bases Lotus Notes3 ou encore la diffusion dinformations par la voie classique du courrier lectronique. Dbut 2005, commandit
par la direction de la R&D, le projet Athna a vu le jour, avec des objectifs doubles :
dune part, optimiser et mutualiser la collecte, la capitalisation et la diffusion de linformation via des solutions innovantes ;
dautre part, mettre en place des processus collaboratifs diffrents niveaux de cette
chane informationnelle, notamment en termes dchanges et de coconstruction de
connaissances.
De part son domaine dactivit et son historique, EDF est une entreprise o la culture du
secret et des rseaux sociaux informels prdomine, au dtriment dune circulation globale de
linformation entre individus. Ceci sexplique en partie par la nature des sujets abords par
les experts de lentreprise, quils soient sensibles pour des raisons de scurit (nuclaire) ou
de stratgie et dinnovation (nergies renouvelables). Plus gnralement, une autre composante de cette absence dchange intra-entreprise sexplique, comme dans beaucoup dorganisations, par la nature mme du savoir, souvent quivalent au pouvoir. Les connaissances
sont ainsi la proprit de celui qui les possde, dissmines au compte-goutte de faon plus
ou moins formelle et gnralement uniquement un cercle priv de relations. En consquence, cette rtention dinformation se fait au dtriment de lentreprise, de ses comptences
et ventuellement de sa stratgie adopter vis--vis de domaines mergents.
1
http://aignes.com
http://www.ibm.com/software/fr/lotus
50
Ainsi, en cherchant repousser les frontires dune information cloisonne tout en y introduisant une composante participative, le projet vise faire entrer lIntelligence Collective
[Bonabeau et Theraulaz, 1994] au sein de lentreprise. Un des objectifs vis par le projet est
donc dentraner une synergie permettant de faire merger des connaissances suprieures
celles que pourraient produire isolment chacun des individus, selon la maxime "We are
smarter than me"4 , [Libert et al., 2007]. La russite de ce projet ne repose donc pas uniquement
sur la technique avec la mise en place de nouveaux outils (Section 2.1.2, page 53) mais
galement sur des aspects sociologiques et organisationnels, savoir ladoption de ces outils
et des pratiques associes par les utilisateurs. De manire plus globale, le projet Athna se situe dans la mouvance de lEntreprise 2.0 [Mcafee, 2006], vision o les outils du Web 2.0 et les
mthodes collaboratives associes de plus en plus communes dans la sphre personnelle
pntrent les murs de lentreprise : "Enterprise 2.0 is the use of emergent social software platforms within companies, or between companies and their partners or customers"5 . Cette vision de
lentreprise o le ct social joue un rle majeur dans llaboration de connaissances rejoint
galement la notion dcologie de linformation propose par [Davenport et Prusak, 1997], o
lhumain est au centre du systme dinformation.
Tout comme le Web 2.0, la notion dEntreprise 2.0 est relativement porteuse, que cela soit
pour la communication interne ou externe des entreprises. Mme si nous nous sommes intresss cette mouvance principalement en termes dinformations internes (Section 2.1.2,
page 53), notons la place importante de ces solutions pour favoriser la communication entre
certaines entreprises et leurs clients ou le grand public. Une rcente tude montre ainsi que
prs de 13% des entreprises du top 500 de Fortune ont un blog public maintenu par les
employs6 . Les blogs ne sont dailleurs pas les seuls outils utiliss puisque lon retrouve
certaines entreprises sur Twitter ou SecondLife7 , univers virtuel en ligne. Le premier peut
tre utilis pour informer ses clients de la mise en place de nouveaux services ou pour simplement communiquer directement avec eux, comme le fait par exemple le service Web 2.0
SlideShare (Figure 2.1, page 52), alors que le second est utilis dans certains cas pour procder des entretiens de recrutement en ligne8 .
Dun point de vue de limpact conomique de lEntreprise 2.0, le march est galement
porteur et devrait en outre, selon diffrentes tudes, voluer dans les annes qui viennent.
Forrester Research prdit ainsi un march global pour les solutions dEnterprise 2.0 de 4.6
milliards de dollars en 20139 alors que Gartner identifie que les plates-formes de social computing10 seront adoptes par les entreprises dans les dix prochaines annes11 . Autre signe
de cet essor, de nombreuses solutions logicielles cl-en-main sont aujourdhui disponibles,
4
http://www.wearesmarter.org/
http://andrewmcafee.org/blog/?p=76
6
http://www.asia.socialtext.net/bizblogs/index.cgi
7
http://secondlife.com
8
http://online.wsj.com/public/article/SB118229876637841321-NkCuEAak8wFXmvmPVWkALxqNS3M_
20070719.html
9
http://www.forrester.com/Research/Document/Excerpt/0,7211,43850,00.html
5
10
11
http://gartner.com/it/page.jsp?id=739613
51
Figure 2.1: Utilisation de Twitter par le service Web 2.0 Slideshare pour communiquer avec
ses utilisateurs
comme IBM Lotus Connections12 ou Jive Clearspace13 . Certaines entreprises se spcialisent
galement dans ce domaine aussi bien dun point de vue technique que pour laccompagnement lutilisation de tels outils, comme SocialText14 ou HeadShift.
Pour en revenir la notion mme dEntreprise 2.0, [Mcafee, 2006] voque en dfinissant
ce terme la manire dont des outils comme les blogs et les wikis permettent de transformer les intranets en structures dynamiques et volutives grce la participation des utilisateurs. Il caractrise galement les diffrents principes introduits par ces outils par lacronyme SLATES :
Search Recherche dinformation ;
Links Liens entre contenus ;
Authoring Publication aise ;
Tags Annotations des contenus par tags ;
Extensions Extension de la navigation ;
Signals Signalement dinformation.
Par exemple, les blogs et les wikis peuvent tre utiliss pour la publication dinformation
(Authoring) et la dfinition de liens entre document (Links) de manire intuitive sans aucun
prrequis technique. Les systmes base de tags peuvent quant eux tre utiliss pour annoter les contenus publis (Tags) et favoriser la dcouverte de nouvelles informations (Extensions). De plus, les principes de syndication RSS mais aussi des outils comme le microblogging peuvent tre utiliss pour favoriser le signalement de nouvelles informations (Signals).
Ce dernier mode de communication et de partage de linformation nous semble de plus
12
http://www-01.ibm.com/software/lotus/products/connections/
http://www.jivesoftware.com/products/clearspace
14
http://www.socialtext.com/
13
52
particulirement adapt cette notion de signalement puisquil offre une mthode de communication agile et spontane au sein de lentreprise. En complment, la plupart des outils
bnficient de capacit de recherche dinformation, quil sagisse de recherche plein-texte ou
de recherche par tags (Search). Ainsi, si lon peut difficilement contredire le fait que ces outils
permettent aux utilisateurs de simplement lier, diter ou taguer des contenus, nous sommes
plus rservs quand leur capacit offrir une recherche dinformation efficace, des extensions de celle-ci et un signalement dinformations pertinent, comme nous le montrerons
plus tard (Section 2.2, page 62).
2.1.2
Comme nous lavons voqu, un des objectifs dAthna est la mise en place de nouveaux outils pour faciliter la constitution et lchange dinformations au sein de la R&D,
notamment dans un contexte de veille informationnelle. Diffrents services ont ainsi t
successivement mis en place, labelliss de manire unifie sous le nom de plate-forme Herms.
Flux RSS et mutualisation des sources dinformation
La premire phase du projet a consist en la mise en place dun systme de collecte
et dabonnement des flux RSS issus du Web. Lobjectif vis est ainsi doptimiser la collecte, la diffusion et la mutualisation dinformations externes au sein de lentreprise. Cest
dailleurs ce que [Mcafee, 2006] identifie comme les canaux de communication permettant
de rpondre la problmatique de signalement (le second S de SLATES). Cette pratique
dutilisation de flux RSS externes au sein de lentreprise est en outre aujourdhui de plus
en plus courante. Un sondage Ipsos datant de dcembre 2007 montre ainsi que 21% des
dcideurs informatiques ont recours aux abonnements des flux RSS15 . Plus rcemment,
une tude dAIIM16 indique que cette technologie est dj acquise par 51% des entreprises
sondes et que 21% ont prvu de lintgrer dans leur stratgie [Frappaolo et Keldsen, 2008].
La slection des flux collecter se fait de manire continue par la CAV selon les demandes des clients de la plate-forme, i.e. les entits de la R&D qui souhaitent suivre lactualit dun thme donn. Ces flux sont classs selon diffrentes thmatiques (nergie solaire, tlcommunications ...), les utilisateurs pouvant ensuite sy abonner. Cette interface
dabonnement permet galement davoir accs aux dernires nouvelles des flux souscrits
(Figure 2.2, page 54), ceux-ci tant rafrachis plusieurs fois par jour.
Les flux slectionns peuvent en outre provenir de sites de nature relativement diverse :
grands quotidiens, sites dactualit, mais aussi forums ou blogs dexperts. Cette perspective
permet de bien comprendre quel point la diffusion des connaissances sur le Web, accentue
par lutilisation doutils Web 2.0, peut tre bnfique pour une entreprise en termes dacquisition de nouveaux savoirs. Il est en effet possible de tirer parti des connaissances dun
expert sans que celui-ci nait de relation directe avec lentreprise et ce moindre cot et sans
dmarche proactive, au contraire de ce que proposent les Ideagoras [Tapscott et Williams, 2007].
15
16
http://www.ipsos.fr/CanalIpsos/poll/8359.asp
http://aiim.org
53
Par rapport la mthodologie utilise avant cette pratique dagrgation, trois progrs
importants sont retenir :
l o les processus prcdents faisaient intervenir diffrents outils pour agrger les
donnes source, dfinissant chacun leur propre format, nous disposons via lutilisation
de RSS dun modle standard pour la reprsentation des informations collectes. Ceci
se traduit par la possibilit dutiliser des outils gnriques pour la lecture et le stockage
des informations agrges (en loccurrence des APIs ddies aux flux RSS) ;
ce nouveau processus permet galement de mutualiser les sources dinformation
destination des utilisateurs. Cette mutualisation est une premire tape dans la dmarche dIntelligence Collective vise par le projet Athna. Les flux ne sont en effet
plus seulement rservs aux commanditaires de la veille thmatique, mais disponibles
pour tous les utilisateurs de la plate-forme via linterface dabonnement ;
contrairement la pratique prcdente o les informations taient envoyes par email intervalles rguliers, celles-ci sont ici fournies lutilisateur sa demande, i.e.
chaque consultation de son interface de lecture, vitant la surcharge dinformations
non sollicites.
Ractions et informations spontanes grce aux weblogs
Si cette premire tape permet de simplifier et de mutualiser lacquisition et la diffusion
dinformations externes au sein de lentreprise, elle ne prend pas en compte une autre des
problmatiques initiales. En effet, un autre besoin est de fournir une certaine valeur ajoute
ces informations brutes et dchanger autour de celles-ci ou au sujet de nouvelles informations. Nous avons ainsi mis en place une plate-forme proposant un blog chaque utilisateur
le souhaitant. Un premier objectif est la valorisation des lments de flux RSS, en permet54
tant de crer simplement un billet partir dune nouvelle, la manire dun outil comme
ReBlog17 . Bien entendu, le systme ne se limite pas la cration de contenus partir dlments existants, mais offre la possibilit de crer des billets originaux et de commenter les
billets existants, intgrant ainsi une composante participative au service. Ce processus rpond ainsi au A de SLATES en permettant tous de passer du statut de consommateur
celui de rdacteur via la publication de nouvelles informations ou en accentuant le signalement dinformations existantes (second S de SLATES).
Lintrt de cette dmarche est double :
premirement, en matire de mise en valeur de linformation. Une nouvelle issue dun
flux se retrouve rapidement noye au sein dune masse importante dinformations. De
plus elle nest pas immdiatement accessible pour les utilisateurs qui nont pas souscrit au flux dorigine. La plate-forme de blogs dressant une liste antchronologique et
visible par tous des derniers billets cres, les lments y bnficient dune meilleure
visibilit (certes parfois courte, mais qui permet cependant tous de les remarquer) ;
en second, en matire de valeur ajoute et danalyse pertinente de linformation. Dans
le cas o le billet est issu dinformations agrges, si rien nempche lutilisateur de
republier linformation telle quelle, lobjectif est dy ajouter une analyse personnelle
ou a minima de la situer dans le contexte EDF. Les aspects les plus pertinents dune
actualit donne peuvent ainsi tre mis en avant par le rdacteur du billet.
Chaque blog disposant son tour dun flux RSS, il est possible de sy abonner pour limiter sa veille personnelle aux informations dune thmatique donne, chaque utilisateur
ayant pour habitude de crer des billets autour dun sujet spcifique (nuclaire, nergies solaires ...). L aussi, plusieurs avantages sont signaler par rapport lchange dinformation
par e-mail. Tout dabord, en raison de la nature ouverte de la publication (a contrario dun email adress une communaut restreinte et tablie a priori par le rdacteur), linformation
circule de manire plus large. En consquence, il est possible un plus grand nombre de
personnes dy ragir, favorisant ainsi les changes spontans et lacquisition de nouveaux
savoirs. Dautre part, en plus dtre ouvertes et mutualises, les informations deviennent
prennes via un systme darchives des billets contrairement (1) aux archives de-mails qui
disparaissent gnralement lorsque leur propritaire quitte lentreprise et (2) aux lments
de flux RSS dont la survie dans notre agrgateur nest pas toujours assure18 .
Capitalisation dinformation via les wikis
Revenons maintenant sur un autre aspect dterminant pour le projet, celui de la capitalisation des connaissances. Bien quun pas ait dj t franchi dans ce domaine avec lutilisation des blogs, il faut garder lesprit quun billet de blog reprsente gnralement une
connaissance tablie un instant t. Un billet de blog insiste en gnral sur une actualit
contextualise temporellement, comme par exemple la fusion de deux entreprises ou le lancement dun projet. De ce fait, les informations de ce type ne peuvent pas du moins sous
cette forme de billet brut tre considres comme des connaissances encyclopdiques (les
secteurs dactivit dune entreprise, la liste de ses dirigeants ...). De plus, en raison de la pr17
http://reblog.org
18
Pour des raisons lgales, certains lments de flux sont supprims pass un certain dlai.
55
sentation antchronologique des blogs, ces billets sont vous tre rapidement remplacs
par dautres en termes daffichage. Le besoin initial de capitalisation nest donc pas compltement satisfait et il est ncessaire de fournir une solution permettant de produire efficacement des documents de rfrence sur divers domaines. Qui plus est, cette solution doit
aussi permettre de faire voluer ces documents, par opposition aux fonds documentaires
gnralement figs19 .
Devant ce besoin, nous avons naturellement opt pour la mise en place dun serveur
de wikis afin de capitaliser et de construire, non pas des informations volatiles mais des
connaissances prennes et consensuelles. Chaque utilisateur a ainsi la possibilit de crer
son propre wiki ddi un projet ou une thmatique donne mais peut aussi agir sur les
diffrents wikis mis en place par les autres utilisateurs de la plate-forme.
Cest essentiellement via lutilisation de ces outils que lon parviendra visualiser lmergence dune Intelligence Collective vise par le projet : lagrgation dun ensemble de processus individuels (ajout dune nouvelle page, modification de contenu existant ...) devant
conduire terme lapport de connaissances ayant une valeur ajoute plus forte que celle
des connaissances individuelles (Figure 2.3, page 56). La plate-forme mise en place conserve
en outre les caractristiques essentielles des wikis voques prcdemment : utilisation importante des hyperliens (L de SLATES), rtroliens (que lon peut voir dune certaine manire
comme une extension de la navigation, E de SLATES), historique des versions, cration aise de nouvelles pages, etc. Nous avons de plus, tout comme pour les blogs, intgr un
diteur WYSIWYG afin de faciliter la courbe dapprentissage de loutil, nouveau pour la
quasi-totalit des utilisateurs.
Page Wiki A
Page Wiki B
Cration
U1
Ajout de lien
U2
Cration de page
Edtion
U3
19
56
Ou, quand ils ne le sont pas, ncessitent un processus complexe pour mettre un document jour.
Lensemble des outils mis en place permet ainsi de rpondre aux objectifs de SLATES de
la manire suivante (Tableau 2.1.3, page 57) :
Rgle
Search
Link
Authoring
Tags
Extension
Signals
un troisime consulte cette page puis contribue au wiki en crant une nouvelle page
partir de celle-ci ;
un quatrime intervenant va lire puis commenter le billet dorigine ;
le second utilisateur va enfin consulter puis diter la page wiki nouvellement cre.
Flux RSS
Web
Page
wiki 1
Billet de
blog
Page
wiki 2
Agrgation
Lecture
U1
Signalement
Lecture
U2
Capitalisation
Lecture
Cration de page
U3
Lecture
U4
Commentaire
Lecture
Edition
Figure 2.4: Scnario idal dutilisation des diffrents lments de publication de la plateforme
Ce scnario met en avant les diffrents outils et processus introduits par la plate-forme
Herms dans cet objectif dIntelligence Collective. On y retrouve en particulier les notions
de partage dinformation et de constitution collaborative de connaissances volutives.
58
2.1.4
Avant de revenir sur les limites de cette approche (Section 2.2, page 62), faisons un point
sur quelques statistiques qui nous permettent dvaluer la plate-forme en termes dacceptation par les utilisateurs. Environ trois ans aprs son lancement initial et une anne aprs
que la plate-forme ait t officiellement labellise comme lment de lIntranet de la R&D,
les chiffres sont plutt concluants, puisque plus de 3000 utilisateurs ont fait la dmarche
de sy inscrire (Tableau 2.2, page 59). Cependant, environ 6% seulement ont franchi ltape
consistant passer du statut de consommateur celui de producteur (i.e. ayant post a minima un billet). Sur ce pourcentage, on notera comme le montre le tableau suivant20 que la
majorit sont des utilisateurs de blogs, mme si certains utilisent uniquement les wikis. Notons galement quenviron la moiti des contributeurs ont dj post un commentaire sur la
plate-forme.
Nombre dutilisateurs
Nombre global de contributeurs
Nombre de contributeurs dans les blogs
Nombre de contributeurs dans les wikis
Nombre de contributeurs dans les commentaires
3068
203
167
88
109
1528
295
4.46
118
Statistiques de dcembre 2008, tout comme lensemble des statistiques qui suivent.
59
Nombre de billets
Nombre de billets comments
Nombre de commentaires
Nombre de wikis
Nombre de pages wikis
21614
700
1195
83
4378
Volume
5000
4000
3000
2000
1000
0
0
100
200
300
400
500
Jours
La situation des wikis est diffrente puisque prs de 80 wikis pour plus de 4000 pages
ont t cres, ce qui tmoigne de la bonne adoption et prise en main de ce type doutils
parmi les utilisateurs. Cinq wikis notamment comptent plus de 300 pages. Bien que loutil
ait t initialement imagin pour une utilisation but encyclopdique au sein de la R&D,
certaines communauts lont adopt spontanment dans une optique de gestion de projet
afin dy stocker les documentations techniques, les derniers comptes-rendus de runion ou
les contacts clients. Il est ainsi important de noter un parallle qui sest naturellement tabli
entre les cas dutilisations des wikis sur le Web et leur utilisation en interne, malgr des utilisateurs jusque l novices vis--vis de ce mode de publication. Cette observation conforte
le fait que le wiki est un outil dont les usages et pratiques dpendent fortement des besoins
de la communaut qui se lapproprie (Section 1.2.2, page 36). Malgr tout, diffrents administrateurs ont dcid de restreindre ldition de leur wikis (voire parfois la lecture) des
groupes prdfinis. Il est intressant de remarquer que dans ce cas, certains ont revu leur
position en autorisant au final a minima la lecture et les commentaires, aprs avoir eu cho
des retours positifs dont bnficiaient les wikis des communauts ouvertes.
Plus gnralement, quil sagisse de blogs ou de wikis, les rticences la publication et
au partage dinformation peuvent sexpliquer de diffrentes manires, tel que nous lavons
60
constat :
comme nous lavons dj voqu, la valeur de linformation reste essentielle pour celui qui la possde, notamment en termes de reconnaissance dans lentreprise. Ainsi,
il nest pas toujours vident daccepter de partager son temps ou ses connaissances
ouvertement sans avoir lassurance que lon sera valoris pour des actions de ce type ;
a contrario, certains utilisateurs ne saventurent pas dans cette pratique, particulirement pour les wikis, de peur que les informations quils partagent soient modifies
dans une optique qui ne leur convienne pas. De plus, certains nentrevoient justement
pas lintrt de sy investir, partir du moment o dautres seraient tout aussi en mesure deffectuer cette dmarche dchange ou de capitalisation leur place.
Rappelons que ces processus de diffusion ouverte dinformations ne faisaient pas jusqu prsent partie de la culture dentreprise. Ainsi, passer dune vision ferme de la diffusion du savoir un point de vue radicalement oppos mettant en avant laspect volontaire et spontan du partage dinformations nest pas simple accepter pour la majorit
des utilisateurs. Si dautres entreprises, notamment dans la culture anglo-saxonne ont pu
mettre plus en avant cette ouverture comme le montre une tude mene chez Sun et IBM
[Kolari et al., 2007], on peut se demander jusquo la confidentialit de linformation et le
dsir de rester garant dun certain niveau dexpertise prvaut sur le fait de partager celle-ci
et den faire bnficier ses pairs et les diffrentes strates de lentreprise. Cest une question
sociologique laquelle nous ne tenterons pas de rpondre, mais qui rvle bien les impacts
que ce nouveau mode de participation et dchange de savoir ont au niveau dentreprises
dont la culture a t toute autre pendant de longues annes. Cette relation entre la culture
dentreprise et lacceptation dun systme dinformation dEntreprise 2.0 se retrouve galement dans ltude dAIIM voque prcdemment qui indique que 41% des sonds nont
pas de comprhension claire de la notion dEntreprise 2.0, contre seulement 15% pour les
entreprises orientes Knowledge Management. Ainsi, il est important de garder lesprit que,
plus quun ensemble doutils et de prrequis technique, lEntreprise 2.0 est une philosophie
qui peut parfois prendre du temps pour tre accepte. Comme le souligne galement Dion
Hinchcliffe21 , "lentreprise 2.0 est davantage un tat desprit quun produit que lon peut acheter".
Malgr tout, les chiffres obtenus nous semblent encourageants pour la suite du projet et
lusage croissant des wikis laisse entrevoir de nombreuses communauts demandeuses de
cette pratique lavenir. Un autre point qui nous semble favorable une augmentation du
nombre dutilisateurs et de contributeurs aux outils est une combinaison des stratgies topdown et bottom-up pour faire entrer loutil dans les murs, comme nous avons pu le constater
et tel que suggr par Suw Charman22 :
dune part, stratgie bottom-up, les outils mis en place et tests successivement auprs
des diffrentes communauts ont permis de faire connatre la plate-forme par bouche-oreilles. Certains utilisateurs sont mmes devenus vanglistes de la plate-forme,
participant aux actions de communication autour de celle-ci (interviews par exemple) ;
dautre part, stratgie top-down, le management et lquipe projet ont rgulirement
promu loutil via diffrents canaux de communication, quil sagisse de messages
21
22
http://blogs.zdnet.com/Hinchcliffe/?p=143
http://strange.corante.com/2006/03/05/an-adoption-strategy-for-social-software-in-enterprise
61
Alors que nous venons de recenser quelques limites sociologiques et culturelles la mise
en place de ces outils dans un contexte dentreprise, nous allons ici prsenter diffrentes
problmatiques auxquelles nous avons t confronts, aussi bien en implmentant quen
utilisant ces outils.
2.2.1
Comme nous lavons prsent auparavant diffrentes suites logicielles sont disponibles
pour introduire les outils Web 2.0 dans un contexte dentreprise. Or, lEntreprise 2.0 repose
dans de nombreux cas sur un ensemble de services indpendants, plusieurs raisons peuvent
conduire cette disparit :
les outils peuvent par exemple avoir t introduits par les employs eux-mmes, sans
consultation pralable des autres quipes ou de la direction. Une quipe va donc crer
son wiki de gestion de projet, une deuxime va installer un autre wiki pour ses documentations logicielles, alors quune troisime va mettre en place son propre agrgateur
de flux RSS ou sa plate-forme de blogs ;
une autre cause peut simplement tre due la nature des outils, des services demands
et lvolution des besoins. On peut par exemple envisager une plate-forme uniquement ddie aux blogs et aux wikis et se rendre compte, au moment dintroduire des
outils de microblogging, que celle-ci ne permet pas une telle utilisation, un nouvel
outil tant alors introduit.
Cette diversit des outils introduit en consquence un problme de fragmentation de
linformation. Comme nous lavons voqu dans le chapitre prcdent, la notion de partage
dinformations sur le Web 2.0 est en gnral centre autour dobjets particuliers (Section
1.2.3, page 42). Il en est de mme en entreprise o les changes et requtes sont gnralement centrs autour dune socit, dun projet, dun domaine technologique. Or, en raison
de la diversit des outils utiliss, linformation peut-tre rpartie au sein de plusieurs systmes. Un utilisateur devra donc interroger plusieurs sources dinformation puis recouper
les rsultats, le cot de ce processus tant proportionnel au nombre doutils. Dans notre
62
contexte, il arrive frquemment que linformation au sujet dun domaine particulier soit rpartie au sein de plusieurs wikis, blogs et flux RSS. Si le moteur de recherche plein-texte
ou lutilisation des tags permettent en partie dassister lutilisateur dans cette tche, nous
verrons sous peu quils soulvent galement de nombreux problmes.
Consquence de cette disparit des applications, les formats de donnes sont galement
distincts. La tche dintgration se rvle donc fastidieuse pour le dveloppeur, avec diffrentes structures de base de donnes, APIs ou formats dchange apprhender et intgrer.
On retrouve cette mme problmatique sur le Web o les donnes sont encore plus htrognes et distribues que dans ces systmes dentreprise o lon peut en gnral identifier
plus facilement les sources dinformation.
2.2.2
Si les wikis sont abondamment utiliss (comme nos statistiques le montrent (Section
2.1.4, page 59)) pour la capitalisation dinformation, ils souffrent de certains dfauts qui
ne permettent pas dexploiter celle-ci de manire optimale. Malgr la puissance de loutil
(dition libre, archivage des versions, liens bidirectionnels ...) il est en effet difficile daccder
rapidement linformation souhaite. En effet, de par la nature dstructure et extensible
des wikis, les informations au sujet dune thmatique particulire peuvent tre rparties sur
un grand nombre de pages. On retrouve ici une partie du problme voqu prcdemment,
mais cette-fois ci lchelle de loutil.
Selon nous, le principal problme des wikis dans cet objectif de capitalisation efficace des
connaissances est li leur nature plein-texte. Celle-ci fait quil est en effet difficile, moins
dutiliser des algorithmes complexes de traitement des langues et/ou dextraction dentits
nommes et de relations, dinterprter et rutiliser automatiquement le contenu des diffrentes pages. En consquence, comme nous lavons dj voqu en amont, un moteur de
recherche est uniquement capable de valider ou non la prsence dune chane de caractres
dans une page wiki. La rponse des questions comme "Quelles sont les entreprises franaises
sintressant au domaine des nergies renouvelables" ou "Lister toutes les entreprises prsentes dans
ce wiki" est ainsi impossible. Le wiki ne modlise en effet que des documents textuels et des
liens hypertextes et non pas par des entits types lies par des liens eux aussi typs, do
une diffrence de reprsentation entre ce qui est stock au sein de loutil et linterprtation
que le lecteur en fait.
2.2.3
Un autre cueil des systmes Web 2.0, notamment dans notre contexte, est d lutilisation abondante de tags pour annoter les diffrents contenus produits. Si les avantages
des tags sont multiples en termes dannotation, lutilisateur pouvant notamment adapter
les termes ses souhaits particuliers appels galement lignes de dsir (desire lines23 )
cette ouverture complexifie la recherche dinformation. [Mathes, 2004] estime ainsi qu"une
folksonomie reprsente simultanment une partie du pire et du meilleur dans lorganisation de linformation". En effet, contrairement des systmes de classification modlisant une vision
23
http://www.adaptivepath.com/publications/essays/archives/000361.php
63
hirarchique du monde, comme par exemple le systme dcimal de Dewey24 ou la classification scientifique propose par lACM25 , une folksonomie nest quun amas de tags chaotiques et non organiss. Il devient ainsi difficile daccder linformations si lon ne se rfre
pas directement au tag souhait et il est encore plus complexe dtendre ou de spcifier sa
recherche. Ainsi, certains pensent que si le gain de temps est considrable en termes de publication, il est perdu en termes de recherche dinformation et que la pratique de tagging
perd ainsi de son intrt26 . Nous allons maintenant dtailler spcifiquement certaines problmatiques lies ces pratiques telles que nous avons pu les constater au sein du projet et
galement souleves par [Mathes, 2004] ou [Golder et Huberman, 2006].
Problmes dambigut
Un tag peut en effet tre associ plusieurs significations. Par exemple le mot-cl pac
peut correspondre pile combustible, politique agricole commune ou encore pompe chaleur
selon le contexte de lannotation et le contenu annot. Une recherche sur ce terme rcuprera
cependant les contenus annots par le mot-cl quelque soit son sens, induisant un problme
de bruit. Les mots-cls ne portent en effet pas suffisamment de smantique pour dfinir par
eux-mmes et sans ambigut lentit quils reprsentent.
Figure 2.6: Rsultats dune recherche associe au tag apple sur Flickr
En pratique nous navons pas particulirement t confronts ce problme dans notre
contexte (Section 4.4, page 183). Il nous est apparu cependant plus frquent sur le Web.
Par exemple, une recherche sur les contenus tagus apple sur Flickr identifie aussi bien
des photos de fruits que de produits Apple, comme le montre la figure qui suit (Figure 2.6,
page 64).
24
http://www.oclc.org/dewey/
http://www.acm.org/about/class/
26
http://blogs.talis.com/panlibus/archives/2005/09/why_tagging_is_.php
25
64
Problmes dhtrognit
Si un tag peut avoir plusieurs significations, il est galement possible que plusieurs
tags soient utiliss pour reprsenter la mme entit. Cest l toute lambigut des systmes
de tags et du choix de ces termes par les utilisateurs eux-mmes. Cette htrognit est
souvent morphologique ou morphosyntaxique (synonymes, pluriels, variations de casse,
multilinguisme ...). Par exemple les tags EDF, ElectriciteDeFrance et lectricit de
france identifient la mme entreprise. Si des systmes de suggestion ou dautocompltion
peuvent permettre de restreindre cette htrognit, il arrive cependant quelle soit motive par des raisons lies des choix plus personnels (on trouve par exemple sur Delicious
un certain nombre de tags dbutant par _ permettant leur placement en dbut de liste alphabtique).
Nous avons constat cette htrognit plusieurs reprises dans notre contexte applicatif. En analysant notre systme, nous avons en effet pu nous rendre compte que certains concepts taient associs plus de cinq tags diffrents et que certains utilisateurs employaient eux-mmes plusieurs tags pour se rfrer un mme concept (Section 4.4, page
183).
nouveau, on retrouve abondamment ce problme sur le Web. Pour exemple, nous
avons observ que plus de dix tags distincts sont utiliss des frquences diverses pour le
concept de Web Smantique sur Delicious, comme le montre le tableau qui suit (Tableau 2.5,
page 65)27 et ce sans prendre en compte les termes connexes (e.g. SPARQL, RDFa, etc.), sujet
que nous allons maintenant voquer.
Tag
semanticweb
semantic-web
semweb
websemantique
web-semantique
websemantica
web-semantica
websemantic
web-semantic
websemantico
web-semantico
websem
semaweb
http://delicious.com/tag/semanticweb
http://delicious.com/tag/semantic-web
http://delicious.com/tag/semweb
http://delicious.com/tag/websemantique
http://delicious.com/tag/web-semantique
http://delicious.com/tag/websemantica
http://delicious.com/tag/web-semantica
http://delicious.com/tag/websemantic
http://delicious.com/tag/web-semantic
http://delicious.com/tag/websemantico
http://delicious.com/tag/web-semantico
http://delicious.com/tag/websem
http://delicious.com/tag/semaweb
Bookmarks
151229
29369
19919
1646
1028
1693
1196
210
170
113
138
12
15
Tableau 2.5: Tags utiliss pour le concept de Web Smantique sur Delicious
27
65
Absence dorganisation
Une dernire limite associe ces pratiques de tagging est labsence dorganisation entre
tags. Une folksonomie nest en effet quun amas de mots-cls dsorganiss au sens o aucune relation nest explicitement dfinie entre les termes utiliss. Ainsi, bien quil puisse
exister une relation entre les concepts reprsents par diffrents tags, celle-ci nest prise en
compte aucun moment. Ces systmes ne sont ainsi pas capables didentifier la relation
qui existe entre les tags nergie des vagues et nergie marine (ou plutt entre les
concepts correspondants) et en consquence de prendre en compte cette relation au niveau
de la recherche dinformation et de la navigation. nouveau, cette absence dorganisation
est lie au manque de smantique qui existe dans des organisations comme les folksonomies.
Si certaines mthodes statistiques permettent de pallier ce manque dorganisation,
nous allons maintenant montrer en quoi celles-ci sont limites, notamment dans un contexte
o le niveau dexpertise des diffrents utilisateurs est relativement htrogne.
Approches de clustering et limites de celles-ci dans notre contexte
Pour pallier ces limitations, des mthodes classiques de clustering peuvent tre utilises afin didentifier des ensembles de tags proches ou similaires [Begelman et al., 2006]. En
se basant sur des stratgies de cooccurrence, on peut suggrer des tags partir dun tag
particulier afin denrichir les possibilits de recherche dinformation, comme le propose par
exemple Delicious avec une liste de related tags (Figure 2.7, page 66).
66
reto28 : un trs grand nombre de tags sont utiliss trs peu de fois. On voit par exemple
que 68% dentre eux sont utiliss au maximum deux fois, et seulement 10% plus de dix fois.
Comme tudi par [Hayes et al., 2007], ce type de distribution rend difficile lapplication des
mthodes de clustering, moins de combiner celles-ci avec dautres techniques, par exemple
prendre en compte le contenu associ aux tags.
Frquence d'utilisation
10000
1000
100
10
1
1
10
100
1000
Nombre de tags
Frquence
f
1
2
3
4
5
6
7
8
9
10
Nombre
de tags
6643
1787
857
501
334
288
189
166
102
114
f fois
54.2
14.58
6.99
4.09
2.72
2.35
1.54
1.35
0.83
0.93
Pourcentage utilis
f fois ou moins f + 1 fois ou plus
54.2
45.8
68.78
31.22
75.77
24.23
79.86
20.14
82.58
17.42
84.93
15.07
86.47
13.53
87.83
12.17
88.66
11.34
89.59
10.41
Egalement connue dans le monde Web 2.0 sous lappellation de long tail. http://www.wired.com/
wired/archive/12.10/tail.html
67
les experts en nergie solaire utilisent des tags tels que TF29 , alors que les non-experts vont
utiliser des termes gnriques comme solaire. Un problme particulier associ ces diffrentes manires dannoter les contenus est que les experts nutilisent pas toujours les termes
gnriques, car vidents ou trop spcifiques pour eux. Il existe en effet une diffrence du niveau de base (basic level) pour un domaine donn entre experts et non-experts, comme lont
soulign [Tanaka et Taylor, 1991], celle-ci se ressentant dans les principes dannotation par
tags. ce sujet, [Golder et Huberman, 2006] ont dailleurs remarqu des comportements similaires au sein de Delicious. Dun point de vue de la distribution des tags associs et de
leur cooccurrence, ceci conduit un lien trs faible entre le tag gnrique et les diffrents
tags spcifiques associs. Nous avons ainsi constat que seulement 1% des 194 billets tagus TF taient galement taggus solaire, alors que moins de 0.5% des 704 billets tagus
solaire le sont avec TF. Ce faible rapport de cooccurrence rend nouveau les algorithmes
de clustering difficilement applicables pour identifier une similarit entre ces tags, comme
lont montr [Begelman et al., 2006]. En effet, la rapport entre tags est trop faible pour tre
pris en compte par de tels algorithmes, moins de diminuer leur seuil dacceptation, les
rendant peu pertinents puisque suggrant alors un nombre de tags beaucoup trop lev. En
consquence, les systmes ne seront pas capable didentifier certains tags comme proches
bien quil soit vident quil existe un lien fort entre les concepts associs. Ceci complexifie
dautant plus la recherche de contenus annots ds lors que lutilisateur nexplicite pas le
tag exact.
2.2.4
Nous pouvons ainsi synthtiser les diffrents problmes rencontrs par rapport la vision de lEntreprise 2.0 dfinie par SLATES de la manire suivante (Tableau 2.7, page 68) :
Rgle
Search
Link
Authoring
Tags
Extension
Signals
Problme
Pas de prise en compte des problmes dambigut et dhtrognit,
information fragmente, difficult didentifier les sources
Production de lien hypertextes entre documents et non pas de relations
types entre les concepts quils reprsentent
Production de documents et non pas des concepts associs
Ambigut, htrognit et absence dorganisation
Extension possible uniquement sur des mthodes statistiques ou de cooccurrences, limites pour les raisons voques plus haut
Difficult de suivi de linformation du labondance de nouvelles issues
de flux RSS
Tableau 2.7: Problmatiques soulevs par lapproche SLATES classique au sein dHerms
Si les limites mentionnes sappliquent chacun des outils pris individuellement sur
le Web (blogs, wikis ou agrgateur RSS), elles sont dautant plus problmatiques dans un
contexte dentreprise. En effet, un accs efficace linformation est un prrequis dans un
29
68
environnement tel que celui-ci. Les limites voques sont ainsi particulirement problmatiques, dans le sens o lutilisation de ces outils accentue la publication et le partage dinformations de valeur, mais ne permet pas de les identifier et les rutiliser de manire optimale. Il nous semble ainsi que lanalyse de [Mathes, 2004] au sujet des systmes de tags peut
sappliquer lensemble des applications Web 2.0. On peut considrer que si les outils classiques de lEntreprise 2.0 facilitent la publication dinformation, la recherche peut savrer
au contraire trs complexe. A nouveau, cette complexit est proportionnelle au nombre de
documents crs et doutils utiliss.
2.3
2.3.1
Ontologies
Annotations smantiques
et ontologies
Energie
Entreprise
produit
situ en
Pays
est une
EDF
est un
situ en
France
a pour sujet
fait partie de
a pour auteur
AP
Indexation
smantique
Meta-donnes
socio-structurelles
Page wiki 2
a un lien vers
Billet 2
Peuplement
d'ontologies
Wiki A
hyperlien
Billet 2
cre
Page wiki 2
contient
a pour tag
EDF
Wiki A
Figure 2.9: Annotations smantiques en support dun systme dEntreprise 2.0 existant selon
trois niveaux dannotations
Link
Authoring
SLATES
Recherche plein-texte et/ou par
tags
Liens entre documents
Publication de contenus
Tags
Extension
Signals
Rgle
Search
SemSLATES
Recherche smantique, i.e. par
concepts
Relations types entre concepts
Publication dannotations smantiques
Indexation smantique avec des
ontologies de domaine
Extension par parcours du graphe
de connaissances induit par les annotations
Indexation smantique de flux RSS
et cration de flux ddis
70
La pratique nous ayant montr que la simplicit des diffrents outils contribuait leur
russite, conserver celle-ci est un prrequis la russite de notre proposition ;
le rle central jou par lutilisateur final, par extension du point prcdent. Les diffrentes annotations sont en effet le produit de la participation volontaire des utilisateurs ces outils et plus gnralement des interactions sociales qui en dcoulent. Le
rle de ces utilisateurs est en ralit double, puisque (1) dune part notre systme permet la reprsentation des actions utilisateurs (mtadonnes socio-structurelles) et que
(2) dautre part les diffrentes annotations produites (pour le peuplement dontologies
et lindexation smantique) sont le fait de ces interactions sociales.
2.3.2
Limplmentation de lcosystme prcdent se traduit par la mise en place dune architecture de mdiation en complment du systme dinformation initial, permettant dinterconnecter et denrichir les diffrentes dorigine [Passant, 2008a] [Passant et al., 2009c].
[Rousset et al., 2002] donne la dfinition suivante dun mdiateur : "Un mdiateur joue un
rle dinterface de requtes entre un utilisateur et des sources de donnes. Il donne lutilisateur lillusion dinterroger un systme homogne et centralis en lui vitant davoir trouver les sources de donnes pertinentes pour sa requte, de les interroger une une, et de combiner lui-mme les informations
obtenues". Sil sagit bien dun prrequis aux objectifs que nous visons, notre implmentation
diffre quelque peu de cette dfinition classique de mdiation [Wiederhold, 1992]. Comme
[Rousset et al., 2002] le prcise, les architectures de mdiation ont gnralement pour objectif de proposer des mthodes pour unifier les requtes au dessus de sources de donnes
htrognes et rparties. Ceci seffectue via un systme de distribution des requtes puis de
recomposition des rsultats partir de vues proposes par les outils sources. loppos,
notre approche consiste non pas dcomposer les requtes pour interroger les diffrentes
sources de donnes mais au contraire modliser les sources selon un ensemble dontologies prdfinies en fonction dannotations RDF associes. Ces graphes dannotations sont
ensuite immdiatement stocks au sein dun entrept de donnes associ au mdiateur, faisant de notre approche un modle hybride entre les systmes de mdiation et les datawarehouse la manire de Xylme [Xyleme, 2001]. Nous discuterons ce choix architectural en
dtail dans la suite du mmoire (Section 5.1, page 188), motiv essentiellement pour des raisons de performance devant le besoin rel de fournir aux utilisateurs des rponses rapides
leurs requtes. Notons que nous emploierons par la suite simplement le terme darchitecture
de mdiation pour dfinir notre proposition, et considrons le systme de stockage comme
faisant partie intgrante de celle-ci. Malgr cette structure hybride, notre systme conserve
les diffrents niveaux dune architecture de mdiation, savoir :
des sources de donnes, i.e. les diffrents outils du systme dorigine auxquels viennent
se greffer diffrents adaptateurs, plug-ins permettant la production aise dannotations
smantiques partir de ceux-ci ;
un mdiateur intgrant (1) les donnes RDF produites par ces diffrents adaptateurs et
(2) les ontologies utilises pour modliser ces donnes, intgrant donc le systme de
stockage voqu auparavant ;
des services additionnels venant sy greffer et permettant lutilisateur deffectuer dif71
(2.1)
O = {Om(SI) } {Od(SI) }
(2.2)
(2.3)
o
Om(SI) est un ensemble dontologies relatives la reprsentation des mtadonnes
socio-structurelles du SI ;
Od(SI) est un ensemble dontologies relatives la reprsentation des donnes mtier
voques dans les diffrents contenus du SI ;
Gm(SI) est un ensemble de graphes dannotations RDF (Section 1.1.2, page 16) modlisant les mtadonnes socio-structurelles du SI ;
Gd(SI) est un ensemble de graphes dannotations RDF modlisant des donnes mtier
prsentes dans les documents du systme dinformation, i.e. annotations relatives au
peuplement dontologies ;
Gd(W ) est un ensemble de graphes dannotations RDF issus du Web et modlisant essentiellement des donnes mtier, pouvant provenir notamment des efforts du projet
Linking Open Data (Section 1.1.4, page 27).
Le mdiateur est donc aliment (Input(M )) par un ensemble dontologies (prdfinies)
et de graphes dannotations smantiques reposant sur celles-ci (crs depuis les diffrents
adaptateurs). Comme nous lavons voqu dans la section prcdente, ces annotations peuvent
avoir plusieurs rles : mtadonnes socio-structurelles, peuplement dontologies et indexation smantique mais sont toujours cres via les diffrents outils dorigines et adaptateurs
associs (hormis celles issues des graphes Gd(W ) , provenant du Web). Par exemple, comme
nous allons maintenant le voir, des graphes dannotations du type Gm(SI) vont tre produits partir dinteractions sur les blogs alors que les wikis vont permettre le peuplement
dinstances dontologies de domaine et en consquence la production dannotations du type
Gd(SI) . Notons par ailleurs, pour des raisons de suivi de linformation et de traabilit de
celle-ci au sein du mdiateur que nous dtaillerons quand nous aborderons les wikis smantiques (Section 4.2.1, page 148), les graphes dannotations mtier issus des outils internes
sont lis aux graphes de mtadonnes socio-structurelles et ne peuvent sintgrer seuls au
mdiateur.
2.3.3
les liens entre ces diffrents composants permettant de prendre en compte la composante sociale voque ci-dessus.
Cest en raison de cette combinaison entre activits sociales et structures des diffrents outils et documents que nous utilisons lappellation de mtadonnes socio-structurelles. De
tels modles ({Om(SI) }) vont ainsi venir en support de la production des graphes dannotations associes ({Gm(SI) }) permettant de rsoudre en partie le problme dhtrognit des
sources dinformation (Section 2.2.1, page 62). Cette smantique commune permet terme
dinterroger les outils de manire unifie, rduisant la problmatique de fragmentation.
Pour satisfaire ces diffrents besoins, nous avons particip la dfinition de lontologie SIOC Semantically-Interlinked Online Communities [Breslin et al., 2005] que nous
dtaillerons par la suite (Section 3.1, page 84). SIOC offre un modle destin la reprsentation des activits des communauts en ligne via une ontologie lgre et modulaire . Ce
modle se compose dun noyau et de diffrents modules dont un module Types permettant
de dfinir de manire assez fine les diffrents objets manipuls dans le contexte du Web 2.0
(blog et billets, wiki et pages wiki...). SIOC rutilise galement des vocabulaires existants et
populaires (DublinCore, FOAF ...) pour dfinir certaines proprits, vitant ainsi de redfinir des besoins dj satisfaits par des modles existants. La production de donnes RDF
modlises avec SIOC se fait de manire automatique depuis les diffrents outils mis en
place dans le systme dinformation dorigine. Par le biais de diffrents adaptateurs, sous
la forme dexporteurs ou de traducteurs, ces mtadonnes sont ainsi produites sans aucune
intervention utilisateur, de manire totalement transparente. Nous dtaillerons dans les chapitres qui suivent les diffrents outils ncessaires pour permettre cette traduction dans notre
contexte mais aussi de manire gnrale sur le Web (Section 4, page 137). SIOC est en effet
aujourdhui utilis et recommand dans un grand nombre de services combinant principes
du Web Smantique et du Web 2.0.
La figure suivante illustre la modlisation uniforme de diffrentes sources de donnes
htrognes grce SIOC (Figure 2.11, page 75). Elle montre ainsi lintrt dune smantique commune, les instances des classes reprsentant les documents hritant toutes de
sioc:Item et utilisant la mme proprit sioc:has_container pour les rattacher leur
conteneur. On obtient ainsi un modle homogne, tout en conservant la spcificit de chacun des contenus grce lutilisation du module Types. Cette unification se traduit par un
ensemble dannotations RDF similaires quelque soit loutil dorigine et permet donc lutilisation de requtes SPARQL uniformes. Le systme bnficie ainsi dun premier niveau
de smantique commune pour notre architecture de mdiation, permettant par exemple
didentifier tous les contenus crs il y a plus de dix jours et ce quelque soit loutil dorigine.
Capitalisation des connaissances et peuplement dontologies
Alors que le point prcdent sintresse essentiellement la structure des diffrents outils, notre second besoin concerne le contenu mme des documents, dans un objectif de
capitalisation des connaissances. Cest ici quintervient le second niveau de smantique ncessaire notre architecture, comprenant un ensemble dontologies de domaine ({Od(SI) })
et les graphes dannotations associs ({Gd(SI) }). Comme nous lavons voqu, la mthodologie SemSLATES repose fortement sur le rle des utilisateurs dans ce contexte de mdiation
74
rdf:type
:item_1
sioct:NewsItem
Flux RSS aux
formats divers
:billet_1
rdfs:subClassOf
sioc:Item
rdf:type
rdfs:subClassOf
sioct:BlogPost
Modle de donnes
pour les blogs
rdfs:subClassOf
rdf:type
sioct:WikiArticle
:article_1
Modle de donnes
pour les wikis
Modles
distincts
Exports ou
traduction
Smantique commune
Les ontologies utilises dans cet exemple seront dtailles par la suite.
75
Alors que nous reviendrons dans les chapitres suivants sur des aspects particuliers de
nos travaux et leur situation par rapport ltat de lart (SIOC, MOAT, UfoWiki), il nous
semble pertinent de positionner lapproche SemSLATES dans son ensemble.
31
32
http://doapstore.org
http://geonames.org
77
Nous pouvons tout dabord situer celui-ci par rapport aux architectures de mdiation
bases sur les principes du Web Smantique. [Wiederhold, 1992] justifie le besoin darchitectures de mdiation en raison de la surcharge dinformation, problme que nous avons
galement expos dans ce chapitre33 : "Without smart software we will gain access to more data
but not improve access to the type and quality of information needed for decision making". En proposant des formats de structuration et dchange de donnes standardiss avec RDF(S)/OWL,
les technologies du Web Smantique sont particulirement adaptes pour la mise en place
de tels systmes de mdiation et de gestion de linformation reposant sur des ontologies. De
nombreux travaux ont ainsi t proposs dans cette direction, parmi lesquels :
PICSEL [Rousset et al., 2002] qui sattache notamment lintgration de sources de
donnes dans le domaine du tourisme. Il repose sur lutilisation de diffrentes ontologies (modlises en CARIN-ALN ) pour permettre lintgration de sources de donnes
distribues et htrognes de manire transparente pour lutilisateur ;
Ontobroker [Decker et al., 1999], lun des premiers systmes dintgration de donnes
reposant sur des principes prcurseurs au Web Smantique. Celui-ci est aujourdhui
commercialis par la socit Ontoprise34 et repose sur les formalismes RDF(S)/OWL
mais aussi F logic). Il sintresse particulirement lintgration de de bases de
donnes et dispose dadaptateurs pour les principales solutions du march ;
SCORE Semantic Content Organization and Retrieval Engine [Sheth et al., 2002] qui
sintresse galement lintgration de sources de donnes htrognes laide dontologies. Dans cette approche, la phase dextraction de connaissances et leur normalisation depuis les diffrentes sources de donnes joue un rle majeur pour permettre
la mise en place de nouveaux services, notamment en termes de recherche dinformation.
Plus proche de nos travaux, [Maedche et al., 2003] proposent galement une vision des
systmes de gestion de connaissances en entreprise bass sur des ontologies avec OMKS
Ontology-based Knowledge Management System. Leur proposition de concentre notamment sur
lintgration et lalignement de diffrentes sources de donnes internes (bases de donnes,
annuaires ...) via un systme central de mdiation. Plus particulirement, une caractristique
de cette approche est la notion dalignement entre diffrentes ontologies locales au sein du
systme de mdiation. Les diffrents cas dutilisation du Web Smantique en entreprise recenss par le W3C35 regroupent galement de nombreux scnarios de mdiation reposant
sur ces technologies. On les trouve ainsi utilises pour lidentification de profils dexperts
la NASA36 ou la gestion de donnes biomdicales chez Eli Lilly37 . Enfin, si notre approche
se concentre sur lutilisation des technologies du Web Smantique pour le bnfice de lutilisateur final, ces techniques de mdiation peuvent galement tre utilises pour faciliter
les changes directs entre applications dans un processus dintgration dapplications dentreprises ou EAI Enterprise Architecture Integration. Cest par exemple ce que proposent
33
Il est par ailleurs intressant de constater que cette problmatique datant dune quinzaine dannes est
toujours prsente et sest mme accentue avec lexplosion du Web et des modes de publications Web 2.0.
34
http://ontoprise.de
http://www.w3.org/2001/sw/sweo/
36
http://www.w3.org/2001/sw/sweo/public/UseCases/Nasa/
37
http://www.w3.org/2001/sw/sweo/public/UseCases/Lilly/
35
78
[Anicic et al., 2006] avec lutilisation dontologies OWL et de scripts dedis permettant daligner les entres et sorties XML de diffrentes applications selon des modles communs.
Cependant, ces approches ne prennent gnralement pas en compte les notions dutilisateurs et dinteractions sociales dans ces processus de mdiation, se focalisant essentiellement sur des donnes mtier provenant de bases de connaissances figes (annuaires, fonds
documentaires, etc.). Cest selon nous une des originalits de notre approche, le rle de lutilisateur tant pris en compte de deux manires :
dune part travers la prise en compte des interactions sociales auxquelles il participe avec la reprsentation en RDF de mtadonnes socio-structurelles associes aux
diffrents outils et documents crs. Le rle de lutilisateur est ainsi pris en compte
en termes de comportements sociaux et dannotations documentaires, principalement
via les modles SIOC et MOAT ;
dautre part, son rle en tant quacteur principal du peuplement dontologie, via lutilisation de wikis smantiques. Alors que les approches classiques de mdiation se
basent gnralement sur des ontologies peuples par un nombre restreint dutilisateurs ou reposant sur des bases de connaissances prdfinies, les ontologies sont ici
peuples par les utilisateurs eux-mmes, les bases de connaissances voluant ainsi en
fonction de leurs comportements.
Cest en ce sens que nous pouvons qualifier notre approche de systme de mdiation sociale, lutilisateur final ayant un rle important selon deux points de vue, distincts mais non
disjoints, dans la mise en place de cet cosystme informationnel.
Bien que non ax sur une mdiation de donnes Web, il nous parait galement important
de mentionner ici linitiative du Semantic Desktop, notamment au travers du projet Nepomuk38 [Bernardi et al., 2008]. Celui-ci vise proposer un systme de mdiation pour le poste
de travail, permettant une interoprabilit entre diffrentes applications (carnet dadresses,
outils bureautique, client e-mail, etc.) via lutilisation dontologies communes et de systmes
dextraction dinformation combine lannotation manuelle de documents par les utilisateurs. En tablissant ainsi une smantique commune entre les donnes produites par ces
diffrents outils, qui peut tre couple certaines interactions sociales (et les reprsentations RDF associes), cette approche propose ainsi une ide similaire la ntre, au niveau
du poste de travail et non pas dun systme dinformation dentreprise.
En terme plus gnral darchitecture et puisque nous ne nous basons pas sur un systme
de vues et de requtes distribues mais sur lannotation smantique de sources existantes,
le modle que nous proposons se rapproche de ce que dfinit [Berners-Lee, 2005a] avec la
notion de RDF Bus (Figure 2.12, page 80). Cette solution propose la mise en place dune
couche additionnelle de smantique au dessus doutils htrognes sans pour autant repenser ceux-ci mais via de simples ajouts traduisant les donnes source en RDF (en utilisant des
modles communs pour leur reprsentation) pour ensuite utiliser celles-ci avec SPARQL.
Une autre catgorie considrer dans cet tat de lart est celle des solutions combinant principes du Web 2.0 et du Web Smantique pour les systmes dinformation dentreprise. Bien que non ddi spcifiquement aux contextes dentreprise mais plus gnralement toute communaut en ligne, Openlink DataSpaces [Idehen et Erling, 2008] propose
38
http://nepomuk.semanticdesktop.org/
79
une plate-forme combinant notamment blogs, wikis et systmes de favoris. Ce systme bnficie de certains de nos travaux, puisquil intgre notamment SIOC et MOAT en son sein
pour proposer cette architecture smantique intgre. Nous pouvons galement citer Talis
Engage39 , plate-forme collaborative base sur un certain nombre dontologies, dont nouveau SIOC. Plus particulirement ddi aux structures dentreprise, notamment les PME, citons enfin le rcent projet Europen Organik40 [Bibikas et al., 2008]. Celui-ci vise galement
tendre la vision de lEntreprise 2.0 propose par SLATES : annotation par concepts, recherche smantique, etc. Il semble cependant (dans ltat actuel) ne pas prendre en compte
le rle de lutilisateur pour le peuplement dontologies : contrairement la vision que nous
dfendons avec lutilisation de wikis smantiques pour permettre ce peuplement dontologies par lutilisateur, lobjectif est ici dextraire ce type dannotations avec des algorithmes
ddis.
Les approches pr-cites se basant sur des systmes monolithiques, leur introduction
dans un systme dj en place peut alors se rvler dlicate. Bien quune migration des
donnes existantes vers ce type de plate-forme soit envisageable, il faut garder lesprit
le temps ncessaire ladoption de tels systmes par les utilisateurs, comme nous lavons
voqu plus tt dans ce chapitre (Section 2.1.4, page 59). Ainsi, basculer vers de nouveaux
outils est un risque quil est ncessaire dvaluer, notamment dans des contextes o, comme
nous lavons vu, lappropriation de tels outils collaboratifs et des principes associs peut
prendre du temps.
Enfin, nous pouvons galement citer les travaux autour de CoMMA, systme galement
ax sur la notion dcosystme smantique pour lentreprise mais reposant sur une approche
diffrente pour parvenir cet objectif, i.e. sur un systme multi-agents [Gandon, 2002]. Celui39
40
80
http://talis.com/engage
http://www.organik-project.eu/
ci nous semble pertinent dans la manire o, bien que la prise en compte de lutilisateur ne
soit pas assure (du moins en termes dinteractions sociales) au niveau de la production
dinformations, celui-ci est pris en compte au moment de la diffusion de celle-ci. Les informations publies au sein de cette mmoire smantique dentreprise sont en effet diffuses
vers les utilisateurs en fonction des centres dintrts de chacun, centres dintrts dfinis
via des profils utilisateurs.
C ONCLUSION
Dans ce chapitre, nous avons tout dabord introduit la notion dEntreprise 2.0, notamment au travers du projet Athna et de la plate-forme Herms, mise en place au sein dEDF
R&D pour faciliter les changes dinformation entre ingnieurs et chercheurs. Nous avons
prsent en quoi cette plate-forme rpondait au paradigme SLATES mais restait limite sur
certains points. Nous avons ainsi introduit diffrents problmes soulevs par les outils Web
2.0 classiques, savoir lhtrognit des modles, labsence de connaissances interprtables de manire autonome, et les cueils des systmes base de tags. Nous avons ensuite
prsent en quoi il nous paraissait intressant daller plus loin via lutilisation dune couche
dabstraction base sur les technologies du Web Smantique et la mise en place dune architecture de mdiation au dessus de ces diffrents outils avec le paradigme SemSLATES.
Les chapitres suivants dtailleront les trois points principaux de notre approche, savoir la
dfinition des ontologies utilises au sein de cette architecture, le fonctionnement de chacun
des adaptateurs permettant la production de donnes homognes et interprtables et enfin
lutilisation que nous faisons de ces donnes via diffrents services qui viennent se greffer
au mdiateur.
Notons pour finir que si notre approche est ici prsente dans un contexte fortement
orient entreprise, elle peut sappliquer selon nous toute communaut en ligne utilisant
un ensemble doutils Web 2.0 et souhaitant aller au-del des fonctionnalits proposes traditionnellement par ceux-ci. Ainsi, cette vision SemSLATES nous semble aller plus loin que
le contexte dEntreprise 2.0 au sens o elle peut sadapter tout cosystme social dutilisateurs et doutils centr autour dintrts communs. De plus, via lutilisation de modles
et dURIs communs, il est galement possible denvisager une complmentarit entre diffrentes communauts de ce type pour parvenir un Web de donnes interconnects o
chaque lment contribue un cosystme gnral de la connaissance [Passant et al., 2009d].
81
Chapitre 3
Comme nous lavons dj mentionn dans ce mmoire, les changes dinformations sur
le Web et en entreprise sont gnralement centrs autour dobjets particuliers (Section 1.2.3,
page 42). Or, la diversit des services proposs (blogs, wikis, agrgateurs RSS, services de
partage de contenus ...) introduit gnralement une fragmentation des informations et des
documents crs au sujet de ces objets. Par exemple, les informations relatives un artiste
particulier peuvent tre rparties entre une ventuelle biographie sur Wikipedia, un profil
sur Last.fm, des photos de concerts sur Flickr ou bien encore des billets de blogs distribus
au sein de la blogosphre. En entreprise, le problme est sensiblement le mme. Si lon prend
un projet particulier, il est fort probable que sa description soit publie sur un wiki mais que
des comptes-rendus de runion soient posts sur diffrents blogs ou bien encore que les flux
RSS contiennent des informations importantes sur les diffrents partenaires du projet. On
peut mme imaginer lutilisation de canaux de messagerie instantane ou de microblogging
pour communiquer plus agilement au sujet de certains aspects du projet, fragmentant encore un peu plus les informations son sujet. En consquence, que cela soit sur le Web ou
dans un contexte dEntreprise 2.0, cette fragmentation de services complexifie la recherche
dinformation (Section 2.2.1, page 62). Il est en effet ncessaire dinterroger diverses sources
de donnes pour obtenir une vue globale au sujet dun objet ou dun domaine particulier.
84
http://www.w3.org/Submission/2007/02/
85
Figure 3.1: Intgration de donnes htrognes rparties avec SIOC [Bojars et al., 2006]
3.1.2
Un des premiers modles qui vient lesprit lorsque lon parle de reprsentation uniforme de documents provenant doutils sociaux est gnralement RSS (Section 1.2.2, page
37). Celui-ci offre en effet un modle commun pour la syndication de donnes, et dispose
dune version RDF2 qui permet denvisager son utilisation dans le contexte du Web Smantique. Il souffre cependant de certaines limites :
RSS reprsente les items (billets de blogs, pages wiki ...) mais ne permet pas de reprsenter les autres donnes relatives la plate-forme. Ainsi, on nexporte ni la description du site associ, ni les utilisateurs et les interactions sociales associes. Nous
sommes donc ici dans un contexte de modlisation de mtadonnes essentiellement
documentaires plutt que structurelles et socio-structurelles. De plus il nest pas possible de faire la distinction entre les types de documents exports (pour distinguer
par exemple un billet de blog dune page wiki), RSS modlisant uniquement la notion
dlment au sens large ;
il sagit dun format de syndication et non dexport. En ce sens, il est possible de suivre
en continu les mises jour dun site mais pas dexporter lensemble des contenus publis sur un site depuis sa cration. On ne peut donc pas disposer dun historique
complet dune application en utilisant RSS, moins davoir mis en place un tel export
ds le dbut, et conserv les diffrents flux exports ;
si RSS 1.0 est un format RDF et peut donc tre tendu avec dautres vocabulaires
pour par exemple affiner les types dlments publis , il nest malheureusement pas
2
86
http://web.resource.org/rss/1.0/
majoritaire en termes de prsence sur le Web, et la plupart des lecteurs RSS ne savent
interprter que son modle de base, et non pas ses ventuelles extensions. On peut
cependant nuancer ce point partir du moment o il sagit plus dun problme dimplmentation que thorique. Ceci met cependant en avant un problme dadoption
des technologies du Web Smantique grande chelle, tel que nous lavons voqu au
dbut de ce mmoire (Section 1.1.4, page 27).
Hormis RSS, de nombreux travaux ont eu lieu plus spcifiquement autour de la modlisation des donnes de blogs, recenss pour la plupart dans un premier tat de lart sur le
sujet [Cayzer, 2006]. [Cayzer et Shabajee, 2003] ont ainsi dfini une premire ide du semantic blogging en envisageant deux facteurs permettant daugmenter le potentiel des outils de
blogs grce aux technologies du Web Smantique savoir (1) une structure riche (aussi bien
au niveau des mtadonnes des billets que de leurs thmatiques avec des ontologies partages) et (2) des requtes plus puissantes (en termes de souscription, de dcouverte et de
navigation de contenu). [Cayzer, 2004] revient plus tard sur ces propositions en dfinissant
cette fois trois ides, auxquelles par ailleurs SIOC et les diffrentes applications utilisant ce
modle permettent daboutir :
la vue, i.e. lutilisation des mtadonnes des diffrents billets pour enrichir les interfaces de visualisation et dagrgation ;
la navigation, i.e. lutilisation des mtadonnes pour faciliter la navigation, en fonction
par exemple dune thmatique donne ;
les requtes, i.e. lutilisation des mtadonnes pour rpondre des requtes avances,
par exemple lister les billets dune communaut donne.
Un premier outil mettant en pratique ces trois propositions est galement propos, le
Snippet manager [Cayzer et Castagna, 2005].
[Karger et Quan, 2004] dfinissent quant eux les implications de bloguer sur le Web Smantique. Ils prcisent notamment que les outils capables de produire des contenus structurs et interprtables doivent pouvoir le faire de manire autonome, sans intervention supplmentaire de lutilisateur. Nous reviendrons sur ce point dans le chapitre suivant en dtaillant la manire dont nous automatisons la production dannotations socio-structurelles
dans nos outils (Section 4.1, page 138). [Karger et Quan, 2004] proposent galement une architecture permettant de parvenir cet objectif. En se basant sur RSS, ils dfinissent :
dune part des possibilits de passer des diffrents formats RSS RSS 1.0 en utilisant
des feuilles de style XSLT. Cette ide de transformation de formats sera reprise plus
tard par des outils comme Triplr3 ou Babel4 ;
dautre part une ontologie tendant RSS avec la notion de rponse et de sujets partags
(via une classe Collection). Ce modle reprend sur certains points leurs travaux
prcdents relatifs la modlisation de messages en ligne (IRC ...) [Quan et al., 2003a].
Un prototype bas sur Haystack [Quan et al., 2003b] est galement prsent et montre de
quelle manire la smantique commune offre de nouvelles mthodes dagrgation et de
navigation entre billets de blog. Dans cet outil, les billets sont essentiellement considrs
comme des annotations au sujet dautres contenus Web. Ils bnficient ainsi en plus dun
3
4
http://triplr.org
http://simile.mit.edu/babel/
87
http://structuredblogging.org
http://structuredblogging.org/formats.php
7
http://microformats.org
8
http://musicbrainz.org
9
http://developer.berlios.de/forum/forum.php?forum_id=25510
6
88
approfondi lutilisation de SIOC pour prendre en compte certaines caractristiques particulires des wikis [Orlandi et Passant, 2009]. De plus, des outils comme SweetWiki ou IkeWiki
(Section 4.2.1, page 148) dfinissent galement leur propre format de reprsentation pour la
structure des wikis.
3.1.3
Classes et proprits
SIOC est une ontologie volontairement lgre (au sens des lightweight ontologies comme
dfini par [Gmez-Prez et Corcho, 2002]) de manire ce quelle puisse facilement tre
tendue selon les besoins de chacun. La cible vise par SIOC tant celle des communauts
Web 2.0 et notamment des dveloppeurs Web 2.0, nous avons souhait que le modle soit
suffisamment simple pour tre abord par tous, tout en tant suffisamment expressif pour
capter lensemble des activits des communauts en ligne. SIOC se compose dun noyau10
et de deux modules principaux : un module Types11 et un module Services12 , sa spcification complte tant disponible en ligne13 . Le noyau se compose de 11 classes14 , que lon
peut regrouper en deux parties : une premire consacre laspect social (comptes utilisateur), une seconde laspect structurel (contenus et conteneurs). Lensemble permet ainsi
de reprsenter la quasi-totalit des lments dune communaut en ligne. la frontire de
ces deux aspects se trouve justement la classe sioc:Community qui comme son nom lindique permet de reprsenter une communaut en ligne. Elle peut ainsi regrouper un certain
nombre dlments qui peuvent faire partie sans distinction des deux groupes prcdents.
Bien entendu, une communaut peut rassembler des lments provenant despaces distincts
sur le Web, et cest l un des objectifs de SIOC, savoir crer des passerelles entre diffrents
outils Web 2.0.
Afin de reprsenter les comptes utilisateurs et le ou les rles qui peuvent leur tre associs au sein de diffrents services, SIOC dfinit trois classes :
sioc:User un compte utilisateur sur un service en ligne, auquel vont tre rattachs
les diffrents contenus produits. Il sagit ici du compte au sens entit virtuelle et non
pas de la personne physique associe, celle-ci tant modlise avec FOAF (Section
3.1.4, page 93) ;
UserGroup un groupe dutilisateurs (sioc:User), runis (explicitement) car partageant par exemple des intrts ou des rles communs au sein dun service en ligne ;
Role le rle assign un utilisateur ou un groupe. Ce rle est typ (administrateur,
modrateur ...) et contextualis en fonction dun espace de communication donn (un
forum, un blog ...).
SIOC ne sattache pas modliser le contenu des documents mais uniquement certaines
de leurs mtadonnes. Trois classes principales (et diffrentes sous-classes associes) sont
proposes dans cette perspective de modlisation :
10
11
13
http://rdfs.org/sioc/spec/#sec-modules
14
89
Notons que pour reprsenter un contenu encod en HTML, nous suggrons avec SIOC lutilisation de la
proprit content du module RSS 1.0 du mme nom. http://purl.org/rss/1.0/modules/content/
16
Proprit inverse : sioc:has_container
17
18
http://www.sixapart.com/pronet/docs/trackback_spec
On peut cependant regretter que des choix de modlisation soient orients principalement en raison des
outils associs.
90
exemple via SKOS (Section 3.1.4, page 93) mais aussi de manire plus large toute ressource du Web Smantique ou instance dontologie du domaine avec MOAT (Section
3.3, page 119).
Le schma suivant (Figure 3.2, page 91) synthtise les diffrentes classes et proprits du
cur de SIOC.
peut ainsi tre utilis au sein dapplications bnficiant de capacits de raisonnement, tout
en sassurant que celles-ci peuvent seffectuer en un temps fini.
Les modules de SIOC
Comme nous lavons voqu prcdemment, la volontaire lgret de SIOC fait que certaines caractristiques des services Web 2.0 sont reprsentes au sein de modules additionnels et non pas directement dans le noyau de SIOC.
Le module Services19 permet ainsi de reprsenter la prsence (et lemplacement) de services Web associes des lments Web 2.0, par exemple lemplacement dune API ou dun
point daccs SPARQL. Il utilise pour cela une proprit siocs:has_service et une classe
siocs:Service ventuellement associs siocs:has_format pour reprsenter le format de celui-ci. Ce module est relativement lger et son objectif est de fournir un moyen
simple de modliser des services Web et APIs Web 2.0 sans saventurer dans des descriptions plus complexes avec des modles comme WSDL [Christensen et al., 2001] ou WSMO
[Vitvar et al., 2008]. Nous ninsisterons pas plus sur ce module, ne layant pas mis en pratique dans nos travaux. Il peut cependant tre utile partir du moment o des services Web
2.0 exposent leurs donnes via SPARQL.
Le second module de SIOC est le module Types20 qui dfinit un certain nombre de conteneurs et ditems venant sous-classer sioc:Container (ou plus prcisment sioc:Forum)
et sioc:Item (ou sioc:Post). Ceci permet de typer plus finement les documents gnrs
par des services Web 2.0 afin de prendre en compte la spcificit de certains dentre eux. Par
exemple, on peut laide de ce module formellement diffrencier un blog (sioct:Blog)
dune liste de diffusion (sioct:MailingList), et une page wiki (sioct:WikiArticle)
dun message de microblogging (sioct:MicroblogPost). De plus, le fait de dfinir ces diffrents types comme sous-classes de sioc:Container et sioc:Item, coupl aux principes
dinfrence associs ces hirarchies de classes (Section 1.1.2, page 21), permet au travers
dune requte telle que "Lister les instances de sioc :Item" didentifier des instances qui nont
pas t dfinies directement en tant que sioc:Item mais comme instances dune des sousclasses proposes par le module. Ce module Types dfinit ainsi une vingtaine de classes
19
20
92
http://rdfs.org/sioc/services
http://rdfs.org/sioc/types
distinctes dont certaines sont de plus alignes avec des vocabulaires existants. Le tableau
suivant (Tableau 3.1, page 93) reprsente ainsi un ensemble de sous-classes de Container
et les ventuelles classes Item associes, ainsi que dans certains cas les alignements avec des
modles existants, tels que dfini dans ce module.
Conteneur
Item
sioct:AudioChannel
sioct:BookmarkFolder
sioct:ImageGalery
sioct:MailingList
sioct:MessageBoard
sioct:Microblog
sioct:VideoChannel
sioct:Webglog
sioct:Wiki
dcmitype:Sound
bookmark:Bookmark
exif:IFD
sioct:MailMessage
sioct:BoardPost
sioct:MicroblogPost
dcmitype:MovingImage
sioct:BlogPost
sioct:WikiArticle
Listing 3.3: Exemple de billet de blog avec SIOC et son module Types
En permettant ainsi de typer finement les diffrents documents produits, ce module
est ainsi un lment essentiel de notre proposition dcosystme smantique, aussi bien en
termes de modlisation des contenus partir des diffrents adaptateurs (Section 4, page
137) que pour les requtes associes. En effet, comme nous le verrons par la suite, il permet
de bnficier dune smantique commune pour reprsenter les documents crs aussi bien
depuis les blogs, les wikis ou lagrgateur de flux RSS mis en place dans notre systme, tout
en offrant la possibilit de distinguer ceux-ci au moment des requtes.
3.1.4
Lors de la dfinition de SIOC, nous avons au maximum essay de rutiliser des vocabulaires existants et dj populaires sur le Web Smantique, soit en alignant les classes et pro93
FOAF
Si SIOC dfinit la notion dutilisateur dun service Web en tant quentit en ligne, il
ne sattache pas modliser la personne physique associe ce compte. Pour prendre en
compte cet aspect, SIOC se base ainsi sur le vocabulaire FOAF (Section 3.2.2, page 104). Nous
utilisons ainsi la proprit foaf:holdsAccount pour tablir un lien entre une personne
physique (en ralit une instance foaf:Agent) et son ou ses diffrents comptes en ligne
(sioc:User) et introduisons galement une proprit inverse sioc:account_of. Cette utilisation combine de SIOC et FOAF rend donc possible le rattachement dun ensemble de
comptes en ligne une mme personne physique (Figure 3.3, page 95). Ces comptes peuvent
bien entendu tre distribus sur le Web, cette complmentarit prenant alors tout son sens
pour modliser lensemble des activits sociales dune personne selon diffrents services
(Section 3.1.5, page 96).
Nous suggrons galement dans [Bojars et al., 2007a] lutilisation de foaf:maker pour
tablir directement un lien entre documents et personne physique, et non pas uniquement
via le couple sioc:has_creator / sioc:User qui permet dtablir un lien entre document et compte utilisateur. Cette relation directe entre un document et une personne peut
21
94
foaf:Person
sioc:User
rdf:type
rdf:type
:mySlideshare
:myTwitter
foaf:holdsAccount
:me
:myDelicious
Identit et
comptes en ligne
:myFlickr
Reprsentation
avec FOAF et SIOC
RSS 1.0
Comme nous lavons signal, SIOC rutilise la proprit encoded du module Content23
de RSS 1.0 en suggrant son utilisation pour reprsenter le contenu encod en (X)HTML
dune instance de sioc:Item, le contenu plein-texte tant lui reprsent avec sioc:content.
Notons galement quil est possible de manire assez simple de passer dun flux RSS une
modlisation SIOC comme nous le verrons en dtail dans le chapitre suivant (Section 4.1.2,
page 140).
SKOS
SIOC peut galement tre combin efficacement avec SKOS Simple Knowledge Organisation Schema [Miles et Bechhofer, 2008] dans un but dindexation smantique de contenus Web 2.0. Nous dtaillerons SKOS plus loin dans ce mmoire (Section 3.2.4, page 109)
23
http://web.resource.org/rss/1.0/modules/content/
95
Comme nous lavons voqu en dbut de ce chapitre, si lascension du Web 2.0 a contribu la publication spontane de donnes et de rseaux sociaux sur le Web, elle entrane
galement en contrepartie leur fragmentation. Les contributions sociales dun utilisateur
sont en effet souvent clates entre diffrents services agissant comme des lots dconnects, la communication et lchange de donnes ntant possibles qu lintrieur dune mme
plate-forme. Ainsi, linscription diffrents services Web 2.0 implique :
dune part la ncessit de rpliquer ses donnes si lon souhaite quelles soient disponibles sur chacun des outils utiliss ;
dautre part de dfinir son rseau social sur chaque application, mme si celui-ci a dj
t identifi sur un autre service.
Ce processus rptitif conduit ce que certains appellent la social network fatigue28 . Si cela
peut ne pas sembler problmatique premire vue, lanalogie avec lutilisation de le-mail
permet de prendre conscience de ces limites : qui accepterait aujourdhui de souscrire un
service o les e-mails ne peuvent tre envoys qu des utilisateurs du mme service ?
Ainsi, Brad Fitzpatrick dfinit mi-2007 sa vision dun graphe social distribu et ouvert29
en rponse cette problmatique. La charte A Bill of Rights for Users of the Social Web30 insiste quelque temps plus tard sur la notion de proprit relative aux donnes issues de ces
diffrents sites. Alors que les conditions dutilisation de la plupart dentre eux stipulent que
celles-ci appartiennent aux dits sites, cette charte dfend la notion de proprit par leur
24
http://www.wasab.dk/morten/blog/archives/2004/09/01/skos-output-from-wordpress
http://www.w3.org/2004/02/skos/core.rdf
26
http://www.w3.org/2008/05/skos
27
http://www.w3.org/2004/02/skos/vocabs
28
http://factoryjoe.com/blog/2007/09/20/stop-building-social-networks/
29
http://bradfitz.com/social-graph-problem/
30
http://opensocialweb.org/2007/09/05/bill-of-rights/
25
96
auteur, i.e. lutilisateur, afin den faire lusage quil souhaite. Lance plus rcemment, linitiative DataPortability31 sinscrit galement dans ce but dchange transparent de donnes
et de rseaux sociaux entre applications. En complment de ces efforts communautaires, des
solutions propritaires ont t proposes pour rsoudre cette problmatique (Google OpenSocial32 , Facebook Connect33 ...). Leur acceptation dpend cependant de notions politiques
et conomiques entre les diffrents acteurs de services de rseaux sociaux. Nous pensons
que le Web Smantique, notamment travers SIOC et FOAF, permet de rpondre cette
problmatique dinteroprabilit entre donnes sociales de manire ouverte et qui plus est
en se basant sur des formats et protocoles standards [Bojars et al., 2008a].
Tout dabord, concernant les donnes, SIOC permet une modlisation uniforme des contenus quelque soit loutil dorigine. Ainsi les contributions sociales dun utilisateur, bien que
produites via des outils distincts et distribus, sont unifies au niveau de leur reprsentation
sur le Web Smantique. Cette smantique commune permet en consquence de standardiser
les requtes associes (avec SPARQL) mais surtout de faciliter les changes de donnes entre
services bass sur le mme modle. Pour exemplifier cette possibilit, un premier prototype
dimport SIOC a t dvelopp pour le systme de blog WordPress34 .
Alors que SIOC permet de rsoudre ce problme de portabilit et dinteroprabilit pour
les donnes issues doutils Web 2.0, un autre aspect important concerne les rseaux sociaux
modliss depuis ces applications. Ici, FOAF a un rle important jouer en tant que modle de rfrence pour reprsenter lidentit personnelle et les rseaux daccointance sur le
Web Smantique. Tout comme pour les contenus, le passage un niveau de modlisation
uniforme pour la reprsentation de ces rseaux permet de proposer une interoprabilit
entre diffrentes applications. Diffrents exporteurs FOAF pour des services grand public
(par exemple pour Flickr [Passant, 2008b]) permettent dj de bnficier de cette smantique
commune et des avantages quelle procure. Ainsi, en couplant cette notion de rseau social
avec FOAF aux contenus modliss avec SIOC, il est possible de reprsenter uniformment
via un unique graphe RDF lensemble des contributions sociales et des accointances dun
individu au sein de diffrentes plates-formes (Figure 3.4, page 98).
Malgr tout, un problme dunification didentit se pose avec lutilisation des exporteurs FOAF mentionns prcdemment. Ceux-ci redfinissent en effet chacun une URI particulire pour lindividu modlis. Brutes, ces donnes ne permettent donc pas didentifier
quune personne prsente sur Flickr (identifie par exemple par lURI http://apassant.
net/home/2007/12/flickrdf/people/33669349@N00) est la mme que telle autre sur
Last.fm (http://dbtune.org/last-fm/terraces). Il est donc ncessaire dunifier ces reprsentations de manire explicite ou implicite :
explicitement, une bonne pratique consiste en lutilisation des principes didentit OWL
reposant sur la proprit owl:sameAs. Dfinir une relation de ce type entre deux instances de foaf:Person va ainsi permettre un raisonneur dtablir que les deux
URIs, bien que distinctes, identifient la mme ressource, en loccurrence la mme per31
http://dataportability.org
http://code.google.com/apis/opensocial/
33
http://developers.facebook.com/fbconnect.php
34
http://wiki.sioc-project.org/w/SIOC_Import_Plugin
32
97
Figure 3.4: Interoprabilit entre donnes sociales avec SIOC et FOAF [Bojars et al., 2008b]
sonne physique ;
implicitement, et toujours en utilisant les possibilits de raisonnement offertes par le
Web Smantique, la solution consiste se baser sur les proprits inverses fonctionnelles (owl:InverseFunctionalProperty)35 . FOAF dfinit un certain nombre de
proprits de ce type comme foaf:mbox et foaf:openid. Ainsi, associer un mme
e-mail deux instances de foaf:Person va permettre didentifier quil sagit de la
mme personne.
Quelle soit implicite ou explicite, cette unification va permettre dagrger les rseaux
distribus dun mme individu, conduisant la dfinition dun rseau social distribu et
ouvert (Figure 3.5, page 99). partir de celui-ci, il est relativement ais de dvelopper des
applications de visualisation associs, comme nous lavons fait avec lapplication FOAFGear36 (Figure 3.6, page 99). Celle-ci permet de visualiser de manire uniforme un ensemble
de rseaux sociaux distribus et modliss avec FOAF. De plus, le code permettant deffectuer cette agrgation de rseaux sociaux ne compte quune centaine de lignes, et deux
requtes SPARQL, mettant ainsi en avant ces processus dinteroprabilit avec les technologies du Web Smantique du point du vue du dveloppement dapplications Web 2.0, et
cette complmentarit entre les deux mondes.
Pour aller plus loin dans cette interoprabilit entre applications Web 2.0, on peut galement considrer lutilisation dOpenID37 . Ce systme dauthentification dcentralis permet
35
Pour rappel, deux ressources partageant une mme valeur pour une proprit de ce type sont considres
comme identiques.
36
37
98
http://apassant.net/home/2008/01/foafgear
http://openid.org
http://apassant.net/home/2007/12/flickrdf/data/people/33669349N00
flickr:2233977@N00
flickr: 24266175@N00
foaf:knows
flickr: 43184127@N00
foaf:knows
foaf:knows
flickr:33669349@N00
twitter:CaptSolo
owl:sameAs
twitter:Wikier
twitter:CharlesNepote
myuri:me
owl:sameAs
foaf:knows
foaf:knows
foaf:knows
twitter:potiontv
owl:sameAs
twitter:terraces
foaf:knows
myblog:a2
http://tools.opiumfield.com/twitter/terraces/rdf
foaf:knows
foaf:knows
foaf:knows
myblog:a30
myblog:a26
myblog:a19
http://myblog/foaf-export
99
Informations issues du
profile FOAF de l'utilisateur
100
http://wiki.foaf-project.org/SparqlPress
http://apassant.net/blog/2008/02/16/foaf-hacks-day
dune entreprise considre comme non-concurrente de celle de lutilisateur, ce type dinformation pouvant tre extrait de DBpedia. Ces diffrentes pistes font partie de travaux quil
nous semble important dapprofondir par la suite dans ce contexte daccs aux donnes
sociales et de complmentarit entre Web Smantique et Web 2.0 (Section 5.4.3, page 230).
Dautre part, si la fragmentation didentit est le plus souvent un effet de bord de lutilisation de diffrents services (en fonction du type de contenu partager), il nous faut garder
en mmoire quelle est parfois volontaire. Certaines personnes vont ainsi utiliser LinkedIn
pour leurs contacts professionnels et MySpace pour leurs amis, ne souhaitant pas que les
deux identits en ligne puissent tre associes. Un rapport du cabinet Fabernovel rappelle en
outre cette notion de fragmentation volontaire sur le Web 40 . Malgr tout, certains principes
de raisonnement proposs par le Web Smantique (notamment les proprits inverses fonctionnelles que nous avons voques auparavant) vont conduire cette fusion didentit. Il
est donc selon nous ncessaire de prendre en compte ces problmatiques et de nexposer certaines donnes (par exemple la proprit foaf:openid) quavec laccord de lutilisateur ou
bien encore de prendre en compte des notions dinfrence avec autorit [Hogan et al., 2008]
en effectuant par exemple des raisonnements que si le demandeur fait partie du rseau social de lutilisateur.
Plus gnralement, ces problmes relatifs la protection de donnes sociales ne sont
bien entendu pas seulement techniques et il est selon nous galement ncessaire dinformer
et dduquer les utilisateurs de services Web 2.0 afin de faire prendre conscience des risques
possibles associs aux informations quils dvoilent.
3.1.6
Etant donns la nature et lobjectif de SIOC, il nous semble peu pertinent dutiliser des
mtriques formelles comme celles recenses dans [Hartmann et al., 2004] pour valuer lontologie. Cependant, un point qui nous parait important prendre en compte est son acceptation sur le Web Smantique. On peut ainsi parler dvaluation par lacceptation, proposition
qui nous semble pertinente pour des ontologies de ce type qui ont pour but de devenir des
modles de rfrence pour la reprsentation de donnes sur le Web Smantique. partir
du moment o lobjectif de SIOC est de permettre une interoprabilit entre applications
Web 2.0 et leur intgration au sein du Web Smantique, on peut en effet considrer que la
russite dun tel modle repose sur le nombre de donnes ainsi reprsentes. En considrant
logiquement lensemble de ces donnes interconnectes comme un graphe, il est vident que
la valeur de ce graphe dpend du nombre de nuds et darcs qui le composent, comme le
rappelle la loi de Metcalfe41 . Ainsi, plus le nombre de donnes reprsentes avec ce mme
modle crot, plus la valeur inhrente de SIOC est importante. Cette observation sur la valeur dun graphe est galement valable pour le Web Smantique dans son ensemble, notamment dans cet objectif de reprsentation et dunification de donnes sociales comme le
rappelle [Hendler et Golbeck, 2008].
40
http://www.fabernovel.com/news/research-paper-social-network-websites/
41
Selon Bob Metcalfe, co-inventeur du protocole Ethernet, la valeur dun rseau saccrot avec son nombre
de connections et est proportionnelle au carr du nombre de ses utilisateurs. http://en.wikipedia.org/
wiki/Metcalfe%27s_law
101
Figure 3.8: Statistiques de production de donnes SIOC sur le Web [Bojars et al., 2008b]
De plus, il nous semble important de considrer cette acceptation non pas uniquement
en nombre de donnes, mais en observant la diversit des systmes utilisant SIOC et lactivit de la communaut associe. Ainsi, la Soumission Membre de SIOC au W3C en Juin 2007
a runi plus dune dizaine dorganisations diffrentes, aussi bien acadmiques (LaLIC, DERI
Galway, Fundation CTIC44 ...) quindustrielles (Opera Software45 , OpenLink46 ...). Cette soumission comporte en outre trois documents qui servent aujourdhui de rfrence SIOC et
pour lesquels nous avons eu chaque fois un rle particulier :
SIOC Core Ontology Specification [Berrueta et al., 2007], spcification du cur de lontologie SIOC (coauteur) ;
SIOC Ontology : Applications and Implementation Status [Fernndez et al., 2007b], document listant un ensemble dapplications utilisant SIOC au moment de la soumission
(coditeur) ;
SIOC Ontology : Related Ontologies and RDF Vocabularies [Bojars et al., 2007a], document
listant les relations entre SIOC et dautres ontologies populaires sur le Web Smantique
comme FOAF ou DublinCore (coditeur).
42
http://pingthesemanticweb.com
Janvier 2009, cf. http://pingthesemanticweb.com/stats/namespaces.php pour une mise jour.
44
http://www.fundacionctic.org/
45
http://www.opera.com/
46
http://www.openlinksw.com/
43
102
tant donn le contexte du projet Athna, le niveau de reprsentation que nous souhaitons atteindre au sein de notre systme de mdiation doit nous permettre de modliser des
assertions comme :
lectricit de France est une entreprise franaise du secteur de lnergie ;
lnergie solaire est une nergie renouvelable ;
Pierre Gadoneix est le prsident dElectricit de France ;
EDF a diffrents partenaires autour des nergies renouvelables.
Les besoins de modlisation mtier se situent donc principalement autour des acteurs
(au sens personnes physiques et morales), de leurs domaines dactivit et des proprits associes (relations entre ces entits, localisation ...). En consquence, cette partie du mmoire
47
http://www.w3.org/Submission/2007/02/Comment
http://developer.yahoo.com/searchmonkey/
49
http://developer.yahoo.com/searchmonkey/smguide/profile_vocab.html
50
http://esw.w3.org/topic/HCLSIG/SWANSIOC
51
http://www.w3.org/2008/05/HCLSIGCharter
48
103
http://proton.semanticweb.org/2005/04/protonu
http://proton.semanticweb.org/2005/04/protont
54
http ://www.opencyc.org/
55
http://pauillac.inria.fr/cdrom/ftp/ocomma/comma.rdfs
http://www.w3.org/2001/sw/BestPractices/WNET/wn-conversion.html
56
104
aussi de lutilisation et lvolution du modle, il nous semble plus pertinent de considrer la notion de rle comme un concept indpendant de lentit laquelle il est rattach. Nous dtaillerons plus loin notre approche ce sujet (Section 3.2.4, page 109).
En consquence, nous avons considr des modles plus lgers, focaliss essentiellement sur
ces notions dagents, en particulier de personnes et de groupes. Nous avons donc tudi la
Portal Ontology57 dAKT - Universit de Southampton (encore trop riche pour nos besoins),
la Person Ontology58 deBiquity - Universit du Maryland (UMBC) ou encore SWRC Semantic Web Research Community [Sure et al., 2005] , ces deux dernires tant plus adaptes
la modlisation du monde universitaire. Nous avons finalement considr FOAF Friend
Of A Friend [Brickley et Miller, 2004b] comme modle de base pour la description de ce
domaine.
http://www.aktors.org/ontology/portal
http://ebiquity.umbc.edu/ontology/person.owl
105
Une tude mene en Aot 2006 sur les donnes stockes par Swoogle [Ding et al., 2004] a montr que FOAF
tait le quatrime espace de noms le plus utilis. http://ebiquity.umbc.edu/resource/html/id/196/
Most-common-RDF-namespaces
60
http://lists.foaf-project.org/pipermail/foaf-dev/2007-January/008396.html
106
permet donc de reprsenter une relation entre diffrents agents autour dun domaine donn,
reprsent via la classe (role:Domain) sur laquelle nous reviendrons par la suite (Section
3.2.4, page 109). Notons que cette classe peut simplement saligner avec la classe Relationship
du vocabulaire du mme nom61 , nous conduisant ainsi au modle suivant (Listing 3.7, page
107).
partenariat : Partenariat rdf : type owl : Class .
rdfs : subClassOf relationship : Relationship .
partenariat : hasMember rdf : type owl : ObjectProperty ;
rdfs : domain partenariat : Partenariat ;
rdfs : range foaf : Agent .
partenariat : hasDomain rdf : type owl : ObjectProperty ;
rdfs : domain partenariat : Partenariat ;
rdfs : range role : Domain .
3.2.3
Avant dvoquer la notion de rle associe aux agents, un autre aspect qui nous intresse
est leur localisation. Il est en effet pertinent de pouvoir localiser ceux-ci, par exemple pour
tudier lmergence dune technologie sur un domaine donn ou identifier gographiquement le rseau (membres ou partenaires) gravitant autour dun acteur.
Une premire possibilit est lutilisation de la proprit foaf:based_near propose
par FOAF. Celle-ci permet de lier deux instances de SpatialThing du vocabulaire Geo
Vocabulary62 [Brickley, 2003] propos par le groupe dintrt Web Smantique du W3C et
bas sur la spcification World Geodetic System 1984. Lutilisation de cette proprit permet
de modliser une relation entre une instance de foaf:Agent (ou sous-classe) et un simple
point (geo:Point) associ ses coordonnes de latitude et de longitude. Lexemple qui suit
modlise de cette manire quEDF est bas Paris (Listing 3.8, page 107).
athena : EDF a foafplus : Company ;
foaf : based_near [
a geo : Point ;
geo : lat "48 ,5144" ;
geo : long "2 ,213" .
] .
http://vocab.org/relationship/
Espace de noms http://www.w3.org/2003/01/geo/wgs84_pos#, prfixe geo par la suite.
107
http://geonames.org/about.html
http://geonames.wordpress.com/2006/10/14/semantic-web/
65
Espace de noms http://www.geonames.org/ontology#, prfixe |geonames| par la suite.
66
http://geonames.org/export
67
http://xmlns.com/foaf/spec/#term_based_near
64
108
avons ainsi propos lajout dune relation locatedIn permettant dindiquer quune ressource est situe dans une zone gographique prcise (Listing 3.9, page 109). Celle-ci a t
ajoute au modle Geonames dans sa version 2.0 dAvril 200768 .
geonames : locatedIn rdf : type owl : ObjectProperty ;
rdfs : domain rdfs : Resource ;
rdfs : range geonames : Feature .
http://lists.w3.org/Archives/Public/public-xg-geo/2007Jan/0001.html
109
http://sws.geonames.org/
2988507/
geonames:parentFeature
geonames:locatedIn
http://sws.geonames.org/
6455259/
athena:EDF
geonames:parentFeature
geonames:parentFeature
http://sws.geonames.org/
2988506/
geonames:parentFeature
http://sws.geonames.org/
2968815/
geonames:parentFeature
http://sws.geonames.org/
3012874/
athena:Gazprom
geonames:locatedIn
http://sws.geonames.org/
2017370/
geonames:parentFeature
http://sws.geonames.org/
3017382/
geonames:parentFeature
http://sws.geonames.org/
6255148/
(1) Relations
internes
(2) Relations
Geonames
(3) Relation
infre
ceux-ci comme des entits indpendantes et associes aux types naturels avec des proprits ddies. On retrouve cette modlisation notamment dans DOLCE [Claudio et al., 2005]
avec la notion de rles fonctionnels qui se rapprochent des ntres (producteur dnergie,
ingnieur ...). Nous avons pu galement nous rendre compte dun point de vue plus pratique en utilisant Proton (qui suit lide de [Sowa, 1984] en considrant les rles comme
des sous-classes) que les modles RDF(S)/OWL de ce type entranent des relations taxonomiques assez complexes ds lors quon les tend pour permettre des types dentits
diffrents de jouer un mme rle. On se retrouve en effet confront des treillis de classes
complexes, sujets explosion combinatoire, lajout dun rle particulier qui peut tre assign
n classes distinctes entranant la cration de n nouvelles classes. Nous avons ainsi volontairement limit le nombre de types naturels dans notre modle dacteurs (comme dfini
prcdemment) pour concentrer les rles dans un modle indpendant. Ainsi, nous avons
tout dabord dfini un modle trs lger pour la dfinition des rles (prfixe role) compre-
110
nant une simple classe Role et une proprit permettant de faire le lien entre un agent et ses
diffrents rles (Listing 3.10, page 111).
role : Role rdf : type owl : Class .
role : hasRole rdf : type owl : ObjectProperty ;
rdfs : domain foaf : Agent ;
rdfs : range role : Role .
URI fictive pour dfinir le concept de Producteur dEnergies Marines en Angleterre, nous ne dtaillerons pas
les autres URIs de cet exemple qui suivent le mme principe.
70
Malgr leur nom, ces diffrentes classes nont aucun lien avec les notions de type et de domaine que lon
retrouve en RDFS et OWL.
71
72
http://ramonantonio.net/doac/
http://rdfs.org/resume-rdf/
111
Listing 3.11: Modle pour la reprsentation des rles avec prise en compte du mtier et du
domaine
athena : entreprise1 a foafplus : Company ;
role : hasRole [
role : hasDomaine athena : EnergiesMarines
role : hasType athena : Production
geonames : locatedIn < http :// sws . geonames . org /6269131/ >
] .
112
dle taxonomique comportant une unique classe (Domain) et une seule relation (plus spcifique que) plutt quune ontologie plus pousse avec diffrentes classes et proprits comme
le montre la figure qui suit avec cet exemple de panneaux solaires et dnergie solaire (Figure 3.11, page 113)73 . La production des annotations associes ce modle tant en outre
laisse discrtion des utilisateurs via lutilisation de wikis smantiques (Section 4.2.4, page
161), cest une autre raison qui nous a amen utiliser un modle simple avec une unique
relation pour structurer ces domaines et mtiers.
Energies Renouvelables
a pour type
plus spcifique que
a pour type
Energie
a pour type
Domaine de
l'Energie Solaire
Energie Solaire
permet la production de
Domaine des
Panneaux Solaires
Panneau Solaire
a pour type
Domaine
a pour type
Taxonomie de
domaines
a pour type
Composant
Industriel
Ontologie
113
role:Domain
rdfs:subClassOf
rdf:type
role:ENR
rdfs:subClassOf
athena:Role1
rdfs:subClassOf
role:EnergieSolaire
role:hasDomain
role:EnergiesMarines
rdfs:subClassOf
role:PanneauxSolaires
Instanciation
Ontologie OWL-Full
niveau des assertions, distinguant ainsi classes et instances et permettant de rester un niveau OWL-Lite (ou OWL-DL en fonction des autres axiomes de lontologie) (Figure 3.13,
page 115). Ceci complique cependant inutilement le modle et introduit des relations supplmentaires qui alourdissent les requtes, puisque le parcours de graphe se complexifie
avec ce noeud supplmentaire.
Enfin, une solution est dutiliser non pas une taxonomie de classes reprsente au sein
dun modle OWL classique, mais de se baser sur SKOS. SKOS Simple Knowledge Organisation Schema [Miles et Bechhofer, 2008] permet en effet de dfinir une hirarchie dinstances, au sens organisation taxonomique dinstances et non plus de classes. Plus exactement et comme nous lavons brivement explicit auparavant, SKOS dfinit une classe
skos:Concept et considre les relations skos:narrower et skos:broader (sous-proprits
dune relation plus gnrique skos:semanticRelation) ainsi quune relation skos :related pour tablir des liens entre diffrentes instances de cette classe. Lobjectif de SKOS est
ainsi de permettre la dfinition sur le Web Smantique de modles de reprsentation des
connaissances plus lgers que des ontologies comme des thesaurus ou des taxonomies. La
smantique des relations proposes par SKOS est en effet volontairement faible l o des
ontologies plus pousses vont typer et distinguer diffrentes relations comme nous lavons
montr dans une figure prcdente (Figure 3.11, page 113). De plus, les relations hirarchiques proposes par SKOS ont une smantique diffrente de celles proposes par RDFS/OWL puisque lon se situe au niveau des instances et non plus des classes. Ceci permet
donc dans notre contexte de dfinir quune entreprise est active dans un domaine considr
comme plus spcifique quune autre en modlisant uniquement des relations entre instances
et ce sans basculer dans un niveau dexpressivit OWL-Full (Figure 3.12, page 114) ni intro114
role:Domain
rdfs:subClassOf
role:ENR
rdfs:subClassOf
athena:PanneauxSolaires
role:EnergieSolaire
rdfs:subClassOf
role:EnergiesMarines
rdf:type
role:hasDomain
athena:Role1
Instanciation
rdfs:subClassOf
role:PanneauxSolaires
duire des instances associes chaque classe (Figure 3.13, page 115).
Ainsi, nous avons utilis SKOS pour modliser les notions de domaine et de mtier en
dfinissant role:Domain et role:Type comme sous-classes de skos:Concept, en en utilisant la relation skos:broader pour identifier les relations de hirarchie qui existent entre
les instances associes. Lontologie se trouve donc ainsi rduite un simple modle OWLDL bas sur SKOS et dfinissant comme suit les deux classes prcites en plus de la notion
principale de rle (role:Role). En consquence, les diffrents domaines et mtiers ainsi que
leurs relations sont de ce fait modliss au travers dinstances et de relations entre instances
conformment avec SKOS (Figure 3.14, page 116), le modle complet tant dfini comme
suit (Listing 3.13, page 116).
Ce choix dutilisation de SKOS et dune dlgation des domaines, mtiers et relations au
niveau des instances a galement t motiv par notre contexte dannotations smantiques
guides par des applications sociales comme nous lavons brivement voqu auparavant.
Nous ne souhaitons pas en effet que les utilisateurs modifient le modle mais aient uniquement grer des instances. Lvolution des domaines et mtiers peut donc tre assure
par les utilisateurs finals, via les wikis (Section 4.2.4, page 161), sans que le modle ne soit
affect. Lutilisation de SKOS nous semble ainsi tre une bonne pratique ds lors quon souhaite modliser des hirarchies de concepts et dune part avoir un modle stable et dautre
part rester un niveau OWL dcidable. Dautres cas dutilisation de SKOS confirment en
outre cette bonne pratique [Isaac et al., 2007].
Rappelons enfin que largumentation prcdente se base sur lutilisation dOWL1 et que
OWL2 permet de contourner les problmes prcdents. Cette volution dOWL (en cours de
standardisation au moment de la rdaction de ce mmoire) introduit en effet la possibilit de
115
Ontologie OWL-Lite
skos:Concept
rdfs:subClassOf
role:Domain
rdf:type
role:ENR
skos:broader
athena:Role1
skos:broader
role:EnergieSolaire
role:EnergiesMarines
skos:broader
role:hasDomain
role:PanneauxSolaires
Relations SKOS
Instanciation
116
dfinir une taxonomie de classes et dutiliser ces classes comme instances sans pour autant
basculer dans un modle OWL-Full. Ceci seffectue grce au punning (ou mtamodlisation),
qui permet dutiliser une mme URI pour reprsenter la fois une classe et une instance tout
en restant dcidable en temps fini75 .
3.2.5
Les diffrents modles prsents ci-avant sont donc chacun ddis un domaine particulier :
FOAF permet de dfinir la notion dagents (notamment de personnes et dorganisations) et certaines de leurs proprits ;
FOAFplus tend FOAF avec de nouvelles classes et proprits ;
la classe Partenariat du module du mme nom permet de reprsenter et contextualiser les relations entre acteurs autour de domaines particuliers ;
notre modle pour la reprsentation des rles permet de dfinir les diffrentes activits
associes aux agents tout en en sparant le domaine du mtier ;
SKOS nous permet de dfinir une taxonomie de domaines et mtier non pas au niveau
du modle (classes), mais de la base de connaissance (instances) ;
Geonames permet de localiser les entits, aussi bien avec un lien direct que via leur(s)
rle(s), les deux nayant videmment pas la mme valeur en termes de reprsentation.
Du fait de la faible adhrence des modles en eux-mmes avec notre contexte applicatif
(cette adhrence se situant principalement au niveau des bases de connaissances associes
comme nous lavons vu), cet cosystme dontologies nous semble pertinent pour tout systme dEntreprise 2.0 partir du moment o lon souhaite disposer de modles simples et
extensibles pour dfinir un contexte industriel particulier.
Lexemple suivant (Listing 3.14, page 119) reprsente ainsi diffrentes assertions au sujet
dEDF utilisant les modles prcits, assertions que lon retrouve par la suite reprsentes
de manire graphique (Figure 3.15, page 118). Ce schma permet de plus de faire apparatre les diverses relations qui peuvent exister entre modles et instances dfinies aussi
bien en interne via nos outils (relations skos:broader entre instances de role:Domain)
quen externe via des donnes prsentes sur le Web (relations geonames:parentFeature
entre instances de geonames:Feature).
Enfin, si ces modles forment le noyau de reprsentation mtier au sein de notre mdiateur, dautres ontologies peuvent tre utilises, notamment en termes de proprits :
celles pour lesquelles le domaine (rdfs:domain) ou le codomaine (rdfs:range) nest
pas restreint et peut donc tre adapt nimporte quelle classe de nos modles. On
peut par exemple utiliser dct:description pour ajouter une description complte
chaque instance ;
celles pour lesquelles le domaine ou le codomaine, bien que dfini, est consistant
avec nos vocabulaires. Par consistant, nous entendons quil ne va pas lencontre
des axiomes dfinis la fois dans nos modles et dans le modle des proprits en
question. Ceci ncessite cependant lutilisation dun raisonneur pour valider leur utilisation et la consistance du modle, quil sagisse de simple raisonnement RDFS sur
75
http://www.w3.org/TR/owl2-semantics/
117
SKOS
skos:Concept
Role Ontology
Geonames
rdfs:subClassOf
rdfs:subClassOf
geonames:Feature
role:Type
rdf:type
role:Domain
rdf:type
rdf:type
http://
sws.geonames.org/
3017382/
rdf:type
rdf:type
athena:Producteur
athena:EnergieNucleaire
geonames:parentFeature
role:hasDomain
http://
sws.geonames.org/
2988507/
geonames:locatedIn
role:hasType
skos:broader
athena:Constructeur
athena:Role1
Ontologies
athena:CentraleNucleaire
Base de
connaissances
geonames:locatedIn
role:hasType
role:hasDomain
role:hasRole
athena:Role2
athena:PierreGadonneix
foaf:member
role:hasRole
athena:EDF
partenariat:hasDomain
athena:Areva
rdf:type
partenariat:hasMember
athena:part1
rdf:type
rdf:type
foaf:Person
rdf:type
foafplus:Company
partenariat:Partenariat
rdfs:subClassOf
rdfs:subClassOf
FOAFplus
Partenariat
foaf:Agent
FOAF
Figure 3.15: Combinaison dontologies et base de connaissance associe pour dfinir des
assertions au sujet dEDF
118
les classes / sous-classes ou de raisonnement OWL plus pouss prenant en compte les
ventuelles unions (owl:unionOf), intersections (owl:intersectionOf) ou disjonctions (owl:disjointWith).
3.3
3.3.1
119
distingu entre classes et instances dans une approche de constitution classique dun tel
modle. Il nous semble par ailleurs que SKOS serait ici plus appropri quune hirarchie de
classes RDFS/OWL pour la modlisation de tels exports.
La mthodologie FLOR76 Folksonomy Ontology enRichment [Angeletou, 2008] dfinit
quand elle une mthode totalement non-supervise (se basant notamment sur les rsultats obtenus par [Specia et Motta, 2007]) permettant dexpliciter la smantique des tags
et surtout des relations entre tags. Contrairement aux travaux prcdents qui se limitent
des relations taxonomiques, leur approche permet dextraire des relations types entre
concepts. Cette mthodologie repose notamment sur des notions de filtrage linguistique et
dexpansion de termes et utilise diffrents outils proposs par le moteur smantique Watson77 [dAquin et al., 2008]. Avec FolksOntology, [Van Damme et al., 2007] proposent une approche semblable, lutilisateur ayant en plus la possibilit de dfinir explicitement la smantique des tags pour lesquels le systme na pu trouver dontologie adapte, i.e. de spcifier
sil sagit dune classe, dune instance ou dune proprit. On peut ainsi, plus qualigner la
folksonomie avec des ontologies existantes, crer de nouveaux concepts. Malheureusement,
contrairement FLOR, cette approche se content dextraire un modle mais napplique pas
celui-ci aux contenus tagus, ce qui nous semble pourtant tre un des avantages de lontologie ainsi gnre.
Modliser les tags avec les technologies du Web Smantique
Nous allons dans cette section prsenter un certain nombre de travaux visant modliser les diffrents lments des systmes base de tags (tags, actions de tagging ...) avec les
technologies du Web Smantique. De tels modles, que lon peut considrer comme des ontologies pour les folksonomies, permettent ainsi denvisager les systmes base de tags comme
partie intgrante du Web Smantique, puisque reprsents en RDF(S)/OWL.
[Gruber, 2007] propose un premier modle78 tendant la notion tripartite classique dune
action de tagging (Section 1.2.3, page 39) et o il dfinit celle-ci comme une relation faisant
intervenir quatre lments :
un Objet, i.e. la ressource annote quelque soit son type (billet de blog, photo, etc.) ;
un Tag, i.e. le tag annotant la ressource ;
un Agent, i.e. lagent en rgle gnral une personne qui cre la relation ;
une Source, i.e. lespace o est effectue cette action (e.g. Flickr). Cest cette dernire
proprit qui enrichit la relation initiale et qui permet de distinguer deux actions de
tagging dun mme auteur pour la mme ressource mais sur deux espaces distincts.
Un cinquime lment peut galement intervenir dans cette relation, savoir une polarit
permettant dassigner une valeur positive ou ngative la relation, dans lobjectif de rsoudre des problmes de spam. [Gruber, 2007] introduit galement la notion didentit dun
tag et considre que des tags peuvent tre dfinis comme identiques malgr des labels distincts, tablissant un premier pas vers lunification de tags htrognes et la notion de sens
76
http://flor.kmi.open.ac.uk/
http://watson.kmi.open.ac.uk/
78
Publi originellement en 2005 http://tomgruber.org/writing/ontology-of-folksonomy.htm
77
121
http://tagcommons.org
Espace de noms http://www.holygoat.co.uk/owl/redwood/0.1/tags/, prfixe tag par la suite.
81
http://purl.org/dc/elements/1.1/date
82
Espace de noms http://scot-project.org/scot/ns#, prfixe scot par la suite.
80
122
tag:RestrictedTagging
http://example.org/tag/
apple
rdf:type
tag:associatedTag
http://example.org/
tagging1
tag:taggedBy
Tag Ontology
tag:taggedResource
http://example.org/
post/1
foaf:maker
http://apassant.net/alex/
dct:title
Nouvel iPhone
disponible
rdf:type
sioct:BlogPost
FOAF
SIOC + DC
scot:acronym ou scot:plural mais ne rsout malheureusement pas le problme de cardinalit voqu prcdemment.
Toujours dans cette optique dontologies pour reprsenter les tags, [Knerr, 2006] propose
TagOnt83 qui reprend le modle de [Newman et al., 2005] en y ajoutant la notion de visibilit
dune action de tagging. Malheureusement, ce modle redfinit ses propres classes et proprits au lieu dtendre la Tag Ontology, et bien que disponible en ligne84 il ne semble tre
utilis dans aucun projet. Un modle similaire est propos par [Echarte et al., 2007]85 mais ne
semble galement pas avoir t utilis en pratique. NEPOMUK propose via le vocabulaire
NAO NEPOMUK Annotation Ontology [Scerri et al., 2007] 86 une classe nao:Tag et une
proprit nao:has_tag pour identifier les tags rattachs une ressource quelconque, sans
pour autant considrer laction de tagging en tant que modle tripartite. SIOC quant lui
dfinit une simple classe Tag qui peut tre utilise en complment avec sioc:topic pour
reprsenter les tags associs un item. Il est galement possible dutiliser SKOS pour reprsenter des tags via la classe skos:Concept (sioc:Tag hrite dailleurs de cette classe),
les instances associes pouvant ensuite tre associes aux contenus tagus via la proprit
sioc:topic o jusqu peu via skos:subject, aujourdhui obsolte comme nous lavons
signal en voquant les relations entre SIOC et SKOS (Section 3.1.4, page 94). Enfin, il est
important galement de signaler le modle Bookmark87 [Koivunen et al., 2001] propos par
83
http://code.google.com/p/tagont/
http://tagont.googlecode.com/files/tagont.owl
85
http://www.eslomas.com/tagontology-1.owl
86
Espace de noms http://www.semanticdesktop.org/ontologies/2007/08/15/nao#, prfixe nao
84
par la suite.
87
Espace de noms
bookmark par la suite.
http://www.w3.org/2003/07/Annotea/BookmarkSchema-20030707, prfixe
123
http://www.w3.org/2001/Annotea/
http://web.resource.org/rss/1.0/modules/taxonomy/
90
91
http://www.w3.org/2000/10/annotation-ns#
92
http://revyu.com
124
Ontologie
Format
Tag
Gruber
Tag Ontology
SCOT
NAO
TagOnta
Echarte
SKOS Core
SIOC
Annotea
Taxonomy
rel-tag
a
N/A
OWL-Full
OWL-Full
RDFS
OWL
OWL-DL
OWL-Full
OWL-Lite
RDFS
RDFS
Microformat
Supporte la modlisation de
Tagging
Tagging
Agent Nuage
(simple) (tripartite)
de tags
Tableau 3.2: Comparaison de diffrentes ontologies pour la reprsentation des tags et des
objets associs90
Amazon.com auxquels une URI propre a t assigne [Bizer et al., 2007a]. Lensemble des
annotations produites au sein de cet outil est en outre disponible en RDF et utilise la Tag Ontology pour la reprsentation des tags. Toujours dans une approche de partage de contenus,
Faviki93 propose un service de gestion de favoris o les tags sont des identifiants DBpedia [Milicic, 2008]. Il prend ainsi en compte la notion de multilinguisme associe aux tags,
puisquune mme URI peut tre associe plusieurs termes.
Dautres outils sont axs plus spcifiquement sur la gestion des tags, et plus particulirement sur la manire de les organiser pour pallier leurs limites (Section 2.2.3, page 63).
Ainsi, les outils de bookmarking SemanticScuttle94 [Huynh-Kim-Bang et Dan, 2008], Gnizr95
et Semanlink96 [Servant, 2006] permettent de dfinir des relations hirarchiques entre tags,
le second offrant un export RDF des contenus annots en utilisant certaines des ontologies prsentes plus haut (notamment la angTag Ontology, SIOC et SKOS), le dernier tant
bas sur son propre modle de reprsentation des tags reposant sur SKOS9798 . Dans une
approche diffrente, GroupMe99 propose aux utilisateurs de regrouper les tags par catgories pour faciliter la recherche dinformation, reprsentant le tout avec sa propre ontologie
[Abel et al., 2007]. Sweetwiki [Buffa et al., 2008] permet galement lorganisation de tags (et
93
http://faviki.com
http://sourceforge.net/projects/semanticscuttle/
95
http://code.google.com/p/gnizr/
96
http://www.semanlink.net/sl/home
97
http://www.semanlink.net/2001/00/semanlink-schema#
94
98
Puisque bas sur SKOS et napportant pas de spcificit particulire en terme de fonctionnalits par rapport
celui-ci, nous ne lavons pas inclu dans le comparatif prcdent.
99
http://groupme.org/GroupMe/
125
Si les ontologies tudies dans la section prcdente modlisent les notions de tag et
dactivit de tagging, aucune ne permet de prendre en compte la signification qui peut tre
associe un tag dans le cadre dune action de tagging particulire. Nous considrons en
effet que lorsquun utilisateur associe un tag une ressource, il lui assigne une signification
particulire quil est ncessaire de prendre en compte pour interprter correctement cette
annotation. Comme nous lavons dj voque, plusieurs problmes se posent dans lassignation de tags en tant que simple libells. On peut ainsi voir les limitations des tags en tant
que simples mots-cls de la manire suivante :
dune part, comme le souligne [Bachimont, 2000] en voquant la notion de libells et
dontologies "si ces libells sont interprtables, rien nimpose quils soient interprts de la
mme manire ou tout le moins de manire cohrente et compatible entre plusieurs spcialistes".
si linterprtation est possible, celle-ci dpend galement du contexte interprtatif :
un tag apple associ une photo de fruits aura un sens diffrent de celui associ au
mme tag apple annotant un billet de blog sur liPhone. Si lutilisateur est conscient de
la signification quil donne a son tag au moment de lannotation, celle-ci ne peut tre
prise en compte au moment de la recherche dinformation, la machine ne considrant
quune simple chane de caractres a-p-p-l-e sans aucune smantique ;
100
http://bibsonomy.org
http://www.tagora-project.eu/
102
http://www.flickr.com/groups/mtags/
103
http://librdf.org/flickcurl/
101
126
hors contexte, la smantique est donc multiple et ambigu. Si lon prend le prcdent
tag apple tel quel, i.e. non associe une ressource, il peut rfrencer aussi bien une
entreprise quune maison de disque ou un fruit.
partir de ce constat, il nous a sembl ncessaire de formaliser (1) la signification dun
tag dans le contexte dune action de tagging particulire et (2) lensemble des significations
potentielles que celui-ci peut avoir dans une folksonomie, i.e. selon un service ou une communaut donne. On retrouve dans ce besoin de formalisation certains fondamentaux du
Web Smantique savoir la notion didentifiants rfrents et partags pour reprsenter les
choses (au travers dURIs) et le passage de simples termes ces identifiants (Section 1.1.2,
page 16). Notre proposition, que nous allons maintenant dtailler, a donc pour objectif de
crer un pont entre cette notion souple de folksonomies et dannotation contrle par lutilisateur et les notions plus formelle du Web Smantique et notamment lindexation smantique, en indexant donc les documents non plus par de simple termes (i.e. les tags) mais
par des URIs de concepts. On passe ainsi dune indexation par mot-cl une indexation par
concept (ou instance) dontologie, permettant de rsoudre les diffrents problmes poss par
les systmes base de tags (Section 2.2.3, page 63). Lontologie devient alors un support la
folksonomie, permettant dassocier souplesse de lannotation par tag et langage formel pour
reprsenter sans ambigut et de manire interprtable les significations associes ces tags.
Ce processus nous permet ainsi dtablir un lien fort entre ces diffrents degrs de formalisation, offrant chacun des perspectives diffrentes en terme dannotation et de recherche
dinformation comme le souligne [Zacklad, 2007],
Si lapproche courante consiste considrer une action de tagging comme une relation tripartite entre un utilisateur, un tag et la ressource annote (Section 1.2.3, page 39),
relation qui peut-tre enrichie par des considrations temporelles ou despace social (cf.
[Newman et al., 2005] ou [Gruber, 2007]), nous y ajoutons un paramtre supplmentaire,
savoir la signification du tag dans ce contexte. Plus particulirement, nous distinguons :
la signification locale dun tag, i.e. la signification particulire et non ambigu dun tag
au sein dune action de tagging104 ;
les significations globales dun tag, i.e. lensemble des significations qui peuvent lui-tre
associes si lon considre le terme seul, hors contexte.
Nous tendons ainsi de la manire suivante le modle de reprsentation tripartite dune
action de tagging en un modle quadripartite o la signification (Signif ication) est ici considre comme locale :
T agging(U tilisateur, Ressource, T ag, Signif ication)
(3.1)
Dautre part, modliser lensemble des significations potentielles dun tag dans une folksonomie donne revient considrer qua chaque tag est associ un ensemble de significa104
En ralit, dans certains cas, il se peut que la signification locale soit envisage selon plusieurs points de
vue et que lon considre alors quil y a plus dune signification locale pour un tag donn. Par exemple, un tag
Paris va pouvoir tre considrer comme se rfrant la fois la ville de Paris et lentit administrative. Sil
sagit bien du mme concept (i.e. une zone gographique) celui-ci est vu simultanment selon deux points de
vue que lon peut considrer comme deux significations distinctes. On rentre cependant ici dans des notions plus
complexes sur ce qui fait le sens mme dune entit, considrations galement abordes sur le Web Smantique
comme nous lavons vu avec les notions de rle (Section 3.2.4, page 109) et didentit (Section 1.1.4, page 27).
127
(3.2)
Ainsi, partir de ces deux dfinitions, nous pouvons reprsenter une folksonomie non
plus comme compose de trois ensembles mais de quatre Utilisateurs, Tags, Ressources et
Significations associs un ensemble de relations (i.e. les actions de tagging) de la manire
suivante :
(3.3)
R1
T1
U1
S2
T3
R2
R3
S1
U3
U2
R4
T2
S3
T4
S4
T5
R5
Ressources
S5
U4
Utilisateurs
Tags
Significations
Figure 3.17: Modlisation quadripartite de deux relations de tagging au sein dune folksonomie
3.3.3
soulign au dbut de cette thse (Section 1.1.1, page 12) et ici nous nous referons aux notions dinterprtations des donnes dans le contexte du Web Smantique avec lutilisation
dURIs et dontologies associes. Pour ce faire, nous reprsentons donc les significations
non pas avec de simples labels (ce qui ne ferait que dplacer du tag la signification les
problmes que lon souhaite rsoudre), mais via lutilisation dURIs de concepts du Web
Smantique, quil sagisse dinstances dontologies de domaines (qui peuvent alors tre internes une organisation) ou provenant de bases de connaissances comme DBpedia, Geonames ou autres ressources du projet Linking Open Data. Les significations associes aux
tags sont donc ainsi reprsentes par identifiants non-ambigus rfrenant des concepts interprtables par des agents logiciels. Pour en revenir lexemple prcdent, on peut ainsi
assigner au tag apple les significations globales dbpedia:Apple (identifiant pour le fruit)
et dbpedia:Apple_Inc. (identifiant pour lentreprise) permettant de distinguer ensuite,
via une signification locale, le sens quun utilisateur a voulu donner son tag au moment
dune action de tagging particulire. Si cette signification est destine en premier aux machines, on peut malgr tout simplement en proposer une interprtation humaine en utilisant
les diffrentes proprits associes ces URIs, notamment leur label (rdfs:label).
Nous avons ainsi propos un premier modle relativement simple permettant de considrer des ontologies de domaine (et les instances associes) en support des tags pour dfinir
ces significations [Passant, 2007c]. Dans un objectif de formaliser plus finement ces relations,
nous avons par la suite dfini MOAT105 Meaning Of A Tag [Passant et Laublet, 2008b]. Lobjectif de MOAT est ainsi de permettre la reprsentation formelle de ces diffrentes significations, aussi bien locale que globales, pour modliser des faits tels que "Dans le contexte de
cette photo, jutilise le tag apple reprsentant le concept identifi par dbpedia :Apple, i.e. le fruit
alors que pour ce billet de blog, jannote avec le mme tag apple mais cette fois-ci avec une signification associe dbpedia :Apple_Inc, i.e. lentreprise". Les ontologies et bases de connaissances
associes viennent donc ici en support des folksonomies, permettant de dfinir la smantique de chaque tag. En se rfrant aux notions de termes, notions et concepts proposes par
[Kassel et Perpette, 1999], MOAT permet donc le passage du terme (le tag apple) la notion
(la pomme en tant que fruit) et finalement au concept (identifi par une URI rfrante).
MOAT propose ainsi une ontologie OWL-DL106 et introduit une classe moat:Tag, sousclasse de tag:Tag. La raison de la dfinition de cette classe en complment de tag:Tag
est la prsence dans notre modle dune contrainte de cardinalit maximale de valeur 1 (via
owl:maxCardinality) sur la relation tag:name pour la classe Tag afin de rsoudre les
problmes que nous avons voqus auparavant au sujet de cette proprit (Section 3.3.1,
page 121). Concernant les reprsentations globales dun tag, nous reprsentons celles-ci
avec un classe ddie moat:Meaning, qui rifie la signification elle-mme en proposant un
lien moat:meaningURI vers une URI (la signification proprement dite, le lien tant unique)
ainsi quun ensemble de liens foaf:maker vers les utilisateurs layant dfini. Une proprit
moat:hasMeaning permet ensuite dtablir un lien entre une instance de moat:Tag et de
moat:Meaning afin de reprsenter ces diffrentes significations globales comme le montre
la figure (Figure 3.18, page 130) et le code RDF associ qui suivent (Listing 3.15, page 130). Ici
105
106
http://moat-project.org
Espace de noms http://moat-project.org/ns#, prfixe moat par la suite.
129
foaf:maker
http://apassant.net/
alex
moat:meaning
moat:hasMeaning
http://dbpedia.org/
resource/Apple_Inc.
http://example.org/
tag/apple
moat:meaning
moat:hasMeaning
http://example.org/
meaning/apple/2
foaf:maker
http://example.org/
alice
foaf:maker
http://dbpedia.org/
resource/Apple
http://example.org/
bob
Signification 2
< http :// example . org / tag / apple > a moat : Tag ;
moat : hasMeaning < http :// example . org / meaning / apple /1 > ;
moat : hasMeaning < http :// example . org / meaning / apple /2 > .
< http :// example . org / meaning / apple /1 > a moat : Meaning ;
moat : meaningURI < http :// dbpedia . org / resource / Apple_Inc . > ;
foaf : maker < http :// apassant . net / alex / >
< http :// example . org / meaning / apple /2 > a moat : Meaning ;
moat : meaningURI < http :// dbpedia . org / resource / Apple > ;
foaf : maker < http :// example . org / alice > ;
foaf : maker < http :// example . org / bob > .
proprit moat:tagMeaning qui permet de faire un lien au sein dune action de tagging
entre un tag et sa signification dans ce contexte comme lillustrent le code (Listing 3.16, page
131) et la figure qui suivent (Figure 3.19, page 131). Lontologie introduit galement une
contrainte de cardinalit maximale de valeur 1 sur la cette proprit tagMeaning.
< http :// example . org / post /1 > a sioc : Post ;
foaf : maker < http :// apassant . net / alex > ;
dct : title " Nouvel iPhone disponible " ;
moat : taggedWith < http :// dbpedia . org / resource / Apple_Inc . > .
< http :// example . org / tagging /1 > a tag : RestrictedTagging ;
tag : associatedTag < http :// example . org / tag / apple > ;
tag : taggedBy < http :// apassant . net / alex > ;
tag : taggedResource < http :// example . org / post /1 > ;
moat : tagMeaning < http :// dbpedia . org / resource / Apple_Inc . > .
tag:RestrictedTagging
http://example.org/tag/
apple
rdf:type
tag:associatedTag
http://example.org/
tagging1
tag:taggedBy
Tag Ontology
tag:taggedResource
moat:tagMeaning
http://example.org/
post/1
foaf:maker
http://apassant.net/alex/
FOAF
moat:taggedWith
http://dbpedia.org/
resource/Apple_Inc.
dct:title
Nouvel iPhone
disponible
MOAT + DBpedia
rdf:type
sioct:BlogPost
SIOC + DC
Figure 3.19: Reprsentation de la signification locale du tag apple avec MOAT et DBpedia
Cet exemple laisse de plus apparatre lutilisation dune proprit moat:taggedWith.
Celle-ci permet dtablir un lien direct entre la ressource annote et le concept reprsentant
la signification du tag, sans pour autant passer par une reprsentation du modle quadripartite de laction de tagging. SIOC, SKOC ou encore la Tag Ontology proposent des proprits similaires avec respectivement sioc:topic, skos:subject (la prcdente tant une
131
http://librarytechnz.natlib.govt.nz/2008/09/adding-tags-to-dc-metadata.htm
La proprit moat:taggedWith ntant pas reprsente pour considrer ici uniquement la reprsentation
quadripartite du modle.
132
moat:Tag
moat:hasMeaning
tags:associatedTag
Resource URI
moat:Meaning
moat:tagMeaning
moat:meaningURI
tags:RestrictedTagging
moat:Meaning
tags:taggedBy
foaf:maker
tags:taggedResource
foaf:Agent
foaf:Agent
Resource
Local meaning
Global meanings
Enfin, une autre spcificit de notre modle, notamment par rapport ce que proposent
la Tag Ontology, SCOT ou le modle thorique propos par [Jschke et al., 2008] (et mis en
place dans Bibsonomy) est de ne pas chercher organiser les tags entre eux pour pallier
leurs limites mais passer par les concepts associs aux tags pour arriver cet objectif.
Si la possibilit dorganiser hirarchiquement les tags permet de contextualiser les relations
et de conserver une notion de point de vue personnalise, la manire de ce que propose
[Zacklad, 2005] avec la notion dontologies smiotiques, notre proposition nous semble plus
pertinente pour plusieurs raisons :
tout dabord, il nous est apparu en consultant diffrents cas dusage de ces principes de
structuration de tags que de nombreuses relations ainsi dfinies sont assez gnrales
comme par exemple, le fait que le tag apple soit associ iphone ou macintosh ou
que france soit plus spcifique que europe. Or ces relations sont pour la plupart dj
reprsentes dans des bases de connaissances existantes, notamment issues du projet
Linking Open Data. Les relations des deux exemples prcdents se retrouvent ainsi respectivement dans DBpedia et Geonames. Dans les cas o de telles relations nexistent
pas, il nous semble galement plus pertinent denrichir une base de connaissances
existante plutt que de reprsenter celles-ci dans un systme clos, afin de permettre
une rusabilit de telles informations ;
de plus, alors que les relations taxonomiques classiques ne permettent pas de distinguer les diffrents liens qui peuvent exister entre tags (par exemple une notion de spcificit gographique ou le lien entre une marque et ses produits), notre approche permet de prendre en compte ces spcificits partir du moment o les relations existent
dans la base de connaissances associe et dans les ontologies sous-jacentes ;
en consquence, en ce qui concerne la recherche dinformation et la possibilit de dcouvrir des documents proches, de nombreuses possibilits soffrent lutilisateur.
133
Pour finir ce descriptif de MOAT, nous allons ici tudier le positionnement du modle
propos par rapport aux diffrentes ontologies permettant la modlisation des systmes
base de tags tudies prcdemment (Section 3.3.1, page 121). En termes dvaluation, nous
dtaillerons galement dans le chapitre suivant diffrents chiffres relatifs lutilisation de
MOAT dans notre contexte afin dvaluer la pertinence de notre approche (Section 4.4, page
183).
Ontologie
Format
Tag
Gruber
Tag Ontology
SCOT
NAO
TagOnt
Echarte
SKOS Core
SIOC
Annotea
Taxonomy
rel-tag
MOAT
Tag Ontology
+ SCOT
+ SIOC
+ MOAT
N/A
OWL-Full
OWL-Full
RDFS
OWL
OWL-DL
OWL-Full
OWL-Lite
RDFS
RDFS
Microformat
OWL-DL
OWL-Full
Supporte la modlisation de
Tagging
Tagging
Agent Nuage
(simple) (tripartite)
de tags
134
Signifi-cation
la lecture du tableau prcdent (Tableau 3.3, page 134), on observe que lapproche
propose par MOAT est la seule permettant de prendre en compte la signification des tags.
Si certains modles permettent dorganiser ceux-ci (comme SKOS ou la Tag Ontology), ils
ne permettent pas dassocier ces tags des reprsentations formelles (identifies par leur
URI) comme nous le proposons. De plus, comme nous lavons vu, certains de ces modles
permettent dtablir directement des liens entre ressources annotes et reprsentations formelles mais ceux-ci ne prennent alors pas en compte la notion de tag associ. Ajoutons galement le fait que ce lien direct ne peut tre utilis pour des ressources dont le concept annotant nest pas considr comme sujet de la ressource. Lapproche propose par MOAT est
donc complmentaire avec les modles existants tout en permettant de prendre en compte
ce lien entre tag et signification et non pas uniquement entre ressource et signification du
tag.
Cette complmentarit permet ainsi MOAT, associe la Tag Ontology, SIOC et SCOT
de proposer un ensemble complet dontologies ddies la reprsentation des diffrentes
caractristiques des systmes base de tags sur le Web Smantique : actions de tagging (Tag
Ontology), utilisateurs (SIOC), nuages de tags (SCOT) et significations (MOAT). Par lintermdiaire de cet cosystme dontologies, de tels systmes peuvent tre considrs comme
des lments part entire du Web Smantique, toujours dans cette vision dune complmentarit globale entre Web 2.0 et Web Smantique.
C ONCLUSION
Nous avons prsent dans ce chapitre lensemble des ontologies utilises au sein de notre
mdiateur smantique et la manire dont elles interagissent pour former un modle complet de reprsentation pour les activits, les documents et les donnes manipules au sein
de communauts Web 2.0 en entreprise. Nous avons tout dabord prsent SIOC, modle
aujourdhui utilis dans de nombreux cas dutilisation relatifs cette complmentarit entre
Web 2.0 et Web Smantique et qui nous permet dans notre contexte de reprsenter uniformment les documents crs depuis diffrents outils, de manire autonome comme nous
allons le voir dans le chapitre suivant (Section 4.1, page 138). Nous avons ensuite prsent
un ensemble dontologies de domaine relativement lgres (pour la plupart reposant sur
des modles existants) qui permettent ainsi de modliser diffrentes assertions mtier au
sujet de certains domaines dexpertise abords par lentreprise. Enfin, nous avons prsent
MOAT, modle permettant de combiner ontologies, bases de connaissances formelles, tags
et folksonomies afin doffrir un moyen de rsoudre les problmes de ces dernires tout en
conservant leur souplesse. Nous avons galement vu que certains de ces modles dpassaient le cadre de lEntreprise 2.0 et pouvaient tre galement utiliss sur le Web.
Plus particulirement, nous retiendrons de ce chapitre la manire dont ces diffrents
modles se compltent pour offrir une vision complte et modulaire de diffrentes strates
de reprsentation des connaissances dans un contexte de communauts actives autour de
thmatiques particulires. Ces diffrents modles permettent ainsi de prendre en compte
aussi bien les interactions sociales que les contenus crs via ces interactions sociales, tout
en articulant ces diffrents niveaux de reprsentation via MOAT comme le montre la figure
qui suit (Figure 3.21, page 136).
135
Ontologies mtier
MOAT
Ontologies socio-structurelles
RDFS / OWL
Nous allons maintenant nous intresser aux outils et processus permettant le peuplement de ces diffrents modles.
136
Chapitre 4
de donnes sont quant eux exports en tant quinstances de sioc:Container (ou dune
sous-classe). Les instances de sioc:Item associes sont rattaches au conteneur via la proprit sioc:has_container, le conteneur tant lui-mme rattach au site correspondant
(sioc:Site) via sioc:has_host. Lauteur du document est quant lui modlis en tant
quinstance de sioc:User, associ au document source via sioc:has_creator. La figure
qui suit exemplifie cette traduction pour un contenu particulier (Figure 4.1, page 139).
sioc:has_host
:site_1
:blog_1
sioc:Item
sioc:has_container
rdf:type
:item_1
dct:created
"2008-07-01"
dc:title
sioc:has_creator
meta-donnes
computationnelles
"Nouveau billet"
user_1
meta-donnes
sociales
Rdaction
Intervention
Utilisateur
Stockage
Exports ou
traduction
Figure 4.1: Processus gnrique de production de donnes RDF depuis des services Web 2.0
Nous allons maintenant dtailler diffrentes mthodes logicielles permettant la production automatique de ces annotations. Celles-ci sont utilises au sein de notre systme mais
galement de manire plus large sur le Web. Si nous prsentons dans cette partie une approche compltement automatise, nous verrons par la suite que la modlisation des contenus est plus complexe et ncessite gnralement une intervention supplmentaire (cest du
moins le choix que nous avons fait) (Section 4.2.1, page 148). Cest galement le cas pour le
passage du processus classique de tagging lindexation smantique (Section 4.3, page 171).
4.1.2
Pour rappel, notre systme dinformation se compose de trois outils partir desquels
nous souhaitons modliser ces annotations socio-structurelles : un agrgateur de flux RSS,
un systme de blog et un serveur de wikis (Section 2.1.1, page 50). Lautomatisation des
exports va donc permettre partir de ces trois outils dobtenir un graphe unifi de donnes RDF comme nous lavons prsent dans un prcdent chapitre (Figure 2.11, page 75).
139
Notons quen pratique, nous avons systmatiquement choisi dans notre agrgateur dintgrer la version
RSS dun flux lorsque ces deux formats taient disponibles.
2
Notons que nous ne prenons pas ici en compte la notion dautorit dans la gestion dune hirarchie de
classes distribue, problme soulev par [Hogan et al., 2008].
3
Mis part quelques exemples, nous nen avons en fait pas trouv.
140
Une dernire solution est lutilisation dune API permettant de manipuler des donnes
RSS ou Atom. Ce type dAPI permet gnralement la transformation de flux RSS en objets
(au sens Programmation Oriente Objet, POO par la suite) quil est possible de manipuler et
dexporter en RDF via des scripts ddis. Si cette solution est relativement simple mettre
en place, elle reste malgr tout nouveau limite des flux srialiss uniquement en XML
et selon un schma prdfini. Les problmes voqus plus tt (principalement thoriques
cependant) ne sont donc pas rsolus mais nous avons cependant opt pour cette solution
notamment par volont (1) de ne pas nous aventurer dans les transformations XSL et (2) de
re-utiliser une partie des dveloppements effectus autour de lagrgateur RSS originel (Section 2.1.2, page 53). Ainsi, nous avons utilis lAPI MagpieRSS4 , permettant de manipuler
des flux RSS avec PHP. Cest partir de cette API que nous avons implment lagrgateur
RSS utilis au sein de la plate-forme. Il a donc t possible dajouter simplement un processus de traduction vers SIOC en tant que plug-in de la plate-forme dorigine, toujours dans
cette ide de systme de mdiation au-dessus doutils existants. Notre script de conversion
est de ce fait assez lger (une trentaine de lignes de code), lessentiel tant gr par lagrgateur et lAPI en question. Nous verrons par la suite de quelle manire nous avons enrichi
cet export avec lajout dannotations destines lindexation smantique des contenus issus
de flux RSS (Section 5.3.2, page 212).
Quoi quil en soit, ces trois solutions, chacune avec leurs avantages et leurs limites, permettent de traduire des flux RSS en donnes RDF bases sur SIOC, comme lillustre la figure
qui suit (Figure 4.2, page 141).
sioc:has_host
:site_1
:feed_1
sioc:Item
SPARQL + CONSTRUCT
(RSS 1.0)
sioc:has_container
rdf:type
XSLT / XQuery
(RSS / Atom)
:item_1
dct:created
"2008-07-01"
dc:title
API Gnrique
(RSS / Atom)
"Nouveau billet"
Transformations
http://magpierss.sourceforge.net/
141
142
http://www-sop.inria.fr/edelweiss/software/corese/v2_4_1/manual/new.php
http://drupal.org
permettant lexport de donnes SIOC depuis Drupal7 . Ce plug-in permet ainsi de reprsenter de manire compltement autonome le graphe dannotations socio-structurelles associ
chaque document cr via ce systme. Lexport se fait de plus en temps rel, i.e. chaque
document cr dispose immdiatement de son graphe RDF associ.
Afin de coller au plus prs de nos besoins, ce plug-in public a en outre t adapt en
fonction de certaines caractristiques spcifiques notre plate-forme :
dune part, le module wiki tant un module spcifique notre systme dinformation,
lexport de ses donnes nest pas gr par le plug-in public. Nous avons donc dfini
diffrents alignements entre les structures de bases de donnes relatives aux wikis et
les proprits et relations dfinies dans SIOC. Par exemple, la table de jointure entre
les wikis et leurs pages permet dtablir des liens sioc:has_container entre les
instances associes (respectivement de sioct:WikiArticle et sioct:Wiki)
dautre part, le plug-in public se contente de crer des instances de sioc:Item sans
spcifier un type plus prcis. Puisque nous souhaitons dans nos requtes pouvoir distinguer le type de contenu (Section 5.2.1, page 199), nous avons prcis celui-ci en
typant les contenus exports avec le module Types de SIOC (Section 3.1.3, page 92).
De ce fait, notre implmentation produit soit des instances de sioct:BlogPost soit
de sioct:WikiArticle, en fonction de loutil utilis et du type de document cr.
Contrairement aux flux RSS qui proviennent de lextrieur et pour lesquels nous ne reprsentons pas le crateur de chaque lment de flux, nous nous attachons ici fournir
une reprsentation RDF de celui-ci, la fois dun point de vue de son compte en ligne
(sioc:User) et de la personne physique associe (foaf:Person). chaque utilisateur de
la plate-forme sont donc associes deux URIs distinctes et un graphe dannotations RDF
associ, par exemple :
http://athena.der.edf.fr/?q=sioc/user/1#user, identifiant de lutilisateur en
tant quentit virtuelle ;
http://athena.der.edf.fr/?q=sioc/user/1#person, identifiant de la personne
physique correspondante ;
http://athena.der.edf.fr/?q=sioc/user/1 fichier RDF associ listant certaines
proprits associes ces deux identifiants (nom, e-mail, URL du blog ...).
Ce plug-in permet ainsi dobtenir automatiquement, pour chaque contenu de blog ou de
wiki, un graphe dannotations RDF associ comme le montre la figure qui suit (Figure 4.3,
page 144). De manire plus prcise, la figure qui suit reprsente la traduction dun billet de
blog donn en instance de sioct:BlogPost grce ce plug-in (Figure 4.4, page 144).
4.1.3
Comme nous lavons vu dans la section prcdente, la production dannotations sociostructurelles depuis des services Web 2.0 implique le dveloppement de plug-ins ou outils
spcifiques depuis ces diffrents services. Pour faciliter ces dveloppements et dans loptique de gnraliser la production de telles annotations lchelle du Web, nous avons ainsi
mis en place une API ddie la production de donnes RDF reprsentes avec SIOC.
7
http://drupal.org/project/sioc
143
:site_1
:container_1
sioc:has_host
sioc:has_container
sioc:Item
rdf:type
Wikis
:item_1
dct:created
Objects PHP
(API Drupal)
traduits en donnes SIOC
"2008-07-01"
sioc:has_creator
dc:title
:u_1
foaf:maker
Utilisateurs
"Nouveau billet"
:p_1
Blogs
Base de donnes
distinctes
Figure 4.3: Processus de traduction des donnes de blogs et wikis vers SIOC
144
Par nature, la programmation ddie au Web Smantique est gnralement oriente triplets. Des APIs comme Jena8 , Redland9 ou RAP10 proposent ainsi par dfaut de dfinir un
modle (ou graphe) RDF auquel on ajoute un certain nombre de triplets. Le code ci-dessous
montre par exemple lutilisation de Jena pour crer une instance de sioc:Post associe
diverses proprits et relations (Listing 4.1, page 145).
String postURL = " http :// example . org / blogpost ";
String siocPost = " http :// rdfs . org / sioc / ns # Post ";
String dcCreator = " http :// purl . org / dc / terms / creator ";
String rdfType = " http :// www . w3 . org /1999/02/22 - rdf - syntax - ns #
type ";
Model model = ModelFactory . createDefaultModel () ;
Resource myBlogPost = model . createResource ( postURL ) ;
myBlogPost . addProperty ( rdfType , siocPost ) ;
myBlogPost . addProperty ( dcCreator , " Alexandre Passant ") ;
http://jena.sf.net
http://librdf.org
10
http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/
11
http://wiki.sioc-project.org/index.php/PHPExportAPI
12
http://www.ietf.org/rfc/rfc3870.txt
9
145
Personne A
Billet A2
...
Commentaire
Billet A1
Utilisateur A
Billet An
Blog B
Blog A
Site
...
Blog n
Figure 4.5: Reprsentation de liens rdfs :seeAlso entre documents RDF avec lAPI SIOC
Si lAPI peut-tre utilise partir de donnes brutes, une utilisation plus judicieuse est
de la coupler avec lAPI fournie par le service que lon souhaite exporter. Dans ce contexte,
on utilise (1) lAPI du service pour transformer les donnes source en objets PHP puis (2)
13
146
http://www.w3.org/2005/ajar/tab
lAPI SIOC pour transformer ces objets PHP en donnes RDF. On profite ainsi dune double
couche dabstraction qui permet au dveloppeur de se soucier ni des formats internes, ni du
modle RDF souhait en sortie. Cest cette solution qui a t privilgie au sein de lexporteur SIOC vBulletin14 (outil pour la mise en place de forums de discussions) ou encore pour
mettre en place le service dexport de donnes FOAF et SIOC depuis Flickr que nous avons
dvlopp [Passant, 2008b].
Cette API est aujourdhui utilise dans diffrentes applications, quil sagisse dexporteurs et plug-ins pour des services existants (VBulletin, Flickr, MediaWiki ...) ou dapplications spcifiques comme SMOB [Passant et al., 2008]. Cette dernire application bnficie
ainsi de lAPI pour proposer un systme de microblogging ouvert et dcentralis, et qui plus
est reprsentant lensemble des donnes produites avec SIOC. permettant ainsi leur intgration au sein de la SIOC-o-sphre. Notons galement que suite la mise disposition de cette
API, dautres APIs SIOC ont t proposes par la communaut, notamment en Java15 et en
Perl16 , avec des principes similaires. Ces diffrentes APIs poursuivant toutes le mme but
nous permettent ainsi denvisager une multitude de nouveaux services produisant des donnes reprsentes avec SIOC, accentuant encore plus sa prsence sur le Web (Section 3.1.6,
page 101).
Pour conclure, signalons que lAPI que nous proposons ici a t dveloppe pour les
besoins prcis de SIOC et nest donc pas aussi flexible que les APIs permettant de gnraliser la dfinition de classes (au sens POO) partir de tout modle RDFS ou OWL. ce
sujet, citons ActiveRDF [Oren et al., 2007] (Ruby On Rails), le module schemagen17 de Jena
(Java) ou encore RAP18 (PHP). Ces solutions, plus gnriques, sont cependant plus lourdes
et nous avons prfr pour cette API SIOC proposer un module indpendant et lger (un
seul fichier), plutt que de se baser sur une API plus complexe dont la gnricit naurait
pas t utile dans notre contexte. Dans le cas dune API oriente lecture, la dmarche est
diffrente puisquil est ncessaire dinterprter le graphe RDF, tape qui savre plus complexe. Le module dimport SIOC pour WordPress19 utilise par exemple RAP, tout comme
PHOAF20 , API que nous avons dveloppe pour permettre de manipuler simplement des
fichiers FOAF via des mthodes de POO. Cette dernire est notamment utilise dans FOAFMap21 [Passant, 2006], un des premiers services de mash-up smantique, permettant de visualiser un rseau social modlis avec FOAF sur une carte GoogleMap et de naviguer au
sein des diffrents profils ainsi reprsents mais aussi didentifier des personnes partageant
des centres dintrts similaires (Figure 4.6, page 148).
14
http://www.vbulletin.com/
http://mavenrepo.fzi.de/semweb4j.org/site/sioc-api/index.html
16
http://search.cpan.org/~geewiz/SIOC-v1.0.0/
17
http://jena.sourceforge.net/how-to/schemagen.html
18
http://www4.wiwiss.fu-berlin.de/bizer/rdfapi/
19
http://wiki.sioc-project.org/w/SIOC_Import_plug-in
20
https://gna.org/projects/phoaf
21
http://foafmap.net
15
147
4.2
4.2.1
Un autre aspect important prendre en compte dans notre contexte est celui du peuplement dontologies, dans cet objectif de reprsentation interprtable de donnes mtier
(Section 3.2, page 103). Bien que ce processus puisse dans certains cas tre assist ou semiautomatis via lanalyse de corpus de textes [Kiryakov et al., 2004] [Amardeilh et al., 2005],
il peut aussi se baser sur une approche manuelle de production dannotations confie une
quipe ddie. Celle-ci est gnralement restreinte et peut tre compose aussi bien dexperts du domaine que de spcialistes en ingnierie des connaissances. Si cette collaboration
permet de sassurer de la qualit des donnes produites, la fois en termes de valeur intellectuelle (via lexpert du domaine) et de qualit smantique (via les spcialistes en ingnierie
des connaissances), elle rend dlicat le maintien et lvolution de bases de connaissances
flux tendu. Ce maintien seffectuant en effet en vase clos, via une quipe restreinte et prdfinie, il implique limpossibilit pour des contributeurs externes de faire profiter lquipe de
leur expertise, partir du moment o ils ne font pas partie du groupe destin maintenir
ces bases de connaissances. Un autre point prendre en compte est celui du transfert de
connaissances, notamment lorsque le ou les experts du domaine quittent lentreprise. Dune
part, ce processus peut tre relativement long selon les domaines et dautre part, certains
corps de mtier peuvent ne plus exister, rendant ce transfert encore plus dlicat. De plus, signalons que les outils associs (Protg22 par exemple) sont en gnral destins un public
avanc, ne serait-ce quen termes dinterface utilisateur.
On peut ici faire un parallle avec ce que nous avons prsent prcdemment dans ce
mmoire, savoir lavantage des outils Web 2.0 en entreprise (et des pratiques lies) par
rapport des structures informationnelles classiques (quipe restreinte, workflow ...) (Section
2.1.1, page 50). Si ceux-ci permettent une volution ouverte et spontane de linformation,
22
148
http://protege.stanford.edu
il nous a paru intressant de rflchir des principes similaires pour une ingnierie des
connaissances collaborative et ouverte. En consquence, dans ce contexte dEntreprise 2.0,
nous avons tudi le rapprochement entre ces processus Web 2.0 et les principes de peuplement dontologies. Cest au travers des wikis smantiques et plus particulirement au sein
dun nouvel outil de ce type, UfoWiki (Section 4.2.2, page 154), que nous avons tudi et mis
en place cette convergence.
Tout comme le Web Smantique est une extension du Web, les wikis smantiques sont
une extension des wikis permettant dajouter ceux-ci des mthodes de reprsentation formelle des connaissances. Ces reprsentations peuvent se concentrer selon les outils sur la
structure ou sur le contenu des pages et conservent dans tous les cas les principes dutilisation des wikis (Section 1.2.2, page 36). Alors que nous avons insist dans la section prcdente sur les annotations socio-structurelles (Section 4.1, page 138), nous allons ici considrer principalement les wikis permettant la modlisation du contenu des pages, i.e. la formalisation de connaissances mtier. Ceux-ci permettent ainsi dtablir un pont entre le Web de
documents et le Web de Donnes (Section 1.1.4, page 27), comme lillustre nouveau la figure
ci-aprs (Figure 4.7, page 149). Le wiki devient ainsi le support dun ensemble de donnes
connectes via diffrents graphes dannotations, permettant terme lenrichissement des
fonctionnalits offertes. Nous voyons donc les wikis smantiques comme des interfaces permettant, du fait de leur philosophie (ouverture, collaboration ...) le peuplement dontologies
par et pour tous [Passant et Laublet, 2008e].
hyperlien
Entreprise
est une
EDF
France
Documents
EDF
Ontologies et
instances
produit
Pays
situ en
Energie
est un
hyperlien
Energie
France
Wiki classique
Wiki smantique
http://semwiki.org
149
http://platypuswiki.sourceforge.net/
26
http://www.eyaloren.org/semperwiki.html
150
triplets o le concept recherch est remplac par un ?. Par exemple la requte identifie par
? rdf:type foaf:Organisation listera lensemble des organisations recenses dans le
wiki.
Semantic MediaWiki
Semantic MediaWiki27 (SMW par la suite) [Krtzsch et al., 2006] est une extension du
moteur MediaWiki28 , utilis entre autres par Wikipedia. Son mode dannotation ne se base
pas sur lcriture directe de triplets mais sur une extension de la syntaxe wiki, facilitant
la tche dappropriation. Par exemple, pour indiquer quEDF est situ en France, on saisira EDF est implante en [[se_situe_en::France]], texte qui sera traduit en lassertion onto:EDF onto:se_situe_en onto:France partir du moment o ce texte est
saisi sur une page relative EDF, le sujet de chaque triplet tant par dfaut le concept associ la page en cours. SMW distingue donc document et concept, en dfinissant une URI
pour chaque concept, diffrente de lURL de la dite page29 . Lutilisation dun systme dannotations totalement ouvert, conforme avec la philosophie wiki, permet de considrer SMW
comme un wiki smantique ddi non seulement au peuplement dontologies, mais aussi au
maintien des modles associs (voire leur dfinition). Cependant, cette ouverture conduit
rapidement des problmes dhtrognit smantique. Alors quun utilisateur choisira la
syntaxe se_situe_en pour modliser une relation de localisation, un second pourra prfrer est_localis_en. Les annotations produites seront donc totalement indpendantes,
leur intrt se trouvant restreint puisque sans smantique commune. Le mme problme se
pose pour la gestion des classes, celles-ci tant dtermines partir des catgories assignes
aux pages. Notons cependant que SMW offre la possibilit daligner certaines relations et
catgories avec des ontologies existantes et que les modles crs partir du wiki sont exports en OWL-DL et donc rutilisables dans dautres applications.
Pour tirer parti des annotations, SMW propose diffrents modes de navigation avancs. Cest notamment le cas des pages Property listant lensemble des triplets utilisant une
proprit particulire30 ou des pages Special:Browse listant lensemble des assertions relatives un concept31 . Mais surtout, SMW offre un systme de requtes avances, modlises avec une syntaxe wiki particulire et permettant linclusion de rponses des requtes
complexes au sein mme des pages wiki. Il est par exemple possible de lister lensemble
des vnements recenss au sein dun wiki, comme le montre le code suivant utilis pour
crer un tableau des vnements venir, ordonns par date et indiquant galement leur
emplacement gographique32 (Listing 4.2, page 152).
27
28
http://semantic-mediawiki.org/
http://mediawiki.org
29
151
IkeWiki
IkeWiki33 [Schaffert, 2006] se base quant lui sur des ontologies prdfinies, permettant
de sassurer de la qualit smantique des annotations produites. Lutilisateur est assist au
moment de la pose de liens entre pages : un certain nombre de prdicats lui sont proposs,
qui sont ensuite traduits en relations entre les concepts associs ces pages. De plus, chaque
page peut tre associe une classe via un parcours de lontologie (ou plutt de la taxonomie
des classes), le concept associ la page tant alors dfini comme instance de la classe en
question. IkeWiki utilise galement les annotations produites pour laide la navigation,
notamment en affichant pour chaque page la hirarchie de classes associes. Loutil bnficie
galement de capacits dinfrence, en grant les notions de sous-classes et sous-proprits
pour laide la navigation et permet lutilisation de requtes SPARQL pour interroger la
base de connaissance.
Notons galement quIkeWiki modlise galement un certain nombre dannotations sociostructurelles laide dun vocabulaire propre et propose en plus une modlisation des discussions associes aux pages wikis, en utilisant SIOC34 . Cest notre connaissance le seul
outil modliser ses pages de discussions en RDF. Ceci nous semble particulirement intressant dans la mesure o lon peut ainsi identifier la communaut qui stablit autour dun
concept donn. Sil sagit pour linstant dun simple export, il y a selon nous un fort intrt
considrer une approche plus pousse permettant de modliser le discours argumentatif
associ.
OntoWiki
Bas sur Powl35 [Auer, 2005], diteur dontologies en ligne, OntoWiki [Auer et al., 2006]
est la frontire entre le wiki smantique et lditeur classique dontologies et de bases de
connaissances. En effet, OntoWiki nutilise pas strictement parler de pages wikis comme
dans les outils prcdents mais propose un systme de vues virtuelles tablies au dessus
33
http://ikewiki.salzburgresearch.at/
http://tinyurl.com/6n2dg2
35
http://ontowiki.net/Projects/Powl
34
152
dune ou plusieurs bases de connaissances. Chaque graphe ou triplet est ainsi reprsent
via un fragment de page dynamique qui lui sert la fois dinterface de visualisation et
ddition. Ceci permet doffrir diffrents niveaux de reprsentation et de granularit pour
une navigation trs souple. Par exemple, il est possible dobtenir une page listant lensemble
des instances dune classe donne, une seconde relative lensemble des proprits (et leurs
valeurs) dune instance particulire, ou bien encore une autre indiquant tous les triplets
de la base de connaissance utilisant une certaine proprit. Lutilisateur est l aussi assist
lors de ldition et la cration de nouvelles assertions, avec notamment un systme dautocompltion suggrant les instances possibles pour chaque proprit. Tout comme SMW,
OntoWiki permet de faire voluer le modle dynamiquement mais utilise une approche
plus formelle : chaque nouvelle proprit doit ainsi tre dfinie comme ObjectProperty
ou DataTypeproperty.
Les annotations produites sont utilises dune part pour produire les diffrentes vues et
ainsi proposer une navigation directement lie lontologie, mais aussi pour offrir lutilisateur un moteur de recherche enrichi de fonctionnalits smantiques. Ainsi, la recherche
plein-texte est couple aux connaissances acquises, permettant lutilisateur de spcifier
quelle classe, instance ou proprit il veut restreindre celle-ci. De plus, un systme de vue
avanc permet de visualiser les annotations sous diffrentes formes : vue calendaire pour
les donnes proposant des attributs temporels, golocalisation pour celles associes des
coordonnes, etc. Une autre originalit dOntoWiki rside dans ses aspects pousss de collaboration et de participation. Chaque modification quelque soit sa nature est trace selon
les principes de rification RDF, permettant didentifier lauteur ou la date de cration de
chaque assertion. Il est en outre possible de commenter et annoter chaque triplet, ceci dans
une optique dlaboration de rseaux sociaux autour de la construction de ressources ontologiques.
Malgr cette composante, OntoWiki reste plus proche comme nous lavons dj mentionn de lditeur dontologies en ligne que du wiki smantique tel que nous le concevons, i.e. un outil offrant une certaine modularit entre le wiki plein-texte et lannotation
smantique et reposant sur des ontologies, prdfinies ou volutives.
AceWiki
Le systme AceWiki36 [Kuhn, 2008] est assez original dans sa dmarche, puisque son approche dannotations repose sur lutilisation du modle de langue naturelle contrle propos par ACE Attempto Controlled English [Fuchs et al., 2000]. Ainsi, la saisie de chaque
page wiki est assiste (ou contrainte, selon le point de vue) pour produire un contenu directement interprtable par le moteur wiki et par extension traduit en annotations RDF
grce un processus dalignement entre ACE et RDF(S)/OWL. Tout comme SMW ou Ontowiki, AceWiki permet de faire voluer le modle utilis. Par exemple, une phrase comme
Country is a Class induira la cration dune nouvelle classe Country, permettant ensuite lutilisation de France is a Country, immdiatement traduit en lannotation RDF
correspondante.
36
http://attempto.ifi.uzh.ch/acewiki/
153
En considrant ltat de lart prcdent et lensemble des critres que nous avons pris
en compte, nous avons dcid dimplmenter UfoWiki38 Unifying Forms and Ontologies in
a Wiki [Passant et Laublet, 2008a] [Passant et Laublet, 2008d] nouvel outil de wiki smantique. Celui-ci est une extension de la plate-forme dveloppe initialement au sein dHerms
(Section 2.1.2, page 55). Ainsi, plus quun simple outil de wiki, il sagit dun serveur de wiki,
i.e. une application permettant chaque utilisateur dinstancier un nouveau wiki smantique pour sa communaut. Se baser sur le service existant nous permet de bnficier des
dveloppements relatifs la partie wiki classique de loutil (rtro-liens, historique des versions, etc.) mais surtout de ne pas troubler les utilisateurs en les confrontant un nouvel
outil39 . Si loutil nest pas public, nous esprons que les ides dfendues ici pourront tre
par la suite implmentes dans des outils comme ceux prsents dans la section prcdente.
UfoWiki repose sur les principes suivants :
Une reprsentation des connaissances base sur des ontologies prdfinies. Le fait de reposer
sur des ontologies connues nous permet de nous assurer que les annotations produites
sont conformes des modles pralablement identifis. Ceci nous semble essentiel
dans un contexte dentreprise afin dviter les problmes dhtrognit smantique
et facilite de plus lcriture de requtes relatives aux annotations produites (Section
5.2.1, page 199). Bien que lon puisse supposer quun modle cohrent merge de lutilisation dun wiki smantique au modle ouvert (tel que Semantic MediaWiki), comme
cest le cas pour les systmes base de tags, nous ne pouvons nous permettre dans
un contexte industriel dattendre cette masse critique qui permettra (ventuellement)
37
Il sagit ici dun choix guid par une optimisation en termes de performance qui consiste ne pas recalculer
lensemble de la base de connaissance chaque nouveau fait saisi.
38
39
http://ufowiki.org
Cest galement une des raisons qui nous a pouss implmenter UfoWiki plutt que denrichir une plateforme existante parmi celles prsentes auparavant.
154
40
Ou plutt dutilisation du Wiki car le principe dannotation smantique leur est entirement masqu.
155
Architecture logicielle
Pour arriver ces diffrents objectifs, notre systme fait intervenir trois composants majeurs : (1) un ensemble dontologies, (2) des interfaces dadministration et ddition et (3)
un systme de production et de stockage des annotations. Si nous lavons conu comme un
plug-in de loutil wiki dorigine, nous allons ici le dtailler comme un systme part entire, notamment parce que loutil sur lequel il repose est un outil ad hoc dvelopp pour
les besoins de la plate-forme Herms. Gardons malgr tout cette notion dextension lesprit notamment par rapport notre vision qui propose denrichir les outils dun systme
dinformation existant et dj pris en main par les utilisateurs plutt que den proposer de
nouveaux.
Ontologies
La premire partie de larchitecture dUfoWiki consiste donc en un ensemble dontologies venant en support des annotations produites. Puisque nous souhaitons reprsenter la
fois des annotations socio-structurelles et des annotations mtier, deux types dontologies
sont ncessaires :
pour la premire partie, nous avons naturellement fait le choix de SIOC et de son
module Types, pour modliser la structure dun wiki et les pages associes avec les
classes sioct:Wiki et sioct:WikiArticle. Le systme permettant aussi de taguer
les pages, nous reposons sur la Tag Ontology et sur MOAT puisquUfoWiki intgre des
fonctionnalits dindexation smantiques partir de tags (Section 4.3, page 171) ;
pour la seconde, le wiki reste indpendant des ontologies utilises, le seul prrequis
tant leur modlisation en RDFS/OWL. Dans le cas dusage qui nous intresse, nous
avons considr les modles du chapitre prcdent (Section 3.2, page 103).
156
Toujours en termes dontologies, nous avons voqu dans la section prcdente un point
qui nous parait particulirement novateur, savoir la modlisation des liens entre annotations socio-structurelles et annotations mtier. Pour ce faire, nous avons introduit une proprit embedsKnowledge, qui permet de faire le lien entre ces deux ensembles dassertions.
Celle-ci repose sur lutilisation des graphes nomms [Carroll et al., 2005] et propose ainsi
une autre manire darticuler mtadonnes socio-structurelles et donnes mtier en plus de
MOAT comme nous lavons vu en conclusion du prcdent chapitre (Section 3.3.4, page
135). Cette proprit permet de lier toute instance de sioc:Item un graphe RDF dannotations mtier (Figure 4.8, page 157). En pratique, nous disposons lors de la cration dune
page sous UfoWiki de deux graphes dannotations, regroups au sein de deux documents
distincts. Nous lions ainsi linstance de sioc:Item lURL du document contenant les annotations mtier.
http://athena/alex
:embedsKnowledge
sioc:has_creator
EDF
dc:title
Page wiki A
athena:EDF
http://sws.geonames.org/
3017382
sioc:has_container
rdf:type
geonames:locatedIn
http://athena/wiki/A
sioct:WikiArticle
Graphe RDF
d'annotations mtier
Graphe RDF
d'annotations sociostructurelles
Figure 4.8: Interactions entre annotations documentaires et annotations mtier dans UfoWiki
Cest grce cette relation embedsKnowledge couple lutilisation de graphes nomms
que nous pouvons modliser finement certaines proprits associes aux annotations mtier.
On peut ainsi considrer cette combinaison comme un moyen de rifier des assertions mtier
via lutilisation des annotations socio-structurelles. Comme le montre la figure prcdente,
cette complmentarit entre les deux graphes dannotations nous permet didentifier par
exemple qui, quand et depuis quel wiki le fait quEDF est bas en France a t tabli. Nous
verrons dans le chapitre suivant comment nous tirons bnfice de cette proprit au sein de
requtes SPARQL (Section 5.2.2, page 204). Ce choix de sparer les annotations dans deux
documents distincts nous permet galement denvisager un export et une utilisation des
annotations selon diffrents points de vue : annotations socio-structurelles uniquement ou
annotations mtier, les deux pouvant bien sur tre combines.
157
Figure 4.9: Association dun type de page une classe avec UfoWiki
des lments de formulaires qui sont associs aux types de pages prcdents via une
interface AJAX de glisser-dposer (Figure 4.10, page 159). Ces lments peuvent tre
de diffrents types (zone de texte, case cocher ...) et permettent la production dannotations RDF associes aux instances cres via le wiki. Une syntaxe particulire est
utilise par ladministrateur pour dfinir le lien entre formulaires et annotations, sous
la forme $idA proprit $idB. Ainsi, $1 foaf:member $main permettra dtablir une relation foaf:member entre le concept identifi par le premier champ de formulaire ($1) et celui identifi par la page en cours ($main). Pour faire la distinction
entre les proprits ObjectProperty et DatatypeProperty, ces widgets ncessitent
galement dindiquer le type dobjet attendu pour chaque lment dans les cas dune
proprit ObjectProperty. Ce type est ensuite utilis pour lautocompltion ou pour
158
la cration de nouvelles instances si ncessaire (Section 4.2.4, page 161). Dautre part,
ces widgets peuvent tre mutualiss au sein de plusieurs pages, i.e. associs plusieurs
classes. Cest par exemple le cas dun widget Localisation qui peut-tre associ la fois
Personne et Entreprise.
Figure 4.10: Cration de formulaire pour une classe donne avec UfoWiki
la lecture de ce second point, on peut se demander pourquoi cette gnration de formulaires nest pas automatique partir du moment o chaque page est associe une classe
et o lon dispose des modles associes. Cette automatisation est certes possible (en analysant lontologie utilise) mais conduit selon nous des formulaires beaucoup moins pertinents, en raison de la nature mme des ontologies RDFS/OWL et notamment de la modlisation du domaine (au sens rdfs:domain) des proprits. En effet, si lon souhaite automatiser la cration de formulaires, il est ncessaire de prendre en compte non seulement les
proprits ayant un domaine correspondant exactement chaque classe, mais aussi celles
ayant un domaine compatible41 . Si cela impose dune part lutilisation dun raisonneur pour
identifier ces proprits, cela peut aussi conduire une abondance de champs non pertinents. Ainsi puisque nous utilisons FOAF, cette automatisation aurait intgr au formulaire
Personne un champ Code ADN (foaf:dnaChecksum, domaine non restreint) et au formulaire Entreprise un champ Compte MSN (foaf:msnChatID, domaine dfini par foaf:Agent
dont notre classe foafplus:Company hrite). Si nos principes de formulaires explicites et
de la mme manire le fait de spcifier le type attendu pour les valeurs de chaque proprit
ferment en quelque sorte lhypothse du monde ouvert, cela nous semble indispensable
pour proposer une interface utilisateur pertinente pour la saisie dinformation42 .
41
Nous nous rfrons ici la notion de compatibilit des domaines telle que nous lavons voqu plus tt
dans ce mmoire (Section 3.2.5, page 117).
42
Nous navons pas considr ici la possibilit dutiliser des ontologies ddies la prsentation et
mise en forme de contenus qui pourraient rpondre en partie la question, comme proposes par
[Khushraj et Lassila, 2005].
159
dite
Page wiki
A
dite
produit
Metadonnes
RDF au
sujet de la
page A
utilise
Ontologies
documentaires
(SIOC, DC,
MOAT ...)
lien hypertexte
Page wiki
B
Niveau wiki
produit
produit
Description
RDF des
donnes
mtier de
la page A
lien smantique
(via embedsKnowledge)
Annotations
smantiques
entre donnes
Description
RDF des
donnes
mtier de
la page B
utilise
produit
Entrept RDF
Metadonnes
RDF au
sujet de la
page B
lien smantique
(via embedsKnowledge)
Ontologies mtier
(FOAF, SKOS,
Geonames ...)
Niveau Web
Smantique
160
Stockage
4.2.4
UfoWiki en pratique
Parmi lensemble des wikis mis en place au sein dHerms, trois dentre eux ont t
enrichis des fonctionnalits de peuplement dontologies proposes par UfoWiki43 :
un wiki destin la modlisation des acteurs et de leurs domaines dactivits, nomm
HPdia ;
un wiki destin la modlisation et lorganisation taxonomique des diffrents domaines et mtiers ;
un wiki destin la gestion des partenariats.
Pour chacun dentre eux, diffrents types de pages et de formulaires ont t crs, associs
aux modles prsents dans le prcdent chapitre (Section 3.2, page 103). Ainsi, chaque
cration de page depuis lun de ces wikis, lutilisateur a la possibilit de choisir le type de
page correspondant parmi ceux disponibles pour le wiki en question, chaque type tant associ une classe particulire. Par exemple, dans HPdia, lutilisateur peut choisir parmi diffrents types dont Personnalit (associ foaf:Person) ou Socit (foafplus:Company),
les URIs tant masques lutilisateur (Figure 4.12, page 161). Il a galement la possibilit de
ne pas utiliser de formulaire : dans ce cas, seules les annotations socio-structurelles seront
produites.
Les autres wikis bnficient cependant des autres caractristiques dUfoWiki, notamment les macros.
161
Macro interne
Champ avec
auto-compltion
Instance interne
Figure 4.13: dition dune page wiki pour la cration dinstance via UfoWiki
Avant de revenir plus tard sur la macro prsente dans cet exemple (Section 5.2.1, page
199), dtaillons tout dabord ce que nous appelons instance interne. Dans la plupart des wikis smantiques, les relations entre instances sont possibles dans la mesure o chaque instance est identifie par une page donne. Ce choix sexplique notamment (1) par le lien
implicite entre chaque page et une instance associe et (2) par lutilisation des liens hypertextes pour modliser les relations entre ces instances. Ceci oblige cependant disposer
dune page wiki par instance. Si lon se remmore nos modles, nous disposons dune classe
role:Role quil nous semble peu pertinent de reprsenter de cette manire, notamment
car il sagit dune simple relation tripartite entre un domaine, un mtier et une zone gographique, sans description particulire (Section 3.2.4, page 109). UfoWiki offre ainsi, via
un type de widget particulier, la possibilit de crer des instances au sein de pages en plus
de linstance principale, comme lillustre la figure prcdente avec cette notion dinstance
interne (Figure 4.13, page 162). Notons galement que, pour chaque champ dont la valeur
est associe une classe particulire, une nouvelle instance est cre (et type selon cette
162
classe) sil nen nexiste pas encore au sein de la base de connaissance pour la valeur entre.
Enfin, afin dassocier chaque page wiki linstance principale correspondante nous utilisons la proprit foaf:primaryTopic au sein du graphe dannotations socio-structurelles,
alors que sioc:topic est utilis pour identifier les autres instances associes la page en
question. Nous verrons dans le chapitre suivant comment cette proprit nous permet de
contextualiser les macros au sein dUfoWiki (Section 5.2.2, page 204). Notons galement que
pour chaque nouvelle instance cre, UfoWiki va considrer lURI de cette instance comme
signification globale du tag correspondant son label, et intgrer cette signification au sein
du serveur MOAT (Section 4.3, page 171), afin de faciliter le processus dindexation smantique partir de tags.
Lensemble des annotations RDF produites depuis cet exemple de page wiki, associe
lorganisation Association des Maires de France, est disponible en annexe :
dune part les annotations socio-structurelles (Section E, page 243) ;
dautre part les annotations mtier (Section D, page 239).
Comme on peut le voir en analysant ce second document, des URIs particulires sont utilises pour modliser les domaines et mtiers. En effet, comme nous lavons voqu, UfoWiki permet le partage dannotations produites entre les diffrents wikis du systme, en
particulier le partage dURIs associes aux diffrentes instances produites. Ainsi, les instances cres au sein du wiki mis en place pour lorganisation des domaines et mtiers (et
reposant galement sur UfoWiki) sont rutilises lors de la cration dannotations au sein
dHPdia, rutilisation facilit par le systme dautocompltion. Notons que ce second wiki
(relatif aux domaines et mtiers) bnficie galement, tout comme HPdia, de possibilits
de compltion qui permettent ici dassister lutilisateur dans la dfinition des taxonomies de
domaines et mtiers (Figure 4.14, page 163). Lutilisation dun tel wiki permet ainsi une volution constante de ces taxonomies afin de sadapter rapidement lmergence de nouveaux
domaines.
163
http://www.geonames.org/export/
Notons plus gnralement que la dpendance des services externes peut poser des problmes la fois
de dpendance lapplication interne tant soumise au bon fonctionnement dun systme public et de confidentialit en fonction du service interrog et du type de requte, des informations confidentielles peuvent
filtrer.
164
Macro interne
Champ avec
auto-compltion
le service au moment de la validation et que nous ne possdons pas au sein de notre base
de connaissance de lensemble des donnes proposes par Geonames. Dans ce cas, nous aurions pu dfinir un systme dautocompltion adapte afin de rsoudre plus simplement ce
Macro interne
problme dambigut, comme le proposent [Hildebrand et al., 2007].
Instance interne
Champ avec
auto-compltion
Interrogation du
service Web
geonames.org
Instance interne
tre :
les principes dannotations par formulaire, permettant une reprsentation simple et
assiste dannotations smantiques mtier ;
la production simultane dannotations socio-structurelles et dannotations mtier, les
deux tant de plus combines. Parmis les wikis considrs, seul IkeWiki offre un modle complet et pertinent pour ce premier type dannotations, le modle SWIVT46 de
Semantic MediaWiki tant relativement pauvre (seule la notion de page wiki est modlise) ;
la complmentarit avec des ressources dj prsentes sur le Web Smantique, dans un
objectif de wikis interconnects et non plus considrs comme des outils indpendants
dfinissant leurs propres instances en vase clos.
46
http://semantic-mediawiki.org/swivt/1.0#
167
168
SWIVT
Semantic
MediaWiki
IkeWiki
SIOC
MOAT (Tagging)
UfoWiki
Contraintes (ACE)
Formulaires
Peuplement
dontologies
Ontologies
Annotations
Dfinies par ladministrateur
Formulaires triplets
Annotations RDF/XML
Annotations RDF/XML
Annotations Turtle
Gnres via le wiki
Syntaxe wiki tendue
volution libre
Dfinies par ladministrateur
Assistance (liens typs)
Macros internes
Raisonnement RDFS
Point daccs SPARQL
Visualisation avance
Aide la navigation
Macros internes
Aide la navigation
Macros internes
Aide la navigation
Raisonnement RDFS
Aide la navigation
Visualisation avance
Raisonnement OWL
Aide la navigation
Services
Additionnels
AceWiki
Ontowiki
SemPerWiki
Modle IkeWIki
SIOC (discussions)
Platypus
Mtadonnes
socio-structurelles
Statistiques dutilisation
Comme nous lavons prcdemment voqu, trois wikis utilisant UfoWiki ont t mis
en place au sein dHerms. Afin de mesurer lacceptation de loutil, nous avons tudi sur
une priode de plusieurs mois lutilisation de lun dentre eux, savoir HPdia, wiki destin capitaliser des informations au sujet de diffrents acteurs acadmiques et industriels.
Celui-ci permet donc le peuplement des ontologies de domaine prsentes dans le chapitre
prcdent, dans le sens o chaque acteur est reprsent par des informations gnrales le
concernant (type dentit, nom, etc.), sa localisation et les diffrents rles qui lui sont associs, comme nous avons pu le voir sur une prcdente figure (Figure 4.13, page 162). Sur
une priode de 200 jours sur laquelle porte notre analyse, on peut observer que 173 pages
wiki ont t cres, pour un total de 352 instances (Figure 4.16, page 169). Une vingtaine
dutilisateurs ont pris part cette dmarche volontaire de peuplement dontologies travers lutilisation dHPdia. Il est important de signaler que la majorit de ceux-ci ntaient
ni forms sur les technologies du Web Smantique ni particulirement adeptes dinterfaces
logicielles avances, certains dentre eux nayant jamais utilis de wiki avant la mise en
place de la plate-forme Herms. Il nous semble en consquence quUfoWiki a pu jouer correctement son rle doutil simple ddi au peuplement dontologies, dautant plus que les
utilisateurs ayant particip ce peuplement nont jamais t directement confronts cette
notion dontologies et de bases de connaissances au travers de loutil. On peut galement
remarquer sur cette figure un pic aux alentours du 75eme jour, correspondant une priode
o certaines donnes prsentes dans dautres bases de connaissances internes lentreprise
(Lotus Notes) ont t portes au sein dHPdia.
400
Pages wiki
Instances
300
200
100
0
0
50
100
150
200
Days
1600
1400
1200
1000
800
600
400
200
0
0
50
100
150
200
Days
Partie dune page Wikipedia contenant des informations structures, qui sert notamment au maintien de
DBpedia.
48
http://vs.aka-online.de/cgi-bin/wppagehiststat.pl?lang=fr.wikipedia&page=
Association_des_maires_de_France
170
4.3
4.3.1
Si la production dannotations socio-structurelles, telle que dfinie au dbut de ce chapitre, peut tre automatise, passer dun processus classique de tagging une indexation
smantique guide par des ontologies de domaine est plus complexe. Nous avons prsent
dans le chapitre prcdent MOAT, modle permettant de lier tags et ontologies de domaine
dans cet objectif de transition entre tags et indexation smantique (Section 3.3, page 119).
Celui-ci repose sur la notion de significations associes aux tags, celles-ci tant reprsentes
avec des URIs de concepts du Web Smantique, en particulier des instances dontologies.
Afin de mettre ce modle en pratique et lintgrer des systmes de tagging, il est primordial de rpondre aux deux questions suivantes :
tout dabord, comment rendre ce passage aussi souple que possible pour lutilisateur
final. La simplicit des tags ayant contribu leur acceptation, il est ncessaire de
conserver une approche intuitive pour permettre la russite de tels systmes ;
ensuite, comment mettre en place une architecture de participation au sein de ce processus. Une telle architecture doit permettre le partage des significations au sein dune
communaut, de la mme manire que les plates-formes classique de systmes base
de tags permettent tous de bnficier des apports de chacun (autocompltion, suggestion ...).
Pour ce faire, nous avons mis en place une architecture logicielle reposant sur le modle
MOAT et base sur :
un serveur qui va stocker lensemble des tags utiliss au sein dune communaut donne ainsi que les significations globales associes ceux-ci, i.e. les URIs des concepts
signifiants ;
diffrents clients qui vont permettre aux utilisateurs de bnficier de ces significations
lors dactions de tagging pour dfinir les significations locales de leurs tags. Ces clients
interagissent avec le serveur pour permettre lajout de nouvelles significations globales au sein de la communaut.
Le processus associ cette architecture permet ainsi de faire le lien entre tagging et
indexation smantique de la manire suivante (Figure 4.18, page 172) :
lutilisateur cre un contenu et le tague avec de simples mots-cls ;
pour chaque tag, le client MOAT va rcuprer depuis le serveur auquel lutilisateur a
souscrit la liste, qui peut ne contenir quun lment, des significations globales associes ce tag (i.e. les URIs des diffrents concepts associes) ;
lutilisateur va choisir parmi cette liste le concept correspondant son tag dans ce
contexte particulier dannotation. Si rien ne convient, il a la possibilit de dfinir une
nouvelle signification ;
une fois le choix valid, le client produit automatiquement lensemble des annotations
RDF relatives lindexation smantique du contenu annot.
Ce processus permet donc, via un worflow assez lger, de passer du document tagu un
graphe dannotations RDF relatives lindexation smantique de celui-ci. Nous verrons
dans le chapitre suivant comment tirer profit des diffrentes annotations ainsi cres en
171
L'utilisateur
cre un contenu et
le taggue
L'application interroge
un serveur de tags
<http://geonames.org/resourceid>
L'utilisateur slectionne
la ressource correspondant son
tag dans le contexte du contenu cr
<http://dbpedia.org/resource/example>
<http://athena/data/uri>
<http://something.net/resource>
L'utilisateur sauvegarde
son contenu
http://athena/blog/post/117
Le contenu est
smantiquement annot
moat:taggedWith
http://athena/data/uri
Nous dtaillerons sous peu de quelle manire se fait cette assignation dune nouvelle signification pour un
tag donn.
172
le serveur va alors renvoyer trois URIs, lutilisateur na donc qu en valider une pour
que son contenu soit correctement index et annot, de la mme manire que prcdemment. Cest donc cette tape qui permet de grer lambigut. Dans le cas dun
billet annot avec le mme tag mais relatif aux piles combustible, une autre URI
aurait t slectionne par lutilisateur ;
un troisime utilisateur va ensuite annoter un billet avec le mot-cl pompe-a-chaleur ;
le serveur ne renvoie ici aucune URI, aucune association nayant t dfinie jusque l
au sein du serveur de la communaut concerne pour ce tag ;
lutilisateur fait donc le choix dune nouvelle URI pour la signification associe ce
tag, savoir athena:PompeAChaleur50 , celle-ci tant ensuite intgre au serveur,
alors que le contenu est par ailleurs annot aprs validation.
Ce cas dutilisation et les annotations associes mettent en avant deux principes qui sont
la base de MOAT : (1) la gestion de lambigut des tags, puisque lon a deux documents
associs au mme tag (pac) mais lis deux URIs distinctes (athena:PompeAChaleur et
athena:PileACombustible) et (2) la gestion de leur htrognit, puisque nous avons
ici deux tags distincts (pac et pompe-a-chaleur) qui rattachs localement la mme URI
(athena:PompeAChaleur) permettent au final davoir deux contenus indexs avec le mme
concept. En ce qui concerne lautre problme classique des tags, i.e. labsence de relations,
nous grons celui-ci en considrant les relations au niveau des URIs signifiantes, et non
pas des tags eux-mmes. Ainsi, dans lexemple prcdent, on pourra suggrer un contenu
index par lURI athena:EconomieDEnergie lors de la lecture du billet associ lURI
athena:PompeAChaleur, puisquil existe (via par exemple une relation SKOS cre partir du wiki destin aux domaines et mtiers) une relation entre ces deux concepts. Nous
dtaillerons ces possibilits de dcouverte de contenus et de thmatiques proches dans le
chapitre suivant (Section 5.4.3, page 219).
Un aspect mis en avant par le scnario prcdent et qui nous semble important quant
lutilisation de MOAT dans ce contexte dcosystme smantique pour lEntreprise 2.0 est
lutilisation dinstances cres par les wikis smantiques voqus prcdemment (Section
4.2.2, page 154) afin de dfinir les significations associes aux tags. Par exemple, un premier utilisateur va crer lAssociation des Maires de France (instance de foaf:Organization)
via UfoWiki, un second pouvant ensuite dfinir ce concept comme signification associe au
tag amf. Il sagit donc dun enchanement naturel entre wikis, ontologies, instances et folksonomies pour enrichir les capacits dannotations proposes par le systme initial. Bien
entendu, les principes de MOAT ne sont pas limits aux instances produites ou stockes
en interne, comme par exemple les diffrentes instances de geonames:Feature rcupres
depuis Geonames. Il est donc possible dutiliser nimporte quel concept pour reprsenter les
significations des tags, notamment ceux proposs par linitiative Linking Open Data, comme
nous le verrons en dtaillant une implmentation publique du client associ ainsi que loutil
LODr (Section 4.3.2, page 179).
Un autre intrt de ce framework est selon nous son cadre darchitecture participative.
Puisque les liens entre tags et significations sont partags au sein dun serveur de tag utilis
50
Nous dtaillerons galement par la suite comment nos diffrentes implmentations permettent didentifier
de nouvelles URIs pour des tags isols.
173
Serveur MOAT
Client MOAT
Choix de l'URI
(athena:PompeAChaleur.)
et validation de l'association
174
par une communaut donne, un utilisateur assignant une signification donne un tag
permet lensemble de la communaut de bnficier de cette association, comme le montre
le scnario prcdent avec le tag pac. Le bnfice de cette architecture de participation est
dautant plus flagrant dans le cas o le processus est combin avec des instances cres
depuis nos wikis smantiques : les wikis, peupls par diffrents utilisateurs, viennent en
support de notre folksonomie, galement utilise par diffrentes personnes. De plus, cette
architecture nest pas fige comme nous lavons signal, puisque chaque communaut peut
installer son propre serveur, dans la continuit de ce qui est propos par Annotea (Section
3.3.1, page 124). Les utilisateurs ne sont donc pas lis un unique serveur central et rfrent,
choix motiv par une optique douverture des donnes sociales (Section 3.1.5, page 96).
4.3.2
Implmentations logicielles
Figure 4.20: Interface utilisateur du module MOAT pour Drupal couple au widget Sindice
51
http://drupal.org/project/moat
175
http://sindice.com/
http://sindice.com/developers/widget
55
Notons que limplmentation actuelle du client Drupal ne vrifie pas que les URIs slectionnes sont
conformes aux principes du Linked Data, contrairement LODr (Section 4.3.2, page 179).
56
Si plusieurs significations sont slectionnes pour un tag donn, diffrentes instances de
RestrictedTagging sont cres, en conformit avec la contrainte de cardinalit sur la relation hasMeaning.
57
176
http://vanirsystems.com/danielsblog/2008/02/09/a-few-new-features-in-openlink-data-spaces/
Figure 4.21: Choix dun concept pour dsambiguser un tag au sein du client MOAT Athna
58
Notons que nous pourrions envisager ce type dinterface pour les donnes du Web, mais un cot plus
important puisquil faudrait dfrrencer chaque URI, identifier son label, etc. Pour simplifier cette tche, nous
avons rcemment mis en place le service SPARCool, qui permet de construire ce genre de requtes en appelant
une simple URL fournissant directement le code HTML correspondant http://sparcool.net.
177
Figure 4.22: Parcours de la taxonomie des classes pour dfinir une nouvelle signification
Si nouveau aucune URI nest disponible pour reprsenter la signification souhaite,
linterface permet la cration dune nouvelle instance59 . Lutilisateur a alors la possibilit de
slectionner une classe, le systme demandant alors sil souhaite :
associer le tag la classe, i.e. considrer la classe comme la signification de ce tag, par
exemple pour un tag gnrique entreprise qui serait associ foafplus:Company ;
associer le tag une nouvelle instance de la classe en question, e.g. dans notre exemple
choisir dassocier GDF-Suez une nouvelle instance de foafplus:Company. Dans ce
cas, linstance est automatiquement cre et type selon la classe choisie et lutilisateur
a la possibilit de dfinir un label plus parlant que le tag lui-mme afin didentifier la
nouvelle instance (Figure 4.23, page 179).
Dans les deux cas, le tag est associ cette nouvelle URI via MOAT, la fois localement
(pour laction de tagging en cours) et globalement (au sein du serveur).
Cette interface permet de plus de visualiser lensemble des tags associs un concept. On
peut ainsi voir que trois tags diffrents sont associs linstance W3C (Figure 4.24, page 179),
lun dentre eux ayant t comme nous lavons dit assign automatiquement via UfoWiki
partir du label de cette instance.
59
178
On retrouve galement ce type dinterface de cration dinstance partir de tags dans SweetWiki.
Figure 4.23: Cration dune nouvelle instance et association dun tag via le client MOAT
http://code.google.com/p/moat-project/
179
Serveur MOAT
Production
Aggrgation
Client LODr
Contenu Web 2.0 taggu et distribu
3.1.5, page 96) et met en avant lutilisation de FOAF comme point daccs central
diffrentes activits en ligne. Notons galement qu la diffrence de Faviki, LODr
permet un utilisateur de continuer utiliser ses applications favorites pour publier
et annoter ses contenus ;
partir de ces diffrents profils, lapplication va identifier les flux RSS correspondants
chacun dentre eux61 . Ces flux sont alors agrgs au sein du client et immdiatement
traduits en RDF en utilisant SIOC, FOAF et la Tag Ontology via un systme dadaptateurs propre chaque service. Des adaptateurs sont ainsi disponibles pour Flickr,
Delicious, SlideShare, Bibsonomy ou encore Twitter, et il est relativement ais den
crire de nouveaux (une vingtaine de lignes de code). Par ailleurs, nous nous sommes
ici aperu que ces diffrents services avaient des manires relativement distinctes de
modliser les tags dans leurs flux RSS, certains utilisant une proprit dc:subject,
dautres leur propre proprit, etc., renforant le besoin dune smantique commune
pour reprsenter ceux-ci (Section 3.3.1, page 121). Une fois ces donnes traduites et reprsentes en RDF au sein de lapplication, chaque lment de flux est immdiatement
export en RDFa au sein de linterface de visualisation, offrant un premier niveau de
smantique commune pour des outils et silos de donnes initialement distincts et aux
formats htrognes ;
enfin, lutilisateur a la possibilit dassocier les diffrents tags utiliss des concepts
existants en suivant les principes de MOAT et via une interface similaire celle propose par le client Drupal (Figure 4.26, page 181). Cette interface a cependant lavantage
de pouvoir : (1) se greffer diffrents endpoints SPARQL pour suggrer des concepts
en fonction du tag utilis et (2) de proposer un label humainement lisible pour le tag
partir du moment o le concept associ est dj utilis au sein de lapplication, les
annotations RDF qui lui sont associes tant alors intgres au sein du client.
61
180
Ces trois tapes permettent ainsi de passer de contenus Web 2.0 disjoints et annots via
de simple mots-cls un ensemble de graphes RDF interconnects et utilisant des URIs de
rfrence, permettant leur dcouverte et leur exploitation de manire avance, comme nous
le verrons dans le chapitre qui suit (Section 5.4.3, page 219). Signalons galement quune
fois les contenus annots de cette manire, lapplication permet de visualiser un nuage de
concepts, en plus du traditionnel nuage de tags, celui-ci tant gnr partir des labels
(rdfs:label) des diffrentes instances annotantes et pouvant de ce fait tre visualis en
plusieurs langues (Figure 4.27, page 181). Le problme de multilinguisme est ainsi pris en
compte en passant des tags au URIs, non seulement pour la pose de tags mais aussi pour
leur visualisation.
181
http://moat-project.org/server
http://arc.semsol.org
64
http://threestore.sf.net
63
65
JSON JavaScript Object Notation est en effet un format de reprsentation populaire dans les applications
Web 2.0 permettant la reprsentation dobjets structurs en JavaScript. http://json.org
182
4.4 Retour sur lutilisation de MOAT dans notre contexte dEntreprise 2.0
prenant pas en compte la composante sociale (via FOAF) des assignations entre tags et
URIs, par exemple http://tags.moat-project.org/tag/sparql/json/light ;
La mise jour du serveur, i.e. lajout de nouvelles significations globales, seffectue selon
des principes similaires, le client envoyant les nouvelles significations au serveur qui les
stocke en son sein.
Un autre aspect qui nous semble important et qui nest pas pour le moment pris en
compte dans les diffrentes implmentations MOAT (client ou serveur) est la prise en compte
du rseau social de lutilisateur pour affiner la suggestion des tags. Comme nous lavons vu,
le modle MOAT associe en effet chaque signification globale lensemble des utilisateurs
ayant considr celle-ci (Section 3.3.3, page 128). Ainsi, il est imaginable de renvoyer non
pas toutes les significations possibles pour un tag lorsque lutilisateur interroger un serveur,
mais uniquement celles dfinies par des personnes dfinies comme proches, par exemple
avec la proprit foaf:knows ou en utilisant des notions de groupes dintrt, pouvant tre
galement reprsents avec FOAF ou SIOC. Ceci nous semble particulirement pertinent
dans un contexte dEntreprise 2.0 : en supposant que diffrentes communauts utilisent le
mme serveur, un utilisateur de la communaut solaire se verra suggrer en priorit les significations de personnes de sa communaut. Nous pensons que cette mthode permettra
de proposer des suggestions de significations pertinentes, puisque centre sur une communaut dintrt plus restreinte et associe lutilisateur en faisant la demande.
4.4
Notons que cela ne signifie pas quun seul tag est ambigu dans la folksonomie, puisque seuls 1176 tags sur
un total de 12257 ont t ici considrs.
183
http://commontag.org
http://www.adaptiveblue.com/
69
http://commontag.org/ns
68
184
4.4 Retour sur lutilisation de MOAT dans notre contexte dEntreprise 2.0
tags et URIs. Le modle propos est par ailleurs align avec certains vocabulaires prsents
ici, dont MOAT70 .
C ONCLUSION
Dans ce chapitre, nous avons prsent diffrents outils permettant la production dannotations smantiques partir doutils Web 2.0. Nous avons tout dabord prsent diffrentes
applications ddies la production automatise dannotations socio-structurelles depuis
les blogs, wikis et flux RSS via des alignements entre ontologies et structure internes. Nous
avons ensuite dtaill UfoWiki, plate-forme de wikis enrichie de fonctionnalits permettant
le peuplement dontologies via un systme assist dannotations, en prsentant notamment
la manire dont cet outil permettait de sintgrer plus globalement dans la vision dun Web
of Data. Nous avons galement pu voir la manire dont cet outil a t adopt dans notre
contexte afin de permettre un peuplement collaboratif dontologies de domaine. Enfin, nous
avons prsent les diffrents processus et outils associes MOAT, permettant de passer
dun processus simple de tagging la production dannotations smantiques dans un but
dindexation de contenus Web 2.0 via des URIs de classes ou dinstances dontologies.
Ainsi, il est important de garder en tte le rle jou par lutilisateur final dans ces diffrents outils, quil soit acteur pour la production dannotations (cas des wikis et de MOAT)
ou bien quil soit pris en compte dans les annotations elles-mmes (production automatise dannotations socio-structurelles). Cette convergence entre Web 2.0 et Web Smantique
est ainsi rendue possible en prenant en compte aussi bien le facteur humain que limplmentation logicielle, lutilisateur ayant un rle primordial jouer dans la russite de cette
convergence. Nous allons maintenant, dans le chapitre qui suit, nous intresser la manire
dexploiter ces diffrentes annotations.
70
http://commontag.org/mappings
185
Chapitre 5
et wikis, deux lments distincts en termes doutils mais lis par les donnes auxquelles ils
font rfrence (Section 5.3.1, page 210). Cette interoprabilit nous permet de rpondre
la problmatique de fragmentation dinformations au sein de systmes dEntreprise 2.0, o
les informations au sujet de diffrents objets sont rparties entre plusieurs services. Nous
montrerons ensuite (1) en quoi il est possible dutiliser ces annotations pour lindexation
automatique de flux RSS entrants (Section 5.3.2, page 212) et (2) de quelle manire elles permettent daugmenter lexprience utilisateur en termes de navigation des contenus internes
via un systme de projection des connaissances (Section 5.3.3, page 214).
Enfin, nous dtaillerons les principes et la mise en place dun moteur de recherche smantique intgr au sein de cette architecture de mdiation (Section 5.4, page 215). Nous
expliciterons tout dabord ce que nous entendons par recherche dinformation sur le Web
Smantique et dtaillerons ensuite le fonctionnement de ce moteur et la manire dont il tire
bnfice des diffrentes annotations produites et des ontologies associes, tout en masquant
nouveau la complexit du systme aux utilisateurs. Pour finir, nous montrerons aussi comment il est possible dexploiter cette smantique pour tendre la recherche dinformation et
suggrer de nouveaux concepts, en se basant sur les relations existantes au sein des graphes
dannotations.
5.1
5.1.1
Comme nous lavons vu au travers des chapitres prcdents, notre proposition dcosystme smantique pour lEntreprise 2.0 repose sur (Figure 5.1, page 189) :
diffrents outils destins la production et ldition de contenus (blogs, wikis, agrgateur RSS) pour lesquels les actions utilisateur et la composante sociale jouent un rle
important (Section 2.1, page 50) ;
des graphes dannotations smantiques produits partir de ces outils, relatifs dune
part la structure et aux interactions sociales qui en dcoulent et dautre part au
contenu mme des documents produits via ces outils (Section 4, page 137) ;
un ensemble cohrent dontologies lgres venant en support de ces diffrentes annotations, o lon distingue notamment celles ddies la reprsentations des mtadonnes socio-structurelles de celles portant sur donnes mtier (Section 3, page 83).
Lensemble des donnes RDF(S)/OWL ainsi produites et utilises forme ainsi un unique
graphe de reprsentation via des liens directs entre instances ou par lutilisation dontologies communes. Or, celui-ci en plus dtre relativement complexe du fait des diffrents
niveaux de reprsentation quil prend en compte est fortement distribu au sens o les
diffrents sous-graphes (i.e. les documents RDF) qui le composent sont rpartis dans lcosystme smantique mis en place. En effet, chaque document produit correspond un ou
plusieurs pour les wikis graphe(s) dannotations, stocks au niveau de loutil dorigine,
les ontologies tant elles stockes au sein dun serveur central, certaines tant cependant
rparties sur le Web (Figure 5.2, page 190).
Comme nous lavons mentionn auparavant (Section 2.3, page 69), nous avons fait le
choix de ne pas interroger la vole les diffrents graphes dannotations mais de stocker
188
Annotations sociostructurelles
Ontologies sociostructurelles
Donnes mtier
Ontologies mtier
rdf:Resource
sioct:WikiArticle
rdfs:subClassOf
Ontologies
rdfs:subClassOf
rdfs:subClassOf
sioc:topic
skos:Concept
rdf:type
sioc:Post
rdfs:subClassOf
rdfs:subClassOf
role:Domain
athena:domaine
foaf:Agent
sioct:BlogPost
rdf:type
rdf:type
rdf:type
skos:narrower
Annotations
athena:EnergieSolaire
athena:PanneauPhotovoltaique
role:hasDomain
role:hasRole
rdf:type
moat:taggedWith
athena:roleX
athena:EDF
http://athena/blog/
post/113
athena:embedsKnowledge
http://athena/
wiki/page/6
formalisation en RDF
(aprs validation MOAT)
Actions
Billet de
blog sur le
photovolta
que
rdaction
formalisation en RDF
(wiki smantique)
PV
tag
Page wiki
sur EDF et
l'energie
solaire
rdaction
Figure 5.1: Vision globale des actions, annotations et ontologies dun cosystme smantique
pour lEntreprise 2.0
189
utilise
Annotations smantiques
et ontologies
SIOC
FOAF
Ontologies
Geonames
utilise
FOAFPlus
Role
utilise
Annotations RDF
utilise
Web
Server interne
d'ontologies
produit
produit
Plate-forme de
blogs
produit
produit
produit
Serveur de wikis
hyperlien
Billet 2
cre
Page wiki 2
contient
a pour tag
EDF
Wiki A
ceux-ci au sein dun entrept central situ au sein de notre architecture de mdiation. Ce
choix, essentiellement motiv par des raisons de performances, fait ainsi de notre architecture une approche hybride entre les systmes de mdiation classiques (qui considrent
linterrogation de donnes la source) et les entrepts de donnes, la manire de ce que
propose par exemple [Xyleme, 2001]. Nous allons ici prsenter les diffrents arguments qui
nous ont conduits cette dcision, en dcrivant notamment les alternatives qui se sont offertes nous et les problmes quelles soulvent.
Une premire solution, si lon ne souhaite pas disposer dentrept global, est dinterroger directement les donnes la source au moment de la requte1 . Il est ici ncessaire de
considrer lensemble des annotations si lon veut disposer dune base de connaissances
exhaustive pour y rpondre2 . Ceci pose deux problmes majeurs :
il faut tout dabord accder chaque graphe dannotations et donc connatre son existence et son emplacement sur le rseau. Bien que lutilisation de liens rdfs:seeAlso
1
Tout au long de ce chapitre, nous ferons rfrence la notion de requtes SPARQL quand nous parlerons
de requtes et dinterrogation de donnes.
2
Exhaustive, et non complte, en raison de la notion de monde ouvert lie au Web et au Web Smantique.
190
offre cette possibilit (Section 4.1.3, page 143), cela implique de parcourir chaque document pour en dcouvrir de nouveaux. Nous ne disposons donc pas de moyen immdiat den obtenir une liste complte qui permettrait leur chargement en mmoire ;
de plus, les annotations tant rparties, le temps de latence lors de laccs celles-ci est
galement prendre en compte, sans parler des possibilits derreur rseau qui sont
aussi considrer. Le tout tant bien entendu li au nombre de documents prsents
dans lcosystme.
Si lon peut se satisfaire dune telle solution dans un systme ne comptant quune dizaine
voire centaine de graphes, lapproche est dlicate dans un contexte comme le ntre avec
plusieurs dizaines de milliers de graphes. Nos diffrents adaptateurs ont en effet permis la
production de plus de 17000 graphes relatifs aux billets de blog et prs de 2000 pour les
wikis, auxquels viennent sajouter les graphes dannotations produits partir des contenus
RSS. De plus, la gnration dynamique de donnes du fait de la nature mme des outils
oblige constamment identifier les nouveaux graphes produits afin de maintenir cette base
jour3 .
Malgr tout, il est sens de penser quen fonction de la requte, tous les graphes dannotations ne seront pas ncessaires pour y rpondre. Par exemple, une requte comme "Quels
sont tous les acteurs investis dans lnergie solaire" naura sans doute pas besoin des annotations
associes un billet annot par le seul concept de Centrale Nuclaire. On peut ainsi imaginer, pour rpondre une requte donne, nutiliser que les documents RDF qui comportent
des assertions juges ncessaires sa rsolution. Paradoxalement, cette solution impose une
connaissance a priori des graphes interroger en fonction des critres de recherche, impliquant par exemple un systme dindex permettant dvaluer si un graphe est ncessaire
ou non la rsolution dune requte. Ceci nous amne penser quil est tout aussi simple,
quitte centraliser des informations, de stocker directement les graphes dannotations dans
un entrept centralis, comme nous lexpliciterons juste aprs4 . De plus, une telle structure dindex est relativement complexe mettre en uvre, particulirement si lon souhaite
prendre en compte les ventuelles unions, intersections, disjonctions et autres axiomes qui
peuvent tre modliss dans les ontologies utilises en support de ces annotations.
Une autre ide, mi-chemin entre lagrgation complte de documents et la structure
dindex est de laisser le systme dcouvrir lui-mme les graphes dannotations potentiellement ncessaires la rsolution de diffrentes requtes. Cest ce que propose en partie lAPI
Semantic Web Client5 , qui permet deffectuer des requtes sur le Web Smantique partir dun point dentre unique. LAPI va dcouvrir de nouveaux graphes dannotations en
suivant les liens rdfs:seeAlso et identifier selon certains critres si ces graphes sont potentiellement utiles pour la requte dorigine6 . Afin doptimiser cette dcouverte de graphes,
lAPI permet galement lutilisation de Sindice, index du Web Smantique que nous avons
3
Devant le dynamisme des cette gnration de donnes, nous avons galement cart les solutions qui
consistent stocker en mmoire un ensemble dannotations, celles-ci tant en gnral adaptes des jeu de
donnes nvoluant pas.
4
Bien entendu, lutilisation dun entrept nempche pas lapport dun systme dindex supplmentaire
pour optimiser la rsolution de requtes.
5
http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/
191
introduit prcdemment7 (Section 4.3.2, page 175). nouveau, on revient ici lutilisation
dune structure centralise pour optimiser les requtes.
Devant les difficults et paradoxes soulevs par ces solutions, nous avons dcid la mise
en place dun entrept de donnes centralis au sein de notre architecture de mdiation,
stockant les diffrents graphes produits par les adaptateurs en quasi temps-rel via un protocole de communication que nous dcrirons plus loin (Section 5.1.3, page 195), proposant
ainsi une architecture pour lexploitation dannotations smantiques dans un contexte dEntreprise 2.0 [Passant et al., 2009c]. Lutilisation dun entrept coupl ces protocoles de mise
jour offre lavantage de permettre laccs aux diffrents graphes dannotations via un
unique point daccs clairement identifi et constamment jour, les problmes de dcouverte et daccs aux donnes tant donc vits. En consquence, les requtes sont tout moment rsolues en utilisant lensemble des connaissances produites au sein de lcosystme.
Le fait de disposer de cet entrept nous permet galement denvisager de meilleures performances en termes de requtes complexes qui articulent les diffrents niveaux dannotations
et dontologies utiliss dans notre cosystme.
Si lon peut reprocher cette solution une certaine redondance en termes de donnes
(les graphes dannotations tant en effet prsents la fois au niveau des outils dorigine et
au sein de lentrept, ce qui implique galement dintgrer au sein de lentrept les donnes
publiques utilises en interne, comme nous lavons vu avec UfoWiki (Section 4.2.4, page
164)), gardons lesprit que nos travaux sinscrivent dans un contexte industriel o un bon
niveau de performances est ncessaire en termes daccs linformation. Notons galement
que la russite de ce choix architectural repose sur le fait (comme nous allons le voir en
prsentant les protocoles de communication) que nous avons un certain contrle sur les
outils production de donnes. Malgr ces observations, cette solution nous semble donc
optimale dans cette approche darchitecture de mdiation smantique venant se greffer au
dessus dun systme dEntreprise 2.0 existant.
5.1.2
La notion dentrept de donnes RDF est sans doute aussi large que celle de systme
de gestion de base de donnes relationnelles au sens o il sagit dun concept gnrique et
quil existe de nombreuses implmentations logicielles. Ainsi, bien que les outils de ce type
partagent le mme objectif de stockage et dinterrogation de donnes RDF, ils diffrent par
les fonctionnalits quils offrent ainsi que par leur manire de grer ces donnes et bien
sur par leurs performances. Bien que les diffrentes mthodes de stockage utilises (structures spcifiques, bases de donnes relationnelles, etc.) puissent jouer sur les performances,
comme lont montrs diffrents benchmarks ([Lee, 2004] [Bizer et Schultz, 2008]), nous avons
bas notre choix non pas sur ce critre mais sur un ensemble de caractristiques ncessaires
la mise en place de notre architecture. Nous avons ainsi identifi les prrequis suivants :
la gestion des graphes nomms, ou named graphs (Section 1.1.2, page 16). Un entrept supportant ceux-ci peut ainsi grer la provenance de chaque assertion RDF, chose
importante partir du moment o notre mdiateur se base sur des graphes complets
dannotations et non pas de simples triplets (i.e. nous considrons chaque triplet dans
7
192
http://www4.wiwiss.fu-berlin.de/bizer/ng4j/semwebclient/#sindice
Ce choix se situant dans une stratgie plus globale dutiliser les technologies du W3C, comme nous avons
pu le voir tout au long de ce mmoire.
9
Nous avons concentr uniquement notre tude sur les solutions gratuites ou libres.
10
http://openrdf.org
http://joseki.sf.net
12
http://bnode.org/blog/2006/02/20/arc-rdf-store-for-php-ensparql-your-lamp
11
193
pas la gestion de linfrence, alors que RAP rendait celle-ci possible mais en contraignant
ladministrateur dfinir lui-mme les rgles, celles-ci ne pouvant paradoxalement pas tre
drives automatiquement des ontologies utilises13 .
Notre choix sest finalement port vers 3store14 [Harris et Gibbins, 2003]. Ce systme
dentrept de donnes RDF supporte en effet nativement la gestion des graphes nomms
(ainsi que leur utilisation avec SPARQL) et les possibilits dinfrence associes RDFS
(subsomption de classes et de proprits) sont automatiquement assures en fonction des
ontologies intgres lentrept. Ainsi, partir du moment o nos diffrents vocabulaires
sont pris en compte par celui-ci, la requte qui suit identifiera aussi bien des instances de
sioct:BlogPost que de sioct:WikiPage stockes au sein de lentrept, grce aux relations dfinies dans le module Types de SIOC (Section 3.1.3, page 92).
SELECT ? item
WHERE {
? item rdf : type sioc : Post .
}
Listing 5.1: Requte SPARQL pour linterrogation de donnes SIOC via un moteur
supportant les principes dinfrence RDFS
Aujourdhui, dautres entrepts nous semblent intressants considrer15 pour parvenir
aux mmes fins, comme par exemple Virtuoso [Erling et Mikhailov, 2007], AllegroGraph16 ,
Sesame2, Mulgara17 , ou encore ARC218 . Bien que ce dernier ne supporte pas linfrence nativement, il offre la possibilit de dfinir des rgles qui seront dclenches lors de lajout
de triplets afin dy parvenir19 . Virtuoso propose quant lui une indexation plein-texte des
littraux ainsi que des possibilits de raisonnement bases sur OWL. Citons galement Corese [Corby et al., 2004], qui intgre des extensions SPARQL particulirement intressantes
comme la notion de requtes par chemins, et plus uniquement par patrons de triplets. Au
vu de cette liste, notons que les protocoles utiliss dans notre architecture pour permettre
aux diffrentes sources de communiquer avec lentrept (Section 5.1.3, page 195) sont indpendants de loutil utilis et permettent ainsi un remplacement simple de celui-ci sans avoir
napporter de modification au reste de larchitecture. Enfin, sil est probable que ces outils
auront des performances suprieures celui que nous utilisons actuellement, gardons en
mmoire comme lont montr [Bizer et Schultz, 2008], quil nexiste pas dentrept idal et
que les performances compares varient grandement en fonction du jeu de donnes, de leur
nombre et du type de requtes que lon souhaite faire.
13
14
15
16
http://apassant.net/blog/2006/03/08/relationship-vocabulary-phoaf-rap-inference-engine
http://threestore.sf.net
Toujours parmi les solutions gratuites ou libres.
http://agraph.franz.com/allegrograph/
http://mulgara.org/
18
http://arc.semsol.org
19
http://apassant.net/blog/2008/10/01/lightweight-subpropertyof-subclassof-inference-arc2
17
194
5.1.3
Protocoles de communication
Comme nous lavons dj voqu, il est ncessaire que les donnes stockes au sein de
lentrept soient constamment jour par rapport aux donnes produites afin de proposer
des services optimaux aux utilisateurs. La composante industrielle de tels cosystmes smantiques pour lEntreprise 2.0 impose en effet un accs pertinent linformation, la fracheur et la temporalit de celle-ci jouant un rle important dans cette pertinence. Du fait
de la structure dynamique et volutive des diffrents outils mis en place (qui dcoule des
interactions sociales auxquelles ils sont lis) et de lobjectif de signalement quils visent
satisfaire (notamment les blogs) il est en effet peu pertinent davoir un laps de temps trop
important entre leur cration et leur stockage, celui-ci tant ncessaire leur interrogation.
Ainsi, un systme classique de dcouverte de nouveaux contenus via un processus de
crawling lanc intervalles rguliers ne permet pas de satisfaire totalement notre objectif, du
fait du dcalage qui existe ncessairement entre la production de contenus et leur intgration
dans les outils de recherche. Ce mme problme de fracheur et de dcouverte des donnes
RDF se pose galement sur le Web, o la distribution est encore plus large et rend le crawling
dautant plus complexe [Harth et al., 2006]. Pour aider cette dcouverte, une solution pour
les producteurs de donnes consiste fournir des informations au sujet de la prsence de
nouvelles annotations. Ceci peut se faire par exemple avec lutilisation du protocole Semantic Sitemaps [Cyganiak et al., 2008] qui permet dindiquer lemplacement de donnes RDF
au sein dun site dans un format interprtable par ces crawlers. Cependant, il existe toujours
un delta entre la production et le stockage des annotations.
Une autre possibilit, cette fois proactive, est la notion de signalement de ressources,
processus mis en avant avec lavnement des blogs et des services comme Technorati ou
blo.gs20 . Dans ce contexte, les blogueurs peuvent configurer leurs outils afin quils envoient
automatiquement un signalement (ou ping) ces services chaque nouveau document cr.
Concernant les donnes RDF, le service Ping The Semantic Web21 (PTSW) sinscrit dans ce
contexte de signalement adapt au Web Smantique. De la mme manire quexpos prcdemment avec les blogs, les services produisant des annotations RDF ont la possibilit
de signaler ceux-ci PTSW, qui constitue ainsi un index librement accessible de documents
RDF rcemment produits sur le Web. Ce signalement peut en outre tre effectu directement par les utilisateurs naviguant sur le Web, via lutilisation du plug-in Firefox Semantic
Radar22 , qui va notifier PTSW de la prsence de documents RDF dcouverts lorsque lutilisateur navigue simplement sur le Web. On retrouve ici nouveau les principes darchitecture
de participation appliqus au Web Smantique puisque par simple navigation volontaire
du Web, un index de documents RDF se forme, celui-ci pouvant tre utilis pour la mise
en place de diffrents services. Ces services peuvent par ailleurs tre considrs comme le
dernier maillon de ce que nous considrons tre une chane complte de production, dcouverte et consommation de documents sur le Web Smantique [Bojars et al., 2007b] (Figure 5.3, page 196).
20
http://blo.gs
http://pingthesemanticweb.com
22
http://sioc-project.org/firefox
21
195
Par exemple, nous avons mis en place le service doap:store23 [Passant, 2007b] qui rcupre les descriptions RDF de diffrents projets open-source (modlises avec le vocabulaire
DOAP Description Of A Project24 ) depuis PTSW afin de proposer un annuaire ouvert et distribu de projets logiciels comptant aujourdhui plus de 9725 projets et 4645 graphes25 . Outre
le caractre volutif de lannuaire grce un systme rgulier dinterrogation de PTSW pour
la dcouverte de nouveaux projets, le principal avantage que nous voyons dans lutilisation
de cette chane de traitement est quelle rsout en partie la problmatique de dcouverte de
sources de donnes pertinentes pour btir une application du Web Smantique, permettant
de se concentrer sur lapplication elle-mme. Ainsi, nous avons pu dans doapstore nous
intresser la mise en place dune interface intuitive pour parcourir diffrentes descriptions RDF de projets logiciels, visualisables sous la forme de simples fiches synthtiques. Le
systme propose galement un nuage de tags extrait des diffrentes annotations de chaque
projet ainsi quun moteur de recherche ddi (Figure 5.4, page 197). Si lensemble de lapplication repose donc sur un ensemble de graphes dannotations RDF, leur stockage au sein
dun entrept de donnes (utilisant ici OpenLink Virtuoso) et sur lutilisation de SPARQL
pour produire les diffrentes interfaces de recherche et de navigation, lapproche est compltement transparente pour lutilisateur.
23
http://doapstore.org
http://trac.usefulinc.com/doap
25
http://doapstore.org/about.php
24
196
Figure 5.4: doap :store : Annuaire et interface de visualisation de projets logiciels modliss
avec DOAP
En reprenant les principes de cette approche de signalement et en les appliquant lEntreprise 2.0, nous avons donc propos et mis en place au sein de notre architecture un systme similaire entre les diffrents outils producteurs dannotations RDF et le mdiateur. La
principale diffrence avec PTSW se situe dans le fait quau lieu de constituer une liste des
documents RDF partir de ces signalements, les notifications permettent directement la
mise jour de lentrept avec lajout en temps-rel de ces documents au sein de celui-ci. Le
signalement (et les actions qui sen suivent au niveau de lentrept) ne sont en outre pas
limits la cration de documents, mais sadaptent galement aux actions de modification
et de suppression. Un scnario classique de signalement et dindexation est ainsi le suivant :
un utilisateur cre, commente, supprime ou modifie un document, ce qui entrane
la cration ou la modification du (ou des pour les wikis) graphe(s) dannotation(s)
associ(s) ;
loutil envoie alors un signal au mdiateur pour linformer de la cration du ou des
graphe(s) ainsi cr(s) ;
le mdiateur reoit le signalement et indexe le ou les graphe(s) cr(s) au sein de
lentrept (en cas de cration ou modification) ou bien les supprime (suppression
du document). Dans le cas dun commentaire, le graphe dannotations du commentaire nouvellement cr est ajout lentrept, celui-ci contenant des assertions RDF
(sioc:reply_of) permettant de faire le lien avec le document dorigine ;
En ce qui concerne les donnes externes lentreprise intgres au sein du systme,
celles-ci sont stockes au sein de lentrept lors de leur premire utilisation26 . Si ncessaire,
des informations additionnelles sont galement stockes, comme par exemple les descrip26
Notons quil est ncessaire de sassurer que ces donnes sont disponibles sous des licences qui permettent
une telle utilisation.
197
tions RDF de lensemble des zones gographiques parent dune zone donne (identifies
transitivement avec geonames:parentFeature). Ici, le systme de signalement ne peut
cependant pas tre utilis ici pour indiquer lentrept que ces donnes sont mises jour
sur le Web. Une re-intgration rgulire est donc ncessaire, et on peut imaginer optimiser celle-ci en consultant Ping The Semantic Web ou Sindice pour sassurer de ne prendre en
compte que les donnes modifies depuis leur dernier import.
Alors que 3store dispose dune API spcifique pour lajout de graphes dannotations
dans lentrept, nous avons choisi de rendre notre approche plus gnrique et de ne pas
dpendre dune API propre lentrept utilis. Nous nous sommes ainsi bass sur SPARUL,
langage de mise jour de donnes RDF, et son protocole HTTP associ. Alors que SPARQL
permet dinterroger les donnes RDF dun entrept, SPARUL propose leur mise jour via
des principes similaires. Ainsi, nous avons implment une partie de la grammaire SPARUL
au sein de 3store, en loccurrence le support des clauses LOAD <graph>, DROP <graph>
qui permettent respectivement lajout et la suppression dun graphe dannotations au sein
de lentrept27 . Signalons que si SPARUL nest pass que rcemment au statut de Member
Submission au W3C 28 , la proposition initiale nous a permis dutiliser ses principes assez
tt29 .
Ainsi, les interactions au sein de notre architecture entre les diffrents outils et lentrept
se font dune part avec SPARQL pour linterrogation de donnes et dautre part SPARUL
pour leur mise jour et suppression, en utilisant dans les deux cas les protocoles HTTP
associs par lintermdiaire du point daccs SPARQL/SPARUL de lentrept. De ce fait,
nimporte quel entrept supportant SPARQL et SPARUL via HTTP peut tre utilis dans
notre systme30 , larchitecture tant ainsi comme nous lavons voque compltement indpendante des outils mais reposant uniquement sur un ensemble de langages et protocoles
standardiss. Cette couche dabstraction nous permet donc au final davoir un systme compltement indpendant de loutil utilis pour le stockage de donnes comme le montre la
figure qui suit (Figure 5.5, page 199) et peut se gnraliser tout cosystme smantique
dEntreprise 2.0 alors compos :
dadaptateurs qui informent le mdiateur de la prsence de nouveaux graphes dannotations dans une optique de stockage (SPARUL) ;
des services externes qui viennent utiliser ces annotations dans un objectif de requtes,
navigation ou visualisation (SPARQL).
27
198
Entrept RDF
du mdiateur
Interface
SPARQL
Interface
SPARUL
Mdiateur
5.2
5.2.1
http://semantic-mediawiki.org/wiki/Help:Inline_queries
32
Ceux-ci sont pour le moment les seuls pouvoir dfinir de nouvelles macros puisquelles requirent un
accs au code source de lapplication, nayant pu dfinir dinterface Web pour assurer leur gestion, voire la
possibilit de les diter directement au sein de pages wiki.
199
excuter une ou plusieurs requtes SPARQL sur lentrept (via les protocoles dfinis auparavant) et formater les rsultats obtenus en fragments de documents (X)HTML. Cest ici une
des principales diffrences avec Semantic MediaWiki, nos macros tant dfinies sous forme
de fonctions l o SMW utilise une syntaxe particulire de requtes au sein des pages wikis
(Section 4.2.1, page 151). Si cette souplesse permet tout utilisateur de dfinir ses propres requtes, la syntaxe utilise se serait sans doute rvle trop complexe dans un contexte dutilisateurs non-technophiles. Alors que notre approche de macros se concentre sur les wikis,
on peut noter la rcente proposition de SPARQLScript et des templates associs afin de gnraliser cette notion de requtes SPARQL intgres au sein de pages Web [Nowack, 2008]
ainsi que lextension Firefox Kalpana33 propose par [Ankolekar et Vrandecic, 2008] ou les
travaux de [Gandon, 2005] pour la gnration dinterfaces utilisateur ddies la visualisation de donnes RDF.
Ces macros sont interprtes au moment du chargement de la page (via un parseur dexpression rgulire qui identifie leur ventuelle prsence) et les rsultats sont immdiatement
disponibles laffichage (Figure 5.6, page 200). La fracheur des donnes stockes (grce au
systme de signalement prsent auparavant) combine ce systme de macros interprtes offre donc un moyen efficace de profiter en quasi-temps rel dannotations smantiques
distribues au sein dun systme dinformation. De plus, les instances et annotations tant
cres et maintenues de manire collaborative (selon la philosophie wiki), nous tirons profit
des principes dintelligence collective et darchitecture de participation en termes de valeur
ajoute de ces macros et daccs pertinent linformation.
Transformation
des macros en
requtes SPARQL
en fonction des
mthodes
associs
Envoi de la requte
Moteur
UfoWiki
Transformation
des rsultats
SPARQL/JSON en
HTML en fonction
de la macro
utilise
Entrept RDF
du mdiateur
Rsultats de requte
33
200
http://www.anupriya-ankolekar.info/kalpana/
Listing 5.2: Restriction dune requte SPARQL aux graphes produits par un wiki donn
Alors que les approches classiques dutilisation de graphes nomms pour restreindre
le contexte dinterrogation de triplets RDF se basent gnralement sur lutilisation dune
simple proprit associe ces graphes (par exemple dct:creator pour en identifier lauteur) notre proposition va plus loin en permettant dexploiter un ensemble dinformations
supplmentaires au sujet de la page ayant conduit la production de ce graphe dannotations mtier. Si lexemple prcdent utilise simplement les proprits associes au conteneur de la page en question, on peut imaginer de la mme manire utiliser des informations
au sujet de son auteur ainsi que dautres mtadonnes documentaires associes, pour par
exemple identifier les donnes produites depuis des pages dites par un utilisateur parti201
culier sur une priode donne. Plus gnralement, cette contextualisation des annotations
mtier en fonction des annotations socio-structurelles nous semble un point important
prendre en compte si lon souhaite utiliser avec pertinence ces deux types dannotations au
sein dapplications du Web Smantique.
Utilisation combine de donnes mtier de dannotations socio-structurelles
La plupart des requtes associes notre systme de macros sont en ralit plus complexes que le prcdent exemple. Ce dernier montre en effet une requte qui permet didentifier lURI des diffrentes associations, mais ni les pages wikis associes, ni le titre de ces
pages. Pour ce faire, nous tirons nouveau profit de cette articulation que nous avons proposs entre annotations socio-structurelles et donnes mtier. Nous tendons tout dabord la
requte avec lutilisation de foaf:primaryTopic qui nous permet didentifier la page principale associe chaque instance. Cette page identifie, nous pouvons rcuprer diffrentes
informations comme son titre, son URL, son auteur, etc. Ainsi, une macro listant lensemble
des associations connues et les pages associes sera dfinie par la fonction PHP et la requte
SPARQL qui suivent (Listing 5.3, page 202) et sera simplement appele par lutilisateur avec
[onto|associations]34 .
function associations () {}
$query = "
SELECT ? page ? title
WHERE {
GRAPH ? data {
? asso rdf : type foafplus : Association .
} .
? page : embedsKnowledge ? data ;
foaf : primaryTopic ? asso ;
dc : title ? title ;
rdf : type sioct : WikiArticle ;
sioc : has_container athena : wiki_8 .
}
";
$res = sparql_query ( $query ) ;
foreach ( $res as $r ) {
$page = $r [ page ][ value ];
$title = $r [ title ][ value ];
$n = " < li > < a href = $page > $title </ a > </ li >";
}
return " < ul > $li </ ul >";
}
Listing 5.3: Fonction PHP et requte SPARQL associes une macro UfoWiki
34
La fonction sparql_query prsente dans cet exemple fait partie dune API mise en place en interne pour
interagir simplement avec lentrept depuis des applications PHP.
202
Le rsultat dune telle macro est visible sur la figure qui suit, chaque lien de la liste
puces renvoyant vers la page wiki en question, la liste permettant galement de crer une
nouvelle page associe la classe en question (Figure 5.7, page 203). Une telle macro va
donc permettre didentifier simplement ces associations sans obliger lutilisateur parcourir les 173 pages dHPdia, le bnfice de lutilisation des annotations et de manire plus
large le passage de documents des donnes formalises tant alors non ngligeable. De
plus, il est important de noter que les rsultats sont immdiatement mis jour. Ainsi, ds
quun utilisateur va crer une page conduisant la cration dune nouvelle instance de
foafplus:Association, celle-ci sera liste via la macro en question.
Figure 5.7: Rsultat dune macro smantique listant lensemble des associations recenses
au sein dun wiki
Au final, si ces requtes peuvent savrer complexes, notamment puisquelles couplent
plusieurs niveaux dannotations et dontologies tout en articulant ceux-ci via lutilisation
de relations entre graphes en non plus seulement entre triplets, cette complexit est masque lutilisateur final. Celui-ci ne se soucie lors de ldition dune page que de lappel de la macro via une syntaxe relativement simplifie et bnficie immdiatement
dun rendu de celle-ci. Signalons galement que si les exemples prcdents font tat de requtes prenant en compte uniquement le type dinstances rcuprer, les macros peuvent
se concentrer non pas sur le type mais sur diffrentes proprits, comme par exemple les
domaines dactivits ou de la localisation des acteurs, reprsents au travers de la notion
de rle (Section 3.2.4, page 109), les deux pouvant tre combins. Par exemple, une macro
comme [onto|acteurs|domaine,localit] va identifier des acteurs selon le domaine
et la localisation associs leur(s) rle(s) tout en prenant galement en compte les principes
dinfrence RDFS afin didentifier simultanment toutes les instances des sous-classes de
foaf:Agent correspondant ces critres.
203
5.2.2
Alors que les processus prsents auparavant permettent de dfinir des macros prenant
en compte le wiki partir duquel elles sont inities, il nous a sembl intressant daller plus
loin en offrant la possibilit de contextualiser les macros de manire plus fine, i.e. non plus
au niveau du wiki mais de la page en question, ou plutt de linstance associe. Ceci permet
ainsi didentifier simplement des informations concernant celle-ci comme par exemple, pour
une organisation, lensemble des acteurs dun mme secteur ou ses diffrents membres, sans
rfrence explicite linstance puisque celle-ci est automatiquement identifie par la macro
elle-mme.
Pour ce faire, une premire tape consiste en lidentification de linstance associe
chaque page wiki et nous tirons ici nouveau profit de lutilisation de foaf:primaryTopic
introduite dans UfoWiki. Une fois cette proprit identifie, il est ais dadapter les diffrentes requtes et de produire les macros associes. Par exemple, la requte qui suit (Listing
5.4, page 204) associe une macro [onto|members] et excute depuis une page relative
une organisation donne permet didentifier ses diffrents membres. La variable $self
est ici dfinie pour identifier lorganisation en cours et est remplace par lURI associe au
moment de lexcution de la requte. Le rsultat dune telle macro est en outre visible sur la
figure suivante (Figure 5.8, page 205). On peut ainsi considrer ces macros contextualises et
permettant dafficher au sein dune page des informations sur les concepts en relation avec
le concept en cours comme des rtroliens smantiques. Alors que les rtroliens classiques identifient simplement les pages ayant des liens vers la page en cours, ces macros permettent de
lister (et de catgoriser selon diffrentes proprits) les concepts en relation avec le concept
associ la page en cours, les affichant un endroit appropri sur la page wiki. Cette requte
met galement en avant lintrt dutiliser des URIs communes entre diffrentes pages wikis, processus facilit par UfoWiki avec lautocompltion associe aux annotations. En effet,
cette requte utilise un patron <$self> foaf:member ?uri, ou $self reprsente lURI
de lassociation en question. Alors que ces diffrents triplets sont produits partir de diffrentes pages wikis, lutilisation dURIs communes permet didentifier partir de chaque
graphe dannotations quil sagit bien de la mme organisation (Figure 5.9, page 205).
select distinct ? page ? name
where {
graph ? g {
< $self > foaf : member ? uri .
? uri rdfs : label ? name .
}
? page : embedsKnowledge ? g ;
foaf : primaryTopic ? uri ;
sioc : has_container athena : wiki_8 .
} ORDER BY ASC (? name )
Macro simple
affichant une liste
contextualise
d'acteurs
Macro complexe
affichant une liste
contextualise
d'activits et d'acteurs
associs
foaf:Person
produit
rdf:type
Page wiki 3
:people
foaf:member
foaf:Person
:organisation
rdf:type
foaf:member
foaf:member
:people
:people
rdf:type
foaf:Person
produit
Page wiki 1
produit
Page wiki 2
205
page 205) le rsultat dune seconde macro plus complexe, qui va lister les diffrentes activits dun acteur (domaines et mtiers associs son rle) mais galement pour chaque domaine dactivit lensemble des acteurs associs, ainsi que ceux voluant dans des domaines
plus spcifiques. Nous tirons ici bnfice du choix de SKOS pour reprsenter les rles et les
domaines, avec la possibilit didentifier simplement pour un domaine donn lensemble
de ses sous-domaines grce la transitivit de la proprit skos:broaderTransitive35 ,
super-proprit de skos:broader utilise dans notre contexte36 . Nous bnficions nouveau dans ce cas dutilisation dannotations issues de diffrents wikis : un premier wiki pour
la gestion de ces taxonomies de domaines et un second pour tablir les relations entre domaines et acteurs de la mme manire que prcdemment, lutilisation dURIs communes
permettant de faire le lien entre les diffrents graphes RDF. Un problme auquel nous avons
cependant t confront et qui reste ouvert est le besoin didentifier jusquo il est ncessaire de considrer un sous-domaine comme pertinent par rapport au domaine initial. Nous
reviendrons sur cette problmatique en fin de chapitre (Section 5.4.3, page 219).
5.2.3
Navigation facettes
Si lon considre le Web Smantique comme un graphe de relations types entre nuds,
il est possible daccder chaque nud selon plusieurs critres, i.e. selon les proprits
qui lui sont assignes et les valeurs correspondantes. Par exemple, en considrant les ontologies utilises dans notre contexte pour dfinir la notion dacteur, chaque acteur peuttre considr selon son type (rdf:type), sa localisation (geonames:locatedIn), ses rles
(role:hasRole et objets associs), ses membres (foaf:member), etc. Or, les macros prsentes prcdemment ne permettent pas de prendre en compte toute la richesse de ce graphe
de manire simple et extensible, i.e. de visualiser les instances dontologies de domaine dynamiquement selon plusieurs points de vue. Ces macros sont en effet gnralement conues
pour visualiser une unique proprit (le nom de chaque instance, via rdfs:label) et requirent comme nous lavons montr des requtes plus complexes pour afficher dautres
proprits, par exemple les domaines dactivit.
Afin de prendre en compte cette richesse en termes de navigation, nous avons appliqu
les principes de navigation facettes nos graphes dannotations [Yee et al., 2003]. Ce procd, qui permet de proposer diffrents points de vue pour aborder un objet donn, dans
notre cas une instance dontologie de domaine, nous semble le plus adapt pour visualiser
ces donnes multidimensionnelles reprsentes en RDF. Nous avons ainsi dfini diffrentes
facettes prendre en compte pour visualiser chaque acteur (instance de foaf:Agent cre
depuis UfoWiki) partir des diffrentes ontologies utilises pour reprsenter celui-ci. Lalignement entre ontologies et facettes a ici t effectu manuellement partir du moment o
nous avons une connaissance prcise des modles utiliss. Dans un contexte o les donnes
reposent sur des modles plus htrognes (par exemple contrls par les utilisateurs), la dtection automatique de facettes telle que propose par [Oren et al., 2006] peut alors se rv35
36
http://www.w3.org/TR/2008/WD-skos-reference-20080829/skos.html#broaderTransitive
Nous avons en effet intgr au sein de notre entrept les possibilit de raisonnement associs la transitivit de cette proprit dfinie comme instance de owl:TransitiveProperty.
206
ler ncessaire. Comme nous pouvons le voir avec le schma qui suit (Figure 5.10, page 207),
nous ne nous limitons pas des facettes qui sont lies des proprits directement associes
chaque instance (par exemple rdf:type) mais explorons certains objets associs, ici les
rles pour identifier des facettes pertinentes.
Geonames
:feature
:type
geonames:locatedIn
role:roleType
:instance
role:hasRole
:role
rdf:type
role:roleDomain
:type
:domain
FOAF / FOAFplus
Ontologie des
rles
Figure 5.10: Slection de facettes partir de diffrentes ontologies (les facettes slectionnes
sont en gris fonc)
Une fois ces facettes dfinies, nous utilisons Exhibit [Huynh et al., 2007] pour offrir une
visualisation dynamique de ces diffrents acteurs. Les valeurs proposes pour chaque facettes ainsi que la liste des diffrents acteurs sont en outre calcules au moment de laffichage de la page (toujours via SPARQL) ce qui permet davoir aussi bien une liste dacteurs
que des facettes de navigation constamment jour (Figure 5.11, page 208).
Si les facettes proposes ici sont relatives des donnes mtier, il est possible dutiliser
ces mmes principes pour visualiser un ensemble de documents (toujours reprsents en
RDF) en prenant en compte leurs diffrentes mtadonnes socio-structurelles. Bien que nous
nayons pas mis en place une telle interface au sein de notre plate-forme dentreprise, nous
avons expriment cette approche travers lapplication de microblogging SMOB prsente auparavant. Ici, les facettes sont alignes avec diffrentes proprits associes chaque
instance de sioc:Item. Lauteur (foaf:maker), les sujets associs (sioc:topic) et la date
de cration (dct:created) de chaque instance de sioc:Item sont ainsi prises en compte
pour dfinir les facettes comme le montre la figure qui suit (Figure 5.12, page 208).
Mash-ups smantiques
Toujours dans cette optique de visualisation avance de donnes RDF, nous avons mis en
place un systme de mash-ups smantiques au sein de notre systme. Comme nous lavons
dtaill prcdemment, UfoWiki intgre automatiquement en son sein des informations
207
Figure 5.12: Interface facettes pour visualiser des donnes SIOC avec SMOB
208
RDF proposes par Geonames lorsquun acteur est identifi comme associ une zone
gographique particulire. De ce fait, pour chaque acteur li (via geonames:locatedIn)
une instance de geonames:Feature, nous disposons de diffrentes informations relatives
cette zone, en particulier ses coordonnes gographiques. De ce fait, nous avons pu mettre
en place, toujours en utilisant Exhibit, un systme de golocalisation permettant de visualiser les acteurs reprsents au sein dHPdia (Figure 5.13, page 209). Lutilisation couple
de ce systme de golocalisation et de navigation facettes propose par linterface permet de plus de contextualiser cette cartographie selon diffrents critres. Il est ainsi possible
dtudier la situation gographique des acteurs dun domaine donne, par exemple localiser
lensemble des entreprises actives dans le domaine des Energies Marines.
Comme nous lavons dj mentionn, cet aspect de rutilisation des savoirs externes en
entreprise nous semble particulirement intressant, encore plus dans ce contexte de mashups construit partir doutils relativement simples et forte composante sociale comme les
wikis. cet gard, nous pensons que les applications du Web Smantique peuvent tre juges non seulement sur leur valeur utiliser et proposer des donnes RDF(S)/OWL, mais
galement sur leur capacits tirer profit dautres donnes reprsentes selon les mmes
modles. On peut alors considrer la notion de mash-up comme faisant partie intgrante
du Web Smantique, partir du moment o diffrentes applications produisent des donnes interconnectes, permettant ensuite de sabstraire de ces applications source pour les
consommer via dautres outils.
Bien que les exemples prsents auparavant se limitent lutilisation de donnes produites au sein des wikis, nous avons vu dans le chapitre prcdent que la plate-forme de
blogs permettait galement la production dannotations smantiques. Il nous semble de ce
fait important de prendre celles-ci en compte. Si les annotations produites par les wikis combinent mtadonnes socio-structurelles et donnes mtier, les annotations issues de blogs se
rfrent quant elles uniquement laspect socio-structurel. Or, comme nous lavons vu,
MOAT nous permet de reprsenter au sein de ces annotations les liens qui existent entre
documents (ici les billets de blog) et des instances dontologies de domaine, plus particulirement dans notre contexte les instances cres depuis les wikis. Ainsi, si les deux outils
restent distincts en termes de pratiques et dusages, ils permettent tous deux la production
dannotations RDF qui dune manire ou dune autre font rfrence des instances dontologies de domaine :
210
Annotations smantiques
et ontologies
dune part, la proprit foaf:primaryTopic est utilise au sein des wikis pour identifier le concept principal (instance dontologie de domaine) associ une page wiki ;
dautre part, le lien entre document et instance est reprsent au niveau des blogs
via lutilisation de la Tag Ontology et de MOAT et en particulier dune instance de
tag:RestrictedTagging couple la proprit moat:tagMeaning.
Ces instances tant identifies par une mme URI, qui fait alors office de jointure, les diffrents graphes dannotations sont interconnects au travers de celles-ci, permettant ainsi de
faire le rapprochement entre les deux outils (Figure 5.15, page 211)37 . Ce lien entre outils via
les annotations smantiques offre ainsi une interoprabilit accrue entre applications.
:tagging
moat:tagMeaning
tag:taggedResource
:blogPost
rdf:type
foaf:primaryTopic
sioc:Post
rdf:type
:wikiPage
produit
produit
:EDF
Plate-forme de
blogs
Billet 2
cre
Page wiki 2
Serveur de wikis
contient
a pour tag
EDF
Wiki A
On remarque galement sur cette figure que le lien entre les deux outils est rendu possible avec SIOC.
211
nous permettant de considrer linstance associe et non plus le simple mot-cl pour ainsi
tablir ce lien ncessaire entre ressources.
SELECT ? post ? title
WHERE {
? post a sioct : BlogPost ;
dc : title ? title .
[] a tag : RestrictedTagging ;
moat : tagMeaning < $self > ;
tag : taggedResource ? post .
}
Listing 5.5: Requte SPARQL pour identifier des billets annots avec un concept particulier
Nous avons voqu plus tt dans cette thse la notion dobject-centered sociality (Section 1.2.3, page 42) en insistant notamment sur un problme particulier, savoir que celleci tait gnralement fragmente, les contenus au sujet dobjets similaires tant rpartis
entre diffrentes applications (blogs, wikis, forums, rseaux sociaux) (Section 2.2.1, page 62).
Comme nous venons de lexemplifier, lutilisation dURIs communes pour rfrencer les sujets abords via ces diffrents outils permet dinterconnecter ceux-ci autour des objets quils
voquent, et de parvenir cette notion de forums virtuels mise en avant par SIOC. Plus
particulirement, cest lutilisation de MOAT couple SIOC qui nous permet de considrer
ces forums comme des espaces de discussions lis des sujets communs, rduisant ainsi
cette fragmentation. Bien entendu, cette intgration repose galement sur la mise disposition dURIs communes pour identifier ces objets, et cest en ce sens que le project Linking
Open Data nous parait plus que pertinent puisquoffrant un nombre important dURIs de
rfrence (notamment via DBpedia) qui peuvent tre utilises dans ce contexte.
5.3.2
Alors que les possibilits offertes par les outils prcdents permettent de visualiser des
informations existantes, il nous semble galement souhaitable dexploiter ces informations
pour en produire de nouvelles. Ici, nous ne faisons pas rfrence des principes dinfrences
reposant sur des axiomes dfinis au sein de nos ontologies mais la manire dutiliser les
diffrentes annotations produites dans un but dindexation de flux RSS.
Comme nous lavons explicit plus tt dans ce mmoire, un trs grand nombre de sources
de donnes RSS sont mises disposition de lutilisateur au sein de la plate-forme dagrgation. Pour viter la surcharge dinformation, les utilisateurs ont la possibilit de souscrire
prcisment certains flux via une interface ddie (Section 2.1.2, page 53). En contrepartie, cette pr-slection conduit parfois passer ct de certaines informations importantes,
dans la mesure o elles peuvent provenir de flux auquel lutilisateur nest volontairement
pas abonn (Section 2.2, page 62). Ainsi, plutt que de considrer les lments de flux RSS
en fonction de leur source (i.e. le flux auquel ils appartiennent) il nous semble pertinent de
considrer ces flux en fonction des thmatiques quils abordent. On envisage ainsi des flux
RSS virtuels organiss par thmes, ces thmes tant reprsents via des instances dontologies de la mme manire que nous proposons lindexation smantique de billets de blogs.
212
Afin de passer de ces lments organiss par source des lments organiss par thmatiques, nous avons mis en place un prototype dindexation automatique de flux RSS en
fonction des diffrentes instances qui ont t cres via les wikis (limites aux sous-classes
de foaf:Agent) . Le processus dindexation est assez sommaire et repose sur lutilisation
des liens entre tags et instances dfinis avec MOAT ainsi que sur les labels associs ces
instances via les wikis afin de construire une table de correspondance entre chanes de caractres et URIs de concepts, comme le tableau suivant lexemplifie (Tableau 5.1, page 213).
Cette correspondance est ensuite utilise pour annoter les flux RSS laide dexpressions rgulires. Si les critres dindexation sont satisfaits, une relation sioc:topic est cre entre
llment de flux, reprsent avec SIOC comme nous lavons vu auparavant (Section 4.1.2,
page 140), et le concept associ.
URI
athena:Areva
athena:EDF
athena:EDF
athena:EDF
Terme associ
areva
EDF
E.D.F
lectricit de france
Tableau 5.1: Associations entre URIs et termes contrles par les utilisateurs
Bien entendu, il sagit ici dun processus dindexation trs sommaire notamment en
termes de rapport signal-bruit, loin davoir des rsultats aussi pertinents quun systme
comme KIM [Kiryakov et al., 2004]. Si nous pouvons via MOAT reprer plusieurs patrons
dindexation associs la mme instance (par exemple EDF et electricit de france
pour lentreprise EDF), ce qui permet nouveau didentifier des sujets communs malgr
des termes distincts, la gestion de lambigut nest pas assure. Les termes associs plusieurs URIs ne sont ainsi pas pris en compte dans le processus dindexation. De plus, la
lemmatisation nest pas assure, ce qui nest ici pas un problme particulier puisque nous
indexons essentiellement des entits nommes mais qui le serait si lon souhaitait tendre
cette indexation aux domaines dactivit par exemple. Pour permettre une indexation plus
prcise, il est de plus ncessaire de prendre en compte dautres lments pour dfinir plus
finement nos schmes dindexation et les processus associs. Des techniques comme lexploration contextuelle [Descls, 1997] sont sans doute une solution pertinente cette problmatique et cest par exemple sur ces principes que repose le moteur dindexation EXCOM
[Djioua et al., 2006]. Signalons ici galement les rcents services dindexation smantique
proposes par Reuters OpenCalais38 ou Zemanta39 qui permettent lindexation de donnes non-structures par des concepts dfinis au sein du projet Linking Open Data. Celles-ci
peuvent savrer particulirement utiles dans ce contexte dcosystme smantique pour
lEntreprise 2.0, partir du moment o des donnes publiques sont utilises en interne
comme nous le faisons avec Geonames.
38
39
http://www.opencalais.com/
http://www.zemanta.com/api/
213
Malgr la simplicit de notre approche, plus que lindexation en soi, cest le processus
de cration de lindex qui nous semble pertinent et novateur. Cet index est en effet dfini
non pas en vase clos (avec les cueils que cela peut entraner, tout comme pour la cration dontologies (Section 4, page 137)) mais est directement driv des comportements des
utilisateurs sur la plate-forme : cration de pages wiki et dinstances correspondantes, association de tags ces instances, etc. Laspect interaction homme-machine, non pas en termes
dinterface, mais en termes dutilisation de donnes produites par lutilisateur pour enrichir
les applications, prend ici tout son sens comme le rappelle [Gandon et Giboin, 2008] : dans
ces nouvelles approches un point important est que lutilisateur nest plus simplement le commanditaire dun service pour lequel il fournit des entres et attend des sorties, mais devient une ressource
computationnelle de larchitecture logicielle.
Enfin, puisque nous avons voqu le bnfice de lapproche pour lutilisateur, signalons
quune macro contextualise [onto|news] permet de rcuprer les dernires nouvelles au
sujet dun acteur donn pour les afficher au sein dune page wiki, renforant nouveau la
dcouverte dinformations pertinentes autour dun objet particulier.
5.3.3
Identification d'une
instance connue
exemple davoir une ide des acteurs mergents dans un domaine, au sens o ils nont pas
t identifies par la projection puisque non rfrences dans la base de connaissance du
mdiateur.
5.4
5.4.1
http://developer.yahoo.com/searchmonkey/
http://swse.deri.org
215
large pour SWSE, RDFa et microformats pour SearchMonkey). Notons que si SWSE est capable de prendre en compte nimporte quel modle utilis pour dcrire ces objets, SearchMonkey se limite linterprtation restreinte de certains vocabulaires, parmi lesquels SIOC,
comme nous lavons voqu auparavant (Section 3.1.6, page 101). Si ces deux moteurs se
situent dans une optique de recherche centre autour de concepts, optique qui nous semble
la plus pertinente en termes de recherche dinformation sur le Web Smantique, dautres outils sorientent vers une recherche documentaire plus traditionnelle, la diffrence prs que
les documents indexs sont des documents structurs. Cest le cas de certains moteurs que
nous avons dj voqus dans cette thse, savoir Sindice [Tummarello et al., 2007], Watson
[dAquin et al., 2008] ou Swoogle [Ding et al., 2004], plutt ddis la ralisation dapplication utilisant des donnes structures qu une navigation humaine.
5.4.2
Nous avons mis en pratique ces principes de recherche smantique au sein dHerms en
proposant un moteur de recherche associ notre architecture de mdiation et venant tirer
profit des diffrentes ontologies et annotations prsentes dans notre cosystme. Celui-ci
permet de visualiser, pour un concept donn, un ensemble cohrent et synthtique dinformations son sujet, avec des pointeurs vers les diffrents documents source ayant permis
cette synthse. Notre approche est ainsi une approche mixte entre les moteurs de recherche
traditionnels qui dlivrent des liens vers un ensemble de documents et les moteurs smantiques comme SWSE qui dlivrent des informations au sujet dobjets particuliers. Ce moteur
respecte en outre les deux phases que nous avons mises en avant, savoir (1) lidentification
dun concept particulier partir dun terme de recherche et (2) la mise disposition dune
synthse informationnelle au sujet de ce concept.
La premire tape consiste ainsi passer du terme de recherche (e.g. solaire) au concept
associ (ici linstance identifie par lURI athena:EnergieSolaire). Pour ce faire, notre
stratgie se base sur lutilisation des connaissances produites au sein de la plate-forme, tout
comme nous lavons fait pour lindexation de flux RSS ou la projection de connaissances
(Section 5.3, page 210). Pour un terme de recherche t, le moteur va ainsi identifier le concept
C qui satisfait au moins un des critres suivants :
le label (rdfs:label) du concept C est gal ou contient le terme t ;
un tag associ ce concept C (via MOAT et la notion de signification globale) est gal
ou contient le terme t, i.e. il existe un tag gal ou contenant t et dont la signification
globale est associe C ;
Une fois le concept identifi (via son URI), la recherche va porter sur celui-ci et non plus
sur le terme dorigine, le moteur se situant alors au niveau smantique et non plus un
simple niveau syntaxique. Si plusieurs concepts sont identifis, lutilisateur se voit proposer
la liste correspondante afin de slectionner lui-mme le concept recherch et rsoudre ainsi
les problmes dambigut (Figure 5.17, page 217).
La seconde tape consiste ensuite en lidentification dinformations pertinentes au sujet
de ce concept. Comme nous lavons expos au dbut de cette section, il nous semble important de ne pas uniquement proposer une liste de documents mais doffrir un synthse informationnelle propos des diffrents attributs et proprits de ce concept. Plus exactement,
216
nous souhaitons proposer un juste milieu entre ces deux approches, en contextualisant les
documents proposs en fonction des proprits qui les lient (directement ou via les sujets
abords) au concept principal. Ainsi, notre systme prend en compte lensemble des annotations RDF prsentes dans la base de connaissances et faisant rfrence ce concept pour
proposer lutilisateur une page de rsultats listant (Figure 5.18, page 218) :
lensemble des tags associs au concept, dans un but informatif permettant lutilisateur de prendre connaissance des diffrents mots-cls qui lui sont associs. Cette
premire tape repose sur lutilisation de MOAT ;
la page de rfrence associe au concept en question, en loccurrence la page wiki
principale issue du wiki HPdia dans le cas des acteurs. Nous reposons ici la fois
sur SIOC et embedsKnowledge (pour identifier quil sagit bien dune instance de
sioct:WikiArticle appartenant au conteneur souhait) et FOAF pour identifier
quil sagit de la page principale (avec foaf:primaryTopic) ;
les pages faisant rfrence des concepts en relation avec ce concept, toujours identifis depuis HPdia. Pour une organisation, il peut ainsi sagir des pages identifiant ses
diffrents membres. La requte utilise est prsente ci-aprs et combine ainsi SIOC et
annotations mtier (Listing 5.6, page 218) ;
enfin, les diffrentes pages wiki, billets de blog et flux RSS annots avec lURI du
concept en question, via lutilisation de SIOC (sioc:topic) et MOAT pour les billets
de blog. La recherche se faisant ici par concept, et non plus par mot-cl, cela nous
permet de prendre en compte les problmes initiaux dhtrognit smantique. En
effet, les diffrents contenus annots par le concept en question peuvent avoir originellement t tagus avec des mots-cls distincts. Notons galement que le moteur fait ici
la distinction entre les diffrents types de documents grce lutilisation du module
Types de SIOC au niveau des annotations smantiques.
nouveau, lapplication mise en place repose entirement sur un ensemble de requtes
SPARQL utilisant diffrents graphes dannotations et ontologies associes, sans confronter
lutilisateur ces processus de parcours de graphes. De plus, un autre aspect mis en avant
par notre interface est la possibilit de crer de nouveaux contenus partir de celle-ci, notamment lorsquil nen existe pas ce sujet pour le wiki principal HPdia. Le moteur est
ainsi utilis dans une dmarche dincitation la production de contenu permettant denri217
Tags asocis ce
concept
(MOAT)
chir les connaissances globales au sein du systme. Tout utilisateur venant consommer de
linformation est donc invit son tour devenir acteur, suivant les principes classiques de
collaboration sur le Web 2.0, coupls nouveau des principes de structuration de donnes
lis au Web Smantique.
Nous avons de plus dfini diffrents points daccs permettant darriver ces pages de
rsultat. Si le premier est naturellement une zone de recherche plein-texte, nous avons vu
dans la section prcdente que la projection des connaissances permettait galement darriver sur la page de rsultats pour un concept donn. Une autre manire daccder ces
rsultats est galement propose ds lors quun billet de blog ou une page wiki est associe
un concept via MOAT. Dans ce cas, en plus dindiquer simplement les tags associs ce
document, le systme liste lensemble des concepts associs avec pour chacun dentre eux
un lien vers la page associe au sein du moteur de recherche (Figure 5.19, page 219). En
218
termes dutilisation, des analyses de fichiers de logs sur une priode dun mois nous ont
indiqu une trentaine de visiteurs diffrents ayant accd ce moteur.
Figure 5.19: Accs au moteur de recherche via les concepts identifis avec MOAT
5.4.3
une des raisons qui nous a motiv mettre MOAT en place, notamment par rapport des
approches plus classiques dorganisations taxonomiques de tags o une unique relation hirarchique est propose.
http://example.org/
tagging/1
tags:associatedTag
http://example.org/
tag/paris
tags:taggedResource
moat:tagMeaning
produit
Billet de blog 1
http://example.org/
post/1
http://sws.geonames.org/
2988507/
geonames:parentFeature
produit
http://sws.geonames.org/
3017382/
Billet de blog 2
http://example.org/
post/2
produit
Geonames
moat:tagMeaning
tags:taggedResource
http://example.org/tag/
france
tags:associatedTag
http://example.org/
tagging/2
Figure 5.20: Identification de contenus proches via des relations entre concepts associs
{
: p1 a sioc : Post .
[] moat : tagMeaning : m1 ;
tag : taggedResource : p1 .
: p2 a sioc : Post .
[] moat : tagMeaning : m2 ;
tag : taggedResource : p2 .
: m1 : prop : m2 .
} => {
: p1 sioc : related_to : p2 .
}
Listing 5.7: Rgle dinfrence pour identifier deux contenus proches en utilisant MOAT,
SIOC et des relations entre URIs
Ainsi, nous avons mis en place au sein de notre outil un systme de suggestion de
concepts proches en dfinissant pour diffrentes classes de nos ontologies des rgles dinfrence, comme par exemple :
une premire rgle, sappliquant toute instance de role:Domain et permettant diden-
220
tifier comme lis42 des domaines considrs comme plus spcifiques dans la hirarchies de domaines. Cette rgle fait appel la proprit skos:broaderTransitive de
manire considrer tous les concepts plus spcifiques (Listing 5.8, page 221). Comme
on peut le voir dans lexemple qui suit, appliqu ici au concept dnergie solaire, des
concepts relativement pointus tels que cellule silicium monocristallin sont suggrs (Figure 5.21, page 221). Cependant, bous sommes ici confronts, en utilisant ces principes
de transitivit, au mme problme que dans les macros prsentes auparavant : partir du moment o cette infrence est mise en place, il ny a plus possibilit didentifier
la distance originelle qui spare les concepts, moins de parcourir lensemble des relations non-infres skos:broader. Les extensions SPARQL proposant des requtes
par chemin nous paraissent ainsi particulirement utiles dans ce contexte, pour par
exemple limiter la suggestion des concepts situs un maximum de N relations
skos:broader par rapport au concept dorigine ;
{
xxx
yyy
xxx
} =>
xxx
}
a role : Domain .
a role : Domain .
skos : broaderTransitive yyy .
{
: related yyy .
Listing 5.8: Rgle dinfrence base sur SKOS pour lidentification de concepts proches
221
{
xxx a foaf : Agent ;
role : hasRole [
role : hasDomain ddd .
] .
yyy a foaf : Agent ;
role : hasRole [
role : hasDomain ddd .
] .
} => {
xxx : related yyy .
}
Listing 5.9: Rgle dinfrence pour lidentification de concepts proches partir de relations
entre domaines
Figure 5.22: Identification dacteurs proches de Gaz de France selon une rgle prdfinie
sieurs rgles peuvent tre dfinies pour une mme classe, soit puisque dfinies explicitement, soit en appliquant les principes dinfrence RDFS. Par exemple, la seconde rgle sappliquera toute instance de foafplus:Company, sous-classe de foaf:Agent. Dun point
de vue pratique, ces rgles dinfrence sont dfinies au sein de notre systme en tant que requtes SPARQL (modlises partir des rgles dinfrence N3 dtailles prcdemment), et
sont appliques ds lors quune instance de la classe donne est identifie. Chaque concept
proche ainsi identifi est galement propos sous forme de lien hypertexte vers la page associe au sein du moteur de recherche, afin daccder aux documents correspondants.
Ces principes de suggestion de concepts proches, notamment via lutilisation de la rgle
utilisant les relations SKOS (Listing 5.8, page 221), nous permettent de prendre en compte le
problme des diffrents niveaux dexpertise voqu plus tt dans ce mmoire (Section 2.2.3,
page 66). En effet, nous avons vu que les non-experts avaient tendance utiliser des tags
reprsentant des concepts de haut niveau (e.g. solaire) l ou les experts utilisaient des tags
beaucoup plus spcifiques (e.g. TF pour Thin Film), les algorithmes de clustering tant limits
ds lors que les tags spcifiques et gnriques ntaient pas utilises en commun. Lapport
des rgles dinfrence bases sur SKOS pour suggrer des concepts spcifiques partir de
concepts gnriques permet donc dtablir une passerelle entre les concepts gnriques et
les concepts spcifiques, et par extension entre les contenus annots par des non-experts
222
et les contenues annots par des experts, comme le montre la figure qui suit (Figure 5.23,
page 223). On remarque galement, via lutilisation combine de FOAF, SIOC, MOAT et
SKOS, que ces connections forment un graphe complet qui permet de considrer les relations
aussi bien entre contenus, concepts et utilisateurs.
Modles
skos:Concept
sioc:Post
foaf:Person
rdf:type
rdf:type
rdf:type
athena:Solaire
moat:taggedWith
:billet1
foaf:maker
Niveau non-expert
skos:broader
athena:TF
:NonExpert
moat:taggedWith
:billet2
foaf:maker
::Expert
Niveau expert
Figure 5.23: Relations entre experts et non-experts en combinant FOAF, SIOC, MOAT et
SKOS
dant la valeur de la proprit dc:description) ainsi quune liste dlments annots via
ce concept, en utilisant galement diffrentes facettes, notamment pour identifier la source
associe chaque lment. Un aspect intressant est ainsi la possibilit de visualiser au sein
dune mme interface des contenus issus de systmes distincts (Flickr, SlideShare, etc.) mais
au final reprsents avec les mmes modles (SIOC, MOAT, etc.) et interconnects via lutilisation dURIs communes pour reprsenter leurs thmatiques.
Concept identifi
(description via
dc:description)
Concepts identifis
par co-occurence
Concepts en relation
directe
224
C ONCLUSION
Dans ce chapitre, nous avons prsent diffrents services et outils permettant de tirer
profit dannotations smantiques dans un contexte dEntreprise 2.0. Nous avons, dans un
premier temps, argument de la ncessit dun entrept de donnes dans ce contexte et dfini un ensemble de protocoles permettant son intgration au sein dun systme dynamique
de production dannotations. Nous avons ensuite prsent diffrentes approches permettant de bnficier de ces annotations parmi lesquelles un systme de macros smantiques
intgres au sein dUfoWiki, lutilisation dinterfaces facettes pour la visualisation dinstances dontologies de domaine et le mise en place de mash-ups smantiques. Nous avons
ensuite dtaill le fonctionnement dun moteur de recherche smantique associ cette architecture ainsi que lutilisation de rgles permettant lextension de requtes via le parcours
des graphes dannotations associs aux donnes mtier.
Pour chaque outil, nous avons fait en sorte que ces interfaces soient les plus intuitives
possible pour lutilisateur, pour qui la mcanique sous-jacente (i.e. lutilisation de technologies du Web Smantique) importe peu. Pour reprendre les propos de David Karger voquant
les interfaces de navigation pour le Web Smantique lors dun panel SWUI200643 , "whatever is in the cake, what people see is the candle !". cet gard, un point quil est selon nous
important de retenir de ce chapitre est qu partir du moment o lon dispose sur le Web
Smantique de donnes accessibles et interoprables, il est possible dimaginer une multitude dinterfaces de navigation et de recherche associes ces donnes, la valeur de celles-ci
tant alors inestimable dans ce contexte.
43 me
225
Conclusion gnrale
R ETOUR SUR LES IMPACTS DE LA THSE
Rponses aux problmatiques initiales
En introduction de ce mmoire, nous avons rsum la problmatique scientifique motivant nos travaux de la manire suivante : Comment combiner Web Smantique et Web 2.0 afin de
tirer profit dinteractions sociales issues doutils du Web 2.0 pour la reprsentation et lexploitation
de connaissances formalises selon les principes du Web Smantique ? Ainsi, nous avons montr
tout au long de cette thse de quelle manire nous envisagions cette complmentarit la
fois en termes de modles (Section 3, page 83) et dapplications pour la production (Section
5, page 187) puis pour lexploitation (Section 4, page 137) de telles connaissances. Avant de
resituer globalement nos travaux et dy apporter un regard critique, revenons sur les trois
axes de recherche majeurs dfinis au dbut de ce mmoire.
La modlisation des mtadonnes socio-structurelles associes aux outils Web 2.0
Nos travaux se sont ici concentrs sur deux modles principaux, SIOC et MOAT, permettant de prendre en compte pour le premier la modlisation des activits des communauts
en ligne (et des documents ainsi crs) et pour le second des aspects particuliers des tags et
des actions de tagging en faisant notamment le lien avec des ontologies de domaine venant
en support des folksonomies. Nous avons ici fait en sorte que ces modles soient suffisamment gnriques pour pouvoir sintgrer au sein de diffrents types de communauts, ces
deux ontologies tant en outre publies sur le Web. De plus, afin de faciliter les processus
dannotation smantique associs ces modles, de nombreux outils ont t mis en place,
aussi bien au sein de notre cosystme dEntreprise 2.0 que sur le Web.
La reprsentation de connaissances termino-ontologiques et le peuplement dontologies de domaine
partir doutils Web 2.0
Ici, nous nous sommes principalement intresss lutilisation de wikis smantiques
pour le peuplement dontologies, avec la mise en place dUfoWiki, systme combinant principes ddition wiki et reprsentation des connaissances selon les technologies du Web Smantique. Un point important dans cette approche est le rle actif de lutilisateur final, dans
une approche collaborative et ouverte de constitution de bases de connaissances terminoontologiques qui masque lutilisateur la complexit des technologies associes. Pour mener
bien cette tape, nous avons galement mis en place diffrentes ontologies de domaine,
227
C ONCLUSION GNRALE
processus qui nous a permis didentifier ce qui nous semble tre un ensemble de bonnes
pratiques en termes de reprsentation des connaissances pour lEntreprise 2.0, en tendant
notamment des modles couramment accepts sur le Web.
Lexploitation de graphes dannotations smantiques pour linteroprabilit, la mise en commun et la
recherche dinformations
En consquence des deux points prcdents, nous avons identifi diffrentes manires
dexploiter des graphes dannotations smantiques, quil sagisse de graphes reprsentant
des mtadonnes socio-structurelles ou associs des donnes mtier. Nous avons ainsi mis
en place diffrentes interfaces permettant dexploiter ces annotations, de simples macros
smantiques des interfaces facettes plus complexes permettant lutilisateur de sapproprier la nature multidimensionnelle des objets manipuls pour les visualiser selon diffrents
points de vue. Nous avons ici galement vu comment lutilisation dURIs communes entre
applications, facilite via MOAT, permettait une interoprabilit accrue entre outils distincts
et facilitait galement la recherche dinformation associe. Enfin, nous avons vu de quelle
manire diffrentes sources de donnes pouvaient tre combines au sein de mash-ups smantiques articulant donnes internes et externes.
Vision globale de notre recherche
Plus gnralement, nos travaux et le contexte dentreprise dans lequel nous nous situons
nous ont permis de dfinir la mthodologie SemSLATES, vision o les technologies du Web
Smantique viennent en support dcosystmes dEntreprise 2.0 pour rpondre leurs limites via une architecture de mdiation entre diffrents composants logiciels. Ainsi, alors
que de nombreuses entreprises migrent lheure actuelle vers des solutions dEntreprise
2.0 o comme le veulent les principes dcologie de linformation, lutilisateur a un rle aussi
voire plus important que les applications elles-mmes, il nous a paru pertinent daller
plus loin dans cette vision et de montrer en quoi ces solutions pouvaient tirer profit de technologies du Web Smantique.
De plus, bien que cette thse sintitule Technologies du Web Smantique pour lEntreprise 2.0,
nous avons fait en sorte que lensemble de nos recherches puisse tre appliqu de manire
plus large sur le Web. Pour exemple, SIOC est aujourdhui utilis dans de nombreuses applications du Web Smantique composante sociale, dpassant ainsi le cadre dutilisation
dentreprise que nous avons tudi dans cette thse. Limpact de MOAT est quant lui plus
restreint mais la vision quil dfend est aujourdhui mise en valeur par dautres initiatives
du mme type dans lesquelles il sintgre. Dautre part, certaines de nos rflexions et ralisations logicielles sintgrent de manire plus large dans cette vision de convergence entre
Web Smantique et Web 2.0.
Si, comme nous avons pu le voir dans ce manuscrit, nous ne sommes pas les seuls
dfendre ces thories de convergence, il nous semble intressant davoir montr selon diffrents axes que les reprsentations formelles proposes par les technologies du Web Smantique (via RDF(S)/OWL et SPARQL) ne sopposaient pas, et bien au contraire, la souplesse
des services Web 2.0 et aux notions de participations sociales qui en dcoulent. Plus particulirement, un point qui nous semble pertinent dans notre approche est la prise en compte
de ces notions de participations sociales selon deux axes complmentaires :
228
dune part en reprsentant laide de modles formels les interactions sociales qui
peuvent exister au sein de diffrentes communauts Web 2.0 ;
dautre part en permettant lmergence de bases de connaissances ouvertes et volutives, diriges par les utilisateurs finals.
Nous nous inscrivons ainsi dans une vision du Web Smantique (et du Web de manire
plus gnrale) o lutilisateur est au centre dun systme global dinformation que lon peut
voir comme une chane humain-machine-humain et o la composante sociale est aussi importante que la machine elle-mme. Ainsi, nous pouvons reprendre une de nos prcdentes
figures et ladapter comme suit pour dfinir cette vision dun Web o les interactions sociales
permettent la production dun ensemble de donnes interoperables et interconnectes pour
le bnfice de lutilisateur final (Figure 5.26, page 229). En consquence, gardons lesprit
que la russite dune telle complmentarit entre Web Smantique et Web 2.0 repose sur des
critres sociaux de participation et dchange et que laspect social est considrer autant
que les formalismes de reprsentation de donnes.
C ONCLUSION GNRALE
donnes RDF produites dans notre contexte dexprimentation en entreprise. La cration des
macros smantiques est en effet pour le moment limite aux administrateurs et le processus
de navigation par facettes, sil permet de visualiser une partie des connaissances produites
selon diffrents points de vue, ne prend pas en compte toute la richesse et la complexit des
graphes dannotations. Des interfaces graphiques avances auraient sans doute t pertinentes mais nous pouvons penser que celles-ci pourront se greffer par la suite lcosystme
mis en place, partir du moment o les donnes sont disponibles et reprsentes selon des
vocabulaires et formalismes connus. Notons galement que nous avons du faire face certaines limitations techniques qui ont retard certains dveloppements et contraint certains
autres rester au statut de prototype.
De manire plus globale, on peut nous reprocher davoir ax nos recherches sur la dfinition de modles et de processus ncessitant une intervention utilisateur plutt que sur la
mise en place des traitements automatiques, notamment pour nos travaux autour des liens
entre tags et ontologies avec MOAT. Nous avons cependant vu que ces deux approches ne
sopposaient pas et pouvaient ainsi tre combines. De plus, il nous semble que la dfinition
de vocabulaires de rfrence est ncessaire pour mener bien la vision du Web Smantique
et cest ce en quoi nous avons essay de contribuer avec MOAT.
Enfin en termes dvaluation, il aurait sans doute t pertinent de confronter notre systme de wikis smantiques dautres outils du mme type, la fois en termes de prise en
main et de qualit des annotations produites.
P ERSPECTIVES ET RFLEXIONS
Perspectives de recherche
lissu de cette thse, diffrentes perspectives de recherche venant dans la continuit
des travaux prsents dans ce mmoire soffrent nous. Nous souhaitons ainsi axer une
partie de nos travaux futurs autour des problmatiques suivantes :
lextension de la mthodologie SemSLATES afin de prendre en compte dautres sources
de donnes dynamiques dans cette perspective dintgration dinformations sociales
en entreprise. Il peut ici sagir de donnes provenant aussi bien du poste de travail
(dans la ligne du Semantic Desktop) que de flux dinformation issus de services de
microblogging, terminaux mobiles et autres senseurs favorisant lubiquit numrique ;
la protection des donnes personnelles et lvaluation du degr de confiance des sources
dinformation sur le Web 2.0, pour lesquelles les technologies du Web Smantique
nous semblent offrir un cadre appropri. Comme nous lavons voqu, louverture des
donnes sociales ne nous semble pas aller lencontre de ces principes mais nous permet au contraire denvisager des possibilits avances de contrle des informations
personnelles, en couplant reprsentation unifie de donnes structures, politiques
daccs et langages de rgles ;
la mise en place de mthodes avances permettant lexploitation de donnes RDF
de plus en plus nombreuses sur le Web, notamment via le projet Linking Open Data.
Plus particulirement, il nous semble intressant de rflchir la manire dont cellesci peuvent tre utilises avec pertinence en termes de navigation, recommandation,
230
Perspectives et rflexions
rutilisation et dcouverte dinformation, toujours en prenant en compte leur caractre multi-dimensionnel. Il nous semble galement intressant dy intgrer nouveau
un aspect social pour identifier des communauts dintrt ou des rseaux dexpertise
stablissant autour de ces donnes.
Rflexions autour du Web (Smantique)
Nous aimerions conclure ce mmoire en tentant de rpondre une question qui nous
a t pose plusieurs fois pendant cette thse, savoir "O est la killer-app du Web Smantique ?". cet gard, il nous semble que cette killer-app est le Web Smantique lui-mme. En
effet, partir du moment o celui-ci permet une mise en commun et un accs universel linformation, celle-ci tant lessence mme du savoir, lapplication nest en ralit quun moyen
dy accder, de la visualiser, de linterroger. Il faut certes encore du temps pour pouvoir lexploiter sa juste mesure. Du temps pour que les donnes soient accessibles et interconnectes, ce en quoi le projet Linking Open Data contribue grandement. Du temps galement pour
que certains challenges, comme les possibilits de requtes ou dinfrence grande chelle
puissent tre pris en compte. Du temps peut-tre aussi pour que lon prenne conscience du
potentiel et de la rupture technologique et sociale que le Web Smantique peut provoquer,
au mme titre que le Web la lui-mme entrain en tant que mdium de communication.
Le Web arrive une certaine maturit et complexit quil est ajourdhui ncessaire dtudier et de comprendre, comme le montre linitiative Web Science44 qui envisage celui-ci
comme lobjet dune science part entire, combinant sociologie, droit, informatique, etc.
l o celui-ci a longtemps t considr comme un sous-ensemble de cette dernire.
Malgr tout, le Web est encore jeune, et les technologies du Web Smantique le sont
encore plus. Laissons lui ainsi du temps ; aprs tout, comme le chantaient certains, "Its a
long way to the top (If you wanna RocknRoll)".
44
http://webscience.org
231
Annexe A
Espace de nom
athena
bookmark
dcmi
dct
exif
foaf
foafplus
geo
geonames
moat
owl
nao
partenariat
rdf
rdfs
role
sioc
siocs
sioct
scot
skos
tag
http://athena.edf.fr/data/
http://www.w3.org/2002/01/bookmark#Bookmark
http://purl.org/dc/dcmitype/Sound
http://purl.org/dc/terms/
http://www.w3.org/2003/12/exif/ns#IFD
http://xmlns.com/foaf/0.1
http://athena.der.edf.fr/ontologies/foafplus#
http://www.w3.org/2003/01/geo/wgs84_pos#
http://www.geonames.org/ontology#
http://moat-project.org/ns#
http://www.w3.org/2002/07/owl#
http://www.semanticdesktop.org/ontologies/2007/08/15/nao#
http://athena.der.edf.fr/ontologies/partenariat#
http://www.w3.org/1999/02/22-rdf-syntax-ns#
http://www.w3.org/2000/01/rdf-schema#
http://athena.der.edf.fr/ontologies/roles#
http://rdfs.org/sioc/ns#
http://rdfs.org/sioc/services#
http://rdfs.org/sioc/types#
http://scot-project.org/scot/ns#
http://www.w3.org/2008/05/skos#
http://www.holygoat.co.uk/owl/redwood/0.1/tags/
233
Annexe B
235
236
Annexe C
237
238
Annexe D
239
xmlns : wkn =" http :// athena . der . edf . fr / ontologies / wkn #"
>
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< athena : name > <![ CDATA [ AMF - Association des Maires de
France ]] > </ athena : name > </ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< foaf : name > <![ CDATA [ Association des Maires de France ]] > </
foaf : name > </ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< foafplus : acronym > <![ CDATA [ AMF ]] > </ foafplus : acronym > </ rdf :
Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< geonames : locatedIn rdf : resource =" http :// sws . geonames . org
/2988507/"/ >
</ rdf : Description >
< foafplus : Association rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< role : hasRole rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e2a7ee "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e " >
< role : hasRole rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # _483ab98e5151b "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s " >
< athena : name > <![ CDATA [ Activits Associatives ]] > </ athena :
name > </ rdf : Description >
< role : RoleDomain rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s " >
< skos : broader rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s "/ >
</ rdf : Description >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e " >
< athena : name > <![ CDATA [ Administration Publique ]] > </ athena :
name > </ rdf : Description >
< role : RoleDomain rdf : about =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e "/ >
< rdf : Description rdf : about =" http :// athena . der . edf . fr /
240
241
242
Annexe E
243
partenariat #"
xmlns : wkn =" http :// athena . der . edf . fr / ontologies / wkn #"
>
< foaf : Document rdf : about = >
< dc : title > SIOC profile for Hermes </ dc : title >
< dc : description > A SIOC profile describes the structure and
contents of a community site ( e . g . , weblog ) in a machine
processable form . For more information refer to the & lt ; a
href =& quot ; http :// rdfs . org / sioc & quot ;& gt ; SIOC project
page & lt ;/ a & gt ; </ dc : description >
< foaf : primaryTopic rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = node /16853"/ >
< admin : generatorAgent rdf : resource =" http :// drupal . org /
project / sioc "/ >
</ foaf : Document >
< sioct : WikiArticle rdf : about =" http :// athena . der . edf . fr / hermes
/? q = node /16853" >
< dc : creator > <![ CDATA [ Ariane Bouchet ]] > </ dc : creator >
< dc : title > <![ CDATA [ AMF - Association des Maires de France
]] > </ dc : title >
< dc : description > <![ CDATA [...]]] > </ dc : description >
< content : encoded > <![ CDATA [...]]]] > </ content : encoded >
< dcterms : created >2007 -11 -14 T15 :36:00+01:00 </ dcterms : created >
< dcterms : modified >2008 -05 -26 T15 :22:22+02:00 </ dcterms :
modified >
< sioc : link rdf : resource =" http :// athena . der . edf . fr / hermes /? q =
node /16853" / >
< sioc : has_creator rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = user /630" rdfs : seeAlso =" http :// athena . der . edf .
fr / hermes /? q = sioc / user /630" / >
< sioc : has_container rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = wiki /80" rdfs : seeAlso =" http :// athena . der . edf . fr
/ hermes /? q = sioc / wiki /80" / >
< wkn : embedsKnowledge rdf : resource =" http :// athena . der . edf . fr /
hermes /? q = rdfdata / node /16853" rdfs : seeAlso =" http :// athena
. der . edf . fr / hermes /? q = rdfdata / node /16853"/ >
< foaf : primaryTopic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # A M F A s s o c i a t i o n D e s M a i r e s D e F r a n c e "/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R ole Ty pe Re pre se nt ati on "/ >
< sioc : topic rdf : resource =" http :// sws . geonames . org
/3017382/"/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A d m i n i s t r a t i o n P u b l i q u e "/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /
ontologies / athena # R o l e D o m a i n A c t i v i t e s A s s o c i a t i v e s "/ >
< sioc : topic rdf : resource =" http :// sws . geonames . org
/3017382/"/ >
< sioc : topic rdf : resource =" http :// athena . der . edf . fr /
244
245
Annexe F
Proprit
skos:subject
rdf:type
dbpedia:reference
dbpedia:genre
dbpedia:page
dbpedia:hasPhotoCollection
dbpedia:origin
dbpedia:wikiPageUsesTemplate
dbpedia:label
dbpedia:wordnet_type
dbpedia:associatedActs
foaf:homepage
dbpedia:currentMembers
dbpedia:url
dbpedia:pastMembers
dbpedia:occupation
owl:sameAs
foaf:depiction
foaf:img
dpbedia:wikipage-de
247
Nombre de relations
1930
882
847
450
400
400
355
333
265
194
189
178
151
114
108
97
95
89
89
85
Bibliographie
[Abel, 2008] Fabian Abel (2008). The benefit of additional semantics in folksonomy systems.
In PIKM 08 : Proceeding of the 2nd PhD workshop on Information and Knowledge Management,
pages 4956. ACM Press.
[Abel et al., 2007] Fabian Abel, Mischa Frank, Nicola Henze, Daniel Krause, Daniel Plappert et Patrick Siehndel (2007). GroupMe ! Where Semantic Web Meets Web 2.0. In
Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web
Conference (ISWC/ASWC2007), volume 4825 de Lecture Notes in Computer Science, pages
871878. Springer.
[AbilityNet, 2008] AbilityNet (2008). State of the eNation web accessibility reports - Social
Networking Websites. Rapport technique, AbilityNet.
[Adida et Birbeck, 2008] Ben Adida et Mark Birbeck, diteurs (2008). RDFa Primer 1.0. W3C
Working Group Note 14 October 2008, World Wide Web Consortium. http://www.w3.
org/TR/xhtml-rdfa-primer/.
[Akhtar et al., 2008] Waseem Akhtar, Jacek Kopecky, Thomas Krennwallner et Axel Polleres
(2008). XSPARQL : Traveling between the XML and RDF worlds and avoiding the XSLT
pilgrimage. In Proceedings of the 5th European Semantic Web Conference (ESWC 2008), volume 5021 de Lecture Notes in Computer Science, pages 432447. Springer.
[Amardeilh, 2007] Florence Amardeilh (2007). Web Smantique et Informatique Linguistique :
propositions mthodologiques et ralisation dune plateforme logicielle. Thse de doctorat, Universit Paris-X.
[Amardeilh et al., 2005] Florence Amardeilh, Philippe Laublet et Jean-Luc Minel (2005). Annotation documentaire et peuplement dontologie partir dextractions linguistiques. In
IC2005, 16mes Journes Francophones dIngnierie des Connaissances.
[Angeletou, 2008] Sofia Angeletou (2008). Semantic Enrichment of Folksonomy Tagspaces.
In International Semantic Web Conference, volume 5318 de Lecture Notes in Computer Science,
pages 889894. Springer.
[Anicic et al., 2006] Nenad Anicic, Nenad Ivezic et Albert Jones (2006). An Architecture for Semantic Enterprise Application Integration Standards, In Dimitri Konstantas, Jean-Paul Bourrires, Michel Lonard et Nacer Boudjlida, diteurs : Interoperability of Enterprise Software
and Applications, chapitre 3, pages 2534. Springer.
249
B IBLIOGRAPHIE
[Ankolekar et al., 2008] Anupriya Ankolekar, Markus Krtzsch, Duc Thanh Tran et Denny
Vrandecic (2008). The Two Cultures : Mashing up Web 2.0 and the Semantic Web. Journal
of Web Semantics, 6(1):7075.
[Ankolekar et Vrandecic, 2008] Anupriya Ankolekar et Denny Vrandecic (2008). Kalpana
enabling client-side web personalization. In HYPERTEXT 2008, Proceedings of the 19th
ACM Conference on Hypertext and Hypermedia, pages 2126. ACM Press.
[Auer, 2005] Sren Auer (2005). Powl - A Web Based Platform for Collaborative Semantic
Web Development. In First Workshop on Scripting for the Semantic Web (SFSW2005), volume
135 de CEUR Workshop Proceedings. CEUR-WS.org.
[Auer et al., 2007] Sren Auer, Chris Bizer, Jens Lehmann, Georgi Kobilarov, Richard Cyganiak et Zachary Ives (2007). Dbpedia : A nucleus for a web of open data. In Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007), volume 4825 de Lecture Notes in Computer Science, pages 715728.
Springer.
[Auer et al., 2006] Sren Auer, Sebastian Dietzold et Thomas Riechert (2006). OntoWiki - A
Tool for Social, Semantic Collaboration. In Proceedings of the 5th International Semantic Web
Conference (ISWC 2006), volume 4273 de Lecture Notes in Computer Science. Springer.
[Auillans et al., 2002] Pascal Auillans, Patrice Ossona de Mendez, Pierre Rosenstiehl et Bernard Vatant (2002). A Formal Model for Topic Maps. In The Semantic Web - ISWC
2002. First International Semantic Web Conference, volume 2342 de Lecture Notes in Computer
Science, pages 6983. Springer.
[Ayers et Vlkel, 2008] Danny Ayers et Max Vlkel, Leo Sauermann et Richard Cyganiak,
diteurs (2008). Cool URIs for the Semantic Web. W3C Interest Group Note 03 December
2008, World Wide Web Consortium. http://www.w3.org/TR/cooluris/.
[Baader et al., 2003] Franz Baader, Diego Calvanese, Deborah L. McGuinness, Daniele Nardi
et Peter F. Patel-Schneider (2003). The Description Logic Handbook : Theory, Implementation,
and Applications. Cambridge University Press.
[Bachimont, 2000] Bruno Bachimont (2000). Engagement Smantique et Engagement Ontologique : Conception et Ralisation Dontologies En Ingnierie Des Connaissances, In Manuel Zacklad, Jean Charlet, Gilles Kassel et Didier Bourigault, diteurs : Ingnierie des connaissances : volutions rcentes et nouveaux dfis, chapitre 19, pages 305324. Eyrolles.
[Bechhofer et al., 2004] Sean Bechhofer, Frank ven Harmelen, James A. Hendler, Ian Horrocks, Deborah L. McGuinness, Peter F. Patel-Schneider et Lynn Andrea Stein, Mike Dean
et Guus Schreiber, diteurs (2004). OWL Web Ontology Language Reference. W3C Recommendation 10 February 2004, World Wide Web Consortium. http://www.w3.org/
TR/owl-ref/.
[Beck, 1999] Kent Beck (1999). Extreme Programming Explained : Embrace Change. AddisonWesley Professional.
250
Bibliographie
[Beckett, 2004] David Beckett, diteur (2004). RDF/XML Syntax Specification (Revised).
W3C Recommendation 10 February 2004, World Wide Web Consortium. http://www.
w3.org/TR/rdf-syntax-grammar/.
[Beckett et Berners-Lee, 2008] David Beckett et Tim Berners-Lee (2008). Turtle - Terse RDF
Triple Language. W3C Team Submission 14 January 2008, World Wide Web Consortium.
http://www.w3.org/TeamSubmission/turtle/.
[Begelman et al., 2006] Grigory Begelman, Philipp Keller et Frank Smadja (2006). Automated Tag Clustering : Improving search and exploration in the tag space. In Proceedings of
the WWW2006 Workshop on Collaborative Tagging.
[Berendt et Hanser, 2007] Bettina Berendt et Christoph Hanser (2007). Tags are not metadata, but "just more content" - to some people. In Proceedings of the First International
Conference on Weblogs and Social Media (ICWSM2007).
[Bergman et Giasson, 2008] Michael K. Bergman et Frdrick Giasson, diteurs (2008). UMBEL Ontology Documentation. Technical Report TR 08-08-28-A1, none. http://umbel.
org/technical_documentation.html.
[Bernardi et al., 2008] Ansgar Bernardi, Stefan Decker, Ludger van Elst, Gunnar Grimnes,
Tudor Groza, Siegfried Handschuh Mehdi Jazayeri, Cedric Mesnage, Knud Moeller, Gerald Reif et Michael Sintek (2008). The Social Semantic Desktop : A New Paradigm Towards
Deploying the Semantic Web on the Desktop, In Jorge Cardoso et Miltiadis D. Lytras, diteurs : Semantic Web Engineering in the Knowledge Society, chapitre 7, pages 290312. IGI
Global.
[Berners-Lee, 1989] Tim Berners-Lee (1989). Information Management : A Proposal. Rapport technique, CERN. http://www.w3.org/History/1989/proposal.html.
[Berners-Lee, 2005a] Tim Berners-Lee (2005a). Putting the web back in semantic web.
http ://www.w3.org/2005/Talks/1110-iswc-tbl/(1).
[Berners-Lee, 2005b] Tim Berners-Lee (2005b). Tim Berners-Lee Podcast at ISWC2005.
www. http://esw.w3.org/topic/IswcPodcast.
[Berners-Lee, 2006a] Tim Berners-Lee (2006a). Conceptual Graphs and the Semantic Web.
Design issues for the world wide web, World Wide Web Consortium. http://www.w3.
org/DesignIssues/CG.html.
[Berners-Lee, 2006b] Tim Berners-Lee (2006b). Linked Data. Design issues for the
world wide web, World Wide Web Consortium. http://www.w3.org/DesignIssues/
LinkedData.html.
[Berners-Lee, 2006c] Tim Berners-Lee (2006c).
DesignIssues/Notation3.html.
Notation 3.
http://www.w3.org/
[Berners-Lee et al., 2006] Tim Berners-Lee, Yuhsin Chen, Lydia Chilton, Dan Connolly, Ruth
Dhanaraj, James Hollenbach, Adam Lerer et David Sheets (2006). Tabulator : Exploring
and Analyzing linked data on the Semantic Web. In Proceedings of the 3rd International
Semantic Web User Interaction Workshop (SWUI2006).
251
B IBLIOGRAPHIE
[Berners-Lee et al., 2005] Tim Berners-Lee, Roy Fielding, U.C. Irvine et Larry Masinter
(2005). Uniform Resource Identifiers (URI) : Generic Syntax. Request for comments :
3986, Internet Engineering Task Force. http://www.ietf.org/rfc/rfc3986.txt.
[Berners-Lee et Fischetti, 1999] Tim Berners-Lee et Mark Fischetti (1999). Weaving the Web :
The Original Design and Ultimate Destiny of the World Wide Web by its Inventor. Harper
Collins Publishers, New York.
[Berners-Lee et al., 2001] Tim Berners-Lee, James A. Hendler et Ora Lassila (2001). The Semantic Web. Scientific American, 284(5):3443.
[Berrueta et al., 2007] Diego Berrueta, Dan Brickley, Stefan Decker, Sergio Fernndez, Christoph Grn, Andreas Harth, Tom Heath, Kingsley Idehen, Kjetil Kjernsmo, Alistair Miles,
Alexandre Passant, Axel Polleres, Luis Polo et Michael Sintek, Uldis Bojars et John G.
Breslin, diteurs (2007). SIOC Core Ontology Specification. W3C Member Submission 12 June 2007, World Wide Web Consortium. http://www.w3.org/Submission/
sioc-spec/.
[Berrueta et al., 2008] Diego Berrueta, Jose E. Labra. et Ivan Herman (2008). XSLT+SPARQL :
Scripting the Semantic Web with SPARQL embedded into XSLT stylesheets. In 4th Workshop on Scripting for the Semantic Web (SFSW2008), volume 368 de CEUR Workshop Proceedings. CEUR-WS.org.
[Bibikas et al., 2008] Dimitris Bibikas, Dimitrios Kourtesis, Iraklis Paraskakis, Ansgar Bernardi, Leo Sauermann, Dimitris Apostolou, Gregoris Mentzas et Ana Cristina Vasconcelos (2008). Organisational Knowledge Management Systems in the Era of Enterprise 2.0 :
The case of OrganiK. In BIS 2008 Workshops Proceedings, volume 333 de CEUR Workshop
Proceedings, pages 4553. CEUR-WS.org.
[Biezunski et al., 2002] Michel Biezunski, Martin Bryan et Steven R. Newcomb, diteurs
(2002). ISO/IEC 13250, Topic Maps (Second Edition). Rapport technique, ISO/IEC.
[Bizer et Cyganiak, 2007] Christian Bizer et Richard Cyganiak (2007). The TriG Syntax.
Rapport technique, Freie Universitt Berlin. http://www4.wiwiss.fu-berlin.de/
bizer/TriG/.
[Bizer et al., 2007a] Christian Bizer, Richard Cyganiak et Tobias Gauss (2007a). The rdf book
mashup : From web apis to a web of data. In 3rd Workshop on Scripting for the Semantic
Web (SFSW2007), volume 248 de CEUR Workshop Proceedings. CEUR-WS.org.
[Bizer et al., 2007b] Chris Bizer, Richard Cyganiak et Tom Heath (2007b). How to Publish
Linked Data on the Web. Rapport technique. http://www4.wiwiss.fu-berlin.de/
bizer/pub/LinkedDataTutorial/.
[Bizer et al., 2008] Christian Bizer, Tom Heath, Kingsley Idehen et Tim Berners-Lee, diteurs
(2008). First Workshop on Linked Data on the Web (LDOW2008). volume 369 de CEUR
Workshop Proceedings. CEUR-WS.org.
252
Bibliographie
[Bizer et Schultz, 2008] Christian Bizer et Andreas Schultz (2008). Benchmarking the Performance of Storage Systems that expose SPARQL Endpoints. In Proceedings of the 4th
International Workshop on Scalable Semantic Web knowledge Base Systems (SSWS2008).
[Bojars, 2009] Uldis Bojars (2009). Establishing a Multipurpose Ontology for Describing UserGenerated Content on the Semantic Web. Thse de doctorat, National University of Ireland,
Galway. paraitre.
[Bojars et Breslin, 2007] Uldis Bojars et John G. Breslin (2007). ResumeRDF : Expressing
Skill Information on the Semantic Web. In Proceedings of the 1st International ExpertFinder
Workshop.
[Bojars et al., 2006] Uldis Bojars, John G. Breslin et Alexandre Passant (2006). SIOC Browser
Towards a Richer Blog Browsing Experience. In Proceedings of the 4th Blogtalk Conference
(Blogtalk Reloaded). Books on demand.
[Bojars et al., 2007a] Uldis Bojars, John G. Breslin, Alexandre Passant et Axel Polleres, diteurs (2007a). SIOC Ontology : Related Ontologies and RDF Vocabularies. W3C Member Submission 12 June 2007, World Wide Web Consortium. http://www.w3.org/
Submission/sioc-related/.
[Bojars et al., 2008a] Uldis Bojars, Alexandre Passant, John G. Breslin et Stefan Decker
(2008a). Social Network and Data Portability using Semantic Web Technologies. In
BIS 2008 Workshops Proceedings, volume 333 de CEUR Workshop Proceedings, pages 519.
CEUR-WS.org.
[Bojars et al., 2008b] Uldis Bojars, Alexandre Passant, Richard Cyganiak et John G. Breslin
(2008b). Weaving sioc into the web of linked data. In Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Bojars et al., 2007b] Uldis Bojars, Alexandre Passant, Frederick Giasson et John G. Breslin
(2007b). An architecture to discover and query decentralized RDF data. In 3rd Workshop
on Scripting for the Semantic Web (SFSW2007), volume 248 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Bonabeau et Theraulaz, 1994] Eric Bonabeau et Guy Theraulaz (1994). Intelligence collective.
Hermes Science Publications.
[Bottollier et al., 2007] Virginie Bottollier, Olivier Corby et Priscille Durville, Fabien L. Gandon, diteur (2007). RDF/XML Source Declaration. W3C Member Submission 5
September 2007, World Wide Web Consortium. http://www.w3.org/Submission/
rdfsource/.
[Bouquet et al., 2008] Paolo Bouquet, Heiko Stoermer, Daniele Cordiolo et Giovanni Tummarello (2008). An Entity Name System for Linking Semantic Web Data. In Proceedings
of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369 de CEUR
Workshop Proceedings. CEUR-WS.org.
253
B IBLIOGRAPHIE
[Boyd, 2008] Danah M. Boyd (2008). Taken Out of Context : American Teen Sociality in Networked Publics. Thse de doctorat, University of California, Berkeley.
[Breslin et al., 2008] John G. Breslin, Uldis Bojars, Alexandre Passant et Sergio Fernndez,
diteurs (2008). First Workshop on Social Data on the Web (SDoW2008). volume 405 de
CEUR Workshop Proceedings. CEUR-WS.org.
[Breslin et Decker, 2006] John G. Breslin et Stefan Decker (2006). Semantic Web 2.0 : Creating
Social Semantic Information Spaces. Tutorial at the 15th International World Wide Web
Conference (WWW2006).
[Breslin et Decker, 2007] John G. Breslin et Stefan Decker (2007). The Future of Social Networks on the Internet : The Need for Semantics. IEEE Internet Computing, 11(6):8690.
[Breslin et al., 2005] John G. Breslin, Andreas Harth, Uldis Bojars et Stefan Decker (2005).
Towards Semantically-Interlinked Online Communities. In Proceedings of the 2nd European
Semantic Web Conference (ESWC2005), volume 3532 de Lecture Notes in Computer Science,
pages 500514. Springer.
[Breslin et al., 2009] John G. Breslin, Alexandre Passant et Stefan Decker (2009). The Social
Semantic Web. Springer.
[Brickley, 2003] Dan Brickley, diteur (2003). Basic Geo (WGS84 lat/long) Vocabulary. Rapport technique, World Wide Web Consortium. http://www.w3.org/2003/01/geo/.
[Brickley et Guha, 2004] Dan Brickley et Ramanatgan V. Guha, diteurs (2004). RDF Vocabulary Description Language 1.0 : RDF Schema. W3C Recommendation 10 February
2004, World Wide Web Consortium. http://www.w3.org/TR/rdf-schema/.
[Brickley et Miller, 2004a] Dan Brickley et Libby Miller (2004a). FOAF Vocabulary Specification. Namespace Document 2 Sept 2004. http://xmlns.com/foaf/0.1/.
[Brickley et Miller, 2004b] Dan Brickley et Libby Miller (2004b). FOAF Vocabulary Specification. Namespace Document 2 Sept 2004, FOAF Project. http ://xmlns.com/foaf/0.1/.
[Brin et Page, 1998] Sergey Brin et Lawrence Page (1998). The Anatomy of a Large-Scale
Hypertextual Web Search Engine. Computer Networks and ISDN Systems, 30(17):107117.
[Broekstra et Kampman, 2005] Jeen Broekstra et Arjohn Kampman (2005). The SeRQL
query language (revision 1.2). Rapport technique, Aduna. http://www.openrdf.org/
doc/sesame/users/ch06.html.
[Buffa et al., 2008] Michel Buffa, Fabien L. Gandon, Guillaume Ereteo, Peter Sander et Catherine Faron (2008). SweetWiki : A semantic wiki. Journal of Web Semantics, 6(1):8497.
[Bush, 1945] Vannevar Bush (1945). As We May Think. The Atlantic Monthly, 176(1):101108.
[Caldwell et al., 2008] Ben Caldwell, Michael Cooper, Loretta Guarino Reid et Gregg Vanderheiden, diteurs (2008). Web Content Accessibility Guidelines (WCAG) 2.0. W3C
Recommendation 11 December 2008, World Wide Web Consortium. http://www.w3.
org/TR/WCAG20/.
254
Bibliographie
[Cao et al., 2003] Tuan-Dung Cao, Fabien L. Gandon et Rose Dieng-Kuntz (2003). Intgration de sources extrieures dans un Web smantique dentreprise gr par un systme
multiagents. In IC2003, 14mes Journes Francophones dIngnierie des Connaissances.
[Cardon et al., 2007] Dominique Cardon, Hlne Delaunay-Teterel, Cdric Fluckiger et
Christophe Prieur (2007). Sociological Typology of Personal Blogs. In Proceedings of the
First International Conference on Weblogs and Social Media (ICWSM2007).
[Caroll, 2003] Jeremy J. Caroll (2003). Signing RDF graphs. In Proceedings of International
Semantic Web Conference 2003 (ISWC03), volume 2870 de Lecture Notes in Computer Science,
pages 369384. Springer.
[Caroll et Stickler, 2004] Jeremy J. Caroll et Patrick Stickler (2004). TriX : RDF Triples in XML.
Technical Report HPL-2004-56, HP Labs.
[Carroll et al., 2005] Jeremy Carroll, Christian Bizer, Patrick Hayes et Patrick Stickler (2005).
Named Graphs, Provenance and Trust. In Proceedings of the 14th International World Wide
Web Conference (WWW2005), pages 613622.
[Cayzer, 2004] Steve Cayzer (2004). Semantic blogging and decentralized knowledge management. Communications of the ACM, 47(12):4752.
[Cayzer, 2006] Steve Cayzer (2006). What next for Semantic Blogging ? Technical Report
HPL-2006-149, HP Labs.
[Cayzer et Castagna, 2005] Steve Cayzer et Paolo Castagna (2005). How to build a snippet manager. In Proceedings of the 1st Workshop on The Semantic Desktop, 4th International
Semantic Web Conference, volume 175 de CEUR Workshop Proceedings. CEUR-WS.org.
[Cayzer et Shabajee, 2003] Steve Cayzer et Paul Shabajee (2003). Semantic Blogging and
Bibliography Management. In BlogTalk Proceedings.
[Charlet et al., 2000] Jean Charlet, Manuel Zacklad, Gilles Kassel et Didier Bourigault, diteurs (2000). Ingnierie des connaissances. Eyrolles.
[Christensen et al., 2001] Erik Christensen, Francisco Curbera, Greg Meredith et Sanjiva
Weerawarana (2001). Web Service Description Language (WSDL) 1.1. W3c note 15 march
2001, World Wide Web Consortium. http://www.w3.org/TR/wsdl.
[Ciccarese et al., 2008] Paolo Ciccarese, Elizabeth Wu, Gwen Wong, Marco Ocana, June Kinoshita, Alan Ruttenberg et Tim Clark (2008). The SWAN biomedical discourse ontology.
Journal of Biomedical Informatics, 41(5):739751.
[Clark, 1999] James Clark, diteur (1999). XSL Transformations (XSLT) Version 1.0. W3c
recommendation 16 november 1999, World Wide Web Consortium. http://www.w3.
org/TR/xslt.
[Clark et al., 2008] Kendall Grant Clark, Lee Feigenbaum et Elias Torres, diteurs (2008).
SPARQL Protocol for RDF. W3C Recommendation 15 January 2008, World Wide Web
Consortium. http://www.w3.org/TR/rdf-sparql-protocol/.
255
B IBLIOGRAPHIE
[Claudio et al., 2005] Masolo Claudio, Guarino Nicola, Oltramari Alessandro et Shneider
Luc (2005). The WonderWeb Library of Foundational Ontologies. Projet WonderWeb,
Dlivrable D18.
[Cohen et al., 2004] David Cohen, Mikael Lindvall et Patricia Costa (2004). An introduction
to agile methods, In Marvin V. Zelkowitz, diteur : Advances in Computers, volume 62, pages
267. Elsevier Academic Press.
[Cointet et al., 2007] Jean-Philippe Cointet, Emmanuel Faure et Camille Roth (2007). Intertemporal Topic Correlations in Online Media : A Comparative Study on Weblogs and
News Websites. In Proceedings of the First International Conference on Weblogs and Social
Media (ICWSM2007).
[Connolly, 2007] Dan Connolly, diteur (2007). Gleaning Resource Descriptions from Dialects of Languages (GRDDL). W3C Recommendation 11 September 2007, World Wide
Web Consortium. http://www.w3.org/TR/grddl/.
[Corby et al., 2004] Olivier Corby, Rose Dieng-Kuntz et Catherine Faron-Zucker (2004).
Querying the Semantic Web with Corese Search Engine. pages 705709. IOS Press.
[Craig et al., 2009] James Craig, Michael Cooper, Lisa Pappas, Rich Schwerdtfeger et Lisa
Seeman, diteurs (2009). Accessible Rich Internet Applications (WAI-ARIA) 1.0. W3C
Working Draft 24 February 2009, World Wide Web Consortium. http://www.w3.org/
TR/wai-aria/.
[Cyganiak et al., 2008] Richard Cyganiak, Holger Stenzhorn, Renaud Delbru, Stefan Decker
et Giovanni Tummarello (2008). Semantic Sitemaps : Efficient and Flexible Access to Datasets on the Semantic Web. In Proceedings of the 5th European Semantic Web Conference
(ESWC 2008), volume 5021 de Lecture Notes in Computer Science, pages 690704. Springer.
[dAquin et al., 2008] Mathieu dAquin, Marta Sabou, Enrico Motta, Sofia Angeletou, Laurian Gridinoc, Vanessa Lopez et Fouad Zablith (2008). What Can be Done with the Semantic Web ? An Overview Watson-based Applications. In Proceedings of the 5th Workshop
on Semantic Web Applications and Perspectives (SWAP2008), volume 426 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Davenport et Prusak, 1997] Thomas H. Davenport et Laurence Prusak (1997). Information
Ecology : Mastering the Information and Knowledge Environment. Oxford University Press.
[Davis, 2005] Ian Davis (2005). An Introduction to RDF. http://research.talis.com/
2005/rdf-intro/.
[Decker et al., 1999] Stefan Decker, Michael Erdmann, Dieter Fensel et Rudi Studer (1999).
Ontobroker : Ontology Based Access to Distributed and SemiStructured Information. In
Database Semantics : Semantic Issues in Multimedia System, pages 351369. Kluwer Academic Publisher.
[Descls, 1997] Jean-Pierre Descls (1997). Systmes dexploration contextuelle, In Claude Guimier, diteur : Co-texte et Calcul du sens, pages 215232. Presses Universitaires de Caen.
256
Bibliographie
[Ding et al., 2004] Li Ding, Tim Finin, Anupam Joshi, Rong Pan, R. Scott Cost, Yun Peng,
Pavan Reddivari, Vishal Doshi et Joel Sachs (2004). Swoogle : a search and metadata
engine for the semantic web. In Proceedings of the thirteenth ACM International Conference
on Information and Knowledge Management (CIKM 04), pages 652659. ACM Press.
[Djioua et al., 2006] Brahim Djioua, Jorge J. Garca Flores, Antoine Blais, Jean-Pierre Descls, Gall Guibert, Agata Jackiewicz, Florence Le Priol, Leila Nait-Baha et Benot Sauzay
(2006). EXCOM : An Automatic Annotation Engine for Semantic Information. In Proceedings of the Nineteenth International Florida Artificial Intelligence Research Society Conference
(FLAIRS), pages 285290. AAAI Press.
[Domingue et Dzbor, 2004] John Domingue et Martin Dzbor (2004). Magpie : supporting
browsing and navigation on the semantic web. In Proceedings of the 9th International conference on Intelligent user interface, pages 191197. ACM Press.
[Dublin Core Metadata Initiative, 2006] Dublin Core Metadata Initiative (2006). Dcmi metadata terms.
[Echarte et al., 2007] Francisco Echarte, Jos Javier Astrain, Alberto Crdoba et Jess Villadangos (2007). Ontology of Folksonomy : A New Modeling Method. In Proceedings of the
Semantic Authoring, Annotation and Knowledge Markup Workshop (SAAKM2007), volume
289 de CEUR Workshop Proceedings. CEUR-WS.org.
[Engelbart, 1962] Douglas C. Engelbart (1962). Augmenting Humain Intellect : A Conceptual Framework. Rapport technique, Stanford Research Institute.
[Engelbart, 1990] Douglas C. Engelbart (1990). Knowledge-Domain Interoperability and an
Open Hyperdocument System. In Proceedings of the 1990 ACM conference on Computersupported cooperative work, pages 143156. ACM Press.
[Erling et Mikhailov, 2007] Orri Erling et Ivan Mikhailov (2007). RDF Support in the Virtuoso DBMS. In SABRE Conference on Social Semantic Web (CSSW 2007), volume 113 de
Lecture Notes in Informatics, pages 5968. GI-EDITION.
[Fellbaum, 1998] Christiane Fellbaum, diteur (1998). Wordnet, an Electronic Lexical Database.
MIT Press.
[Fensel et al., 2000] Dieter Fensel, Ian Horrocks, Frank van Harmelen, Stefan Decker, Michael Erdmann et Michel Klein (2000). OIL in a nutshell. In Proceedings of the European
Knowledge Acquisition Conference (EKAW-2000), volume 1937 de Lecture Notes in Computer
Science, pages 116. Springer.
[Fernndez et al., 2007a] Sergio Fernndez, Diego Berrueta et Jose E. Labra (2007a). Mailing
Lists Meet The Semantic Web. In Proceedings of the BIS 2007 Workshop on Social Aspects of
the Web (SAW2007), volume 245 de CEUR Workshop Proceedings. CEUR-WS.org.
[Fernndez et al., 2007b] Sergio Fernndez, Frdrick Giasson et Kingsley Idehen, Uldis
Bojars, John G. Breslin et Alexandre Passant, diteurs (2007b). SIOC Ontology : Applications and Implementation Status. W3C Member Submission 12 June 2007, World Wide
Web Consortium. http://www.w3.org/Submission/sioc-applications/.
257
B IBLIOGRAPHIE
[Fielding, 2000] Roy Thomas Fielding (2000). REST : Architectural Styles and the Design of
Network-based Software Architectures. Thse de doctorat, University of California, Irvine.
[Franz et Staab, 2005] Thomas Franz et Steffen Staab (2005). SAM : Semantics Aware Instant
Messaging for the Networked Semantic Desktop. In Proceedings of the 1st Workshop on The
Semantic Desktop, 4th International Semantic Web Conference, volume 175 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Frappaolo et Keldsen, 2008] Carl Frappaolo et Dan Keldsen (2008). Enterprise 2.0 : Agile,
Emergent Integrated. Rapport technique, AIIM The Enterprise Content Management
Association.
[Fuchs et al., 2000] Norbert E. Fuchs, Uta Schwertel et Sunna Torge (2000).
Controlled English (ACE). Journal of Language and Computation, 1(2):199214.
Attempto
[Fukazawa et al., 2006] Yusuke Fukazawa, Takefumi Naganuma, Kunihiro Fujii et Shoji Kurakake (2006). Construction and Use of Role-Ontology for Task-Based Service Navigation
System. In Proceedings of the 5th International Semantic Web Conference (ISWC 2006), volume
4273 de Lecture Notes in Computer Science, pages 806819. Springer.
[Gandon, 2005] Fabien Gandon (2005). Generating Surrogates to Make the Semantic Web
Intelligible to End-Users. In WI 05 : Proceedings of the 2005 IEEE/WIC/ACM International
Conference on Web Intelligence, pages 352358. IEEE Computer Society.
[Gandon, 2002] Fabien L. Gandon (2002). Intelligence artificielle distribue et gestion des
connaissances : ontologies et systmes multi-agents pour un web smantique organisationnel.
Thse de doctorat, INRIA Sophia-Antipolis.
[Gandon, 2006] Fabien L. Gandon (2006). Le web smantique nest pas antisocial. In IC2006,
17mes Journes Francophones dIngnierie des Connaissances, pages 131140.
[Gandon, 2007] Fabien L. Gandon, diteur (2007). GRDDL Use Cases : Scenarios of extracting RDF data from XML documents. W3c working group note 6 april 2007, World Wide
Web Consortium. http://www.w3.org/TR/grddl-scenarios/.
[Gandon et Giboin, 2008] Fabien L. Gandon et Alain Giboin (2008). Vers des ontologies
ltat sauvage. In Atelier Ingnierie des Connaissances 2.0.
[Garey et Johnson, 1979] Michael R. Garey et David S. Johnson (1979). Computers and Intractability A Guide to the Theory of NP-Completeness. W. H. Freeman And Company.
[Giboin et al., 2008] Alain Giboin, Alexandre Passant, Philippe Laublet, Nathalie AussenacGilles et Yannick Pri, diteurs (2008). Atelier IC 2.0 : Vers une ingnierie "sociale" des
connaissances : Dans quelle mesure les usages du Web 2.0 font-ils voluer les pratiques
dIC ?
[Gillmor, 2004] Dan Gillmor (2004). We the Media. OReilly.
[Golder et Huberman, 2006] Scott Golder et Bernardo A. Huberman (2006). Usage patterns
of collaborative tagging systems. Journal of Information Science, 32(2):198208.
258
Bibliographie
259
B IBLIOGRAPHIE
[Harth et al., 2007] Andreas Harth, Aidan Hogan, Jrgen Umbrich et Stefan Decker (2007).
SWSE : Objects before documents ! In Semantic Web Challenge 2008, collocated with the 7th
International Semantic Web Conference (ISWC).
[Harth et al., 2006] Andreas Harth, Jrgen Umbrich et Stefan Decker (2006). MultiCrawler :
A Pipelined Architecture for Crawling and Indexing Semantic Web Data. In Proceedings
of the 5th International Semantic Web Conference (ISWC 2006), volume 4273 de Lecture Notes
in Computer Science, pages 258271. Springer.
[Hartmann et al., 2004] Jens Hartmann, York Sure, Alain Giboin, Diana Maynard, Mari del
Carmen Surez-Figueroa et Roberta Cuel (2004). Methods for ontology evaluation. Projet
KWeb, Dliverable 1.2.3.
[Hausenblas et al., 2008] Michael Hausenblas, Wolfgang Halb et Yves Raimond (2008).
Scripting User Contributed Interlinking. In 4th Workshop on Scripting for the Semantic Web
(SFSW2008), volume 368 de CEUR Workshop Proceedings. CEUR-WS.org.
[Hausenblas et al., 2009] Michael Hausenblas, Philipp Krger, Daniel Olmedilla, Alexandre
Passant et Axel Polleres, diteurs (2009). Proceedings of the First Workshop on Trust and
Privacy on the Social and Semantic Web (SPOT2009). volume 447 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Hayes et al., 2007] Conor Hayes, Paolo Avesani et Sriharsha Veeramachaneni (2007). An
Analysis of the Use of Tags in a Blog Recommender System. In Twentieth International
Joint Conferences on Artificial Intelligence, pages 27722777.
[Hayes, 2004] Patrick Hayes, diteur (2004). RDF Semantics. W3C Recommendation 10
February 2004, World Wide Web Consortium. http://www.w3.org/TR/rdf-mt/.
[Heath et Motta, 2007] Tom Heath et Enrico Motta (2007). Revyu.com : A Reviewing and
Rating Site for the Web of Data. In Proceedings of the 6th International Semantic Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007), volume 4825 de Lecture
Notes in Computer Science, pages 895902. Springer.
[Heflin et Hendler, 2000] Jeff Heflin et James A. Hendler (2000). Searching the Web with
SHOE. In Artificial Intelligence for Web Search. Papers from the AAAI Workshop. WS-00-01.,
pages 3540. AAAI Press.
[Hendler et Golbeck, 2008] James A. Hendler et Jenifer Golbeck (2008). Metcalfes law, Web
2.0, and the Semantic Web. Journal of Web Semantics, 6(1):1420.
[Herman et al., 2000] Ivan Herman, Guy Melanon et M. Scott Marshall (2000). Graph Visualization and Navigation in Information Visualization : a Survey. IEEE Transactions on
Visualization and Computer Graphics, 6(1):2443.
[Hildebrand et al., 2007] Michiel Hildebrand, Jacco van Ossenbruggen, Alia K. Amin, Lora
Aroyo, Jan Wielemaker et Lynda Hardman (2007). The Design Space Of A Configurable
Autocompletion Component. Rapport technique, CWI Amsterdam.
260
Bibliographie
[Hogan et al., 2008] Aidan Hogan, Andreas Harth et Axel Polleres (2008). SAOR : Authoritative Reasoning for the Web. In Proceedings of the 3rd Asian Semantic Web Conference
(ASWC 2008), volume 5367 de Lecture Notes in Computer Science, pages 7690. Springer.
[Horrocks, 2002] Ian Horrocks (2002). DAML+OIL : a Description Logic for the Semantic
Web. IEEE Data Engineering Bulletin, 25(1):49.
[Huynh et al., 2007] David F. Huynh, David R. Karger et Robert C. Miller (2007). Exhibit :
Lightweight structured data publishing. In Proceedings of the 16th International World Wide
Web Conference (WWW2007), pages 737746.
[Huynh-Kim-Bang et Dan, 2008] Benjamin Huynh-Kim-Bang et Eric Dan (2008). Social
bookmarking et tags structurs. In IC2008, 19mes Journes Francophones dIngnierie des
Connaissances.
[Idehen et Erling, 2008] Kingsley Idehen et Orri Erling (2008). Linked Data Spaces Data
Portability. In Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008),
volume 369 de CEUR Workshop Proceedings. CEUR-WS.org.
[Isaac, 2005] Antoine Isaac (2005). Conception et utilisation dontologies pour lindexation de
documents audiovisuels. Thse de doctorat, Universit Paris-IV, Paris, France.
[Isaac et al., 2007] Antoine Isaac, John Phipps et Daniel Rubin, diteurs (2007). SKOS Use
Cases and Requirements. W3C Working Draft 16 May 2007, World Wide Web Consortium. http://www.w3.org/TR/2007/WD-skos-ucr-20070516/.
[Jaffri et al., 2007] Afraz Jaffri, Hugh Glaser et Ian Millard (2007). URI Identity Management
for Semantic Web Data Integration and Linkage. In On the Move to Meaningful Internet
Systems 2007 : OTM 2007 Workshops - 3rd International Workshop On Scalable Semantic Web
Knowledge Base Systems, volume 4806 de Lecture Notes in Computer Science, pages 1125
1134. Springer.
[Jaffri et al., 2008] Afraz Jaffri, Hugh Glaser et Ian Millard (2008). Managing URI Synonymity to Enable Consistent Reference on the Semantic Web. In Proceedings of the First International Workshop on Identity and Reference on the Semantic Web (IRSW2008), volume 422 de
CEUR Workshop Proceedings. CEUR Workshop Proceedings.
[Jschke et al., 2008] Robert Jschke, Andreas Hotho, Christoph Schmitz, Bernhard Ganter
et Gerd Stumme (2008). Discovering Shared Conceptualizations in Folksonomies. Journal
of Web Semantics, 6(1):3853.
[Java et al., 2007] Akshay Java, Xiaodan Song, Tim Finin et Belle Tseng (2007). Why We
Twitter : Understanding Microblogging Usage and Communities. In WebKDD/SNA-KDD
07 : Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and
social network analysis, pages 5665. ACM Press.
[Kahan et Koivunen, 2001] Jos Kahan et Marja-Ritta Koivunen (2001). Annotea : an open
RDF infrastructure for shared Web annotations. In Proceedings of the 10th International
World Wide Web Conference (WWW10), pages 623632.
261
B IBLIOGRAPHIE
[Karger et Quan, 2004] David R. Karger et Dennis Quan (2004). What Would It Mean to
Blog on the Semantic Web ? In The Semantic Web - ISWC 2004 : Third International Semantic
Web Conference, volume 3298 de Lecture Notes in Computer Science. Springer.
[Kassel et Perpette, 1999] Gilles Kassel et Sbastien Perpette (1999). Co-operative ontology
construction needs to carefully articulate terms, notions and objects. In Proceedings of
the International Workshop on ontological Engineering on the Global Information Infrastructure,
pages 5770.
[Khushraj et Lassila, 2005] Deepali Khushraj et Ora Lassila (2005). Ontological Approach to
Generating Personalized User Interfaces for Web Services. In International Semantic Web
Conference, volume 3729 de Lecture Notes in Computer Science, pages 916927. Springer.
[Kiefer et al., 2007] Christoph Kiefer, Abraham Bernstein, Hong Joo Lee, Mark Klein et Markus Stocker (2007). Semantic Process Retrieval with iSPARQL. In Proceedings of the 4th
European Semantic Web Conference (ESWC 2007), volume 4519 de Lecture Notes in Computer
Science, pages 609623. Springer.
[Kim et al., 2007] Hak Lae Kim, Sung-Kwon Yang, John G. Breslin et Hong-Gee Kim (2007).
Simple algorithms for representing tag frequencies in the scot exporter. In Proceedings
of the 2007 IEEE/WIC/ACM International Conference on Intelligent Agent Technology, pages
536539. IEEE Computer Society.
[Kiryakov et al., 2004] Atanas Kiryakov, Borislav Popov, Ivan Terziev, Dimitar Manov et
Damyan Ognyanoff (2004). Semantic Annotation, Indexing, and Retrieval. Journal of Web
Semantics, 2(1):4979.
[Klinker et al., 1991] Georg Klinker, Carlos Bhola, Geoffroy Dallemagne, David Marques et
John McDermott (1991). Usable and reusable programming constructs. Knowledge Acquisition, 3(2):117136.
[Klyne et Carroll, 2004] Graham Klyne et Jeremy J. Carroll (2004). Resource Description
Framework (RDF) : Concepts and abstract syntax. W3C Recommendation 10 February
2004, World Wide Web Consortium. http://www.w3.org/TR/rdf-concepts/.
[Knerr, 2006] Thomas Knerr (2006). Tagging Ontology - Towards a Common Ontology for
Folksonomies. http://code.google.com/p/tagont/.
[Kochut et Janik, 2007] Krys Kochut et Maciej Janik (2007). SPARQLeR : Extended Sparql for
Semantic Association Discovery. In Proceedings of the 4th European Semantic Web Conference
(ESWC 2007), volume 4519 de Lecture Notes in Computer Science, pages 145159. Springer.
[Koivunen et al., 2001] Marja-Riitta Koivunen, Ralph Swick, Jose Kaha et Eric Prudhommeaux (2001). An Annotea Bookmark Schema. Rapport technique, World Wide Web
Consortium. http://www.w3.org/2003/07/Annotea/BookmarkSchema-20030707.
[Kolari et al., 2007] Pranam Kolari, Tim Finin, Yelena Yesha, Yaacov Yesha, Kelly Lyons, Stephen Perelgut et Jen Hawkins (2007). On the Structure, Properties and Utility of Internal
Corporate Blogs. In Proceedings of the First International Conference on Weblogs and Social
Media (ICWSM2007).
262
Bibliographie
[Kraft et al., 2003] Tobias Kraft, Holger Schwarz, Ralf Rantzau et Bernhard Mitschang
(2003). Coarse-Grained Optimization : Techniques for Rewriting SQL Statement Sequences. In Proceedings of the 29th international conference on Very large data bases, pages
488499. Morgan Kaufmann.
[Krtzsch et al., 2006] Markus Krtzsch, Denny Vrandecic et Max Vlkel (2006). Semantic
MediaWiki. In Proceedings of the 5th International Semantic Web Conference (ISWC 2006),
volume 4273 de Lecture Notes in Computer Science, pages 935942. Springer.
[Kuhn, 2008] Tobias Kuhn (2008). AceWiki : Collaborative Ontology Management in
Controlled Natural Language. In Third Semantic Wiki Workshop The Wiki Way of Semantics, volume 360 de CEUR Workshop Proceedings. CEUR-WS.org.
[Lee, 2004] Ryan Lee (2004). Scalability report on triple store applications. Rapport
technique, MIT Massachusetts Institute of Technology. http://simile.mit.edu/
reports/stores/index.html.
[Lenat et al., 1990] Douglas B. Lenat, Ramanathan V. Guha, Karen Pittman, Dexter Pratt et
Mary Shepherd (1990). Cyc : Toward Programs with Common Sense. Communications of
the ACM, 33(8):3049.
[Leuf et Cunningham, 2001] Bo Leuf et Ward Cunningham (2001). The Wiki Way : Collaboration and Sharing on the Internet. Addison-Wesley Professional.
[Lewis, 2007] Rhys Lewis (2007). Dereferencing http uris. Draft Tag Finding 31 May 2007,
World Wide Web Consortium. http://www.w3.org/2001/tag/doc/httpRange-14/
2007-05-31/HttpRange-14.html.
[Libert et al., 2007] Barry Libert, Jon Spector et Don Tapscott (2007). We Are Smarter Than
Me : How to Unleash the Power of Crowds in Your Business. Wharton School Publishing.
[Luke et Heflin, 2000] Sean Luke et Jeff Heflin (2000). Shoe 1.01. Rapport technique, Parallel Understanding Systems Group, Department of Computer Science, University of
Maryland at College Park.
[Maedche et al., 2003] Alexander Maedche, Boris Motik, Ljiljana Stojanovic, Rudi Studer et
Raphael Volz (2003). Ontologies for Enterprise Knowledge Management. IEEE Intelligent
Systems, 18(2):2633.
[Marlow et al., 2006] Cameron Marlow, Mor Naaman, Danah Boyd et Marc Davis (2006).
HT06, tagging paper, taxonomy, Flickr, academic article, to read. In HYPERTEXT 06 :
Proceedings of the seventeenth conference on Hypertext and hypermedia, pages 3140. ACM
Press.
[Martin et Eklund, 1999] Philippe Martin et Peter Eklund (1999). Embedding Knowledge
in Web Documents. In Proceedings of the 8th International World Wide Web Conference
(WWW08).
[Martre, 1994] Henri Martre, Paris : La Documentation Franfaise, diteur (1994). Intelligence conomique et stratgie des entreprises. Rapport technique, Commissariat gnral
du Plan.
263
B IBLIOGRAPHIE
[Mathes, 2004] Adam Mathes (2004). Folksonomies : Cooperative Classification and Communication Through Shared Metadata.
[Mcafee, 2006] Andrew P. Mcafee (2006). Enterprise 2.0 : The Dawn of Emergent Collaboration. MIT Sloan Management Review, 47(3):2128.
[McGuinness et al., 2003] Deborah L. McGuinness, Richard Fikes, Lynn Andrea Stein et
James A. Hendler (2003). DAML-ONT : An Ontology Language for the Semantic Web, In
Dieter Fensel, James A. Hendler, Henry Lieberman et Wolfgang Wahlster, diteurs : Spinning the Semantic Web, chapitre 3, pages 6593. MIT Press.
[Mika, 2005] Peter Mika (2005). Ontologies Are Us : A Unified Model of Social Networks
and Semantics. In Proceedings of the 4th International Semantic Web Conference (ISWC 2005),
volume 3729 de Lecture Notes in Computer Science, pages 522536. Springer.
[Mika, 2008] Peter Mika (2008). Microsearch : An Interface for Semantic Search. In Proceedings of the Workshop on Semantic Search (SemSearch 2008) at the 5th European Semantic Web
Conference (ESWC 2008), volume 334 de CEUR Workshop Proceedings. CEUR Workshop
Proceedings.
[Miles et Bechhofer, 2008] Alistair Miles et Sean Bechhofer (2008). SKOS Simple Knowledge
Organization System Reference. W3C Working Draft 29 August 2008, World Wide Web
Consortium. http://www.w3.org/TR/2008/WD-skos-reference-20080829/.
[Milicic, 2008] Vuc Milicic (2008). Semantic tags. W3C SWEO Case Study, World Wide Web
Consortium. http://www.w3.org/2001/sw/sweo/public/UseCases/Faviki/.
[Mller et al., 2006] Knud Mller, Uldis Bojars et John G. Breslin (2006). Using Semantics
to Enhance the Blogging Experience. In Proceedings of the 3th European Semantic Web
Conference (ESWC 2006), volume 4011 de Lecture Notes in Computer Science, pages 679696.
Springer.
[Nakayama, 2008] Kotaro Nakayama (2008). Wikipedia Mining for Triple Extraction Enhanced by Co-reference Resolution. In Proceedings of the ISWC2008 Workshop on Social Data on
the Web (SDoW2008), volume 405 de CEUR Workshop Proceedings. CEUR-WS.org.
[Nelson, 1965] Theodor H. Nelson (1965). Complex information processing : a file structure
for the complex, the changing and the indeterminate. In Proceedings of the 1965 20th ACM
national conference, pages 84100. ACM Press.
[Newman et al., 2005] Richard Newman, Danny Ayers et Seth Russell (2005). Tag ontology.
http://www.holygoat.co.uk/owl/redwood/0.1/tags/.
[Nickull et al., 2008] Duane Nickull, Dion Hinchcliffe et James Governor (2008). Web 2.0
Patterns : What entrepreneurs and information architects need to know. OReilly.
[Nottingham et Sayre, 2005] Mark Nottingham et Robert Sayre (2005). The Atom Syndication Format. Request for comments : 3986, Internet Engineering Task Force. http:
//www.ietf.org/rfc/rfc4287.txt.
264
Bibliographie
[Nowack, 2008] Benjamin Nowack (2008). Sparql+, sparqlscript, sparql result templates sparql extensions for the mashup developer. In Proceedings of the Poster and Demonstration
Session at the 7th International Semantic Web Conference (ISWC2008), volume 401 de CEUR
Workshop Proceedings. CEUR-WS.org.
[OReilly, 2005] Tim OReilly (2005). OReilly Network : What Is Web 2.0 : Design Patterns
and Business Models for the Next Generation of Software. http://www.oreillynet.
com/lpt/a/6228.
[Oren, 2005] Eyal Oren (2005). SemperWiki : a semantic personal Wiki. In Proceedings of the
1st Workshop on The Semantic Desktop, 4th International Semantic Web Conference, volume
175 de CEUR Workshop Proceedings. CEUR-WS.org.
[Oren et al., 2006] Eyal Oren, Renaud Delbru et Stefan Decker (2006). Extending faceted navigation for rdf data. In Proceedings of the 5th International Semantic Web Conference (ISWC
2006), volume 4273 de Lecture Notes in Computer Science, pages 559572. Springer.
[Oren et al., 2007] Eyal Oren, Renaud Delbru, Sebastian Gerke, Armin Haller et Stefan Decker (2007). Activerdf : Object-oriented semantic web programming. In Proceedings of the
16th International World Wide Web Conference (WWW2007), pages 817824.
[Orlandi et Passant, 2009] Fabrizio Orlandi et Alexandre Passant (2009). Enabling crosswikis integration by extending the SIOC ontology. In Proceedings of the Fourth Workshop
on Semantic Wikis (SemWiki2009).
[Osterfeld et al., 2005] Frank Osterfeld, Malte Kiesel et Sven Schwarz (2005). Nabu a semantic archive for xmpp instant messaging. In Proceedings of the 1st Workshop on The Semantic Desktop, 4th International Semantic Web Conference, volume 175 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Pan et al., 2008] Jeff Z. Pan, Giorgos Stamou, Giorgos Stoilos, Edward Thomas, et Stuart
Taylor (2008). Scalable Querying Service over Fuzzy Ontologies. In Proceedings of the 17th
International World Wide Web Conference (WWW 2008), pages 575584.
[Passant, 2006] Alexandre Passant (2006). FOAFMap : Web2.0 meets the Semantic Web. In
2nd Workshop on Scripting for the Semantic Web (SFSW2006), volume 181 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Passant, 2007a] Alexandre Passant (2007a). Linked Data tagging with LODr. In Semantic
Web Challenge 2008, collocated with the 7th International Semantic Web Conference (ISWC).
[Passant, 2007b] Alexandre Passant (2007b). A user-friendly interface to browse and find
DOAP project with doap :store. In 3rd Workshop on Scripting for the Semantic Web
(SFSW2007), volume 248 de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant, 2007c] Alexandre Passant (2007c). Using Ontologies to Strengthen Folksonomies
and Enrich Information Retrieval in Weblogs. In Proceedings of the First International Conference on Weblogs and Social Media (ICWSM2007).
265
B IBLIOGRAPHIE
[Passant, 2008a] Alexandre Passant (2008a). Enhancement and Integration of Corporate Social Software Using the Semantic Web. W3C SWEO Case Study, World Wide Web Consortium. http://www.w3.org/2001/sw/sweo/public/UseCases/EDF/.
[Passant, 2008b] Alexandre Passant (2008b). :me owl :sameAs flickr :33669349@N00. In
Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369
de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant et al., 2008] Alexandre Passant, Tuukka Hastrup, Uldis Bojars et John G. Breslin
(2008). Microblogging : A Semantic Web and Distributed Approach. In 4th Workshop on
Scripting for the Semantic Web (SFSW2008), volume 368 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Passant et al., 2009a] Alexandre Passant, Jacek Kopeck, Stphane Corlosquet, Diego Berrueta, Davide Palmisano et Axel Polleres, diteurs (2009a). XSPARQL : Use cases. Rapport
technique. http://xsparql.deri.org/spec/xsparql-use-cases.html.
[Passant et al., 2009b] Alexandre Passant, Philipp Krger, Michael Hausenblas, Daniel Olmedilla, Axel Polleres et Stefan Decker (2009b). Enabling Trust and Privacy on the Social
Web. In W3C Workshop on the Future of Social Networking.
[Passant et Laublet, 2008a] Alexandre Passant et Philippe Laublet (2008a). Combining
Structure and Semantics for Ontology-Based Corporate Wikis. In 11th International Conference on Business Information Systems, BIS 2008, volume 7 de Lecture Notes in Business Information Processing, pages 5869. Springer.
[Passant et Laublet, 2008b] Alexandre Passant et Philippe Laublet (2008b). Meaning Of A
Tag : A collaborative approach to bridge the gap between tagging and Linked Data. In
Proceedings of the WWW2008 Workshop Linked Data on the Web (LDOW2008), volume 369
de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant et Laublet, 2008c] Alexandre Passant et Philippe Laublet (2008c). Ontologies et
Web 2.0. In IC2008, 19mes Journes Francophones dIngnierie des Connaissances.
[Passant et Laublet, 2008d] Alexandre Passant et Philippe Laublet (2008d). Towards an Interlinked Semantic Wiki Farm. In Third Semantic Wiki Workshop The Wiki Way of Semantics, volume 360 de CEUR Workshop Proceedings. CEUR-WS.org.
[Passant et Laublet, 2008e] Alexandre Passant et Philippe Laublet (2008e). Wikis smantiques : Le peuplement dontologies pour tous ? In Atelier Ingnierie des Connaissances 2.0.
[Passant et al., 2009c] Alexandre Passant, Philippe Laublet, John G. Breslin et Stefan Decker
(2009c). Semantic Search for Enterprise 2.0. In Proceedings of the WWW2009 Workshop on
Semantic Search (SemSearch2009).
[Passant et Raimond, 2008] Alexandre Passant et Yves Raimond (2008). Combining Social
Music and Semantic Web for music-related recommender systems. In Proceedings of the
ISWC2008 Workshop on Social Data on the Web (SDoW2008), volume 405 de CEUR Workshop
Proceedings. CEUR-WS.org.
266
Bibliographie
[Passant et al., 2009d] Alexandre Passant, Matthias Samwald, John G. Breslin et Stefan Decker (2009d). Federating Distributed Social Data to Build an Interlinked Online Information Society. In Proceedings of the WebSci09 : Society On-Line.
[Passant et al., 2006] Alexandre Passant, Jean-David Sta et Philippe Laublet (2006). Folksonomies, Ontologies and Corporate Bloging. In Proceedings of the 4th Blogtalk Conference
(Blogtalk Reloaded). Books on demand.
[Patel-Schneider et al., 2004] Peter F. Patel-Schneider, Patrick Hayes et Ian Horrocks, diteurs (2004). OWL Web Ontology Language Semantics and Abstract Syntax. W3C Recommendation 10 February 2004, World Wide Web Consortium. http://www.w3.org/
TR/owl-semantics/.
[Prez et al., 2006] Jorge Prez, Marcelo Arenas et Claudio Gutierrez (2006). Semantics and
Complexity of SPARQL. In Proceedings of the 5th International Semantic Web Conference
(ISWC 2006), volume 4273 de Lecture Notes in Computer Science, pages 3043. Springer.
[Polleres et al., 2007] Axel Polleres, Franois Scharffe et Roman Schindlauer (2007).
SPARQL++ for Mapping Between RDF Vocabularies. In Proceedings of the 6th International
Conference on Ontologies, DataBases, and Applications of Semantics (ODBASE 2007), volume
4803 de Lecture Notes in Computer Science, pages 878896. Springer.
[Prudhommeaux et Seaborne, 2008] Eric Prudhommeaux et Andy Seaborne, diteurs
(2008). SPARQL query language for RDF. W3C Recommendation 15 January 2008, World
Wide Web Consortium. http://www.w3.org/TR/rdf-sparql-query/.
[Quan et al., 2003a] Dennis Quan, Karun Bakshi et David R. Karger (2003a). A Unified Abstraction for Messaging on the Semantic Web. In Proceedings of the 12th International World
Wide Web Conference (WWW2003), page 231. ACM Press.
[Quan et al., 2003b] Dennis Quan, David Huynh et David R. Karger (2003b). Haystack : A
Platform for Authoring End User Semantic Web Applications. In Proceedings of International Semantic Web Conference 2003 (ISWC03), volume 2870 de Lecture Notes in Computer
Science, pages 738753. Springer.
[Quillian, 1968] Ross Quillian (1968). Semantic Memory, In Marvin L. Minsky, diteur : Semantic Information Processing, pages 216270. MIT Press.
[Rada et al., 1989] R. Rada, H. Mili, E. Bicknell et M. Blettner (1989). Development and application of a metric on semantic nets. 19(1):1730.
[Rager et al., 1997] David Rager, James A. Hendler et Alice M. Mulvehill (1997). ForMAT
and Parka : A Technology Integration Experiment and Beyond. In Case-Based Reasoning
Research and Development : Proceedings of the Second International Conference on Case-Based
Reasoning, (ICCBR97), volume 1266 de Lecture Notes in Computer Science, pages 122132.
Springer.
[Raimond et al., 2008] Yves Raimond, Christopher Sutton et Mark Sandler (2008). Automatic Interlinking of Music Datasets on the Semantic Web. In Proceedings of the WWW2008
267
B IBLIOGRAPHIE
Workshop Linked Data on the Web (LDOW2008), volume 369 de CEUR Workshop Proceedings.
CEUR-WS.org.
[Rehatschek et Hausenblas, 2007] Herwig Rehatschek et Michael Hausenblas (2007). Enhancing the Exploration of Mailing List Archives Through Making Semantics Explicit. In
Semantic Web Challenge 2007, collocated with the 6th International Semantic Web Conference
(ISWC).
[Rousset et al., 2002] Marie-Christine Rousset, Alain Bidault, Christine Froidevaux, Hlne
Gagliardi, Franois Goasdou, Chantal Reynaud et Brigitte Safar (2002). Construction de
Mdiateurs pour Intgrer des Sources dinformation multiples et htrognes. Revue I3,
2:959.
[Russell et Norvig, 2003] Stuart J. Russell et Peter Norvig (2003). Artificial Intelligence : A
Modern Approach. Pearson Education.
[Salton et McGill, 1986] Gerard Salton et Michael J. McGill (1986). Introduction to Modern
Information Retrieval. Mcgraw Hill Computer Science Series.
[Sanderson et Croft, 1999] Mark Sanderson et William Bruce Croft (1999). Deriving concept
hierarchies from text. In Proceedings of the 22nd Annual International ACM SIGIR Conference
on Research and Development in Information Retrieval, SIGIR99, pages 206213. ACM Press.
[Scerri et al., 2007] Simon Scerri, Michael Sintek, Ludger van Elst et Siegfried Handschuh,
Simon Scerri, diteur (2007). NEPOMUK Annotation Ontology Specification. Rapport
technique. http://www.semanticdesktop.org/ontologies/nao/.
[Schaffert, 2006] Sebastian Schaffert (2006). IkeWiki : A Semantic Wiki for Collaborative
Knowledge Management. In First International Workshop on Semantic Technologies in Collaborative Applications (STICA 06).
[Schmitz, 2006] Patrick Schmitz (2006). Inducing Ontology from Flickr Tags. In Proceedings
of the WWW2006 Workshop on Collaborative Tagging.
[Scott et al., 2008] Tom Scott, Yves Raimond, Patrick Sinclair et Nicholas Humfrey (2008).
The Programmes Ontology. In XTech 2008 : The Web on the Move.
[Seaborne, 2004] Andy Seaborne (2004). RDQL A Query Language for RDF. W3c member submission 9 january 2004, World Wide Web Consortium. http://www.w3.org/
Submission/2004/SUBM-RDQL-20040109/.
[Seaborne et al., 2008] Andy Seaborne, Geetha Manjunath, Chris Bizer, John G. Breslin, Souripriya Das, Ian Davis, Steve Harris, Kingsley Idehen, Olivier Corby, Kjetil Kjernsmo et
Benjamin Nowack (2008). SPARQL Update A language for updating RDF graphs. W3C
Member Submission 15 July 2008, World Wide Web Consortium. http://www.w3.org/
Submission/2008/SUBM-SPARQL-Update-20080715/.
[Servant, 2006] Franois-Paul Servant (2006). Semanlink. In Jena User Conference (JUC).
268
Bibliographie
[Sheth et al., 2002] Amit P. Sheth, Clemens Bertram, David Avant, Brian Hammond, Krys
Kochut et Yashodhan S. Warke (2002). Managing Semantic Content for the Web. IEEE
Internet Computing, 6(4):8087.
[Silva et Dix, 2006] Paula Alexandra Silva et Alan Dix (2006). Usability - Not as we know
it ! In Proceedings of HCI 2007, The 21st British HCI Group Annual Conference.
[Sirin et al., 2007] Evren Sirin, Bijan Parsia, Bernardo Cuenca Grau, Aditya Kalyanpur et
Yarden Katz (2007). Pellet : A practical OWL-DL reasoner. Journal of Web Semantics,
5(2):5153.
[Sowa, 1984] John F. Sowa (1984). Conceptual Structures : Information processing in mind and
machine. Addison-Wesley Longman Publishing Co., Inc.
[Specia et Motta, 2007] Lucia Specia et Enrico Motta (2007). Integrating Folksonomies with
the Semantic Web. In Proceedings of the 4th European Semantic Web Conference (ESWC 2007),
volume 4519 de Lecture Notes in Computer Science, pages 624639. Springer.
[Staab, 2002] Steffen Staab (2002). Emergent semantics. IEEE Intelligent Systems, 17(1):7886.
[Steimann, 2000] Friedrich Steimann (2000). On the representation of roles in objectoriented and conceptual modelling. Data Knowledge Engineering, 35(1):83106.
[Stocker et al., 2008] Markus Stocker, Christoph Kiefer Andy Seaborne, Abraham Bernstein
et Dave Reynolds (2008). SPARQL Basic Graph Pattern Optimization Using Selectivity
Estimation. In Proceedings of the 17th International World Wide Web Conference (WWW 2008),
pages 595604.
[Suchanek et al., 2007] Fabian M. Suchanek, Gjergji Kasneci et Gerhard Weikum (2007).
Yago : A Core of Semantic Knowledge Unifying WordNet and Wikipedia. In Proceedings of the 16th International World Wide Web Conference (WWW2007), pages 697706. ACM
Press.
[Sure et al., 2005] York Sure, Stephan Bloehdorn, Peter Haase, Jens Hartmann et Daniel
Oberle (2005). The SWRC ontology Semantic Web for research communities. In Progress
in Artificial Intelligence Proceedings of the 12th Portuguese Conference on Artificial Intelligence
(EPIA 2005), volume 3808 de Lecture Notes in Computer Science. Springer.
[SVG Working Group, 2003] SVG Working Group, Jon Ferraiolo, Jun Fujisawa et Dean Jackson, diteurs (2003). Scalable Vector Graphics (SVG) 1.1 Specification. W3C Recommendation 14 January 2003, World Wide Web Consortium. http://www.w3.org/TR/
SVG11/.
[Tanaka et Taylor, 1991] James W. Tanaka et Marjorie Taylor (1991). Object categories and
expertise : Is the basic level in the eye of the beholder ? Cognitve Psychology, 23(3):457482.
[Tanasescu et Streibel, 2007] Vlad Tanasescu et Olga Streibel (2007). Extreme Tagging :
Emergent Semantics through the Tagging of Tags. In Proceedings of the International Workshop on Emergent Semantics and Ontology Evolution (ESOE2007), volume 292 de CEUR
Workshop Proceedings. CEUR-WS.org.
269
B IBLIOGRAPHIE
[Tapscott et Williams, 2007] Don Tapscott et Anthony D. Williams (2007). Wikinomics : How
Mass Collaboration Changes Everything. Pearson Education.
[Taylor, 1999] Arlene G. Taylor (1999). The Organization of Information. Libraries Unlimited.
[Tazzoli et al., 2004] Roberto Tazzoli, Paolo Castagna et Stefano Emilio Campanini (2004).
Towards a Semantic WikiWikiWeb. In The Semantic Web - ISWC 2004 : Third International
Semantic Web Conference, volume 3298 de Lecture Notes in Computer Science. Springer.
[Terziev et al., 2005] Ivan Terziev, Atanas Kiryakov et Dimitar Manov (2005). Base Upperlevel Ontology (BULO) Guidance. Projet SEKT, Dlivrable 1.8.1.
[Troncy, 2004] Raphal Troncy (2004). Formalisation des connaissance documentaires et des
connaissances conceptuelles laide dontologies : application la description de documents audiovisuels. Thse de doctorat, Universit Joseph Fourier-INPG.
[Tummarello et al., 2007] Giovanni Tummarello, Renaud Delbru et Eyal Oren (2007). Sindice.com : Weaving the Open Linked Data. In Proceedings of the 6th International Semantic
Web Conference and 2nd Asian Semantic Web Conference (ISWC/ASWC2007), volume 4825 de
Lecture Notes in Computer Science, pages 552565. Springer.
[Van Damme et al., 2007] Cline Van Damme, Martin Hepp et Katharina Siorpaes (2007).
FolksOntology : An Integrated Approach for Turning Folksonomies into Ontologies. In
Proceedings of the ESWC2007 workshop Bridging the Gep between Semantic Web and Web 2.0.
[Vander Wal, 2007] Thomas Vander Wal (2007). Folksonomy Coinage and Definition.
url{http ://www.vanderwal.net/folksonomy.html.
[Vitvar et al., 2008] Tomas Vitvar, Jacek Kopecky, Jana Viskova et Dieter Fensel (2008).
WSMO-Lite Annotations for Web Services. In Proceedings of the 5th European Semantic Web
Conference (ESWC 2008), volume 5021 de Lecture Notes in Computer Science, pages 674689.
Springer.
[Vlkel et Oren, 2006] Max Vlkel et Eyal Oren (2006). Towards a Wiki Interchange Format
(WIF) - Opening Semantic Wiki Content and Metadata. In Proceedings of the First Workshop
on Semantic Wikis - From Wiki to Semantics (SemWiki-2006), volume 206 de CEUR Workshop
Proceedings. CEUR-WS.org.
[Vlkel et Schaffert, 2006] Max Vlkel et Sebastien Schaffert, diteurs (2006). First Workshop on Semantic Wikis From Wiki to Semantics. volume 206 de CEUR Workshop Proceedings. CEUR-WS.org.
[W3C Technical Architecture Group, 2004] W3C Technical Architecture Group, Ian Jacobs
et Norman Walsh, diteurs (2004). Architecture of the World Wide Web, Volume One.
W3C Recommendation 15 December 2004, World Wide Web Consortium. http://www.
w3.org/TR/webarch/.
[Welty et Guarino, 2001] Christopher A. Welty et Nicola Guarino (2001). Supporting ontological analysis of taxonomic relationships. Data Knowledge Engineering, 39(1):5174.
270
Bibliographie
[West, 2000] Douglas B. West (2000). Introduction to Graph Theory (Second Edition). Prentice
Hall.
[Wiederhold, 1992] Gio Wiederhold (1992). Mediators in the Architecture of Future Information Systems. IEEE Computer, 25(3):3849.
[Wilensky, 1967] Harold L. Wilensky (1967). Organizational intelligence. Basic Books.
[Wu et Weld, 2008] Fei Wu et Daniel S. Weld (2008). Automatically refining the wikipedia
infobox ontology. In Proceedings of the 17th International World Wide Web Conference (WWW
2008), pages 635644.
[Xyleme, 2001] Lucie Xyleme (2001). A dynamic warehouse for XML Data of the Web. IEEE
Data Engineering Bulletin, 24(2):4047.
[Yee et al., 2003] Ka-Ping Yee, Kirsten Swearingen, Kevin Li et Marti Hearst (2003). Faceted
Metadata for Image Search and Browsing. In CHI 03 : Proceedings of the SIGCHI conference
on Human factors in computing systems, pages 401408. ACM Press.
[Zacklad, 2005] Manuel Zacklad (2005). Introduction aux ontologies smiotiques dans le
Web Socio Smantique. In IC2005, 16mes Journes Francophones dIngnierie des Connaissances.
[Zacklad, 2007] Manuel Zacklad (2007). Classification, thsaurus, ontologies, folksonomies :
comparaisons du point de vue de la recherche ouverte dinformation (roi). In CAIS/ACSI
2007, 35e Congrs annuel de lAssociation Canadienne des Sciences de lInformation.
271