Documente Academic
Documente Profesional
Documente Cultură
11 | 2012
La cooccurrence, du fait statistique au fait textuel
Matthias Tauveron
diteur
Bases ; corpus et langage - UMR 6039
Rfrence lectronique
Matthias Tauveron, De la cooccurrence gnralise la variation du sens lexical , Corpus [En ligne],
11 | 2012, mis en ligne le 18 juin 2013, consult le 30 septembre 2016. URL : http://
corpus.revues.org/2236
Matthias TAUVERON
matthias.tauveron@etu.unistra.f
1 Lauteur tient remercier ici Damon Mayaffre de lui avoir tmoign si
spontanment sa confiance, et, si longuement son intrt pour ce travail.
2 Notre corpus est form de 400 occurrences de ce nom, tires des dbats
tenus au Parlement Europen, tels quils figurent dans la base de
donnes Europarl (Koehn, 2005).
3 Les occurrences sont slectionnes de faon que ce terme soit monosmique.
En loccurrence, nous excluons les quelques cas dans lesquelles cest
son sens financier qui est actualis.
4 Nous supposons galement que lemploi des mots tel quil apparat dans ce
corpus reflte bien globalement son emploi dans le discours et le genre
en question (dbat politique), et ceci malgr le fait quil sagisse dun
corpus traduit (nous laissons donc de ct la notion de translationese,
Jonasson 2006).
5 Et ceci malgr lutilisation de notions thoriques usuelles en smantique
lexicale pour ltude de ce nom, dmarche laquelle nous ne pouvons
que renvoyer ici : Tauveron (2012, paratre) et Tauveron (en prpa-
ration).
168
De la cooccurrence gnralise la variation du sens lexical
(2) Je pense toutefois quil est tout fait vident quau moment
de prendre peu peu une dcision sur une mesure, on est
souvent face de nombreuses possibilits daction diffrentes.
(traduit par handling)
169
M. TAUVERON
170
De la cooccurrence gnralise la variation du sens lexical
171
M. TAUVERON
2. Graphes de cooccurrence
2.1 Construction et dfinition du graphe de cooccurrence
Le graphe de cooccurrence reprsente chaque lemme du texte
sous la forme dun point, et relie deux points si et seulement les
deux lemmes correspondants sont cooccurrents (Vronis 2004).
Chaque lien et chaque nud sont affects dun poids plus im-
portant mesure que le lemme correspondant ou la cooccurrence
en question sont plus frquents. Sur la Figure 1 (cf. supra),
limportance des nuds et des liens est reprsente par leur
taille. Lensemble du graphe donne accs une vue synthtique
de toutes les relations de cooccurrence dans un corpus donn.
Les relations de cooccurrences tablissent ainsi une sorte de
topographie, montrant lorganisation du lexique dans le discours.
Au-del de son caractre ergonomique, le graphe est
une structure mathmatique, qui dispose de descripteurs dfinis
dont certaines applications ont t bien dcrites (Albert &
Barabasi 2002).
2.2 La relation de cooccurrence gnralise
La premire application dun tel graphe est quil propose une
nouvelle reprsentation de la cooccurrence gnralise telle que
la dcrite Viprey (2006). Grce cet outil, on peut mener une
tude de la textualit qui fait le lien entre le niveau du texte et le
172
De la cooccurrence gnralise la variation du sens lexical
173
M. TAUVERON
174
De la cooccurrence gnralise la variation du sens lexical
175
M. TAUVERON
12 En lespce, les noms dots de la BC la plus leve dans un texte ont une
dautant plus grande probabilit dapparatre dans les rsums de ces
textes faits par les humains.
176
De la cooccurrence gnralise la variation du sens lexical
Tableau 1. BC des units les plus centrales dans les deux corpus
Corpus AA Corpus AH
177
M. TAUVERON
178
De la cooccurrence gnralise la variation du sens lexical
179
M. TAUVERON
13 Parmi tous les algorithmes dcrits dans la littrature pour obtenir ce genre
de rsultats, Gephi utilise celui mis au point par Blondel et al., 2008.
180
De la cooccurrence gnralise la variation du sens lexical
181
M. TAUVERON
182
De la cooccurrence gnralise la variation du sens lexical
183
M. TAUVERON
184
De la cooccurrence gnralise la variation du sens lexical
185
M. TAUVERON
Rfrences bibliographiques
Adam J.-M. (2004). Linguistique textuelle. Des genres de
discours aux textes. Paris : Nathan.
Albert R. & Barabasi L. (2002). Statistical mechanics of
complex networks , Review of Modern Physics 74, 1 : 47-
97.
Andersson C. & Norn C. (2010). Comparer la finalit dans le
dbat parlementaire : lapport du corpus bilingue C-
ParlEur , Cahiers Sens public 13-14 : 35-53.
Anthonisse J.M. (1971). The rush in a directed graph ,
Stichting Mathematisch Centrum. Mathematische
Besliskunde 9, 71 : 1-10.
Benzitoun C. (2004). Lannotation syntaxique de corpus oraux
constitue-t-elle un problme spcifique ? , Actes de la
confrence RECITAL, 19-22 avril, Fs, 13-22.
Blondel V., Guillaume J.-L., Lambiotte R. & Lefebvre E. (2008).
Fast unfolding of communities in large network ,
Journal of Statistical Mechanics : Theory and Experiment,
P10008.
Bonneau J., Anderson J., Stajano F. & Anderson R. (2009).
Eight Friends Are Enough : Social Graph Approximation
via Public Listings , SNS 09, Nuremberg.
Croft W. & Cruse D.A. (2004). Cognitive Linguistics. Cambridge :
Cambridge University Press.
Culioli A. (1991). Structuration dune notion et typologie
lexicale. A propos de la distinction dense, discret,
compact , in Culioli A. (1999). Pour une linguistique de
lnonciation, tome 3. Paris : Ophrys, 9-17.
Durafour J.-P. (2005). De la double rfrence du langage en
smantique gntique , in Murguia A. (d.), Sens et
186
De la cooccurrence gnralise la variation du sens lexical
187
M. TAUVERON
188
De la cooccurrence gnralise la variation du sens lexical
189