Sunteți pe pagina 1din 17

CORPUS, VOUS AVEZ DIT CORPUS !

DE LA NOTION DE CORPUS LA CRATION DUN CORPUS INFORMATIS


Cline Vaguer
UMR 7114 MoDyCo Universit Paris X-Nanterre

1. INTRODUCTION
On ne peut mener un travail linguistique sans rfrence des donnes : ainsi toute grammaire ou tout dictionnaire arbore des exemples ; on ne parle pas pour autant, dans ces cas, de corpus : il semble que la notion soit entendue (en particulier dans les dbuts de la grammaire gnrative) comme un ensemble de donnes produit indpendamment du linguiste et de la recherche linguistique , par opposition aux donnes que le linguiste est susceptible de produire lui-mme : Chomsky soppose lide que ltude dun corpus puisse mener la construction dune grammaire approprie, comme lide que le corpus des noncs que lenfant entend autour de lui soit la base de sa comptence (de la grammaire quil se construit mentalement). Ainsi le raisonnement linguistique de Chomsky sopre bien sur des donnes concrtes, mais quil nappelle pas corpus . Donc le dbat instaur par Chomsky tant donn le sens quil donne corpus comme, disons, un ensemble de discours produit extrieurement au linguiste et au travail linguistique cest celui de la pertinence du corpus par rapport ce que le linguiste (de par sa comptence de sujet parlant) peut produire lui-mme, dune part, ou par rapport ce que la grammaire telle quil la construite peut prdire, dautre part. Largument de Chomsky lencontre du corpus (comme base pertinente de la description et du raisonnement linguistique), cest le fait que, pour raisonner sur la langue, il faut pouvoir confronter ce qui est possible et ce qui ne lest pas, or par dfinition le corpus (tel quil lentend) ne peut pas fournir dexemples de ce que la langue ne permet pas ; de plus, en tant que texte produit un moment donn, par un ou des locuteurs particuliers, selon un thme, une intention, une situation, des interlocuteurs particuliers, un corpus ne peut videmment illustrer tous les cas de figure dun phnomne linguistique donn (par exemple : tous les auxiliaires et

207

combinaisons dauxiliaires) ; et enfin, en tant que produit fini, le corpus ne peut pas non plus laisser voir certaines proprits linguistiques comme la rcursivit (le retour potentiellement infini dune mme structure). Le prsuppos est que le linguiste, de par sa propre comptence de sujet parlant, est mme de produire les donnes pertinentes (grammaticales et agrammaticales), permettant de faire lhypothse de rgles dont il vrifiera la pertinence en jugeant si lensemble des noncs quelles peuvent produire est, ou non, conforme ce quautorise la langue cest--dire ce que le linguiste lui-mme considre comme acceptable ou inacceptable. Ainsi, dans ce cadre, le travail du linguiste suppose ncessairement le recours lintuition pour constituer les donnes, les manipuler, raisonner sur le rsultat de ces manipulations, mais en mme temps, il y a un doute sur la pertinence de lexercice de lintrospection ce pourquoi justement les structuralistes et les distributionnalistes avaient prn le recours au corpus . Mais on sait aussi que ce dernier nest pas la panace, ainsi que la point Chomsky. Toute recherche entreprise doit donc se mettre au clair sur ce point mthodologique : - quest-ce quun corpus ? - quel est ou quel doit tre le statut du corpus dans linvestigation linguistique ? Dans un premier temps, nous ferons un bilan sur cette notion de corpus bilan n du constat que bien souvent, dans les articles de linguistique, rien nest dit par les linguistes sur le statut des donnes : ressources dont les natures diffrentes ne sont pas ncessairement distingues par le linguiste, qui les nommera toutes corpus (Gasiglia, 2003), mais aussi du fait que les supports de recherche doccurrences ont volu et quil est donc primordial de rflchir sur la nature des donnes ainsi rcoltes. Pour ce faire, nous mettrons en vidence lexistence de diffrentes conceptions de la notion de corpus, de diffrentes attitudes lgard des donnes, de diffrentes dmarches pour laborer les corpus, de diffrents jugements que lon produit sur les donnes. Puis, nous justifierons le point de vue que nous avons adopt en tant que chercheur, et nous exposerons la dmarche retenue pour constituer notre corpus : la mthodologie et la constitution dune base de donnes.

2. LA NOTION DE CORPUS
Quelles que soient la thorie et la mthodologie retenues, se pose tout linguiste la question de la dfinition du corpus puisque cest ce dernier qui lamne pouvoir formuler une hypothse ou en prouver la consistance. Saussure (1916 in 1972) avait raison de dire que en matire de langue, on sest toujours content doprer sur des units mal dfinies .

208

2.1 Les diffrentes conceptions de la notion de corpus


Lexistence de diffrentes conceptions de la notion de corpus apparat lorsque lon regarde comment les linguistes labordent et la dfinissent. Pour les uns, il faut entendre par l un ensemble dnoncs retenus, crits ou oraux (parmi lunivers1 des possibles), qui sera soumis lanalyse : base dobservation permettant dentreprendre la description et lanalyse de la langue en question (Arriv et al., 1986). Mais pour dautres, le corpus est en fait issu dun travail pralable, puisque lensemble est restreint ce qui est considr comme reprsentatif ; cest le cas de Riegel et al. (1994) qui spcifient de surcrot que les donnes doivent tre attestes : On peut rassembler un ensemble de textes ou dnoncs jugs reprsentatifs de la langue Une telle collection ne comprenant que des donnes attestes (des noncs effectivement produits) constitue un corpus . Le corpus retenu, qui aura alors subi un jugement dacceptabilit de la part du linguiste, puisque le linguiste trie les noncs quil va soumettre lanalyse (Dubois et al., 1999), sera considr comme un chantillon de la langue (op. cit.) que tout linguiste souhaite reprsentatif2, en ce sens quil espre quil illustre lensemble des possibilits structurelles existantes (par exemple de lemploi de la prposition dans), tout en sachant quil ne sera pas exhaustif3 puisquon ne peut prtendre rassembler tous les noncs possibles

2.2 Les diffrentes attitudes lgard des donnes


Ainsi, existe-t-il autant de corpus que dobjets dtude, mais aussi autant de corpus que de points de vue non seulement thoriques et mthodologiques, ou encore selon que lon est lecteur ou chercheur (Vaguer, 2004b & 2005b). On peut, en effet, retenir le point de vue du lecteur, qui prend connaissance dun certain travail, dune part, et le point de vue du chercheur qui opre le travail en question ; les deux corpus ainsi dlimits ne se recoupent que partiellement : si nous nous dfinissons en tant que lecteur, le corpus de Vandeloise (1986), par exemple, correspond alors lensemble des phrases constituant lobjet de lanalyse prsent dans louvrage, mais ce nest sans doute quun sous-ensemble (celui que lauteur a retenu comme pertinent pour lexpos) de la totalit des exemples effectivement examins par Vandeloise ; cest ainsi que Milner (1978) peut crire : Les exemples, comme il est dusage dans la grammaire transformationnelle, sont censs valoir pour la classe entire des phrases construites de manire analogue. De faon gnrale, nous laisserons lintuition du lecteur le soin de reconstituer la classe pertinente.

209

2.3 Les diffrentes dmarches pour laborer les corpus


Si lon adopte le point de vue du chercheur, il y a nouveau distinguer entre deux dmarches possibles (Fillmore, 1992)4 : ou bien les hypothses slaborent partir dexemples forgs (l introspection dans le cadre dune linguistique de bureau , Corbin 1980), ou bien le travail sopre sur des exemples attests (le corpus dans le cadre dune linguistique de terrain , Ibidem) ; dans le premier cas, le linguiste construit lui-mme les noncs, dans le second cas, il les relve dans des textes de divers genres qui nont pas t produits pour les besoins de la cause (romans, articles de presse, entretiens radiophoniques, etc.). 2.3.1. CORPUS FORG : AVANTAGES ET DSAVANTAGES. Lune des faons pour un linguiste de constituer les donnes, sur lesquelles il va travailler, repose sur ce que lon appelle les corpus forgs : corpus bass sur la pratique exprimentale et dynamique qui consiste utiliser la comptence des locuteurs pour obtenir des donnes selon les besoins de ltude (Riegel et al., 1994). Le linguiste peut alors sadresser des informateurs5 pour savoir quels sont leurs jugements dacceptabilit sur lensemble des noncs, pour leur faire produire des noncs et ainsi vrifier la reprsentativit de ses propres ractions. a) Le principal avantage de lexemple forg est quil permet les manipulations dont le linguiste a besoin pour procder son analyse et observer celles qui ne sont pas possibles6 (ventualit peu probable dans les noncs attests). Soit, par exemple, lnonc Il est dans les dix heures : il peut tre soumis diverses commutations permettant de conclure, rapidement et conomiquement (par rapport au temps que reprsenterait la recherche effective des phrases attestes correspondantes), que la prposition peut se voir substituer vers mais non , de, pour, et que le dterminant est incommutable [*Il est dans (ces + mes + des + quelques + plusieurs) dix heures]. De mme, si lon cherche quels complments de verbe dans peut introduire, plutt que de procder des relevs dans des textes, il est peuttre plus sr de tester partir de la liste fournie par un dictionnaire quels verbes sont susceptibles de se construire avec dans, et quelles sont les proprits permettant de les classer Lintrt de cette dmarche est quelle est relativement objective parce quindpendante des alas des corpus attests (on peut avoir en effet un article de presse ou une page de roman sans un seul complment en dans a fortiori un complment de type prcis que lon cherche tudier). De plus, les corpus forgs ne ncessitent pas de longues et fastidieuses manipulations dexemples, tel que cest le cas avec les corpus attests o les phrases sont gnralement plus longues et complexes. La constitution de corpus forgs savre alors plus souple et plus

210

conomique (en temps et en investissement notamment) que le dpouillement de corpus divers. b) Le principal dsavantage de lexemple forg est quil est tributaire des jugements dacceptabilit et de grammaticalit du chercheur (nous reviendrons plus loin sur ces notions), et que ces derniers peuvent tre fausss (involontairement) par la prgnance de lhypothse que lon a en tte ; ainsi Melis (2003) considre t-il que dans les ne peut introduire un sujet (il met lastrisque *Dans les deux cents kilos suffiront et *Restent dans les trente semaines planifier), alors que le lecteur forgera facilement (dailleurs prcd par Gross, 1977) entre autres Dans les trente personnes sont venues, ou acceptera les noncs incrimins. De plus, tant donn que nul nest parfait, on nest jamais sr de penser toutes les possibilits quoffrent tous les items, et on peut fausser les tests (plus ou moins consciemment) en fonction de lhypothse qui se fait jour. Enfin, un autre dsavantage des corpus forgs est quils ne permettent pas de dcrire (qualitativement et quantitativement) la reprsentativit des donnes dans lusage effectif de la langue : lintrospection est impuissante dcrire leur [les variations dans les pratiques langagires] distribution dans la population : le social lui chappe par dfinition (Corbin, 1980). 2.3.2. CORPUS ATTEST: AVANTAGES ET DSAVANTAGES. Les corpus attests se dfinissent par le fait que les donnes ont t produites indpendamment du travail linguistique, quelles relvent de sources diverses (romans, article de presse, etc.) et quelles peuvent tre de natures diverses (crites ou orales). a) Les corpus attests prsentent certains avantages (par rapport aux phrases forges) : lauteur (du roman, de larticle de presse, etc.) fait un usage spontan de tel terme ou de telle structure ; il ny a donc pas de risque que la phrase quil produit soit fausse par une hypothse (dordre linguistique) dmontrer : les donnes nont pas t produites pour les besoins de la recherche linguistique, ni suscites par elle. Elles nont ainsi pas subi linfluence du linguiste (comme cela peut se produire lorsquil forge ses exemples). b) Lutilisation de corpus attests prsente toutefois des dsavantages : un corpus si vaste soit-il ne comporte pas ncessairement toutes les donnes pertinentes (par exemple toutes les manipulations permettant, dans la suite Verbe + Infinitif, de distinguer entre semi-auxiliaire (Il va partir) et verbe distributionnel (Il dsire partir)). En revanche, on peut y trouver des cas de figure auxquels on naurait pas pens spontanment. Il faut dire aussi quun cas de figure reprsent dans un corpus attest peut tout simplement ne pas tre remarqu par le chercheur : il y a une longue tradition grammaticale et lexicographique qui sappuie sur des exemples attests mais qui, entre

211

autres, na jamais repr certains emplois de dans ; ainsi tous les dictionnaires signalent-ils le sens spatial, le sens temporel, le fait que dans puisse introduire un tat (tre dans lembarras) ou lapproximation (Il a dans les trente ans), mais aucun ne mentionne linterprtation appositive (Leeman 2000 ; Vaguer 2000) que peut prendre dans ce tableau, JE vois dans ce tableau une preuve de sa folie, compris comme Ce tableau est une preuve de sa folie . Le recours des corpus attests ne garantit donc pas lui seul la compltude ou la reprsentativit de la description. De plus, lobjectivit quils procurent nest pas entire. Si le corpus cest, par exemple, la liste des complments en dans que lon peut extraire de Frantext, cest un recensement neutre. Ce qui nest pas neutre, cest ce que lon fait de ce recensement : on va oprer une slection selon ce que lon cherche tudier, par exemple les complments temporels ; on sloigne de lobjectivit dans la mesure o cest le linguiste qui dcide de ce qui est (ou non) temporel, et donc fait intervenir une certaine intuition (par consquent ncessairement une certaine subjectivit) mme sil applique des critres, le rsultat quil affecte au test dpend de son sentiment linguistique. Dans ces complments temporels, on ne va en garder quun certain nombre, sur la base l aussi de jugements personnels : on limine ce qui parat redondant, du mme type ; on garde ce qui semble le plus propre illustrer ce que lon veut dire, mais on ne signale pas ce sur quoi on na rien de particulier observer, etc. 2.3.3. CONCLUSION. Dans les deux cas, donc, il y a le risque que le chercheur manque des donnes pertinentes, du fait que, aussi bien lorsquil forge des phrases que lorsquil recherche des noncs attests, il est plus ou moins inconsciemment guid par une certaine chose dcouvrir, ce que masquent les formulations passives dans les dfinitions habituellement fournies du corpus. Ainsi, pour Arriv et al. (op. cit.) cest un ensemble dnoncs dune langue donne (crits ou oraux enregistrs) qui ont t recueillis pour constituer une base dobservation permettant dentreprendre la description et lanalyse de la langue en question o rien nest dit sur les critres qui prsident au recueil 7. Et si des critres sont prciss par Sinclair (1996) : une collection de donnes langagires qui sont slectionnes et organises selon des critres linguistiques explicites pour servir dchantillon du langage , ils le sont sur la base de principes avouables (et mme garants de scientificit), effaant tous les risques lis la subjectivit du linguiste ! Pour Sampson (1994), la linguistique de corpus prend le langage comme elle le trouve . Or, on ne prend pas le langage tel quil est, mme dans une linguistique de corpus, partir du moment o lon interprte ncessairement les noncs (attests) ce dont tmoignent prcisment les diffrences dacceptabilit8. Ainsi, quand on relve des noncs, on les trouve attests par rapport un contexte donn. Or

212

quen est-il quand les donnes sont apprhendes hors contexte, par dautres lecteurs ? Il se peut que ces derniers, confronts des phrases isoles, puissent tre dans lincapacit de trancher sur leur acceptabilit ou puissent leurs attribuer un jugement dacceptabilit diffrent. La notion dacceptabilit est fluctuante dans la langue ; on nest donc jamais sr que ce quune autre personne qualifie dacceptable le soit pour les mmes raisons, selon les mmes facteurs que soi. Cest en cela que ltablissement dun corpus est toujours marqu de subjectivit car, quon le forge ou quon le relve, cest toujours suivant ses propres intrts de recherche, en ayant dj une ide dans certains cas du type de structure que lon cherche. Lobjectivit revendique par les tenants du corpus attest nest quapparente, cachant un jugement dacceptabilit refoul.

2.4 Les diffrents jugements que lon produit sur les donnes : lacceptabilit et la grammaticalit Le jugement que porte le linguiste sur les noncs est le seul outil dont il dispose pour sparer, dans les donnes quil observe ou quil
construit, celles qui peuvent fonctionner comme illustration de ce que la langue permet, de celles qui montrent ce que la langue interdit ; cest partir de cette base fondamentale que lon peut saisir les diffrences entre les deux ordres dnoncs qui vont justifier la formulation dune rgle : le fait que lon puisse affirmer quen franais le dterminant se trouve devant le nom repose sur lobservation que, si est possible (entre autres) Le soleil brille, ne le seraient pas Soleil brille ni Soleil le brille ni Soleil brille le. Cependant, pour tiqueter ces possibilits et impossibilits, deux termes existent : les uns parlent de grammaticalit , les autres d acceptabilit , dautres encore des deux. 2.4.1. Ainsi pour Milner (1978), le jugement dacceptabilit est le seul donn sur lequel le linguiste peut raisonner pour construire, en terme de grammaticalit, sa thorie . Mais ce jugement nest pas objectif, en ceci quil nest pas port pour constater le rsultat dune exprimentation mettant en jeu des outils indpendants de lui (comme dans le cas du chimiste qui constate que laddition de tel acide dans telle solution la fait virer au bleu, ou a pour effet un bouillonnement, etc.) do les tentatives de saisir ce qui est en jeu dans le jugement afin de lobjectiver den faire la base dun critre reproductible du fait que les locuteurs nont pas forcment les mmes ractions face un mme nonc. 2.4.2. Pour Picabia & Zribi-Hertz (1981), sera dite grammaticale dans la langue L, une squence conforme aux principes et contraintes linguistiques qui constituent la grammaire de L . La grammaticalit relve donc de la comptence. La dfinition de Picabia & Zribi-Hertz semble totalement

213

circulaire puisque pour constituer une grammaire, on se fonderait sur le jugement de grammaticalit, et que la grammaticalit, cest le jugement que les phrases appartiennent la grammaire ! Autrement dit, on retombe dans le problme pos par le recours lacceptabilit : pour laborer une grammaire, on a besoin de savoir ce quest une phrase grammaticale, avant mme que la grammaire soit labore ; sur quelle base alors dcide t-on que la phrase est (a)grammaticale ? Sur une intuition dont les conditions dexercice ne sont pas claires : la preuve, on ne fait pas de partage net entre acceptabilit et grammaticalit. Cette confusion (releve par Normand, 1972) explique que lon ait souvent reproch aux gnrativistes de se fonder en fait sur un sentiment linguistique reposant sur la norme (traditionnelle : le bon usage) de lcrit : il est vident que lon ne construira pas les mmes rgles disant ce qui appartient la grammaire (qui se confond en loccurrence avec la langue elle-mme), selon que lon part, par exemple dans le cas de linterrogation, dun corpus rassemblant comme phrases grammaticales ( lexclusion des autres, juges agrammaticales) : - ou bien : O vas-tu ? et O est-ce que tu vas ? - ou bien : O vas-tu ?, O tu vas ?, Tu vas o ? et O est-ce que tu vas ?, O cest que tu vas ?, Cest o que tu vas ? (dans le premier cas, mais non dans le second, O tu vas ? et Cest o que tu vas ? entre autres seront juges non conformes la grammaire). 2.4.3. Mais pour beaucoup de linguistes, dfinir cette notion de grammaticalit ne peut se faire sans passer par celle dacceptabilit, elle en serait dailleurs une partie (dans lacceptable, il y a du grammatical) : ainsi pour Riegel et al. (1994) la grammaticalit ne regrouperait que la partie de lacceptabilit qui est dtermine par les rgles de bonne formation intrinsque des noncs , ou chez Picabia & Zribi-Hertz (1981) la grammaticalit est la composante linguistique de lacceptabilit . En fait, lutilisation des termes parat renvoyer des niveaux diffrents : dans le cas de Milner, le jugement intuitif est dit d acceptabilit ; cest celui qui permet de trier les formes et dlaborer par hypothse une grammaire, laquelle produira des formes (dites, donc, grammaticales ) ; dans le cas de Riegel et coll., la grammaticalit relve de la structure, tandis que lacceptabilit a trait aux compatibilits distributionnelles : Le soleil nage est grammatical mais inacceptable, Soleil le brille est agrammatical. Le problme est dans la circularit de la dmarche : si lon juge Est-ce que le soleil brille-t-il ? inacceptable, on construira une grammaire de telle sorte quelle ne produise pas cette squence (dite, donc, agrammaticale).

214

3. LA CRATION DUN CORPUS INFORMATIS : UNE BASE DE DONNES LINGUISTIQUE


3.1 Corpus forg ou corpus attest ?
Dans le cadre de notre recherche, centre sur la prposition dans, corpus forg et corpus attest sont complmentaires et non concurrents. Les noncs attests viendront de sources diverses (essentiellement crites) et les noncs forgs maneront des manipulations produites sur ces donnes attestes. 3.1.1. Les phrases forges permettent le test rapide et conomique des proprits (que lon souhaite aussi reprsentatif que possible), par exemple concernant lassociation dun verbe un complment en dans, et des proprits syntaxiques que possdent lnonc ainsi construit (par exemple dans la fuite nest ni supprimable ni dplaable dans La solution est dans la fuite). De plus, elles permettent de pallier les trous ventuels (ou inluctables) des corpus attests (ainsi, il y a peu de chance a priori que lon puisse constituer, partir des corpus attests disponibles, la liste des verbes susceptibles de se construire avec dans), et de construire des associations agrammaticales ou inacceptables qui, compares aux suites recevables, sont susceptibles de donner des ides dhypothse pour caractriser le complment dont on soccupe. Notre objectif premier est dtudier la langue, cest en cela que nous nous rapprochons davantage du champ harrissien et que nous nous loignons du champ chomskyen. 3.1.2. Les extraits attests permettent de vrifier ou damender les propositions de description ou dexplication, avances partir de corpus forgs, et den pallier les manques (en portant lobservation des noncs auxquels le chercheur ne pense pas spontanment), donc de limiter le risque de circularit (lorsque le chercheur muni dune certaine hypothse secrte les observables qui vont dans le mme sens). En effet, ainsi que le signale Blanche-Benveniste (2000), comme ils [les corpus] contiennent des donnes attestes, dont on peut vrifier les sources, ils engagent faire un travail danalyse linguistique qui ne repose pas uniquement sur lintuition mais sur la confrontation avec des donnes parfois tonnantes, que la simple intuition naurait pas pu atteindre . 3.1.3. Lobjectif de notre recherche nest pas de quantifier les emplois de la prposition dans9, mais bien davancer dans son identification syntaxique et smantique. Notre objectif est donc descriptif et concerne la caractrisation de dans en langue, et non pas en discours (cest--dire dans les productions orales ou crites telles que rassembles dans les corpus attests) ; autrement dit, il ne sagit pas de voir comment les locuteurs utilisent dans (ou tel type

215

de complment en dans) : plutt loral qu lcrit ou inversement, plutt dans la description que dans la narration ou largumentation, ou rciproquement, plutt dans tel genre que dans tel autre, etc., ni donc de voir quel emploi est le plus reprsentatif ou le plus frquent dans les performances. Il sagit de dterminer quels diffrents emplois de dans on a affaire dans les discours (seuls observables : les actualisations de la langue sont le passage oblig de tout travail linguistique, comme on la vu prcdemment), de faon essayer de construire une identit de la prposition en langue permettant, en retour, de rendre compte des noncs concrets dans lesquels elle apparat. Le corpus est donc une base incontournable : ce partir de quoi on peut avoir un aperu des diffrentes possibilits qui guident la recherche dune dfinition, ou qui en permettent la vrification lorsquon a labor une hypothse, mais qui nest pas en luimme lobjet de la recherche (notre objectif nest pas lanalyse des discours). Cest en cela quon se rapproche de la linguistique de corpus entendue comme : (a) le travail que fait le linguiste qui constitue un corpus , cest--dire qui prend un texte (au sens large : crit/oral transcrit, etc.), lannote par lajout dinformations dordre morphologique, syntaxique, smantique et le traite informatiquement (tiquetages, arbres, analyseurs syntaxiques) pour le rendre utilisable par dautres (outil dexploration) puisque nous constituons un corpus (informatis), et non en tant que (b) le corpus serait lobjet mme de notre tude puisque ce qui nous intresse cest un fait de langue . En effet, si lon se reporte lopposition saussurienne langue/parole, reformule en langue/discours, le corpus tel que dfini en (a) est un discours (trait informatiquement), qui nous intresse en tant quil manifeste des emplois (effectifs), en tant quil tmoigne demplois possibles (attests). Mais notre objectif nest pas de rendre compte des emplois dans tel ou tel corpus (si tendu soit-il) : on cherche saisir lidentit de la prposition dans en langue, identit formelle et smantique cense prsider aux / dterminer les multiples actualisations en discours. Donc le corpus nest pas lobjet mme de notre recherche (puisquon ne cherche pas dcrire un corpus), il nen est que loutil (incontournable, certes).

3.2 La dmarche adopte


En ce qui concerne la complmentation verbale, la dmarche de constitution du corpus a consist se donner dans un premier temps une dfinition syntaxique ( laide de proprits formelles, donc) du complment de verbe, en tant quil soppose lajout dune part, au complment dit de phrase dautre part ; nous avons procd ici essentiellement un travail de documentation mettant en jeu des phrases forges par les auteurs consults : Bonami (1999), Delaveau (2001), Dubois-Charlier (2001), etc. (donc en un

216

sens attestes, puisque produites par dautres que nous-mme). Puis, partir dune liste de verbes, mentionns comme tant susceptibles de se construire avec la prposition dans (cf. lindex de Dugas et Manseau, 1996), nous avons cherch des attestations de ces diffrentes combinaisons dans des bases de donnes telles que Frantext, Glossanet, etc. Les verbes signals par Dugas et Manseau (1996) ntant pas tous lobjet dune attestation, nous avons complt le corpus attest par des phrases forges. Enfin, sur le corpus de phrases attestes et forges ainsi rassembl, nous avons procd au test des proprits retenues pour distinguer entre complment de verbe et ajout, donc nous avons forg un corpus de phrases (qui correspond aux rsultats de lapplication des critres).

3.3 Le recours une base de donnes


La constitution dune base de donnes pour rassembler son corpus10 nest pas une pratique naturelle en linguistique (entendue comme non spcialise en TAL). Ainsi, nous mettons ici en vidence les apports de ce type de traitement et leurs avantages. 3.3.1. AVANTAGES GNRAUX, POUR LA RECHERCHE, DE LA CONSTRUCTION DUNE BASE DE DONNES a) Lintrt pour le chercheur lui-mme dans la gestion de son propre travail : - la construction dune base de donnes permet une perspective cumulative, donc de ne pas recommencer constituer un corpus chaque nouvelle recherche11, et volutive tant par sa structure (modulable) que par son contenu : on peut insrer ainsi des donnes volont (ajouter des informations sans cesse), qui peuvent tre modifies en fonction des usages. On peut ainsi lamliorer, laffiner pour finalement obtenir ce que lon souhaite exactement. - la souplesse : une base de donnes, une fois que sa structure est bien dfinie12, est plus souple et plus puissante quune simple liste sur papier, dans Word, dans Excel car elle permet notamment des mises jour, constantes et en cascade, de donnes identiques mais enregistres diffrents endroits par exemple. - le stockage et lorganisation des donnes : la base de donnes permet de stocker une quantit quasi illimite dinformations (ce qui nest pas ngligeable quand on sait le nombre de manipulations que lon effectue sur un corpus) et elle permet dorganiser des informations de faon significative : ainsi, on peut avoir sous les yeux toutes les donnes associes un nonc (sa source, ses analyses formelle et smantique, les classes distributionnelles). Elle contient donc le corpus avec des informations diffrentes : contextuelle, syntaxique, lexicale, smantique Elle permet en

217

quelque sorte de mieux voir les donnes (on peut proposer des vues sur les donnes, par exemple, le nombre denregistrements pour tel verbe). Mais ce point de vue reste celui de la personne qui constitue la base de donnes. Ainsi ce qui compte pour tablir une base de donnes, cest de savoir ce que lon souhaite en faire. - le traitement automatique : la base de donnes permet aussi de rcuprer des informations selon des critres de slection (par exemple, on peut extraire la liste de tous les noms prsents dans les SN introduits par dans, on peut aussi slectionner tous les noncs issus dune mme source (cest ce que permet la table Source , notamment si lon veut faire une tude sur un journal particulier, sur un auteur particulier Le traitement automatique des requtes vite donc des manipulations fastidieuses la main et offre un gain de temps qui permet dapprofondir la recherche et de mieux voir dun coup dil les rgularits. Il permet galement doprer des analyses quantitatives (par les requtes, les tris, les dcomptes), qui permettent alors de sinsrer davantage dans le courant de la linguistique de corpus. On peut, par exemple, sinterroger sur le type de nom qui est le plus frquemment employ avec dans et les verbes de mouvement. b) Lintrt scientifique dune circulation de la recherche et le fait quil existe relativement peu de corpus lectroniques disponibles. On peut diffuser linformation contenue dans une base de donnes : chaque linguiste, face la spcificit de sa recherche, forge son propre corpus. Par la saisie dun corpus dans une base de donnes, nous souhaitons rendre celui-ci accessible dautres linguistes pour plusieurs raisons : la premire, cest que nous nous sommes rendue compte, au fil de nos lectures (articles, revues de linguistique), que nous navons pas accs aux corpus sur lesquels ces crits ont t produits. Or cela nous aurait permis de vrifier les dires de certains linguistes, de complter leur analyse sur le mme corpus de base et de le complter par de nouveaux noncs pour confirmer, ou infirmer, ces dires. Ainsi, nous navons pas accs aux corpus analyss par Gross par exemple, or, il nous a sembl que certaines de ses analyses et conclusions ntaient pas tout fait exactes, mais seulement par rapport aux extraits de corpus quil nous donne et par rapport notre propre corpus. La thorie nest donc pas reproductible puisquon peut ne pas arriver aux mmes conclusions. Chaque corpus construit par un linguiste meurt donc avec lui. Tant dheures de recherche doccurrences qui se perdent Laccs au corpus des autres linguistes permettrait de gagner du temps et dapprofondir davantage la recherche. Ainsi, ce que nous avons recueilli pour la prposition dans peut servir dautres linguistes, leur permettre de mettre en vidence dautres phnomnes que nous navons pas analyss (par exemple, quelquun qui travaille sur les temps grammaticaux pourra peut-

218

tre y trouver des choses). De ce fait les informations contenues dans une base de donnes sont consultables et rutilisables par dautres personnes. De plus, il existe en France trs peu de corpus lectroniques disponibles13, facilement accessibles (sur le franais) qui puissent nous aider dans ltablissement de notre corpus dtude. Il suffit pour sen rendre compte de faire une recherche sur le Web avec le mot-clef corpus ou base de donnes linguistique ou corpus linguistique (les rsultats sont probants !). Actuellement, le concordancier en ligne GlossaNet, le TLFi, le Web, le Dictionnaire de lAcadmie franaise, ABU : la Bibliothque Universelle, le site Elicop (tude Linguistique de la Communication Parle) sont disponibles et accessibles gratuitement alors que Frantext, Le Monde Diplomatique, Le Petit Robert Multimdia (ou autres corpus sur CD-Rom) restent sous le cot dune licence (donc payants). Malheureusement, les corpus actuellement accessibles sont peu diversifis (beaucoup sont centrs sur la littrature) ; ainsi, seul GlossaNet permet doublier pour un temps la recherche doccurrences dans la presse munie dun crayon ! 3.3.2. AVANTAGES DE LA BASE DE DONNES LINGUISTIQUE ICI CONSTITUE : LE CORPUS EST CONSTITU DNONCS MUNIS DE LEUR ANALYSE. Par linformatisation de notre corpus, nous nous inscrivons dans le courant des linguistiques de corpus qui consiste en lutilisation de corpus annots, de grande taille, varis et assortis doutils dexploration puissants, permettant dobserver plus finement les phnomnes (Habert et al., 1997). Par rapport aux faits, nous dfinirons notre corpus comme un regroupement de phrases isoles les unes des autres (absence de paragraphes, de textes), mais ayant en commun lusage de la prposition dans. Ces noncs sont issus de sources diffrentes (presse, littrature nous navons pas voulu distinguer des niveaux de langue diffrents et, par exemple, ne travailler que sur du littraire , ou que sur du journalistique ) et rcolts de deux faons : la premire reste traditionnelle la lecture minutieuse arm dun crayon pour relever ce qui nous semble pertinent. La seconde repose sur lutilisation du concordancier GlossaNet : aprs avoir saisi nos requtes de type [<dissoudre> dans] dans notre profil GlossaNet (notre recherche tant centre sur la complmentation verbale en dans, nous souhaitions extraire des journaux une liste doccurrences comportant les verbes se construisant avec cette prposition), le rsultat de lextraction nous tait envoy par courriel, il ne nous restait plus donc qu lanalyser et saisir les occurrences dans notre base de donnes en suivant toujours la mme procdure (les liens existants entre les tables, cf. Vaguer 2004) : Etape 1 : Saisie dans la table Source de la provenance des noncs rcolts (anne, [auteur, titre], [journal, type de support : informatique, papier]) ;

219

Etape 2 : Saisie dans la table Prcisions sur la Source pour spcifier larticle consult, la page, le genre Etape 3 : La table Identification distributionnelle du SP contient lnonc retenu, ainsi que les proprits syntaxiques du complment introduit par dans (les manipulations traditionnellement juges pertinentes pour en permettre lidentification sont ici reprsentes : suppression, dtachement, position prverbale, pronominalisation, test en le faire, entre autres) ; Etape 4 : La table Identification des constituants V, dt, N permet de saisir chacun des constituants (en vue dextraction automatique, par exemple, de lensemble des noms) et contient les conclusions de lidentification syntaxique du complment : est-il complment ou modifieur ? Etape 5 : La table Proprits des Noms permet une premire analyse du nom en terme de classes dobjets, classe smantique ou par ses proprits morphologiques : est-il driv dun verbe ? laide de cet chantillon demplois de la prposition dans (que nous souhaitons reprsentatif de lensemble de ses emplois en discours), nous avons pu mettre en vidence (Vaguer, 2004b) des rgularits quant lutilisation de cette prposition, par le biais de manipulations rgles, et avancer ainsi dans son identification. Notre corpus comporte donc les noncs de dpart, mais aussi toutes les indications qui leur sont associes, tant du point de vue de la provenance de lnonc (source : auteur, genre, anne, page) que du point de vue de lanalyse de lnonc lui-mme : son analyse syntaxique par le biais de manipulations (quel type de constituant, quelle structure de phrase, quelle fonction des constituants dans la phrase, etc.) et lanalyse de chacun de ses constituants ( quelle classe distributionnelle appartiennent-ils ?), son identit smantique (locatif, approximatif). lheure actuelle, notre base de donnes (nomme Zphyr-V, V comme Verbe) rassemble 1 200 noncs pourvus de leurs analyses syntaxique, lexicale et smantique.

4. RFRENCES
Arriv M.; Gadet F.; Galmiche M. 1986. La grammaire daujourdhui : guide alphabtique de linguistique franaise. Paris : Flammarion. Blanche-Benveniste, C. 2000. Corpus de franais parl in Bilger, M. (d). Corpus. Mthodologie et applications linguistiques. Paris : Honor Champion et PUP. (p. 15-25). Bonami O. 1999. Les constructions du verbe : le cas des groupes prpositionnels argumentaux. Paris. Thse de lUniversit Paris VII. Builles J.-M. 1998. Manuel de linguistique descriptive. Le point de vue fonctionnaliste. Paris : Nathan. Chomsky N. 1969. Structures syntaxiques. Paris : Le Seuil. Chomsky N. 1971. Aspects de la thorie syntaxique. Paris : Le Seuil.

220

Corbin P. 1980. De la production des donnes en linguistique introspective . Thories linguistiques et traditions grammaticales. Villeneuve-dAsq : PU de Lille. (p. 121-179). Delaveau A. 2001. Syntaxe. La phrase et la subordination. Armand Colin, Coll. Campus. Dubois J.; Giacomo M.; Guespin L. 1999. Dictionnaire de linguistique et des Sciences du langage. Paris : Larousse (1re d. 1994). Dubois-Charlier F. 2001. Complments de Verbe, de Proposition, de Phrase, dnonc . Adverbe et Circonstant. CLAIX. n17. Aix-en-Provence : PUP. (p. 33-50). Dugas A., Manseau H. 1996. Les verbes logiques. Montral : ditions Logiques. Fillmore C. J. 1992. Corpus linguistics or Computer-aided armchair linguistics in Svartvik, J. (d). Directions in Corpus Linguistics. number 65. Berlin : Mouton de Gruyter. (p. 35-59). Gasiglia N. 2003. Rflexions autour des cots et bnfices pour un linguiste qui recourt des ressources lectroniques et des outils informatiques ddis leur dpouillement : le cas dune tude lexicale relative aux mots du football . Pr actes des 3mes Journes de la linguistique de corpus. Lorient (11-13/09/03). France. Gleason H.-A. 1969. Introduction la linguistique. Paris : Larousse. Gross M. 1977. Grammaire transformationnelle du franais. Syntaxe du nom. Paris : ASSTRIL. Habert B.; Nazarenko A.; Salem A. 1997. Les linguistiques de corpus. Paris : Armand Colin / Masson. Habert B. 2002. Outiller les linguistes/outiller la linguistique : par o, par qui commencer ? . Intervention la table ronde TAL et enseignement. TALN02 Nancy. 24/06/02. http://www.limsi.fr/Individu/habert/Cours/PX/BHabertOutillerLaLinguistiqueT ableRondeTALN02.pdf. Leeman D. 2000. Complments circonstanciels ou appositions ? . Langue franaise. n125. Paris : Larousse. (p. 19-29). Melis l. 2003. Le groupe prpositif comme dterminant du nom in Haderman, P., Van Slijcke, A., Berr, M. (ds). La syntaxe raisonne Mlanges de linguistique gnrale et franaise offerts Annie Boone. Bruxelles/Paris : De Boeck/Duculot. (p. 235-250). Mellet S. 2002. Corpus et recherches linguistiques. Introduction . Corpus. n1. Nice : Publications de la Facult des Lettres, Arts et Sciences humaines de Nice. (p. 5-12). Milner J.-C. 1978. De la syntaxe linterprtation. Quantits, insultes, exclamations. Paris : ditions du Seuil. Normand C. 1972. De quelques notions fondamentales (sur un enseignement dinitiation la linguistique) . Langue franaise. n14. Paris : Larousse. (p. 32-56). Picabia L., Zribi-Hertz A. 1981. Dcouvrir la grammaire franaise. Une introduction active la linguistique franaise et gnrale. Paris : CEDIC. Riegel M.; Pellat J.-C.; Rioul R. 1994. Grammaire mthodique du franais. Paris : PUF.

221

Sampson J. 1994. Susanne : a domesday book of english grammar in Oostdijk, N., De Haan, P. (ds). Corpus Based Research into Language. Amsterdam : Rodopi. (p. 169-187). Saussure F. de. 1972. Cours de linguistique gnrale. Paris : Payot. (1re d. 1916). Sinclair J. 1996. Preliminary recommendations on Corpus Typology. Rapport Technique. EAGLES (Expert Advisory Group on Language Engineering Standards). CEE. Vaguer C. 2000. Il sest tromp dans ladministration du mdicament. Un ou des complments de structure : Dans + Naction ? Naissance de la notion complment dapposition. Mmoire de DEA. Universit de Paris X Nanterre. Vaguer C. 2004a. Constitution dune base de donnes : les emplois de dans marquant la concidence . Revue Franaise de Linguistique Applique. IX-1. (p. 83-97). Vaguer C. 2004b. Les constructions verbales V dans GN. Approches syntaxique, lexicale et smantique. Thse de doctorat. Universit de Paris XNanterre. Vaguer C. 2005a. Une base de donnes comme moyen de communication scientifique ? . Actas-I, IXme Simposio International de comunicacin social, organis par le Centro de lingistica Aplicada y El Ministerio de Ciencia Tecnologia, y Medio ambiente. Santiago de Cuba. (p. 134-138). Vaguer C. 2005b. De lutilit dun corpus en syntaxe, mais quel corpus ? . in Vergely P (d.). Rle et place des corpus en linguistique. Actes du Colloque JETOU2005. (p. 101-114). Vandeloise C. 1986. Lespace en franais. Paris : Le Seuil.

3. NOTES
(1) Tel que Dubois et al. (1999, p. 123) le dfinissent : Lunivers est lensemble des noncs tenus dans une circonstance donne, tant que le chercheur na pas dcid si ces noncs entraient en totalit ou en partie dans la matire de sa recherche . (2) La reprsentativit est pour Gleason (1969, p. 158) un des problmes essentiels lis la constitution et lutilisation dun corpus de matriaux, fournis par un ou plusieurs informateurs, et partir duquel le linguiste doit crire sa description de la langue. Le problme li la reprsentativit dun chantillon de langue que forme le corpus, cest que certains traits grammaticaux ne sont pas frquents ; ils risquent de ne pas tre reprsents de faon valable dans un corpus runi au petit bonheur. Dautres traits, au contraire, sont trs courants : mme une quantit restreinte de matriaux suffit les illustrer bien plus quil nest ncessaire pour tablir ou confirmer une analyse . Normand (1972, p. 34) rsumait ainsi les propos de Gleason : des traits importants de la langue peuvent ne pas tre reprsents et des traits ordinaires ltre trop souvent . (3) Un corpus ne peut tre clos et exhaustif que dans le cadre dune monographie Il sera tudi en tant que tel, sans pouvoir prtendre tre reprsentatif dautre chose que de luimme ni ouvrir sur aucune forme de gnralisation ou modlisation (Mellet 2002, p. 6). (4) Cf. la caricature propose par Fillmore (1992, p. 35): Armchair linguistics does not have a good name in some linguistics circles. A caricature of the armchair linguist is something like this. He sits in a deep soft comfortable armchair, with his eyes closed and his hands clasped behind his head. Once in a while he opens his eyes, sits up abruptly shouting, Wow, what a neat fact !, grabs his pencil, and writes something down. Then he paces around for new hours in the excitement of having come still closer to knowing what language is really like. (There isnt anybody exactly like this, but there are some approximations.) Corpus

222

linguistics does not have a good name in some linguistics circles. A caricature of the corpus linguist is something like this. He has all the primary facts that he needs, in the form of a corpus of approximately one zillion running words, and he sees his job as that of deriving secondary facts from his primary facts. At the moment he is busy determining the relative frequencies of the eleven parts of speech as the first word of a sentence versus as the second word of a sentence. (There isnt anybody exactly like this, but there are some approximations) . Lidal pour Fillmore serait que les deux types de linguistes soient runis en un seul homme. (5) En franais, le terme informateur peut prter confusion : il fait souvent penser un indicateur, cest--dire quelquun qui fournit des renseignements la police ou un autre service plus ou moins officiel En anglais, la confusion nexiste pas car il existe deux termes distincts : informant (celui qui fournit des renseignements la police) et informer (celui qui fournit des renseignements un journaliste, un linguiste, etc.) (Builles 1998, p. 60). (6) Lemploi de corpus forgs permet au linguiste davoir la langue accessible travers une srie toujours ouverte de nouveaux noncs, spontans ou provoqus (Riegel et al. 1994, p. 19). Et dun point de vue quantitatif, le fait davoir accs la langue dans son ensemble, et non uniquement un chantillon (comme cest le cas avec les corpus attests), offre dautres possibilits : Ntant plus limits en nombre, les chantillons de performance tayent les hypothses sur la langue, mais permettent aussi leurs vrifications en les confrontant de nouvelles donnes (Ibidem). (7) Insistons sur le fait que rien nest dit sur le recueil des donnes (comment on procde, sur quoi on opre, sur quels types de donnes). Finalement, la notion de corpus semble acquise et admise par lensemble des linguistes, qui lemploient sans juger utile de la dfinir, comme allant de soi : la consultation de diffrents ouvrages (dont lanalyse est propose ici) nous a permis dobserver que cette notion est souvent esquive, ou non explicite. (8) Moi, je suis de la France. Je ne dis pas : je suis la France. Je suis de la France. Toutes mes penses, toutes mes faons dtre, toutes mes sensations, toutes mes vibrations, elles sont de la France (Habert et al., 1997, p. 9). Cet exemple extrait du corpus Mitterand1 met bien en vidence quil nest pas facile dtablir des distinctions tranches entre les ralisations langagires juges acceptables et celles juges non-acceptables, puisque les constructions employes par F. Mitterand paraissent pour certaines agrammaticales. Or le Prsident les a employes et son insistance montre quil est conscient des structures nonces (elles ne relvent pas du lapsus). (9) Comme cela se fait dans les recherches actuelles en linguistique de corpus : cf. Habert et al. (1997) et plus rcemment les communications de Gasiglia, Arnaud, Alves, Fujimura, Manguin aux 3mes Journes de la Linguistique de Corpus (Lorient, septembre 2003). (10) Nous entendons par corpus, une banque de donnes ouvertes qui sera alimente et toffe rgulirement en fonction des exemples rencontrs et des proccupations de recherches. Notre corpus sera donc centr sur des noncs constitus de la prposition dans et on le jugera satur pour des raisons matrielles au moment de finaliser notre thse. (11) Il faut, pour ce faire, bien entendu travailler sur le mme sujet. (12) Notons, toutefois, quune base de donnes ncessite un travail long et fastidieux de mise en place : en effet, il faut, dans un premier temps, dfinir quels sont les lments que lon veut y voir figurer et comment on souhaite que cela sorganise (la mise en place de liens entre les tables nest pas vidente). Mais cette formalisation permet davancer dans la comprhension du phnomne tudi puisquil faut, ce moment-l, se demander ce quon cherche mettre en vidence, ce quon veut voir apparatre, etc. Si des efforts sont investis dans la constitution dune base de donnes, il y a ensuite un retour sur investissement (Habert, 2002) non ngligeable. (13) Or, tout linguiste travaillant sur un corpus (comme nous lavons mentionn en premire partie de cet article), il y a beaucoup de donnes riches qui restent inaccessibles.

223

S-ar putea să vă placă și