Documente Academic
Documente Profesional
Documente Cultură
Vronique Auberg Institut de la Communication Parle UMR CNRS 5009 INPG/Universit Stendhal 38040 Grenoble cedex auberge@icp.inpg.fr http://www.icp.inpg/EMOTION
Rsum. Les thories cognitives des motions avancent que les traitements rationnels ne peuvent tre dissocis des traitements motionnels. Aussi les clones parlants et entendants auraient beaucoup gagner sils modlisent les affects et leurs expressions. La parole reoit lexpressivit linguistique, les attitudes pragmatiques et les expressions directes de motions, le vecteur central tant la prosodie. Un enjeu de la modlisation de la prosodie motionnelle, qui passe par une mthodologie exprimentale rigoureuse, est la construction de bases de donnes authentiques denses et reprsentatives. On peut attendre que cette thmatique merge certainement au centre des interactions personne-machine, et sera le champ de validation directe des avances thoriques en linguistique, phontique, psychologie et neurologie.
1 INTRODUCTION
Les avances de la phontique et phonologie, les nouvelles thories linguistiques nous montrent que la dichotomie langue et langage na pas de frontire claire. La parole, dans toutes ses motions, est la fois un ensemble de signaux de lappareil sensori-moteur et des vnements du langage. Produite pour/comme tre perue (perception-action), communicant les codes dans un systme inter-personnel, elle intgre la complexit de la machine biologique, du systme cognitif du langage et celle de linteraction motive. Un clone incarn parlant en situation relle de communication verbale face face rsulte dj dun tel casse-tte
264
thorique et technologique, que lon est en droit de se demander si le douer de la capacit de produire et percevoir des indices motionnels nest pas dune importance priphrique, en tout cas relve des problmes rsoudre lorsque ceux du code seront mieux matriss. Pourtant dans lAntiquit dj, la communication des motions dans le discours tait avanc comme un fait majeur. Aujourdhui, des hypothses fortes de la psychologie cognitive et de la neuropsychologie donnent aux motions un statut central : traiter les motions dans linteraction verbale personnemachine najoute pas seulement de la naturalit, mais peut permettre de ne pas perturber lefficacit mme de la communication. Un survol rapide de la parole motionnelle montre que la prosodie est le vecteur privilgi des motions dans la parole. En la situant comme un agent intgratif des principales fonctions du systme communicatif, elle est le sige de lexpression directe des motions, du codage des attitudes et des stratgies expressives pour un mme matriel acoustique. Enfin des problmes restent encore ouverts pour mener bien une mthodologie exprimentale de ltude de la parole motionnelle.
Prosodie et motion
265
266
relles : comment ne pas perturber le mcanisme psychologique de lattention qui semble fortement li aux motions (laccs linformation est facilit motiv selon les variations motionnelles) ; comment lhumain ragit-il lorsque son mcanisme dempathie (qui commence tre dcrit en neurologie) est face un artefact communicant dont il ne peut viter de traiter des indices comme motionnels, mme si ceux-ci sont de simples biais non contrls ? On peut supposer par exemple que lessentiel du succs du dialogue avec un pilote davion en situation de danger sera dans la cohrence entre le contenu langagier et le contenu motionnel de la voix synthtique. Depuis une dizaine dannes, les avatars, les chatterbots, en interaction communicative avec lhumain commencent tre dous de Belief, Desire & Intention. Ainsi sont ns les Affective Agents, de R. Picard au Medialab-MIT, les Embodied Conversational Interface Agents de J. Cassel ou encore les Believable Social and Emotional Agents de B. Loyall, du projet Oz de lUniversit de Carnegie Mellon. Que doit-on modliser pour simuler les performances du vendeur qui sait vendre, avec des comptences langagires pourtant identiques au vendeur moins efficace? Tant que la modalit est celle de lcrit, les affects des agents prennent forme dans leurs stratgies interactionnelles et leur expressivit langagire. Mais ces technologies visent la communication face face : les clones sont incarns dans un corps et un visage, et prennent la parole synthtique, cest alors lexpression directe de leurs motions, verbale ou non-verbale, qui est galement concerne, et toute la complexit de la multi-modalit faciale (cf. Proceedings des ETRW AVSP), gestuelle (cf. les Actes du colloque Oralit et Gestualit, 2000) et parle des expressions, avec, au centre, une prosodie de la parole qui devra peut-tre aussi tre envisage comme globalement multi-modale.Les actes du premier Workshop International de la communaut scientifique des chercheurs en parole (cf. Proceedings ISCA ETRW on Speech and Emotion, 2000), tmoignent de lparpillement des travaux : il est encore difficile mthodologiquement de situer la technologie vocale dans lhistoire ancienne des thories des motions et dintgrer les connaissances accumules en phontique sur les modles de production de qualit de voix. De plus, si les systmes de parole (prosodique) synthtique ont pu tre tablis jusquici sur des critres dintelligibilit phontique et linguistique (le rythme et la prosodie sont calculs en gnral pour des situations de lecture dnoncs, qui accentuent la prdominance de la fonction de structuration syntaxique de lnonc, les systmes de dialogue oral personne-machine utilisent en gnral les synthtiseurs comme simple sortie pour les noncs oraux symboliques),
Prosodie et motion
267
la synthse dite adaptative qui intgre les structures situationnelles et les motions devra intgrer aussi les modles de linteraction verbale [4]. Un autre enjeu technologique suivi par ceux qui avancent lhypothse de la non optimalisation du systme de perception de lhumain par lhumain (comme D. Massaro par exemple) est quun systme de reconnaissance des motions pourrait augmenter le systme de jugement naturel de lhumain, partir des mmes signaux traits par lhomme et la machine. De toute faon, la communication personne-machine peut tre augmente de capteurs non accessibles dans la perception naturelle de lhumain, si lon suppose nouveau quil nont pas de redondances perues par le systme sensori-moteur humain. Cest le principe du dtecteur de mensonges (issu du courant physiologique des thories des motions), dont on sait de manire empirique quil est efficace lorsquil est interprt par un expert , mais quaucun modle objectif na pu jusqu prsent [14] tre tabli partir des marqueurs somatiques, mme plus complexes ou invasifs que ceux tirs des capteurs biophysiologiques dun dtecteur de mensonges.
268
de luniversalit et de la pertinence indicielle des motions. Outre la perspective cognitive introduite par Arnold en 1960, trois autres courants majeurs influencent encore les dbats actuels : la perspective volutionniste (depuis Darwin en 1884) qui tudie principalement les expressions faciales, la perspective physiologique ( la suite de James en 1884 et Lange en 1885) qui met en avant le rle de lactivation physiologique dans le dclenchement des processus motionnels (on se sent triste parce quon pleure), la perspective du constructivisme social (aprs Averill en 1980) qui considre les motions comme le produit de constructions sociales.
Prosodie et motion
269
des motions trs diffremment. Enfin, plusieurs thories sopposent ou se compltent quant lencodage phonologique de la prosodie [Rossi bouquin] : modles tonals (de type ToBI) vs. modles par concatnation de contours phontiques (comme celui de lIPO) vs.modles par concatnations de morphmes intonatifs [13] vs. modles de superposition de contours globaux [1].
4.1.2 Une architecture cooprative comme paradigme efficace des structures communicatives
Pour poser le problme de la prosodie dans son ensemble, en intgrant la fonction expressive et la fonctions des expressions au mme titre que toutes celles remplies par la prosodie, on peut situer les fonctions plus globalement, comme tant partages par lensemble des autres structures linguistiques et pragmatiques, et, pour les fonctions des expressions, par les autres modalits, faciale et gestuelle, Dans cette hypothse [1] les fonctions sont mergentes au systme de communication et rparties interactivement entre les diffrents agents du systme, dont la prosodie. Cette hypothse n'est pas modulaire au sens de Fodor puisqu'il n'y a pas de planification par un agent central, mais au sens des principes de l'autoorganisation dirige propose dans les modles de l'intelligence du vivant.
270
surprise par exemple), et le locuteur possde une comptence, la simulation, qui lui permet de fabriquer intentionnellement des expressions normalement involontaires. Comment alors distinguer attitudes et motions ? Un enjeu majeur est de montrer que la morphologie prosodique des attitudes est toujours cale sur des vnements du discours, tandis que la prosodie des expressions est rgie par les vnements de lcologie du locuteur qui induisent chez lui des changements de son tats motionnels.
Prosodie et motion
271
6 CONCLUSION
La qualit de la synthse vocale est aujourdhui trs bonne en terme dintelligibilit phontique et linguistique, mme si la prosodie reste le problme le plus difficile rsoudre. Depuis peu, un engouement certain est apparu en synthse de la parole motionnelle, et devrait permettre de douer de parole les agents affectifs des interactions personne-machine qui squipent galement de visages. Sur le plan technologique la manipulation de la parole est moins complexe que le traitement des visages. Il est facile de produire des effets sans les rattacher un cadre thorique [5]. Le danger est grand de laisser les artefacts technologiques prendre le pas sur la validation thorique des modles implments, seule lvaluation diagnostic pourra viter cet cueil. Pourtant, si lon en croit cette hypothse selon laquelle il est essentiel de traiter les motions dans
272
linteraction personne-machine, ce sont des motions intelligibles et anthropomorphiques qui doivent tre vises car les consquences des erreurs de cible motionnelle seront bien plus difficiles mesurer que les erreurs smantiques. Lamlioration des technologies dpendra srement grandement des avances thoriques de la psychologie cognitive et sociale et de la neurologie des motions.
7 REMERCIEMENTS
Les tudes menes lICP sont le fruit dune longue collaboration avec N. Campbell (ATR-Kyoto), et ESP/CREST, et de toute une quipe : A Rilliard, N. Audibert, C. Brichet, A. Fouard, F. Loyau et A. Noiray.
8 RFRENCES
Auberg V. (2002) : A Gestalt morphology of prosody directed by functions : the example of a step by step model developed at ICP. In Proceedings of the 1st Conf on Speech prosody,p. 151-155. [2] Auberg V. & Cathiard M. (2002) The prosody of smile, Speech Communication Review, Special Speech and Emotion. [3] Bnziger T., Grandjean D., Bernard P., Klasmeyer G. & Scherer K. (2001) Prosodie de lmotion : etude de lencodage et du dcodage, Cahiers de Linguistique franaise, 23, 11-37. [4] Campbell, N. (2000) : Databases of Emotional Speech. In Proceedings of ISCA 2000, Northern Ireland, p.34-38. [5] Cahn, J., 1990. The generation of Affect in Synthesised Speech. Journal of the I/O Voice American Society, 8, 1-19. [6] Damasio A. R. (1994) : Descarteserror. Emotion, reason, and the human brain. Putnam Books. [7] Fonagy Y. (1986) Les langages de lmotion, Quaderni di semantica, 7/2, M Alinei (ed), Bologne, 305-318. [8] Johnstone T. & Scherer K.. (1999) : The effects of emotions on voice quality. In Proceedings of the XIVth International Congress of Phonetic Sciences, San Fransisco, p.2029-2032. [8] Lon P. (1993) Prcis de Phonostylistique parole et expressivit, Paris, Nathan [10] Morlec, Y., G. Bailly, and V. Auberg (1999) Generating prosodic attitudes in French: data, model and evaluation. Speech Communication, 33(4): p. 357--371. [1]
Prosodie et motion
273
[11] Mozzicconnacci S. J. L. (1998b) : Speech Variability and Emotion : Production and Perception. PhD Thesis, Eindhoven University. [12] Roach P. (2000) : Techniques for the Phonetic Description of Emotional Speech. In Proceedings of ISCA 2000, Northern Ireland, p.53-59. [13] Rossi M. (1999) Intonation: past, present and future, in A. Botonis (ed). [14] Vernet-Maury, E. (2001) Capter et mesurer la qualit de la rponse motionnelle. Actes des Journes GRAME 2001 : lart, la pense & les motions, Lyon, France, 61-68