Documente Academic
Documente Profesional
Documente Cultură
LIMSI-CNRS
BP 133 F-91403 ORSAY CEDEX
Laurence Vidrascu
Soutenu publiquement le 20 dcembre 2007 devant le jury compos de Laurence Devillers Jean-Paul Haton Anton Batliner Nick Campbell Lori Lamel Joseph Mariani Directeur Rapporteur Rapporteur Examinateur Examinateur Examinateur
Remerciements
Je tiens tout dabord remercier mon directeur de thse, Laurence Devillers, pour son encadrement et ses nombreux conseils ainsi que Lori Lamel qui a encadr ma thse pendant 2 ans pour ses encouragements et son aide pour lutilisation des outils du groupe. Mes remerciements vont galement aux membres de mon jury : Jean Paul Haton, Anton Batliner, Nick Campbell et Joseph Mariani. Merci toute le groupe TLP et aux autres doctorants, en particulier Bianca (et Emma) pour son aide incommensurable et son amiti, Ccile pour ses relectures et son soutien, Daniel pour avoir reli ma thse et Anne-Laure pour tous ses conseils. Merci enfin tous ceux, famille et amis, qui m'ont soutenue et supporte, mention spciale ma tel-00624085, version 1 - 15 Sep 2011 soeur et son cachougu.
- ii -
motions....................................................................................................................................................... 10
LES CORPUS EMOTIONNELS ............................................................................................................. 33 2.1. 2.2. 2.2.1. 2.2.2. 2.3. 2.3.1. 2.3.2. 2.3.3. 2.4. 2.5. QUEL MATERIEL ? LES DIFFERENTS TYPES DE CORPUS : AVANTAGES ET INCONVENIENTS .................. 33 DONNEES LIMSI : DES CENTRES DAPPELS ......................................................................................... 38 Corpus de transactions boursires................................................................................................ 39 CEMO ........................................................................................................................................... 39 TRANSCRIPTION DU CORPUS CEMO ................................................................................................... 41 Protocoles ..................................................................................................................................... 41 Outils et vitesse de transcription ................................................................................................... 41 Caractristiques du Corpus .......................................................................................................... 41 METADONNEES ................................................................................................................................... 42 CONCLUSION ...................................................................................................................................... 43
3.
ANNOTATION DES EMOTIONS .......................................................................................................... 46 3.1. 3.1.1. 3.1.2. 3.1.3. 3.1.4. 3.2. 3.2.1. 3.2.2. 3.2.3. 3.2.4. 3.2.5. PROBLEMATIQUES LIEES A LANNOTATION ......................................................................................... 46 Choix d'une unit de dialogue ....................................................................................................... 46 Choix des axes/tiquettes .............................................................................................................. 47 Combien dannotateurs ? .............................................................................................................. 49 Validation des annotations............................................................................................................ 49 ANNOTATION DU CORPUS CEMO ....................................................................................................... 52 Exprience tire des travaux sur le Corpus de transactions boursires ....................................... 52 Annotation du corpus CEMO ........................................................................................................ 56 Validation...................................................................................................................................... 64 Cohrence inter-annotateur : le coefficient kappa........................................................................ 67 Cohrence intra-annotateur : r-annotation................................................................................. 68
- iii -
Test perceptif................................................................................................................................. 68 COMBINER LES ANNOTATIONS : UN VECTEUR EMOTION ...................................................................... 69 CLUSTERING SUR LES ANNOTATIONS UTILISANT UN ALGORITHME DIVISIF.......................................... 70 CONCLUSION ...................................................................................................................................... 71
ANALYSE DES MELANGES DEMOTIONS DANS LE CORPUS CEMO...................................... 74 4.1. 4.2. 4.2.1. 4.2.2. 4.2.3. 4.3. DISTRIBUTION DES EMOTIONS............................................................................................................. 74 LES MELANGES DEMOTIONS .............................................................................................................. 75 Diffrents cas dans le corpus CEMO ............................................................................................ 75 Diffrents indices : Une tude sur les motions conflictuelles ................................................ 77 Test perceptif sur les motions complexes..................................................................................... 80 CONCLUSIONS..................................................................................................................................... 88
5.
LES PARAMETRES................................................................................................................................. 92 5.1. ETAT DE L'ART DES PARAMETRES UTILISES ......................................................................................... 92 Le modle de Fnagy .................................................................................................................... 92 La production de la parole............................................................................................................ 93 Les indices extraits pour la dtection des motions ...................................................................... 95 Les variations des paramtres suivant les tats motionnels dans la littrature ........................ 101 PARAMETRES EXTRAITS SUR NOS CORPUS......................................................................................... 103 Paramtres extraits de manire automatique.............................................................................. 105 Paramtres dduits de la transcription manuelle et de lalignement phonmique...................... 109 Normalisation des paramtres prosodiques................................................................................ 112 Tendances des paramtres compares celles de Scherer ......................................................... 114 Triangles vocaliques ................................................................................................................... 115 CONCLUSION .................................................................................................................................... 118
5.1.1. 5.1.2. 5.1.3. 5.1.4. 5.2. 5.2.1. 5.2.2. 5.2.3. 5.2.4. 5.2.5. 5.3. 6.
APPRENTISSAGE POUR LA DETECTION DES EMOTIONS....................................................... 123 6.1. 6.1.1. 6.1.2. 6.1.3. 6.2. 6.2.1. 6.2.2. 6.2.3. 6.2.4. 6.3. 6.3.1. 6.3.2. LAPPRENTISSAGE AUTOMATIQUE : CADRE GENERAL POUR NOS TRAVAUX ...................................... 123 Algorithmes ................................................................................................................................. 124 Mthodologie : Prparer et valuer les donnes......................................................................... 127 La slection des attributs............................................................................................................. 131 QUEL ALGORITHME UTILISER ? PREMIERS RESULTATS : TRANSACTION BOURSIERES / CEMO ......... 133 Comparaison de diffrents algorithmes sur les donnes boursires et CEMO pour la Intrt de ne pas utiliser les mlanges : exemple Peur/Colre sur CEMO et donnes boursires. ..... 135 Combien de donnes pour lapprentissage ? .............................................................................. 135 Quelle normalisation ?................................................................................................................ 136 SUR LES DONNEES CEMO ................................................................................................................ 137 Informations contextuelles : Diffrences Agents/Appelants, Hommes/Femmes.......................... 137 Variation du nombre de classes .................................................................................................. 140
-1-
6.3.3. 6.3.4. 6.4. 6.4.1. 6.4.2. 6.4.3. 6.4.4. 6.4.5. 6.4.6. 6.4.7. 6.5. 6.5.1. 6.5.2. 6.6. 6.7. 7.
Le poids des diffrents types dattributs paralinguistiques : le cas de la dtection dans le cas des 5 Combinaison indices lexicaux et prosodiques............................................................................. 147 UTILISATION DE NOS METHODES SUR DES DONNEES DIFFERENTES : CEICES (COMBINING EFFORTS 150 Coopration dans le cadre du rseau dexcellence humaine ...................................................... 150 Le corpus AIBO........................................................................................................................... 150 Schma dencodage des paramtres. .......................................................................................... 151 Comparaison des performances par site..................................................................................... 152 Impact des erreurs dextraction du pitch .................................................................................... 152 Impact de diffrents types de paramtres.................................................................................... 153 Conclusions gnrales sur les donnes AIBO ............................................................................. 154 PORTABILITE SUR DES DONNEES DIFFERENTES ................................................................................. 155 Sur les donnes boursires .......................................................................................................... 156 GEMEP (GEneva Multimodal Emotion Portrayals)................................................................... 159 VERS UNE MODELISATION PLUS FINE ET TEMPORELLE ...................................................................... 167 CONCLUSION .................................................................................................................................... 170
ANNEXE1: QUELQUES DEFINITIONS DE LEMOTION ....................................................................... 178 TABLE DES FIGURES.................................................................................................................................... 181 LISTE DES TABLEAUX ................................................................................................................................. 185 BIBLIOGRAPHIE............................................................................................................................................ 189 PUBLICATIONS .............................................................................................................................................. 197
-2-
I Introduction
-3-
Introduction gnrale
INTRODUCTION GENERALE
La prsente thse a pour sujet la dtection automatique des motions dans la voix. Longtemps ddaign par la communaut scientifique, le domaine des motions est aujourdhui en plein essor. Les avatars pouvant exprimer une motion, comme ceux disponibles sur Yahoo Messenger par exemple, se multiplient. De mme on voit de plus en plus de gadgets du type lapin nabaztag 1 qui exprime des motions 2 et qui on peut envoyer des messages en utilisant une voix plus ou moins en forme ou stresse. De faon moins ludique, on commence aussi sintresser aux motions dans le domaine de lducation avec par exemple pour objectif des tuteurs virtuels dont la stratgie voluerait suivant que la personne qui interagit avec eux est intresse, ennuye ou frustre. La prise en compte des motions peut galement servir pour les centres dappels, o la satisfaction du client est primordiale. Concernant ce dernier point, la dtection des motions peut tel-00624085, version 1 - 15 Sep 2011 avoir plusieurs intrts. Tout dabord une grande quantit de donnes est actuellement enregistre et il peut tre intressant de dtecter automatiquement les portions de dialogue correspondant de la satisfaction ou de lnervement afin de les analyser a posteriori et de modifier les stratgies (pour des agents humains comme pour des agents virtuels), le but final tant de ne pas perdre de client. Ensuite, la dtection des motions a galement tait envisage afin de superviser les interactions et dintervenir en cas de problme 3 (l aussi avec des agents humains ou des systmes de dialogue). Les premiers outils de quality monitoring utilisent la fois la reconnaissance de la parole et des indices acoustiques (voix superposes, silences, hsitations, temps dinteraction, etc.) pour infrer de la non-satisfaction dun appelant. Un premier systme de ce type a dailleurs t commercialis en 2006 par les laboratoires NICE 4 avec un module emotion detection visant dtecter un vnement motionnel mais aucune valuation de ce module na t effectue. Indpendamment de ces applications mergentes, le domaine des motions est particulirement intressant par son aspect pluridisciplinaire (psychologie, physiologie, neurologie, traitement de la parole, traitement du signal, ralit virtuelle). Il a motiv la cration dun rseau dexcellence, HUMAINE (Human-Machine Interaction Network on Emotion), dans lequel le LIMSI est
www.nabaztag.com En activant une fonction humeur , le lapin prend la parole des moments alatoires et ses intonations sont souvent assez marques. 3 Bar Veinstein, de NICE Systems : Des recherches montrent que si vous rpondez un consommateur dans les 24 heures aprs quil ait eu une mauvaise exprience avec lun de vos produits, vous avez de grande chance de regagner ce consommateur et de le fidliser 4 http://nicesystem.ru/news/newsletter/6_07/analyze.php
1 2
-1-
Introduction gnrale impliqu, et qui runissait des experts issus de plusieurs disciplines dans le but de partager les diffrentes expertises afin de progresser vers des systmes orients motions. Jai dailleurs particip CEICES (Combining Efforts for Improving Automatic Classificationof Emotional User States), une collaboration de plusieurs sites de HUMAINE, dont lobjectif tait de se pencher sur la classification des tats motionnels exprims vocalement. Dans ce manuscrit, nous nous concentrons sur la communication vocale des motions. Nous avons choisi de travailler sur des donnes tlphoniques provenant de centres dappel car elles sont particulirement adaptes ce type de travaux, lmotion sexprimant uniquement par la voix. En contrepartie, la qualit du signal nest pas toujours optimale par rapport des donnes non tlphoniques et la bande passante est rduite.
Introduction gnrale maximum dmotions pouvant tre discrimines. Le domaine tant assez rcent, un flou existait galement sur la manire dvaluer les performances et les performances maximales que lon pouvait imaginer obtenir avec des indices et des algorithmes idaux. Nous avons essay de rpondre aux diffrentes critiques en travaillant sur des donnes spontanes particulirement riches avec une grande diversit de locuteurs (ge, sexe, contexte, accent) et un large ventail dtats motionnels. Ds lors que lon travaille avec des donnes relles, plusieurs questions se posent : comment annoter les donnes pour rendre compte de leur richesse et de leur complexit ? o tout dabord quest ce qui est annot ? En gnral on choisit une unit statique comme le tour de parole, mais pourrait-on envisager un traitement plus dynamique ? tel-00624085, version 1 - 15 Sep 2011 o comment former des annotateurs experts combien dannotateurs faut-il et comment valider les annotations ? de nombreuses thories existent sur les mlanges dmotions, mais peu dtudes empiriques ont t effectues. Comment les tudier dans la pratique ? Est-ce que tout le monde les peroit ? Peut-on typer les diffrents mlanges ? quels sont les indices les plus pertinents pour discriminer les motions ? Existe-il un profil vocal pour les motions de base comme par exemple la colre ? Est-il possible de tous les obtenir de manire automatique ? comment les combiner ? y a-t-il des types indices mergents pour reconnatre les motions ? comment grer la grande variabilit dmotions/voix ? combien de classes dmotions peut-on discriminer ? les modles obtenus sont-ils gnralisables sur des donnes comparables ? Sur dautres types de donnes ? Et dans des langues diffrentes ? Travaillant dans le groupe traitement de la parole du LIMSI, dautres questions se posaient en arrire plan et des perspectives souvrent. Les donnes motionnelles affectent-t-elles les performances de reconnaissance de la parole. Pourrait-on envisager dans le long terme dajouter un module motion au systme de reconnaissance de la parole ?
-3-
Introduction gnrale
Plan de thse
Le manuscrit sera divis en 3 parties. La premire partie dressera un tat de lart la fois thorique et technique (chapitre 1) sur les motions. La deuxime partie rendra compte des difficults travailler sur des donnes spontanes : leur collection (chapitre 2), leur annotation (chapitre 3) et leur analyse (chapitre 4). Enfin, la dernire partie traitera de la modlisation des motions. Pour dtecter des motions dans des donnes spontanes, il faut combiner de nombreux indices de diffrentes natures, ce qui sera dtaill dans le chapitre 5. Les systmes de dtection, leur portabilit et leur universalit seront dcrits dans le chapitre 6. Nos conclusions et perspectives sont labores dans le chapitre 7.
-4-
What is meant by emotion and what are the different theories about what an emotion is? Is the assumption that there are distinct discrete labels theoretically correct? In this chapter, we start by briefly tackling the issues of the definition of an emotion and the reasons for studying them. Once we have defined what we mean by emotion, the question arises whether a human (or a machine) can perceive accurately his own or other peoples emotion. In order to answer that, we present Scherers adaptation of Brunswik model, which models how emotions are conveyed and report of several perceptual tests. We then briefly describe the main theories on how to represent emotions: discrete labels, continuous dimensions and the appraisal theory. Finally we give several issues in relation to the study of vocal emotions as well as a brief state of the art.
-5-
1.1. 1.1.1.
Qu'est ce qu'une motion ? ............................................................................................................................ 7 Vocabulaire des diffrents tats affectifs ....................................................................................................... 8 Pourquoi s'intresser aux motions ?............................................................................................................ 9 1.1.2. LES EMOTIONS DANS LES INTERACTIONS SOCIALES : LE MODELE DE BRUNSWIK, ENCODAGE ET
1.1.3.
Quatre courants thoriques sur les motions .............................................................................................. 14 Dimensions abstraites ................................................................................................................................. 14 Thorie des motions de base...................................................................................................................... 16 Les motions complexes............................................................................................................................... 19 Modle d'valuation (appraisal).................................................................................................................. 22 1.2. 1.2.1. 1.2.2. 1.2.3. 1.3. LA DETECTION DES EMOTIONS DANS LA VOIX..................................................................... 25 METHODOLOGIE POUR CONSTRUIRE UN SYSTEME DE DETECTION DES EMOTIONS ............................... 25 PERCEPTION DES EMOTIONS : LES PERFORMANCES HUMAINES ........................................................... 26 ETAT DE LART DES SYSTEMES DE DETECTION SUR LES EMOTIONS DANS LA VOIX .............................. 26 CONCLUSION DE LETAT DE LART ........................................................................................... 29
-6-
Les scientifiques n'arrivent pas s'accorder sur une rponse la question "Qu'est ce qu'une motion ? ", clbre titre de l'article de William James 1. Et comme le remarquent Fehr et Russel,
Everyone knows what an emotion is, until asked to give a definition. Then it seems, no one knows
[Fehr et Russell 1984]. Kleinginna & Kleinginna ont fait une liste des dfinitions existantes dans [Kleinginna et Kleinginna 1981] et ont tent d'en extraire des caractristiques communes. Devillers dresse un tat de lart de cette problmatique dans [Devillers 2006]. Une liste non exhaustive de dfinitions que jai pu rencontrer est donne en Annexe1. Les membres du rseau dexcellence humaine citent souvent Scherer [Scherer et al. 2004], qui dfinit lmotion comme :
Episodes of massive, synchronized recruitment of mental and somatic resources allowing to adapt or cope with a stimulus event subjectively appraised as being highly pertinent to the needs, goals and values of the individuals"
Pour James, les motions sont des ractions physiologiques : lorsqu'on est dans la fort et qu'un ours apparat, nos os tremblent cause de lours et on prouve de la peur parce qu'on sent nos os trembler (et non pas cause de l'ours).
1
-7-
Impact sur le comportement Emotion ex : colre, joie, tristesse, peur Positions entre personnes (Interpersonal Stances) ex : distant, froid, mprisant, chaleureux Humeurs (Moods) Ex : joyeux, irritable, dprim, de bonne humeur Attitudes (attitudes) ex: amour, haine, amiti, dsir Dispositions affectives (Affect dispositions) ex : nerveux, anxieux, morose, hostile
Intensit
Brivet
Elicitation dvaluations
Synchronisation
++ +
++ + +
++ ++ +
++ + +
++ +
++
++
+ +
Tableau 1-1. Etats affectifs (adapt de [Scherer 2003]). Dans le cadre de ce travail et comme pour une majorit des tudes en affective computing (sciences affectives), le terme motion sera utilis au sens large et inclura tout tat affectif, notion sur laquelle les scientifiques saccordent 2.
Pour une discussion sur la diffrence entre les diffrents tats affectifs, on peut se reporter la discussion "How Are Emotions Distinguished from Moods, Temperament, and Other Related Affective Constructs" [Ekman et Davidson 1994] o diffrents auteurs donnent leurs dfinitions de termes tels que moods (humeur), emotion states/traits (tat motionnel ), episodes, sentiments, personality, dispositions, temperament. Une liste de termes est galement explicite par Cowie dans [Cowie 2007]. 2 Cowie dans [Cowie 2007] cite la dfinition de AlleyDog.com fancy way to say "feelings".
1
-8-
1 Clore cite une exprience de Martin [Martin 1986] o des sujets, aprs avoir effectu une tche qui induisait une rponse motionnelle, lisaient une description ambigu d'une personne et devaient ensuite juger cette personne. Martin a mis en vidence le fait que leur jugement tait biais par leur premire exprience affective. 2 http://emotion-research.net/ws/plenary-2007/ 3 Ekman et Friesen ont cod les modifications de lexpression du visage en FACS (Facial Action Coding System), une unit daction dcrivant leffet dun muscle sur un trait du visage. 4 http://affect.media.mit.edu/projects.php?id=1935 5 http://www.media.mit.edu/research/ResearchPubWeb.pl?ID=30
-9-
1.1.2. Les motions dans les interactions sociales : le modle de Brunswik, encodage et dcodage des motions
Notre recherche sappuie sur la base thorique du modle de perception de Brunswik, modle dvelopp pour ltude perceptive de la vision et appliqu diffrents types danalyse de jugement. Ce modle a t adapt par Klaus Scherer [Scherer et al. 2003] comme paradigme pour la recherche sur la communication vocale des motions. Scherer insiste sur la distinction entre l'expression (ou encodage) de l'motion par le locuteur, la transmission du son et le dcryptage par le receveur (dcodage). Dans son modle (voir Figure 1-1), les tats internes dun locuteur sexpriment par des modifications physiologiques (respiration, phonation, articulation) et sont encods par des indices tel-00624085, version 1 - 15 Sep 2011 mesurables par un observateur (indices acoustiques dans le cas de la voix) appels indices distaux dans le modle. Ces indices sont la fois dus des ractions involontaires ou "push effects" (effet des changements physiologiques caractrisant la rponse motionnelle sur la voix : tremblement de la voix par exemple) et une communication intentionnelle des tats interne ou "pull effects" (rgulation de la vocalisation pour des raisons stratgiques). Ils sont transmis jusqu loreille dun observateur et perus par le systme perceptif auditif. Lobservateur traite ces indices (nomms indices proximaux dans le modle) et les reprsente par des percepts qu'il utilise pour infrer l'tat du locuteur. La partie gauche du modle correspond l'encodage, la droite au dcodage.
- 10 -
Chapitre 1 1BEtat de l'art Une illustration est donne dans [Scherer 2003] pour le cas de la frquence fondamentale du signal.
the fundamental frequency of a speech wave constitutes the distal characteristics that gives rise to the pattern of vibration along the basilar membrane, and, in turn, the pattern of excitation along the inner hair cells, the consequent excitation of the auditory neurons, and finally, its representation in the auditory cortex. Either phase in the input, transduction and coding process could be considered a proximal representation of the distal stimulus
Mme si les indices proximaux sont censs reflter les indices distaux, ils peuvent tre modifis ou dforms par la transmission du son (distance 13, bruit) et les caractristiques structurelles de lorgane perceptif (plus de dtails dans [Scherer 2003]). Nos travaux portent sur la partie dcodage du modle, nous utilisons les caractristiques de la voix pour infrer l'motion de l'metteur (exprime volontairement ou non). tel-00624085, version 1 - 15 Sep 2011 Comme le remarque Ortony dans [Ortony et al. 1988], de mme qu'il n'y a aucun moyen de prouver qu'une personne est en train de percevoir une couleur prcise, il n'y a pas de mesure objective connue pour tablir qu'une personne est en train d'prouver une motion spcifique. En pratique, une des mthodologies les plus utilises est le "self-report" d'une motion : on demande une personne par exemple de se remmorer un pisode motionnel ou on lui pose des questions aprs une exprience en lui demandant de dcrire les motions quelle a prouves. Cependant, mme en supposant quil soit possible de questionner le locuteur, comme le remarque [Cornelius 1996 p13] :
Studies of emotion employing self-report methodologies assume, of course that people are able and willing to tell researchers what the researchers wants to know about their emotion. This, it turns out is a somewhat dodgy assumption to make and is one that has occasioned a great deal of controversy
En effet, le temps peut avoir un impact sur les souvenirs ou la formulation mme de la question pourrait d'ailleurs biaiser sa rponse. La personne pourra galement amplifier ou inventer des motions afin de satisfaire l'exprimentateur [Schachter et Singer 1962] 14. Plutchik [Plutchik et Kellerman] donne d'ailleurs une liste de raisons pour lesquelles les reports verbaux ne dcrivent pas ncessairement l'tat motionnel (voir Tableau 1-2).
13 Si par exemple le receveur est situ physiquement loin de l'encodeur, il va devoir produire un signal plus intense, ce qui aura des rpercussions sur les indices acoustiques. 14 Dans les expriences de [Schachter et Singer 1962], des tudiants taient mis dans des conditions supposes induire de lexaltation (elation) et de la colre et devaient valuer leurs sentiments de "joie" et "colre" sur des chelles. Dans la condition "colre", les sujets se sont plus nots comme content que comme en colre . A la fin de l'exprience, il s'est avr que les sujets prouvaient plus de colre que de joie, mais avaient peur de le dire car on leur avait promis 2 points de plus leur examen final sils faisaient lexprience.
- 11 -
Un observateur peut assumer de manire errone qu'aucune motion nexiste car aucune n'a t reporte. La demande de rapport de l'motion immdiate de quelqu'un pose le problme que le processus d'observation peut modifier l'objet tudi 15. Les rapports verbaux peuvent tre des distorsions ou des vrits partielles pour des raisons conscientes ou inconscientes. 16 En gnral ils sont rtrospectifs et dpendent donc de la mmoire. Les souvenirs peuvent tre attnus, dforms ou rprims par exemple. On peut dlibrment tromper une autre personne. Les motions pures sont rarement exprimentes. Typiquement une situation va gnrer des motions complexes plus difficiles dcrire. Les rapports verbaux dpendent de l'histoire d'un individu et de sa facilit avec les mots. Lambigut inhrente du langage pose galement le problme du vritable sens du terme motionnel
Tableau 1-2. Des arguments contre le self report des motions (adapt de [Plutchik et Kellerman p4]). Mme en considrant le self-report comme valide, il n'est pas toujours possible de demander tel-00624085, version 1 - 15 Sep 2011 aux locuteurs de verbaliser leurs motions, surtout pour des donnes relles du type enregistrements de conversations tlphoniques. Des juges humains peuvent-ils reconnatre les motions, et en particulier partir du seul canal audio ? De nombreuses tudes ont tent de donner une preuve affirmative empirique travers des tches types o des acteurs ou professionnels expriment diffrentes motions que des juges/annotateurs essaient de reconnatre. Scherer [Scherer 1989] a pass en revue une trentaine de ces tudes qui s'accordaient sur des taux de discrimination plus de cinq fois suprieures aux taux du hasard. Mais ces tudes comprenaient de nombreux biais parmi lesquels le nombre restreint d'motions prises en compte, avec souvent peu d'motions positives et un manque de variabilit dans l'expression de ces motions. Banse et Scherer ont essay de traiter ce problme [Banse et Scherer 1996] en utilisant un large ensemble de stimuli avec 14 motions, parfois de mme classe du type colre chaude, colre froide, honte, exprimes par 12 professionnels et ont obtenu un taux de reconnaissance de 48%. Le taux variait selon l'motion reconnatre avec certaines expressions comme la colre chaude et l'ennui trs bien reconnus alors que d'autres comme la honte taient trs mal reconnues malgr un profil acoustique distinct. Il est galement important de diffrencier des catgories de juges ou annotateurs, ce qui est rarement fait de faon claire dans la majorit des tudes en dtection des motions. Nous nous
Lorsquon dit par exemple Je ne suis pas en colre Dans une tude sur des passagers ariens reportant des bagages perdus, [Scherer et Ceschi] dcrivent comment certains passagers vont consciemment ou non dcrire leurs sentiments diffremment de leur vritable exprience, soit pour projeter une image stoque en essayant dapparatre impavide aprs la perte de leur bagage, soit au contraire en exagrant leur irritation afin de produire le comportement strotyp normalement attendu.
15 16
- 12 -
Chapitre 1 1BEtat de l'art rfrons aux catgories dfinies en ISO standard 8566-2 pour dfinir les juges nafs et experts [Soren et Zacharov 2006]. Un juge naf est instruit de la procdure suivre mais nest pas entran pour la faire. La dnomination dexpert selon cette norme ncessite un apprentissage des juges, une valuation de leur potentiel et une slection des juges. Kappas et al. [Kappas et al. 1991] soulignent galement les diffrences de perception suivant que l'annotateur connat ou non le locuteur. Une personne peut avoir naturellement une voix trs tendue ou aigue qui entranerait une mauvaise perception de son tat motionnel. Dans une tude sur des donnes naturelles dinteractions dans un aroport international entre des passagers dont les valises ont t perdues et les agents dun aroport, [Scherer et Ceschi 2000] ont compar lauto-annotation des tats motionnels des passagers (5 classes : Colre/Irritation, Inquitude/Stress, Bonne humeur , Rsignation/Tristesse, Indiffrence), leur annotation par les agents avec qui ils ont interagi et celle par des juges (tudiants en psychologie) disposant de la tel-00624085, version 1 - 15 Sep 2011 vido et de laudio. Ils ont trouv peu de corrlations entre le self report et lannotation par les agents et juges. Les classes Bonne humeur et Inquitude/Stress taient bien corrles, Rsignation/Tristesse et Indiffrence taient corrles au niveau du hasard. Mme en admettant que les passagers aient t honntes dans le rapport de leur tat interne, ils ont pu contrler leur comportement et paroles lors de linteraction avec lagent pour masquer leur colre et au contraire dlibrment non contrler leur stress afin de susciter de lempathie. Leur conclusion finale est que malgr la difficult de la tche, il est possible dtudier des phnomnes motionnels dans des conditions ralistes sur le terrain . Hess sest intress leffet auditoire et avance que les expressions motionnelles pouvait tre comprises comme des communications dintentions, modules par la prsence des autres et indpendantes de ltat motionnel concomitant [Hess 2006]. Elle cite les travaux de Fridlund [Fridlund 1991] qui a montr que laffichage des expressions faciales ngatives et positives subit une augmentation en prsence dun public rel ou imagin.
- 13 -
Constructivisme social
Tableau 1-3. Quatre thories des motions en psychologie (d'aprs [Cornelius 1996] p12).
Dimensions abstraites
En 1957, le psychologue amricain Osgood [Osgood et al. 1957], dans le but de dcrire l'espace smantique, a utilis le Roget's International Thesaurus pour aider la construction dune cinquantaine dchelles bi-polaires fondes sur des opposs smantiques tels que "good-bad", "large-small", "beautiful-ugly", "hard-soft", "sweet-sour", "strong-weak" etc. Le rsultat des recherches dOsgood sur lespace smantique est lexistence de 3 dimensions universelles mesurables sous-jacentes aux dimensions motionnelles : Evaluation (pleasant to unpleasant), Potency (in control to out of control) et Activity (calm to excited) aussi appeles EPA. Depuis lors, de nombreuses tudes internationales ont valid la ralit de cet espace smantique et sa validit inter culturelle. Selon Osgood, les dimensions sont adaptes aux tudes inter cultures parce qu'il est difficile de traduire les tiquettes motions quand on passe d'un langage un autre (certaines motions existent d'ailleurs dans certains langages et pas dans d'autres 17).
Wierzbiecka cite par exemple le mot russe toska (mlancolie tourment, angoisse), zalet ( to lovingly pity someone ) ou le concept Ifaluk fago (qui peut signifier simultanment tristesse/compassion/amour) [Wierzbicka 1999 p8] ou le mot allemand Schadenfreude (joie provoque par le malheur dautrui).
17
- 14 -
Chapitre 1 1BEtat de l'art Le philosophe Spinoza a t probablement le premier dcrire les motions partir de 3 dimensions au dix-huitime sicle. Les motions peuvent tre plaisantes ou non plaisantes, fortes ou faibles et plus ou moins persistantes. Pour Wundt, les 3 axes plaisir/non plaisir, stress/relaxation, excitation/calme suffisent placer de manire distincte tous les tats motionnels [Wundt 1896]. Schlosberg a propos le modle "circumplex" avec toutes les motions places sur la circonfrence d'un cercle [Schlosberg 1941]. L'activation juge l'nergie avec une gradation allant de passif actif. La valence va du dplaisir au plaisir. Ce modle a eu une grande influence, bien qu'il ait t critiqu ([Lazarus 1991], [Larsen et al. 1992]) parce qu'il ne permettait pas de faire la diffrence entre certaines motions : par exemple, la peur et la colre sont toutes les deux dplaisantes et trs actives. De nombreuses tudes ont t ralises depuis, le plus souvent avec deux axes ([Cowie et al. 2000], [Cacioppo et al. 2000], [Lang et al. 1997], [Carver 2001]) ou trois axes ([Russell et Mehrabian 1977], [Osgood et al. 1957], [Smith et tel-00624085, version 1 - 15 Sep 2011 Ellsworth 1985]). Les dimensions les plus frquemment introduites [Ortony et al. 1988 p6] sont l'arousal et la valence (l'arousal pouvant tre vue comme l'Activation d'Osgood, et la valence, comme un mlange de Potency et Activity). Une troisime dimension est le contrle qui value l'aptitude d'un individu grer une situation. Une autre dimension est l'intensit de l'motion. La consistance des quatre dimensions valence , potency , activation et unpredictability a t prouve pour le hollandais, le franais, langlais et le chinois[Roesch et al. 2006]. Bernston a indiqu, lors de lcole dt de HUMAINE en 2006, que pour le moment, les dimensions ntaient pas suffisantes lorsquon cherche reprsenter les motions pour des situations du type Je viens de gagner 2 dollars, mais jaurai pu en gagner 10 o la personne ressent la fois de la joie et de la dception. Il n'y a pas de contradictions entre les dimensions et des tiquettes discrtes [Ekman et Davidson 1994]. Ces deux reprsentations s'emploient dans des buts diffrents. Albrecht et al. remarquent d'ailleurs qu'il est possible de faire un mapping entre une catgorie d'motion et l'espace dimensionnel[Albrecht et al. 2005]. Le contraire n'est pas possible. Aucun ensemble de dimensions ne permet cependant de capturer de manire adquate les diffrences entre les motions discrtes.
- 15 -
Tableau 1-4. Les neuf caractristiques des motions de base selon [Ekman 1992]. Ces motions de base caractrisent des familles dmotions [Ortony et al. 1988] avec des variations d'intensit l'intrieur d'une mme famille. Brenner [Brenner 1980] en donne un exemple pour la peur:
Plusieurs tudes ont prouv des "patterns" (patrons) distinctifs dans l'activit systme nerveux autonome (ANS) pour la colre, la peur et le dgot [Levenson et al. 1991] 19 Pour Averill [Averill 1994] une motion sera vitale pour la survie d'une espce (point de vue biologique), d'une socit (critre social) ou de soi-mme (critre psychologique). Par consquent, elles sont universelles, observables chez certains primates et hrditaires. 20 La majorit des travaux de modlisation des motions du visage sont bass sur les motions de base dfinies par Ekman. 21[Hebb 1972] cit par [Plutchik 1984 p6] : "The dog is definitely capable of jealousy and occasionally, in some dogs, there are signs of sulking. In the chimpanzee, however, we have the full picture of human anger in its three main forms : anger, sulking, and the temper tantrum"
18
- 16 -
"[A]nxiety is unpleasure accompanied by an expectation that something bad is going to happen [] Under the broad heading of anxiety, however, different terms are often used to indicate variations both in the intensity of the unpleasure that an anxious person experiences and in the nature of the conscious and unconscious ideas associated with it. If the danger is perceived to be acute or imminent, we are likely to label the affect "fear". If the unpleasure is intense we use the word "panic". If the unpleasure is mild and the danger is slight, uncertain, or distant, we may well speak of worry or uneasiness."
Pour Brenner, pour dfinir les affects et les diffrencier, il suffit souvent de (a) spcifier si laffect correspond une exprience de plaisir ou de dplaisir et donner son intensit et (b) faire un lien avec lide qui lui est associe.
Anger L: a demeaning offence against me and mine S: something interferes with the persons attainment of certain goals; a person perceives something as harming him in some way; the angry person makes the perception that the harm is illegitimate, situation is contrary to what ought to be L: facing uncertain, existential threat B: unpleasure accompanied by an expectation that something unpleasurable is going to happen L: an immediate, concrete and overwhelming physical danger S: interpretation of events as potentially dangerous or threatening to self L: having transgressed a moral imperative L: failing to live up to an ego ideal L: having experienced an irrevocable loss B: unpleasure connected with ideas that something bad already happened. [Parrott et Harr 1996]: Expression of the judgement that other people will think that something about us or something we have done is improper in the context. In displaying embarrassment we express a kind of apology for the real or imagined fault L: wanting what someone else has L: resenting a third party for the loss of, or a threat to, anothers affection or favour L: taking in or being too close to an indigestible object or (metaphorically speaking) idea L: making reasonable progress toward the realisation of a goal B: feeling of pleasure in connection with an experience or fantasy of instinctual gratification L: enhancement of one's ego-identity by taking credit for a valued object or achievement, either one's own or that of someone or group with whom one identifies L: a distressing goal-incongruent condition that has changed for the better or gone away L: fearing the worst but wanting better L: desiring or participating in affection, usually but not necessarily reciprocated L: being moved by another's suffering and wanting to help
Anxiety Fright Fear Guilt Shame Sadness Embarrassment Envy Jealousy Disgust Happiness Pride Relief Hope Love Compassion
Tableau 1-5. Emotions & their core relational theme (d'aprs L : [Lazarus 1998] ,B : [Brenner p345] S :Shaver et al).
- 17 -
Chapitre 1 1BEtat de l'art Lensemble minimal dmotions primaires varie suivant les chercheurs (voir Tableau 1-6 inspir de Ortony). Cependant, les motions joie, peur, colre, tristesse, dgot et surprise se retrouvent dans une majorit des tudes 22. Dsir Dsespoir Haine Amour Espoir Intrt Mpris Culpabilit Honte Rage Terreur Anxit Chagrin (grief) Emerveillement Bonheur Confiance Apathie Peine (sorrow) Dtresse
+ + + + + + + + + + + + + + + + + + + + + + + + + + + +
Darwin Arnold (1960) Izard (1971) Plutchik (1980) Tomkins (1980) Ekman, Friesen & Ellsworth (1982) Gray (1982) James (1884) Oatley & Johnson Laird (1984) Frijda (1986)
+ + + + + + + + + + + + + + + +
+ + + + + + + + + + + + + + + + +
+ + + + + + +
Dans une tude [Fehr et Russell 1984], ralise auprs de 200 personne qui il tait demand de lister en une minute un maximum ditems de la catgorie EMOTION, les motions cites par plus de 40% des sujets taient Bonheur , Colre , Tristesse , Amour , Peur , Haine et Joie
22
Dcouragement
- 18 -
[Izard
1972 p24] Pour lui par exemple l'anxit est un mlange de Peur avec une autre motion discrte. Averill [Averill] dcrit les motions conflictuelles ("conflictive motions") :
"Conflictive emotions are [] like conversion reactions in the Freudian sense []. In the case of a conversion reaction, the individual wishes to engage in some behavior that conflicts with personal norms or standards [] [S]tandard conflictive emotions can be viewed as conversion-like phenomena on a socialcultural as opposed to an individual level of analysis"
23 24
Ortony dans [Ortony et al. 1988] donne l'image d'un mlange de sucre et de sel, les 2 gots tant alors perceptibles. De mme que ni l'oxygne, ni l'hydrogne ne sont observables dans l'eau [Ortony et al. 1988].
- 19 -
Reprsentation des motions de base et des motions complexes avec le modle de Plutchik
Plutchik a cherch comment reprsenter lensemble des motions. Pour lui [Plutchik 1984], il existe un ensemble d'motions de base. Il en identifie huit prototypiques : peur/terreur, colre/rage, tristesse/chagrin (grief), acceptation/confiance, dgout/rpugnance (loathing), espoir/anticipation et surprise/tonnement (astonishment). Afin de tenir compte de toutes les tiquettes motionnelles, il lui a fallu trouver un moyen d'organiser les motions les unes par rapport aux autres. Tout d'abord, les motions varient en intensit, ensuite certaines motions sont plus proches que d'autres. Par exemple, la honte et la culpabilit sont plus proches l'une de l'autre que le dgot et la joie. Enfin, il voit galement des polarits dans les motions avec des motions opposes comme joie/tristesse. Plutchik [Plutchik 1984 p200] utilise la mtaphore tel-00624085, version 1 - 15 Sep 2011 d'une palette de couleurs pour faire une distinction entre des motions fondamentales ou primaires et d'autres drives ou secondaires : partir dune base de trois couleurs primaires et des variations dintensit, toutes les couleurs observables dans la nature peuvent tre reprsentes ; le mme principe peut sappliquer aux motions. Il modlise les relations entre les huit motions de base par un "solide motion" reprsent Figure 1-2.
Chapitre 1 1BEtat de l'art Les motions les moins intenses sont en bas du solide. Elles deviennent de plus en plus intenses et de plus en plus diffrencies quand on va vers le haut. Chaque "tranche" reprsente une motion de base. Les motions complexes se situent au niveau des frontires entre deux tranches. Par exemple, lamour est un mlange dacceptation et de srnit.
Une tude sur les mlanges dmotions dans des donnes relles : Lost luggage
Malgr les nombreuses thories sur les mlanges dmotions, peu dtudes ont t ralises sur le sujet. Scherer a cherch des mthodes pour les tudier travers 3 tches [Scherer 1998]. En particulier, il a film et enregistr 112 passagers rapportant la perte de leurs bagages dans un aroport international, puis les a interviews en leur demandant dvaluer leur tat affectif, avant tel-00624085, version 1 - 15 Sep 2011 et aprs lentretien avec lagent de laroport, sur une chelle de 1 5 pour les catgories dmotion Colre/Irrit=Colre, Rsign/Triste=Rsignation, Indiffrent, Worry/Stress=Worry et de bonne humeur. Il a dabord essay de regrouper les diffrents mlanges en cluster, mais le nombre de classes obtenues tait trop important pour pouvoir tre analys. Il a alors regroup les classes indiffrent et de bonne humeur en une classe good spirit et a ensuite divis les rsultats en tat motionnel dominant lorsquune motion tait ressentie avec plus dintensit que les autres et blend Colre/Worry, Rsignation/Worry, Colre/Rsignation sinon. Il a analys lvolution des blends au cours de linteraction, mais sa conclusion gnrale tait que les rponses motionnelles indiques par les passagers taient trop riches et complexes pour pouvoir tre tudies.
- 21 -
Le premier thoricien cognitiviste des motions est en fait Aristote qui, de manire tonnement moderne, dfinit entre autres la colre dans Rhtorique (Rethorique II 1378a), comme "un dsir de vengeance accompagn dune peine provoque par ce qui semble un ddain injuste [] Pour la colre par exemple, en quel habitus y est-on port ; contre quelles personnes se met on habituellement en colre et quels sujets" 26 Thories de Frijda, Lazarus, Reisenzein, Roseman, Scherer, Smith & Ellsworth
25
- 22 -
Chapitre 1 1BEtat de l'art Le modle des processus-composantes de Scherer pour les motions vocales Dans le cas des motions vocales, le modle de rfrence est celui de Scherer [Scherer et al. 2003]. Selon Scherer, les motions vocales, de par leur aspect dynamique et changeant imposent de s'loigner de la conception statique et fige des motions (motions de base), en prenant en compte le contexte. Son modle stipule que la raction motionnelle est le rsultat d'une squence de processus d'valuations de l'vnement inducteur de l'motion (voir Tableau 1-7). Cette squence dvaluations, dnomme squence de traitement de la stimulation (stimulus evaluation checks ou SEC) dans le modle de Scherer est rcursive et se fait en boucle. Squence de traitement de la stimulation
Nouveaut Soudainet Familiarit Prvisibilit Quelle lest importance de lvnement ? Est il connu ou au contraire nouveau ? Agrment intrinsque Rapports aux buts Pertinence Degr de certitude de la prdiction des consquences Attente Opportunit Urgence Causalit : interne Causalit : externe Contrle Puissance Ajustement Standards externes Standards internes
Potentiel de maitrise
Accord avec les standards La raction sera diffrente suivant que l'vnement sera jug comme moral ou non.
Tableau 1-7. Critres dvaluation des squences de traitement dans le modle de Scherer (extrait de [Scherer et Sangsue 2006 p20]) .
Les "tiquettes de bases" peuvent tre dtailles/explicites par ce processus d'valuation. Par exemple une situation peu contrlable va entraner une raction motionnelle du type peur. Scherer [Scherer 1986] a tudi des rpercussions physiologiques, de qualit vocale et sur certains paramtres acoustiques (F0, formants) de la voix des rsultats de ces valuations qui sont - 23 -
Chapitre 1 1BEtat de l'art dtailles dans le Tableau 1-8. Il diffrencie notamment la colre froide de la colre chaude. En outre, il observe que plusieurs manifestations de la mme "motion de base" rsultent en fait d'valuations trs diffrentes ce qui conduit des manifestations trs varies, et s'oppose l'ide que chaque motion fondamentale correspondrait un pattern bien dfini. Il donne en exemple une tude de Frick [Frick 1986] sur deux types de colre, une lie la frustration et l'autre l'agression qui se manifestent diffremment sur le plan acoustique et sont diffrentiables perceptivement.
Criterion Relevance Novelty Suddenness Familiarity Predictability Intrinsic pleasantness Goal/need relevance Implication Cause : agent Cause : motive Outcome probability Discrepancy from expectation Conclusivenes Urgency Coping potential Control Power Adjustment Normative significance Internal Standards External Standards Criterion Relevance Novelty Suddenness Familiarity Predictability Intrinsic pleasantness Implication Cause : agent Cause : motive Outcome probability Discrepancy from expectation Conclusivenes Urgency Coping potential Control Power Adjustment Normative significance Internal Standards External Standards
ENJ/HAP Low Open Medium High Medium Open Intent Very high Consonant Conducive Very low Open Open High open Open FEAR ELA/JOY High/med Open Low Open High Open Cha/int Very high Open Vcon Low Open Open Medium Open Open IRR/COA DISP/DISG Open Low Low Very low Low Open Open Very high Open Open Medium Open Open Open Open Open RAG/HOA CON/SCO Open Open Open Open Low Other Intent High Open Open Low High Low High Very low Very low BOR/IND SAD/DEJ Low Low Open Open High Open Cha/neg Very high Open Obstruct Low Very low Very low Medium Open Open SHAME DESPAIR High Very low Low Open High Oth/nat Cha/neg Very high Dissonant Obstruct High Very low Very low Very low Open Open GUILT ANX/WOR Low Open Open Open Medium Oth/nat Open Medium Open Obstruct Medium Open Low Medium Open Open PRIDE
High Low Low Low Oth/nat Open High Dissonant Obstruct Very high Open Very low Low Open Open
Low Open Medium Open Open Int/neg Very high Open Obstruct Medium High Medium High Open Low
High Low Low Open Other Intent Very high Dissonant Obstruct High High High High Open Low
Very low High Very high Open Open Open Very high Consonant Open Low Medium Medium High Open Open
Low Open Open Open Self Int/neg Very high Open Open High Open Open Medium Very low Open
Open Open Open Open Self Intent Very high Open High Medium Open Open Medium Very low Very low
Open Open Open Open Self Intent Very high Open High Low Open Open High Very high High
Tableau 1-8. Les valuations prdites pour les motions les plus tudies. ENJ/HAP, contentement/bonheur; ELA/JOY, joie; DISP/DISG, dplaisir/dgout ;CON/SCO, mpris; SAD/DEJ, tristesse/abattement; IRR/COA, irritation/colre froide; RAG/HOA, rage/colre chaude; BOR/IND, ennui/indiffrence; de[Sander et al. 2005 p. 326].
- 24 -
1.2.3. Etat de lart des systmes de dtection sur les motions dans la voix
Quel est ltat de lart actuel des systmes de dtections des motions ? A cause de la difficult de la tche de catgorisation et dannotation et souvent le manque de donnes, la plupart des tudes se sont focalises sur un ensemble minimal dmotions comprenant des motions : positives et ngatives [Lee et al. 2001] ou motion vs. tat neutre [Batliner et al. 2003]. Certains autres chercheurs considrent des comportements ou attitudes dpendantes de la tche ; stress vs. non stress [Petrushin 1999], [Narayanan 2002], [Fernandez et Picard 2003]; frustration/colre vs. neutre/amus [Ang et al. 2002], ou colrique, maternel, emphatique et un tat neutre [Steidl et al. 2005]. - 26 -
Chapitre 1 1BEtat de l'art Dans la communaut scientifique, les modles les plus souvent utiliss pour la dtection des motions sont les SVM (Support Vector Machine dtaills p.127), les GMMs (Mlange de Gaussiennes), les kNN (K plus proches voisins), les arbres de dcision. Les rsultats obtenus entre ces diffrents classificateurs sont souvent comparables [Batliner et al. 2006] et il ny a pas de consensus sur le choix dun algorithme prcis ou sur les meilleurs paramtres. Ceux ci semblent en effet tre dpendants des donnes. Plusieurs tudes rapportant les expriences de dtection automatique sont listes dans le Tableau 1-9. Elles donnent une ide (non exhaustive) des tendances actuelles. Extrmement peu dtudes sont menes avec des donnes issues de corpus enregistrs dans des contextes rels. La majorit des travaux sur la dtection dmotion de base porte sur des donnes joues par des acteurs (peu de locuteurs, nombre dchantillons restreint, peu de variabilit, donnes prototypiques). Sur un ensemble de plus 100 tudes, Juslin et al. en rpertorient 87% sur des tel-00624085, version 1 - 15 Sep 2011 donnes actes[Juslin et Laukka 2003]. Pour faire des systmes utilisables il faut pourtant travailler sur des donnes naturelles en situation (contexte). Il est important de noter que les performances sont difficilement comparables car elles varient par exemple en fonction : Du type de donnes (motions en gnral plus prototypiques pour les donnes actes do de meilleures performances. Cf. p33) De lunit utilise pour les annotations [Batliner et al. 2007]. Du choix des tours slectionns pour entraner et tester les modles. Batliner donne lexemple dun vote majoritaire avec 5 annotateurs. On peut choisir de garder les segments/mots/tours pour lesquelles 3 annotateurs sur 5 sont daccord, ou ceux pour lesquels 4 sur 5 sont daccords et les performances seront suprieures dans le deuxime cas de figure. De la manire dont les paramtres sont obtenus. Corriger manuellement la F0 par exemple donne de meilleurs rsultats. Nous dcrirons dailleurs dans le chapitre 6 p151 un protocole pour nommer et dcrire les paramtres qui permet de mieux les comparer et den avoir une description plus transparente. Juslin et Laukka [Juslin et Laukka 2003] proposent dutiliser un score prenant en compte le nombre de classes et les biais lis au jugement du dcodeur.
- 27 -
Style de corpus Acteurs Acteurs Acteurs (non professionnels) Acteurs Parole lue WOZ Vermobil DHM Communicator DHM Callcenters (real-life) Speech-Works DHM AT&T How May I Help You DHH Machine-Mediated DHM AIBO
Taille du Corpus 1000 Tours (5 acteurs) 700 Tours 56 appels (15 - 90s) 96 Tours (E) 50 Tours(E), 50 (NE). 2395 Tours (20 dial.) 21kTours (~3500 Tours Emotion) 1187 appels 7200 Tours
Etiquettes Emotions Joie, Peur, Colre, Neutre Colre, Tristesse, Peur, joie, neutre Calme, Agitation Emotion (E), Non motion (NE) Frustration, Agacement, Autre Ngatif, Non Ngatif
Type de paramtres Prosodiques (Pitch contour) Prosodiques Spectraux (F1, F2, F3) Prosodiques Spectraux Part-of-speech Dialogiques Prosodiques Langage Prosodiques Lexicaux Pros + Lex Spectral (MFCC) F0 Lexical Prosodiques Lexicaux Dialogiques Prosodiques Part-of-speech
Taux de Dtection 60-65% (act, 4 classes) 70% (act, 5 classes) 77% (act, 2 classes) 95% (act, 2 classes)
NNs CART (Arbre de dcision) 3-gram LDC HMM SVM AdaBoost NNs
79% (lu, 2 classes) 73% (Woz, 2 classes) 75% (DHM, 2 classes) 60-65% (DHM, 2 classes) 80% . 88% (DHM, 2 classes) 93,5% . 76 % (DHM, 2 classes) 81 % (DHM, 2 classes) 84% (DHH-M, 3 classes) 60% (DHM,4 Classes)
[Ang et al. 2002] [Lee et Narayanan 2004] [Shafran et al. 2003] [Forbes-Riley et Litman 2004] [Steidl et al. 2005]
5147 Tours 385 Tours (90 Neg, 15 Pos, 280 Neu) ~6000 mots (51 enfants)
Ngatif, Non Ngatif Positif, Ngatif, Neutre Colre, Maternel, Emphatique, Neutre
Tableau 1-9. Tableau rcapitulatif dtudes sur la dtection des motions : rfrence de lauteur, style de corpus de travail (act, Woz, DHH : dialogue Homme-Homme, DHM : dialogue Homme-Machine), size (Tours de parole) et nombre de locuteurs, Les reprsentations des motions. Corpora Emotion labels, Type dindices (Spectraux, Prosodique (Frquence Fondamentale, Energie, Dbit), Disfluences, Lexiques, Langage (n-gram), Syntax/semantic (Etiquettes : Part-of-Speechs) et enfin Dialogique), modle dapprentissage (MLB: Maximum Likelihood Bayes Classifier, KR: Kernel Regression , LDC: Linear discriminant classifier, kNN: k Nearest-Neighbors, SVM: Support Vector Machine, HMM: Hidden Markov Model, NNs: Neural Networks, decision trees, Adaboost, etc), et finalement le taux de dtection. - 28 -
Pour illustrer ce point Rosalind Picard cite McCarthy [Picard 1997 p21]: we cant define Mt Everest precisely _whether or not a particular rock or piece of ice is or isnt part of it ; but it is true, without qualification, that Edmund Hillaryand Tenzing Normay climbed it in 1953. In other words, we can base solid facts on structures that are themselves imprecisely defined
27
- 29 -
- 30 -
- 31 -
2.1.
DONNEES LIMSI : DES CENTRES DAPPELS ............................................................................................ 38 Corpus de transactions boursires................................................................................................... 39 CEMO .............................................................................................................................................. 39 TRANSCRIPTION DU CORPUS CEMO ...................................................................................................... 41 Protocoles ........................................................................................................................................ 41 Outils et vitesse de transcription ...................................................................................................... 41 Caractristiques du Corpus ............................................................................................................. 41 METADONNEES ...................................................................................................................................... 42 CONCLUSION ......................................................................................................................................... 43
- 32 -
2. LES CORPUS EMOTIONNELS 2.1. Quel matriel ? Les diffrents types de corpus28 : avantages et inconvnients
La premire problmatique lorsquon tudie les motions est de se procurer ou de crer un corpus de donnes. Plusieurs types de donnes peuvent tre utilises et leurs avantages et inconvnients seront discuts dans ce chapitre. La plupart des expriences sur les motions ont t effectues sur des donnes actes enregistres par des acteurs avec souvent peu de classes motionnelles (Neutre, Ngatif, Positif ou les motions de base de Ekman (cf. Chapitre 1).
Donnes actes
tel-00624085, version 1 - 15 Sep 2011 Les premires tudes et la plupart des tudes actuelles ont t ralises sur des donnes actes [Dellaert et al. 1996]. Ces donnes prsentent plusieurs avantages. Elles ne soulvent pas de problmes thiques, elles sont faciles collecter et elles permettent de sappuyer sur une grande quantit de donnes tiquetes pour chaque classe dmotions (en pratique ce nest cependant pas souvent le cas). De plus, elles rendent possible la comparaison de segments avec un contenu linguistique identique, ce qui permet d'attribuer les diffrences de perception aux seuls indices acoustiques. Cependant, elles savrent insuffisantes pour reprsenter la ralit et le manque de contexte et le nombre rduit dacteurs (souvent moins de 10) font que ces corpus de donnes contiennent moins de variabilit que les corpus de donnes spontanes. En effet, les acteurs utilisent souvent des strotypes caractristiques de lmotion et qui sont trs diffrents de la vritable expression de celle-ci. Ils auront tendance accentuer les codes sociaux de communication (effet pull ) 29, mais l'effet "push", normalement associ la relation physiologique motionnelle, sera absent. Notons cependant que dans le cas des donnes GEMEP par exemple, diffrents scnarios permettant dliciter des motions ont t donns aux acteurs afin quils jouent des motions moins prototypiques.
28 Nous entendons par corpus est un ensemble de donnes recueillies pour un sujet dtude. Un corpus est souvent un recueil de donnes annotes. 29 Par exemple [Williams et Stevens 1972] ont compar le commentaire radio de la catastrophe aronautique de Hindenburg et un acteur le simulant et ont trouv une augmentation de la plage et du mdian de la F0 mais beaucoup plus prononc chez lacteur.
- 33 -
Chapitre 2 3BLes corpus motionnels De plus, il ny a pas toujours dvaluation de la qualit des motions exprimes par des acteurs. Si lorsquon demande un acteur dexprimer de la colre, la phrase est tiquete automatiquement Colre sans aucune validation, alors on ne pourra pas obtenir de conclusions valides. Cependant, des tests perceptifs sont raliss dans beaucoup dtudes, la suite desquels on ne garde que les donnes valides. Pour ce faire, des techniques statistiques sont prsentes dans [Banse et Scherer 1996] par exemple. Dans un livre rcapitulant diffrentes problmatiques rencontres au cours de ses recherches depuis les annes 1940, Lazarus [Lazarus 1998 p161], aprs avoir tudi diffrents types de donnes actes ou induites a choisi de s'appuyer sur des donnes naturelles :
"I was now convinced I needed to find another way of studying stress, emotion, and coping in daily life, and it should be in the field rather than in the laboratory".
De mme, Scherer et al. arrivent la conclusion quon ne peut pas gnraliser les rsultats obtenus tel-00624085, version 1 - 15 Sep 2011 sur des donnes actes des donnes naturelles [Scherer et al. 1991]. Batliner et al. ont compar des expriences effectues sur des donnes actes, induites (magicien dOz 30) et relles (en interaction homme_machine) et ont montr que des modles performants pour des donnes actes ne ltaient pas pour les donnes relles : les scores de bonne dtection taient inversement proportionnels au naturel des donnes [Batliner et al. 2003]. Des rsultats similaires ont t prsents [Vogt et Andre 2005] avec l encore des performances bien plus leves sur des donnes actes que sur des donnes naturelles. Par ailleurs, ils ont montr que ce ne sont pas les mmes indices qui sont les plus pertinents pour les diffrents types de donnes. De plus, les performances obtenues avec des donnes actes sont largement suprieures celles obtenues avec des donnes naturelles [Vogt et Andre 2005] et les modles entrans sur des donnes actes ont de trs mauvaises performances sur les donnes relles [Batliner et al. 2003].
30
L'exprience de magicien dOz est une exprience dans laquelle les sujets interagissent avec un systme informatique qu'ils croient autonome, mais qui est en fait totalement ou partiellement contrl par un humain (http://fr.wikipedia.org/wiki/Magicien_d'Oz_(exp%C3%A9rience))
- 34 -
Chapitre 2 3BLes corpus motionnels reflter des comportements rels. Clavel, dans ses travaux sur les manifestations de type peur [Clavel 2007], a slectionn des squences de films en anglais en appliquant un critre de crdibilit pour construire son corpus. Elle a dcrit en dtails les avantages et inconvnients de ce type de corpus.
Donnes naturelles
Des donnes naturelles de toutes sortes ont t enregistres : pilotes d'avion, sances thrapeutiques 32, tl ralit. La qualit de l'enregistrement est souvent assez mauvaise, la quantit de donnes motionnelles assez faible et il y a en gnral peu de parole par locuteur. En plus, il n'est pas toujours vident de connatre l'motion exprime par le locuteur. Le matriel denregistrement peut aussi devenir un obstacle laspect naturel des donnes. Par exemple, les personnes enregistres la tlvision peuvent tre en display (affichage de certaines motions lies aux interactions sociales [Hess 2006]), ce qui peut remettre en cause la validit des donnes 33. Lutilisation des centres dappels est une alternative intressante, en particulier lorsquon sintresse uniquement aux motions dans la voix. Lenregistrement imperceptible permet dobtenir des donnes spontanes. De plus, avec les donnes tlphoniques, lmotion doit sexprimer par la voix sans possibilit de conflits avec dautres modalits comme les actions, gestes ou expressions du visage. Cependant, le contenu est majoritairement assez faible motionnellement, souvent de lordre de 10%.
31 Pierre Philippot dans ses expriences a choisi des squences de film visant liciter des motions spcifiques et montre que les films sont des bons moyens pour liciter les motions voulues. 32 Lazarus [Lazarus 1991] a enregistr des entretiens de 10-15 minutes auprs de 61 patients d'un hpital la veille d'une opration (hernie, vessie, thyrode) et a tabli des liens entre leur degr de stress et leur dure de rtablissement (pas d'analyse acoustique). 33 Dans les cas dmotion intense ou lorsque film longtemps, ces effets peuvent disparatre.
- 35 -
Chapitre 2 3BLes corpus motionnels Le rseau dexcellence HUMAINE recense les principales bases de donnes plus ou moins naturelles utilises par les diffrents collaborateurs. (http://emotion-research.net/wiki/Databases). Les donnes naturelles sont donnes dans le Tableau 2-1 ci-dessous. Afin de pouvoir comparer les rsultats des tudes et prendre en compte les diffrences entre individus, il est encourag dutiliser des corpus contenant des personnalits et des manifestations d'une mme motion varis ou au moins contrls [Kappas et al. 1991].
Identifier Reading-Leeds database France et al. Emotional content Range of full blown emotions Depression, suicidal state, neutrality Wide range of emotional states and emotionrelated attitudes Mainly negative - fear, anger, stress Joyful, surprised, emphatic, helpless, touchy (irritated), angry, motherese, bored, reprimanding, neutral Emotion elicitation methods Natural: Unscripted interviews on radio/television Natural: therapy sessions & phone conversations. Natural: volunteers record their domestic and social spoken interactions for extended periods throughout the day Natural: call center human-human interactions Size Around 4 hours material 115 subjects: 48 females 67 males. Target - 1000 hrs over 5 years Language
CREST database
AIBO
German
- 36 -
De telles expriences dsagrables ou douloureuses pour le sujet ne seraient plus reproductibles aujourd'hui pour des raisons thiques 34. Le rseau dexcellence humaine est particulirement concern par tous les problmes lis lthique, la fois dans la manire de rcolter et de traiter les donnes, mais aussi dans lutilisation qui en sera faite, ce qui a donn lieu un rapport (deliverable tel-00624085, version 1 - 15 Sep 2011 ) Science and society : Ethics . De mme, la session plnire HUMAINE de 2007, la fondatrice du groupe affective computing du MIT Rosalind Picard qui prsentait un ordinateur capable de faire des signes de dsapprobation lorsque lutilisateur adopte une mauvaise posture se positionnait contre ce type dutilisation. Lors des lections aux conseils de quartier dIssy-les-Moulineaux en 2005, la mairie avait fait appel un avatar ralis par la Cantoche 35 pour inciter les gens aller voter, mais quels sont les dangers de ce type dapplications ? Le public tend avoir foi en la machine et oublier quelle fonctionne partir des dcisions parfois subjectives dun programmeur humain.
Ds 1975, la question a t souleve par Osgood dans [Osgood et al. 1975 p28]: "Collection of data relating to subjective culture always involve potential misuse as well as potential invasion of the privacy of the individual two salient issues: first, the degree of informed consent that the tested individual should exercise; second the degree of confidentiality that should be maintained in the use of the collected information". 35 http://cantoche.com/fr~Avatars.html
34
- 37 -
Chapitre 2 3BLes corpus motionnels Lutilisation des donnes sest faite dans le respect des conventions thiques assurant lanonymat des appelants, le caractre priv des informations personnelles et la non diffusion du corpus et des annotations.
2.2.2. CEMO
Le corpus CEMO contient des enregistrements de conversations relles entre des agents et des appelants obtenus la suite dune convention entre un centre mdical et le LIMSI-CNRS. Le service, dont le rle est de donner des conseils mdicaux, peut tre contact 24h sur 24 et 7 jours sur 7. Lors dune interaction, un agent va utiliser une stratgie prcise et prdfinie afin d'obtenir un certain nombre dinformations de la manire la plus efficace possible. Son rle est de dterminer le sujet de lappel et dobtenir assez de dtails sur les circonstances de lappel pour valuer son degr durgence et prendre une dcision. Les principaux motifs dappel sont les situations durgence, les demandes de conseil mdical et les demandes dinformations (numro dun docteur ). La dcision prise pourra tre denvoyer une ambulance, de rediriger lappelant vers les urgences sociales ou psychiatriques, ou de conseiller l'appelant, par exemple en lui enjoignant daller lhpital ou dappeler son mdecin. Lappelant peut tre le patient ou un tiers (famille, ami, collgue, voisin, etc.) Dans les cas dappels urgents, l'appelant va souvent exprimer du
- 39 -
Chapitre 2 3BLes corpus motionnels stress, de la douleur, de la peur, voire de la panique. Ltude a t faite sur un sous-ensemble de 20 heures, soit 688 dialogues (7 agents et 784 appelants distincts). Bien que le corpus CEMO ait t enregistr sur 2 canaux, seul le canal correspondant l'agent est propre. L'autre contient environ 10% de recouvrements qui n'ont pas t transcrits. Ces recouvrements ont t exclus de l'tude bien qu'ils puissent tre corrls la parole motionnelle : ils sont coteux transcrire et il est difficile d'en extraire des paramtres acoustiques sans erreurs. Le Tableau 2-2 rsume les principales caractristiques des 2 corpus.
Corpus transactions boursires #agents #clients #tours/dialogue #mots distincts #total de mots 4 (3H, 1F) 100 dialogues (91H, 9F) Moyenne : 50 3k 44k CEMO 7 (3H, 4F) 688 dialogues (271H, 513F) Moyenne : 48 9.2k 143k
Tableau 2-2. Caractristiques des deux corpus : Corpus 1: 100 dialogues agent-client d'environ 3 heures (H: homme, F: femme), Corpus 2: 688 dialogues agent-client denviron 20h (H : homme, F : femme) Dans 96 dialogues, des tiers interagissent.
- 40 -
Tableau 2-4. Marqueurs affectifs indiqus par la transcription sur les 20 heures.
36
http://trans.sourceforge.net/
- 41 -
2.4. Mtadonnes
Au niveau de chaque dialogue, des informations existent sur les appelants (ge, sexe, relation avec le patient, accent), le patient (ge, sexe), le motif de l'appel et son issu, ainsi que sur les conditions de l'appel (type de tlphone, lieu do l'appel est pass).
Type de tlphone
Lieu d'appel
portable 20%
travailcole 4%
Type de voix
fixe 80%
accent ue 18%
alt re 4%
domicile 84%
normale 78%
Figure 2-1. Mtadonnes lies lacoustique. (Gauche) Type de tlphone; (Droite) Lieu dappels (Bas) Type de voix normale, accentue (accents trangers et rgionaux) et altre. La majorit des appelants (59,5%) sont des femmes adultes (Figure 2-2). La majorit des patients sont galement des femmes (59 % des cas). Le patient appelle directement dans 30 % des cas. Sinon, l'appel est fait par un tiers, qui peut tre plus ou moins proche du patient. Ce corpus est extrmement intressant pour comprendre le rle du contexte dans la perception des motions. Nos modles de dtection (voir chapitre 5 p 137) ont pris en compte comme indices contextuels le rle dans le dialogue : agent vs. appelant, et le sexe, mais il faudrait tudier dautres indices contextuels comme lge par exemple.
- 42 -
450 400
300 > 70 ans 250 50 -70 ans 200 150 100 18-30 ans 50 0 3-18 ans < 3 ans > 70 ans 50 -70 ans 30-50 ans 18-30 ans 3-18 ans < 3 ans 30-50 ans
>70 ans
adulte
100 50 0 Hommes Femmes
Hommes
Femmes
1 tiers 57%
Figure 2-2. Mtadonnes. 1a Age et Sexe des locuteurs et appelants; 1b Rpartition des appelants, 1c Rpartition des appels avec seulement le patient ou 1 tiers, 15% des appels on plus de 2 interlocuteurs (11% patient+tiers, 3% 2 tiers).
2.5. Conclusion
Dans ce chapitre, nous avons justifi notre dcision de travailler sur des donnes relles et avons prsent en dtails les 2 corpus qui ont t principalement utiliss pour nos expriences, et en particulier le corpus CEMO trs riche et avec une grande variabilit tant dans les contextes que dans les locuteurs. La difficult est alors de trouver une palette dmotions et un protocole dannotations dcrivant au mieux ces donnes. - 43 -
3.1.
PROBLEMATIQUES LIEES A LANNOTATION ............................................................................ 46 3.1.1. 3.1.2. Choix d'une unit de dialogue .......................................................................................................... 46 Choix des axes/tiquettes ................................................................................................................. 47
3.1.3. 3.1.4.
3.2.
ANNOTATION DU CORPUS CEMO .................................................................................................. 52 3.2.1. Exprience tire des travaux sur le Corpus de transactions boursires .......................................... 52
Une premire annotation du Corpus financier antrieure au commencement du travail de thse................................ 52 Des confusions entre les classes Peur et Colre dans le Corpus 1 ............................................................................... 53 Exprience de r-annotation des segments ngatifs avec possibilit de choisir 2 tiquettes par segment.................... 53 Combinaison des nouvelles annotations en un vecteur par segment............................................................................ 54
3.2.2.
Le segment motion .................................................................................................................................................... 56 Quelles tiquettes ?...................................................................................................................................................... 56 Une hirarchie en mta-catgories............................................................................................................................... 57 Deux tiquettes possibles par segment ........................................................................................................................ 60 Autres annotations....................................................................................................................................................... 60 Phase de calibration pralable l'annotation des donnes ........................................................................................... 62 Outil d'annotation : le logiciel transcriber.................................................................................................................... 63
Validation......................................................................................................................................... 64 Cohrence inter-annotateur : le coefficient kappa........................................................................... 67 Cohrence intra-annotateur : r-annotation.................................................................................... 68 Test perceptif.................................................................................................................................... 68
COMBINER LES ANNOTATIONS : UN VECTEUR EMOTION.................................................... 69 CLUSTERING SUR LES ANNOTATIONS UTILISANT UN ALGORITHME DIVISIF .............. 70 CONCLUSION ........................................................................................................................................ 71
- 45 -
W3C : organisme en charge des standards du web. Par exemple dans le corpus CEMO, la taille moyenne des tours de parole est de 2 secondes environ, mais prs de 600 tours ont une dure suprieure 10 secondes.
37 38
- 46 -
Chapitre 3 4BAnnotation des motions Schuller et al. ont montr que le choix de lunit avait une incidence sur les scores de dtection[Schuller et al. 2007b].
- 47 -
Chapitre 3 4BAnnotation des motions les motions de base. Ils ont explicit plusieurs cas 39 o des mlanges de plusieurs motions de base sont clairement perus, en sparant les motions prouves en raction une personne (agent), un vnement et un objet. Pour dcrire et a fortiori pour annoter des donnes naturelles, une seule tiquette discrte nest pas suffisante. Nous lavons galement constat avec le corpus de donnes boursires (cf. p 56). Pour des expriences visant dvelopper une application spcifique comme celles dcrites dans [Clavel 2007] ou [Liscombe 2006] les tiquettes sont choisies en fonction dun but ou dune application prcis. Il convient cependant de ne pas travailler sur une tche trop limite afin de pouvoir gnraliser les rsultats 40.
39 Ils dcrivent 2 cas en particulier ; celui dune mre parlant du meurtre de sa fille en disant quelle ne pourra jamais pardonner aux meurtriers qui exprime la fois son dsespoir face la situation et sa haine envers les meurtriers et celui dune femme dcrivant sa sur qui aprs avoir gagner la loterie a abandonn sa famille et exprime la fois de la tristesse devant la situation et du dgot et de la colre envers sa sur. 40 Par exemple, Yacoub [Yacoub et al. 2003] ont dvelopp un systme qui discriminait la colre et le neutre dans le but de dtecter les troubles de la communication. Ce systme a ensuite t test sur des motions positives qui ont t classifies comme de la colre.
- 48 -
Chapitre 3 4BAnnotation des motions Grimm et al. ont utilis le Self Assessment Manikins pour annoter par tour de parole la Valence (positif vs. ngatif), lActivation (niveau dexcitation haut vs. bas) et la Dominance (force apparente du locuteur fort vs. faible) [Grimm et al. 2007].
Juge1/Juge2 Neutre Peur Colre Tristesse Neutre Peur Colre Tristesse 7100 900 1000 500 15 50 15 20 50 100 50 0 85 90 5 20
Tableau 3-1. Exemple de matrice dinter annotation. Les chiffres sont fictifs.
De plus laccord observ entre un ou plusieurs jugements aura toujours une composante alatoire et une composante relle [Bergeri et al. 2002]. - 49 -
Chapitre 3 4BAnnotation des motions La plupart des mesures dinter-annotation existantes utilisent une valuation de cette composante alatoire. Plusieurs manires de la dfinir ont t proposes, ce qui a donn lieu plusieurs mesures dinterannotation dont le coefficient Kappa, le Pi de Scott et le S index de Bennet et al. (cf. Tableau 3-2 voir [Zwick 1988] pour des dfinitions et rfrences). Les tudes sur les motions annotes avec des tiquettes discrtes (donnes nominales), qui ont report des mesures de fiabilit, ont le plus souvent utilis le coefficient Kappa [Cohen 1960] dfini ci-dessous.
A=
- Pexp la proportion daccord alatoire (exp : expected by chance ), qui se calcule diffremment suivant les coefficients (voir Tableau 3-2). On essaie de corriger Pobs en lui soustrayant Pexp correspondant aux cas de la diagonale qui sont dus au hasard ; le numrateur est divis par (1- Pexp ), laccord maximum lorsquon retire le hasard. Coefficient Kappa (Cohen) Pi (Scott) S (Bennet, Alpert et >Goldstein) Dfinition
p
i =1 k
i+
p +i
2
Tableau 3-2. Pexp reproduit de [Zwick 1988] avec pi+ la somme des proportions de la ligne i de la matrice et p+i la somme des proportions de la colonne i.
- 50 -
Chapitre 3 4BAnnotation des motions Le coefficient dinter-annotation est un nombre rel compris entre -1 et 1. Laccord est dautant plus lev que sa valeur est proche de 1. Il est maximal quand les deux jugements sont les mmes : tous les exemples sont sur la diagonale de la matrice de confusion. Il vaut 0 lorsque les deux jugements sont indpendants Il vaut -1 lorsque les juges sont en total dsaccord. Landis et Koch [Landis et Koch 1977] ont propos une chelle de degr daccord pour le coefficient Kappa selon la valeur du coefficient pour la biologie :
Excellent Bon Modr Mauvais Trs mauvais >0.81 0.80-0.61 0.6-0.21 0.20-0.0 <0
Tableau 3-3. Degr d'accord suivant la valeur du coefficient kappa tel-00624085, version 1 - 15 Sep 2011 . Cette valuation pourra varier selon les domaines 41 et un accord modr dans cette chelle pourra tre considr comme bon pour un autre domaine comme la psychiatrie ou il y a plus dincertitude. [Bergeri et al. 2002]. Dans le cas du Tableau 3-1, le kappa est de 0.25. Le kappa saccompagne normalement de son degr de signification, calcul partir de la dviation standard de kappa : k
Cohen [Cohen 1968] a galement prsent une variante du coefficient Kappa prenant en compte les diffrences de distances entre les catgories. (Par exemple, une confusion Agacement/Impatience sera moins grave quune confusion Agacement/Amusement). Cela implique cependant de donner des poids a priori chaque cellule de la matrice. Dautres stratgies existent pour mesurer les corrlations entre les valuations de deux juges pour des donnes ordinales [Howell 1999 p 550-553] ou pour des variables continues (coefficient alpha de Cronbach [Cronbach 1951]) 3.1.4.2. Mesures de validation pour les axes Grimm et al. [Grimm et Kroschel 2007] ont regard la dviation standard pour chaque axe avec 6 juges pour une exprience et 17 pour une autre et ont fait des mesures de corrlation avec le coefficient de Pearson.
41
En biologie, on mesure souvent un diagnostic positif ou ngatif pour plusieurs techniques mdicales.
- 51 -
Chapitre 3 4BAnnotation des motions peur de perdre de largent. Satisfaction (parfait , cest trs gentil ) et Excuse ( vraiment dsol demain normalement a devrait aller ) sont plus des attitudes que des motions, mais sont des tiquettes adaptes la description du corpus. Les segments non neutres constituent 13% du corpus. Le nombre de tours de parole par segment est donn dans le Tableau 3-4.
Peur 34 158 192 Colre 19 234 253 Excuse 48 3 51 satisfaction 106 62 168 Neutre 2423 1913 4336 Total 2630 2370 5000
Tableau 3-4. Nombre de fichiers pour chaque tat motionnel dans le corpus de donnes boursires.
Exprience de r-annotation des segments ngatifs avec possibilit de choisir 2 tiquettes par segment
Une exprience de r-annotation des segments ngatifs (445 segments Peur et Colre) a t mene en contexte afin de vrifier ces ambiguts avec deux annotateurs diffrents de ceux ayant fait la premire annotation. Huit tiquettes taient utilises pour cette exprience (cf.3.2.2) : Neutre, Tristesse, Peur, Colre, Embarras, Autre Ngatif, Empathie, Autre Positifs. Un annotateur avait la possibilit de choisir une deuxime tiquette sil percevait un mlange dmotions. Lmotion principale tait qualifie de Majeure ; si une deuxime motion tait perue, elle tait qualifie de Mineure. Les 2 annotateurs ont peru la mme motion Majeure dans 64% des cas et 13% des segments taient ambigus (pas dtiquette commune entre les 2 annotateurs). - 53 -
Autre Peur
Peur
Mlange
Colre
Figure 3-2. Rpartition des segments annots prcdemment Peur et Colre aprs la r-annotation.
Par exemple pour un segment Colre par la premire annotation, si lannotateur 1 le peroit comme Peur et lannotateur 2 comme Colre, les 2 annotations ne sont pas cohrentes. Par contre si lannotateur 1 peroit de la colre et lannotateur 2 peroit de la Peur en Majeur et de la Colre en Mineur, les deux annotations sont cohrentes.
42
- 54 -
Chapitre 3 4BAnnotation des motions Le fait dutiliser plusieurs tiquettes lors de lannotation est ainsi un moyen didentifier les donnes complexes et de ne pas les utiliser lors de lentranement de classifieurs. Cependant cela pose problme la fois pour mesurer la validit des annotations et pour choisir ltiquette motion attribue un segment. Traditionnellement (cf. 3.1.3), N annotateurs jugent les donnes et une tiquette est attribue un segment, en gnral par vote majoritaire. Des mesures daccord permettent de vrifier la robustesse de lannotation et les segments sur lesquels les N annotations sont trop diffrentes sont exclus lors des expriences de dtection. Accepter davoir plusieurs tiquettes par segment motionnel multiplie le nombre de classes possibles et implique de mettre en uvre des mthodes pour valider lannotation. Il faut ensuite tablir des rgles pour combiner N annotations complexes afin davoir une annotation (tiquette, vecteur ?) par segment.
- 55 -
Le segment motion
Le tour de parole est segment par groupe de souffle en plusieurs segments si ncessaire. Lannotation se fait par dfaut au niveau du tour de parole (environ 32900 tours de parole au total), mais pour grer laspect dynamique, chaque annotateur avait la possibilit de couper le tour en plusieurs segments motionnels sil percevait 2 motions diffrentes squentiellement 43. Cette coupure se faisait cependant au niveau des sparateurs syntaxiques dfinis par les transcripteurs. Nous avons ainsi cr des units motionnelles, qui peuvent tre infrieures aux tours de parole bien que le tour de parole reste lunit majoritairement utilise. Les bruits ont t galement retirs, ainsi que les chos (550 bruits ou chos) afin davoir des donnes le plus propre possible.
Quelles tiquettes ?
Notre objectif tait de choisir un ensemble dtiquettes adaptes nos donnes et comparables celles dautres tudes. Une liste de 52 termes motionnels pertinents des interfaces du futur sensibles aux motions, tablie par Roddy Cowie lors de lcole dt de HUMAINE Belfast. (http://emotion-research.net/ws/summerschool1), a servi de rfrence pour le choix des tiquettes (voir Figure 3-3 ).
43
Des coupures similaires, dpendant de lapprciation de 3 juges avaient galement taient effectues par [Greasley et al. 2000] afin dobtenir des segments comprenant un seul tat motionnel pour un test perceptif.
- 56 -
Figure 3-3. Liste de termes motionnels pertinents pour des interfaces du futur sensibles aux motions, tablie par Cowie. Cinq personnes familires avec le corpus CEMO ont valu pour chaque motion de la liste son degr de pertinence avec le corpus sur une chelle de 0 3. Aprs un vote majoritaire, nous avons tel-00624085, version 1 - 15 Sep 2011 abouti une liste de 18 termes motionnels : Anxit, Stress, Peur, Panique, Agacement, Impatience, Colre froide, Colre chaude, Dception, Tristesse, Dsespoir, Douleur, Embarras, Soulagement, Intrt, Amusement, Surprise et Neutre. A ces termes ont t ajouts pendant une phase de calibration (cf. p61) les tiquettes Dsarroi (ne sait pas quoi faire), Rsignation et Compassion. En cas de difficult reconnatre l'motion, les annotateurs pouvaient galement utiliser les tiquettes Positif, Ngatif ou Unknown ( je ne sais pas ), mais ces tiquettes ont t rarement utilises : pour 1% des segments pour un annotateur (soit environ 450 segments sur 34280 au total) et 0.1% (4 segments) des segments pour lautre.
- 57 -
Valence
Etiquettes fines (20 classes + Neutral) Peur, Anxit, Stress, Panique Agacement, Impatience, Colre froide, Colre chaude Tristesse, Dception, Rsignation, Dsarroi, Embarras Dsespoir Douleur Surprise Intrt, Compassion, Amusement, Soulagement Neutre
Ngatif
Tableau 3-5. Hirarchie des classes d'motion. Ce groupement a galement t effectu par vote majoritaire entre 5 personnes (les mmes qui ont choisi les tiquettes) en sadaptant aux instances du corpus CEMO. Par exemple, le stress est dans tel-00624085, version 1 - 15 Sep 2011 le corpus beaucoup plus proche de la peur que de la colre. Parce qu'il y a peu de manifestations positives dans le corpus, une seule classe Positif regroupe toutes les autres. Elle pourrait tre divise en Empathie (Intrt, Compassion), Soulagement et Autres positifs Pour les autres motions, nos sous-catgories correspondent celles dfinies par les psychologues [Shaver et al. 2001]. Dans une tude sur la structure hirarchique des termes motionnels en anglais, ils ont remarqu que mme si les gens ont des difficults dfinir certains termes motionnels, ils saccordent facilement sur des catgories regroupant les diffrents termes. Il a t demand cent tudiants en psychologie de regrouper une centaine de concepts motionnels (extraits du semantic atlas of Emotional concepts [Averill 1975] en catgories. Les rsultats de lanalyse par clustering hirarchique sont donns Tableau 3-6 et sont cohrents avec nos sous catgories.
- 58 -
Nom du sous Cluster Cluster slectionn empiriquement Affection Love Lust Longing Cheerfulness Zest Joy Contentment Pride Optimism Enthrallment Relief Surprise Surprise Irritation Exasperation Anger Rage Disgust Envy Torment Suffering Sadness Sadness Disappointment Shame Neglect Sympathy Horror Fear Nervousness
Sous-cluster Adoration, affection, love, fondness, liking, attraction, caring, tenderness, compassion, sentimentality Arousal, desire, lust, passion, infatuation Longing Amusement, bliss, cheerfulness, gaiety, glee, jolliness, joviality, joy, delight, enjoyment, gladness, happiness, jubilation, elation, satisfaction, ecstasy, euphoria Enthusiasm, zeal, zest, excitement, thrill, exhilaration Contentment, pleasure Pride, triumph Eagerness, hope, optimism Enthrallment, rapture Relief Amazement, surprise, astonishment Aggravation, irritation, agitation, annoyance, grouchiness, grumpiness Exasperation, frustration Anger, rage, outrage, fury, wrath, hostility, ferocity, bitterness, hate, loathing, scorn, spite, vengefulness, dislike, resentment Disgust, revulsion, contempt Envy, jealousy Torment Agony, suffering, hurt, anguish Depression, despair, hopelessness, gloom, glumness, sadness, unhappiness, grief, sorrow, woe, misery, melancholy Dismay, disappointment, displeasure Guilt, shame, regret, remorse Alienation, isolation, neglect, loneliness, rejection, homesickness, defeat, dejection, insecurity, embarrassment, humiliation, insult Pity, sympathy Alarm, shock, fear, fright, horror, terror, panic, hysteria, mortification Anxiety, nervousness, tenseness, uneasiness, apprehension, worry, distress, dread
Tableau 3-6. Rsultats dune analyse par clustering hirarchique de 135 noms dmotion (daprs [Averill 1975]).
- 59 -
Autres annotations
Pour des raisons de cot, nous avons considr que la valence pouvait se dduire des tiquettes (d'o la ncessit de l'indiquer en Mineur pour la Surprise). Cette dcision a t confirme par un test perceptif o les sujets devaient annoter la fois la valence et les tiquettes de segments motionnels du corpus (voir p80 pour une description du test perceptif). Sur 1600 segments annots par 44 sujets dorigine la fois franaise et trangre, il ny a que 4% des cas o la valence perue par les sujets ne correspond pas ltiquette du Majeur. Parce quil y a souvent des confusions entre activation (passif, normal, actif) et intensit, lintensit seulement est juge sur une chelle de 1 5 (faible fort). Nous avons ajout une autre dimension, le contrle (est ce que le locuteur semble contrler son motion?), diffrente de l'axe Puissance/Contrle dfini par Osgood [Osgood et al. 1975]. Il a t annot sur un axe de -3 +3. Il permet notamment de reprsenter des nuances trs intressantes, comme la simulation dun tat motionnel. Certaines annotations dialogiques, comme les rptitions (de soi ou de linterlocuteur), le mensonge et l'ironie sont galement annotes. - 60 -
Chapitre 3 4BAnnotation des motions Toutes les annotations sont rsumes dans la Figure 3-4 ci-dessous :
Majeur
Peur Anxit Stress Panique Agacement Impatience Colre froide Colre chaude Tristesse Dception Rsignation Dsarroi Embarras Dsespoir Douleur Surprise Intrt Compassion Amusement Soulagement Neutre Ngatif Positif Inconnu
Mineur
Aucun Peur Anxit Stress Panique Agacement Impatience Colre froide Colre chaude Tristesse Dception Rsignation Dsarroi Embarras Dsespoir Douleur Surprise Intrt Compassion Amusement Soulagement Neutre Ngatif Positif
intensit contrle
0 ..
-3 .. 3
de lautre
mensonge
Segment motion
Figure 3-4. Le schma d'annotation : rcapitulatif, lannotation est faite en contexte, chaque tour pouvant tre coup en segment. Pour chaque segment sont annots : une ou deux tiquettes, ainsi que lintensit et le contrle. Lannotateur peut aussi indiquer si la personne rpte ce quelle a dj dit ou ce que son interlocuteur a dit et si elle peroit de lironie ou du mensonge.
- 61 -
- 62 -
Figure 3-6. Logiciel transcriber avec une dtd motion utilise pour l'annotation. L'extrait se situe la fin d'un dialogue assez long entre un agent et la fille d'une patiente qui appelle pour la deuxime fois en quelques jours. La fois prcdente, une ambulance avait t envoye, mais la situation avait t considre comme non critique et la patiente avait t ramene chez elle. L'agent n'arrivant pas dterminer prcisment le motif de l'appel est un peu agac par la situation, malgr sa compassion pour la patiente. Les tours Neutre ne sont pas annots, sauf si passage dun tat motionnel un tat Neutre au milieu dun tour. Lannotation se prsente ensuite sous forme de balises.
44dtd
- 63 -
3.2.3. Validation
Comment comparer et valider N annotations avec des units parfois diffrentes et ventuellement plusieurs tiquettes motion ? Les annotateurs ayant chacun la possibilit de couper le tour de parole, la premire ncessit est de choisir la taille du segment motionnel final, puis dappliquer des mesures de validit. Comme indiqu page 49, plusieurs mesures dinter-annotation existent, comme par exemple le coefficient Kappa dans le cas de donnes ordinales. Ces mesures se font sur des segments avec une seule tiquette. De plus, elles sappuient sur le principe dexistence dune annotation correcte vers laquelle les annotateurs doivent idalement converger. Nous partons du principe quil ny a pas systmatiquement une bonne annotation, mais quil peut y avoir diffrentes perceptions possibles et plus particulirement lorsquon se penche sur des tiquettes trs fines et complexes. Cependant, tel-00624085, version 1 - 15 Sep 2011 si deux annotateurs ont une mme perception, ils doivent utiliser la mme tiquette. La proportion dmotions complexes tant assez faible, nous nous attendons toutefois globalement une certaine convergence, que nous voulons pouvoir comparer dautres tudes semblable : cest pourquoi nous avons calcul le coefficient kappa. Par ailleurs, sil y a des segments perus de la mme manire par un grand nombre dauditeurs nafs, notre annotation doit reflter cette perception. Pour le vrifier, nous avons ralis un test perceptif en utilisant la fois des segments ou les jugements des deux annotateurs experts convergeaient et dautres o il ny avait pas daccord. Un bon annotateur devra en tout cas tre cohrent avec lui-mme (intra-cohrence), ce qui est plus facile mesurer.
- 64 -
Segment motionnel :
Chaque annotateur a choisi son segment motionnel et la annot. Finalement, 1,4% (466) des tours de parole ont t coups par lannotateur 1 et 1,6% (395) par lannotateur 2. Ces coupures ne concernent pas ncessairement les mmes tours de parole et dans le cas o le mme tour est coup, ce nest pas forcment au mme endroit. (cf. exemples Figure 3-7 et Figure 3-8). Dans le cas de la Figure 3-7, les 2 annotateurs ont peru une progression squentielle de lagacement vers la peur, mais pas au mme moment.
A P P E L A N T
t1 t2 t3 t4 t5 T6 t7
Anno1 Agacement
Anno2 Agacement
Anxit/ Stress
Anxit
Figure 3-7. Exemple de tour de parole coup diffremment par les 2 annotateurs. t1t7 sont les time-codes correspondant au dbut des donnes transcrites droite. Diffrentes stratgies sont envisageables pour combiner les choix des deux annotateurs. Dans le cas de la Figure 3-7, on pourrait couper le tour t2 quand le premier changement est peru, choisir de conserver le tour de parole comme unit en cas de dsaccord ou demander une troisime personne de trancher. Nous avons choisi de garder le segment le plus petit, afin davoir des motions le plus pures possibles lorsquon entranera des systmes. Au final, il y aura donc un segment tiquet Agacement de t1 t2, suivi dune phase de transition de t2 t4 qui sera tiquet avec la combinaison des annotations Agacement et Anxit/Stress et enfin un segment correspondant de la peur de t4 t8. Cela peut amener avoir des segments de taille trop petite pour tre tudis. Pour remdier ce problme, il faudrait une phase de correction derreurs dannotations et de synchronisation des segments. Par exemple dans le cas de la Figure 3-8, si un annotateur coupe le tour en t2 et lautre en t3, le tour sera coup en 3 segments avec le deuxime segment de taille trs petite, compos dun bruit de bouche annot Soulagement par un annotateur et Agacement par lautre. Cependant, ces cas sont trs rares (une dizaine de cas) et une grande majorit des segments de trs petite taille est due des bruits ou chos en milieu de tour de parole. Pour tre plus rigoureux et pouvoir sadapter un nombre plus grands dannotateurs, il faudrait nanmoins ajouter une phase au protocole pour dfinir de faon consensuelle les units motionnelles et ensuite les annoter.
- 65 -
Anno1
Appelant
T1 T2 T3 T4
Soulagement Anxit
Figure 3-8. Exemple 2 : tour de parole coup diffremment par les 2 annotateurs.
- 66 -
- 67 -
- 68 -
Figure 3-9. Exemple de cration dun vecteur dmotions pondres. Si on souhaite mettre une tiquette finale un segment (analyse, dtection), elle se dduit des champs les plus grands du vecteur motion. A peu prs 50% du corpus a ainsi t tiquet comme neutre. Les tiquettes motions sont diffrentes pour les agents et les appelants. Globalement, les plus frquentes dans la classe Positive sont le Soulagement, lIntrt et la Compassion, ceux de la classe Ngative sont le Stress, lAnxit, lAgacement, lImpatience et lEmbarras. La proportion des tiquettes les plus frquentes pour les agents et les clients est donne dans le Tableau 3-8 ci-dessous.
Client 10810 seg. Agent 11207 seg. Neutre 67.6% Neutre 89.2% Anxit 17,7% Intrt 6.1% Stress 6.5% Compassion 1.9% Soulagement 2.7% Agacement 1.7% Douleur 1.1% Surprise 0.6% Autre 4.5% Autre 0.6%
Tableau 3-8. Rpartition des tiquettes fines (5 meilleures classes) avec le mme Majeur. (688 dialogues), Autre donne le pourcentage de segments annots avec les 19 tiquettes restantes. - 69 -
3.4. Clustering
sur
les
annotations
utilisant
un
algorithme divisif
La matrice de confusion des annotations permet galement de donner une ide des classes motions qui sont le plus diffrencies par les annotateurs. Elle peut tre reprsente graphiquement sous forme de clustering hirarchique aussi appel dendrogramme [Kaufman et Rousseeuw 1990] : les donnes sont reprsentes sous la forme dun arbre binaire dans lequel la distance verticale entre deux feuilles est fonction de leur distance dans la matrice de confusion. Deux manires existent pour construire larbre : tel-00624085, version 1 - 15 Sep 2011 mthode descendante (division) : on commence avec un groupe contenant toutes les donnes et on le divise chaque itration en utilisant des mesures de distance. mthode ascendante (agglomration) : on commence avec chaque classe de donnes dans un groupe spar et les donnes les plus proches sont regroupes chaque itration. Les dendrogrammes ont t construits pour les agents et les appelants laide du logiciel libre R 45, en utilisant la mthode ascendante Agns avec la distance euclidienne (des figures similaires taient obtenues avec dautres distances et dautres mthodes)
Figure 3-10. Dendrogrammes issus du clustering agglomratif utilisant une distance euclidienne.
45
www.r-project.org
- 70 -
Chapitre 3 4BAnnotation des motions Finalement, les classes les mieux diffrencies sont celles les plus reprsentes avec pour les agents un groupe Neutre et un groupe Emotion qui peut tre spar entre Positif et Autre motion et pour les appelants un groupe Peur, un groupe Neutre et un groupe avec les autres motions.
3.5. Conclusion
En conclusion nous avons propos un schma dannotation et un protocole de validation de nos tiquettes motions. Nous navons pas encore exploit toutes les annotations de ce corpus.
Un des rsultats de ma thse est lobservation et la reprsentation dmotions complexes dans les donnes spontanes. Des analyses perceptives ont t menes pour valider la prsence dmotions complexes, nous les dcrivons dans le chapitre 4. tel-00624085, version 1 - 15 Sep 2011
- 71 -
- 72 -
DISTRIBUTION DES EMOTIONS................................................................................................................ 74 LES MELANGES DEMOTIONS ................................................................................................................. 75 Diffrents cas dans le corpus CEMO ............................................................................................... 75 Diffrents indices : Une tude sur les motions conflictuelles ................................................... 77 Test perceptif sur les motions complexes........................................................................................ 80
Rsultats par Sujet.................................................................................................................................................. 83 Rsultats par vecteur .............................................................................................................................................. 83 Comparaison des diffrentes annotations avec celles dun SVM ........................................................................... 85 Validation des tiquettes ........................................................................................................................................ 86 La valence .............................................................................................................................................................. 87 Les indices ............................................................................................................................................................. 88
4.3.
CONCLUSIONS........................................................................................................................................ 88
- 73 -
4. ANALYSE DES MELANGES DEMOTIONS DANS LE CORPUS CEMO 4.1. Distribution des motions
Lmotion exprime va dpendre de nombreux facteurs tels que lge du sujet, son sexe, son rle ou sa relation avec le patient. De plus, des manifestations trs varies vont tre dsignes par la mme tiquette motion. La Figure 4-1 indique la rpartition des motions pour les agents, pour les 20 heures de donnes qui ont t annotes. Comme il a dj t indiqu, les motions exprimes sont principalement ngatives, pour lappelant comme pour les agents. Si lon exclut les segments ambigus ( la limite entre un tat neutre et une motion), prs de la moiti du corpus tel-00624085, version 1 - 15 Sep 2011 contient des donnes motionnelles, principalement de la peur. En poussant lanalyse un peu plus loin, on pourrait distinguer des profils types suivant le type dappelant (sexe, relation avec le patient, ge ?) ou entre les diffrents agents [Devillers et al. 2004]. Il y a en effet des diffrences de comportement suivant la personne qui interagit et Campbell montre par exemple quil y aura des diffrences significatives de certains paramtres acoustiques suivant que quelquun interagit avec quelquun de sa famille, ses amis ou une personne moins proche [Campbell et Mokhtari 2003].
F_1
432
378
49
F_2
1185
2073
184
F_autres
40
70
16
H_1
3554
7485
970
H_autres
8 100%
0%
Figure 4-1. Rpartition des motions entre positif, ngatif et neutre pour les agents. Dans les donnes rcoltes, 3 agents interviennent beaucoup F_1, F_2 et H_1. Les nombres indiquent le nombre de segment pour chaque cas. Hess reporte des diffrences dans lexpression des motions selon le sexe, les femmes exprimant en gnral plus de peur que les hommes et exprimant certaines motions diffremment, par exemple en pleurant plus quand elles se mettent en colre[Hess 2006]. Sur notre chantillon de 20h de conversation, les hommes semblent moins motionnels que les femmes lorsque le patient nest pas un proche et ils expriment un peu plus de colre. - 74 -
lab1
2500 2000 1500 1000 500 0
gu Ne Po bi el Am :2 :2 tu rp ris e l es g s
lab2
lab2 la b1
ge
ge
an
an
Figure 4-2. Rpartition des mlanges dmotion pour chaque annotateur. lab1 and lab2 sont les 2 annotateurs; Mlange: 2Pos signifie que les 2 tiquettes sont choisies dans des classes diffrentes dmotions positives ('Amusement', 'Soulagement, 'Compassion/Intrt' ); Mlange: 2Neg signifie que les 2 tiquettes sont choisies dans 2 classes ngatives diffrentes ('Peur', 'Colre', 'Tristesse' et 'Douleur' ). - 75 -
Co
nf
l ic
Su
Nous parlons dmotions conflictuelles lorsquun segment est annot la fois par une tiquette positive et par une tiquette ngative. Elles sont diffrentes selon leur position dans le dialogue (entre les agents et les appelants). Un exemple typique dans notre corpus sera pour un agent dprouver de la compassion envers un appelant teinte par de lagacement (ou dessayer de masquer son irritation par une voix compatissante): je comprends bien Madame mais j'ai pas de solution miracle . Pareillement, un appelant pourra tre rconfort par lagent et exprimer son soulagement en mme temps que du stress ou de lanxit aprs une intervention de lagent Hum daccord l j(e) l je me sens beaucoup [parole inintelligible] parce que jai les renseignements parce que . Les deux motions peuvent tre squentielles, mais elles peuvent aussi tre exprimes en mme temps. tel-00624085, version 1 - 15 Sep 2011
- 76 -
Objectif et protocole
Une tude a t conduite [Vidrascu et Devillers 2005b] afin de valider les mlanges dmotions positives et ngatives et de les tudier plus prcisment. Lobjectif tait la fois de voir si une des deux motions tait vraiment dominante et si les types dindices permettant de percevoir les 2 motions taient diffrents (par exemple une motion est-elle perue grce des indices lexicaux et lautre grce des indices prosodiques ?). Le focus de ltude tant le type dindices utiliss, lexprience a t ralise par des personnes expertes connaissant le corpus et familires avec les diffrents mlanges dmotions et les diffrents types dindices. tel-00624085, version 1 - 15 Sep 2011 30 segments (20 appelants, 10 agents) o chacun des deux annotateurs experts avaient peru un mlange positif/ngatif 46 ont t rannots par 3 personnes (dont les 2 annotateurs). En plus de choisir une ou deux tiquettes motions par segments, il leur tait demand de prciser les indices qui avaient motiv leur choix pour chaque tiquette, en choisissant une ou plusieurs des catgories : - Indices lexicaux : mots et syntaxe - Indices prosodiques : rythme, mlodie, platitude - Disfluences : pauses vides, hsitations ( euh ), rptitions - Contexte : segment prcdent, rle (appelant, agent, tmoin )
Rsultats
Tout dabord, la deuxime annotation tait cohrente avec la premire : chacun des 3 annotateurs ont peru un mlange dmotions conflictuelles pour la majorit des segments (sauf pour 6 segments sur les 30 o seulement 2 annotateurs sur 3 ont peru un mlange conflictuel) avec globalement les mmes classes que pour la premire annotation47 (cf. exemple Figure 4-3). Afin de slectionner les segments o une des 2 motions dominait , une quatrime personne a annot les segments avec les tiquettes Positive et Ngative.
Les 2 annotateurs ntaient pas forcment daccord sur les tiquettes fines ni sur lmotion Majeur entre la positive et la ngative. 47 Malgr que la premire annotation a t faite en contexte et pas la deuxime
46
- 77 -
Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO Pour chaque segment, les 4 annotations ont t mlanges en un vecteur [Ngatif, Positif] avec un poids de 2 pour le Majeur et de 1 pour le Mineur (voir p53 pour la dfinition de Majeur et Mineur). Une tiquette POS/NEG (tiquette avec le plus grand poids gagnant positive et deuxime tiquette ngative), NEG/POS (cas contraire) se dduisait ensuite de ce vecteur (voir Figure 4-3). 1re annotation
Intrt/Agacement Intrt/Impatience
2me annotation
[Pos=7,Neg=5]
tiquette Pos/Neg
Figure 4-3. Exemple de segment rannots. Les indices de contexte et disfluences tant trs peu utiliss, seuls les indices prosodiques et lexicaux ont t pris en compte pour ltude. Une technique de vote majoritaire (accord entre au moins deux juges) a t utilise pour slectionner les types dindices perus par segment motionnel. La Figure 4-4 indique pour chaque classe POS/NEG et NEG/POS les pourcentages de segments pour lesquels des indices prosodiques ou lexicaux ont t perus respectivement pour les motions Majeur et Mineur. Par exemple des indices prosodiques sont utiliss pour percevoir le Majeur dans plus de 90% des segments. La figure rvle des rpartitions similaires pour les Majeur et Mineur des deux classes POS/NEG et NEG/POS. Les donnes taient assez quilibres avec respectivement 14 et 15 segments pour les classes POS/NEG et NEG/POS. Chaque type dindice (lexical et prosodique) est deux fois plus slectionn pour ltiquette Majeur que Mineur quelle que soit la classe. De plus, le Mineur est seulement peru grce un indice, soit lexical (10%), soit prosodique (70%), jamais les 2 la fois. Une autre observation intressante est que les indices lexicaux ne sont jamais slectionns la fois pour la perception des motions Majeur et Mineur, ce qui est par contre souvent le cas pour les indices prosodiques.
- 78 -
Maj Lex
Maj Pros
Min Lex
Min Pros
POS/NEG NEG/POS
Figure 4-4. Rpartition des indices lexicaux et prosodique entre le Majeur et le Mineur pour les motions conflictuelles , (appelants et agents). Bien que dautres tests sur plus de segments et avec plus dannotateurs soient ncessaires pour confirmer certaines des observations, cette exprience a apport une validation lexistence dans le tel-00624085, version 1 - 15 Sep 2011 corpus de mlanges dmotions, de valences opposes et a mis en vidence la pertinence des indices lexicaux et prosodiques. Les types dindices ne sont pas ncessairement diffrents pour les 2 motions et les indices prosodiques peuvent permettre de percevoir les deux motions. Lmotion perue grce au plus grand nombre de types dindices est analyse comme dominante.
- 79 -
Objectif et protocole
Le premier objectif de ce test [Vidrascu et Devillers 2006] tait de valider le protocole dannotation : lexpertise des 2 annotateurs : 2 annotateurs sont-ils suffisants pour annoter le corpus de manire fiable ? En quoi les 2 annotateurs sont-ils experts ? Un objectif tait de confronter les annotations des deux experts celles dun grand nombre de juges nafs. Nous avons donc slectionn un sous ensemble de segments, majoritairement o les 2 experts saccordaient, en prenant soin de ne pas inclure de donnes confidentielles. Quelques segments pour lesquels les 2 experts divergeaient ont galement t slectionns (une tel-00624085, version 1 - 15 Sep 2011 convergence des perceptions des juges nafs sur ces segments aurait remis en cause lannotation des donnes). Pour le traitement automatique des motions, le contexte nest pas pris en compte : les segments taient donc prsents hors contexte. Le choix des tiquettes : est ce que les tiquettes proposes sont pertinentes pour la description du corpus ? La distinction entre des tiquettes fines du type Agacement et Impatience ou Intrt et Compassion est-elle utile malgr les confusions dans certains cas. La valence : tait-il erron de considrer que la valence de lmotion pouvait tre dduite de ltiquette motion ? Le test perceptif se voulait galement un complment aux tudes prcdentes sur les mlanges dmotions. Ces mlanges sont ils perus hors contexte ? Dans le cas affirmatif, sont ils plutt perus comme simultans ou squentiels ? Quels types dindices sont pertinents pour leur perception ?
Une quarantaine de stimuli ont t slectionns parmi lesquels 14 segments simples (annot par une seule mme tiquette par les deux annotateurs), 11 mlanges non conflictuels, 13 mlanges conflictuels et 3 segments complexes pour lesquels les annotateurs ne saccordaient pas. Les mlanges conflictuels correspondaient aux cas prototypiques dagents exprimant la fois de la compassion et de lirritation, dappelants exprimant de la peur et le soulagement de savoir quon allait les aider, ou encore de lembarras et du self amusement , comme par exemple une baby-sitter, qui lorsquon lui demande le numro de lappartement - 80 -
Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO rpond avec un rire embarrass je vais juste prendre mon agenda parce que je sais mme plus quel numro on est euh ne quittez pas Les stimuli taient prsents hors contexte 44 sujets : 34 franais natifs (13 femmes et 21 hommes) et 10 non natifs et pouvaient tre rejous volont. Le sujet devait valuer la valence du stimulus (du trs ngatif au trs positif) sur une chelle allant de -3 +3. Il devait ensuite choisir une tiquette pour lmotion perue dans la liste : Neutre, Anxit, Stress, Peur, Panique, Agacement, Impatience, Colre froide, Colre chaude, Embarras, Dception, Tristesse, Dsarroi, Rsignation, Dsespoir, Surprise, Soulagement, Intrt, Compassion, Amusement, Douleur. Des dfinitions des diffrents termes lui taient fournies et il avait la possibilit dinterroger lexprimentateur pendant le droulement du test. Lintensit et le contrle pour cette motion taient ensuite valus sur une chelle de 1 5 et le sujet devait donner le type dindices qui lui permettaient de percevoir lmotion (lexical, prosodique, disfluences ). Sil percevait une tel-00624085, version 1 - 15 Sep 2011 deuxime motion, il devait la choisir dans la mme liste et rpondre aux mmes questions en prcisant en plus si les 2 motions taient perues squentiellement ou simultanment. Enfin, il pouvait donner le nom de lmotion perue si elle ntait pas dans la liste 48. Linterface a t ralise en tcl/Tk.
Pour avoir des annotations libres, [Greasley et al. 2000] avaient procd en demandant aux sujets dutiliser des mots se rfrant comment une personne se sent . Il aurait t judicieux de faire de mme pour viter des rponses du type remerciement ou excuse .
48
- 81 -
Rsultats
Les non natifs ayant trouv la tche trop difficile cause de labsence de contexte et du grand nombre dtiquettes, ils nont pas t pris en compte pour ltude sur les mlanges dmotions 1.
Tableau 4-1. Pourcentages dmotions simples et complexes des 33 sujets franais ayant effectu le test perceptif. Bien que tous les locuteurs aient peru des mlanges dmotions, 70% des stimuli complexes ont t annots comme simples, les femmes percevant plus dmotions conflictuelles que les hommes pour cette tude. Paralllement, 15% des stimuli taient jugs comme complexes alors quils taient tiquets comme simple. Ces mauvais rsultats montrent la difficult pour des annotateurs naifs de percevoir les motions complexes exprimes dans ces stimuli sans contexte.
1 2
Par contre leurs performances taient comparables celles des natifs pour la reconnaissance des motions simples
Ce type de rsultat se retrouve chez [Scherer et Ceschi] qui valuent la fiabilit de 31 juges ensemble et sparment et obtiennent une trs bonne fiabilit pour lensemble des juges, mais une fiabilit assez faible par juge en moyenne et prcisent que ce phnomne est trs frquent dans les rating studies using lay observers
- 83 -
Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO un poids de 1 pour le Majeur et le Mineur. Ce vecteur a t compar celui des 2 experts. On a dabord regard le plus grand coefficient de chaque vecteur : il y avait 85% daccord entre sujets nafs et experts. En considrant les 2 plus grands coefficients, il y avait accord pour 18 des 24 motions complexes. Par exemple, un segment annot Peur/Tristesse par les experts tait rannot en Peur par 50% des sujets, Tristesse par 30% des Sujets et Peur/Tristesse par 5%. Les cas de dsaccord entre expert et nafs taient souvent expliqus par labsence de contexte. Dans le cas de la Figure 4-7, lintonation et la rptition de oh ma pauvre faisaient que les sujets percevaient de la compassion quand en contexte, le locuteur exprimait clairement une motion ngative. Dailleurs, lannotation de la valence du stimulus est ngative et en contradiction avec ltiquette. Seulement 2 sujets sur 34 ont choisi une valence strictement positive pour la phrase contre 25 sur 34 avec une valence strictement ngative.
SANS CONTEXTE
Vecteur* Sujets
tiquette Pos
(poids>10~1/3 sujets)
* Classes larges
AVEC CONTEXTE
Vecteur experts
Anxit:2 Rsignation:1 Tristesse: 1
tiquette Peur/Tristesse
Agent :Et a fait combien de temps que vous avez du mal respirer?
Figure 4-7. Le rle du contexte dans les diffrences entre les annotations. Les annotations des sujets sont regroupes en un vecteur motion (tiquettes larges) avec un poids de 1 par tiquette. Pour dduire ltiquette finale, on a choisi de ne garder que celles choisies par plus de 1/3 des sujets (poids>10). Pour les stimuli sur lesquels les experts ntaient pas daccord, aucun consensus na t trouv parmi les sujets du test.
- 84 -
Tableau 4-2. Diffrents niveaux dinformation. tel-00624085, version 1 - 15 Sep 2011 Un modle paralinguistique a t cr pour les agents avec les quatre motions Neutre, Colre, Compassion et Surprise et un pour les appelants avec les 4 motions Peur, Colre, Tristesse et Soulagement. Les prdictions pour les 41 segments (qui navaient pas t utiliss pour construire le modle !) ont t compares celles des experts et des nafs. Les pourcentages de mme dtection entre experts, nafs et systme automatique sont donns dans le Tableau 4-3 ci-dessous. Experts=nafs=automatique 61 % experts=nafs 85 % expert=automatique 66 % Tableau 4-3. Pourcentage daccord en ne considrant que le plus grand coefficient des vecteurs, expert : annotation initiale, naf : annotation des sujets du test perceptif, automatique : dtection automatique.
Bien que le systme ait t entran avec les annotations des experts, le pourcentage daccord entre le systme et les annotateurs est loin derrire celui entre experts et nafs. Il faudrait apporter des informations sur le contexte et le lexique et les combiner aux indices paralinguistiques pour amliorer la dtection.
- 85 -
Choix libre
Intrt Compassion Soulagement Autre Positif Peur Anxit Embarras Dsarroi Rsignation Agacement Surprise Autre Curiosit politesse, rassurante Reconnaissance (x5), remerciement, gratitude (x6) bonne humeur, satisfaction (x4), plaisir crainte, suppliant nervosit (x2) Gne (x4), honte, excuse, vex (x2) impuissance x2, incertain, indcision, confusion indiffrence, dsintrt (x2), ennui (x2), distraction, fatalisme exaspration (x3), nervement Indignation tonnement (x2) Rflexion ironie (x6), autodrision incrdulit (x2), fermet
Tableau 4-4. Les rsultats du choix libre pour lmotion perue. Un test de Khi-2 a rvl une diffrence significative (Khi-2>60) dans lemploi dtiquettes qui semblent parfois confondues comme Agacement vs. Impatience, Compassion vs. Intrt ou Stress vs. Anxit. Il tait donc pertinent de conserver ces tiquettes.
- 86 -
La valence
Dans le protocole dannotation, nous avions considr quil ntait pas ncessaire dannoter la valence, car elle pouvait se dduire de ltiquette motion ( lexception de la Surprise, do la directive de donner en Mineur une tiquette prcisant sa valence). Lannotation explicite de la valence pour le test perceptif tait un moyen de vrifier cette hypothse. Le nombre de cas o la valence ne se dduit pas de ltiquette est donn Tableau 4-5. Pour les segments non complexes, il y a moins de 5% des cas pour lesquels la valence ne se dduit pas de lannotation. Le nombre lev d erreurs pour la compassion peut sexpliquer par des cas du type celui dcrit Figure 4-7. Les sujets choisissent une tiquette de valence oppose celle des experts ( cause sans doute de labsence de contexte), mais peroivent toutefois des indices qui les poussent annoter la valence diffremment. De mme pour lembarras, une grande partie des segments annots Embarras par les tel-00624085, version 1 - 15 Sep 2011 sujets avaient t annots comme conflictuels par les experts. De faon non surprenante, les erreurs sont dautant moins nombreuses que les motions sont fortes (aucune erreur pour la panique ou la colre chaude).
Majeur Compassion Intrt Soulagement Amusement Total Positif Impatience Agacement Tous les segments 41% (63 segts) 10% (121 segts) 3% (90 segts) 5% (132 segts) 11,6% (406 segts) 7% (102 segts) 1% (258 segts) Sans Mineur 17% (35 segts) 5% (79 segts) 3% (66 segts) 6% (69 segts) 6,4% (249 segts) 7% (70 segts) 1% (189 segts)
Colre chaude
Colre froide Anxit Stress Peur
0% (45 segts)
3% (69 segts) 6% (98 segts) 5% (56 segts) 5% (21 segts)
0% (32 segts)
4% (49 segts) 7% (70 segts) 6% (35 segts) 0% (10 segts)
Panique
Embarras Dsarroi Rsignation
0% (35 segts)
16% (116 segts) 6% (86 segts) 7% (105 segts)
0% (23 segts)
17% (70 segts) 5% (60 segts) 4% (78 segts)
Tristesse
Dsespoir Dception
0% (41 segts)
2% (44 segts) 8% (76 segts)
0% (32 segts)
4% (24 segts) 4% (56 segts)
Douleur
Total Ngatif Total
0% (10 segts)
5,1% (1162 segts) 6,8% (1568 segts)
0% (10 segts)
4,6% (808 segts) 5% (1057 segts)
Tableau 4-5. Pourcentage de cas o la valence est en contradiction avec les tiquettes motions par motion. Pour Tous les segments , la valence est compare celle de lmotion Majeur et pour Sans Mineur , on ne regarde que les segments annots avec une seule tiquette. Le nombre total de segments est indiqu entre parenthses). - 87 -
Les indices
Diffrentes catgories dindices ont motiv les annotations, avec beaucoup dindices prosodiques. Ces indices montrent la richesse de ce corpus et la grande diversit des expressions motionnelles dans la parole conversationnelle spontane.
Prosodie, qualit vocale
intensit (x3) mode impratif intonation aigue (x2) ton sec (x2) tonalite de la voix tremblement dans la voix
Affect burst
respiration (x2) expiration souffle (x4) soupir (x3) Oooh, pfff rire (x12) rire nerveux
Lexical
Manque de cohrence emploi du "oui" la fin de la phrase "mais enfin" "merci" (x2) "trs bien" au lieu de "bien"
"dialogique"
grammaire, smantique dans un contexte tlphonique. intrt simul ? rire faux laconisme rptition (x3)
Figure 4-8. Rsultats du choix libre dindices ayant motiv les annotations.
4.3. Conclusions
Dans ce chapitre, nous avons prsent et typ diffrents cas de mlange dmotions dans le corpus CEMO. Ces mlanges peuvent tre perus mme sans contexte et des indices acoustiques peuvent tre perus en mme temps pour plusieurs motions. Un test perceptif a valid lannotation des experts, le choix des tiquettes et la dcision de dduire la valence des tiquettes lors de lannotation. Mme si individuellement les sujets nafs ne percevaient sans contexte quune seule motion dun mlange, lorsquon regroupe leurs annotations en un vecteur, on retrouve lannotation des deux experts. Ces mlanges sont trs intressants tudier, mais sont susceptibles de causer des confusions si on les utilise pour entraner des systmes. Dans les parties qui suivre, ils ne seront donc pas utiliss.
- 88 -
III Modlisation
- 89 -
- 90 -
ETAT DE L'ART DES PARAMETRES UTILISES ............................................................................................ 92 Le modle de Fnagy ....................................................................................................................... 92 La production de la parole............................................................................................................... 93 Les indices extraits pour la dtection des motions ......................................................................... 95
Le niveau paralinguistique ..................................................................................................................... 95 (a) Les paramtres prosodiques.............................................................................................................................. 95 (b) La microprosodie.............................................................................................................................................. 97 (c) Les coefficients spectraux................................................................................................................................. 99 (d) Les disfluences prosodiques ............................................................................................................................. 99 (e) Les marqueurs affectifs acoustiques ................................................................................................................. 99 5.1.3.2. Le niveau linguistique ............................................................................................................................ 99
5.1.3.1.
5.1.4.
Les variations des paramtres suivant les tats motionnels dans la littrature ........................... 101 PARAMETRES EXTRAITS SUR NOS CORPUS............................................................................................ 103 Paramtres extraits de manire automatique................................................................................. 105
Paramtres prosodiques ........................................................................................................................ 105 Paramtres spectraux ............................................................................................................................ 106 Microprosodie ...................................................................................................................................... 107
5.2. 5.2.1.
Paramtres dduits de la transcription manuelle et de lalignement phonmique ........................ 109 Normalisation des paramtres prosodiques................................................................................... 112 Tendances des paramtres compares celles de Scherer ............................................................ 114 Triangles vocaliques ...................................................................................................................... 115 CONCLUSION ....................................................................................................................................... 118
- 91 -
Whereas judges seem to be rather accurate in decoding emotional meaning from vocal cues, researchers in psychoacoustics and psychophonetics have so far been unable to identify a set of vocal indicators that reliably differentiate a number of discrete emotions 2 Les mots indices ou paramtres pourrons tre utiliss (cues, parameters, features en anglais). 3 On entend par paralinguistique, les informations de type acoustiques, prosodiques et les manifestations non verbales de type marqueurs affectifs. Ces marqueurs sont des lments trs brefs qui sont extrmement porteurs de connaissance sur ltat motionnel de la personne.
1
- 92 -
on pourrait imaginer la source transmettant au Premier Encodeur un message global, de remercier par exemple linterlocuteur de sa gentillesse. Ce message serait dcompos en une squence de phonmes par le Premier Encodeur:/o :vuz t vrem trop emabl 1/. La source confiera en mme temps un message, de nature diffrente et de caractre oppos au Deuxime Encodeur : dexprimer un sentiment de haine, de mpris. Le Deuxime encodeur transformera, conformment cette instruction, la squence de sons que vient de lui prsenter le premier encodeur, dune telle manire ce que la haine et le mpris soient clairement exprims par la compression des cordes vocales et des bandes ventriculaires, el allongeant les consonnes, []
- 93 -
Chapitre 5 5BLes paramtres Les sons sont produits par la modification du courant dair de lexpiration en provenance des poumons. Lair passe dabord travers la trache artre. Au sommet de celle-ci se trouve le larynx o la pression de lair est module avant dtre applique au conduit vocal. Le son lui-mme est produit au niveau des cordes vocales 1. Il est fonction dune part de la pression sous-glottique (pression due lobstacle des cordes vocales lair en provenance des poumons) et dautre part de la masse effective des cordes vocales. Les sons rsultants dune vibration priodique des cordes vocales sont dits voiss . A loppos, lorsque lair passe librement dans la glotte 2, les sons rsultants sont dits non voiss ou sourds . Les traits acoustiques du signal sont lis sa production [Boite et al. 1999] : tel-00624085, version 1 - 15 Sep 2011 lintensit du son est lie la pression de lair en amont du larynx (sous-glottique) sa frquence correspond la frquence douverture/fermeture des cordes vocales (dtermine par la tension des muscles qui la contrlent) son spectre rsulte du filtrage du signal glottique par le conduit vocal. le pharynx, la bouche et ventuellement les lvres constituent une cavit de rsonance qui peut tre assimil un tube de diamtre uniforme (de 17 20 cm de longueur) ferm un bout (la glotte) et ouvert lautre (les lvres). Les frquences renforces par le phnomne de rsonance sont appeles formants 3.
Les cordes vocales sont deux lvres symtriques places en travers du larynx. Elles peuvent fermer compltement le larynx et en scartant elles dterminent une ouverture triangulaire appele glotte. 2 Cas galement de la respiration et des chuchotements 3 Le formant est dfini rigoureusement [Linard 1977] comme un maximum de la fonction de transfert du conduit vocal
1
- 94 -
Lexical
Non-lexical
Intonation proper
spectral caracteristics
Terme cr par Hockett en 1942, dfini dans le Dictionnaire de linguistique comme un trait suprasegmental, ou trait prosodique, est une caractristique qui affecte un segment plus long que le phonme [Rossi et al. 1981 p10].
- 95 -
Chapitre 5 5BLes paramtres Elle intervient par exemple dans la distinction des questions et des rponses ou pour lever les ambiguts du langage parl par linsistance sur certains mots. Elle permet aussi dexprimer des attitudes et des tats motionnels Au niveau physique, la prosodie se rfre aux variations dun ensemble de paramtres acoustiques parmi lesquels la frquence fondamentale, lintensit et la dure.
L'intensit du signal
Elle apporte une mesure globale de la force sonore de la voix (faible ou forte). Elle se mesure gnralement en dcibel (dB). Pour une voix triste ou neutre, lintensit sera beaucoup moins forte que pour une voix colrique. Lintensit du signal est un paramtre difficile normaliser, notamment au tlphone. Une voix faible peut-tre proche du tlphone et une voix forte loin du tlphone. F0 et intensit sont corrls.
- 96 -
Chapitre 5 5BLes paramtres silences. Une mesure de dbit frquemment calcul dans les tudes sur les motions est linverse de la longueur moyenne des parties voises.
La qualit vocale
Certains ajoutent la prosodie une quatrime dimension, la qualit de la voix (timbre, voix rauque, chuchote, grinante, voix de fausset...), due des caractristiques laryngales ou supralaryngales. Un indice li la qualit vocale est le NAQ Normalized Amplitude Quotient , dfini par Campbell et al. [Campbell et Mokhtari 2003]. Il permet davoir une mesure sur londe de dbit glottal. Il peut tre considr comme une normalisation du temps de dclinaison et sexprime comme le rapport de lamplitude crte crte de londe de dbit glottique et du pic ngatif maximal de sa drive, normalis par la priode fondamentale. Il est cependant difficilement utilisable sur des donnes relles car il ncessite une prise de son parfaite. tel-00624085, version 1 - 15 Sep 2011
(b) La microprosodie
Le coefficient Shimmer 1
Le shimmer mesure les variations damplitude entre deux cycles doscillation : le shimmer moyen reprsente la moyenne des rapports damplitudes entre deux cycles d'oscillation conscutifs le shimmer factor relativise le shimmer moyen en divisant par lamplitude moyenne lAPQ (Amplitude Perturbation quotient) mesure la moyenne des variations damplitude sur 11 priodes conscutives, le tout rapport lamplitude moyenne du signal observ
Le coefficient Jitter 2
C'est un indice reprsentatif de la perturbation court terme de la frquence fondamentale, qui se traduit par des variations de frquence entre chaque cycle doscillation. Il peut tre intressant de le mesurer pour des phrases o la frquence est normale puis s'acclre brutalement (pour des motions comme la peur, le stress ou le dsespoir par exemple). Plusieurs mesures existent : le jitter absolu moyen est la moyenne de la diffrence de F0 en valeur absolu, entre deux cycles de vibration conscutifs le jitter factor permet de relativiser le jitter moyen en le comparant la F0 moyenne
1 2
http://www.fon.hum.uva.nl/praat/manual/Voice_3__Shimmer.html http://www.fon.hum.uva.nl/praat/manual/Voice_2__Jitter.html
- 97 -
Chapitre 5 5BLes paramtres le jitter ratio mesure la moyenne des variations de priode entre deux cycles de vibration conscutifs et relativise cette valeur par la priode moyenne du signal observ le RAP (Relative Average Perturbation) mesure la moyenne des variations de trois priodes conscutives rapporte la priode moyenne du signal observ
http://www.fon.hum.uva.nl/praat/manual/Voice_1__Voice_breaks.html
- 98 -
Le contenu lexical
Particulirement pour des donnes enregistres au tlphone, le niveau linguistique peut apporter des informations pour la dtection des motions. Il sera plus ou moins utile selon les motions que
- 99 -
Chapitre 5 5BLes paramtres lon cherche discriminer. Par exemple dans le corpus CEMO, la dtection du soulagement peut tre attribue certaines marques lexicales spcifiques comme merci . Les motions ngatives peuvent aussi tre lies certains termes, comme problme ou des formes ngatives ne pas . Dans nos donnes cependant, les expressions de la peur sont souvent plus syntaxiques que lexicales travers des rptitions, des reformulations etc.
Le contexte dialogique
Les annotations motionnelles peuvent tre corrles avec les actes dialogiques 1. Ce type dannotations est moins frquent. Dans les travaux de Devillers et.al, les actes dialogiques ont t annots (adapts d'aprs DAMSL standard dialogs acts annotation) Des mesures de corrlation ont montr que les motions ngatives Colre et Peur sont susceptibles de gnrer plus frquemment des Assertion, Rassertions, Requtes et Rptitions, tandis que les motions tel-00624085, version 1 - 15 Sep 2011 positives comme la Satisfaction et le Neutre sont corrles avec l'Acceptation [Devillers et al. 2002]. Dans les travaux de Lee et al. [Lee et Narayanan 2004], lutilisation de cinq actes de dialogue (du type rejection, rptition) en plus dindices lexicaux et prosodiques a amlior les scores de dtection, ils ont galement contribu amliorer les scores de dtection pour Batliner et al. [Batliner et al. 2003]. De mme, dans les travaux de Liscombe et al. [Liscombe et al. 2005], 10 actes de dialogues ont t annots ainsi que des informations sur les motions des deux tours prcdents (prdite ou relle) et ces indices ont augment la reconnaissance.
1 Notion introduite par [Austin 1962] qui correspond une unit de contexte dans le dialogue. Le fait de dire quelque chose revient faire une action et ces actions peuvent tre types, par exemple asserion, rejection, rpetition.
- 100 -
5.1.4. Les variations des paramtres suivant les tats motionnels dans la littrature
Scherer [Scherer 2003] a rsum les effets des motions les plus frquemment tudies sur certains paramtres en s'appuyant sur les rsultats empiriques dune trentaine dtudes des soixante dernires annes. La plupart de ces tudes ont t effectues sur des donnes actes. Une synthse des rsultats empiriques est donne dans le Tableau 5-1 ci-dessous.
Paramtres acoustiques Dbit et Fluency Nombre de syllabes par seconde Dure des syllabes Dure des voyelles accentues Nombre et dure des pauses Dure relative des segments voiss Dure relative des segments non voiss F0 et Prosodie Moyenne F0 F0: 5me percentile dviation standard de F0 Plage F0 Frquence des syllabes accentues Gradient of F0 rising and falling F0 final fall: range and gradient Effort Vocal et Type de Phonation Intensit moyenne (dB) dviation standard de l'Intensit pente spectrale (spectral slope) Laryngalisation Jitter Shimmer HNR Formants prcision des Formants Bande passante des formants F1 (M) F2 (M) F1 (bw)
Stress joie Peur/ Irritation/ Colre Tristesse/ Affliction/ Peur/ Ennui Panique Colre f /Rage Abattement Desespoir Anxit
>
<> > < > <
>
>
> > > > > > > > > < >
> > > > >= > > >= > < = >= >= > >= < >
<> < >> >> > > > > > < = >= >= > > < > < <<
<> <= < < < < < <= < > > > < < > <> < <>
> <
<= <= < <= <= <= <= < > = = = <= <= >= > < <
>
> >
= > >
> > <> > > > < <> > < <<
? <
Tableau 5-1. Synthse des rsultats empiriques pour l'effet des motions sur les paramtres vocaux (extrait [Scherer et al. 2003], [Juslin et Laukka 2003],,[Juslin et Scherer 2005] ) < "plus petit/ lent/ plat/troit"; > "plus grand/haut/rapide/pentu/large" ;=gal au "Neutre"; <> : Des tudes ont report la fois des rsultats plus grand et plus petits. Les rsultats surligns en gris concernent les donnes naturelles ou induites. Ces rsultats concordent globalement avec ceux de Juslin [Juslin et Laukka 2003] obtenus en comparant 104 tudes, dont 12 effectues sur des donnes naturelles. La colre par exemple - 101 -
Chapitre 5 5BLes paramtres sexprime vocalement par un accroissement de la F0 moyenne et de son intensit ainsi que par la variabilit de la plage de F0.
- 102 -
Figure 5-4. Le mme contenu lexical Je sais pas et le mme locuteur de manire neutre puis agace.
- 103 -
Figure 5-5. Je sais pas : plusieurs locuteurs, plusieurs motions (neutre, stress, dsespoir, dsespoir ).
- 104 -
Chapitre 5 5BLes paramtres Comme il nexiste pas de consensus sur une liste de paramtres pertinents et que le choix de ces paramtres semble dpendre des donnes, notre stratgie est den extraire le plus possible, mme si la plupart sont redondants et dutiliser des mthodes de fouille de donnes pour slectionner les meilleurs.
Plage=maximum-minimum
- 105 -
)
i
Erreur de dtection
tUnvi
tUnvi+1
tVoii-1
tVoii tF0Max
tVoii+1
Figure 5-6. Exemple dextraction de F0 avec Praat : la courbe de la F0 est indique en bleu et des informations sont donnes sur les diffrents traitements effectus. Des paramtres similaires sont calculs pour lnergie. 5.2.1.2. Paramtres spectraux Les 3 premiers formants et leurs bandes passantes ont t extraits avec Praat toutes les 10ms en prenant compte des diffrences hommes femmes et suivant lalgorithme de Burg [Childers 1978; Teukolsky et al. 1992] qui ne tient pas compte des formants en dessous de 50Hz.
- 106 -
Chapitre 5 5BLes paramtres Seules les valeurs extraites sur les parties voises ont t conserves et des paramtres (minimum, maximum, moyenne, mdian, premier et troisime quartile, dviation standard, plage) ont t extraits pour chaque formant et bande passante, ainsi que pour les diffrences (F2-F1) et (F3-F2). Les paramtres cepstraux sont des paramtres standard pour les systmes de transcription [Gauvain 2002]. Ils ont t extraits toutes les 10ms en utilisant une fentre de 30ms sur une bande 0-8kHz. Nous avons calcul les maxima et minima des 15 coefficients cepstraux, ainsi que des coefficients et . 5.2.1.3. Microprosodie Le jitter, shimmer, NHR, HNR, ont t extraits par Praat au niveau du segment. Un exemple de variation de F0 (tremolo, voix tremblante) est donn dans la Figure 5-7. tel-00624085, version 1 - 15 Sep 2011
Figure 5-7. Exemple de voix tremblante (variation de F0), extrait annot dtresse/dsespoir/tristesse.
Lnergie, les paramtres spectraux et les formants ont seulement t extraits sur les parties voises (i.e. parties o Praat dtecte la F0). Certains signaux, comme les voix chuchotes en particulier (Figure 5-8) ont trs peu dindices.
- 107 -
Figure 5-8. Exemple dune voix chuchote avec trs peu dindices. tel-00624085, version 1 - 15 Sep 2011
En rsum
La Figure 5-9 rcapitule les diffrents types de paramtres acoustiques extraits automatiquement et leurs traitements.
Signal Extraction et traitement de lacoustique
F0 toutes les 10ms
Filtre valeurs aberrantes segments petits
Paramtres extraits
F0 min,F0 max pente F0
F0 corrige
Praat
En min..
F1min, F2 min
Outils Limsi
15 mfcc et
- 108 -
Alignement Phonmique
Le corpus a t segment en phonmes 1 en utilisant des modles acoustiques indpendants du contexte, mis au point au Limsi pour des conversations tlphoniques. La procdure (cf. Figure 5-10), fonde sur lalignement dynamique de modles de Markov cachs densit continue, indpendants du contexte, est dcrite dans [Adda-Decker 1999]. Elle ncessite une transcription orthographique fine de la parole, avec tous les phnomnes de disfluences que cela comporte : les lapsus, mots tronqus, hsitations ainsi quun dictionnaire contenant les diffrentes prononciations possibles (transcription phontique base sur 36 phonmes) de tous les tel-00624085, version 1 - 15 Sep 2011 mots du lexique (121k mots). A partir des donnes audio, de leur transcription manuelle et du dictionnaire de prononciations, le dcodeur produit la squence de phonmes ralise la plus probable et leur association temporelle. Les rsultats produits par le dcodeur dpendent bien sr du degr de finesse avec lequel a t labor le dictionnaire, des modles acoustiques et plus gnralement des paramtres du systme.
dictionnaire de prononciations
alignement
segmentation en phonmes
signal de parole
Figure 5-10. Lalignement phonmique. Ont t extraits de la transcription et de lalignement phonmique : des marqueurs affectifs : nombre de rires, de pleurs, de respirations, de mots inintelligibles, de mots tronqus, nombre de mots par segment et dbit (#nombre mots/longueur du signal) des disfluences : nombre dhsitations euh et leur dure
- 109 -
Chapitre 5 5BLes paramtres des informations sur les dures des phonmes 1. En particulier, nous avons regard la dure moyenne et maximum des phonmes et le dbit phonmique (nombre de phonmes diviss par la longueur de la phrase). Ces mmes paramtres ont t calculs pour les voyelles seulement.
phonmes/s
13.0 12.0 11.0 10.0 9.0 8.0 7.0 6.0 5.0 4.0
debPhones F
a.
105 100 95 90
220 300 280 260 240
85 80 75 70
DureeMoy_F
DureeMoy_H
DureeMax_F
Duree_Max_H
b.
c.
Figure 5-11. Quelques paramtres issus de lalignement phonmique pour les classes motionnelles Peur/Colre/Tristesse/Neutre/Soulagement ; a. : dbit phonmique et #voyelles/dure du segment pour les 5 motions en regardant les hommes et les femmes sparment ;, b. : dure moyenne des phonmes, c. : dure maximum des phonmes.
Les frquences des formants pour les voyelles nont pas t ajoutes aux paramtres, faute de temps
- 110 -
Chapitre 5 5BLes paramtres La Figure 5-11 donne un aperu de la variation de certains paramtres obtenus aprs alignement phonmique pour les 5 classes motionnelles Peur, Colre, Soulagement et Neutre. Dans une tude sur les donnes boursires [Devillers et al. 2004], nous avions tudi les dures des silences et hsitations. Les rsultats montraient que les silences taient plus prsents et plus longs chez les appelants que chez les agents (le rle de lagent empche la manifestation de silences) et plus nombreux pour les motions ngatives que neutre ou positives. De mme ltude montrait la corrlation entre le nombre de euh et les segments tiquets peur/inquitude . En rsum, le nombre dindices par type est donn dans le Tableau 5-2. Type de paramtre tel-00624085, version 1 - 15 Sep 2011
coefficients MFCC
Description
minimum et maximum des 15 coefficients cepstraux, coefficients et F0 : min, mdian, premier et troisime quartile, maximum, moyenne, dviation standard, plage au niveau du segment, pente (moyenne et max) pour le segment vois. Coefficient de rgression et son erreur quadratique moyenne (calcul sur les parties voides), variation maximale de F0 entre 2 segments voiss adjacents. (inter-segment) et pour chaque segment vois (intra-segment), position sur laxe de temps o est maximum (resp. minimum), ratio du nombre de segments voiss et non voiss. Dures: dbit (inverse de la dure moyenne des parties voises), nombre et longueur des silences (portions non voises entre 200-800 ms). formants et leurs bandes passantes, diffrence entre le troisime et le second formant, diffrence entre le second et le premier formant : min, max, moyenne, dviation standard, plage. min, max, moyenne, dviation standard et plage au niveau du segment. pente (moyenne et max) sur les parties voises, coefficient de rgression et erreur quadratique moyenne. jitter, shimmer, NHR, HNR inspiration, expiration, bruits de bouche, rires, pleurs, nombre de mots tronqus et de paroles inintelligible, nombre de mots, dbit (#mots/dure du segment). Disfluences : nombre de euh dure moyenne et maximum des phonmes, dbit phonmique (#phonmes/ dure du segment), longueur (max et moyenne) des hsitations.
# indices
90
25
Paramtres spectraux (extraits sur les parties voises du signal et normaliss) Energie (Normalise) Microprosodie Trans1 : indices extraits de la transcription Trans2 : Dures obtenues aprs alignement phonmique
48 20 14 11 11
- 111 -
PZNorme =
P moyenneLoc Sd Loc
PNorme = log
P P min Loc
Normalisation de Nearey [Adank 2003] (est censer liminer les diffrences dues aux diffrentes longueurs du conduit vocal)
PNea =
log P Moyenne(log( Pi ))
Un exemple de segment normalis avec les diffrentes mthodes est donn Figure 5-12. La normalisation ne semble pas lisser la courbe.
- 112 -
Figure 5-12. Comparaison entre les courbes de F0 sans normalisation, en utilisant la Z-norme, la normalisation de Shriberg et celle de Nearey. - 113 -
>
Tableau 5-3. Comparaison entre la review de Scherer (cf.Tableau 5-1) et les donnes CEMO. Les conclusions partages sont surlignes en jaune et celles diffrentes barres en rouge. - 114 -
Figure 5-13. Triangle vocalique des femmes pour les motions Neutre/Peur/Colre/Tristesse (normalisation de Nearey.
- 115 -
Figure 5-14.Triangle vocalique des hommes pour les motions Neutre/Peur/Colre/Tristesse (normalisation de Nearey).
- 116 -
- 117 -
5.3. Conclusion
Dans ce chapitre, nous avons dcrit une multitude dindices diffrents pouvant tre extrait pour la dtection des motions avec en particulier des indices prosodiques, spectraux pouvant tre extraits automatiquement, et que nous qualifierons de blind dans la suite de cette thse et dautres ncessitant un traitement manuel, bien quil nest pas exclu quils puissent tre exclus automatiquement dans les annes venir. Nous avons dcrit en dtail les mesures dduites de ces indices avec au total plus dune centaine de paramtres extraits pour chaque segment, certains trs locaux comme par exemple le maximum et dautres globaux comme la moyenne. Nous avons galement insist sur la ncessit de normaliser ces paramtres en prsentant plusieurs mthodes de normalisation. Certains sont trs redondantes et une stratgie usuelle sera de leurs appliquer des algorithmes de slection. tel-00624085, version 1 - 15 Sep 2011 Quels sont les plus pertinents ? Sont-ils tous ncessaires ? En quoi leur combinaison pourra-t-elle amliorer la dtection ? Cest ce qui est abord dans le prochain chapitre.
- 118 -
- 119 -
With a 20h corpus rich in emotions, how many emotion classes could be discriminated? What are the best algorithms and the most relevant parameters? How to optimize the results? Is there a difference between the speaker roles (agent vs. caller), between the genders? Can we use our method for other type of data? And how well do classifiers trained on our corpus perform on other data? In this chapter, we will start with a description of the algorithms that we used and the data preprocessing. We will then describe the experiments performed on the LIMSI corpora with several goals: - number of classes to discriminate - role of the context (Agent/Caller, Gender) - relative importance of several cues - combination of prosodic and linguistic information We will then present the forced co-operation CEICES (Combining Efforts for Improving Automatic Classication.of Emotional User States) in FP6-HUMAINE in which several sites compared and combined their expertise on a corpus of interactions between children and the sony dog AIBO. Finally we will look into the performances of classifiers trained with our data on other data collected both in similar acoustic conditions (call center with a different task) and on acted speech (data collected by the university of Geneva).
- 120 -
6.1. 6.1.1.
LAPPRENTISSAGE AUTOMATIQUE : CADRE GENERAL POUR NOS TRAVAUX ......................................... 123 Algorithmes .................................................................................................................................... 124
Les arbres de dcision .......................................................................................................................... 124 Les Sparateurs Vaste Marge (SVM : Support Vector Machine) ...................................................... 125
6.1.1.1. 6.1.1.2.
6.1.2.
6.1.2.1.
Donnes non quilibres............................................................................................................................................ 128 6.1.2.2. Comment reprsenter et valuer les rsultats ?..................................................................................... 129
La slection des attributs................................................................................................................ 131 QUEL ALGORITHME UTILISER ? PREMIERS RESULTATS : TRANSACTION BOURSIERES / CEMO ............ 133 Comparaison de diffrents algorithmes sur les donnes boursires et CEMO pour la classification
de 2 classes................................................................................................................................................... 133
Donnes boursires.................................................................................................................................................... 133
Intrt de ne pas utiliser les mlanges : exemple Peur/Colre sur CEMO et donnes boursires. 135 Combien de donnes pour lapprentissage ? ................................................................................. 135 Quelle normalisation ?................................................................................................................... 136 SUR LES DONNEES CEMO ................................................................................................................... 137 Informations contextuelles : Diffrences Agents/Appelants, Hommes/Femmes............................. 137
6.3.2. 6.3.3.
Variation du nombre de classes ..................................................................................................... 140 Le poids des diffrents types dattributs paralinguistiques : le cas de la dtection dans le cas des 5
6.3.4.
Description du modle lexical ................................................................................................................................... 147 Combinaison linaire entre les modles lexicaux et prosodiques pour les donnes boursires ................................. 147 Expriences sur le corpus CEMO.............................................................................................................................. 149
UTILISATION DE NOS METHODES SUR DES DONNEES DIFFERENTES : CEICES (COMBINING EFFORTS FOR Coopration dans le cadre du rseau dexcellence humaine ......................................................... 150 Le corpus AIBO.............................................................................................................................. 150 Schma dencodage des paramtres. ............................................................................................. 151 Comparaison des performances par site........................................................................................ 152 Impact des erreurs dextraction du pitch ....................................................................................... 152 Impact de diffrents types de paramtres....................................................................................... 153
- 121 -
Conclusions gnrales sur les donnes AIBO ................................................................................ 154 PORTABILITE SUR DES DONNEES DIFFERENTES .................................................................................... 155 Sur les donnes boursires............................................................................................................. 156 GEMEP (GEneva Multimodal Emotion Portrayals)...................................................................... 159
Description des donnes ............................................................................................................................................ 159 Classification Peur/Colre/Tristesse/Soulagement .................................................................................................... 161 Classification Peur/Colre ......................................................................................................................................... 165 Conclusion pour les donnes GEMEP....................................................................................................................... 166
6.6. 6.7.
VERS UNE MODELISATION PLUS FINE ET TEMPORELLE ......................................................................... 167 CONCLUSION ....................................................................................................................................... 170
- 122 -
nos travaux
Lapprentissage peut tre dfini comme toute technique permettant damliorer les performances dun systme en cours dutilisation [Kodratoff et Bars 1991] Nous nous intresserons dans nos travaux lapprentissage supervis : partir dun nombre limit dobservations (dans notre cas des segments avec une tiquette motion), nous cherchons estimer la classe de donnes 1 inconnues. Nous appellerons classifieur ou modle (ou encore modle computationnel pour bien le diffrencier dun modle thorique) lobjet permettant dassocier un nom de classe une instance inconnue. On entrane tout dabord le classifieur sur un ensemble de donnes (appel ensemble dapprentissage ou training set en anglais). Le classifieur est valu sur un ensemble de donnes tiquetes qui nont pas t utilises pour lapprentissage et le rsultat de cette valuation peut tre reprsent par une matrice de confusion. Les algorithmes que nous avons utiliss sont principalement les arbres de dcision et les Support Vector Machine] (ou SVM) [Vapnik 1998]. Pour toutes nos expriences, nous avons utilis le logiciel libre Weka [Witten et Franck 2005] qui est un ensemble doutils de fouille de donnes permettant le traitement et la slection des paramtres et proposant diffrents algorithmes dapprentissage. Ce logiciel est actuellement de plus en plus utilis dans la communaut de reconnaissance des formes. Il englobe de nombreux
Donne : Ensemble de valeurs prises par un ou plusieurs descripteurs dun objet ou dun vnement [Kodratoff et Bars 1991]
- 123 -
Chapitre 6_ Apprentissage pour la dtection des motions algorithmes connus comme par exemple les SVM, les arbres de dcision (J48), ainsi que Mta algorithmes 1. Au cours de la thse, le nombre de paramtre extraits a rgulirement volu et la plupart des expriences dcrites dans ce chapitre ont t ralises avec lensemble de paramtres le plus rcent dcrits en dtail dans le chapitre 5. Avant de prsenter nos rsultats, nous allons tout dabord rapidement dcrire les principaux algorithmes qui ont t utiliss.
6.1.1. Algorithmes
6.1.1.1. Les arbres de dcision tel-00624085, version 1 - 15 Sep 2011 Les arbres de dcision sont des mthodes de classification pour des instances reprsentes dans un formalisme attributs/valeur. Un arbre est la reprsentation graphique dune structure dans laquelle un nud appel le pre est reli un ou plusieurs autres nuds, les fils. [] Formellement, on le dfinit comme un graphe connexe sans cycle. [] Un nud sans pre est appel la racine de larbre. Le nud sans fils est appel une feuille. [Kodratoff et Bars 1991] Un arbre de dcision est un arbre dont chaque nud correspond un choix (une dcision) et dont les fils sont les consquences de ce choix Il existe diffrents algorithmes dapprentissage des arbres de dcisions comme par exemple les Logistic Model Trees [Landwehr et al. 2003], qui sont des arbres de classification avec des fonctions de rgression linaire aux feuilles ou l Alternative decision tree ADTree [Freund et Shapire 1996] qui combine par vote pondr les rsultats de plusieurs arbres.
Approche de plus en plus populaire qui consiste combiner les sorties de diffrents modles par
un vote ou en moyennant des diffrentes prdictions dans le cas de prdictions numriques. - 124 -
6.1.1.2.
Lide des SVM (Support Vector Machine ou Sparateurs Vaste Marge [Vapnik 1998]) est de trouver le meilleur hyperplan sparateur permettant de sparer deux ensembles de points, c'est-dire celui pour lequel la distance minimale aux exemples dapprentissage est maximale. Cette distance est appele marge . (cf. Figure 6-1).
Figure 6-1. Hyperplan optimal de marge 1/||w|| (schma tir de l'article de Cornujols [Cornujols 2002]).
S est lchantillon dapprentissage S= {(x1, u1), (x2, u2), , (xm, um)} On cherche h(x)= w0 + wTx tq soit encore ui(w0 + w xi ) > 0 La recherche de lhyperplan optimal revient minimiser ||w||. Le problme se rsout mathmatiquement [Cornujols et Miclet 2002] et la solution ne requiert que le calcul de produits scalaires. La contrainte des marges peut tre relche en introduisant une variable ressort permettant de tolrer un certain nombre derreur. Une constante C dfinie par lutilisateur va alors borner le nombre derreurs tolres. Pour des chantillons non linairement sparables, la solution est de projeter les donnes dans un espace de dimension suprieur (potentiellement infini) dans lequel il existe un hyperplan - 125 T
Chapitre 6_ Apprentissage pour la dtection des motions permettant de sparer linairement les donnes. Cependant quand lespace est grand, le calcul des produits scalaires devient impraticable. Une solution est alors dutiliser des fonctions bilinaires symtriques positives appeles fonctions noyaux, faciles calculer et qui correspondent un produit scalaire dans un espace de grande dimension. En pratique, on choisit une fonction noyau que lon sait correspondre un produit scalaire dans un espace alors virtuel et on regarde si elle permet dobtenir de bonnes fonctions de dcision. (Il est ncessaire doprer alors par essai erreur). Les fonctions noyaux les plus utilises sont indiques dans le Tableau 6-1 ci-dessous.
Linaire Polynomiale RBF (a base radiale) Sigmodes K(xi, xj)=xiTxj K(xi, xj) = (xiTxj + r)d, > 0. K(xi, xj)= exp(-||xi_xj||2), > 0 K(xi, xj)=tanh= (xiTxj + r)
Tableau 6-1. Fonctions noyaux les plus utilises. r, d et sont des paramtres des fonctions noyaux.
Au final, pour utiliser les SVM, lutilisateur doit simplement choisir le coefficient C, qui rgle le compromis entre la marge possible entre les exemples et le nombre derreurs admissibles, la fonction noyau et ses paramtres. Il est conseill de commencer avec les RBF car en pratique, ils donnent de bons rsultats [Chih et al. 2003].
- 126 -
6.1.2.1. Apprentissage et test/Validation croise Pour Cabena [Witten et Franck 2005 p60], 60% du travail pour la fouille de donnes est dans la prparation des donnes. Idalement, il faut sparer les donnes en 3 ensembles : un ensemble dapprentissage, un ensemble de calibration et un ensemble de test. Une solution lorsquon dispose de peu de donnes est la validation croise. On divise les donnes en N ensembles, un est utilis pour le test et les autres pour lapprentissage et ceci pour les N sous ensembles. Le score de bonne dtection est alors la moyenne des N scores avec un intervalle de confiance donn par la dviation standard des N scores. Cependant, la validation croise sert principalement valuer les donnes et le logiciel Weka ne permet pas dobtenir un classifieur afin de faire des tests sur des donnes nouvelles 1. Nous aurions pu faire manuellement la validation croise en sparant les donnes en N ensembles en prenant soin davoir des locuteurs diffrents dans chaque sous ensemble et une distribution peu prs identique des motions ; puis entranant un classifieur pour chaque sous ensemble. Finalement, pour les expriences les plus rcentes, nous avons divis les donnes en un ensemble dapprentissage et un ensemble de test avec des locuteurs diffrents. Le nombre de
Le logiciel weka, pour la validation croise avec N ensembles, ne donne pas les performances respectives sur chaque sous-ensemble, mais seulement un score moyen. Si on lui demande de tester le model sur un ensemble de test distinct, il recrera un classifieur partir de lensemble complet dapprentissage. De plus, lutilisateur a seulement accs aux rsultats globaux et ne peut pas contrler la distribution des motions ou celle des locuteurs par sous ensemble.
1
- 127 -
Chapitre 6_ Apprentissage pour la dtection des motions segments utiliss pour lapprentissage et le test varient selon les motions que lon cherche discriminer. Toutes les expriences ont cependant t effectues avec plus de 250 segments par motion pour lapprentissage.
SVM C et G best
CL score
Figure 6-2. Obtenir des donnes quilibres pour lapprentissage : un exemple pour une classification Peur/Colre/Tristesse/Soulagement/Neutre avec des donnes non quilibres pour lapprentissage et en utilisant des SVM .
- 128 -
Chapitre 6_ Apprentissage pour la dtection des motions 6.1.2.2. Comment reprsenter et valuer les rsultats ? Nayant pas dapplication prcise en vue, nous cherchons obtenir la meilleure dtection possible sans favoriser dmotions et en pnalisant les falses negatives . Une reprsentation complte des rsultats est la matrice de confusion, mais la plupart des tudes prsentent galement leurs rsultats sous la forme dun taux de dtection, ce qui permet de comparer plus facilement les diffrentes expriences et de donner un rsultat dli des donnes qui ont servi lobtenir. Dans certaines des tudes, le score qui est donn est le score de bonne dtection ou RR rate (Nombre de bonne dtection/ Nombre total de segments). Dans le cas de classes non quilibres, ce score nest pas ncessairement trs significatif 1, surtout si certaines motions sont mieux reconnues que dautres et le score RR risque de varier selon la distribution de lensemble de test. Nous avons donc choisi dvaluer nos rsultats en utilisant le CL score (Class_wise : moyenne de tel-00624085, version 1 - 15 Sep 2011 la diagonale de la matrice, cf. Figure 6-3). Ainsi, les scores de dtection ne dpendront pas de la distribution de lensemble de test et pour les meilleurs modles, le taux de reconnaissance par motion est peu prs celui donn par le CL score. Une autre mesure intressante est la prcision par motion, le nombre de fois o une motion est correctement identifie divis par le nombre de fois o elle est identifie (bien ou mal). Score
RR (Recognition Rate) CL (Class wise) FF score Prcision (par motion i) Recall (par motion i)
formule
Matrice de confusion :
Reconnue comme E1 Ei En m11 m1i m1n
ii
Total
mii 1 n mi
C l a s s e
RR + CL 2
mii mi + mi . mii mi
E1 . . . . . . . . Ei mi1 mii min . . . . . . . . En mn1 mni mnn Total m1. mi. mn.
Total m1 mi mn
En prenant le cas extrme o la distribution des motions correspond celle des motions dans des donnes relles, avec en gnral 80% de donnes neutre , un modle qui classerait tout en Neutre aurait un trs bon pourcentage de bonne dtection, mais ne prsenterait pas un grand intrt.
- 129 -
xN
Traini
Fonction random weka CL score SVM
Intervalle de confiance
Testi
Figure 6-4. Cration de N classifieurs en faisant varier les ensembles dapprentissage et de test afin davoir un aperu de la variabilit des rsultats.
Pour une mme tche, les performances varient suivant les donnes utilises pour lapprentissage (pour celles du test galement, si on dispose de trop peu de donnes). Pour les tches simples pour lesquelles on dispose de beaucoup de segments, cette variation est infrieure 1%, mais elle peut tre plus importante lorsquon travaille sur beaucoup de classes et peu de donnes.
- 130 -
Tableau 6-2. 24 meilleurs paramtres (sur 129) pour 4 tches diffrentes. Peur/Neutre, Colre/Neutre, Peur/Colre et Peur/Colre/Surprise. Nous avons galement compar la slection globale des paramtres (un algorithme de slection des paramtres est appliqu lensemble des paramtres) et la selection en faisant une slection spare pour chaque classe 1 : prosodie, nergie, formants, mais navons pas observ de diffrence significative dans les performances, bien que celles avec la slection globale semblent lgrement meilleures.
6.2. Quel
algorithme
utiliser ?
Premiers
rsultats :
Donnes boursires
Nos premires expriences (voir Tableau 6-3) comparaient : des arbres de dcision (C4.5 et ADTree), des SVM et un voting algorithme (Adaboost) [Freund et Shapire 1996] pour une tche de dtection Neutre/Ngatif en procdant par validation croise avec 50 paramtres.
C4.5 5best 10best 15best 20best Allatt 72,8 ( 5,2) 73,0 ( 5,3) 71,7 ( 6,4) 71,8 ( 5,3) 69,4 (5,6) AdaBoost 71,2 (4,5) 71,5( 4,8) 71,1( 4,7) 71,3( 4,3) 71,7 (4,3) ADTree 72,3(4,6) 73,0( 5,7) 71,6( 4,9) 71,8( 5,1) 71,6 (4,8) SVM 67,2(6,3 ) 69,5( 5,6) 70,8( 4,9) 71,0( 4,9) 69,6 (3,5)
Tableau 6-3. Algorithmes et slection des attributs : comparaison des performances Neutre/Ngatif (Peur et Colre); RR score avec les meilleurs attributs1 et Allatt : tous les attributs. Le tableau montre la moyenne de segments bien classifis pour 30 executions. Le nombre entre parenthses est la dviation standard. Ce type dexprience a t rpt pour diffrentes tches et nous navons pas constat de diffrences significatives entre les diffrents algorithmes, ni de dtrioration en ne slectionnant que peu de paramtres.
Pour cette tche, les paramtres les plus pertinents taient principalement des paramtres lis la F0 (plage F0, maximum F0, pente F0, F0 minimum, coefficient rgression F0 et son erreur quadratique moyenne, dviation standard de la F0, Inter-segment F,0 Intra-segment F0), lnergie (plage de lnergie, moyenne de lnergie, nergie maximum) aux formants et largeur de bande (moyenne F1 , moyenne F2, moyenne BW1, plage F2), des paramtres de disfluences(# hsitations (euh), #pauses) et des marqueurs affectifs (bruits de bouche, nombre de rires).
1
- 133 -
Donnes CEMO
Les paramtres extraits taient les mmes que ceux extraits pour les donnes boursires avec en plus des disfluences. Sur ces donnes, nous avons compar un SVM et un LMT (Logistic Model Tree [Smith et Abel 1999], qui est un arbre de classification avec des fonctions de rgression au niveau des feuilles (voir Tableau 6-4 ci-dessous).
SVM 5best 10best 15best 20best Allatt 80,28 (3,71) 82,68 (3,17) 83,17 (2,94) 83,36 (3,02) 83,16 (2,74) LMT 80,69 (3,14) 82,65 (3,28) 83,49 (3,03) 83,42 (3,35) 82,85 (3,36)
Tableau 6-4. Algorithmes et slection des attributs : comparaison des performances de dtection Positif/Ngatif avec les meilleurs paramtres ; Allatt: tous les paramtres. Le tableau montre la moyenne de segments bien classifis pour 100 executions. Le nombre entre parenthses est la dviation standard.
Les mmes tendances sobservent pour les deux corpus : il ny a pas de diffrences significatives entre les diffrents algorithmes et la slection des paramtres na pas une incidence ngative sur les performances. En accord avec dautres tudes dans plusieurs domaines incluant celui des motions[Lee et al. 2002] [Schuller et al. 2005], les SVM, et en particulier ceux noyaux RBF savrent donner de bons rsultats quelle que soit la tche et sont assez simples entraner. La seule difficult est de trouver les coefficients C et Gamma, qui dpendent du type de donnes et de la tche. Comme il ny a pas de rgles ou de mthodes pour les choisir de manire optimale, nous les faisons varier afin de trouver les plus adapts.
- 134 -
6.2.2. Intrt de ne pas utiliser les mlanges : exemple Peur/Colre sur CEMO et donnes boursires.
Lannotation des donnes CEMO et lutilisation dun vecteur motion comme tiquette permettent de distinguer les segments simples et les motions complexes. Sur les donnes boursires, nous avions constat (voir chapitre Annotation) que les scores de dtection pour la classification Peur/Colre taient assez faibles (60% de bonne dtection environ) et que cela pouvait peut tre sexpliquer par le nombre lev de mlanges Peur/Colre parmi les segments utiliss pour lapprentissage[Vidrascu et Devillers 2005a]. Nous avons effectu des expriences similaires de classification Peur/Colre pour les donnes CEMO avec des SVM en utilisant ou non des mlanges pour lapprentissage. Les performances sont significativement meilleures 1 lorsque les mlanges sont retirs de lapprentissage avec un score tel-00624085, version 1 - 15 Sep 2011 CL de 82% de bonne dtection sans mlanges, contre 78% avec mlanges. Paralllement, un mme modle aura des meilleures performances sur un ensemble de test sans mlanges. Toutefois, les performances, mme avec les mlanges sont bien meilleures que pour les donnes boursires. Plusieurs raisons sont possibles. Tout dabord plus de segments sont utiliss pour lapprentissage (il y a plus de 800 segments par motion dans CEMO contre 192 Peur et 243 Colre dans les donnes boursires). De plus, les motions sont beaucoup plus contrles et moins intenses dans les donnes boursires. Le fait de ne pas utiliser de mlanges dmotions dans lapprentissage des modles permet ainsi d'avoir de meilleures performances et pour toutes les expriences dcrites dans ce chapitre, les segments correspondant des mlanges dmotions ne seront pas utiliss.
Chaque exprience a t rpte 250 fois avec les mmes donnes en test et en faisant varier lensemble dapprentissage (avec et sans mlanges). Un t-test entre les 2 ensembles de rsultats donnait p<0.0001 (diffrence trs significative).
- 135 -
score RR 80 75 70 65 60 55 50
score CL
50
1
100
2
150
200
4
250
5
300
6
350
7
(# de segments/Emotion)
Figure 6-5. Evolution des scores CL et RR sur un mme ensemble de test pour la classification Peur/Colre/Neutre en faisant varier le nombre de segments par motion pour lapprentissage. (Il ny a que 180 segments distincts pour la colre qui sont alatoirement dupliqus au dessus de 250 segments par motion. Les donnes de test ne sont pas quilibres (moins de Colre qui est la classe la moins bien reconnue). Dans beaucoup de cas, le fait de dupliquer les segments de la classe la moins reprsente permet damliorer les performances. Cest ce qui est illustr par Figure 6-5, qui donne les scores RR et CL pour une classification Peur/Colre/Neutre en fonction du nombre de segments par classe dmotion. Le nombre de segments distincts pour la classe Colre est de 180, mais le fait den dupliquer afin davoir plus de varits de Peur et de Neutre pour lentranement permet damliorer le modle
- 136 -
Agent/Appelant
tel-00624085, version 1 - 15 Sep 2011 Nous avons tout dabord regard les diffrences suivant le rle du locuteur (Agent/Appelant) en comparant les performances de systmes de dtection entrans et tests uniquement sur des agents ou uniquement sur des appelants. Les motions exprimes par les agents et clients tant diffrentes, il est difficile de comparer les classifications avec beaucoup de classes.
SVM AdTree
Agent
Caller Appelant
Figure 6-6. Comparaison des performances(RR score avec des ensembles quilibrs) de la dtection Neutre/Ngatif entre les agents et les appelants. Le nombre entre parenthses est la dviation standard. Procdure de validation croise avec N = 10 sous-ensembles et 10 excutions.
- 137 -
Chapitre 6_ Apprentissage pour la dtection des motions La Figure 6-6 ci-dessus illustre le cas de modles 2 classes. Les expriences ont t ralises en dbut de thse avec 50 paramtres. Elles avaient t effectues avec une procdure de validation croise N = 10 sous-ensembles. Les scores donns dans le Tableau 6-7 sont des RR scores. Pour ces expriences, la rpartition des donnes tait quilibre par classe. Le rle des locuteurs semble avoir un impact sur les performances. Les appelants expriment plus clairement leurs motions ngatives que les agents (80 % vs 73 % de bonne dtection), ce qui est tout fait logique dans ce type de tche. Ces expriences effectues sur 20h confirmaient des premires expriences ralises sur un sous corpus de 10 heures [Devillers et Vidrascu 2006b] alors que toutes les donnes ntaient pas transcrites
Hommes/Femmes
tel-00624085, version 1 - 15 Sep 2011 Encore une fois cause du nombre insuffisant de segments pour certaines motions, les expriences ont t faites avec peu de classes et Peur, Colre et Soulagement pour la Figure 6-7 cidessous. Les expriences ont t faites en utilisant soit uniquement des hommes, soit uniquement des femmes pour lapprentissage et en testant galement sparment sur des hommes et des femmes.
test_Hommes 90 85 80 75 70 65 60 0 test_Femmes
Figure 6-7. Comparaison des performances pour des classifieurs entrains seulement soit sur des hommes (train_H), soit sur des femmes (train_F). Dans le cas Peur/Neutre, les performances sont relativement comparables quelles que soient les donnes dentranement et de test. Ce nest pas le cas pour la classification Peur/Neutre/Soulagement o les scores de bonne dtection sont meilleurs lorsque le systme a t - 138 -
Chapitre 6_ Apprentissage pour la dtection des motions entran sur des locuteurs du mme sexe. Il faudrait faire dautres expriences pour vois si ces diffrences se manifestent pour des tches de dtection complexes (beaucoup de classes ou des classes trs proches) ou pour certaines classes dmotions spcifiques. Des tudes ont dailleurs montr des diffrences hommes/femmes dont lexpression des motions, la colre tant par exemple plus passive chez les femmes [Fischer 1993], celles-ci pleurant plus que les hommes.
- 139 -
80 75 70 65 60 55 50
Fe/N 1 Fe/Sd 2
Ag/N 3
Ax/St Fe/Ag 4 5
Sd/N 6
Classe Neutre Soulagement Ngatif Tristesse Colre Peur Stress Anxit Total
Apprentissage #Segments/#Locuteurs 2000 (551 locuteurs) 189 (122 locuteurs) 500 (316 locuteurs) 250 (102 locuteurs) 180 (56 locuteurs) 2000 (555 locuteurs) 243 (138 locuteurs) 244 (180 locuteurs) 5850 (678 locuteurs)
Test #Segments /#Locuteurs 1448 (169 locuteurs) 108 (80 locuteurs) 993 (164 locuteurs) 101 (40 locuteurs) 50 (24 locuteurs) 808 (151 locuteurs) 83 (35 locuteurs) 243 (93 locuteurs) 4505 (209 locuteurs)
Figure 6-8. Rsultats de classification en passant de 2 5 classes dmotions ; Fe : Peur, N : Neutre, Sd : Tristesse, Ag : Colre, Ax : Anxit, St : Stress, Re : Soulagement. Le nombre de segments distincts utiliss par motion pour lapprentissage et le test est indiqu dans le tableau. Les barres verticales indiquent la dviation standard des performances lorsque lexprience est rpte 200 fois.
- 140 -
6.3.3. Le poids des diffrents types dattributs paralinguistiques : le cas de la dtection dans le cas des 5 classes Peur/Colre/Tristesse/Soulagement/Neutre
Pour des tches simples du type classification Ngatif/Neutre, on obtient facilement des scores de dtection de lordre de 80% en nutilisant que trs peu dindices et en se limitant une catgorie, voire sous catgorie de paramtres (par exemple seulement des indices dduits de la F0). Cependant, pour des tches plus complexes (motions moins distinctes, ou plus grand nombre de classes Emotion), il devient utile de mlanger des indices les plus varis possibles afin de tenir compte de la grande variabilit des expressions vocales dans le discours spontan. Nous nous sommes intresss diffrentes catgories de paramtres pertinents pour la dtection des motions en nous intressant particulirement au cas de la classification en 5 classes tel-00624085, version 1 - 15 Sep 2011 motions[Vidrascu et Devillers 2007]. Les paramtres ont t diviss en plusieurs types, similaires ceux utiliss dans les tudes CEICES (voir p150) avec une distinction entre ceux qui peuvent tre extraits automatiquement sans intervention humaine ( blind : paramtres prosodiques, spectraux, microprosodie) et les autres (dures obtenues aprs alignement phonmique, paramtres extraits de la transcription) La liste des paramtres est rsume dans le Tableau 6-5.
Type de paramtres
Description F0 (normalise par locuteurs) position sur laxe temporaire o F0 est maximum (resp. minimum) Energie (normalise) Dures : dbit, silences ratio du nombre de segments voiss et non voiss 3 premiers formants et leurs bandes passantes, F3-F2, F2-F1 (normaliss) jitter, shimmer, NHR, HNR inspiration, expiration, bruits bouche, rires, pleurs, mots tronqus. Disfluences : euh Longueur des phonemes debit phonmique taille des hsitations
# params
Paramtres prosodiques
45
48 14 11
11
- 141 -
Tableau 6-6. Nombre de paramtres slectionns pour chaque classe de paramtres. tel-00624085, version 1 - 15 Sep 2011 Le Tableau 6-6 ci-dessus indique le nombre dattributs slectionns par classe dattributs. Limportance de combiner diffrentes classes est reflte par le fait que des attributs de chaque classe ont t slectionns. Parmi les plus utiles, on trouve des marqueurs affectifs (pleurs, voix inintelligible), des disfluences (nombre et longueur des hsitations), des dures (dbit (#mots/dure du signal ; #phonmes/dure du signal, 1/dure moyenne des segments voiss)) et des paramtres de microprosodie (jitter, shimmer, HNR). Ceci sexplique aussi par le fait que ces paramtres sont peu prsents dans le corpus bien quils soient des marqueurs extrmement utiles lorsquils sont prsents. Le traitement dun grand nombre de paramtres est ncessaire mme si pour certains ils sont plus exceptionnels (tout le monde ne pleure pas quand il est triste, mais si ce paramtre est prsent on a une grande chance que la personne soit triste). Peu de paramtres lis aux formants ont t retenu.
- 142 -
Rsultats avec les paramtres en mode blind, c'est--dire sans aucune connaissance du contenu
La Figure 6-9 indique les diffrentes performances en utilisant seulement les paramtres blind Les rsultats sont au dessus du taux de hasard (20% avec 5 classes galement distribues) et les performances sont comparables pour F0, Energie et Formants. Le fait de les combiner amliore de manire significative les performances.
CL (%)
50
45
40
35
30 0
MFCC
En
Figure 6-9. Score CL (5 classes) avec F0 : seulement des paramtres relies la F0, Fts: Formants et leur bande passante, En: nergie, MFCC, All* (107 paramtres) : tous les paramtres blind . Les barres verticales indiquent la dviation standard des rsultats. Contrairement aux rsultats obtenus avec des donnes de magicien dOz par [Vogt et Andre 2005], pour nos donnes tlphoniques, les MFCCs, mme sils donnent des rsultats au dessus du hasard ne sont pas aussi performants que les paramtres prosodiques ou les formants.
F0
Fts*
All*
5
- 143 -
55
50
45
40
35
Trans2 Trans
25att 25att
Trans1 Ali
All All
Acc Blind*
5,5
Figure 6-10. CL score pour 5 classes Peur Colre Tristesse Soulagement et Neutre avec diffrents ensembles dindices. Blind : extraits automatiquement (F0, formants, nergie, prosodie), correspond au All* de la figure prcdente, trans1 : indices extraits de la transcription manuelle ; trans2: dures phonmiques, 25 best: 25 meilleurs paramtres.
- 144 -
80 70 60 50 40 30 20 0.2
Peur Colre Tristesse Soulagement Neutre 1.2 2.2 3.2 4.2 5.2
blind
trans1
trans2
25best
Figure 6-11. CL score par motion (Peur, Colre, Tristesse, Soulagement + tat Neutre) pour les paramtres blind vs. paramtres dduits de la transcription (trans1) vs. paramtres dduits de lalignement phonmique (trans2) vs. 25meilleurs paramtres. La bonne reconnaissance du Soulagement avec les indices dduits de lalignement phonmique peut tre explique par le fait quil y a moins dhsitations et dallongement phonmiques que pour les autres motions. Pour ltat Neutre, il y a peu de marqueurs affectifs et dhsitations par rapport aux motions et le dbit (nombre de mots/dure du signal) est plus lent que pour la parole - 145 -
Chapitre 6_ Apprentissage pour la dtection des motions motionnelle, ce qui pourrait expliquer les bonnes performances en utilisant uniquement les indices dduits de la transcription manuelle. La Figure 6-12 est donne titre illustratif afin de montrer le poids des diffrents types dindices.
90 85 80 75 70 65 60 55 50 45 40 35 30
NgNeu TrNeu
PeTr
ClNeu
PeCl
PeNeu
10
11
12
Figure 6-12. Performances pour diffrentes tches de classification en nutilisant quun seul type dindice (formant : formants et leur bande passante, F0 :F0 et dures, trans1 : indices extraits de la transcription, trans2 : indices extraits de lalignement phonmique). Ng : Ngatif ; Neu : Neutre ;Pe :Peur ; Cl :colre ;Tr :Tristesse ; 4emots :Peur/Colre/Tristesse/Neutre ; 5emots :Peur/Colre/Tristesse/Soulagement/Neutre.
- 146 -
u wu
tf(w,u)log
P(w/ E)+(1)P(w)
P( w )
L'motion d'une phrase inconnue est dtermine par le modle obtenant le score le plus haut pour la phrase u tant donn le modle d'motions E bas sur les N motions tiquetes dans le corpus ; o P(w/E) est la probabilit maximale estime de la probabilit d'un mot w tant donn le modle d'motions, P(w) est la probabilit gnrale dpendant de la tche du mot w dans le corpus d'entranement, tf(w,u) sont les frquences des termes dans la phrase inconnue u, et Lu est la longueur de la phrase en mots. Le modle gnral a t estim sur tout le corpus d'entranement. Les scores de dtection augmentent de manire significative lorsqu'on considre deux classes principales d'motions, Positives vs Ngatives.
Combinaison linaire entre les modles lexicaux et prosodiques pour les donnes boursires
Les donnes ont t divises en 10 sous-ensembles de 50 tours de parole. Neuf taient utiliss pour lapprentissage et 1 pour le test ; lexprience tait rpte pour chaque sous ensemble [Vidrascu et Devillers 2005a]. - 147 -
Chapitre 6_ Apprentissage pour la dtection des motions Un score de prdiction par motion tait obtenu avec le modle lexical uni-gramme et un autre avec un arbre de dcision (AdTree, 39 indices extraits). Le pourcentage de bonne dtection est de 71% peu prs avec le modle lexical et avec le modle prosodique. Pour chaque ensemble de test, les prdictions par motions avec les 2 modles ont t combines linairement et les rsultats sont donns Figure 6-13. Le score moyen de reconnaissance aprs mlange est de 76,6%, soit un gain de plus de 5%. Ce rsultat, mme sil nest pas gnralisable car obtenu sur peu de donnes, va dans le sens dautres expriences [Forbes-Riley et Litman 2004] [Narayanan 2002], et montre que le lexical apporte de nouvelles informations utiles pour la dtection des motions.
Combining Lexical and Paralinguistic scores
80 70 60 1 2 3 4 5 6 7 8 9 10
Lexical Paralinguistic Lexical + Paralinguistic
- 148 -
Tableau 6-7. Sous-corpus utilis pour les tests avec un modle lexical et paralinguistique. Les scores obtenus avec le modle lexical et avec le modle paralinguistique ont t compars. Avec le modle lexical aprs normalisation, les quatre motions sont dtectes avec environ 67,2% de bonne dtection. Le Tableau 6-8 compare les scores de dtection obtenus par classe avec le modle lexical et le modle paralinguistique.
Total Colre Peur Soulagement Tristesse #Segments % rec. modle lexical % rec. modle acoustique 640 78 61 49 59 43 384 90 58 107 86 71 100 34 68
Tableau 6-8. Rpartition pour les 4 classes avec les modles lexicaux et prosodiques. Avec le modle lexical, le meilleur score est obtenu pour la classe Peur et le pire pour la classe Tristesse. Le score lev obtenu pour Soulagement est li aux marqueurs lexicaux spcifiques de cette classe (tels que merci, daccord). A linverse, la tristesse serait ici plus lie des marqueurs syntaxiques et prosodiques que lexicaux. Les principales confusions ont lieu entre Peur et Tristesse dune part et Peur et Colre dautre part. Comme pour le modle lexical, la classe la mieux reconnue avec le modle paralinguistique est la peur (64%) et la pire est la colre (39%), mais le score reste au dessus de la chance. Cela peut tre du au fait que la Peur (Inquitude/Stress) est souvent en arrire plan de tous les appels et que la colre est souvent mlange. Ltape suivante serait de combiner plus astucieusement quavec une combinaison linaire le rsultat des deux modlisations.
- 149 -
6.4. Utilisation
de
nos
mthodes
sur
des
donnes for
diffrentes :
CEICES
(Combining
Efforts
1 Par exemple, on peut sattendre avoir de meilleurs rsultats avec des paramtres calculs manuellement que automatiquement.
- 150 -
Chapitre 6_ Apprentissage pour la dtection des motions que le robot leur rpondait, alors quil tait en fait contrl par un oprateur humain. AIBO pouvait ainsi dsobir et provoquer des ractions motionnelles du type colre. Le corpus a t annot au niveau du mot par 5 tudiants en linguistique avec un choix de 11 tiquettes motion . A cause de linsuffisance des donnes pour certaines classes, un sous corpus a t conserv avec les tiquettes Motherese (valence positive, ton maternel), Neutral (neutre : classe par dfaut), Emphatic (insistance, situation pr-ngative ) Angry (colre) (Tableau 6-11). Le corpus peut tre tudi plusieurs niveaux et en particulier le mot, la phrase et le chunk (les rgles syntactiques et prosodiques pour le dcoupage sont dtailles dans [Batliner et al. 2007])
Motherese Neutral Emphatic Angry 586 1998 1045 914
Tableau 6-9. Frquence des motions dans le corpus AIBO pour le dcoupage en chunks. tel-00624085, version 1 - 15 Sep 2011
Figure 6-14. Exemple de codage de paramtres LIMSI lissu du workshop Erlangen. Malgr laspect complexe de ce protocole, il permet disoler facilement des types de paramtres afin de pouvoir les comparer. - 151 -
87 103 32 25 84 26 24
19 9 26 6 10 9 24
17 1 9 -
22 5 73 -
6 2 6 5 -
62 50 14 3 -
3 -
Tableau 6-10. Paramtres et classifieurs : par site, # de paramtres avant/aprs la slection des attributs ; # par type de paramtres, et par domaine; classifieur utilis, RR et CL scores, utilis ou non pour le ROVER ; de [Batliner et al. 2006] En mlangeant les meilleurs paramtres de chaque site et en re-slectionnant les meilleurs dentre eux (Tableau 6-11), les performances ont t amliores ; chaque site contribuant cette amlioration. Lorsque les classifications sont combines par ROVER, les scores CL et RR atteignent les 62% (voir [Schuller et al. 2007a] pour plus de dtails)
Classifieur LDA SVM RF RR 58.8 61.8 60.8 CL 56.3 57.9 58.7
Tableau 6-11. Classification en combinant les meilleurs paramtres parmi les 381 de tous les sites avec 3 classifieurs.
- 152 -
# 153 333 656 1699 216 265 391 3713 4 8 31 12 476 531 4244
FRF 51.1 56.6 57.1 55.7 56.5 59.3 60.1 62.5 25.2 24.2 54.1 57.7 60.2 60.2 64.0
Tableau 6-12. Rsultats de la classification, # : nombre de paramtre par type dattributs ; F-scores pour tous les paramtres (full) ou un ensemble avec un nombre rduit de paramtres ( reduced) en utilisant SVM ou random forrest ( RF)[Schuller et al. 2007a]. Dans cette tude, le paramtre acoustique le plus important sest avr tre lnergie et le moins important la qualit vocale. Les paramtres lexicaux avaient un impact trs important et en particulier les Part of Speech (pour les donnes AIBO, 6 classes comprenant: nom, verbe, auxiliaire et dcrites en dtail dans [Batliner et al. 1998] ).
77Part
- 153 -
- 154 -
- 155 -
Classification Colre/Neutre
85
80
75
70
65
Majorit des segments reconnus comme
60 0.5
train_CEMO_Ag
1.5
train_CEMO_App
2.5
train_Corpus1
3.5
Colre Neutre
Colre Neutre
Figure 6-15. Score CL pour la classification Colre/Neutre avec diffrentes donnes en apprentissage et en test : train_CEMO_Ag : agents du corpus CEMO, train_CEMO_App : appelants du corpus CEMO, train_Corpus1 : appelants du corpus de donnes boursires. Les matrices de confusion sont donnes en gris pour les cas o le corpus 1 est en test avec les agents ou appelants de CEMO en apprentissage. - 156 -
Chapitre 6_ Apprentissage pour la dtection des motions On voit sur la Figure 6-15 que lorsque lapprentissage et le test sont effectus sur les mmes donnes, plus de 80% de bonne reconnaissance est obtenue sur les donnes CEMO et environ 75% sur les donnes boursires. Comme nous lavions vu avec nos premires expriences (p 137), la colre des agents et des appelants dans CEMO sexprime diffremment, non seulement en intensit, mais aussi en qualit (colre froide contre colre chaude). Ainsi la colre des agents est mieux reconnue par un classifieur entran sur des agents que par un classifueur entran sur des appelants et inversement pour les appelants. Il semblerait que la colre des appelants CEMO soit mieux reconnue avec un modle agent que celle des agents avec un modle appelant . Toutefois, les scores sont suprieurs 75% de bonne reconnaissance dans touts les cas. Par contre, les scores de reconnaissance pour la colre des appelants des donnes boursires avec les modles CEMO sont assez bas (de lordre de 65%), mme sils sont suprieurs au hasard. On peut remarquer dans lexprience represente Figure 6-15 quavec le modle Agent CEMO , la tel-00624085, version 1 - 15 Sep 2011 plupart des segments des donnes boursires sont reconnus comme de la colre alors que pour le modle Appelant CEMO , on est plus proche du point dgale erreur, ce qui semblerait indiquer que le modle appelant CEMO est meilleur que celui agent CEMO pour reconnatre la colre des appelants donnes boursires . Dailleurs, si on fait lexprience inverse en entranant un systme sur les donnes boursires et en testant sur les agents et appelants CEMO, la colre des appelants CEMO est bien mieux reconnue que celle des agents CEMO. Qui plus est, elle est mme mieux reconnue que lensemble de test des donnes boursires. On peut noter galement que dans lexprience, la colre des appelants CEMO est mieux reconnue par un modle Appelant donnes boursires que par un modle agent CEMO , malgr les diffrences certaines dans lenregistrement des donnes. Nous avons voulu vrifier que ces tendances observes sur les appelants CEMO et appelants de donnes boursires sobservaient galement pour dautres tches (nombre dmotions et classes dmotions diffrentes). Les rsultats sont donnes Figure 6-16 avec la dtection Peur/Neutre et Peur/Colre/Neutre pour les appelants CEMO ou BOURSE. L encore, pour les classifieurs entrans sur les donnes CEMO, les scores sont bien meilleurs sur les donnes CEMO que sur les donnes boursires, bien que suprieures au taux du hasard et pour les classifieurs entrans sur les donnes boursires, les scores sont peu prs identiques pour les donnes boursires et les donnes CEMO. Dans tous les cas, les performances sont meilleures quand lapprentissage et le test sont raliss sur les mmes donnes.
- 157 -
test_CEMO
90 85 80 75 70 65 60 55 50
test_Corpus1
45
train_Corpus1 0 train_CEMO 1 2 PEUR/NEUTRE
Figure 6-16. Score CL pour la classification Peur/Neutre et Peur/colre/Neutre avec des classifieurs entrans et tests sur les appelants CEMO ou sur les appelants du corpus de donnes boursires : train_CEMO : appelants du corpus CEMO, train_Corpus1 : appelants du corpus de donnes boursires. Ces expriences semblent indiquer quil est tout fait envisageable dutiliser un classifieur sur des donnes issues dapplication diffrentes que les donnes ayant servies lentraner. Il faut toutefois tre alors trs prcis sur la dfinition des motions que lon cherche reconnatre et prendre en compte galement leur intensit. On aura de meilleures performances en utilisant un classifieur entran sur des donnes moins intenses que plus intenses. Cependant, mme en ne tenant pas compte de toutes ces variations (intensit, dfinition des motions, etc.), les scores restent suprieurs au niveau du hasard.
- 158 -
Chapitre 6_ Apprentissage pour la dtection des motions Les diffrentes conditions incluaient : deux phrases pseudo-linguistiques (sans contenu linguistique) labores laide dun phonticien, la premire ralise comme une affirmation, la seconde comme une question une expression prononce sur une voyelle soutenue A de la parole improvise avec un contenu lexical libre. Le projet GEMEP tant en cours, la qualit expressive des squences navait pas t value au moment de lexprience (pas de test perceptif pour vrifier que les motions joues par les acteurs taient bien reconnues). Dans un premier temps, nous avons slectionn les tiquettes comparables celles du corpus CEMO. Elles correspondent aux grandes classes Peur (inquitude peur-panique), Colre (irritation, colre chaude), Tristesse (tristesse/dsespoir) et Soulagement (soulagement) 78. Les caractristiques des donnes que nous avons utilises sont indiques Tableau 6-14.
Emotion Inquitude Peur-panique Irritation Colre chaude Tristesse Dsespoir Soulagement Mode Normal Moins intense Plus intense Masqu Contenu Phrase 1 : N kal ibam soud moln ! Phrase 2 : Koun s mina lod blam ? Jouer de manire naturelle avec contenu verbal libre Expression vocale base sur une voyelle soutenue AAA
En utilisant les mmes outils que pour les donnes CEMO, nous avons extraits avec Praat les indices acoustiques 79 (F0, formants, microprosodie) pour chaque segment GEMEP. Nous avons slectionnes les donnes correspondant aux deux phrases et au contenu verbal libre et les avons testes sur les classifieurs Peur/Colre/Tristesse/Soulagement et Peur/Colre entrans sur le corpus CEMO avec uniquement des indices acoustiques. (Il na pas t demand aux acteurs de jouer un tat neutre, bien que lintrt dans GEMEP corresponde un tat affectif dintensit relativement faible qui pourrait sen rapprocher. Cependant, comme la valence est positive et que nous avons une tiquette Intrt dans CEMO, nous ne pouvions pas assimiler la classe Intrt de GEMEP au Neutre de CEMO et navons donc pas test avec des classifieurs Neutre/Ngatif).
Nous navons pas regard la surprise et lintrt car ces motions ont t peu tudies dans CEMO. Lnergie dpendant des conditions denregistrement, nous ne lavons pas extraite pour les expriences dcrites ici. Les mmes expriences avec extraction de lnergie en plus donnaient peu prs les mmes rsultats.
78 79
- 160 -
Classification Peur/Colre/Tristesse/Soulagement
Apprentissage sur CEMO/Test sur GEMEP Sur les donnes CEMO (voix dappelants) testes avec des locuteurs diffrents de ceux utiliss par lapprentissage (cf. matrice de confusion Tableau 6-15), les performances sans indices lexicaux ntaient pas trs leves bien que suprieures au niveau du hasard (taux de reconnaissance CL de lordre de 51% cf. Tableau 6-15) Peur Peur ( 808 sgts) Colre (79 sgts) Tristesse (105 sgts) Soulagement (106 sgts) tel-00624085, version 1 - 15 Sep 2011
58 19 20 5
Colre
21 44 17 16
Tristesse Soulagement
12 19 49 25 9 18 14 55
Tableau 6-15. Matrice de confusion pour le classifieur Peur/Colre/Tristesse/Soulagement (avec uniquement des indices acoustiques) pour des segments du corpus CEMO(appelants) en apprentissage et en test avec des locuteurs diffrents de ceux utiliss pour lapprentissage ; sgts indique le nombre de segments classifis. Les rsultats sont donns en pourcentage par motion. Par exemple, 21% des segments Peur ont t reconnus comme de la colre. Les pourcentages de reconnaissance par motion pour les donnes GEMEP (en ne gardant que les phrases 1 et 2 et les phrases improvises) avec le mme classifieur sont donnes Tableau 6-16. Globalement, les classifieurs entrans sur CEMO ne fonctionnent pas du tout sur les donnes GEMEP. Pour les modes peu intense et masqu, toutes les motions GEMEP sont principalement reconnues comme de la tristesse. Cest quasiment le cas galement pour le mode normal et intense, lexception de la colre qui est assez bien reconnue (presque mieux que la colre des donnes CEMO). La colre semble tre encore mieux reconnue pour les donnes plus intenses (2/3 des segments colre reconnus contre 44% pour les donnes normales), mais il faudrait plus de segments pour pouvoir le vrifier. Par contre lirritation nest absolument pas reconnue comme de la colre. La peur-panique et linquitude ne sont reconnues non plus comme de la peur, ce qui peut tre du en partie aux grandes variations dans lexpression de la peur dans le corpus CEMO assez loignes de son expression prototypique. De mme, ltiquette soulagement avait t utilise pour dcrire un type de raction motionnel trs spcifique dans le corpus CEMO (tat de lappelant en fin de conversation lorsquil sait quune aide va lui tre apporte), qui peut tre assez loigne de la manire dont les acteurs vont lexprimer. Nous avons finalement dcid de nous focaliser sur les donnes normales et intenses. La question sest pose de savoir si les mauvaises performances taient dues aux diffrentes conditions denregistrement. - 161 -
intense: CL=28% Peu inq (94) 2 19 23 17 4 4 25 peu (42) irr (39) col (29) tris (49) des (46) soul (57) Col 23 45 13 66 4 26 9 Tris 52 21 64 7 92 48 63 Soul 22 14 0 10 0 22 4
masqu: CL=10% Peu inq (102) Peu (82) irr (69) col (53) Tris (73) Des (47) Soul (76) 15 20 32 21 3 11 16 Col 17 9 6 4 0 0 3 Tris 45 55 55 45 90 72 68 Soul 24 17 7 30 7 17 13
Tableau 6-16. Matrices de confusion pour les segments du corpus GEMEP (inq : inquitude ; peu : peur ; irr : irritation ; col : colre ; tris : tristesse ;des :dsespoir ; soul : soulagement ; le nombre entre parenthses donne le nombre de segments par motion) avec le mme classifieur que le Tableau 6-15 entrain sur les donnes CEMO. Les rsultats sont donns en pourcentage par motion pour chaque mode (normal, peu intense, intense, masqu). Par exemple en mode normal, 8% des segments inquitude ont t reconnus comme de la Peur.
Transformation des signaux GEMEP Les signaux audio GEMEP ont t transforms afin de pouvoir tre compar des donnes tlphoniques : rchantillonnage pour passer de 44kHz 8Hz limination des basses frquences avec un filtre passe bande (bande tlphone 300Hz3.4kHz) ajout dun bruit de fond tlphonique (obtenu partir dun fichier CEMO) Cette transformation na pas eu dincidence sur les rsultats.
- 162 -
Chapitre 6_ Apprentissage pour la dtection des motions Elimination des mauvais acteurs Comme le remarquent dautres chercheurs ayant travaill sur les donnes GEMEP 80, les performances varient significativement suivant les acteurs. Nous avons regard les performances par acteur toujours avec le classifieur entran sur les donnes CEMO, et retir 3 acteurs pour qui aucune motion ntait reconnue. Cela peut tre du de mauvaises performances ou un prototype de la colre diffrent de la colre exprime dans les donnes CEMO. Les rsultats pour les donnes normales et intenses sont donns Tableau 6-17.
7 meilleurs locuteurs Peu Col Tris Soul Inq (394) peu (135) Irr (216) col (127) tris (201) des (157) soul (250)
Phrase 1 Peu Col Tris Soul inq (130) peu (51) irr (66) col (38) tris (79) des (74) 5 15 9 13 9 0 3 74 31 70 3 84 66 8 8 6 8 8 11 4 inq (64) peu (40) irr (49) col (36) tris (41) des (38) soul (74) 18 43 26 63
4 9 6 20
11 7 2 6
71 38 75 9 81 45 70
13 15 8 17 10 8 4
Phrase libre Peu Col Tris Soul inq (200) peu (44) irr (101) col (53) tris (81) des (45) 4 7 5 10 66 8 6 6 74 11 74 66 20 34 11 28 15 7 10 5 25 36 9 51 0 2 6 11 7 3 1
10 37 13 61 11 36
14 42 34
37 53
11 24 58
soul (114) 28
soul (62) 18
Tableau 6-17. Matrices de confusion pour les donnes (normales + intenses) du corpus GEMEP aprs avoir retir 3 mauvais locuteurs (inq : inquitude ; peu : peur irr : irritation ; col :colre ; tris :tristesse ; des :dsespoir ; soul : soulagement ; le nombre entre parenthses donne le nombre de segments par motion) avec le mme classifieur que le Tableau 6-15 entrain sur les donnes CEMO. Les rsultats sont donns en pourcentage par motion puis en dtaillant par rapport au type de contenu. Par exemple pour la phrase 1 N kal ibam soud moln ! , 5% des segments prononcs avec inquitude ont t reconnus comme de la Peur.
80
- 163 -
Chapitre 6_ Apprentissage pour la dtection des motions Seule la colre est reconnue 81 61%. Elle semble dailleurs tre mieux reconnue avec les phrases sans contenu linguistique, peut-tre parce que tout doit tre cod dans la prosodie (plus de 60% de reconnaissance de la colre pour les 2 phrases, contre 51% pour limprovisation). Apprentissage sur GEMEP/Test sur CEMO Nous avons tout dabord regroup {inquitude et peur-panique} en une classe Peur, {irritation et colre chaude} en une classe Colre et {tristesse et dsespoir} en une classe Tristesse. Nous avons gard 7 acteurs pour lapprentissage et 3 pour le test. Les rsultats de classification Peur/Colre/Tristesse/Soulagement taient trs bas, peut tre cause des diffrences entre des tiquettes traditionnellement appartenant la mme catgorie (peur vs. inquitude, colre vs. irritation). Cela confirme dailleurs les observations du paragraphe prcdent sur les diffrences entre les taux de reconnaissance pour la colre et lirritation de GEMEP avec un classifieur tel-00624085, version 1 - 15 Sep 2011 entran sur les donnes CEMO. Finalement, nous avons conserv les tiquettes peur-panique, colre, tristesse82 et soulagement et un SVM a t utilis pour entraner les donnes 83 en suivant exactement la mme procdure que pour les donnes CEMO. La matrice de confusion sur les 3 locuteurs du test est donne Tableau 6-18. Y figurent galement les performances pour les motions inquitude, irritation et dsespoir, qui ne sont pas utilises dans lapprentissage.
Peur Colre Tristesse Soulagement
inquitude (171)
peur (75)
9
69
39
31
21
0
30
0
irritation (95)
colre (64) tristesse (104)
4
19 2
35
73 4
17
0 66
44
8 28
dsespoir (93)
soulagement (123)
59
6
38
11 CL=69%
2
14
1
69
Tableau 6-18. Rsultat en pourcentage par motion pour la classification Peur/Colre/Tristesse/Soulagement sur les donnes GEMEP en apprentissage et en test. Les donnes ont t entraines avec un SVM sur les motions peur, colre, tristesse et soulagement de 7 locuteurs et testes sur les 3 locuteurs restants. Les nombres entre parenthses correspondent au nombre de segments tests. On pourrait sattendre ce que lirritation soit majoritairement reconnue comme de la Colre et linquitude comme de la Peur, mais ce nest pas du tout le cas.
Il nest pas possible de tirer de conclusion pour la tristesse cause du nombre important de fausses dtections. Nous avons galement essay avec dsespoir la place de tristesse en pensant que lmotion serait mieux reconnue tant plus forte , mais ce ntait pas le cas. 83 Mmes donnes que pour lexprience prcdente : phrases 1,2 et libre dans les modes normal et intense
81 82
- 164 -
Le score CL pour GEMEP, en ne comptabilisant que les motions utilises pour lapprentissage, est de lordre de 70% (pas doptimisation tel que slection des meilleurs locuteurs, attributs). Lexprience a t rpte en slectionnant des locuteurs diffrents pour le test et lapprentissage et le score CL restait autour de 70% de bonne dtection. Nos outils et paramtres extraits semblent donc se transposer assez facilement pour des donnes actes. Les performances de dtection sont dailleurs bien meilleures avec les donnes actes. Lorsque les donnes CEMO sont utilises en test pour ce mme modle (Tableau 6-19), rien nmerge. La majorit des motions semblent reconnus comme de la colre.
Peur peur (1168) 1 3 5 8 colre (382) tristesse (334) soulagement (295) Colre 47 59 45 59 Tristesse 6 6 11 10 Soulagement 45 33 39 23
Tableau 6-19. Matrice de confusion en pourcentage par motion pour les donnes CEMO testes avec un modle entran sur GEMEP.
Classification Peur/Colre
Aucun rsultat concluant na t obtenu en testant les donnes GEMEP sur un modle Peur/Colre CEMO. Nous avons essay deux modles, un entran sur des clients CEMO qui classifiait 80% des donnes comme de la colre, et un entran avec la colre des agents (colre froide), o cette fois-ci tout tait class comme de la peur. La peur exprime dans les donnes GEMEP semble ne rien avoir en commun avec celle exprime dans CEMO et la colre GEMEP pourrait correspondre la colre chaude CEMO.
- 165 -
- 166 -
le traitement dun ensemble de fichiers audio et ventuellement de leurs transcriptions soit en entranant des modles avec ou non slection de paramtre, soit en les utilisant en test de modles connus. Une capture dcran pour lextraction des paramtres est donne Figure 6-17.
Figure 6-17. Capture dcran de longlet dextraction des paramtres qui permet de calculer entre autre les paramtres acoustiques laide de Praat et ceux dduits de la transcription sils sont fournis. Par exemple, pour traiter les 20 heures de donnes CEMO (30 000 fichiers : ~147Go, soit en moyenne 4,9 Mo pour chaque fichier), il faut 30 heures pour extraire tous les paramtres acoustiques avec Praat (F0, energie, formants toutes les 10ms et marqueurs affectifs), puis 5 heures pour associer chaque fichier tous ses indices. Le temps dapprentissage dpend de la taille de lensemble dapprentissage et des algorithmes utiliss. Les rsultats pour un ensemble de fichier sont prsents sous la forme dune matrice de confusion. Linterface permet galement de voir les probabilits avec un modle donn de classe motionnelle pour un segment motion isol, le
- 167 -
Chapitre 6_ Apprentissage pour la dtection des motions temps de dcodage est alors 2 * TR et le rsultat peut tre prsent sous la forme dun histogramme (cf. Figure 6-18).
La maquette nous a permis de faire des premiers tests des modles entrans sur CEMO sur des segments provenant de donnes relles en anglais, ainsi que de donnes actes et relles en Franais et pour un classifieur Colre/Neutre, les rsultats semblaient trs prometteurs. Les donnes relles que nous voudrons tester ne seront pas toujours dcoupes en segments et dans le futur, il faudra pouvoir avoir une dtection temporelle dynamique des motions. Nous avons utilis linterface pour explorer deux dcoupages assez grossiers pour dcouper un flux audio, lun en choisissant une fentre de taille fixe rglable qui se dplace avec un pas galement rglable ; et lautre en dcoupant le signal au niveau des silences (partie non voise de dure suprieure un seuil dfini par lutilisateur). Un exemple est donn Figure 6-19 en dcoupant le signal laide des parties non voises de plus de 30ms. Ces expriences ont t ralises sur quelques signaux audio assez courts (quelques minutes) mais sont assez intressantes et montrent laspect dynamique des motions ainsi que les transitions rapides dune motion lautre. - 168 -
Figure 6-19. Exemple de dcoupage en 3 segments motions pour un classifieur Neutre/Colre, chaque motion est reprsente par une couleur et il est possible dobtenir des prcisions pour chaque segment.
- 169 -
6.7. Conclusion
Des expriences prliminaires ont permis de vrifier quil ny avait pas de diffrences significatives entre les diffrents algorithmes et que la slection des paramtres semblait amliorer les performances. Nous avons donc dcid dutiliser des SVM noyau radial pour la suite de nos expriences et de combiner les rsultats de diffrents algorithmes pour slectionner les attributs. Nous avons galement vrifi le bien-fond du retrait des segments complexes de lensemble dapprentissage et du test pour avoir de meilleurs systmes et de doubler certains segments de lensemble dapprentissage pour les classes peu reprsentes. Une fois arrt sur ces choix, nous avons dans un premier temps effectu une batterie dexpriences sur le corpus CEMO afin dtudier les diffrences de contexte facilement observable (homme/femmes, agents/appelants), les diffrentes classes dattributs et enfin les performances en tel-00624085, version 1 - 15 Sep 2011 faisant varier le nombre de classes discrimines (de 80% de bonnes dtection avec 2 classes 55% avec 5 classes). Nous avons galement vrifi limportance de lextraction dun grand nombre dindices, la fois lexicaux et paralinguistiques, les diffrents indices tant plus ou moins pertinents selon lmotion laquelle on sintresse. Notre participation CEICES nous a permis de vrifier que notre mthodologie fonctionnait bien sur des donnes diffrentes dans une autre langue et que les performances obtenues avec nos systmes taient comparables celles dautres sites sintressant la dtection des motions. Cette collaboration nous a galement amen aborder dautres sujets de rflexions et notamment le calcul des indices extraits et la manire de les nommer la plus explicite possible. Nous avons galement pu comparer la F0 obtenue par Praat avec une correction manuelle de la F0 84. Nous avons galement constat que les modles entrans sur nos donnes pouvaient donner de bonnes performances sur des donnes similaires, mais ne marchaient globalement pas sur des donnes actes. Certaines motions comme la colre semblent plus robustes au changement de contexte. Enfin, les donnes relles que nous voudrons tester ne seront pas toujours dcoupes en segment, aussi nous avons commenc rflchir une dtection des motions sur des sous-segments temporels. Une interface de dmonstration a permis dexplorer deux dcoupages assez grossiers pour dcouper un flux audio, lun en choisissant une fentre de taille fixe rglable qui se dplace
84
- 170 -
Chapitre 6_ Apprentissage pour la dtection des motions avec un pas galement rglable ; et lautre en dcoupant le signal au niveau des silences . Une valuation de la dtection des motions sur ces sous-units est un de nos projets court terme.
- 171 -
Chapitre 7
tel-00624085, version 1 - 15 Sep 2011
Conclusion et Perspectives
- 172 -
- 173 -
7.2. Perspectives
Les travaux raliss dans le cadre de cette thse peuvent tre prolongs dans plusieurs directions. Les schmas et expriences dannotation des motions sont rutilisables aprs adaptation aux diffrentes tches et ont contribu la dfinition des besoins en termes dannotation des motions au sein du groupe de travail W3C Emotion Incubator Group (http://www.w3.org/2005/Incubator/emotion/). Nous navons dailleurs pas pris en compte lannotation des dimensions continues dans nos travaux et il serait intressant de les exploiter, par exemple en les ajoutant lensemble dindices ou en tudiant les corrlations entre tiquettes et axes. Laspect multilingue est un des aspects qui nous intressent. Cependant, bien que nous ayons tel-00624085, version 1 - 15 Sep 2011 abord cet aspect multilingue travers nos expriences sur le corpus AIBO (corpus en allemand) et sur quelques donnes en anglais, il est probable que nos modles ne soient pas efficaces sur des donnes trs diffrentes comme par exemple pour les langues asiatiques ou les diffrences sont la fois culturelles et tonales. En plus, certains paramtres, comme les marqueurs affectifs peuvent avoir des significations compltement opposes dune langue lautre. Par exemple bah/boa qui serait un bon indicateur de dgot en franais ou en anglais exprime ladmiration en allemand. Nous visons galement un traitement compltement automatique de lextraction des indices. Si on peut envisager une dtection automatique de certains marqueurs comme le rire ou les hsitations, ce nest pas le cas pour dautres indices pourtant trs performants (longueur des phonmes, mots tronqus ou inintelligibles). Par contre, il pourrait tre intressant de prendre en compte, comme le font dj certaine tudes, le contexte dialogique et par exemple dajouter les actes de dialogue, qui eux commencent pouvoir tre dtects automatiquement [Rosset et al. 2007] et une perspective serait de comparer notre approche avec ces nouvelles tendances. Nous voudrions aussi poursuivre nos expriences afin de combiner au mieux un modle lexical et un modle paralinguistique. Il faudrait galement envisager une approche plus dynamique pour traiter les motions afin davoir une analyse en temps rel. Actuellement les segments sont considrs comme des units statiques desquels on extrait un ensemble de paramtre, mais on pourrait extraire des paramtres sur des fentres temporelles ainsi que nous avons commenc ltudier et prendre en compte les motions des segments prcdents, par exemple en utilisant des HMMs. Nous navons pas remis en cause lutilisation des SVM, mais des travaux rcents semblent montrer que des arbres du type random forest permettent dobtenir de meilleurs modles [Schuller et al. - 174 -
Chapitre 7 _ Conclusions et perspectives 2007] et la tendance est aux mta-algorithmes qui combinent les sorties de diffrents algorithmes dapprentissage. Une autre tendance est dannoter sur des axes abstraits, quitte les projeter ensuite dans un espace motionnel, ce qui a pour avantage de ne pas ncessiter de choisir un nombre dmotions dtecter et de ne pas ncessiter de dfinitions[Grimm et Kroschel 2007]. Une autre problmatique est de trouver la meilleure faon dexploiter les mlanges dmotions. Nous les avons analys et le fait de les annoter nous permet de filtrer les segments utiliss pour lapprentissage lors de la discrimination dmotions pures . Est-ce que ces mlanges sont spcifiques nos donnes. Peut on envisager de pouvoir les dtecter ? Enfin, pour ce qui est de savoir si un module de dtection des motions pourrait permettre damliorer les systmes de reconnaissance de la parole, un premier travail est en cours pour tel-00624085, version 1 - 15 Sep 2011 valuer les performances dun systme de reconnaissance de la parole sur des donnes motionnelles. Ce travail montre, en premier rsultat, que limpact des motions sur les performances du systme de reconnaissance va dpendre du type dmotion prsente. Certaines comme le soulagement dans le cas du corpus CEMO seront exprimes assez souvent par le canal linguistique avec des phrases assez simples (merci beaucoup) et sont susceptibles dtre bien reconnues, ce qui sera moins vident pour lexpression de la peur ou du stress. A plus long terme, nous nous interrogeons galement sur la dtection de laudio tlphonique compare celle de laudio dans la multimodalit. Les indices sont-ils diffrents. Comment prendre en compte les informations donnes par les autres modalits ? En conclusion, peu de travaux sur les motions portent sur ltude des corpus oraux spontans, tout dabord parce que la collecte de tels corpus est difficile pour des raisons de confidentialit lies aux donnes et galement parce quelle est trs coteuse. Comme les diffrentes tudes se font rarement sur un mme corpus, il nexiste pas encore de protocoles dvaluation des systmes de dtection des motions. Lexprience CEICES du rseau Humaine est pour linstant unique. Les rsultats obtenus dans cette thse sont principalement des schmas dannotation ainsi que des protocoles de validation, des tests perceptifs, des tudes sur les indices caractrisant certaines motions en majorit ngatives (comme peur, colre) dans des donnes spontanes et enfin la mise en uvre de systmes de dtection des motions pour diffrentes tches ainsi que des premires valuations sur leur robustesse. Nous avons galement mis en avant la prsence dmotions complexes mlanges dans des donnes orales relles. - 175 -
De nombreuses tudes sur des donnes naturelles sont encore ncessaires pour dtecter les comportements motionnels complexes ou proches (par exemple diffrencier lirritation du stress ou de la colre) mme si sur peu de classes, par exemple 2 classes (colre, neutre), les scores de prdiction sont dj intressants pour imaginer dans un futur proche de premires applications notamment en fouille de donnes.
- 176 -
IV Annexes
- 177 -
http://www.alleydog.com/glossary/definition.cfm?term=Emotion: Emotion: Most people have little problem recognizing and identifying when we are having an emotion. However, emotion is one of the most difficult concepts in Psychology to define. In fact, emotion is such a difficult concept to define adequately that there are at least 90 different definitions of emotions in the scientific literature. A simple definition of emotion is that it is a response by a whole organism, involving (1) physical arousal, (2) expressive behaviors, and (3) conscious experience. tel-00624085, version 1 - 15 Sep 2011
[Lang et al. 1997 p173]: "For the layman the basic datum of an emotion is a state of feeling, i.e.., a direct experience or internal apprehension, requiring no further definition. [Averill 1996]: emotion is derived from the latin e + movere. It originally means to migrate or to transfer from one place to another. It also was used to refer to states of agitation and perturbation, both physical and psychological. [Gellhorn et Loofbourrow 1963 p409]: "emotion is a fact upon which all introspection agrees. Anxiety, depression, elation, indifference, anger, fear, pleasurable anticipation and dread, for example, are undeniable because there are states which we have experienced personnaly." [Caffi et Janney 1994] : phnomne empiriquement investigable, gnralement transitoire et dune certaine intensit qui se manifeste au niveau linguistique de diffrentes manires par le choix des mots, lintonation, les exclamations [Caffi et Janney 1994 p327]: Western psychologists commonly distinguish between feelings, a broad, complex class of subjective personal sensations or states of inner physiological arousal; emotions, a restricted subset of empirically investigable phenomena within this general class that are relatively transitory, of a certain intensity, and are attached to, or triggered by, particular objects, ideas, or outer incentive events; moods, which are said to be of longer duration than emotions, and not necessarily attached to specific inner states or definite objects; and attitudes, or - 178 -
Annexe1_Quelques dfinitions de lmotion transitory feeling states with partly uncontrollable subconscious psychobiological components and partly controllable expressive components, which are said to be instrumental in maintaining social and psychological equilibrium and adapting to different situations. The term affect is usually reserved for feeling states that are ascribed to others on the basis of their observable behaviour in different situations. In cognitive psychology, notions of affect range from hot to cold extremes. At the hotter end, affect is used almost synonymously with emotion as defined above. At the cooler end, it is used to refer simply to human preferences, attitudes, or likes and dislikes, and to adaptive choices related to these. [] In linguistics, on the other hand, the term affect is often simply used as a broad synonym for feeling. (Scherer 1999, http://emotion-research.net/restricted/contract/technical_annex.pdf). tel-00624085, version 1 - 15 Sep 2011 We consider emotion in an inclusive sense rather than in the narrow sense of episodes where a strong rush of feeling briefly dominates a persons awareness we have called those fullblown emotions [Scherer 1993] : "Episode of temporary synchronisation of all major subsystems of organismic functioning represented by five components (cognition, physiological regulation, motivation, motor expression and monitoring/feeling) in response to the evaluation of an external or internal stimulus event as relevant to central concerns of the organism" [Schachter et Singer 1962 p380] cit dans [Cornelius 1996]: "[A]n emotional state may be considered a function of a state of physiological arousal and of a cognition appropriate to this state of arousal" Toates dans [Hamilton et al. 1988]: p15: "Emotion is seen as an evolutionary development that accompanied the emergence of flexibility and learning skills in relatively advanced animals. It serves motivation and learning. In the present model, emotion is triggered in part by comparison between an expectation based upon a goal set by the motivation system ('Sollwert') and the actual state that prevails ('Istwert'). Emotion can be positive (outcome equal to or better than expected) or negative (outcome worse than expected, as assumed by Grey, 1971)
- 179 -
Annexe1_Quelques dfinitions de lmotion p16 : "I would suggest that what we call 'emotion' in everyday speech refers to subjective feelings arising from a compound of the stimuli that impinge upon us, their appraisal, the memories that they evoke and the course of goal directed activity that is investigated, or at least suggested, by their appraisal." [Plutchik et Kellerman 1990 p4]: "A major element in both the implicit and explicit views of emotion is that an emotion is a subjective feeling of a certain kind -- the kind for which labels such as angry, disgusted, and afraid are appropriate. However, there is considerable evidence to suggest that this is too narrow a way to define emotions" [Lazarus et al. 1980 p198]: "Emotions are complex, organized states consisting of cognitive appraisals, action impulses, and patterned somatic reactions. Each emotion quality (e.g. anger, tel-00624085, version 1 - 15 Sep 2011 anxiety, joy) is distinguished by a different pattern of components, which is what urges the analogy to a syndrome. Moreover, the three components of emotion are subjectively experienced as a whole, that is, as a single phenomenon as opposed to separate and distinct responses. When one component is missing from the perception the experience is not a proper emotion although it may contain some of the appropriate elements" action impulse : the action is set in motion internally (psychophysiologically ) need not be carried out, can be suppressed, denied, transformed. ___________________________________________________________________________ [Averill 1980 p313] "An emotion is a transitory social role (a socially constituted syndrome) that includes an individual's appraisal of the situation and that is interpreted as a passion rather than as an action"
- 180 -
FIGURE 3-1. EXEMPLE DAFFICHAGE DE FEELTRACE, EXTRAIT DE [COWIE ET AL. 2000]. ........................................... 48 FIGURE 3-2. REPARTITION DES SEGMENTS ANNOTES PRECEDEMMENT PEUR ET COLERE APRES LA RE-ANNOTATION. .... 54 FIGURE 3-3. LISTE DE TERMES EMOTIONNELS PERTINENTS POUR DES INTERFACES DU FUTUR SENSIBLES AUX EMOTIONS,
ETABLIE PAR COWIE.......................................................................................................................................... 57
FIGURE 3-4. LE SCHEMA D'ANNOTATION : RECAPITULATIF, LANNOTATION EST FAITE EN CONTEXTE, CHAQUE TOUR
POUVANT ETRE COUPE EN SEGMENT. POUR CHAQUE SEGMENT SONT ANNOTES : UNE OU DEUX ETIQUETTES, AINSI QUE LINTENSITE ET LE CONTROLE. LANNOTATEUR PEUT AUSSI INDIQUER SI LA PERSONNE REPETE CE QUELLE A DEJA DIT OU CE QUE SON INTERLOCUTEUR A DIT ET SI ELLE PEROIT DE LIRONIE OU DU MENSONGE. ................. 61
FIGURE 3-5. UN EXTRAIT DU PROTOCOLE DANNOTATION. ......................................................................................... 62 FIGURE 3-6. LOGICIEL TRANSCRIBER AVEC UNE DTD EMOTION UTILISEE POUR L'ANNOTATION. L'EXTRAIT SE SITUE A LA
FIN D'UN DIALOGUE ASSEZ LONG ENTRE UN AGENT ET LA FILLE D'UNE PATIENTE QUI APPELLE POUR LA DEUXIEME FOIS EN QUELQUES JOURS. LA FOIS PRECEDENTE, UNE AMBULANCE AVAIT ETE ENVOYEE, MAIS LA SITUATION AVAIT ETE CONSIDEREE COMME NON CRITIQUE ET LA PATIENTE AVAIT ETE RAMENEE CHEZ ELLE. L'AGENT N'ARRIVANT PAS A DETERMINER PRECISEMENT LE MOTIF DE L'APPEL EST UN PEU AGACE PAR LA SITUATION, MALGRE SA COMPASSION POUR LA PATIENTE. ...................................................................................................................... 63
FIGURE 3-7. EXEMPLE DE TOUR DE PAROLE COUPE DIFFEREMMENT PAR LES 2 ANNOTATEURS. T1T7 SONT LES TIMECODES CORRESPONDANT AU DEBUT DES DONNEES TRANSCRITES A DROITE.
........................................................ 65
FIGURE 3-8. EXEMPLE 2 : TOUR DE PAROLE COUPE DIFFEREMMENT PAR LES 2 ANNOTATEURS. ................................... 66 FIGURE 3-9. EXEMPLE DE CREATION DUN VECTEUR DEMOTIONS PONDEREES. .......................................................... 69 FIGURE 3-10. DENDROGRAMMES ISSUS DU CLUSTERING AGGLOMERATIF UTILISANT UNE DISTANCE EUCLIDIENNE. ...... 70 FIGURE 4-1. REPARTITION DES EMOTIONS ENTRE POSITIF, NEGATIF ET NEUTRE POUR LES AGENTS. DANS LES DONNEES
RECOLTEES, 3 AGENTS INTERVIENNENT BEAUCOUP F_1, F_2 ET H_1. LES NOMBRES INDIQUENT LE NOMBRE DE SEGMENT POUR CHAQUE CAS. ........................................................................................................................... 74
FIGURE 4-2. REPARTITION DES MELANGES DEMOTION POUR CHAQUE ANNOTATEUR. LAB1 AND LAB2 SONT LES 2
ANNOTATEURS; MELANGE: 2POS SIGNIFIE QUE LES 2 ETIQUETTES SONT CHOISIES DANS DES CLASSES DIFFERENTES DEMOTIONS POSITIVES ('AMUSEMENT', 'SOULAGEMENT, 'COMPASSION/INTERET' ); MELANGE: 2NEG SIGNIFIE QUE LES 2 ETIQUETTES SONT CHOISIES DANS 2 CLASSES NEGATIVES DIFFERENTES ('PEUR', 'COLERE', 'TRISTESSE' ET
'DOULEUR' ). .............................................................................................................................................. 75
- 181 -
(POIDS>10). .................................................................................................................................................... 84 FIGURE 4-8. RESULTATS DU CHOIX LIBRE DINDICES AYANT MOTIVE LES ANNOTATIONS. .............................................. 88 FIGURE 5-1. LAPPAREIL PHONATOIRE. ..................................................................................................................... 93 FIGURE 5-2. LA PROSODIE SELON [HIRST ET DI CRISTO] ........................................................................................... 95 FIGURE 5-3. LES PARAMETRES ACOUSTIQUES (EXTRAIT DE HTTP://AUNE.LPL.UNIV-AIX.FR/~GHIO/DOC/DOCVOICEPARAMETERS.PDF) ................................................................................................................................. 98 FIGURE 5-4. LE MEME CONTENU LEXICAL JE SAIS PAS ET LE MEME LOCUTEUR DE MANIERE NEUTRE PUIS AGACEE.
...................................................................................................................................................................... 103 FIGURE 5-5. JE SAIS PAS : PLUSIEURS LOCUTEURS, PLUSIEURS EMOTIONS (NEUTRE, STRESS, DESESPOIR, DESESPOIR )..................................................................................................................................................................... 104 FIGURE 5-6. EXEMPLE DEXTRACTION DE F0 AVEC PRAAT : LA COURBE DE LA F0 EST INDIQUEE EN BLEU ET DES
INFORMATIONS SONT DONNEES SUR LES DIFFERENTS TRAITEMENTS EFFECTUES. ............................................... 106
FIGURE 5-7. EXEMPLE DE VOIX TREMBLANTE (VARIATION DE F0), EXTRAIT ANNOTE DETRESSE/DESESPOIR/TRISTESSE.107 FIGURE 5-8. EXEMPLE DUNE VOIX CHUCHOTEE AVEC TRES PEU DINDICES. ............................................................ 108 FIGURE 5-9. RESUME DES PARAMETRES ACOUSTIQUES EXTRAITS AUTOMATIQUEMENT . ........................................ 108 FIGURE 5-10. LALIGNEMENT PHONEMIQUE. ........................................................................................................... 109 FIGURE 5-11. QUELQUES PARAMETRES ISSUS DE LALIGNEMENT PHONEMIQUE POUR LES CLASSES EMOTIONNELLES PEUR/COLERE/TRISTESSE/NEUTRE/SOULAGEMENT ; A. : DEBIT PHONEMIQUE ET #VOYELLES/DUREE DU SEGMENT
POUR LES 5 EMOTIONS EN REGARDANT LES HOMMES ET LES FEMMES SEPAREMENT
FIGURE 5-12. COMPARAISON ENTRE LES COURBES DE F0 SANS NORMALISATION, EN UTILISANT LA Z-NORME, LA
NORMALISATION DE SHRIBERG ET CELLE DE NEAREY. ...................................................................................... 113
FIGURE 5-13. TRIANGLE VOCALIQUE DES FEMMES POUR LES EMOTIONS NEUTRE/PEUR/COLERE/TRISTESSE (NORMALISATION DE NEAREY. ......................................................................................................................... 115 FIGURE 5-14.TRIANGLE VOCALIQUE DES HOMMES POUR LES EMOTIONS NEUTRE/PEUR/COLERE/TRISTESSE (NORMALISATION DE NEAREY). ........................................................................................................................ 116 FIGURE 5-15.TRIANGLE VOCALIQUE POUR LES EMOTIONS NEUTRE/PEUR/COLERE/TRISTESSE (NORMALISATION DE NEAREY). ....................................................................................................................................................... 117 FIGURE 6-1. HYPERPLAN OPTIMAL DE MARGE 1/||W|| (SCHEMA TIRE DE L'ARTICLE DE CORNUEJOLS [CORNUEJOLS 2002]). .......................................................................................................................................................... 125 FIGURE 6-2. OBTENIR DES DONNEES EQUILIBREES POUR LAPPRENTISSAGE : UN EXEMPLE POUR UNE CLASSIFICATION PEUR/COLERE/TRISTESSE/SOULAGEMENT/NEUTRE AVEC DES DONNEES NON EQUILIBREES POUR LAPPRENTISSAGE
ET EN UTILISANT DES SVM .............................................................................................................................. 128
- 182 -
FIGURE 6-5. EVOLUTION DES SCORES CL ET RR SUR UN MEME ENSEMBLE DE TEST POUR LA CLASSIFICATION PEUR/COLERE/NEUTRE EN FAISANT VARIER LE NOMBRE DE SEGMENTS PAR EMOTION POUR LAPPRENTISSAGE. (IL
NY A QUE 180 SEGMENTS DISTINCTS POUR LA COLERE QUI SONT ALEATOIREMENT DUPLIQUES AU DESSUS DE 250 SEGMENTS PAR EMOTION. LES DONNEES DE TEST NE SONT PAS EQUILIBREES (MOINS DE
FIGURE 6-6. COMPARAISON DES PERFORMANCES(RR SCORE AVEC DES ENSEMBLES EQUILIBRES) DE LA DETECTION NEUTRE/NEGATIF ENTRE LES AGENTS ET LES APPELANTS. LE NOMBRE ENTRE PARENTHESES EST LA DEVIATION
STANDARD. PROCEDURE DE VALIDATION CROISEE AVEC N
FIGURE 6-7. COMPARAISON DES PERFORMANCES POUR DES CLASSIFIEURS ENTRAINES SEULEMENT SOIT SUR DES
HOMMES (TRAIN_H), SOIT SUR DES FEMMES (TRAIN_F).
.................................................................................. 138
FIGURE 6-9. SCORE CL (5 CLASSES) AVEC F0 : SEULEMENT DES PARAMETRES RELIES A LA F0, FTS: FORMANTS ET LEUR
BANDE PASSANTE, EN: ENERGIE, MFCC, ALL* (107 PARAMETRES) : TOUS LES PARAMETRES BLIND
. LES BARRES
FIGURE 6-10. CL SCORE POUR 5 CLASSES PEUR COLERE TRISTESSE SOULAGEMENT ET NEUTRE AVEC DIFFERENTS
ENSEMBLES DINDICES. BLIND : EXTRAITS AUTOMATIQUEMENT (F0, FORMANTS, ENERGIE, PROSODIE), CORRESPOND AU ALL* DE LA FIGURE PRECEDENTE, TRANS1 : INDICES EXTRAITS DE LA TRANSCRIPTION MANUELLE ; TRANS2: DUREES PHONEMIQUES, 25 BEST: 25 MEILLEURS PARAMETRES. ....................................... 144
FIGURE 6-11. CL SCORE PAR EMOTION (PEUR, COLERE, TRISTESSE, SOULAGEMENT + ETAT NEUTRE) POUR LES
PARAMETRES BLIND
FIGURE 6-12. PERFORMANCES POUR DIFFERENTES TACHES DE CLASSIFICATION EN NUTILISANT QUUN SEUL TYPE
DINDICE (FORMANT : FORMANTS ET LEUR BANDE PASSANTE, F0
NEUTRE ;PE :PEUR ; CL :COLERE ;TR :TRISTESSE ; 4EMOTS :PEUR/COLERE/TRISTESSE/NEUTRE ; 5EMOTS :PEUR/COLERE/TRISTESSE/SOULAGEMENT/NEUTRE. .......................................................................... 146 FIGURE 6-13. COMBINAISON DES SCORES LEXICAUX ET PROSODIQUES...................................................................... 148 FIGURE 6-14. EXEMPLE DE CODAGE DE PARAMETRES LIMSI A LISSU DU WORKSHOP A ERLANGEN........................... 151 FIGURE 6-15. SCORE CL POUR LA CLASSIFICATION COLERE/NEUTRE AVEC DIFFERENTES DONNEES EN APPRENTISSAGE
ET EN TEST : TRAIN_CEMO_AG : AGENTS DU CORPUS CEMO, TRAIN_CEMO_APP : APPELANTS DU CORPUS
CEMO, TRAIN_CORPUS1 : APPELANTS DU CORPUS DE DONNEES BOURSIERES. LES MATRICES DE CONFUSION SONT
DONNEES EN GRISE POUR LES CAS OU LE CORPUS 1 EST EN TEST AVEC LES AGENTS OU APPELANTS DE CEMO EN APPRENTISSAGE. ............................................................................................................................................. 156
- 183 -
FIGURE 6-17. CAPTURE DECRAN DE LONGLET DEXTRACTION DES PARAMETRES QUI PERMET DE CALCULER ENTRE
AUTRE LES PARAMETRES ACOUSTIQUES A LAIDE DE PRAAT ET CEUX DEDUITS DE LA TRANSCRIPTION SILS SONT FOURNIS. ........................................................................................................................................................ 167
FIGURE 6-18. EXEMPLE DE FICHIER EN TEST DUN CLASSIFIEUR COLERE/NEUTRE. .................................................. 168 FIGURE 6-19. EXEMPLE DE DECOUPAGE EN 3 SEGMENTS EMOTIONS POUR UN CLASSIFIEUR NEUTRE/COLERE, CHAQUE
EMOTION EST REPRESENTEE PAR UNE COULEUR ET IL EST POSSIBLE DOBTENIR DES PRECISIONS POUR CHAQUE SEGMENT........................................................................................................................................................ 169
- 184 -
1-6. LES EMOTIONS DE BASE, D'APRES [ORTONY ET TURNER 1990]. ............................................................................ 18 1-7. CRITERES DEVALUATION DES SEQUENCES DE TRAITEMENT DANS LE MODELE DE SCHERER (EXTRAIT DE [SCHERER
ET SANGSUE 2006 P20]) . ................................................................................................................................. 23
1-8. LES EVALUATIONS PREDITES POUR LES EMOTIONS LES PLUS ETUDIEES. ENJ/HAP, CONTENTEMENT/BONHEUR;
ELA/JOY, JOIE; DISP/DISG, DEPLAISIR/DEGOUT ;CON/SCO, MEPRIS; SAD/DEJ, TRISTESSE/ABATTEMENT; IRR/COA, IRRITATION/COLERE FROIDE; RAG/HOA, RAGE/COLERE CHAUDE; BOR/IND, ENNUI/INDIFFERENCE;
DE[SANDER ET AL. 2005 P. 326]. ..................................................................................................................... 24
1-9.
RECAPITULATIF DETUDES SUR LA DETECTION DES EMOTIONS : REFERENCE DE LAUTEUR, STYLE DE CORPUS DE TRAVAIL (ACTE, WOZ, DHH, DHM), SIZE (TOURS DE PAROLE) ET NOMBRE DE LOCUTEURS, LES REPRESENTATIONS DES EMOTIONS. CORPORA EMOTION LABELS, TYPE DINDICES (SPECTRAUX, PROSODIQUE (FREQUENCE
FONDAMENTALE, ENERGIE, DEBIT), DISFLUENCES, LEXIQUES, LANGAGE (N-GRAM), SYNTAX/SEMANTIC (ETIQUETTES : PART-OF-SPEECHS) ET ENFIN DIALOGIQUE), MODELE DAPPRENTISSAGE (MLB: MAXIMUM LIKELIHOOD BAYES CLASSIFIER, KR: KERNEL REGRESSION , LDC: LINEAR DISCRIMINANT CLASSIFIER,
KNN: K NEAREST-NEIGHBORS, SVM: SUPPORT VECTOR MACHINE, HMM: HIDDEN MARKOV MODEL, NNS:
2-1. DES DONNEES NATURELLES. ............................................................................................................................... 36 2-2. CARACTERISTIQUES DES DEUX CORPUS : CORPUS 1: 100 DIALOGUES AGENT-CLIENT D'ENVIRON 3 HEURES (H:
HOMME, F: FEMME), CORPUS 2: 688 DIALOGUES AGENT-CLIENT DENVIRON 20H (H : HOMME, F : FEMME) DANS
96
2-3. CARACTERISTIQUES DU CORPUS. ........................................................................................................................ 41 2-4. MARQUEURS AFFECTIFS INDIQUES PAR LA TRANSCRIPTION SUR LES 20 HEURES. ................................................... 41 3-1. EXEMPLE DE MATRICE DINTER ANNOTATION. LES CHIFFRES SONT FICTIFS. ......................................................... 49 3-2. PEXP REPRODUIT DE [ZWICK 1988] AVEC PI+
LA SOMME DES PROPORTIONS DE LA LIGNE I DE LA MATRICE ET P+I
3-3. DEGRE D'ACCORD SUIVANT LA VALEUR DU COEFFICIENT KAPPA .......................................................................... 51 3-4. NOMBRE DE FICHIERS POUR CHAQUE ETAT EMOTIONNEL DANS LE CORPUS DE DONNEES BOURSIERES. .................. 53 3-5. HIERARCHIE DES CLASSES D'EMOTION. ............................................................................................................... 58 3-6. RESULTATS DUNE ANALYSE PAR CLUSTERING HIERARCHIQUE DE 135 NOMS DEMOTIONS. ................................... 59
- 185 -
MAR-AVR (16 DIALOGUES), AVR-MAI (16 DIALOGUES). LES 2 LIGNES POUR AGENT ET CLIENT CORRESPONDENT
AUX 2 ANNOTATEURS. ....................................................................................................................................... 68
3-8. REPARTITION DES ETIQUETTES FINES (5 MEILLEURES CLASSES) AVEC LE MEME MAJEUR. (688 DIALOGUES), AUTRE
DONNE LE POURCENTAGE DE SEGMENTS ANNOTES AVEC LES 19 ETIQUETTES RESTANTES. .................................... 69
4-1. POURCENTAGES DEMOTIONS SIMPLES ET COMPLEXES DES 33 SUJETS FRANAIS AYANT EFFECTUE LE TEST
PERCEPTIF. ...................................................................................................................................................... 83
4-2. DIFFERENTS NIVEAUX DINFORMATION. .............................................................................................................. 85 4-3. POURCENTAGE DACCORD EN NE CONSIDERANT QUE LE PLUS GRAND COEFFICIENT DES VECTEURS, EXPERT :
ANNOTATION INITIALE, NAF : ANNOTATION DES SUJETS DU TEST PERCEPTIF, AUTOMATIQUE : DETECTION AUTOMATIQUE. ................................................................................................................................................. 85
4-4. LES RESULTATS DU CHOIX LIBRE POUR LEMOTION PERUE. ................................................................................ 86 4-5. POURCENTAGE DE CAS OU LA VALENCE EST EN CONTRADICTION AVEC LES ETIQUETTES EMOTIONS PAR
EMOTION.
POUR TOUS LES SEGMENTS , LA VALENCE EST COMPAREE A CELLE DE LEMOTION MAJEUR ET POUR
SANS MINEUR , ON NE REGARDE QUE LES SEGMENTS ANNOTES AVEC UNE SEULE ETIQUETTE. LE NOMBRE TOTAL
DE SEGMENTS EST INDIQUE ENTRE PARENTHESES).
............................................................................................ 87
5-1. SYNTHESE DES RESULTATS EMPIRIQUES POUR L'EFFET DES EMOTIONS SUR LES PARAMETRES VOCAUX (EXTRAIT [SCHERER ET AL. 2003], [JUSLIN ET LAUKKA 2003],,[JUSLIN ET SCHERER 2005] ) < "PLUS PETIT/ LENT/
PLAT/ETROIT"; > "PLUS GRAND/HAUT/RAPIDE/PENTU/LARGE" ;=EGAL AU "NEUTRE"; <>
REPORTE A LA FOIS DES RESULTATS PLUS GRAND ET PLUS PETITS. LES RESULTATS SURLIGNES EN GRIS CONCERNENT LES DONNEES NATURELLES OU INDUITES. ........................................................................................................ 101
5-2. RESUME DES DIFFERENTS PARAMETRES PARALINGUISTIQUES EXTRAITS. ............................................................. 111 5-3. COMPARAISON ENTRE LA REVIEW DE SCHERER (CF. 5-1) ET LES DONNEES CEMO. LES CONCLUSIONS PARTAGEES
SONT SURLIGNEES EN JAUNE ET CELLES DIFFERENTES BARREES EN ROUGE. ...................................................... 114
6-1. FONCTIONS NOYAUX LES PLUS UTILISEES. R, D ET SONT DES PARAMETRES DES FONCTIONS NOYAUX. ................. 126 6-2. 15 MEILLEURS PARAMETRES (SUR 129) POUR 4 TACHES DIFFERENTES. PEUR/NEUTRE, COLERE/NEUTRE, PEUR/COLERE ET PEUR/COLERE/SURPRISE. ................................................................................................... 132 6-3. ALGORITHMES ET SELECTION DES ATTRIBUTS : COMPARAISON DES PERFORMANCES NEUTRE/NEGATIF (PEUR ET COLERE); RR SCORE AVEC LES MEILLEURS ATTRIBUTS ET ALLATT: TOUS LES ATTRIBUTS. LE
DE SEGMENTS BIEN CLASSIFIES POUR 30 RUNS MONTRE LA MOYENNE
...................................................................................................................................................................... 133 6-4. ALGORITHMES ET SELECTION DES ATTRIBUTS : COMPARAISON DES PERFORMANCES DE DETECTION POSITIF/NEGATIF AVEC LES MEILLEURS PARAMETRES ; ALLATT: TOUS LES PARAMETRES. LE
DE SEGMENTS BIEN CLASSIFIES POUR 100 RUNS MONTRE LA MOYENNE
- 186 -
ROVER ; DE [SCHULLER ET AL. 2007A] ......................................................................................................... 152 6-11. CLASSIFICATION EN COMBINANT LES MEILLEURS PARAMETRES PARMI LES 381 DE TOUS LES SITES AVEC 3
CLASSIFIEURS. ................................................................................................................................................ 152
6-12. RESULTATS DE LA CLASSIFICATION, # : NOMBRE DE PARAMETRE PAR TYPE DATTRIBUTS ; F-SCORES POUR TOUS
LES PARAMETRES (FULL) OU UN ENSEMBLE AVEC UN NOMBRE REDUIT DE PARAMETRES
( REDUCED) EN UTILISANT
6-13. DEFINITION DES EMOTIONS EXPRIMEES DANS GEMEP.................................................................................... 159 6-14. LES DONNEES GEMEP (5 HOMMES/5 FEMMES). ............................................................................................. 160 6-15. MATRICE DE CONFUSION POUR LE CLASSIFIEUR PEUR/COLERE/TRISTESSE/SOULAGEMENT (AVEC UNIQUEMENT
DES INDICES ACOUSTIQUES) POUR DES SEGMENTS DU CORPUS CEMO(APPELANTS) EN APPRENTISSAGE ET EN TEST AVEC DES LOCUTEURS DIFFERENTS DE CEUX UTILISES POUR LAPPRENTISSAGE ; SGTS INDIQUE LE NOMBRE DE SEGMENTS CLASSIFIES. LES RESULTATS SONT DONNES EN POURCENTAGE PAR EMOTION. PAR EXEMPLE, 21% DES SEGMENTS
6-16. MATRICES DE CONFUSION POUR LES SEGMENTS DU CORPUS GEMEP (INQ : INQUIETUDE ; PEU : PEUR IRR :
IRRITATION ; COL : COLERE ; TRIS : TRISTESSE ;DES :DESESPOIR ; SOUL : SOULAGEMENT ; LE NOMBRE ENTRE PARENTHESES DONNE LE NOMBRE DE SEGMENTS PAR EMOTION) AVEC LE MEME CLASSIFIEUR QUE LE
6-15
ENTRAINE SUR LES DONNEES CEMO. LES RESULTATS SONT DONNES EN POURCENTAGE PAR EMOTION POUR CHAQUE MODE (NORMAL, PEU INTENSE, INTENSE, MASQUE). PAR EXEMPLE EN MODE NORMAL, 8% DES SEGMENTS INQUIETUDES ONT ETE RECONNUS COMME DE LA PEUR. .................................................................................. 162
6-17. MATRICES DE CONFUSION POUR LES DONNEES (NORMALES + INTENSES) DU CORPUS GEMEP APRES AVOIR RETIRE 3 MAUVAIS LOCUTEURS (INQ : INQUIETUDE ; PEU : PEUR IRR : IRRITATION ; COL :COLERE ; TRIS :TRISTESSE ;
DES :DESESPOIR ; SOUL : SOULAGEMENT ; LE NOMBRE ENTRE PARENTHESES DONNE LE NOMBRE DE SEGMENTS PAR EMOTION) AVEC LE MEME CLASSIFIEUR QUE LE
6-15 ENTRAINE SUR LES DONNEES CEMO. LES RESULTATS SONT ! , 5% DES SEGMENTS PRONONCES AVEC INQUIETUDE ONT ETE
DONNES EN POURCENTAGE PAR EMOTION PUIS EN DETAILLANT PAR RAPPORT AU TYPE DE CONTENU. PAR EXEMPLE POUR LA PHRASE 1 NE KAL IBAM SOUD MOLEN
- 187 -
- 188 -
Bibliographie
BIBLIOGRAPHIE
Abrilian, S., L. Devillers and J.-C. Martin (2006). Annotation of Emotions in Real-Life video Interviews: Variability between Coders. LREC. Adank, P. M.Vowel normalization : a perceptual-acoustic study of Dutch vowels. These de doctorat,2003Radboud University Nijmegen Adda-Decker, M., Lamel, L. (1999). Pronunciation variants across system configuration, language and speaking style. Speech Communication. 29: p. 83-98. Albrecht, I., M. Schrder, J. Haber and H.-P. Seidel (2005). Mixed feelings: Expression of nonbasic emotions in a muscle-based talking head. Virtual Reality. 8: p. 201-212. Ang, J., R. Dhillon, A. Krupski, E. Shriberg and A. Stolcke (2002). Prosody-Based Automatic Detection of Annoyance and Frustration in Human-Computer Dialog. International Conference on Spoken Language Processing, Denver. 3: p. 2037-2040. Arnold, M. B. (1960). Emotion and personality, New York: Columbia University Press. Austin, J. L. (1962). How to Do Things With Words. Cambridge, Paperback: Harvard University Press. Averill, J. R. (1975). A semantic atlas of emotional concepts. JSAS: Catalog of Selected Documents in Psychology. 5: p. 330. Averill, J. R. (1980). A Constructivist View of Emotion. Emotion theory, research and experience vol1. Theories of Emotion. R. Plutchik and H. Kellerman. New York, Academic Press: p: 849-855. Averill, J. R. (1994). In the eyes of the beholder. The nature of emotion. P. Ekman. Averill, J. R. (1996). An Analysis of Psychophysiological Symbolism and Its Influence on Theories of Emotion. The Emotions. Social, Cultural and Biological Dimensions. R. Harr and W. G. Parrott. Averill, R. J. (1989). A constructivist view of emotion. Emotion theory, research and experience vol1. H. Kellerman: p: 305-339. Ax, A. F. (1953). The physiological differentiation between fear and anger in humans. Psychosomatic Medicine. 15: p. 433-442. Banse, R. and K. R. Scherer (1996). Acoustic profiles in vocal emotion expression. Journal of Personality and Social Psychology. 70(3): p. 614-636. Bnziger, T., H. Pirker and K. S. Scherer (2006). GEMEP - GEneva Multimodal Emotion Portrayals: A corpus for the study of multimodal emotional expressions. Proceedings of LREC'06 Workshop on Corpora for Research on Emotion and Affect, Genoa: p. 15-19. Bnziger, T. , K. R. Scherer (2007). Using Actor Portrayals to Systematically Study Multimodal Emotion Expression: The GEMEP Corpus. ACII : p. 476-487 Barras, C., E. Geoffrois, Z. Wu and M. Liberman (2000). Transcriber : Development and Use of a Tool Assisting Speech Corpora Production. Speech Communication. 33 (1): p. 5-22. Batliner, A.; Warnke, V.; Nth, E.; BUCKOW, J.; HUBER, R.; NUTT, M.( 1998) How to label accent position in spontaneous speech automatically with the help of syntactic-prosodic boundary labels. Technical Report. Batliner, A., K. Fisher, R. Huber, J. Spilker and E. Noth (2003). How to Find Trouble in Communication. Speech Communication. 40: p. 117-143. Batliner, A., C. Hacker, S. Steidl, E. Nth, S. D'Arcy, M. Russell and M. Wong (2004). "You stupid ting box"- children interacting with the AIBO robot: A cross-linguistic emotional speech corpus. 4th internacional Conference on Language Resources and Evaluation: p. 171-174. Batliner, A., R. Kompe, A. Kieling, M. Mast, H. Niemann and E. Nth (1998). M = Syntax + Prosody: A syntactic-prosodic labelling scheme for large spontaneous speech databases. Speech Communication. 25: p. 193-222. Batliner, A., S. Steidl, B. Schuller, D. Seppi, T. Vogt, L. Devillers, L. Vidrascu, N. Amir, L. Kessous and V. Aharonason (2007). The Impact of F0 Extraction Errors on the Classification of - 189 -
Bibliographie Prominence and Emotion. Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS), Saarbrcken: p. 2201-2204. Bergeri, I., R. Michel and J. P. Boutin (2002). Pour tout savoir ou presque sur le coefficient kappa... Mdecine tropicale. 62: p. 634-636. Boersma, P. and D. Weenink (2005). Praat: doing phonetics by computer (Version 4.3.14) [Computer program]. Retrieved May 26, 2005, from http://www.praat.org/. Boite, R., H. Bourlard, T. Dutoit, J. Hancq and H. Leich (1999). Traitement de la parole. Lausannes. Brenner, C. (1980). A psychoanalytic theory of affects. Emotion theory, research and experience vol1. R. Plutchik and H. Kellerman. New York, Academic Press: p: 341-348. Cacioppo, J. T., G. G. Berntson, J. T. Larsen, K. M. Poehlmann and T. A. Ito (2000). The psychophysiology of emotion. Handbook of emotions. R. Lewis and J. M. Haviland-Jones. New York: Guilford: p: 173-191. Caffi, C. and R. W. Janney (1994). Toward a pragmatics of emotive communication. Journal of pragmatics. 22. Campbell, N. and P. Mokhtari (2003). Voice Quality : the 4th Prosodic dimension. 15th ICPhS(Barcelona). Carver, C. S. (2001). Affect and the functional bases of behavior: On the dimensional structure of affective experience. Personality and Social Psychology Review. 5: p. 345-356. Chih, W. H., C. C. Chi and J. L. Chih (2003). A practical Guide to Support Vector Classification. http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf. Childers , D. G. (1978). Modern spectrum analysis, IEEE Press. Clavel, C.Analyse et reconnaissance des manifestations acoustiques des motions de type peur en situations anormales,2007-Doctorat Signal et Images, TSI Traitement du Signal et des Images, ENST, p.195 Clore, G. L. (1994). Why emotions are felt. The nature of emotion: Fundamental questions. P. Ekman and R. J. Davidson, New York: Oxford University Press: p: 103-111. Cohen, J. (1960). A coefficient of agreement for nominal scales. Educ Psychol Meas. 20: p. 27-46. Cohen, J. (1968). Weighted kappa : nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin. 70: p. 213-220. Cornelius, R. R. (1996). The science of emotion : research and tradition in the psychology of emotions, Upper Saddle River, NJ: Prentice-Hall. Cornujols, A. (2002). Une introduction aux SVM. Bulletin n51 de l'AFIA (Association Franaise d'Intelligence Artificielle). Cornujols, A. and L. Miclet (2002). Apprentissage artificiel, Eyrolles. Cowie, R. (2000). Emotional states expressed in speech. In describing the emotional states expressed in speech. Proc ISCA ITRW on Speech and Emotion: Developing a Conceptual Framework for Research: p. 224-231. Cowie, R. (2007). Emotion: concepts and definitions(and perhaps a declaration). humaine Conceptualising emotion workshop, Haifa: http://emotionresearch.net/ws/conceptualizingemotion/concepts%20and%20definitions%203.ppt/view. Cowie, R., E. Douglas-Cowie, S. Savvidou, E. McMahon, M. Sawey and M. Schrder (2000). Feeltrace: an instrument of recording perceived emotion in real-time. Proc ISCA ITRW on Speech and Emotion: Developing a Conceptual Framework for Research: p. 224-231. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika. 16: p. 297-334. Damasio, A. (1994). L'erreur de Descartes, New York: Grosset/Putnam. Darwin, C. (1872). The expression of emotions in man and animals. New York, Philosophical library. Dellaert, F., T. Polzin and A. Waibel (1996). Recognizing Emotion In Speech. ICSLP. - 190 -
Bibliographie Devillers L., (2006) Les motions dans les interactions homme-machine : perception, dtection et gnration. Thse d'Habilitation diriger des Recherches, Universit Paris-Sud/LIMSI . Devillers, L., S. Abrilian and J.-C. Martin (2005a). Representing real life emotions in audiovisual data with non basic emotional patterns and context features. ACII. Devillers, L., I. Vasilescu and L. Lamel (2002). Annotation and detection of emotion in a task oriented human-human dialog corpus. International Standards for Language Engineering, Edinburgh. Devillers, L., I. Vasilescu and L. Lamel (2003a). Emotion detection in task-oriented dialogs corpus. IEEE ICME(Baltimore). Devillers, L., I. Vasilescu and C. Mathon (2003b). Acoustic cues for perceptual emotion detection in task-oriented human-human corpus. 15th International Congress of Phonetic Sciences. Devillers, L., I. Vasilescu and L. Vidrascu (2004). Anger versus Fear detection in recorded conversations. Speech Prosody, Nara, Japon. Devillers, L. and L. Vidrascu (2006a). Real-life emotions detection with lexical and paralinguistic cues on Human-Human call center dialogs. Interspeech. Devillers, L. and L. Vidrascu (2006b). Reprsentation et Dtection des motions dans des donnes issues de dialogues enregistrs dans des centres d'appels : des motions mixtes dans des donnes relles. numro spcial " Interaction Emotionnelle ", Revue Des Sciences et Technologies de l'Information, srie Revue d'Intelligence Artificielle. 20(4-5) : p. 447-476. Devillers, L. and L. Vidrascu (2007). Positive and Negative emotional states behind the laugh in spontaneous spoken dialogs. workshop The phonetics of Laughter, Saarbrucken. Devillers, L., L. Vidrascu and L. Lamel (2005b). Challenges in real-life emotion annotation and machine learning based detection. Neural Networks. 18. Ekman, P. (1992). An argument for basic emotions. Cognition and Emotion. 6: p. 169-200. Ekman, P. and R. J. Davidson (1994). The nature of Emotion : Fundamental questions, New York: Oxford University. Ekman, P. and A. J. Fridlung (1987). Assessment of facial behavior in affective disorders. Depression and Expressive Behavior. J. D. Maser. Hillsdale: p: 33-56. Fehr, B. and J. A. Russell (1984). Concept of emotion viewed from a prototype perspective. Journal of experimental psychology : General. 113: p. 464-486. Fernandez, R. and R. Picard (2003). Modeling Drivers' Speech Under Stress. Speech Communication. 40. Fischer, A. (1993). Sex differences in emotionality: fact or stereotype. Feminism and Psychology. 3: p. 303-318. Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76: p. 378-382. Fnagy (1983). La vive voix. Essais de psycho-phontique. Forbes-Riley, K. and D. Litman (2004). Predicting Emotion in Spoken Dialogue from Multiple Knowledge Sources. Chapter of the Association for Computational Linguistics (HLT/NAACL). Freund, Y. and R. E. Shapire (1996). Experiments with a new boosting algorithm. 19th International Conference on Machine Learning: p. 148-156. Frick, R. W. (1986). The prosodic expression of anger: Differentiating threat and frustration. Aggressive Behavior. 12: p. 121128. Fridlund, A. J. (1991). The sociality of solitary smiles: Effects of an implicit audience. Journal of Personality and social psychology bulletin. 60: p. 229-240. Gauvain, J. L. (2002). The LIMSI broadcast news transcription system. Speech Communication. 37 no. 1-2: p. 89-108. . Gellhorn, E. and G. N. Loofbourrow (1963). Emotions and Emotional Disorders: A Neurophysiological Study. New York. Greasley, P., C. Sherrard and M. Waterman (2000). Emotion in Language and Speech: Methodological issues in Naturalistic Approaches. Languaga and Speech. 43: p. 355-375. - 191 -
Bibliographie Grimm, M. and K. Kroschel (2007). Emotion Estimation in Speech Using a 3D Emotion Space Concept. Robust Speech Recognition and Understanding. M. Grimm and K. Kroschel. Vienna, Austria, I-Tech Education and Publishing. Grimm, M., K. Kroschel, E. Mower and S. Narayanan (2007). Primitives-Based Evaluation and Estimation of Emotions in Speech. Speech Communication. 49(10-11). Gross, J. J. and R. W. Levenson (1995). Emotion elicitation using films. Cognition and Emotion. 9: p. 87108. Grossberg, J. M. and H. K. Wilson (1968). Physiological changes accompanying the visualization of fearful and neutral situations. Journal of Personality and Social Psychology. 10: p. 124-133. Hall, M. A.Master Thesis, Correlation based feature selection for Machine Learning,1999-Department of Computer Science, University of Waikato, Hall, M. A. and G. Holmes (2003). Benchmarking attribute selection techniques for discrete class data mining. IEEE Transactions on Knowledge & Data Engineering. 15: p. 1437-1447. Hamilton, V., G. Bower and N. Frijda (1988). Cognitive perspectives on emotion and motivation, Springer. Hardy, H., K. Baker, L. Devillers, L. Lamel, S. Rosset, T. Strzalkowski, C. Ursu and N. Webb (2002). Multi-layer Dialogue Annotation for Automated Multilingual Customer Service. International Standards for Language Engineering workshop. Hebb, D. O. (1972). Textbook of psychology, Philadelphia: Saunders. Hess, U. (2006). Emotion ressentie et simule. Cognition et motions, Kirouak, G.: p: 115-127. Hirst, D. and A. Di Cristo (1998). A survey of intonation systems. Intonation systems A survey in twenty languages. D. Hirst and A. Di Cristo. Cambridge, CambridgeUniversity Press: p: 1-45. Hochschild, A. R. (1979). Emotion work, Feeling rules, Social structure. American Journal of Sociology. 85: p. 551-575. Howell, D. C. (1999). Mthodes statistiques en sciences humaines. Izard (1972). Patterns of emotions : a new analysys of anxiety and depression. New York, Academic Press. James, W. (1884). What is an Emotion? Mind. 9: p. 188-205. Juslin, P. N. and P. Laukka (2003). Communication of emotions in vocal expression and music performance: different channels same code? Psychological Bulletin. 129 (5): p. 770-814. Juslin, P. N. and K. R. Scherer (2005). Vocal expression of affect. The New Handbook of Methods in Nonverbal Behavior Research. J. Harrigan, R. Rosenthal and K. R. Scherer. Oxford, UK, Oxford University Press: p: 65-135. Kappas, A., U. Hess and K. R. Scherer (1991). Voice and emotion. Fundamentals of nonverbal behavior. R. S. Feldman and B. Rim, Cambridge and New York: Cambridge University Press.: p: 200-238. Kaufman, L. and P. J. Rousseeuw (1990). Finding Groups in Data: An Introduction to Cluster Analysis. New York. Kleinginna, P. R. and A. M. Kleinginna (1981). A Categorized List of Emotion Definitions, with Suggestions for a Consensual Definition. Motivation and Emotion. 5 (4): p. 345-359. Kodratoff, Y. and M. Bars (1991). Base terminologique de l'intellingence artificielle. Paris. Landis, J. R. and G. G. Koch (1977). The measurement of observer agreement for categorical data. Biometrics. 33: p. 159-174. Landwehr, N., M. Hall and E. Frank (2003). Logistic Model Trees. ECML. Lang, P. J., M. M. Bradley and B. N. Cuthbert (1997). Motivated attention: Affect, activation, and action. Attention and orienting: Sensory and motivational processes. N. Mahwah, Lawrence Erlbaum.: p: 97-135. Larsen, R. J., E. I. Diener and p. (Ed.), 13. Newbury Park, CA: Sage. (1992). Promises and problems with the circumplex model of emotion. Review of personality and social psychology. M. S. Clark: p: 25-59. Lazarus, R. S. (1991). Emotion and Adaptation, New York: Oxford University Press. Lazarus, R. S. (1998). Fifty years of the research and theory of R.S. Lazarus. - 192 -
Bibliographie Lazarus, R. S., A. D. Kanner and S. Folkman (1980). Emotions: A cognitive-phenomenological analysis. Theories of emotion. R. Plutchik and H. Kellerman. New York: Academic Press: p: 189-217. Lee, C. M. and S. Narayanan (2004). Towards detecting emotions in spoken dialogs. IEEE Transactions on Speech and Audio Processing. Lee, C. M., S. Narayanan and R. Pieraccini (2001). Recognition of Negative Emotions from the Speech Signal. Automatic Speech Recognition and Understanding ASRU, Trento, Italy. Lee, C. M., S. Narayanan and R. Pieraccini (2002). Classifying Emotions in Human-Machine Spoken Dialogs. ICME. Lee, C. M., S. Yildirim, M. Bulut, A. Kazemzadeh, C. Busso, Z. Deng, S. Lee and S. S. Narayanan (2004). Emotion recognition based on phoneme classes. 8th International Conference on Spoken Language Processing (ICSLP 04), Jeju Island, Korea: p. 889-892. Levenson, R. W., L. L. Carstensen, F. W. V. and P. Ekman (1991). Emotion, physiology,and expression in old age. Psychology and Aging. 6(28-35). Levenson, R. W., P. Ekman and W. V. Friesen (1990). Voluntary facial action generates emotionspecific autonomic nervous system activity. Psychophysiology. 27: p. 363-384. Liberman, P. and S. B. Michaels (1962). Some aspects of fundamental frequency and envelope amplitude as related to the emotional content of speech. J.Acoustic. Soc. America. 34: p. 922927. Linard, J. S. (1977). Les processus de la communication parle. Introduction l'analyse et la synthse de la parole. Paris, Masson. Liscombe, J. (2006). Detecting Emotion in Speech: Experiments in Three Domains. Proceedings of HLT/NAACL, New York. Liscombe, J., G. Riccardi and D. Hakkani-T r (2005). Using Context to Improve Emotion Detection in Spoken Dialogue Systems. Interspeech, Lisbon, Portugal. Marchal, A. (1980). Les sons et la parole. Montral. Martin, L. L. (1986). Set/Reset: Use and Disuse of Concepts in Impression Formation. Journal of Personality and Social Psychology. 51 (3): p. 493-504. Narayanan, S. (2002). Towards modelling user behaviour in human-machine interactions: Effect of Errors and Emotions. ISLE Workshop(Edinburgh). Nass, C., I.-M. Jonsson, H. Harris, B. Reaves, J. Endo, S. Brave and L. Takayama (2005). Increasing safety in cars by matching driver emotion and car voice emotion. CHI 2005, Portland, Oregon, USA. Ortony, A., G. L. Clore and A. Collins (1988). The Cognitive Structure of Emotions, New York: Cambridge University Press. Ortony, A. and T. J. Turner (1990). What's basic about basic emotion? Psychological Review. 97: p. 315-331. Osgood, C., W. H. May and M. S. Miron (1975). Cross-cultural Universals of Affective Meaning. Urbana, University of Illinois Press. Osgood, C. E., G. J. Suci and P. H. Tannenbaum (1957). The measurement of meaning, Urbana: University of Illinois Press. Oudeyer, P. Y. (2003). The production and recognition of emotions in speech: features and algorithms. Int. J. Hum. Comput. Stud. 59(1-2): p. 157-183. Parrott, W. G. and R. Harr (1996). The social dimension of emotions. The Emotions. Social, Cultural and Biological Dimensions. London, Sage publications: p: 39-56. Petrushin, V. (1999). Emotion in Speech: Recognition and Application to Call Centers. Artificial Neural Net. In Engr. (ANNIE): p. 7-10. Philippot, P. (1993). Inducing and assessing differentiated Emotion-Feelind states in the laboratory Louvain. Cognition and emotion: p. 171-193. Picard, R. (1997). Affective computing. Cambridge, MIT Press. - 193 -
Bibliographie Plutchik, R. (1962). The Emotions: Facts, Theories and a New Mode. New York, Random House. Plutchik, R. (1984). Emotions: A General Psychoevolutionary Theory. Approaches to Emotion. K. R. Scherer and P. Ekman, Erlbaum Hillsdale NJ: p: 293-317. Plutchik, R. and H. Kellerman (1990). Emotion theory, research and experience vol1. Theories of Emotion. New York, Academic Press. Polzin, T. and A. Waibel (1998). Detecting Emotions in Speech. Cooperative multimodal communication, Tilburg Netherlands. Roesch, E. B., J. R. Fontaine and K. R. Scherer (2006). The world of emotions is two-dimensional .. or is it? Presentation at the 3rd HUMAINE Summer School, Genova: http://emotion-research.net/ws/summerschool3/. Rosenberg, A. and E. I. Binkowski (2004). Augmenting the kappa statistic to determine inter-annotator reliability for multiply labeled data points. Proceedings of the Human Language Technology Conference and Meeting of the North American Chapter of the Association for Computational Linguistics (HLT/NAACL). Rosset, S., D. Tribout and L. Lamel (2007). Multi-level Information and Automatic dialog Act Detection in Human-Human Spoken Dialogs. Speech Communication. Rossi, M., A. Di Cristo, D. Hirst, P. Martin and Y. Nishinuma (1981). L'intonation De l'acoustique la smantique. Russell, J. A. and A. Mehrabian (1977). Evidence for a three-factor theory of emotions. Journal of Research in Personality. 11: p. 273-294. Sander, D., D. Grandjean and K. R. Scherer (2005). A systems approach to appraisal mechanisms in emotion. Neural Networks(18): p. 317-352. Schachter, S. and J. E. Singer (1962). Cognitive, social and physiological determinants of emotional states. Psychological Bulletin. 69: p. 379-399. Scherer, K. R. (1986). Vocal affect expression: A review of research paradigms. Psychological Bulletin 99: p. 143-165. Scherer, K. R. (1989). Vocal correlates of emotion arousal and affective disturbance. Handbook of Psychophysiology: Emotion and social behavior. H. Wagner and A. Manstead. London: Wiley.: p: 165-197. Scherer, K. R. (1993). Neuroscience projections to current debates in emotion psychology. Cognition and Emotion. 7: p. 1-41. . Scherer, K. R. (1998). Analysing Emotion Blends. ISRE. Scherer, K. R. (2003). Vocal communication of emotions : A review of research paradigm. Speech Communication. 40: p. 227-256. Scherer, K. R., R. Banse, H. G. Wallbott and T. Goldbeck (1991). Vocal cues in emotion encoding and decoding. Motivation and Emotion. 15: p. 123-148. Scherer, K. R. and G. Ceschi (2000). Criteria for emotion recognition from verbal and nonverbal expression: Studying baggage loss in the airport. Personality and social psychology bulletin. 26: p. 327-339. Scherer, K. R., T. Johnstone and G. Klasmeyer (2003). Vocal expression of emotion. Handbook of the Affective Sciences. R. J. Davidson, H. Goldsmith and K. R. Scherer. Oxford/New York, Oxford University Press: p: 433-456. Scherer, K. R. and J. Sangsue (2006). Le systme mental en tant que composant de l'motion. Cognition et motions, Kirouac, G.: p: 11-37. Scherer, K. R., T. Wranik, J. Sangsue, V. Tran and U. Scherer (2004). Emotions in everyday life: Probability of occurrence, risk factors, appraisal and reaction pattern. Social Science Information. 43: p. 499-570. Schlosberg, H. (1941). A scale for the judgment of facial expressions. Journal of Experimental Psychology and Aging. 29: p. 497-510. Schrder, M. (2000). Experimental study of affect bursts. ISCA workshop "Speech and Emotion": p. 132-137. - 194 -
Bibliographie Schrder, M., E. Zovato, H. Pirker, C. Peter and F. Burkhardt (2007). W3C Emotion Incubator Group Final Report. Published online: http://www.w3.org/2005/Incubator/emotion/XGR-emotion-20070710. Schuller, B., D. Arsic, F. Wallhoff and G. Rigoll (2006). Emotion recognition in the noise applying large acoustic feature sets. Speech Prosody, Dresden, Germany. Schuller, B., A. Batliner, D. Seppi, S. Steidl, T. Vogt, J. Wagner, L. Devillers, L. Vidrascu, N. Amir, L. Kessous and V. Aharonson (2007a). The Relevance of Feature Type for the Automatic Classification of Emotional User States: Low Level Descriptors and Functionals. Interspeech. Schuller, B., S. Reiter, R. Mller, M. Al-Hames, M. Lang and G. Rigoll (2005). Speaker Independent Speech Emotion Recognition by Ensemble Classification. ICME , 6th International Conference on Multimedia and Expo, IEEE, Amsterdam, The Netherlands. Schuller, B., D. Seppi, A. Batliner, A. Maier and S. Steidl (2007b). Towards more Reality in the Recognition of Emotional Speech. ICASSP, IEEE International Conference on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii: p. 941_944. Shafran, I., M. Riley and M. Mohri (2003). Voice Signature. IEEE Automatic Speech Recognition and Understanding Workshop: p. 31-36 Shaver, P., J. Schwartz, D. Kirson and C. O'Connor (2001). Emotion knowledge: Further Exploration of a Prototype Approach. Emotions in social psychology. W. Parrott. Philadelphia, Psychology Press: p: 26-56. Smith, C. A. and P. C. Ellsworth (1985). Patterns of cognitive appraisal in emotion. Journal of Personality and Social Psychology. 48: p. 813-838. Smith, C. A. and S. Kleinman (1989). Managing emotions in medical school: Students' contacts with the living and the dead. Social Psychology Quarterly. 52: p. 56-69. Smith, C. A. and R. S. Lazarus (1993). Appraisal Components, core relational themes, and the emotions. Cognition and Emotion. 7: p. 233-269. Smith, J. O. and J. S. Abel (1999). Bark and ERB Bilinear Transforms. IEEE Trans. Speech and Audio Proc. 7: p. 697-708. Soren, B. and N. Zacharov (2006). Perceptual Audio Evaluation - Theory, Method and Application. Chichester, John Wiley & Sons. Steidl, S., M. Levit, A. Batliner, E. Nth and E. Niemann (2005). "Of All Things the Measure is Man" Automatic classification of emotions and inter-labeler consistency. IEEE International Conference on Acoustics Speech and Signal Processing. Teukolsky, S. A., W. T. Vetterling and B. P. Flannery (1992). Numerical Recipes in Fortran 77, 2nd ed. Cambridge, U.K., Cambridge University Press. Traum, D. and P. Heeman (1997). Utterance Units Spoken Dialogue Processing in Spoken Language Systems. Lecture Notes in Artificial Intelligence. E. Maier, M. Mast and S. LuperFoy, Springer-Verlag Heidelberg: p: 125-14. Vapnik, V. N. (1998). The Nature of Statistical Learning Theory. Springer. Vidrascu, L. and L. Devillers (2005a). Annotation and Detection of Blended Emotions in Real Human-Human Dialogs Recorded in a Call Center. ICME. Vidrascu, L. and L. Devillers (2005b). Detection of Real-Life Emotions in Call Centers. In InterSpeech, Lisbon. Vidrascu, L. and L. Devillers (2005c). Real-life Emotions Representation and Detection in Call Centers. ACII, Bejing: p. 739-746. Vidrascu, L. and L. Devillers (2006). Real-life emotions in naturalistic data recorded in a medical call center. LREC, Genoa. Vidrascu, L. and L. Devillers (2007). Five emotion classes detection in real-world call center data: the use of various types of paralinguistic features. Paraling', Saarbrucken, p. 11-16. Vieru-Dimulescu, B. and P. Boula de Mareil (2006). Perceptual identification and phonetic analysis of 6 foreign accents in French. ICSLP. - 195 -
Bibliographie Vogt, T. and E. Andre (2005). Comparing Feature Sets for Acted and Spontaneous Speech in View of Automatic Emotion Recognition. ICME. Wagner, H. L. (1993). On measuring performance in category judgment studies of nonverbal behavior. Journal of Nonverbal behavior. 17. Wierzbicka, A. (1999). Emotions across Languages and Cultures: Diversity and Universals, Cambridge University Press. Williams, C. E. and K. N. Stevens (1972). Emotions and speech : Some acoustical correlates. Journal of the Acoustical Society of America. 52: p. 1238-1250. Witten, I. H. and E. Franck (2005). Data Mining: Practical machine learning tools and techniques, 2nd Edition. San Francisco. Wrede, B. and E. Shriberg (2003). Spotting "Hot Spots" in Meetings : Human Judgements and Prosodic Cues. Eurospeech, Geneva. Wundt, W. (1896). Grundrisse der Psychologie [Outlines of psychology]. Leipzig , Germany. Yacoub, S., S. Simske, X. Lin and J. Burns (2003). Recognition of Emotions in Interactive Voice Response Systems. Eurospeech. Zwick, R. (1988). Another Look ar Interrater Agreement. Psychological Bulletin. 103: p. 374-378.
- 196 -
PUBLICATIONS
Chapitre douvrages Laurence Devillers, Laurence Vidrascu, Emotion recognition in Speaker classification II , Christian Mller Susanne Schtz (eds.), Springer,-Verlag, p. 34-42. Revues Laurence Devillers, Laurence Vidrascu, Reprsentation et Dtection des motions dans des donnes issues de dialogues enregistrs dans des centres dappels : des motions mixtes dans des donnes relles, numro spcial Interaction Emotionnelle , Revue Des Sciences et Technologies de l'Information, srie Revue d'Intelligence Artificielle, Volume 20, n4-5/2006, p. 447-476. Laurence Devillers, Laurence Vidrascu, and Lori Lamel. Challenges in real-life emotion annotation and machine learning based detection. Journal of Neural Networks, 18/4, 2005, p.407-422. Actes de colloques internationaux Laurence Vidrascu, Laurence Devillers, Five emotion classes detection in real-world call center data: the use of various types of paralinguistic features, Paraling07, 2007, p. 11-16. Laurence Devillers, Laurence Vidrascu, Positive and Negative emotional states behind the laugh in spontaneous spoken dialogs The phonetics of Laughter, Saarland, 2007 Bjrn Schuller, Anton Batliner, Dino Seppi, Stefan Steidl, Thurid Vogt, Johannes Wagner, Laurence Devillers, Laurence Vidrascu, Noam Amir, Loic Kessous, Vered Aharonson., The Relevance of Feature Type for the Automatic Classification of Emotional User States: Low Level Descriptors and Functionals, Interspeech 2007, Anvers pp. 2253-2256 Batliner, Anton; Steidl, Stefan; Schuller, Bjrn; Seppi, Dino; Vogt, Thurid; Devillers, Laurence; Vidrascu, Laurence; Amir, Noam; Kessous, Loic; Aharonason, Vered. The Impact of F0 Extraction Errors on the Classification of Prominence and Emotion In: IPA (Eds.) Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007 Saarbrcken 2007, pp. 2201-2204 Anton Batliner, Stefan Steidl, Bjrn Schuller, Dino Seppi, Kornel Laskowski, Thurid Vogt, Laurence Devillers, Laurence Vidrascu, Noam Amir, Loic Kessous, Vered Aharonson: Combining Efforts for Improving Automatic Classification of Emotional User States, IS-LTC,2006 Laurence Vidrascu, Laurence Devillers, Real-life emotions in naturalistic data recorded in a medical call center, LREC,Genoa, 2006 Laurence Devillers, Laurence Vidrascu, Real-life emotions detection with lexical and paralinguistic cues on Human-Human call center dialogs, Interspeech 2006. Laurence Vidrascu and Laurence Devillers. Real-life Emotions Representation and Detection in Call Centers. In ACII, Bejing, October 2005 : p. 739-746. Laurence Vidrascu and Laurence Devillers. Annotation and Detection of Blended Emotions in Real Human-Human Dialogs Recorded in a Call Center. In ICME, June 2005. Laurence Vidrascu and Laurence Devillers. Detection of Real-Life Emotions in Call Centers. In InterSpeech, Lisbon, September 2005. Laurence Devillers, Iona Vasilescu, and Laurence Vidrascu. Anger Versus Fear Detection in Recorded Conversations. In Speech Prosody, Nara, March 2004. Actes de colloques franais Laurence Vidrascu, Laurence Devillers. Dtection de 2 5 classes d'motions sur des donnes naturelles enregistres dans un centre dappel, RJCP 2007. - 197 tel-00624085, version 1 - 15 Sep 2011