Sunteți pe pagina 1din 158

MINISTERE DE L'ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE

Facult des Sciences de l'Ingniorat


Dpartement d'Informatique Anne : 2015/2016

THESE
Prsente en vue de l'obtention du diplme de
Doctorat 3ime cycle

Reconnaissance automatique de la parole en milieu rel


bruit par fusion audiovisuelle

Filire : Informatique
Spcialit: Reconnaissance des Formes et Intelligence Artificielle

par

Amina Makhlouf

Devant le jury:

Laskri Mohamed-Tayeb Professeur l'Universit Badji Mokhtar-Annaba (Prsident)


Bensaker Bachir Professeur l'Universit Badji Mokhtar-Annaba (Directeur)
Kazar Okba Professeur l'Universit de Biskra (Examinateur)
Dib Lynda Professeur l'Universit Badji Mokhtar-Annaba (Examinateur)
Lazli Lilia Matre de Confrence l'Universit Badji Mokhtar (Invite)
Vous ne pouvez pas noncer une ide nouvelle autrement quavec des
mots anciens, ceux que vous avez votre disposition. Il va donc falloir un
temps de travail pour comprendre ce que vous venez de faire. Cest ce que
Bachelard appelait la la refonte pistmologique.

La science contemporaine est-elle moderne ?

Jean-Marc Lvy-Leblond, 1999.


Remerciements
Je remercie en premier lieu Allah qui ma donn la fois le courage, la volont, et la
patience afin dlaborer cette thse de recherche scientifique.

Je tiens particulirement remercier Monsieur le Professeur Bensaker Bachir et


Madame Lazli Lilia Matre de Confrences qui sont les instigateurs de mon sujet de thse et
qui mont soutenu tout au long de ce travail. Monsieur Bensaker a dirig ma thse et ma aid
dans toutes les dmarches relatives celle-ci. Madame Lazli ma encadre tout au long de
mon parcours universitaire; pour son encouragement, ainsi que son soutien tout au long de la
thse. Je la remercie pour tout son aide. Son enthousiasme et sa patience ont beaucoup facilit
et agrment mon travail. elle a t toujours disponible pour rpondre aux questions que je lui
posais. Ses remarques mont permis de faire progresser ce travail.

Je remercie Monsieur le Professeur Laskri Med Tayeb de lUniversit Badji Mokhtar-


Annaba, de mavoir fait lhonneur de prsider le jury de ma soutenance.

Un grand merci galement aux membres du jury de soutenance qui mont fait lhonneur
de bien vouloir valuer mon travail. Je suis particulirement reconnaissante aux examinateurs
Kazar Okba, Professeur lUniversit de Biskra et Dib Lynda, Professeur lUniversit
Badji Mokhtar-Annaba.

Et bien sr, ceux sans qui je ne serais rien: mes parents, mes surs, mon mari, ma famille
et ma belle famille et tous mes amis denfance qui me supportent et soutiennent depuis
toujours.

Enfin, je remercie toutes les personnes (nombreuses) que je nai pas cites et qui, un
moment ou un autre, mont donn lenvie et la force de continuer.

i
Rsum
La prsence de bruit de fond et des conditions variables (environnement, rverbration, types de
microphones) peut affecter significativement la qualit de la reconnaissance automatique de la parole
(RAP). Cette thse prsente un systme de reconnaissance audiovisuelle de la parole qui est un
domaine de recherche qui a connu un intrt grandissant durant ces dernires annes. Notre
contribution saxe sur la vrification de ces deux conditions, c'est--dire la modlisation de la
perception audiovisuelle de la parole en vue dune implmentation logicielle, et de
lextraction des informations les plus pertinentes. Notre tude a t au centre dune recherche
pluridisciplinaire: de la psychologie cognitive aux techniques de traitement dimages
couleurs, nous nous sommes investis dans le domaine de la paramtrisation des lvres, le
traitement du signal et la reconnaissance automatique des formes.
Dautre part, les modles de Markov cachs (HMM) sont lorigine de la majorit des
avances rcentes en reconnaissance de la parole discrte ainsi continue. Ces modles grent
les distorsions temporelles du signal de parole en s'appuyant sur des densits de probabilit
pour modliser les distorsions en frquence. Une technique de combinaison des probabilits a
posteriori des tats dun HMM connaissant un vecteur de paramtres acoustiques ainsi visuels
est galement propose. Afin damliorer lestimation des probabilits a posteriori, les
probabilits obtenues avec diffrents modles acoustiques et visuels sont fusionnes. Pour
combiner les probabilits de manire cohrente, les deux modles doivent avoir la mme
topologie.
En partant donc de cette ide, des systmes audiovisuels permettant lenregistrement
simultan des flux visuels et du flux acoustique ont t dvelopps, en utilisant les HMM
combins avec les Algorithmes gntiques (GA), et respectant successivement les modles
suivants : fusion des donnes acoustiques et visuelles par identification directe (ID), et fusion
des rsultats acoustiques et visuelles aprs identification spare (IS).
Afin dvaluer lensemble des approches proposes, deux bases de donnes contenant
chacune des vidos avec une langue diffrente (arabe et anglaise) ont t construites et
utilises. Pour la caractrisation des images, et les signaux acoustiques deux approches bases
sur lutilisation de la transforme en cosinus discrte (DCT), et la mthode RASTA-PLP,
respectivement, ont t mises en uvre.
Nos rsultats exprimentaux montrent qu'il existe en effet des informations dans la
modalit visuelle utile pour la reconnaissance de la parole. Nos expriences ont aussi montr une
grande possibilit damliorer la performance et la robustesse de notre systme de
reconnaissance audiovisuel propos qui utilise la mthode hybride HMM/GA compar avec
les mthodes classiques utilises dans la littrature.

Mots-cls: parole audiovisuelle, lecture labiale, paramtrisation, modle de markov cachs,


algorithme gntique, vision, signaux acoustique, hybridation HMM/GA

ii
Abstract
The presence of background noise and varying conditions (environment, reverberation
microphone types) can significantly affect the quality of automatic speech recognition (ASR).
This thesis presents an audiovisual speech recognition system which is a research domain that
has seen a growing interest during these last years. Our contribution is centered on the
verification of these two conditions, i.e. the perception modeling of the audiovisual speech for
a software implementation, and the extraction of the most pertinent information. Our study
was the center of a pluridisciplinary research: cognitive psychology to the techniques of color
image processing, we are invested in the field of lips parameterization, Signal processing and
the automatic pattern recognition.
Furthermore, the Hidden Markov Models (HMM) are the origin of the majority of recent
advances in the continuous and discrete speech recognition. These models support the
temporal distortions of the speech signal based on the probability density for modeling the
distortions frequency. Combination of a posteriori probabilities of states of a HMM given a
feature frame is also proposed. In order to better estimate such a posteriori probabilities,
probabilities obtained with several acoustic and visual models are fused. For the sake of
consistency, the topology of the two models has to be equivalent.
Based on this idea, audiovisual systems that allow the simultaneous recording of the visual
and acoustic stream has been developed, by using the HMM combined with the Genetic
Algorithms (GA), according to data fusion for direct integration (DI) and result fusion for
separate integration (SI).
In order to evaluate all of the proposed approaches, two databases, each containing videos
using a different language (Arabic and English) were constructed and used. For the
characterization of images, and the acoustic signals two approaches based on the use of the
discrete cosine transform (DCT), and the RASTA-PLP method, respectively, have been
implemented.
Our experimental results show that there is in fact useful information in the visual
modality for speech recognition. Our experiments have also shown a great possibility to
improve the performance and robustness of our proposed AVASR using the hybrid HMM/GA
method compared with traditional methods in the literature.

Keywords: audiovisual speech, lip-reading, parameterization, hidden Markov model, genetic


algorithm, vision, acoustic signals, hybrid HMM/GA

iii
Table des matires
Remerciements .......................................................................................................................... i
Rsum ...................................................................................................................................... ii
Abstract .................................................................................................................................... iii
Table des matires ................................................................................................................... iv
Table des illustrations ........................................................................................................... viii
Liste des figures................................................................................................................................ viii
Liste des tableaux ................................................................................................................................ x
Introduction .............................................................................................................................. 1
1. Contexte et cadre de recherche .................................................................................................... 1
2. Plan de la thse ............................................................................................................................ 2
Premire partie: Etat de lart .................................................................................................. 1
Les lvres et la production de la parole .................................................................................. 5
1.1 Architecture et fonctionnement de lappareil vocal ................................................................ 5
1.1.1 Lappareil vibrateur ......................................................................................................... 5
1.1.2 Le rsonateur ................................................................................................................... 7
1.2 Lanatomie des lvres ............................................................................................................ 10
1.2.1 Les tissus ....................................................................................................................... 10
1.2.2 Les muscles des lvres................................................................................................... 11
1.2.3 Classification fonctionnelle des muscles labiaux .......................................................... 13
1.3 Repres phontiques .............................................................................................................. 14
1.3.1 Acoustique et articulation .............................................................................................. 14
1.3.2 Des sons et des lvres .................................................................................................... 15
1.3.3 La coarticulation : cibles en contexte ............................................................................ 17
1.4 La parole audiovisuelle et ses applications en communication ............................................. 18
1.4.1 La bimodalit intrinsque de la parole .......................................................................... 18
1.4.2 Lintelligibilit de la parole audiovisuelle ..................................................................... 20
1.4.3 Perspectives pour la communication homme-machine ................................................. 22
1.4.3.1 Reconnaissance automatique de la parole audiovisuelle ........................................... 22
1.4.3.2 Codage spcifique de la parole : la norme MPEG4................................................... 23
1.4.3.3 Le rle de la biomtrie ............................................................................................... 23
1.5 Conclusion ............................................................................................................................. 24
La reconnaissance visuelle de la parole ................................................................................ 27
2.1 Influence de langle de vue.................................................................................................... 28

iv
2.2 Visage complet ou indices visuels ? ...................................................................................... 29
2.3 Localisation et suivi de visages ............................................................................................. 30
2.3.1 Localisation de visages .................................................................................................. 31
2.3.1.1 Approches couleur ..................................................................................................... 32
2.3.1.2 Approches statistiques ............................................................................................... 36
2.3.2 Localisation de la bouche .............................................................................................. 39
2.3.2.1 Approches couleur ..................................................................................................... 40
2.3.2.2 Approches statistiques ............................................................................................... 43
2.3.2.3 Approche par corrlation avec des patrons................................................................ 45
2.3.2.4 Approches mouvement .............................................................................................. 46
2.3.2.5 Autres approches ....................................................................................................... 47
2.4 Conditions naturelles (cologiques) ................................................................................ 49
2.5 Comparaison image-modle .................................................................................................. 51
2.6 Corpus existants .................................................................................................................... 52
2.7 Conclusion ............................................................................................................................. 53
De la reconnaissance acoustique la reconnaissance bimodale de parole ........................ 54
3.1 Dfinition de la parole ........................................................................................................... 54
3.2 Le signal de la parole............................................................................................................. 55
3.2.1 Redondance du signal .................................................................................................... 55
3.2.2 Variabilit du signal ...................................................................................................... 55
3.2.3 Les effets de coarticulation ............................................................................................ 56
3.3 Extraction des paramtres...................................................................................................... 56
3.3.1 nergie du signal ........................................................................................................... 57
3.3.2 Coefficients MFCC ....................................................................................................... 58
3.3.3 Taux de passage par zro ............................................................................................... 60
3.3.4 Autres paramtrisations du signal ................................................................................. 60
3.3.5 Drives premire et seconde ........................................................................................ 61
3.4 Rduction de l'espace de reprsentation ................................................................................ 61
3.5 Les modes de fonctionnement dun systme de reconnaissance ........................................... 62
3.6 La reconnaissance bimodale de la parole .............................................................................. 63
3.6.1 Les modles dintgration audio-visuelle de la parole .................................................. 64
3.6.1.1 Modle ID.................................................................................................................. 65
3.6.1.2 Modle IS .................................................................................................................. 66
3.6.1.3 Modle RD ................................................................................................................ 69
3.6.1.4 Modle RM................................................................................................................ 70
3.6.2 Elments du choix dune architecture : thoriques et exprimentaux ........................... 71

v
3.6.3 Etudes comparatives ...................................................................................................... 72
3.6.3.1 ID vs. IS ..................................................................................................................... 72
3.6.3.2 RD vs. RM ................................................................................................................. 73
3.7 Conclusion ............................................................................................................................. 74
Deuxime partie : Approches proposes .............................................................................. 58
Moteur de reconnaissance GA/HMM .................................................................................. 77
4.1 Modles de Markov Cachs .................................................................................................. 77
4.1.1 Dfinition....................................................................................................................... 77
4.1.2 Utilisation et algorithmes .............................................................................................. 79
4.1.2.1 Evaluation et lalgorithme de Forward ...................................................................... 79
4.1.2.2 Dcodage et lalgorithme de Viterbi ......................................................................... 81
4.1.3 Diffrents types de modles HMM ............................................................................... 84
4.1.4 Rsum .......................................................................................................................... 85
4.2 Les algorithmes gntiques ................................................................................................... 86
4.2.1 Principe des algorithmes gntiques ............................................................................. 86
4.2.2 Description dtaille ...................................................................................................... 88
4.2.2.1 Codage des donnes .................................................................................................. 88
4.2.2.2 Gnration alatoire de la population initiale ............................................................ 88
4.2.2.3 valuation .................................................................................................................. 89
4.2.2.4 Gestion des contraintes .............................................................................................. 90
4.2.2.5 Principes de slection ................................................................................................ 90
4.2.2.6 Oprateur de Croisement ........................................................................................... 91
4.2.2.7 Oprateur de mutation ............................................................................................... 93
4.2.2.8 Partage (Sharing) ....................................................................................................... 94
4.2.2.9 Critres darrt de lalgorithme ................................................................................. 95
4.2.3 Avantages et dsavantages des algorithmes gntiques ................................................ 95
4.3 Moteur de reconnaissance GA/HMM ................................................................................... 95
4.4 Conclusion ............................................................................................................................. 97
Description du systme propos ............................................................................................ 98
5.1 Architecture de systme de reconnaissance par fusion audiovisuelle ................................... 99
5.1.1 Traitement visuel ......................................................................................................... 100
5.1.1.1 Dtection de visage.................................................................................................. 100
5.1.1.2 Localisation de la bouche ........................................................................................ 104
5.1.1.3 Extraction des paramtres visuels ........................................................................... 105
5.1.1.3.1 Dcoupage de l'image ........................................................................................ 106

vi
5.1.1.3.2 Extraction de caractristiques ............................................................................ 106
5.1.2 Traitement acoustique ................................................................................................. 109
5.1.2.1 Analyse RASTA-PLP .............................................................................................. 109
5.1.2.2 La quantification vectorielle .................................................................................... 110
5.1.3 Moteur de reconnaissance GA/HMM.......................................................................... 112
5.1.4 La fusion audiovisuelle................................................................................................ 112
5.1.4.1 Fusion des paramtres ............................................................................................. 113
5.1.4.2 Fusion des scores ..................................................................................................... 113
5.2 Conclusion ........................................................................................................................... 114
Ralisation ............................................................................................................................. 115
6.1 Architecture gnral du systme de reconnaissance............................................................ 115
6.2 Base de donnes utilise ...................................................................................................... 118
6.2.1 Les bases de donnes audiovisuelle arabe ................................................................... 118
6.2.2 La base de donnes CUAVE ....................................................................................... 120
6.3 Validation du systme ......................................................................................................... 120
6.4 Traitement des donnes audiovisuelles ............................................................................... 121
6.4.1 Sparation audiovisuelle.............................................................................................. 121
6.4.2 Donnes visuels ........................................................................................................... 121
6.4.3 Donnes acoustiques ................................................................................................... 123
6.5 Modlisation par GA/HMM ................................................................................................ 125
6.5.1 Rsultats obtenus et discussion ................................................................................... 125
6.5.1.1. Exprimentations avec des bruits sonore et visuel additifs ................................. 125
6.5.1.2. Exprimentations avec un bruit rel .................................................................... 127
6.6 Conclusion ........................................................................................................................... 130
Conclusion et perspectives ................................................................................................... 131
7.1 Conclusion ........................................................................................................................... 131
7.2 Perspectives ......................................................................................................................... 131
Annexe A ............................................................................................................................... 133
A.1 Environnement de dveloppement: MATLAB R2013a ...................................................... 133
A.2 Structure et fonctionnement du logiciel............................................................................... 135
Bibliographie......................................................................................................................... 137
Notations ............................................................................................................................... 146
Publications ralises au cours de la thse ......................................................................... 147

vii
Table des illustrations
Liste des figures

Figure 1.1 Vue schmatique de lappareil vocal, dans le plan sagittal mdian. ...................... 6
Figure 1.2 Vue schmatique antrieure du larynx ( gauche). Vue laryngoscopique des
cordes vocales ( droite). ............................................................................................................ 7
Figure 1.3 Structures de la langue, dtails des muscles extrinsques (plan sagittal mdian,
vue de droite). ............................................................................................................................. 9
Figure 1.4 Aspect schmatique des lvres (daprs Zemlin, 1968). ..................................... 11
Figure 1.5 Les muscles de la face (daprs Bouchet et Cuilleret 1972). ............................... 12
Figure 1.6 Le conduit vocal et les 8 lieux darticulation principaux..................................... 15
Figure 1.7 Les ralisations articulatoires et les mouvements labiaux correspondant (daprs
Abry 1980). .............................................................................................................................. 17
Figure 1.8 Comparaison de lintelligibilit de la parole bimodale en condition bruite en
ajoutant successivement les lvres, le mouvement de la mchoire puis tout le visage du
locuteur (Benot et al., 1996). ................................................................................................... 21
Figure 1.9 Schma de principe de la reconnaissance automatique de la parole. ................... 23
Figure 2.1 Image couleur en entre (a), pixels candidats pour appartenir au visage et
localisation. .............................................................................................................................. 33
Figure 2.2 Dtecteur de visage de Hunke et Duchnowski bas sur la couleur (FCC) : (a)
Image couleur analyser et rgion utilise pour entraner le modle (IFCC) de couleur du
visage, (b) Sortie du FCC : en blanc, les zones de non-visage , d'aprs (Duchnowski et al.
1995; Hunke and Waibel 1994). .............................................................................................. 34
Figure. 2.3 Une scne complexe (a) et sa classification en tons peau (b), d'aprs (Senior
1999)......................................................................................................................................... 34
Figure. 2.4 Localisation du visage sur le corpus M2VTS, d'aprs (Wark and Sridharan
1998)......................................................................................................................................... 35
Figure. 2.5 Localisation de diffrentes rgions de visage (a) automatiquement (b) en
utilisant l'approche template matching , daprs (Brunelli and Poggio 1993). ................... 38
Figure. 2.6 Localisation des lvres en utilisant la teinte H, d'aprs (Coianiz et al. 1996). ... 41
Figure. 2.7 Localisation des lvres en utilisant le quotient Q, d'aprs (Wark and Sridharan
1998)......................................................................................................................................... 42
Figure. 2.8 Dtection des lvres d'aprs (Liew et al. 1999). ................................................. 43
Figure. 2.9 Dtection des lvres d'aprs (Rao and Mersereau 1995). ................................... 44
Figure. 2.10 Dtection des lvres d'aprs (Wojdel and Rothkrantz 2001a; Wojdel and
Rothkrantz 2001b). ................................................................................................................... 45
Figure 3.1 Schma de calcul des MFCC. ............................................................................. 59
Figure 3.2 Schmas de calcul les paramtres PLP et LPC. .................................................. 61
Figure 3.3 Le noyau dun processus dintgration audio-visuelle dans la perception de la
parole (daprs Schwartz et al. (1998)). ................................................................................... 65
Figure 3.4 Modle identification directe. ........................................................................... 65
viii
Figure 3.5 Modle identification spare. .......................................................................... 67
Figure 3.6 Modle dintgration bas sur la maximisation des produits des probabilits
conjointes (Daprs Adjoudani (1998)). ................................................................................... 67
Figure 3.7 Mthode de slection du meilleur candidat acoustique ou visuel (Daprs
Adjoudani (1998)). ................................................................................................................... 68
Figure 3.8 Architecture dintgration audiovisuelle par pondration (Daprs Adjoudani
(1998)). ..................................................................................................................................... 68
Figure 3.9 Modle recodage dans la modalit dominante. ................................................. 69
Figure 3.10 Modle recodage dans la modalit motrice. .................................................... 70
Figure 3.11 Taxinomie des modles dintgration (daprs Robert-Ribs (1995)). ............. 71
Figure 4.1 HMM 5 tats dont 3 metteurs. ......................................................................... 78
Figure 4.2 Trois types distincts de modles HMM. Illustration avec un exemple de HMM
4 tat (daprs Rabiner et Juang 1993). .................................................................................... 85
Figure 4.3 Principe gnral des algorithmes gntiques. ...................................................... 87
Figure 4.4 Slicing crossover. ................................................................................................. 92
Figure 4.5 Slicing crossover 2 points. ................................................................................ 93
Figure 4.6 Croisement barycentrique. ................................................................................... 93
Figure 4.7 Principe de loprateur de mutation. .................................................................... 94
Figure 4.8 Mthode de reprsentation des chromosomes dans lapprentissage des
GA/HMMs. .............................................................................................................................. 96
Figure 5.1 Phases de spcification dun systme dintelligence artificielle utilisant des
HMM. ....................................................................................................................................... 98
Figure 5.2 Systme dun AVASR mis en uvre. ............................................................... 100
Figure 5.3 Exemple de 4 caractristiques de Haar. La somme des valeurs des pixels
appartenant aux zones encadres claires est soustraite la somme des valeurs des pixels
appartenant aux zones encadres sombres pour obtenir la caractristique de Haar. Chacune
des quatre caractristiques de Haar est reprsente avec son cadre de dtection respectif. ... 102
Figure 5.4 Cascade de classifieurs forts. A chaque tage, uniquement les candidats classifis
positifs sont transmis l'tage suivant. .................................................................................. 104
Figure 5.4 Dcoupage de l'image de l'histogramme. ........................................................... 106
Figure 5.5 Exemple de fonctions de base de DCT qui forme le domaine frquentiel. ....... 108
Figure 5.6 Parcours en zigzag d'une matrice de dimension 8 8. ...................................... 108
Figure 5.7 Analyse RASTA PLP. ....................................................................................... 110
Figure 5.8 Distribution de probabilits, un chantillon de points associs, et un dcoupage
en nuages (clusters). ............................................................................................................... 111
Figure 6.1 Architecture gnrale du systme propos. ....................................................... 117
Figure 6.2 quelques exemples de trames de notre base audiovisuelle AVARB. ................ 119
Figure 6.3 Exemples de trames de la base CUAVE. ........................................................... 120
Figure 6.4 Un exemple de dtection de visage : (a) image originale (b) dtection de peau
avec suppression de bruit (c) rsultat de dtection de visage. ................................................ 121
Figure 6.5 Exemples de la rgion de la bouche dtecte partir de : (a) la base AVARB (b)
la base CUAVE. ..................................................................................................................... 122
Figure 6.6 Le processus de slection des coefficients DCT avec un chantillon partir: (a) la
base AVARB (b) la base CUAVE. ........................................................................................ 122

ix
Figure 6.7 Exemple d'un signal de parole du mot arabe "/ marhaban /" (a) son
spectrogramme (b) et l'ensemble des caractristiques spectrales RASTA-PLP (c). .............. 124
Figure 6.8 ROI avec bruit gaussien, l'cart type =(A) 0 (B) 15 (C) 30 (D) 50 et (E) 100. . 126
Figure 6.9 La performance du systme AVASR : (a) sous une frquence des trames vido
rduite (b) pour un bruit alatoire gaussien. ........................................................................... 126
Figure 6.10 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on
utilisant : (a) HMM standard (b) GA/HMM pour la BDD AVARB. ..................................... 128
Figure 6.11 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on
utilisant : (a) HMM standard (b) GA/HMM pour la BDD CUAVE. ..................................... 129
Figure A.2 Interface principale du logiciel. ........................................................................ 135
Figure A.3 Interface dextraction des paramtres visuels. .................................................. 136
Figure A.4 Interface dextraction des paramtres acoustiques. .......................................... 136

Liste des tableaux

Table 2.1 Scores didentification obtenus par Summerfield (1979) dans cinq conditions de
prsentation des stimuli. ........................................................................................................... 29
Table 6.1 Notre deux corpus proposs de chiffres et commandes arabes. .......................... 119
Table 6.2 paramtres GA pour lentranement du HMM pour laudio seul: (a) base AVARB
(b) base CUAVE. ................................................................................................................... 127
Table 6.3 paramtres GA pour lentranement du HMM pour le vido seul: (a) base
AVARB (b) base CUAVE. .................................................................................................... 127

x
Introduction

Introduction
Lutilisation de connaissances supplmentaires conjointement au signal de parole est une
mthode classique pour amliorer les performances et la robustesse des systmes de
reconnaissance automatique de la parole. De nombreux travaux sur la perception de la parole
ayant montr limportance des informations visuelles dans le processus de reconnaissance
chez lhomme, lutilisation de donnes sur la forme et le mouvement des lvres du locuteur
semble tre une voie prometteuse pour la reconnaissance automatique surtout en milieux
sonores bruits.
Les tres humains emploient linformation visuelle de faon subconsciente afin de
comprendre les paroles, particulirement dans des environnements bruyants, mais galement
quand les conditions acoustiques sont bonnes. Le mouvement des lvres du locuteur apporte
une srie dinformation importante, par exemple au sujet des articulations, ce qui est
automatiquement intgr par le cerveau. Leffet McGurk (1976) en apporte la preuve en
montrant que le cerveau, soumis des stimuli auditifs et visuels inconsistants, peroit un son
diffrent de celui qui a t dit.

1. Contexte et cadre de recherche


Lobjet de nos travaux de recherche concerne lintgration des informations visuelles aux
informations acoustiques en vue de leur exploitation pour la reconnaissance automatique de la
parole. Si cette exploitation est fort sduisante, la problmatique quelle soulve est cependant
loin dtre simple. Tout dbord, se pose la question du niveau dintgration : est-ce le niveau
des donnes ou bien celui des rsultats. Puis il y a les phnomnes de dcalage temporel entre
la ralisation auditive et la ralisation visuelle dun mme phonme. Ensuite intervient le
problme dadaptation des contributions des modalits acoustique et visuelle selon leur
fiabilit relative. Enfin se pose la question de la pertinence de lutilisation, pour le traitement
du signal visuel de parole, dunits de dcision spcifiques, nommes vismes.
Reconnaissance automatique de la parole audio-visuelle (AVASR) a t lance par
Petajan (1984) et elle est encore une zone active de recherche. Cette thse se positionne
clairement dans le champ des systmes AVASR, le systme de reconnaissance propos utilise
les modles de Markov cachs (Hidden Markov Model, HMM) comme moteur de
reconnaissance combin avec un algorithme gntique (Genetic Algorithm, GA) pour
rsoudre le problme de la convergence vers loptimum local. Le point principal de ce travail

1
Introduction

est bas sur la qualit de la modlisation des donnes (appel observations) faites par HMM.
Notre objectif est de proposer des algorithmes qui permettent d'amliorer cette qualit. Le
critre utilis pour quantifier la qualit de HMM est la probabilit qu'un modle donn gnre
une observation donne. Pour rsoudre ce problme, nous utilisons comme nous l'avons dj
mentionn une hybridation gntique des HMM et nous proposons des mthodes de
reprsentation d'un gne et la mthode pour l'valuation des mesures de remise en forme des
populations de chaque gnration cre par algorithme gntique. L'exprience est mene afin
d'valuer chaque population et la prcision de rsultat d'infrence sur un ensemble de donnes
audiovisuelles relles.
Le traitement de la parole arabe est encore ses dbuts, la raison pour laquelle, nous
avons pens lapplication de la mthode hybride GA/HMM, ayant comme objectif la
reconnaissance de la parole en mode multi-locuteur.

2. Plan de la thse
Ce document est structur en deux parties. La premire partie tablit plusieurs tats de
lart sur les domaines abords (chapitre 1, 2 et 3) tandis que la deuxime partie prsente nos
approches proposes.
Le premier chapitre donne une brve prsentation de quelques lments physiologiques
sur la production de la parole et la paramtrisation des lvres. Cette tude prsente une
description des muscles faciaux intervenant dans le processus de la parole. Nous nous
dcrivons aussi quelques proprits intrinsques de la perception de la parole bimodale afin de
mieux comprendre ce processus diffrents modles d'intgration audiovisuelle chez l'homme
et dans la machine sont prsentes.
Nous passons dans le chapitre 2 une description dtaille des techniques d'extraction
des informations visuelles des mouvements des lvres, notamment celles bases sur le
traitement vido, ainsi que notre mthode de calcul des paramtres labiaux base sur un
maquillage pralable des lvres.
Par la suite dans le chapitre 3, Nous nous consacrons a une revue de l'tat de l'art dans le
domaine du dveloppement des systmes de reconnaissance visuelle et audiovisuelle.
Chapitre 4 dfinit le principe et le fonctionnement de notre systme AVASR propos en
utilisant la mthode hybride GA/HMM.
Puis dans le chapitre 5, nous dcrivons le principe et le fonctionnement de notre systme
de reconnaissance de la parole audiovisuelle propos.

2
Introduction

Le dernier chapitre (chapitre 6) prsente les rsultats de nos tests sur les deux modles
d'intgration couramment utiliss dans la littrature (prcoce et tardive) en insistant sur notre
architecture d'intgration originale, base sur une pondration des canaux en fonction de leur
fiabilit, estime par la dispersion des meilleurs candidats. La dernire partie de ce manuscrit
est ddie la description technique de notre systme lectronique d'extraction des paramtres
labiaux en temps rel et a l'valuation de ses performances dans une application de lecture
labiale automatique.
Enfin, nous concluons par un bilan de nos travaux de recherche et nous proposons
quelques perspectives damlioration associes aux diffrentes ralisations.

3
Premire partie: Etat de lart
Chapitre 1. Les lvres et la production de la parole

Les lvres et la production de la


parole
1
Le tlphone et la radio prouvent la capacit dune parole purement auditive transmettre
avec efficacit une communication langagire. Nanmoins, la perception humaine tire aussi
profit de linformation visuelle apporte par le visage du locuteur notamment lorsque les
conditions acoustiques sont dgrades. Cest cette bimodalit intrinsque, et le gain
dintelligibilit quelle apporte, quexplore ltude de la parole audiovisuelle. Mise en
vidence pour la communication humaine, elle ouvre de nouvelles perspectives pour la
communication avec et par la machine.
Bien que la communication orale engage lensemble du visage du locuteur, les lvres
occupent une place privilgie : elles fournissent une source visuelle dinformation pour la
perception de la parole et, tant toujours identifiables, se prtent une analyse automatique.
La capture automatique des mouvements labiaux (ou la biomtrie) tend doter lordinateur de
paramtres intelligibles et indpendants pour contrler des visages synthtiques parlants ou
bien identifier le message nonc par une reconnaissance audiovisuelle automatique. Les
difficults technologiques rsident dans la complexit de ces mouvements et la variabilit
intra- et inter- locuteurs.

1.1 Architecture et fonctionnement de lappareil vocal


Cette section, qui rappelle larchitecture et les principes gnraux de fonctionnement de
notre appareil vocal sappuie sur les ouvrages suivants : (Le Huche 2001) et (Boite et al.
2000). Une vue schmatique de notre appareil vocal est propose la figure 1.1.

1.1.1 Lappareil vibrateur

Lair est la matire premire de la voix. Si le fonctionnement de notre appareil vocal est
souvent compar celui dun instrument de musique, il doit tre dcrit comme celui dun
instrument vent. En effet, en expulsant lair pulmonaire travers la trache, le systme
respiratoire joue le rle dune soufflerie. Il sagit du souffle phonatoire produit, soit par
labaissement de la cage thoracique, soit dans le cadre de la projection vocale par laction des
muscles abdominaux.

5
Chapitre 1. Les lvres et la production de la parole

Figure 1.1 Vue schmatique de lappareil vocal, dans le plan sagittal mdian.

Lextrmit suprieure de la trache est entoure par un ensemble de muscles et de


cartilages mobiles qui constituent le larynx. Le plus important est le cartilage thyrode qui
forme le relief de la pomme d'Adam. Le larynx se trouve au carrefour des voies ariennes et
digestives, entre le pharynx et la trache, et en avant de l'sophage. Les plis vocaux,
communment nomms cordes vocales sont deux lvres symtriques (structures fibreuses)
places en travers du larynx. Ces lvres se rejoignent en avant et sont plus au moins cartes
lune de lautre sur leur partie arrire (structure en forme de V); louverture triangulaire
rsultante est nomme glotte. Les structures du larynx et des plis vocaux sont illustrs la
figure 1.2. Le larynx et les plis vocaux forment notre appareil vibrateur .
Lors de la production dun son qualifi de non-vois (ou sourd), comme cest le cas,
par exemple, pour les phonmes [s] ou [f], les plis vocaux sont carts et lair pulmonaire
circule librement en direction des structures en aval.

6
Chapitre 1. Les lvres et la production de la parole

Figure 1.2 Vue schmatique antrieure du larynx ( gauche). Vue laryngoscopique des cordes
vocales ( droite).

En revanche, lors de la production dun son vois (ou sonore), comme cest le cas, par
exemple, pour les phonmes [z], [v] et pour les voyelles, les plis vocaux souvrent et se
ferment priodiquement, obstruant puis librant par intermittence le passage de lair dans le
larynx. Le flux continu dair pulmonaire prend ainsi la forme dun train dimpulsions de
pression ; nos cordes vocales vibrent . Le dernier lment principal de notre appareil
vibrateur est lpiglotte. Lors de la dglutition, cette dernire agit comme un clapet qui se
rabat sur le larynx, conduisant les aliments vers lsophage en empchant leur passage dans
la trache et les poumons ( fausse route ).

1.1.2 Le rsonateur

Lair pulmonaire, ainsi modul par lappareil vibrateur, est ensuite appliqu lentre du
conduit vocal. Ce dernier est principalement constitu des cavits pharyngiennes
(laryngophaynx et oropharynx situs en arrire-gorge) et de la cavit buccale (espace qui
stend du larynx jusquaux lvres). Pour la ralisation de certains phonmes, le voile du
palais (le velum) et la luette qui sy rattache, sabaissent, permettant ainsi le passage de lair
dans les cavits nasales (fosses nasales et rhinopharynx ou nasopharynx). Ces diffrentes
cavits forment un ensemble que nous qualifierons ici de rsonateur . Si lappareil
vibrateur peut tre dcrit comme le lieu de production de la voix , le rsonateur apparat
alors comme le lieu de naissance de la parole . Il abrite en effet des organes mobiles,

7
Chapitre 1. Les lvres et la production de la parole

nomms articulateurs, qui en modifiant sa gomtrie et donc ses proprits acoustiques,


mettent en forme le son laryng (ou son glottique) en une squence de sons lmentaires. Ces
derniers peuvent tre interprts comme la ralisation acoustique dune srie de phonmes,
units linguistiques lmentaires propres une langue. Les articulateurs principaux sont la
langue, les lvres, le voile du palais et la mchoire (maxillaire infrieur).
Larticulateur principal de la cavit buccale est la langue. Intervenant dans la mastication
et la dglutition, la langue est galement lorgane du got. Stendant sur une longueur dune
dizaine de centimtres environ, cet organe complexe et hautement vascularis est compos
dun squelette, de muscles et d'une muqueuse. Son squelette est qualifi dostofibreux ; il est
constitu de los hyode, situ au dessus du larynx, sur lequel se fixe la membrane hyo-
glossienne, dune hauteur dun centimtre environ, et le septum lingual, lame fibreuse
lorigine de la dpression visible sur toute la longueur de la langue. Son mouvement est
contrl par dix sept muscles, dont huit paires de muscles agonistes/antagonistes. Quatre
paires de muscles extrinsques (muscles qui prennent naissance lextrieur de la langue)
servent notamment sa protrusion, sa rtraction, sa dpression ou son lvation.
La langue est usuellement dcrite comme un ensemble de deux structures au
comportement distinct, la racine (ou base), fixe los hyode, et le corps, plus mobile. Ce
dernier se dcompose galement en deux parties, le dos et la pointe de la langue, nomme
apex. Lorganisation du systme musculaire de la langue ainsi que ses principales structures
sont illustres la figure 1.3. Le rle de la langue dans la phonation est dterminant,
notamment pour la production des voyelles, caractrise par le libre passage de lair dans le
rsonateur. La phontique articulatoire dcrit le systme vocalique dune langue
(classification des voyelles) prcisment laide de deux critres qui dcrivent la
configuration de la langue dans la cavit buccale. Le premier est le lieu darticulation ;
avant ou arrire , il localise la masse de la langue et qualifie ainsi les voyelles produites
d antrieures , de centrales ou de postrieures . Le second critre est laperture ;
il dcrit lespace de rsonnance mnag entre la langue et le palais (ferm ou ouvert),
qualifiant ainsi les voyelles produites de hautes ou basses . La langue joue galement
un rle important pour larticulation des consonnes, dont le mode de production est,
linverse des voyelles, caractris par l'obstruction du passage de l'air dans le rsonateur. Dans
ce cas, le lieu darticulation localise cette obstruction. Pour produire une consonne dite
dentale ([t], [d], [n]), la pointe de la langue cre cette obstruction en se rapprochant des
dents.

8
Chapitre 1. Les lvres et la production de la parole

Figure 01.3 Structures de la langue, dtails des muscles extrinsques (plan sagittal mdian, vue de
droite).

Dans le cas des consonnes inter-dentales ([th] comme thin, [dh] comme then), la
langue dpasse les dents et vient sappuyer directement sur les incisives. Pour les consonnes
dites alvolaires ([s], [z] ou la consonne liquide [l] mais galement [t], [d], [n]), et
postalvolaires ([ch] comme church, [jh] comme judge, [sh] comme she, [zh] comme azure),
elle se dplace respectivement vers les alvoles (creux de los alvolaire dans lequel est
enchsse une dent) et vers la partie antrieure du palais ( la juxtaposition avec le palais dur).
Pour une consonne dite palatale ([j] comme ye, catgorise galement comme une semi-
voyelle), lorgane articulateur est le dos de la langue, lobstruction ayant lieu au niveau du
palais dur. Pour une consonne vlaire ([k], [g], [ng] comme parking), la partie postrieure du
dos de la langue se bombe et se rapproche du palais mou. Enfin, pour une consonne uvulaire
([r] comme Paris en franais), le lieu darticulation se situe au niveau de la luette.
Les lvres constituent lautre articulateur majeur de la cavit buccale. Elles permettent la
production des consonnes bilabiales (rapprochement des lvres infrieures et suprieures,
[p], [b], [m]) et des consonnes labio-dentales ([f], [v], rapprochement de la lvre infrieure
avec les dents). Elles interviennent galement dans le cadre de la production vocalique en
apportant la notion darrondissement des voyelles. Enfin, la ralisation acoustique de certains
phonmes ncessite parfois deux lieux darticulation, impliquant la fois la langue et les
lvres ; cest le cas notamment de la consonne labio-velaire [w] (comme who).

9
Chapitre 1. Les lvres et la production de la parole

Le dernier articulateur du rsonateur est le voile du palais qui permet, lorsquil sabaisse,
de mettre en parallle les cavits buccale et nasale. Il intervient notamment dans la production
des consonnes nasales [m], [n] et [ng] en les diffrenciant respectivement des groupes de
consonnes ([p], [b]), ([t], [d]), et ([k], [g]), qui prsentent la mme configuration linguale et
labiale. Enfin, labaissement du voile du palais permet, en langue franaise notamment, la
formation des voyelles nasales [] (on), [] (hein), [oe] (un), [] (an).
Au regard de ces principaux rsultats issus de la phontique articulatoire, la ralisation
acoustique dun phonme dpend principalement des configurations de la langue, des lvres et
du voile du palais mais galement de lactivit des cordes vocales. Lorsque ces dernires
doivent tre retires, dans le cadre notamment du traitement chirurgical du cancer du larynx,
les mcanismes de la phonation sont profondment modifis.

1.2 Lanatomie des lvres


1.2.1 Les tissus

Daprs les donnes anatomiques prsentes dans (Abry 1980), les lvres forment deux
replis musculaires, recouverts dune membrane, qui circonscrivent lorifice de la cavit
buccale. Ces replis suprieur et infrieur sont indpendants et se runissent leurs extrmits
pour former les commissures labiales. La face externe des lvres est recouverte par de la peau
et la face interne par de la muqueuse compose de cellules disposes comme des pavs
(lpithlium). Les muscles se trouvent directement sous la peau.
La ligne entre la peau et la muqueuse dessine dans sa partie suprieure et, au centre, une
courbe concave dnomme arc de Cupidon . Elle dlimite une zone de transition, dite
vermillon. Celle-ci se caractrise par sa haute teneur en un liquide semi-fluide qui augmente
la transparence du tissu, tel point quon aperoit la teinte rouge de la couche vasculaire sous-
jacente. Cest cette caractristique qui fait ressortir la couleur des lvres par rapport au reste
de la peau. La zone de vermillon de la lvre suprieure montre, en son milieu, une
protubrance : le tubercule.

10
Chapitre 1. Les lvres et la production de la parole

Figure 01.4 Aspect schmatique des lvres (daprs Zemlin, 1968).

A lintrieur de la bouche, la muqueuse de teinte rose rejoint les arcades alvolo-


dentaires. Lespace incurv, ainsi dlimit, forme les gouttires vestibulaires. Dans leurs
parties mdianes, les gouttires vestibulaires suprieure et infrieure prsentent un repli
muqueux : le frein de la lvre. Celui-ci est nettement plus prominent pour la lvre suprieure.

1.2.2 Les muscles des lvres

Les muscles des lvres font partie des muscles faciaux. Ils ont tous la particularit de
prsenter une insertion mobile cutane. Cest cette caractristique qui rend possible les
diffrentes combinaisons dexpression du visage et la souplesse des mouvements en
production de la parole. Le muscle essentiel des lvres est lorbiculaire des lvres qui opre
comme un sphincter annulaire. Autour de celui-ci, rayonnent les autres muscles de la face
dont les fibres simbriquent directement avec celles de lorbiculaire.

11
Chapitre 1. Les lvres et la production de la parole

Figure 01.5 Les muscles de la face (daprs Bouchet et Cuilleret 1972).

Les classifications courantes dnombrent douze muscles pour les lvres (Zemlin 1968 ;
Hardcastle 1976) :

lorbiculaire des lvres (orbicularis oris),


le canin (levator anguli oris),
le buccinateur (buccinator),
les muscles de la houppe du menton (mentalis),
la carr du menton (quadratus labii inferioris, ou depressor labii inferioris),
le releveur superficiel de laile du nez et de la lvre (levator labii superioris alaeque nasi),
le releveur profond (levator labii superioris),
le petit zygomatique (zygomaticus minor),
le petit zygomatique (zygomaticus minor),
le grand zygomatique (zygomaticus major),
le risorius,
le triangulaire des lvres (depressor anguli oris).
le peaucier du cou (muscle platysma).

12
Chapitre 1. Les lvres et la production de la parole

1.2.3 Classification fonctionnelle des muscles labiaux

En complment dtudes anatomiques, des mesures par lectromyographie ont permis de


dresser une classification des muscles labiaux suivant les mouvements quils gnrent. Cette
classification suit celle de (Hardcastle 1976), reprise dans (Abry 1980). Elle prsente les
tendances gnrales observes chez plusieurs sujets.

Muscles assurant locclusion labiale

Par contraction lorbiculaire accole les lvres suprieures et suprieures en abaissant la


lvre suprieure et en tirant la lvre infrieure vers le haut. Le mouvement de la lvre
infrieure est fortement dpendent de la mchoire. Le canin et le triangulaire peuvent aussi
intervenir pour fermer les lvres.

Muscles assurant la protrusion des lvres

La protrusion correspond un mouvement poussant les lvres vers lavant,


saccompagnant dun rapprochement des lvres et des commissures. Cest aussi une des
fonctions principales de lorbiculaire. La houppe du menton contribue faire basculer la lvre
infrieure.

Muscles assurant larrondissement des lvres

Larrondissement correspond une forme de lvres obtenue en rapprochant les


commissures. Ce geste soppose ltirement. Bien que larrondissement sobtienne par une
contraction de lorbiculaire, ce geste ne saccompagne pas forcement dune protrusion. Des
muscles comme le buccinateur ou le risorius peuvent limiter laction de lorbiculaire.

Muscles lvateurs de la lvre suprieure

Comme leur nom lindique, les releveurs suprieurs et profonds de la lvre sont attachs
cette fonction. Du fait de leur insertion, cest essentiellement la partie centrale de la lvre
suprieure qui est releve.

Muscles abaisseurs de la lvre infrieure

La lvre infrieure est tire vers le bas par le carr du menton. Ce muscle peut tre aid
par la mchoire. De mme, le triangulaire peut aussi intervenir pour abaisser la lvre
infrieure.
13
Chapitre 1. Les lvres et la production de la parole

Muscles tirant les commissures

Le buccinateur entre en action pour tirer les commissures. Cette activit est antagoniste
celle de protrusion de lorbiculaire ou de la houppe du menton.

Muscles abaisseurs des commissures

La fonction principale du triangulaire est dabaisser les commissures. Cette fonction


saccompagne dun abaissement de la lvre infrieure.

Muscles lvateurs des commissures

Linsertion du canin est situe sur les commissures dont il assure llvation. Le
relvement de la lvre infrieure qui saccompagne est limit par laction antagoniste du
carre du menton. Le grand zygomatique intervient aussi pour le relvement.

En conclusion, les lvres sont commandes par des couples agonistes / antagonistes de
muscles permettant ainsi un contrle fin par quilibre des forces. Cette habilet est mise en
uvre dans la production de la parole pour un contrle gomtrique prcis de la cavit
buccale, rentrant directement en compte dans la gnration des sons.

1.3 Repres phontiques


1.3.1 Acoustique et articulation

Les diffrents sons de la parole sont produits par la manire dont lair, expuls par les
poumons, scoule travers le conduit vocal. La forme du conduit et les caractristiques de
cet coulement dterminent directement londe sonore en sortie. Le passage de lair seffectue
selon deux passages partant du larynx, lun dbouchant dans la cavit nasale, et lautre vers la
bouche puis les lvres. Dans le larynx, les cordes vocales peuvent tre mises en vibration par
la conjugaison dune pression transglottique et de la contraction des effecteurs laryngs. On
parle alors de son vois. A linverse, on parle de son non vois dans le cas o les cordes
vocales ne vibrent pas. Le passage de lair travers la cavit nasale est command par
louverture du voile du palais pour la production des sons dits nasals. Le voile du palais est
ferm pour les sons dits oraux pour lesquels lair est intgralement expuls par la cavit
buccale.
Lair scoule dans la cavit buccale de trois manires : libre, rtrcie ou arrte. Le cas
libre correspond la production des voyelles. Sauf contrle explicite (chuchotement par

14
Chapitre 1. Les lvres et la production de la parole

exemple), il saccompagne gnralement dune vibration des cordes vocales pour accrotre
lnergie de londe. La position de la langue et la forme des lvres modifient alors la
gomtrie (et donc les rsonances) du conduit vocal, donnant le timbre de londe sonore. Les
cas dcoulement rtrci ou arrt correspondent la production des consonnes. Le son est
alors gnr par le bruit des turbulences cres par le rtrcissement (constriction) ou la
brusque explosion qui suit une fermeture complte du passage de lair (occlusion). La
phontique caractrise la production dune consonne selon son mode et lieu darticulation. Le
mode darticulation spcifie la manire dont scoule lair et sil saccompagne dun
voisement. Le lieu darticulation indique lendroit de rapprochement maximal des parois le
long du conduit vocal. La figure 1.6 indique les 8 lieux darticulation principaux identifis en
phontique.

Figure 1.6 Le conduit vocal et les 8 lieux darticulation principaux.

1.3.2 Des sons et des lvres

En maintenant stables et non ambigus les diffrences entre les sons articuls, une
reprsentation sensible (acoustique et visuelle) du code phonologique peut tre mise en
commun entre celui qui parle et celui qui coute, do la mise en place dune communication.
Lensemble fini des sons dune langue suggre un ensemble fini darticulations pour les
produire, donnant pour les lvres un jeu de formes cibles ou prototypiques de
larticulation. Les lvres nassurent pas elles seules la production distinctive de tous les sons
: la production de /p/, /b/ et /m/, par exemple, implique dans les trois cas une mme occlusion
15
Chapitre 1. Les lvres et la production de la parole

bilabiale, les sons se distinguant par leur mode darticulation (respectivement non vois, vois
et nasal).
Se basant la fois sur les observations phontiques et lactivit des muscles labiaux,
Gentil et Bo ont regroup les formes labiales des sons du Franais en six classes
articulatoires (Abry 1980) :

voyelles arrondies (/y/, /u/, /o/, /O/, ...), caractrises par un arrondissement de la
forme des lvres, le but tant de rduire laire interne (larrondi est plus ou moins
marqu selon la voyelle faisant une distinction entre des arrondies fermes telle que /u/
et ouvertes comme /o/),
voyelles non arrondies (/i/, /e/, /E/, /a/, ...), par opposition aux prcdentes, o les
commissures sont cartes et la forme des lvres plus tire,
occlusives bilabiales, caractrises par une fermeture complte des deux lvres (/p/,
/b/, /m/),
constrictives labiodentales, caractrises par un rapprochement de la lvre infrieure et
des dents de la mchoire suprieure (/f/, /v/),
constrictives post-alvolaires projection labiale, caractrises par un arrondissement
des lvres saccompagnant dune protrusion et un relvement de la lvre suprieure
(/S/, /Z /),
constrictives alvolaires, caractrise par un tirement des commissures (/s/, /z/).

Globalement, les formes de lvres se distinguent donc par les traits darrondissement
(oppos tirement), douverture (oppos fermeture) et de protrusion. De mme, la plupart
des manuels de phontique distinguent 3 degrs de libert pour mesurer larticulation labiale :
tirement, aperture et protrusion (Ladefoged 1979). Ltirement correspond la largeur de
laire interne : elle discrimine les formes arrondies des tires lorsque les lvres ne sont pas
compltement fermes. Laperture correspond la hauteur entre les lvres suprieure et
infrieure : cette mesure caractrise les occlusions. La protrusion dsigne lavancement du
pavillon : on retient gnralement cette mesure pour sparer les voyelles arrondies des tires.
Gentil et Bo ont dress un rcapitulatif des diffrents mouvements labiaux, et des
muscles les gnrant, requis dans la production des classes articulatoires cites.

16
Chapitre 1. Les lvres et la production de la parole

Liste des Abrviations

Buc. = Buccinator M. = Mentalis Zyg. Maj. = Zygomaticus Major


D.A.O. = Depressor Anguli Oris O.O. = Orbicularis Oris Zyg. Min. = Zygomaticus Minor
D.L.I. = Depressor Labii Inferioris O.O.L. = Orbicularis Oris Inferior (a) = Action antagoniste
L.A.O. = Levator Anguli Oris Plat. = Platysma (p) = Action protagoniste
LL.S. = Levator Labii Superioris Ris. = Risorius (s) = Action synergique

Figure 01.7 Les ralisations articulatoires et les mouvements labiaux correspondant (daprs Abry
1980).

1.3.3 La coarticulation : cibles en contexte

Les six classes labiales prcdentes, et les trois degrs de libert qui les distinguent,
caractrisent des situations o les sons prononcs sont compltement isols. Comme il a t
voqu plus haut, la production de la parole ne suit pas un fonctionnement idal o une
squence de formes labiales traduit directement au niveau visuel la squence du code
phonologique initial. Cette approche fut celle des tout premiers systmes de synthse visuelle
de la parole. A chaque phonme (unit de son) on associe une forme labiale prdfinie ( key
frame ). On cre ensuite une animation pour nimporte quel texte en juxtaposant les formes
17
Chapitre 1. Les lvres et la production de la parole

cls des phonmes. Si cette approche peut faire illusion (elle est encore largement utilise
dans lindustrie du dessin anim), elle ne recouvre cependant pas le caractre continu de la
production de la parole. Dabord, la biomcanique musculaire imprime par nature des
transitions continues entre les diffrentes formes de lvres. De plus, au cours de la squence
des sons produits, les articulations conscutives sinfluencent mutuellement par des
phnomnes danticipation et de rtention motrice. On parle de coarticulation pour dsigner
ces phnomnes (Whalen, 1990).
Les tudes sur la gomtrie labiale rassembles dans (Abry 1980) mettent en vidence ce
problme de coarticulation pour le Franais sur un cas particulier. Le cadre de travail sappuie
sur la mesure gomtrique du maintien de la sparation des voyelles arrondies et tires (/y/
vs /i/) dans un contexte consonantique assimilant de constrictives protruses /S/ ou tires
/z/. Pour illustrer limportance de la coarticulation, il est montr par exemple que, sur 6
locuteurs prononant une syllabe /Si/, la protrusion pour larticulation du /S/ se rpercute sur
la voyelle /i/ et ne permet plus elle seule de distinguer gomtriquement la voyelle /i/ de la
voyelle /y/ prise dans un contexte similaire /Sy/.

1.4 La parole audiovisuelle et ses applications en communication


Cette section dresse un bilan des tudes qui ont mis en vidence la bimodalit, auditive et
visuelle, de la parole et le gain en intelligibilit quelle apporte dans la communication parle.

1.4.1 La bimodalit intrinsque de la parole

La perception audiovisuelle de la parole ne procde pas dune simple juxtaposition des


modalits mais dcoule de notre sensibilit rechercher et percevoir la cohrence entre les
phnomnes acoustiques et visuels lis la production de la parole (Dodd and Campbell,
1987 ; Massaro 1987 ; Cathiard 1989). La sensibilit la cohrence audiovisuelle se
manifeste ds le plus jeune ge, avant mme lacquisition du langage. Kuhl and Meltzoff
(1982) ont prsent des enfants de 4 5 mois deux visages dune mme personne
prononant deux squences diffrentes de parole accompagnes de la bande son
correspondante une seule des deux. Il a t observ que les enfants taient davantage attirs
par le visage prononant ce quils entendaient.
Ce mcanisme de fusion semble de plus tre relativement prcoce dans la perception
bimodale : cest ce que rvle une clbre illusion connue sous le nom de leffet McGurk
(McGurk and McDonald 1976). Dans cette illusion, des sujets qui on prsente une squence

18
Chapitre 1. Les lvres et la production de la parole

vido o un visage prononce /ga/, synchronise avec une squence audio /ba/, peroivent avec
certitude un troisime stimulus /da/. Cette illusion a t observe dans plusieurs langues et
mme chez des enfants (Burnham and Dodd, 1996). Cette fusion est trs robuste aux
conditions externes puisquelle persiste mme lorsque les sujets sont prvenus de leffet. Ce
mcanisme rsiste aussi une dsynchronisation de plusieurs dizaines de millisecondes entre
les deux sources.
Le montage inverse (stimuli visuel /ba/ et acoustique /da/) ne donne cependant pas la
mme illusion : il est peru comme une succession rapide /bga/ des deux stimuli qui sont ainsi
perus sparment (effet de streaming). Lors de leffet McGurk, les perceptions de ces deux
stimuli sont intgres en une perception audiovisuelle unique, prenant le dessus sur chacune
des deux modalits spares. Cet effet suggre lexistence dune reprsentation audiovisuelle
autonome pour la perception de la parole, intgrant les deux sources d'information avant tout
dcodage phontique spar dans lune ou lautre des modalits. Un manque de cohrence
entre ces deux sources peut donc entraner une perception errone de la ralit.
De manire naturelle linteraction entre les perceptions auditive et visuelle de la parole
opre en coopration dans les trois situations suivantes :
localisation et focalisation de lattention sur un locuteur particulier dans un
environnement o d'autres parlent en mme temps (effet cocktail-party ),
redondance entre les informations acoustique et visuelle lorsque les deux modalits
sont bien perues, entranant un gain dintelligibilit systmatique quel que soit la
qualit de dcodage dans chaque canal,
complmentarit entre les informations acoustique et visuelle lorsque du bruit ambiant
dgrade la perception auditive pure.

Summerfield (1987) a compar les rponses de sujets pour la reconnaissance de


squences comportant des consonnes en contexte vocalique (VCV), en condition auditive
seule et en condition visuelle seule. Larbre de confusion des rponses auditives montre une
organisation globalement inverse de son quivalent visuel : ce qui est bien peru
acoustiquement ne lest pas visuellement et vice versa. Notamment, les rsultats montrent un
discernement visuel entre /p/, /t/ et /k/ plus efficace quen acoustique. A l'inverse une forte
confusion visuelle entre /p/, /b/ et /m/, tout trois caractris par une mme fermeture bilabiale,
disparat au niveau acoustique. Walden et al (1977) ont rapport des rsultats similaires avec
des sujets spcialement entrans la lecture labiale. Une des propositions de Summerfield
(1989) sur cette complmentarit est dassocier les articulateurs visibles (lvres, dents et
19
Chapitre 1. Les lvres et la production de la parole

langue) la production des sons de frquence leve, sons provoqus par des mouvements
rapides comme lors de certaines consonnes occlusives. Ils correspondent acoustiquement
des turbulences de faible intensit sonore dont la sensibilit au bruit acoustique est alors
corrige par linformation visuelle apporte par leur articulation. A linverse, la position des
articulateurs non visibles (langue, vlum, larynx) produisent des sons constants, de forte
intensit, des frquences basses caractristiques notamment du mode darticulation (nasal ou
oral) et des voyelles.
On peut aussi expliquer cette complmentarit travers les rsultats prsents par Fant
(1973) : la rsonance de la cavit arrire (non visible) correspond gnralement au premier
formant, alors que le second formant correspond plutt la cavit avant. Si le premier formant
prsente une bonne stabilit, le second varie davantage. La vision des lvres, auxquelles il est
li, renforce alors la stabilit de la perception.
Au del de la reconnaissance de phonmes isols, la continuit des transitions entre les
ralisations articulatoires dune squence dunits phonologiques fait apparatre des
phnomnes de coarticulation. Ce dernier est une consquence directe des contraintes de
production propre la nature continue de la parole. Les gestes articulatoires, programms
pour la ralisation dun phonme cible , peuvent tre anticips avant et persister aprs la
ralisation (Whalen 1990). Affectant la fois les ralisations acoustiques et visuelles, les
phnomnes de coarticulation sont largement exploits dans la perception audiovisuelle de la
parole. Dans une exprience o des sujets devaient simplement deviner la voyelle finale dans
des squences /zizi/ et /zizy/ tronques, Escudier et al. (1990) ont montr que des sujets
identifiaient le /y/ de /zizy/ sur une photo du visage prise environ 80 ms avant linstant o ils
taient capables de lidentifier auditivement sur des squences acoustiques tronques de forme
gnrale /ziz/. Ces rsultats montrent que, de manire naturelle, la perception auditive et
visuelle peuvent intgrer et exploiter dune manire cohrente des dsynchronisations entre
vision et audition pour la reconnaissance dune mme unit phonologique. Ces phnomnes
de coarticulation font partie prenante de la parole audiovisuelle.

1.4.2 Lintelligibilit de la parole audiovisuelle

La lecture labiale chez certains dficients auditifs prouve la capacit du visage dun
locuteur porter de linformation linguistique. Cette facult se retrouve chez des sujets ne
prsentant aucune perte auditive. Bien sr, la perception auditive reste alors prpondrante sur
la perception visuelle tant que le signal acoustique est suffisamment clair. Par contre, en
prsence de bruit, l'information visuelle contribue de manire significative augmenter

20
Chapitre 1. Les lvres et la production de la parole

l'intelligibilit du signal de parole par effet la fois de redondance et de complmentarit. La


bimodalit intrinsque de la perception de la parole a t illustre travers de nombreuses
expriences dintelligibilit en milieu acoustiquement dgrad (Sumby et Pollack 1954 ;
Neely 1956 ; Binnie et al. 1974 ; Erber 1975 ; Summerfield 1979, 1989 ; Benot et al. 1996).
La figure 1.8 montre des scores didentification dun vocabulaire de 18 mots sans
signification, du type VCVCV, en fonction du rapport signal sur bruit. La courbe infrieure
reprsente les scores avec l'audio seul, la courbe intermdiaire reprsente les scores avec
l'audio et une image seuille des lvres du locuteur, la courbe suprieure reprsente les scores
obtenus avec le signal acoustique et le visage complet du locuteur (Benot et al. 1996). Ces
rsultats illustrent le rle prpondrant des lvres dans la perception visuelle de la parole. Il
nest pas suffisant puisque la vision des lvres seules excluent linformation apporte par la
mchoire, la pointe de la langue et tout le mouvement du visage en gnral.

Figure 01.8 Comparaison de lintelligibilit de la parole bimodale en condition bruite en ajoutant


successivement les lvres, le mouvement de la mchoire puis tout le visage du locuteur (Benot et al.,
1996).

Le gain dintelligibilit apport par le visuel a t observ dans dautres situations o la


difficult de comprhension est lie non pas la dgradation des conditions acoustiques mais
la complexit linguistique du message. Dans une tude mene par Reisberg et al (1987), il
est apparu que la comprhension orale dun passage de la Critique de la Raison Pure (Kant,
1787) tait amliore lorsque le visage du locuteur prononant le texte tait prsent aux
sujets.

21
Chapitre 1. Les lvres et la production de la parole

1.4.3 Perspectives pour la communication homme-machine

Lessor exceptionnel du multimdia et des rseaux informatiques lance aux technologies


de la parole un dfi dhumanisation dans la communication avec et par la machine. La
production et la perception de la parole humaine tant bimodale par nature, son exploitation
par la machine travers des personnages synthtiques audiovisuels parlants ou des systmes
de reconnaissance automatique peut rendre la communication avec celle-ci plus humaine et
donc plus conviviale. Pour ces deux types dapplications, lanalyse automatique des
mouvements labiaux fournit une source pertinente de paramtres.
La plate-forme canonique de tlcommunication constitue de camras, dun canal de
transmission haut dbit et de moniteurs vido permet de connecter des interlocuteurs sur
deux modalits. Telle est lapproche classique de la visioconfrence. Outre le fait que ce
mode de communication ne laisse aucune chance la machine dintervenir ni sur la
reprsentation du communiquant (possibilits de substitution par un clone virtuel), ni sur le
contenu du message (reconnaissance et interactions homme-machine), il interdit la connexion
entre participants ne sexprimant pas dans la mme modalit (communication avec une
personne handicape). Indpendamment des problmes technologiques lis au transport des
informations (notamment vido) une cadence temps rel, ces limitations expliquent sans
doute les checs relatifs des systmes de visioconfrences auprs du grand public. Par contre,
lengouement pour la ralit virtuelle et ses applications connat un dveloppement
exceptionnel. Si lanimation des mouvements corporels des personnages de synthse atteint
aujourdhui des degrs impressionnants, lquivalent pour les mouvements de parole prsente
un retard technologique important.

1.4.3.1 Reconnaissance automatique de la parole audiovisuelle

Comme il a t observ et mesur pour lintelligibilit de la parole humaine en milieu


bruit, linformation visuelle permet denvisager un gain en robustesse pour les systmes de
reconnaissance automatique de la parole. En effet, le problme majeur des systmes purement
acoustique rside dans leur sensibilit diffrentes sources de bruit rencontres en situation
relle dapplication : dgradation du signal, confusion avec d'autres signaux de parole
ambiants, bruit environnant... Plusieurs tudes ont montr quen ajoutant des paramtres
optiques aux paramtres acoustiques habituels les scores de reconnaissance augmentaient de
manire significative (Petajan 1984 ; Waibel and Lee 1990 ; Bregler et al. 1993 ; Rogozan et
al. 1996; Luettin 1997).
22
Chapitre 1. Les lvres et la production de la parole

A lICP (Institut de la Communication Parle), les mmes paramtres labiaux


gomtriques utiliss pour la synthse visuelle ont servi de paramtres optiques pour les
systmes de reconnaissance audiovisuelle. Le systme dvelopp par Adjoudani et Benot
(1995) a montr en particulier la capacit fusionner les informations auditives et visuelles de
telle sorte que, comme pour lhomme, les scores audiovisuels dpassent les rsultats des
systmes ne prenant en entre quune seule des deux modalits, et ce quelque soit le niveau de
rapport signal sur bruit. En effet tous les travaux dans ce domaine ont le mme schma de
principe (voir figure 1.9) : extraction des paramtres audio et vido, intgration audiovisuelle
de ces donnes, puis le systme de reconnaissance a proprement parl.

Figure 01.9 Schma de principe de la reconnaissance automatique de la parole.

1.4.3.2 Codage spcifique de la parole : la norme MPEG4

Lintrt de ces applications de tlcommunication a fait merger la ncessit de prendre


en compte la parole audiovisuelle (et son codage) comme un objet spcifique. Les travaux
mens dans le cadre de la norme MPEG4 (1999, http://drogo.cselt.stet.it) visent donner une
spcification stable pour le codage numrique des informations audiovisuelles. Le visage
humain en particulier est dcrit par un ensemble de points gomtriques (Facial Animation
Parameters, FAP). Dans loptique de vhiculer la fois parole et motions travers la
modalit visuelle, la rgion des lvres bnfice dun surcrot de dtails. En se focalisant sur la
communication langagire, lensemble des rsultats prsents dans cette thse sinscrivent
dans cet enjeu technologique de codage optimis des signaux humains.

1.4.3.3 Le rle de la biomtrie

Les applications de synthse et de reconnaissance audiovisuelle ont dmontr la validit


des approches pour la communication homme-machine. Elles sappuient, lICP en

23
Chapitre 1. Les lvres et la production de la parole

particulier, sur lextraction prcise de paramtres gomtriques labiaux obtenus grce un


maquillage bleu et un fort clairage (Lallouache 1991). Ces paramtres ont prouvs leur
pertinence pour reprsenter une information visuelle de parole. Si les conditions de mesure
garantissent une excellente prcision, elles sopposent une utilisation conviviale . Or, les
applications de telles techniques audiovisuelles visent justement amliorer la convivialit de
la communication avec la machine. En particulier, un des arguments de la reconnaissance
audiovisuelle automatique sappuie sur la robustesse au bruit dune telle approche la destinant
donc une utilisation en environnement rel . Un maquillage systmatique rentre en
contradiction avec cette argumentation. Une labiomtrie sans maquillage simpose donc
comme ltape suivante pour rendre rellement accessible un tel mode de communication
avec la machine.
Ltat de lart dans le domaine montre que, par sa complexit, le dfi dune labiomtrie
sans maquillage a dabord intress la recherche en vision par ordinateur. En effet, les
mouvements labiaux suivent des dformations complexes qui imposent ncessairement
davoir recours des techniques labores. Nanmoins, ces dformations tendent suivre des
degrs de libert identifiables et en faible nombre lorsque le contexte est contraint par un but
de production de la parole.

1.5 Conclusion
Les lvres fournissent les paramtres les plus fiables pour la reconnaissance visuelle de la
parole puisquelles portent la fois une part importante dinformation et quelles sont toujours
prsentes et clairement identifiables. Un articulateur comme la langue ne prsente pas autant
de facilit daccs partir dune squence vido.
Laperu de ltat de lart montre que la labiomtrie sans maquillage a dabord fourni un
dfi technologique pour la vision artificielle. Du traitement de la couleur lextraction de
paramtres visuels, toutes les tapes sont complexes. Il ressort que lon ne peut envisager de
rsoudre que par des techniques dapprentissage limmense variabilit des conditions
dclairage, des mouvements labiaux dun locuteur et des diffrences entre locuteurs. De plus,
il est ncessaire dintgrer la fois un traitement sur la couleur et la forme dans une approche
la fois oriente image et modle. Lutilisation dune information comme le gradient spatial
dune image se rvle largement insuffisante.
Le but des mthodes classiques de suivi de contour sinscrit dans une optique de
reconnaissance de formes et vise retrouver lallure exacte des contours. Cette tche est mal
dfinie lorsque le contraste de couleur entre les rgions segmenter est faible. Elle ncessite

24
Chapitre 1. Les lvres et la production de la parole

alors un apport dinformation par des contraintes sur un modle de contour pour rgulariser le
problme.
Toutes les mthodes proposes se positionnent suivant un compromis entre contraintes au
niveau local ou global. Les contraintes locales se limitent souvent respecter des conditions
de continuit du contour (au premier et second ordre). Elles laissent beaucoup de libert la
description gomtrique mais prsentent de ce fait des problmes de stabilit, le modle de
contour ayant la possibilit de se fixer sur nimporte quelle limite de rgions. A linverse, les
contraintes globales imposent des proprits gomtriques de haut niveau (contours dcrit en
termes dellipse, darc de parabole, ...) pour limiter les variations de forme du modle la
topologie propre du contour suivi. Les paramtres de contrle de la forme tant plus rduits, la
recherche est stabilise. Elle vite les frontires parasites mais perd la prcision de description
des mthodes locales. Les limitations de formes imposes par les mthodes globales peuvent
tre telles quelles ne sont plus en mesure de reprsenter la forme relle suivre et ainsi
dassurer une convergence correcte.
Le dbat reste ouvert quant au choix des mthodes pour le suivi des contours labiaux.
Aucune ne sest encore impose. La faiblesse du contraste entre peau et lvres exclut une
utilisation unique des mthodes locales. Les mthodes globales actuelles ne rsolvent pas le
compromis entre une description gomtrique suffisamment prcise et un contrle sur peu de
paramtres.
Le problme rside dans le fait que les paramtres des modles doivent contrler
directement toute la variation gomtrique de la forme labiale. En sparant caractrisation
gomtrique et contrle articulatoire, nous montrons dans cette thse que, pour un locuteur
particulier, il est possible de dfinir un modle la fois prcis au niveau gomtrique et de le
commander ensuite par seulement trois paramtres, reprsentatifs de toute la variation
articulatoire du locuteur. Ainsi, utilis dans un cadre de suivi de contour, notre approche
rsout les deux exigences de prcision et de stabilit.
Enfin, au del du dfi de vision artificiel, on retiendra de la section sur la parole
audiovisuelle quil ne faut pas perdre desprit le but premier dune labiomtrie : extraire des
paramtres visuels qui, comme les paramtres issus du bleu , portent de manire pertinente
une information de parole. Cest prcisment ce codage de lobjet de parole que nous
visons par notre approche articulatoire de la labiomtrie.

25
Chapitre 2. La reconnaissance visuelle de la parole

La reconnaissance visuelle de la
parole 2
La premire difficult rencontre pour lobtention des informations visuelles utilisables
pour la reconnaissance audiovisuelle de la parole est celle de la localisation de la zone
tudier. Cette zone se situe, en gnral, vers bas du visage, voire plus exactement la bouche
seule. Cette difficult napparait pas pour les systmes fournissant directement des mesures,
mais elle se posait dj de faon trs simplifie dans les systmes o le locuteur est prpar
tre film pour extraire des informations visuelles. En effet, le maquillage ou les pastilles
utilises sont choisis pour tre aisment reprables, ce qui facilite d'autant la localisation de
ces zones marques.
Pour simplifier le problme quand le locuteur n'est pas prpar, il est possible de recourir
des dispositifs spcifiques pour le filmer (casques-camra), ce qui permet d'assurer le
cadrage voulu, voire un clairement contrl et constant. Si l'on ne dispose pas de tels
dispositifs ou que l'on vise un cadre applicatif plus libre, ou le recours de tels dispositifs
n'est pas envisageable, une premire phase consistera alors ncessairement localiser le(s)
locuteur(s) dans l'image, puis assez souvent, dlimiter plus prcisment la zone d'tude (la
bouche).Une fois la zone d'intrt (ROI : Region Of Interest) dtermine, il faudra en extraire
les informations utilisables pour la reconnaissance de parole. Dans ce contexte deux
approches sont frquemment rencontres dans la littrature du domaine:

Approche modle : Dans ce cas on cherche extraire les informations de type


mesures de distances et de surfaces comparables celles que l'on extrayait avec
prparation du locuteur. Cependant, il est extrmement difficile d'atteindre la qualit
des mesures effectues avec prparation du locuteur, pour lesquelles les erreurs sont
trs faibles. Sans prparation, dans des conditions que nous qualifierons par la suite de
naturelles, on ne pourra, dans l'tat actuel de la recherche, qu'obtenir des mesures
fortement entaches d'erreurs que nous qualifierons d'estimations pour ne pas les
confondre avec les mesures prcises que l'on obtenait avec prparation.
Approche image: Pour ce type d'approche, l'information visuelle est drive plus ou
moins directement des valeurs de niveaux de gris (voire de couleur) des pixels de

27
Chapitre 2. La reconnaissance visuelle de la parole

l'image de la rgion de la bouche. Dans ce cas l'utilisation de mesures fait perdre une
information visuelle importante, notamment la prsence ou l'absence de la langue et
des dents quand la bouche est ouverte ou ferme.

Dans ce chapitre, nous prsenterons dans un premier temps les techniques utilises pour
localiser le visage et assurer son suivi, puis, nous passerons en revue des mthodes permettant
de localiser plus prcisment la bouche et le type d'informations visuelles ( image ou
modle) quon peut extraire, ainsi que les mthodes permettant cette extraction, dans certains
cas, quand le locuteur n'est pas prpar. Enfin, nous finirons ce chapitre par une prsentation
des principaux corpus de parole audiovisuelle prsentant des locuteurs non-maquills.

2.1 Influence de langle de vue

Dans les tests de perception visuelle de la parole, nous trouvons quil y a des auteurs
choisissent de prsenter leurs stimuli visuels sous des angles de vue diffrents. Ceci prouve en
quelque sorte que linformation visuelle perue dpend en partie de ce facteur de visibilit. Ce
dernier a t lobjet de plusieurs tudes, parmi lesquels (Neely 1956; Larr 1959; Nakano
1961; Berger et al. 1971; Erber 1974; Cathiard 1988, 1994; Adjoudani 1998).
A lexception de ltude de (Adjoudani 1998), utilisant des paramtres extraits des
contours des lvres, toutes ces tudes, sappuient sur des tests perceptifs. Dans ces tudes,
trois vues ont t compares : la vue de face, la vue de profil et la vue de 3/4. De ces
comparaisons, nous pouvons conclure que :
la vue de face apporte plus dinformation que la vue de profil, lexception de certains
cas spcifiques concernant la classification des traits labiaux de protrusion et
dtirement (Cathiard 1988, 1994), ou la vue de profil peut tre plus efficace que la
vue de face.
La vue de 3/4 est globalement quivalente la vue de face.

Dans le cas du code LPC (Langage Parl Complt), ou la main et les lvres doivent tre
simultanment visibles, la vue de 3/4 poserait des problmes de visibilit notamment pour la
forme de la main. De mme, la vue de profil ne peut permettre la visibilit complte des
positions de la main ni des formes. De plus, elle est, en gnral, moins efficace que les deux
autres vues. Il reste donc la vue de face qui, a priori, semble la plus approprie au cas du code
LPC.

28
Chapitre 2. La reconnaissance visuelle de la parole

2.2 Visage complet ou indices visuels ?

Percevoir le visage dun locuteur apporte bien un gain dintelligibilit en perception de la


parole. Mais quelles sont les parties qui contribuent le plus ce gain ? Pour rpondre cette
question, rappelons dune part que dans la majorit des expriences dcrites au chapitre 1,
notamment celles sur la perception visuelle de la parole, le visage complet (et dans certains
cas les paules et la tte) tait prsent aux sujets tests. Dautre part, des tudes ont montr
que la rgion de la bouche transmettait la plus grande partie de linformation visuelle de
parole. Dautres tudes allaient jusqu suggrer de se contenter seulement des lvres.
Dans cette section, nous prsentons les rsultats de quelques tudes comparant diffrentes
conditions de prsentation des stimuli visuels. Summerfield (1979) a compar les gains
dintelligibilit de diffrents types dinformation visuelle. Il a prsent 10 sujets (gs de 15
27 ans) des stimuli audiovisuels produits par un locuteur anglais sous forme de phrases,
mlangs avec dautres signaux de parole, dans cinq conditions diffrentes: (i) signal
acoustique seul, (ii) signal acoustique+ le visage du front la mandibule, (iii) signal
acoustique + les lvres seules, (iv) signal acoustique + 4 points lumineux placs autour des
lvres sur les coins et sur les intersections de laxe de symtrie avec les lvres suprieure et
infrieure,(v) et signal acoustique + un cercle dont le diamtre varie selon lamplitude du
signal acoustique non bruite. Sous ces diffrentes conditions les sujets devaient identifier les
phrases testes et les noter sur papier. Les rsultats obtenus dans cette exprience sont
prsentes par la table 2.1.

Audio Audio + visage Audio + Audio + 4 Audio +


Condition
seul complet lvres points cercle

Pourcentage moyen (%) 22.7 65.3 54 30.7 20.8

Ecart type 8.59 19.7 14.5 16.2 10

Table 02.1 Scores didentification obtenus par Summerfield (1979) dans cinq conditions de
prsentation des stimuli.

De ces rsultats nous pouvons tirer quelques constats intressants. Tout dabord, les deux
informations visuelles dans les conditions (iv) et (v) ne semblent apporter aucune information
aidant comprendre les phrases bruites. Les diffrences entre ces deux conditions et la
condition (i) sont en effet, selon lauteur, non significatives. Ensuite, il est vident que la

29
Chapitre 2. La reconnaissance visuelle de la parole

prsentation de limage complte ou de limage des lvres est bnfique pour la


comprhension du message. Dans les deux conditions, les scores didentification augmentent
en moyenne de plus de 31% par rapport aux scores dans la condition audio seule. Et enfin, les
lvres seules portent une information importante mais restent encore infrieures celle porte
par le visage complet. Ces deux derniers constats ont t confirms par dautres tudes (Le
Goff et al. 1995, 1996; Adjoudani et al. 1994).
Globalement, le visage complet est lindice visuel qui apporte le plus dinformation
visuelle. Les lvres portent une grande partie de linformation visuelle quivalente en quantit
peu prs aux deux tiers de celle transmise par le visage complet. Ltude de Summerfield
(Summerfield, 1983) a port sur les conditions de prsentation des indices visuels pour que
linformation visuelle contribue plus pertinemment la perception audiovisuelle de la parole.
Ainsi, il suggrait les conditions suivantes :
une distance de 1,5m,
une luminance suffisante,
le corps et les bras visibles aussi,
pas de moustache ni de barbe sur le visage,
et un maquillage des lvres pour augmenter le contraste.

2.3 Localisation et suivi de visages

Comme nous le verrons par la suite, nous avons t amens enregistrer un corpus de
parole audiovisuelle et avons choisi de cadrer le locuteur en limitant la prise de vue la zone
de la bouche. Cette prise de vue nous a sembl intressante car elle permet de disposer d'une
bonne rsolution au niveau de la bouche et d'en dtecter les mouvements mme s'ils sont
rduits. Cependant, le choix de filmer en gros plan la rgion des lvres n'est pas neutre. Il
impose d'effectuer une localisation approximative de la bouche de faon automatique et
fiable, puis son suivi, non seulement dans des conditions de laboratoire, mais galement pour
des environnements plus variables, ce qui nous a amen une tude bibliographique de
faisabilit. En effet, la localisation de visages est le sujet de nombreuses tudes car les
applications ces recherches sont nombreuses : en plus de la reconnaissance automatique de
parole audiovisuelle qui est notre principal centre d'intrt, ces recherches s'appliquent la
reconnaissance automatique du locuteur et, plus gnralement, la vrification d'identit
partir du visage sans que le sujet ne parle (domaine de la biomtrie).

30
Chapitre 2. La reconnaissance visuelle de la parole

l'exception des travaux de (Shdaifat et al. 2001), qui localisent directement la bouche
d'un locuteur dans une image, la localisation automatique de la rgion de la bouche se
dcompose gnralement en deux tapes : dans un premier temps, le visage est localis dans
l'image, puis une localisation plus prcise de la bouche est effectue sur ce visage. Pour
localiser les visages, deux types d'approches sont utilises : des approches globales qui
considrent le visage comme un tout ayant une apparence particulire, et des approches
par lments qui dtectent un certain nombre d'lments du visage dans l'image, pour le
localiser.
Dans cette section, nous aborderons tout d'abord la question de la localisation de visages
travers des deux approches prcdentes, puis nous passerons en revue quelques systmes de
suivi.

2.3.1 Localisation de visages

La localisation de visages dans une image revient gnralement tiqueter les points de
l'image suivant deux classes : le(s) visage(s) et le reste de l'image (qui n'est pas
ncessairement uniforme). Dans tous les travaux que nous avons rencontrs pendant notre
tude bibliographique, l'exception de (Dai and Nakano 1996) et de (Yang and Waibe 1996),
qui traitent des images contenant trois visages, ainsi que dans (Senior 1999) o, grce la
multi-rsolution, des visages d'chelles diffrentes peuvent tre localiss, cette tche est
ramene une segmentation de l'image en deux zones : le visage et le fond, les images traites
ne contenant qu'un seul visage. Ceci peut sembler tre une limite, mais dans la pratique, les
images sur lesquelles il est possible d'tudier les mouvements des lvres du locuteur rentrent
gnralement dans ce cadre contraint.
Plusieurs approches ont t tudies : (Benot et al. 1998) les sparaient en deux
catgories principales, celles utilisant la couleur, et celles reposant sur la dtection d'lments
du visage. Cette catgorisation peut tre lgrement affine : nous proposons d'tudier le
fonctionnement de mthodes de dtection de visages reposant dans un premier temps sur une
utilisation de la couleur avec des contraintes dfinies a priori par les auteurs, puis dfinies
statistiquement. Par la suite, nous examinerons quelques approches reposant sur la dtection
d'lments faciaux. Enfin, nous verrons brivement que l'information dynamique
(mouvement) peut galement tre utilise. Nous constaterons cette occasion que de
nombreux systmes utilisent une combinaison des diffrentes approches.

31
Chapitre 2. La reconnaissance visuelle de la parole

2.3.1.1 Approches couleur

Dans cette premire partie, nous allons passer en revue quelques mthodes de localisation
de visages utilisant l'information couleur sous des formes varies et bases sur des critres a
priori. Les chercheurs faisant appel ces mthodes utilisent un espace couleur particulier
permettant de faire ressortir l'information de teinte et dterminent des valeurs de seuils pour
sparer les zones de peau du reste, empiriquement, partir d'exemples.
Sobottka et Pitas (1996) utilisent l'espace de reprsentation couleur (H, S, V) et
segmentent l'image en rgions en la filtrant (passe-bande) en fonction des informations de
teinte (H) et de saturation (S). Les pixels i retenus ont une saturation telle que 0.23 Si 0.68,
et une teinte telle que 0o Hi 50o. Des rgions sont formes, puis combines partir des
points candidats. Ce premier filtrage laisse passer de nombreux faux-positifs. Le visage
ayant une forme approximativement elliptique, pour dterminer la zone la plus vraisemblable,
des ellipses sont utilises pour diminuer nouveau le nombre de zones (de visage) candidates.
Enfin, des lments faciaux (yeux et bouche, dcrits par les auteurs comme des zones
sombres) sont recherchs en utilisant l'information d'intensit. En fonction des lments
trouvs et de leurs positions relatives l'intrieur de la rgion candidate, le visage et la
position de ces lments seront localiss.
Ramos Snchez (2000), de faon relativement similaire, utilise l'information couleur pour
localiser le visage en approximant sa forme par une ellipse (voir figure 2.1). L'espace couleur
utilis est le plan de chromaticit (r; v) qui correspond l'espace (R, V, B) normalis par
l'intensit totale (R + V + B) :

. . .
= , = , = (2.1)
++ ++ ++

o le facteur k = 3 pour Ramos Snchez qui divise les composantes couleur par la moyenne
++
des trois composantes , alors que gnralement k = 1 (division par la somme des
3
composantes (R + V + B). La troisime composante normalise b n'est pas utilise car elle est
redondante et peut se dduire des deux autres :

+ + = . (2.2)

Dans cette reprsentation, les points du visage se regroupent dans une zone rduite du
plan (r, v), et la dcision d'appartenance ou non au visage est faite suivant un critre de

32
Chapitre 2. La reconnaissance visuelle de la parole

distance une valeur centrale. L'auteur indique avoir test un modle gnrique de la couleur
de la peau construit partir de 100 images de diffrents sujets de la base XM2VTSDB
(Messer et al. 1999), mais que les rsultats taient assez logiquement moins prcis qu'en
utilisant des modles de la couleur spcifiques aux locuteurs.

(a) Image traiter (b) Ellipse de moindre cot

Figure 02.1 Image couleur en entre (a), pixels candidats pour appartenir au visage et localisation.

Duchnowski, dans des travaux plus anciens (Duchnowski et al. 1995), proposait dj
d'utiliser la couleur dominante des visages pour les localiser, grce un classificateur de
couleur de visages bas sur les travaux de Hunke (Hunke 1994; Hunke and Waibel 1994), le
FCC (Face Color Classifier, voir figure 2.2). Pour dterminer si un pixel de l'image a une
couleur qui correspond la peau du visage ou non, un modle gnral de la couleur de visages
(GFCC) a t obtenu en utilisant une image contenant des portions de peau de 30 visages de
diffrentes couleurs (asiatiques, noirs et blancs). Les valeurs (R; V;B) des pixels de l'image
ont t projetes dans le plan de chromaticit (r; v) et un histogramme 2D a t calcul pour
mesurer la frquence d'occurrence de chaque couleur. Les occurrences les plus leves se
regroupent dans une portion rduite du plan (r; v) et un rectangle est dtermin autour de cette
zone (l'auteur ne prcise pas comment). Pour la classification, les pixels i l'intrieur du
rectangle, c'est--dire ceux pour lesquels rmin ri rmax et vmin vi vmax o (rmin, vmin) sont les
coordonnes du coin suprieur gauche du rectangle et (rmax, vmax) celles du coin infrieur droit,
sont considrs comme appartenant au visage et les autres comme appartenant au fond. Ceci
fournit de nombreux faux-positifs qui peuvent tre limins en utilisant le mouvement (les
zones immobiles peuvent tre limines), puis, pour les faux-positifs restants, l'information
gomtrique (forme des objets), modlise l'aide de rseaux de neurones, est utilise pour
liminer par exemple les mains et bras et ne conserver que les bons candidats. Aprs une
premire dtection avec le modle gnral GFCC, un modle de la couleur du visage

33
Chapitre 2. La reconnaissance visuelle de la parole

individuel (IFCC) est calcul et utilis. Il peut tre r-estim rgulirement pour rendre la
dtection du visage robuste aux changements de l'environnement.

(a) Image traiter (couleur) (b) Rgions de visage (en blanc, fond)

Figure 02.2 Dtecteur de visage de Hunke et Duchnowski bas sur la couleur (FCC) : (a) Image
couleur analyser et rgion utilise pour entraner le modle (IFCC) de couleur du visage, (b) Sortie
du FCC : en blanc, les zones de non-visage , d'aprs (Duchnowski et al. 1995; Hunke and Waibel
1994).

Senior (Senior 1999; Neti and Senior 1999) utilise galement une segmentation base sur
la couleur. Dans l'espace de reprsentation couleur (H, C, I), il utilise des seuils minimaux et
maximaux sur ces trois composantes pour classifier les pixels comme peau ou non-
peau (voir figure. 2.3). Il utilise notamment comme bornes pour la teinte -90o Hi 90o. Le
calcul des bornes sur les autres composantes est dtaill dans (Senior 1999).

(a) Image traiter (couleur) (b) Rgions de peau (en blanc)

Figure. 2.3 Une scne complexe (a) et sa classification en tons peau (b), d'aprs (Senior 1999).

34
Chapitre 2. La reconnaissance visuelle de la parole

Pour reprer plusieurs visages ou des visages de tailles diffrentes dans une image, Senior
propose une approche multi-rsolution en utilisant une pyramide d'images (l'image initiale r-
chantillonne des rsolutions infrieures) et considre chaque zone rectangulaire de m n
pixels comme un candidat visage F. Les images de niveaux successifs dans la pyramide sont
3
rduites d'un facteur de 2 et la plus petite contient au moins m n pixels. Chaque rgion F
est value en comparant un seuil son nombre de pixels de peau selon les bornes
utilises dans l'espace (H, C, I). Quand des rgions F sont retenues comme contenant un
visage, elles sont values de faon plus approfondie (scores), et la recherche peut encore tre
affine en utilisant des r-chantillonnages d'images intermdiaires ou des rotations lgres de
l'image.

(Wark and Sridharan 1998) utilisent la composante couleur quotient = propose par

(Chiou and Hwang 1996) pour la dtection des lvres (voir section 2.3.2), pour localiser le
visage du locuteur dans les images du corpus M2VTS (Pigeon and Vandendorpe 1997). Plus
prcisment, les valeurs Qi de chaque pixel i sont telles que :

(2.3)

Si Qi est comprise entre ces deux bornes, le pixel i appartient au visage, sinon, il fait partie du
fond (qui est uniforme dans M2VTS).
Les auteurs ont dtermin manuellement partir d'exemples, les valeurs des seuils Qbas = 1.2
et Qhaut = 1.45 et ces valeurs semblent convenir pour les 37 locuteurs du corpus M2VTS. Les
pixels solitaires du fond tiquets tort comme faisant partie du visage sont supprims
l'aide d'une opration morphologique (ouverture). L'application de ce traitement une image
de M2VTS (Figure. 2.4a), est illustre dans la figure 2.4b.

(a) Image traiter (couleur) (b) Rgions de visage (en blanc)


Figure. 2.4 Localisation du visage sur le corpus M2VTS, d'aprs (Wark and Sridharan 1998).

35
Chapitre 2. La reconnaissance visuelle de la parole

(Dai and Nakano 1996) utilisent l'espace de reprsentation couleur (Y, I, Q) qui s'obtient
par combinaison linaire partir des valeurs de base (R, V, B) comme suit :

0.30 0.59 0.11


= 0.60 .027 0.32 . (2.4)
0.21 0.52 0.31

Dans cet espace, la composante I varie de I = 150 (rouge) I = -150 (cyan) en passant par I =
0 en l'absence de couleur dominante (pixels gris). Les auteurs construisent des images de la
composante I en laissant inchangs les pixels i de l'image pour lesquels 1 Ii 50. Les pixels
ayant des valeurs dpassant le seuil (Ii > 50) sont ramens zro. Les auteurs n'indiquent pas
le traitement rserv aux valeurs ngatives, mais on peut supposer qu'elles sont galement
ramenes 0. Les images sont ensuite filtres (moyennes) et le visage est repr par simple
seuillage de cette image. De faon plus prcise, ce travail (Dai and Nakano 1996) tudie la
localisation de visages faible rsolution (typiquement 20 20 pixels) dans des scnes
complexes, en utilisant des textures (SGLD : Space Gray-Level Dependence matrix).
L'utilisation de la couleur est vue par les auteurs comme un prtraitement qui a pour but de
supprimer les zones qui pourraient par la suite tre dtectes tort comme des visages par la
SGLD. Un point faible de ce travail, soulign par les auteurs eux-mmes, est qu'il est ddi
la teinte de peau asiatique et qu'en l'absence de tests pour d'autres types de couleur de peau, il
n'est pas possible de mesurer sa gnricit.

2.3.1.2 Approches statistiques

L'approche statistique pour la localisation de visages consiste se baser sur un


chantillon (des images exemples) que l'on souhaite reprsentatif, pour modliser l'apparence
d'un visage. L'approche peut tre directe partir d'exemples sans a priori, ou indirecte, en
choisissant un espace de reprsentation intermdiaire sur lequel on ralise l'apprentissage
statistique (Yang 2007). Dans ce second cas, la principale diffrence entre l'approche
statistique et les travaux reposant sur une approche couleur prcdemment voqus est
l'utilisation de bornes a posteriori, apprises partir de donnes et non a priori, rgles
manuellement par le concepteur du systme.
(Rao and Mersereau 1995) proposent une approche statistique non-supervise fonde sur
la segmentation d'un objet et du fond. Une premire estimation de la position de l'objet doit le
contenir intgralement, ou tre contenue intgralement dans l'objet, puis des r-estimations
successives des modles de l'objet et du fond sont faites jusqu' convergence. Pour le cas

36
Chapitre 2. La reconnaissance visuelle de la parole

particulier de la localisation de visages, l'objet visage est approxim par une ellipse (sans
rotation). Les auteurs proposent galement d'utiliser cette mthode pour segmenter les lvres
du reste du visage, ceci sera abord plus en dtail dans la section 2.3.2. L'approximation
initiale est ralise en utilisant un modle du visage et du fond appris sur une seule image d'un
autre sujet. Ce modle est utilis sur l'image segmenter. Un seuil lev assure que
l'estimation initiale est entirement contenue dans le visage localiser. Puis les modles du
visage et du fond sont r-estims en fonction de la zone trouve sur l'image de ce nouveau
sujet. La zone initiale est modifie en fonction de ces nouvelles estimations du visage et du
fond. Une bonne localisation du visage est obtenue aprs quelques itrations. Pour la
modlisation, un mlange de deux gausiennes (2 GMM) avec matrice de covariance complte
est utilis pour chaque modle ( visage et fond ). Cette technique n'est utilisable qu'avec
des images ne prsentant qu'un seul visage, sinon la convergence n'est pas assure. De plus,
selon les auteurs, le rsultat dpend de faon importante de l'initialisation, et pour utiliser cette
technique sur des locuteurs quelconques exposs des clairages diffrents, il faudrait
constituer un modle gnral de l'apparence d'un visage.
(Brunelli and Poggio 1993) localisent tout d'abord les yeux en utilisant la corrlation
entre l'image analyser et une imagette d'il droit et gauche. La bouche, le nez et les sourcils
sont ensuite localiss en utilisant le gradient spatial horizontal et vertical ainsi que les
connaissances anthropomtriques standard a priori (voir figure. 2.5a). Les auteurs proposent
galement, dans cet article, d'utiliser la corrlation d'imagettes modles des yeux, du nez et de
la bouche avec l'image (template matching), pour localiser ces diffrents lments (voir
figure. 2.5b). Les rsultats obtenus en termes de reconnaissance d'identit sont de l'ordre de
90% en reprant les lments avec le gradient spatial et de l'ordre de 100% avec l'approche
template matching . Cependant la corrlation est plus coteuse en temps de calcul que
l'utilisation du gradient spatial.
Enfin, (Malasn et al. 2002) suivent des visages en temps rel avec une approche
connexionniste, l'aide de dispositifs lectroniques ddis (des FPGA). Un apprentissage
supervis de l'apparence est effectu avec des imagettes des visages de deux sujets en basse
rsolution (40 32), sous-chantillonns quatre fois horizontalement (1032), avec un rseau
de neurones. Les sujets sont ensuite correctement localiss (dans le meilleur des cas 98,2%),
dans quatre squences de 256 images. Notons toutefois que ces images sont filmes avec la
mme camra dans une pice avec peu de variation de luminosit.

37
Chapitre 2. La reconnaissance visuelle de la parole

(a) lments localiss automatiquement (b) lments localiss avec l'approche template
matching

Figure. 2.5 Localisation de diffrentes rgions de visage (a) automatiquement (b) en utilisant
l'approche template matching , daprs (Brunelli and Poggio 1993).

Dans ce travail nous nous nintressons pas la mise au point d'un systme de
localisation et de suivi de visages. Cette tude bibliographique avait pour but de dterminer la
faisabilit, d'une part de la localisation approximative de la zone contenant la bouche (bas du
visage), et d'autre part du suivi en temps rel d'un locuteur pralablement localis. Une
recherche bibliographique montre quon peut presque supposer qu'il est envisageable d'obtenir
des images o la bouche du locuteur est toujours cadre de manire identique, mme si le
locuteur bouge. Toutefois, si un certain nombre des techniques prcdemment exposes sont
utilisables dans le cadre que nous souhaitons tudier o le locuteur n'est pas prpar, le fond
non obligatoirement uniforme, l'clairage naturel et les problmes d'ombre, les performances
que l'on est susceptible datteindre risquent de diminuer. En effet, les approches par lments
peuvent tre sensibles un fond non-uniforme qui pourra crer de nombreux faux candidats.
Les approches couleur peuvent galement voir leurs performances diminuer si l'on ne contrle
pas l'clairement comme l'explique Hunke (1994).
Cependant, mme diminues, les performances de localisation et de suivi de visage
devraient rester suffisantes. Les approches utilisant un apprentissage statistique de la couleur
(ou plus gnralement de l'apparence globale) du visage et une dtection d'lments
l'intrieur de ce visage nous semblent les mieux adaptes. Le systme de (Senior 1999) par

38
Chapitre 2. La reconnaissance visuelle de la parole

exemple a t utilis avec succs par (Neti and Senior 1999; Potamianos et al. 2000) dans un
cadre d'utilisation proche de celui que nous souhaitons tudier.
Comme nous l'avons signal au dbut de ce chapitre, deux types d'informations sont
extraits d'images de locuteurs non maquills, pour la reconnaissance automatique de parole
audiovisuelle : des informations image de bas niveau et des informations modle de
haut niveau. En ralit, il existe galement des travaux adoptant une approche mixte qui
extraient des images, des informations sur les valeurs de niveaux de gris de pixels le long de
segments (profils) dtermins en utilisant des modles.
Nous allons prsenter dans cette section le type d'informations visuelles qui sont utilises
en lecture labiale automatique ou en AVASR dans les systmes adoptant une approche
image (section 2.2.2), puis dans les systmes adoptant une approche modle (section
2.2.3) et enfin dans les systmes adoptant une approche mixte (section 2.2.4). La grande
majorit de ces travaux ncessite d'avoir pralablement localis la bouche de faon assez
prcise pour rduire l'tendue des images traiter, et nous allons donc commencer par
prsenter comment cette localisation prcise peut tre obtenue dans la partie suivante.

2.3.2 Localisation de la bouche

Pour localiser approximativement la bouche d'un locuteur, connaissant la position de son


visage dans l'image, il est possible d'utiliser les connaissances anthropomtriques : de manire
simplifie, la bouche se situe dans la moiti infrieure du visage. Cependant, la qualit de la
localisation du visage, et par la mme occasion de la bouche, variera en fonction des
techniques utilises et de l'environnement considr. Elle ne sera pas toujours parfaite, de
plus, il existe des diffrences physiques intra-locuteur importantes. Si l'on envisage la cration
d'un systme multi-locuteur, il faudra prvoir de s'y adapter. Pour toutes ces raisons, que l'on
souhaite adopter une approche modle ou une approche image , il sera souvent
ncessaire de localiser prcisment la bouche. Pour l'approche image , la zone localise
(ROI) dlimitera l'image utiliser, tandis que pour l'approche modle , le fait de
restreindre la zone d'tude permet de limiter le nombre de minima locaux potentiels qui
pourraient rendre la localisation du modle inefficace. Notons galement qu'en utilisant un
dispositif d'acquisition comme un casque-camra, mme si la localisation du visage n'est plus
ncessaire, le mme problme de localisation prcise des lvres peut se poser.
Globalement, dans de nombreux cas, les quipes ayant galement travaill sur la
localisation de visages, se proposent d'utiliser le mme type d'approche pour la localisation

39
Chapitre 2. La reconnaissance visuelle de la parole

des lvres. Pour les approches utilisant la couleur, il est possible de travailler sur un modle
de la couleur des lvres comme il tait possible de travailler sur un modle de la couleur de la
peau. Pour les approches statistiques, on peut tenter d'effectuer un apprentissage de
l'apparence des lvres comme pour le visage.
Nous allons donc prsenter dans cette partie des techniques utilises pour localiser
finement la bouche. Certaines servent dfinir la ROI utilise pour les approches image .
D'autres visent dtecter prcisment les contours des lvres pour calculer par la suite des
paramtres labiaux gomtriques (mesures de distances) ou de surfaces. Pour passer en revue
les diffrentes possibilits, nous allons suivre un plan comparable celui utilis pour la
localisation de visages en commenant par les approches couleur et statistique, en continuant
avec celle utilisant la corrlation avec des patrons (template matching) et en terminant par
l'utilisation de l'information temporelle.

2.3.2.1 Approches couleur

(Coianiz et al. 1996) propose d'utiliser l'information de teinte H de l'espace de


reprsentation couleur (H; S;L) pour localiser les lvres dans des images de bas de visage (du
nez jusqu'au menton, voir figure 2.6a). Ils justifient leur choix par le fait que la teinte est peu
sensible aux variations d'clairement et que le contour externe des lvres est difficile
localiser sur des images en niveaux de gris, ce qui rend hasardeuse l'utilisation du gradient
spatial. Plus prcisment, pour faire ressortir les zones dominante rouge, l'angle de teinte Hi
2
de chaque pixel i est tout d'abord dcal de pour que le rouge corresponde uniquement
3
2
un angle de H0 = au lieu des deux valeurs de 0 et de 2. La teinte est alors filtre l'aide
3
d'un filtre parabolique centr sur le rouge. La teinte filtre HFi de chaque pixel s'obtient avec :

0 2
= 1 0 = 0 , (2.5)
2

1
o = 8 2 = , permet d'indiquer la slectivit du filtre. L'image filtre peut tre bruite et
4

l'auteur propose d'utiliser un filtrage passe bas (moyennage) pour faire disparatre les pixels
aberrants (voir figure 2.6b). Pour enfin reprer la bouche, un sous-chantillonnage de l'image,
puis un seuillage simple est utilis : les pixels de niveaux de gris HFi * 255 244 sont
considrs comme les lvres (voir figure 2.6c).

40
Chapitre 2. La reconnaissance visuelle de la parole

(a) Image traiter (couleur) (b) Teinte filtre (c) Dtection des lvres

Figure. 2.6 Localisation des lvres en utilisant la teinte H, d'aprs (Coianiz et al. 1996).

(Vogt 1996; Vogt 1997) propose galement d'utiliser l'espace de reprsentation couleur
(H, S, I). Il utilise une combinaison de critres dtermins manuellement partir d'images
exemples, sur les composantes teinte H et saturation S. Ceci est cod dans une LUT (Look-Up
Table), qui convertie l'image analyser en une image permettant d'extraire les lvres. Cette
image est filtre (Sobel) pour dtecter les contours. Le contour externe des lvres est
finalement localis l'aide d'un modle des lvres (polygone) qui est plac sur l'image de
contours (voir figure 2.6c).
(Chan et al. 1998) utilise galement les informations de teinte H et de saturation S, mais
calcules sur l'image sous-chantillonne huit fois. Des seuils haut et bas sur les composantes
H et S permettent de dterminer les pixels de lvres. La plus grande zone de pixels de lvres
connects est utilise comme premire estimation de la bouche.
Pour localiser les lvres dans l'espace (R; V; B), Chiou et Hwang (1996) proposent

d'utiliser le quotient Q = et d'appliquer un simple seuillage haut et bas de la valeur de ce

quotient (voir eq. 2.3). Les pixels compris entre les bornes Qbas et Qhaut appartiennent aux
lvres et les autres au fond. Notons que le locuteur est clair l'aide d'une lampe de 60 Watts
et que les auteurs indiquent que le systme est dpendant du locuteur.
(Wark and Sridharan 1998) utilisent cette approche pour plusieurs locuteurs, les valeurs
des seuils Qbas = 1.7 et Qhaut = 2.0, pour la dtection de la rgion des lvres dans le visage
sur l'ensemble des images du corpus M2VTS (Pigeon and Vandendorpe 1997).
Pour la localisation pralable du visage (Wark and Sridharan 1998) utilisent cette mme
approche (voir section 2.1.1). Une fois la position approximative de la bouche dtecte, de
nouveaux seuils Qbas = 1.5 et Qhaut = 2.2, sont utiliss (figure 2.7b), puis des oprations
morphologiques (une ouverture suivie d'une fermeture, figure 2.7c) sont effectues pour
affiner la localisation et extraire le contour externe. (Gurbuz et al. 2001b; Gurbuz et al. 2001a;

41
Chapitre 2. La reconnaissance visuelle de la parole

Gurbuz et al. 2002) utilisent galement l'approche propose par (Chiou and Hwang 1996), en
ajoutant une tape de filtrage pour diminuer le bruit dans l'image binaire obtenue la place
des oprations morphologiques proposes par (Wark and Sridharan 1998).

(a) Image traiter (couleur) (b) Seuillages de Q (c) Filtrage morphologique

Figure. 2.7 Localisation des lvres en utilisant le quotient Q, d'aprs (Wark and Sridharan 1998).

Liew et al. (1999) proposent d'utiliser les espaces couleur (L, A, B) et (L, U, V) de la CIE
(commission internationale de l'clairement). Plus prcisment, chaque pixel est reprsent
par un vecteur de dimension 7 :

{A, B, U, V, hueab; hueuv; chromauv} (2.6)


avec hueab = arctan , hueuv = arctan , et chromauv = 2 + 2 .

Les auteurs proposent d'utiliser L'agrgation floue ( fuzzy clustering ) en fixant le


nombre de classes deux. Pour viter des erreurs lies l'apparition sur certaines images des
dents (une troisime classe), les auteurs proposent de les masquer en utilisant un seuillage (la
valeur du seuil est dtermine manuellement partir d'exemples) sur la chrominance qui
est relativement constante pour les dents quelque soit le sujet. Les rgions de faible luminance
L sont galement masques en raison de l'instabilit de leur chrominance. Les rsultats
prsents montrent que cette approche permet d'efficacement encadrer la rgion de la bouche,
mais les rsultats finaux pour le contour interne ne semblent pas particulirement probants
(voir figure 2.8c). En revanche, la carte d'appartenance floue aux deux rgions (voir figure
2.8b) semble tre une information plus facilement exploitable que la segmentation finale.

42
Chapitre 2. La reconnaissance visuelle de la parole

(a) Image initiale (b) Carte d'appartenance (c) Segmentation finale

Figure. 2.8 Dtection des lvres d'aprs (Liew et al. 1999).

2.3.2.2 Approches statistiques

Pour les approches statistiques, comme nous l'avons dj voqu dans la section 2.3.2.1,
l'espace de reprsentation (couleur) idal pour sparer les lvres du reste du visage sera
dtermin statistiquement partir d'exemples, au lieu d'tre dtermin a priori.
Pour la localisation de la bouche dans le visage, (Rao and Mersereau 1995) proposent
d'utiliser la mme approche statistique que celle qu'ils adoptent pour localiser le visage dans
une scne complte (voir section 2.3.1.2). Le modle de la bouche est constitu de deux arcs
de parabole contenus dans un rectangle. Les modles statistiques d'apparence de la bouche et
du fond sont appris sur une seule image tiquete manuellement. Les rsultats prliminaires
obtenus sur une squence d'un locuteur unique semblent corrects, voir figure 2.9. On peut
notamment remarquer sur cette illustration que l'intrieur de la bouche ouverte est
correctement reconnu, mais aucun rsultat o les dents sont visibles n'est prsent, ce qui
limite l'valuation d'une telle approche. Enfin, les auteurs indiquent que le contour interne
pourrait galement tre dtect par cette mthode en considrant comme objet , l'intrieur
de la bouche et comme fond , les lvres.
Pour la localisation prcise du contour externe des lvres, (Chan et al. 1998) utilise une
transformation linaire des composantes (R, V, B) de chaque pixel i :

= . + . + . . (2.7)

Les coefficients de pondration , et sont choisis statistiquement, comme dans


(Kaucic and Blake 1998), pour maximiser la diffrence entre les pixels de bouche et de peau
du locuteur, sur des images reprsentatives du problme traiter, tiquetes manuellement.

43
Chapitre 2. La reconnaissance visuelle de la parole

(a) Images initiales (b) Segmentations finales obtenues

Figure. 2.9 Dtection des lvres d'aprs (Rao and Mersereau 1995).

partir de l'image composite C (voir figure 2.10c), le contour externe des lvres est
recherch en utilisant un modle de forme spcifique au locuteur, la multi-rsolution (des
sous-chantillonnages successifs de l'image) et le gradient spatial. Revret (1999), ainsi que
(Nefian et al. 2002), utilisent galement une image composite C. Les coefficients , et
sont obtenus par analyse discriminante linaire utilisant des images du visage et de la bouche
segmentes manuellement. Une image binaire des lvres est ensuite obtenue par seuillage et
permet la dtection du contour externe des lvres.
(Wojdel and Rothkrantz 2001a; Wojdel and Rothkrantz 2001b) reprent les lvres en
utilisant soit l'approche couleur propose par (Coianiz et al. 1996), soit une approche
statistique base sur l'utilisation d'un rseau de neurones d'architecture trs simple R 3,5,1. Les
auteurs indiquent que dans certaines conditions, l'approche de Coianiz ne permet pas de
segmenter efficacement les lvres du reste de l'image et proposent deux alternatives. La
premire rside dans l'utilisation conjointe de la teinte filtre et de l'intensit filtre, dans les
deux cas l'aide d'un filtre parabolique qu'il est prfrable d'adapter aux images traiter. La
position centrale (quivalent du paramtre H0 de l'eq. 2.5) et la slectivit du filtre (w) doivent
alors tre rgles et il faudra choisir comment utiliser conjointement les informations de teinte
et d'intensit filtres. Les auteurs proposent d'effectuer de manire automatique les rglages
en demandant aux utilisateurs de leur systme de dsigner ( l'aide de la souris) leurs lvres
sur la premire image acquise de leur visage. La seconde alternative rside dans l'utilisation
de la zone marque par l'utilisateur pour tiqueter l'image et entraner un rseau de neurones
la tche de classification entre les classes lvres et non-lvres . Le perceptron
multicouches utilis contient trois entres pour les valeurs R, V et B de chaque pixel, une
couche cache de cinq nuds et une sortie comprise dans l'intervalle [0,1] indiquant si le pixel
couleur en entre appartient plutt aux lvres (valeurs proches de 0) ou au reste (valeurs

44
Chapitre 2. La reconnaissance visuelle de la parole

proches de 1). Les rsultats de classification obtenus l'aide du modle neuronal sont, d'aprs
les auteurs, lgrement suprieurs ceux obtenus avec la teinte (qui est plus bruite), comme
l'illustre la figure 2.10.

(a) Image initiale (b) Teinte filtre (c) Sortie du rseau de neurones

Figure 2.10 Dtection des lvres d'aprs (Wojdel and Rothkrantz 2001a; Wojdel and Rothkrantz
2001b).

Enfin, (Luettin et al. 1996a; 1996b ; 1996c; 1996e; 1996f; Luettin and Thacker 1997)
dtectent prcisment les contours interne et externe des lvres l'aide de modles de la
forme et de l'apparence des lvres appris statistiquement partir d'images tiquetes
manuellement sur le corpus Tulips1 (Movellan 1995). Il utilise des images en niveaux de gris
et extrait, partir des contours matrialiss par des polygones, le profil en niveaux de gris
perpendiculaire au contour, pour chacun des sommets de ses polygones. Les profils
correspondants tous les points de contour sont alors concatns et les vecteurs globaux ainsi
obtenus pour de nombreuses images, sont analyss par lAnalyse en Composantes Principales
(ACP) pour obtenir l'apparence moyenne de la bouche ainsi que ses principales variations
d'apparence. La localisation de la bouche se fait par minimisation du modle de la forme et de
l'apparence des lvres. Signalons galement que cette mme approche est utilis sur le corpus
M2VTS (Pigeon and Vandendorpe 1997) dans (Luettin 1997a; 1997b; Luettin and Dupont
1998; 2000). Les images couleurs de ce corpus sont converties en niveaux de gris pour tre
utilises.

2.3.2.3 Approche par corrlation avec des patrons

Nous avons rencontr une approche o, l'instar des travaux de (Brunelli and Poggio
1993) qui reprent diffrents lments du visage en recherchant le point de meilleure mise en

45
Chapitre 2. La reconnaissance visuelle de la parole

correspondance d'imagettes de ces lments sur l'image, la bouche tait localise de faon
relativement prcise par une approche template matching .
(Shdaifat et al. 2001) localisent directement la bouche sur une image prsentant un visage
complet avec un fond non-uniforme, en utilisant la corrlation entre une image de bouche
moyenne et l'image analyser. Dans un premier temps, les auteurs constituent par
inspection visuelle, des classes des diffrentes formes de bouche susceptibles d'tre
rencontres (vismes). Puis des images reprsentatives de ces cinq vismes sont moyennes
pour obtenir une image de bouche moyenne utilise pour localiser la bouche sur l'image.
Les auteurs reconnaissent que des lments du visage autres que la bouche peuvent tre
dtects tort (yeux notamment) et proposent de raffiner la recherche en calculant la
corrlation entre des imagettes des commissures droite et gauche de la bouche, du mme
locuteur, et les zones de l'image analyser o le coefficient de corrlation dpasse un seuil.
Les commissures sont ainsi localises et leur position sert de rfrence pour normaliser
l'image en rotation et en chelle. L'image de la zone de la bouche normalise est finalement
compare aux images des cinq vismes pour sa classification. Des exprimentations de cette
mthode ont t effectues pour quatre locuteurs, et les taux de classification correcte obtenus
varient de faon trs importante selon le locuteur et la gnralisation de ces travaux mono-
locuteur un cadre multi-locuteurs ne nous semble pas vidente.

2.3.2.4 Approches mouvement

(Leroy and Herlin 1995; Leroy et al. 1996a), dont nous avons dj voqu les travaux
dans la section sur la localisation de visage (section 2.3.1), propose d'utiliser le gradient
spatiotemporel (voir figure 2.10), calcul sur une trentaine d'images, pour dtecter la position
de la bouche. Plus prcisment, la bouche est dfinie dans l'approche de Leroy comme la zone
de fort gradient spatio-temporel la plus basse situe le long de la mdiatrice du segment des
yeux. Selon l'auteur, la localisation de la bouche n'est pas trs prcise et dpend du
mouvement qu'elle a eu pendant la squence d'images tudies.
Broun et al. (2002) utilisent galement la diffrence inter-images combine la couleur
pour localiser la bouche d'un sujet en train de parler. Ils se distinguent de (Livin and Luthon
1999), en utilisant l'accumulation des diffrences inter-images sur une squence de 30 images.
Les diffrences inter-images sont calcules pixel pixel sur la composante rouge, puis elles
sont sommes et seuilles pour obtenir une image binaire faisant ressortir les zones en
mouvement. Cette observation de mouvement est combine (oprateur ET), avec une image

46
Chapitre 2. La reconnaissance visuelle de la parole

obtenue l'aide de seuils haut et bas de la teinte et de la saturation. L'image-produit obtenue


fait ressortir les zones en mouvement dont la teinte et la saturation correspondent celles des
lvres.
Enfin, signalons que (Mase 1991 ; Pentland and Mase 1989) effectuent un calcul de flot
optique sur des images contenant les lvres d'un locuteur. L'information de mouvement ne sert
pas, dans ces travaux, localiser les lvres, mais bien tudier leurs mouvements, ou plus
exactement mesurer le mouvement dans quatre fentres : les deux premires contiennent les
moitis haute et basse de la bouche, c'est--dire les lvres suprieures et infrieure et les deux
restantes les moitis gauche et droite de la bouche. (Gray et al. 1997b) compare d'ailleurs
cette approche par flot optique d'autres approches dynamiques pour la reconnaissance de
parole visuelle.

2.3.2.5 Autres approches

(Matthews et al. 1996a) voque la possibilit de localiser la rgion des lvres dans une
image de visage en utilisant des transformations morphologiques simples, mais sans donner
plus de dtails. Une fois que l'on a localis prcisment les lvres, il est possible d'extraire les
informations visuelles. Dans la plupart des travaux que nous avons rencontrs, ces
informations sont exclusivement labiales. Deux types bien distincts d'informations sont
extraites des images: des informations de bas niveau extraites par des transformations des
valeurs de niveaux de gris des pixels de l'image et des informations de haut niveau
correspondant des mesures obtenues l'aide de modles.
(Gray et al. 1997a) utilisent le corpus Tulips1 (Movellan 1995), qui contient 934 images
en niveaux de gris. Chaque image est normalise en translation, chelle et rotation (dans le
plan image) grce l'tiquetage ralis par (Luettin et al. 1996f), puis les parties gauche et
droite de l'image sont rendues symtriques. Les images rsultantes sont de rsolution 87 65
et diffrentes stratgies de rduction de la dimension (5655) de ces vecteurs visuels sont
tudies : l'analyse en composantes principales en retenant les 50 premiers vecteurs propres
(PCA 50), l'analyse en composantes indpendantes (ICA 50), ainsi que d'autres approches par
PCA et ICA locales. Les rsultats suggrent que l'utilisation des approches locales est plus
efficace que les approches globales (Gray et al. 1997a).
Matthews et al. (1996a) calculent partir d'images de la zone des lvres de 80 60,
obtenues en cadrant manuellement la bouche dans des images de visage complet de rsolution
376 288, la transformation morphologique sieve . Cette transformation cr des triplets

47
Chapitre 2. La reconnaissance visuelle de la parole

{chelle, amplitude, position} appels granules. Les informations d'amplitude et de position


ne peuvent tre utilises car elles rendraient le systme dpendant des variations dans
l'environnement dont il est souhaitable d'tre indpendant. En revanche, l'information
d'chelle est relativement robuste aux variations d'clairement et peut tre utilise. Pour
rduire la taille du vecteur d'observation, l'histogramme de l'information d'chelle est calcul.
On obtient ainsi un vecteur de dimension 60 (hauteur de l'image en entre). La dimension du
vecteur est divise par deux en moyennant deux deux les coefficients successifs. L'image
initiale est alors reprsente par un vecteur de dimension 30 qui est utilis directement ou
aprs rduction 10 coefficients par projection sur les 10 principaux axes obtenus par ACP.
Dans (Harvey et al. 1997), la mme approche est utilise, mais le vecteur histogramme de
dimension 60 est projet directement sur les 20 principaux axes obtenus par ACP. D'autres
variantes sont galement testes dans cet article, mais les performances rapportes en terme
de lecture labiale automatique sont nettement moins leves.
Pour (Lee and Kim 2001), des images couleur de la rgion de la bouche de rsolution
320240 sont utilises en dbut de traitement. Ces images sont sous-chantillonnes
(160120), puis converties en niveaux de gris. L'histogramme des images est normalis, puis
la zone la plus sombre est considre comme tant l'intrieur de la bouche. Cette zone permet
de calculer la largeur l de la bouche et d'obtenir la rgion d'intrt (ROI) en utilisant 1; 1 * l
comme largeur de ROI. Les auteurs r-chantillonne la ROI pour obtenir une image de 64
64 qui est ensuite sous-chantillonne 16 16 pixels. Les auteurs utilisent une transforme
en cosinus discret (DCT) puis une ACP sur ces images de 16 16, ainsi que sur ces images
symtrises (8 16) et ont obtenu 80, 90 et 95% de la variance totale avec 7, 15 et 23
vecteurs propres au lieu de 9, 23 et 47 vecteurs propres sans symtrisation. Ceci les amne
conclure qu'il est intressant d'utiliser la symtrie des lvres car ceci permet mme d'amliorer
les scores de RAP AV en liminant les problmes d'illumination non uniforme.
Sur le corpus AT&T (Potamianos et al. 1997 ; Potamianos and Graf 1998a), effectue une
transforme en ondelettes discrtes (DWT) de l'image de la zone de la bouche sous-
chantillonne sur 1616 pixels. Quinze coefficients ainsi que leur drives et acclrations
sont utiliss comme vecteurs visuel.
Dans (Potamianos et al. 2001a; Potamianos et al. 2001b; Neti et al. 2000), les auteurs
calculent leurs vecteurs d'observation visuelle partir d'images sur le corpus IBM
ViavoiceTM (Neti et al. 2000). La position de la bouche est estime en suivant l'approche
dcrite dans (Senior 1999) (voir section 2.3.1), partir d'images contenant le visage complet.
La zone d'intrt est extraite et sous-chantillonne dans une image de 64 64 pixels.

48
Chapitre 2. La reconnaissance visuelle de la parole

Une DCT est applique cette image et les 24 coefficients de plus forte nergie sont
retenus pour former le vecteur visuel statique. Pour obtenir le vecteur d'observation visuelle
final, une interpolation linaire est utilise pour modifier la cadence des vecteurs de 60 100
Hz, puis 15 vecteurs statiques conscutifs sont concatns (7 avant + 7 aprs). Les vecteurs de
dimension 15*24 = 360 sont rduits 41 dimensions par projection aprs LDA+MLLT. Le
vecteur visuel final est alors concatn au vecteur acoustique de dimension 60 obtenu suivant
un procd similaire pour former l'observation audiovisuelle. Ce dernier vecteur (de
dimension 101) subit galement une rduction de dimension par LDA+MLLT, pour
finalement atteindre 60 coefficients.

2.4 Conditions naturelles (cologiques)

Enfin, la dernire catgorie que nous allons voquer est celle des systmes qui ne
supposent aucune prparation du locuteur et qui ne ncessitent pas non plus d'quipement ou
de posture spcifique : l'acquisition des images est effectu l'aide d'une camra qui filme le
locuteur de face.
Ce sont les systmes les plus libres du point de vue de l'utilisateur, mais ce sont
galement ceux pour lesquels l'extraction des paramtres labiaux est la plus problmatique.
Aux difficults dj rencontres dans les systmes sans prparation du locuteur, mais avec
prise de vue ou dispositif d'acquisition particulier prsents dans la section prcdente,
viennent s'ajouter les problmes de cadrage et d'clairage : l'clairage peut ne pas tre optimal
et le locuteur peut se dplacer pendant qu'il parle, ce qui peut galement faire varier
l'clairement.
Les systmes de ce type peuvent tre utiliss dans des cadres applicatifs plus vastes que
les systmes prsents dans la partie prcdente. Si de tels systmes atteignaient un bon
niveau de fiabilit, ils seraient mme utilisables dans la plupart des situations, dans la mesure
o la prise de vue de face est trs largement rpandue dans lexistante et relativement facile
obtenir pour de nouvelles application. En tlvision par exemple, la vue de face est utilise
pour les journaux tlviss, mais galement pour d'autres types d'mission. Dans le cas
d'indexation par le texte d'archives audiovisuelles ayant un canal acoustique dgrad, il serait
envisageable d'employer un tel systme de AVASR. Pour des applications comme la dicte
vocale audiovisuelle ou l'interaction homme-machine audiovisuelle, la vue de face semble
galement un choix envisageable. Quant la lecture labiale automatique distance effectue
l'insu du locuteur (espionnage) comme celle effectue par l'ordinateur HAL du film de science
49
Chapitre 2. La reconnaissance visuelle de la parole

fiction de Kubrick 2001, l'odysse de l'espace (Kubrick 1968) (voir galement (Stork
1997)), il est fort peu vraisemblable que l'on atteigne ce niveau de performance avant de trs
nombreuses annes (s'il est possible de les atteindre un jour). En effet, mme dans des
conditions favorables, le canal visuel porte une information moindre que le canal acoustique
et une application de lecture labiale grand vocabulaire n'est pas l'ordre du jour. De plus, pour
un tel type d'application, il sera difficile d'obtenir une image d'une rsolution suffisante pour
tre utilise, car certains mouvements labiaux ont une amplitude de l'ordre de quelques
millimtres comme l'indique (Lallouache 1991) en prcisant que les systmes d'extraction de
paramtres doivent fournir des mesures dont la prcision doit tre de l'ordre du demi-
millimtre !
Comme pour tous les systmes voqus prcdemment, il faut pouvoir grer la grande
variabilit intra-locuteur d'apparence et de forme de la bouche pendant la production de
parole, mais la tche d'extraction de paramtres devient largement plus complexe qu'avec les
autres systmes utilisant l'image du locuteur, car le gradient spatial entre les lvres et la peau
peut tre quasiment inexistant, en particulier pour la lvre infrieure17. Si l'on n'emploie pas
des mthodes robustes, la dtection de ce contour risque d'tre trs hasardeuse. Si l'clairage
n'est pas constant, l'intensit moyenne de l'image variera. Ceci peut se corriger pour partie en
effectuant une normalisation comme le propose (Vanegas et al. 1998), mais si l'clairage n'est
pas uniforme ou s'il y a des ombres portes, la normalisation globale risque de ne pas tre
satisfaisante et il faudra s'orienter vers des techniques plus sophistiques comme celles
proposes par (Gouet and Montesinos 2002 ; Pinel et al. 2001), ou enfin par (Basso et al.
2001). Si le locuteur est mobile, de possibles problmes de cadrage pourront se poser : ceci
pourra amener cadrer une zone plus large du visage du locuteur et ajoutera potentiellement
des minima locaux (nez, fond) dans les recherches de contours. Si de plus, l'clairage arrive
du dessus, il est vraisemblable que des ombres portes apparaissent (sous le nez et la bouche),
ce qui peut rduire le gradient spatial entre la lvre infrieure et la peau, et augmenter encore
la difficult de localisation du contour externe de la lvre infrieure. Dans le cas le plus
dfavorable, clairement artificiel du dessus et clairement externe variable avec un locuteur
mobile, des conditions qui sont pourtant celles de nombreux postes de travail, toutes les
sources d'erreurs s'ajoutent et il faudra des modles trs robustes pour extraire les paramtres
labiaux avec une qualit suffisante pour qu'ils soient utilisables pour lAVASR. Il n'y a pas
notre connaissance de systmes qui aient t valus dans des conditions aussi dfavorables.
En pratique, les diffrents systmes qui ont t prsents dans ce chapitre ont t btis ou
tests partir de corpus et il n'y a pas de corpus enregistr dans ces conditions. Le seul corpus

50
Chapitre 2. La reconnaissance visuelle de la parole

qui corresponde une lumire variable est, notre connaissance, celui que nous avons
enregistr pour les besoins de nos recherches en utilisant la lumire solaire ambiante, mais
l'clairement y est diffus et il n'y a d'ombres trs marques.
L'valuation de chaque systme tant dpendante de son corpus de test, il nous semble
utile de prsenter rapidement les corpus de parole audiovisuelle existants.

2.5 Comparaison image-modle

Les deux approches modle et image ont toutes les deux des avantages et des
inconvnients. En dpit des diffrences videntes entre ces deux approches, une
caractristique quelles partagent toutes les deux est le besoin ventuel dune intervention
manuelle. En effet, on peut intervenir manuellement pour tiqueter des donnes ou dfinir une
rgion dintrt (dhabitude cest la rgion de lvres). Cependant, lutilisation de lune ou
lautre dpend globalement de la difficult de la mthode, de sa robustesse et de la pertinence
de la paramtrisation visuelle rsultante.
Par ailleurs, il existe dans la littrature peu detudes comparant les deux approches. Nous
prsentons ci-dessous trois tudes les comparant :
(Brunelli and Poggio 1993) comparent les performances obtenues par deux techniques
automatiques pour la reconnaissance du visage, partir dimages prises en vue frontale. La
premire technique, quon peut qualifier dapproche image, sappuie sur le calcul dun
ensemble de paramtres gomtriques partir de limage du visage. La seconde technique est
fonde sur une adaptation dun modle du visage sur limage relle (Template Matching). La
comparaison entre ces deux techniques nous semble intressante mme si lobjet traiter dans
ltude tait le visage et non pas seulement la bouche. Elle peut nous livrer certains aspects
utiles pour fonder des arguments sur lutilisation de ces techniques. Les auteurs ont obtenu, en
terme de reconnaissance, des performances suprieures en utilisant la seconde technique
(template matching).
(Matthews et al. 1998) comparent deux techniques diffrentes pour caractriser les
formes de la bouche pour la reconnaissance visuelle de la parole (lecture labiale automatique).
La premire technique extrait les paramtres requis pour adapter un modle actif de forme
(Active Shape Model, ASM) aux contours des lvres. La seconde utilise des paramtres
drivs dune analyse spatiale multi-chelle (Multiscale Spatiale Analysis, MSA) de la rgion
de la bouche. Les rsultats semblent avantager lanalyse spatiale multi-chelle. Ils montrent
que cette technique est plus robuste, rapide et plus prcise. En effet, dans les tests de

51
Chapitre 2. La reconnaissance visuelle de la parole

reconnaissance avec des locuteurs multiples et utilisant seulement les donnes visuelles, la
prcision de reconnaissance des lettres est de 45% pour la mthode MSA et de 19% pour
ASM. Pour reconnaitre des digits, la prcision est la mme pour les deux mthodes (77%).
Cette performance relativement faible de lASM peut tre explique par lincorporation de
connaissances a priori dans la mthode qui peuvent tre inexactes. Le fait de reprsenter le
contour des lvres par un modle simple semble tre aussi trop limite pour diffuser des
informations plus prcises. En gnral, lASM est confront comme toutes les techniques de
lapproche modle des erreurs de modlisation et de capture.
Matthews et al. (2001) comparent, dans une tache de reconnaissance audio-visuelle
continue large vocabulaire, quatre techniques diffrentes de paramtrisation visuelle. Trois
de ces techniques appartiennent lapproche image. Il sagit de la transforme en cosinus
discrte (DCT), la transforme en ondelettes discrte (DWT) et lanalyse en composante
principale (ACP). Ces trois mthodes ncessitent de localiser la rgion de la bouche. La
quatrime technique, utilisant lapproche modle active dapparence (AAM), tente de
modliser le visage entier par un modle dformable de lapparence du visage et inclut un
algorithme de capture. Il est vident a priori quutiliser le visage entier devrait tre bnfique.
Le visage entier peut inclure des caractristiques visuelles supplmentaires qui pourraient tre
utiles et bnfiques la reconnaissance. Toutefois, les rsultats obtenus dans un test de
reconnaissance visuelle de mots semblent contredire cette vidence. Les rsultats
exprimentaux montrent que les performances des mthodes de lapproche image sont
meilleures (en taux derreurs : autour de 59% pour les trois mthodes image vs. 64% pour
lAAM). La mthode AAM est probablement dsavantage par les problmes que rencontrent
toute mthode de lapproche modle, savoir les erreurs dapprentissage du modle.
En rsum, ces quelques comparaisons donnent un petit avantage lapproche image.
Ceci dit, comme nous lavons voqu prcdemment, lapproche modle dpend beaucoup
des algorithmes employs pour lapprentissage du modle. Une amlioration de ces
algorithmes et lincorporation de connaissances a priori qui rendent mieux compte de la
structure de dformation de lobjet considr, augmentera probablement la robustesse de cette
approche.

2.6 Corpus existants


Un corpus est un ensemble de donnes qui doivent tre reprsentatives de l'objet
scientifique tudier. De faon gnrale, un tel ensemble de donnes peut servir tester et
valider (ou invalider !) des modles (a priori ou a posteriori) ou les adapter pour qu'ils

52
Chapitre 2. La reconnaissance visuelle de la parole

fonctionnent sur une vrit terrain . Dans le cas des modles statistiques a posteriori, appris
partir de donnes, le corpus sert galement construire les modles et il est alors trs
nettement prfrable de scinder le corpus en une portion servant l'entranement, le corpus
d'apprentissage, et une autre, disjointe, servant l'valuation que l'on nommera corpus de test.
L'une des principales difficults matrielles auxquelles les chercheurs en parole audiovisuelle
sont confronts est alors la taille des corpus. Notons galement que plus le corpus
d'apprentissage sera reprsentatif du problme rsoudre, plus les performances des modles
entrans avec devraient tre leves dans des conditions relles. Il semble alors important de
limiter les contraintes imposes au locuteur et sur le contrle de l'clairement pour enregistrer
des corpus dans des conditions que nous qualifierons par la suite de naturelles .

2.7 Conclusion
Nous avons rappelons dans ce chapitre, que linformation visuelle est dun bnfice
important dans le domaine de la reconnaissance audio-visuelle de la parole. Elle est un
vecteur dinformation ncessaire et essentiel dans la comprhension, mme partielle, de la
parole chez les personnes sourdes. Elle porte une partie complmentaire de linformation de
parole perue par les utilisateurs de ce code. La prsentation des informations visuelles doit
tre optimale pour une reconnaissance maximale des gestes visuels. En dautres termes, dans
quelles conditions de prsentation et de visibilit du visage, un systme de reconnaissance
peut-il percevoir (reconnatre) un maximum dinformation de parole ?
Le chapitre suivant est dailleurs consacr la description du signal de parole et nous
prsenterons les diffrents problmes poss lors de son traitement, ainsi les principales
mthodes danalyse du signal de parole pour extraire les paramtres acoustiques qui seront
fournis au systme de reconnaissance.

53
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

De la reconnaissance acoustique la
reconnaissance bimodale de parole 3
Le son est un lment majeur permettant ltre humain dapprhender son
environnement. Il est galement, par le biais de la parole, le vecteur naturel de la
communication humaine. Prsent dans de nombreux documents multimdias, il est, de ce fait,
porteur dune information prcieuse pour leur comprhension.
Le problme de la reconnaissance de la parole est un domaine dtudes actif depuis le dbut des
annes 50. Actuellement les modles les plus utiliss en reconnaissance de la parole sont les modles
de Markov cachs (HMM) et les rseaux de neurones.
La reconnaissance automatique de la parole peut tre base directement sur une comparaison de
formes nouvelles avec des rfrences des mots reconnatre, ou bien sur lidentification dun
ensemble dunits lmentaires (phonmes, diphones, syllabes). Dans le premier cas, il sagit dune
reconnaissance dite globale (approche retenue dans ce travail), dans le second cas dune
reconnaissance dite analytique.
Dans ce chapitre, nous donnons une dfinition rapide de la parole. Nous prsentons
ensuite les grands principes de la reconnaissance automatique de la parole, avant de nous
intresser aux mthodes bimodale de la RAP.

3.1 Dfinition de la parole

La parole est le mode de communication privilgi pour lespce humaine. Il est la


reprsentation sonore dun langage et est produit par le systme vocal.
La parole, comme reprsentation dun langage, est constitue dunits linguistiques, les
mots. Pour dcrire la reprsentation sonore de ces units linguistiques, on utilise des
phonmes. Un phonme peut tre dfini comme la plus petite unit sonore distinctive que lon
peut obtenir par segmentation de la parole. Pour produire un phonme, le systme vocal
adapte sa configuration : dbit de lair, tension des cordes vocales et forme du conduit vocal.
Les phonmes sont classifis en trois familles :

les voyelles sont produites par les vibrations des cordes vocales. Ce sont des sons qui
sont souvent considrs comme quasi-priodiques et pour une configuration quasi

54
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

statique du conduit vocal. Elles peuvent tre nasales ou orales selon que lair passe par
la cavit nasale ou la cavit buccale ;
les consonnes sont elles produites par occlusion totale (consonnes occlusives) ou
partielle (consones fricatives, latrales ou vibrantes) du conduit vocal. Elles peuvent
tre non voises il ny alors pas de vibration des cordes vocales et le son est
essentiellement produit par un bruit (bruit de friction, dexplosion ou de relchement)
ou au contraire voises elles sont alors produites aussi par vibration des cordes
vocales. Les consonnes sont habituellement considres comme des transitions rapides
entre deux voyelles, avec donc une gomtrie du conduit vocal qui varie rapidement.
On peut donc dire que la caractrisation essentielle des consonnes cest la nature du
son, dans leur cas, un son de type bruit ou contenant un bruit ;
les semi-voyelles ont des sons de type voyelle vibration des cordes vocales et sans
bruit mais gnrs pendant une volution rapide de la gomtrie du conduit vocal.
Leur son ne peut donc pas tre considr comme quasi-statique.

3.2 Le signal de la parole


Le signal de la parole nest pas un signal ordinaire. Il est le vecteur dun phnomne
complexe : la communication parle. La reconnaissance de la parole pose de nombreux
problmes aux chercheurs depuis 1950 (Allegre 2003). Dun point de vue mathmatiques, il
est difficile de modliser le signal de parole, compte tenu de sa variabilit. Nous allons ici
tenter de mettre en vidence quelques caractristiques importantes du signal non stationnaire
afin de faire ressortir les problmes poss lors de son traitement (Haton 2006).

3.2.1 Redondance du signal

Le signal de parole est extrmement redondant. Cette grande redondance lui confre une
robustesse certains types de bruits. De nombreuses recherches sont menes afin de rendre
les systmes de reconnaissance robustes aux bruits, mais les performances humaines sont
encore loin dtre atteintes.

3.2.2 Variabilit du signal

Le signal de parole possde une trs grande variabilit. Une mme personne ne prononce
jamais un mot deux fois de faon identique. La vitesse dlocution peut varier, la dure du

55
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

signal est alors modifie. Toute altration de lappareil phonatoire peut modifier la qualit de
lmission (exemple : rhume, fatigue). De plus, la diction volue dans le temps. La voix est
modifie au cours des tapes de la vie dun tre humain (enfance, adolescence, ge adulte).
La variabilit interlocuteur est encore plus accentue. La hauteur de la voix,
lintonation et laccent diffrent selon le sexe, lorigine sociale, rgionale ou nationale. Un
exemple pertinent de cette variabilit apparat lorsque nous comparons la voix dun locuteur
originaire du Nord avec celle dun locuteur originaire du sud de lAlgrie. Enfin, la parole est
un moyen de communication o de nombreux lments entrent en jeu, tels que le lieu,
lmotion du locuteur, la relation qui stablit entre les locuteurs (stressante ou amicale). Ces
facteurs influencent la forme et le contenu du message. L'acoustique du lieu (milieu protg
ou environnement bruit), la qualit du microphone, les bruits de bouche, les hsitations, les
mots hors vocabulaire sont autant dinterfrences supplmentaires sur le signal de parole.

3.2.3 Les effets de coarticulation

La production parfaite dun son suppose un positionnement prcis des organes


phonatoires. Le dplacement de ces organes est limit par une certaine inertie mcanique. Les
sons mis subissent alors linfluence de ceux qui les prcdent ou les suivent. Ces effets de
coarticulation est un facteur de variabilit supplmentaire important du signal de parole.

3.3 Extraction des paramtres


Dans un systme de RAP, les paramtres acoustiques permettant de dcrire le signal de
parole sont gnralement dfinis sur une chelle dinformation de niveau local. Le signal
continu de parole est fourni en entre du systme de RAP aprs une conversion sous la forme
dchantillons sonores. Une suite de vecteurs reprsentatifs, appels vecteurs acoustiques ou
vecteurs dobservation, est alors retourne en sortie du module de paramtrisation acoustique.
Les paramtres acoustiques dfinis pour la reprsentation acoustique du signal de parole
devraient respecter les critres de (Deviren 2004):

pertinence. Les paramtres acoustiques doivent reprsenter de manire prcise le


signal de parole. Leur nombre doit cependant rester limit afin de conserver un cot de
calcul raisonnable lors de leur exploitation dans les modules de calcul des paramtres
acoustiques et de reconnaissance des formes.

56
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

discrimination. Les paramtres acoustiques doivent reprsenter de manire


caractristique les diffrents lments reprsentatifs des units linguistiques afin de les
rendre facilement distinctes.
robustesse. Les paramtres acoustiques doivent rsister aux effets perturbateurs lis
aux distorsions du signal de parole mis (Milner and Darch 2011).

Dans le processus de traitement du signal acoustique dun systme de RAP, un


dcoupage du signal de parole analys retourne une squence de segments dchantillons
sonores appels trames. La dure de ces trames est choisie de telle sorte que le signal de
parole est considr stationnaire (Boite et al. 2000). Cette segmentation permet alors
dextraire les proprits locales du signal de parole. Le continuum de parole est donc
reprsent par une suite de vecteurs dobservation calculs sur des trames du signal de courte
dure par exemple de lordre de 20 ms, par fentre glissante asynchrone ou synchrone au
pitch (Young et al. 2006). Les vecteurs dobservation peuvent reprsenter le signal de parole
sous la forme de diffrents types de coefficients qui constituent les paramtres acoustiques.
Ces paramtres sont choisis pour tre le plus utile la reprsentation du signal de parole
dans lobjectif de dcrire le message linguistique. Se basant sur lanalyse des caractristiques
physiologiques de loreille (Dallos 1973), de nombreux types de paramtres acoustiques sont
utiliss dans la littrature pour la RAP (Davis and Melmerstein 1980; Eyben et al. 2010).
Parmi les principaux types de paramtres exploits dans les systmes de RAP, on peut
distinguer :

3.3.1 nergie du signal

Aprs la phase de numrisation et surtout de quantification, le paramtre intuitif pour


caractriser le signal ainsi obtenu est l'nergie. Cette nergie correspond la puissance du
signal. Elle est souvent value sur plusieurs trames de signal successives pour pouvoir mettre
en vidence des variations. La formule de calcul de ce paramtre est :

fentre = fen tre ||2 (3.1)

Il existe des variantes de ce calcul. L'une des plus utilises ralise une simple somme des
valeurs absolues des amplitudes des chantillons pour allger la charge de calcul, les
variations restant les mmes. D'autres, comme celle de (Taboada et al. 1994) proposent la
modification suivante du calcul intgrant une normalisation par rapport au bruit ambiant.

57
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

fentre = log ||2 (3.2)


fen tre

Dans cette quation, R est la valeur moyenne de l'nergie du bruit. Le rsultat de ce calcul
tend vers 0 lorsque la portion considre est une zone o il n'y a que le bruit de fond. Tout le
problme de cette variante rside dans l'estimation du facteur de normalisation R.

3.3.2 Coefficients MFCC

Le principe de calcul des MFCC (Mel-scaled Frequency Cepstral Coefficients) est issu
des recherches psychoacoustiques sur la tonie et la perception des diffrentes bandes de
frquences par loreille humaine.
Un vecteur acoustique MFCC est form de coefficients cepstraux obtenus partir dune
rpartition frquentielle selon lchelle de Mel (Bogert et al. 1963) (voir figure 3.1).
Lutilisation dchelles de frquence non-linaires, telles les chelles de Mel (Stevens et al.
1937) ou Bark (Zwicker 1961), permettent une meilleure reprsentation des basses frquences
qui contiennent lessentiel de linformation linguistique pour la majeure partie du signal de
parole. La correspondance entre les valeurs de frquence en Hertz et en Mel est
calcule par (O'Shaughnessy 1987) :


= 2.595. log(1 + ) (3.3)
700

Par ailleurs, il est possible de calculer des coefficients cepstraux partir dune rpartition
frquentielle linaire sans utiliser une chelle de Mel mais en conservant la rpartition linaire
des chelles de frquence. Ces coefficients sont alors appels LFCCs (Linear Frequency
Cepstral Coefficients) (Rabiner and Juang 1993).
Afin de sparer la source spectrale de la rponse frquentielle, lopration de mthode
cepstrale se base sur la proprit du logarithme qui permet de transformer un produit en
addition. Une transforme discrte en cosinus (Discret Cosinus Transform, DCT) permet ainsi
dobtenir les N coefficients cepstraux dsirs (Ahmed et al. 1974). Considrant f la fonction
de transformation spectrale, le kme coefficient cepstral C(k) est donc obtenu par :

2
= +1 . ( 0.5) (3.4)

58
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Cette analyse a pour avantages un nombre rduit de coefficients par vecteur acoustique et
un faible indice de corrlation entre ces diffrents coefficients. Les coefficients MFCCs sont
rputs plus robustes que ceux issus dune analyse spectrale (Lockwood et al. 1992).
Les coefficients de type MFCC sont souvent associs la valeur d'nergie contenue dans
la trame de signal de parole appele sous le terme de coefficient C(0) (Young et al. 2006). De
surcrot, lutilisation des drives premires et secondes de ces coefficients fournit de
linformation utile sur la dynamique du signal de parole. En effet, linformation
complmentaire apporte par le filtrage temporel introduit par les drives des coefficients
MFCCs permet une plus grande robustesse des paramtres acoustiques dans les systmes de
RAP face lusage des seuls coefficients MFCCs statiques (Yang et al. 2007). Dans ces
conditions, ces paramtres acoustiques prennent souvent la forme de vecteurs de 39
coefficients forms par les 12 premiers coefficients MFCCs, lnergie C(0) (et leurs drives
premires et secondes.
Cette information complmentaire apporte toutefois un complment utile dans la
classification de certaines consonnes (Liu et al. 1997). Par ailleurs, il est possible de r-
synthtiser un message intelligible sur de la parole propre partir dune analyse des seuls
coefficients MFCCs, cest--dire partir des spectres et cepstres en chelle de Mel
(Demuynck et al. 2004). Donc dans le cas de parole propre, un signal dexcitation bas sur
une analyse du pitch est utilis pour cette opration de re-synthse (Collen et al. 2007). Dans
ce cas, linformation initiale de phase nest alors pas utile. Par contre, dans le cas dun signal
de parole bruite, les informations de phase et de rsolution spectrale fine sont trs utiles pour
la bonne reconnaissance des composantes du message linguistique (Murty and
Yegnanarayana 2006).

Figure 3.1 Schma de calcul des MFCC.

59
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

3.3.3 Taux de passage par zro

Le taux de passage par zro (zero crossing rate en anglais) reprsente le nombre de fois
que le signal, dans sa reprsentation amplitude/temps, passe par la valeur centrale de
l'amplitude (gnralement zro). Il est frquemment employ pour des algorithmes de
dtection de section voise/non voise dans un signal. En effet, du fait de sa nature alatoire,
le bruit possde gnralement un taux de passage par zro suprieur celui des parties
voises.
Le comptage du nombre de passages par zro est trs simple effectuer. Dans un premier
temps, il faut enlever le dcalage d'amplitude (offset en anglais), produit par la majorit des
matriels d'acquisition, pour centrer le signal autour de zro. Ensuite, pour chaque trame, il
suffit de dnombrer tous les changements de signe du signal. Pour liminer certains
phnomnes parasites, (Taboada et al. 94) ont propos une mthode nomme le band-
crossing. Un seuil d'amplitude S permet de dfinir une zone autour du zro de largeur 2xS au
sein de laquelle les oscillations ne sont pas prises en compte. La formule du band-crossing
pour chaque fentre analyse est donc :

1 >
fentre = fen tre 1 = 1 (3.5)
1 <

Cette mesure se montre trs intressante, dans le cadre d'une dtection de parole en amont
d'un systme de reconnaissance, pour la dtection de fricative en fin de signal reconnatre ou
d'attaque de plosive.

3.3.4 Autres paramtrisations du signal

Nous n'numrerons pas tous les types de paramtres employs dans le domaine de la
recherche en parole car il y en a normment et ce n'est pas le propos de notre thse. Pourtant,
il est noter que d'autres approches plus proches de l'audition humaine, telles les modles
d'oreille, ont t tudies. De plus, le lecteur trouvera des informations sur diffrents
paramtres trs largement utiliss pour le codage LPC (Linear Predictive Coding) prsent
dans la norme GSM, pour les PLPs (Perceptual Linear Predictive) et pour les RASTA-PLP,
version approfondie des PLP (Laprie 2000). Cette liste ne se veut pas exhaustive mais permet
d'avoir un aperu des diffrents paramtres qu'il est possible d'extraire d'un signal de parole.

60
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Figure 3.2 Schmas de calcul les paramtres PLP et LPC.

3.3.5 Drives premire et seconde

Le but final de l'extraction des paramtres est de modliser la parole, un phnomne trs
variable. Par exemple, mme si elle a de l'importance, la simple valeur de l'nergie n'est pas
suffisante pour donner toute l'information porte par ce paramtre. Il est donc souvent
ncessaire de recourir des informations sur l'volution dans le temps de ces paramtres. Pour
cela, les drives premire et seconde sont calcules pour reprsenter la variation ainsi que
l'acclration de chacun des paramtres. Mme si la robustesse de la reprsentation obtenue
est accrue, cela implique aussi de multiplier par 3 l'espace de reprsentation.

3.4 Rduction de l'espace de reprsentation


Comme nous venons de le voir, l'espace de reprsentation du signal est souvent de taille
consquente, gnralement de plusieurs dizaines de paramtres. Il est donc important de ne
garder que des paramtres discriminants. La mthode majoritairement utilise, de nos jours,
est l'analyse discriminante linaire, LDA pour Linear Discriminant Analysis en anglais. Cette

61
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

technique s'apparente l'analyse en composantes principales (ACP). Elle permet l'obtention


de paramtres considrs comme discriminants en appliquant une transformation linaire de
l'espace d'entre de taille n vers un espace de taille rduite q (q < n). L'application de cet
algorithme maximise la sparation des classes qui sont affectes chaque vecteur acoustique
et ainsi amliore la robustesse de la reprsentation. Ils ont d'ailleurs montr que l'utilisation
d'une telle analyse permet de pallier certaines catgories de bruits.

3.5 Les modes de fonctionnement dun systme de reconnaissance


Un systme de reconnaissance peut tre utilis sous plusieurs modes (Hlaoui 1999):

o Dpendant du locuteur (monolocuteur)

Dans ce cas particulier, le systme de reconnaissance est configur pour un locuteur


spcifique. Cest le cas de la plupart des systmes de reconnaissance de parole disponibles sur
le march. Les principaux systmes de dicte vocale actuels possdent une phase
d'apprentissage recommande avant toute utilisation (voire mme une adaptation continue des
paramtres au cours de lutilisation du logiciel) afin deffectuer une adaptation des paramtres
la voix de lutilisateur.

o Pluri-locuteur (ou multi-locuteur)

Le systme de reconnaissance est labor pour un groupe restreint de personnes. Le


passage dun locuteur un autre du mme groupe se fait sans adaptation.

o Indpendant du locuteur

Tout locuteur peut utiliser le systme de reconnaissance.

o Elocution

Le mode dlocution caractrise la faon dont on peut parler au systme. Il existe quatre
modes dlocution distincts :

Mots isols :

Chaque mot doit tre prononc isolment, cest dire prcd et suivi dune pause.

62
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Mots connects :

Le systme reconnat des squences de quelques mots sans pause volontaire pour les
sparer (exemple : reconnaissance de chiffres connects ou de nombres
quelconques).

Parole continue lue :

Cest le discours usuel, si ce nest que les textes sont lus.

Parole continue spontane :

Cest le discours usuel, sans aucune contrainte.

La reconnaissance de mots isols fonctionne relativement bien de nos jours pour


diffrentes langues. De bons rsultats ont t publis par de nombreux laboratoires.
Gnralement, de tels outils de reconnaissance de parole sont utiliss pour un vocabulaire de
commande correspondant des actions spcifiques et simples (gestion de menus).
Le premier mode dlocution sera abord lors de cette tude. Les expriences dcrites
dans ce travail ont t effectues sur de la parole bruite.

3.6 La reconnaissance bimodale de la parole


Afin de rendre les interfaces en parole naturelle plus fiables, une solution est daugmenter
les modalits pouvant tre perues par la machine en ouvrant les yeux aux machines . Se
pose alors le problme dintgrer des informations de nature diffrente : acoustique et
visuelle. Cest prcisment cette intgration dinformations htrognes, acoustiques et
visuelles, en vue de leur exploitation pour la RAP.
Nous abordons dans cette partie lintgration audiovisuelle selon le point de vue de la
thorie de linformation. Ensuite nous exprimentons quelques modles dintgration selon
que celle-ci intervient dans le systme de RAP au niveau numrique par identification directe
ou bien au niveau symbolique aprs identification spare ou encore au niveau numrique et
symbolique selon un schma hybride ID+IS. Les traitements acoustiques et visuels utiliss
dans les systmes dvelopps selon ces trois stratgies sont galement dcrites.
Dans les systmes audiovisuels de RAP, il sagit dinterprter des images en plus des
signaux de parole usuels pour identifier un message oral. Cette interprtation doit exploiter les
points de vue acoustique et visuel pour produire des rsultats de reconnaissance plus
performants et plus fiables. Ces points de vue peuvent se situer aussi bien au niveau des

63
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

donnes que des leurs traitements. Lintgration de ces points de vue bimodaux suit diffrents
modles sans couvrir cependant de manire complte les modes dinteraction formuls
prcdemment.

3.6.1 Les modles dintgration audio-visuelle de la parole

Nous avons vu prcdemment comment la parole peut tre considre comme bimodale.
De nombreuses tudes ont t menes pour rendre compte de la manire avec laquelle
interagissent les deux modalits audition et vision pour la comprhension de la parole. Ces
tudes menes tant par des psychologues, linguistes que par des ingnieurs, stendent sur
plusieurs domaines allant de la cognition, aux sciences de lingnieur en passant par la
neurophysiologie.
Ainsi, plusieurs modles ont t proposs. Mentionnons par exemple, le clbre modle
Fuzzy-Logical Model of Perception (FLMP) propos par (Massaro 1987, 1998). Les premiers
travaux se concentraient spcialement sur les architectures de fusion en considrant
arbitrairement des reprsentations internes monomodales (reprsentation visuelle seule et
auditive seule). Sur ces reprsentations, les diffrents travaux consistaient appliquer un
certain nombre de calculs afin de prdire la performance bimodale.
Dans ces tudes, le traitement de la reprsentation des informations des modalits est
souvent nglig. Schwartz et al. (1998); Schwartz (2002), en croisant des modles issus de la
psycho-physique et de la fusion des capteurs, ont class les modles dintgration
audiovisuelle en quatre grandes architectures : (i) modle Identification Directe not ID;
(ii) modle Identification Spare not IS ; (iii) modle Recodage dans la modalit
Dominante not RD; et (iv) modle Recodage commun des deux modalits sensorielles
vers la modalit Motrice not RM.
Pour simplifier la comprhension du systme dintgration audio-visuelle dans la
perception de la parole, nous pouvons le considrer comme une bote qui a en entre deux
flux de nature diffrente (vision et audio) et en sortie une dcision ou un code qui peuvent tre
de nature phontique ou lexicale. Le schma de la figure 3.3 illustre un tel systme.

64
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Figure 3.3 Le noyau dun processus dintgration audio-visuelle dans la perception de la parole
(daprs Schwartz et al. (1998)).

Dans la suite, nous survolerons rapidement les 4 architectures classiques de lintgration


audio-visuelle. En plus de les dfinir, nous donnerons des exemples raliss pour chacune de
ces architectures.

3.6.1.1 Modle ID

Dans ce modle, appel aussi modle donnes-vers-dcision, les deux sources


dinformation sont injectes directement dans un classifieur bimodal qui effectue le traitement
de linformation des deux modalits (figure 3.4). La classification se fait donc directement
sans aucun niveau intermdiaire de mise en forme commune des donnes. Le classifieur prend
une dcision dans lespace des caractristiques bimodales, dans lequel des prototypes
bimodaux ou des rgles de dcision bimodales ont t appris. Ce modle est une extension du
modle Lexical Access From Spectra (LAFS) de Klatt (1979) vers Lexical Access From
Spectra and Face Parameters .

Figure 3.4 Modle identification directe.

65
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Benot et al. (1996) ont implment le modle didentification directe pour la


reconnaissance audio-visuelle et ont valu les performances pour une grande plage de
rapport signal sur bruit. Ils injectent un vecteur dobservation audiovisuel dans un processus
de reconnaissance sappuyant sur les chanes de Markov Caches (HMM). Le vecteur
audiovisuel est obtenu en concatnant des paramtres acoustiques issus dune analyse
acoustique six paramtres gomtriques des lvres et leur drive. Dans une structure
semblable, limplmentation de Teissier et al. (1999) du modle ID implique un classifieur
Gaussien dans un espace de six dimensions. Le vecteur dentre bimodal de ce classifieur est
compos de six paramtres : trois paramtres acoustiques issus dune analyse en Composantes
Principales (ACP) et trois paramtres gomtriques du contour interne des lvres. Dans cette
implmentation, un paramtre supplmentaire est ajout dans le processus de fusion. Les deux
flux dentre audio et vido sont pondrs. Ceci permet ainsi de contrler les poids respectifs
de chaque entre conformment leur efficacit pour la dcision.
Potamianos et al. (2001c) ont propos une technique de fusion des flux visuel et auditif
en appliquant deux transformes lune aprs lautre. Ils utilisent tout dabord une Analyse
Discriminante Linaire (ADL, en anglais LDA pour Linear Discriminant Analysis) pour
rduire de faon discriminante les dimensions du vecteur concatn des caractristiques
audiovisuelles. Puis, une Transforme Linaire de Maximum de Vraisemblance (TLMV, en
anglais MLLT pour Maximum Likelihood Linear Transform) est applique pour amliorer la
modlisation des donnes.
Ces deux transformes sont aussi utilises pour prendre en compte linformation
dynamique dans les flux des donnes audio-visuelles avant la fusion. Les auteurs ralisent
ainsi un schma hirarchique dintgration audio-visuelle.

3.6.1.2 Modle IS

Le modle didentification spare (IS) est fond sur ce que les psychologues cognitifs
appellent intgration tardive du fait que lintgration vient aprs la classification
phontique dans chaque voie sensorielle spare par opposition au modle ID qui est une
intgration prcoce car sappliquant directement aux donnes. Dans le modle IS, les
informations visuelles et auditives sont traites sparment chacune par un classifieur. Puis, la
fusion des rsultats des deux classifieurs dans un module dintgration permet la
reconnaissance du code (voir figure 3.5).
Le modle IS est aussi appel dcision-vers-dcision en rfrence la caractristique de
base de la fusion qui est une fusion de dcisions. Dans ce type de modle, la fusion peut etre
66
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

ralise soit sur des valeurs logiques, linstar du modle VPAM (Vision-Place, Audition-
Manner) dans lequel chaque modalit est en charge dun groupe spcifique de caractristiques
phontiques (distinctives), soit par un processus probabiliste, comme dans le cas du modle
FLMP de Massaro (Massaro 1987, 1998).

Figure 3.5 Modle identification spare.

Adjoudani et Benot (1995) ont aussi implment le modle IS dans leur systme de
reconnaissance audiovisuelle. Ils ont utilis deux rseaux HMM acoustique et visuel spars.
Dans cette implmentation, chaque modle HMM est entran avec des donnes visuelles ou
acoustiques.
Les deux classifieurs fonctionnent ainsi indpendamment lun de lautre. En test, les
vecteurs dobservations visuels ou acoustiques sont prsents sparment lentre de chaque
modalit. Les auteurs prsentent ensuite trois mthodes pour le module dintgration. La
premire, utilise galement dans dautres tudes de reconnaissance de la parole audiovisuelle
(Movellan and Chadderdon 1996), consiste calculer le maximum des produits des
probabilits conjointes des deux modalits. En dautres termes, lintgration sappuie sur une
slection, pour chaque entit reconnatre (phonme, syllabe, mot ...), dun candidat qui
maximise la vraisemblance dans les deux canaux. Le schma synoptique de la figure 3.6
rsume le processus dintgration suivant ce principe.

Figure 3.6 Modle dintgration bas sur la maximisation des produits des probabilits conjointes
(Daprs Adjoudani (1998)).

67
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

La seconde mthode repose sur une slection du meilleur candidat dune des deux
modalits acoustique ou visuelle selon son degr de certitude (ou confiance). Ce dernier est
valu partir des probabilits de sortie de chaque modle HMM et sert commander un
interrupteur qui slectionne la voie ayant une plus grande certitude dans sa slection. Le
principe de cette mthode ne permet pas de fusionner les donnes provenant des deux canaux.
De ce fait, cette mthode ne peut tre considre comme une architecture dintgration. La
figure 3.7 illustre le principe de cette dernire.

Figure 3.7 Mthode de slection du meilleur candidat acoustique ou visuel (Daprs Adjoudani
(1998)).

La troisime mthode consiste intgrer les informations auditives et visuelles suivant


une pondration de chaque modalit en fonction de lindice de confiance (voir figure 3.6). Le
principe de cette mthode est identique au principe de la premire sauf quici les probabilits
sont pondres. Dabord, un indice est estim de la mme faon que dans la seconde mthode,
cest--dire partir des probabilits de sortie de chaque voie. Le rsultat de cette estimation
dfinit ensuite le coefficient normalis de pondration. Puis, en maximisant le produit des
probabilits pondres, un candidat est slectionn.

Figure 3.8 Architecture dintgration audiovisuelle par pondration (Daprs Adjoudani (1998)).

68
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

3.6.1.3 Modle RD

Dans ce type de modle, les informations visuelles sont codes dans un format
compatible avec les reprsentations de la modalit auditive qui est considre comme la
modalit dominante.
Un tel format peut tre la fonction de transfert du conduit vocal. Cette fonction de
transfert est estime sparment par un module de traitement du signal et par les indices
visuels partir des deux entres auditive et visuelle. Lestimation de la fonction de transfert
peut tre effectue par exemple par association partir de lentre visuelle et par un traitement
cepstral partir de lentre auditive. Les deux estimations sont ensuite fusionnes et
lensemble ainsi obtenu est prsent un classifieur phontique (voir figure 3.9). Il sagit l`a
dune fusion prcoce.

Figure 3.9 Modle recodage dans la modalit dominante.

Le recodage des informations visuelles dans lespace de la modalit acoustique (en un


spectre acoustique) est fait grce un rseau de neurones. Le spectre estim partir des
caractristiques visuelles est combin avec le spectre provenant de lanalyse acoustique pour
finalement obtenir le spectre audiovisuel. La combinaison des deux spectres est ralise en
pondrant chaque entre par un poids variant suivant le niveau de bruit de laudio. Le spectre
audiovisuel rsultant alimente ensuite un deuxime rseau de neurones pour enfin identifier la
voyelle produite. Cette implmentation a t adapte par Robert-Ribes et al. (1996) aux
voyelles du Franais avec quelques diffrences. En effet, le classifieur audiovisuel employ
par Robert-Ribes et al. (1996) est un classifieur gaussien tandis que le recodage de la modalit
visuelle en une reprsentation auditive est ralis par association utilisant des distances
euclidiennes.

69
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

3.6.1.4 Modle RM

Ce modle est inspir en partie de la thorie motrice de la perception de la parole


propose par Liberman et Mattingly (1985). Selon cette thorie, linformation phontique est
perue par un module spcialis dans la dtection des gestes planifis par le locuteur qui sont
le fondement des catgories phontiques. Dans ce type darchitecture, les deux entres sont
codes dans une nouvelle reprsentation commune dans lespace moteur avant dtre
classifies. Dans ce modle, le choix de lespace moteur est crucial pour lintgration. En
gnral, les paramtres du conduit vocal sont les plus choisis comme reprsentation
commune. Dans ce cas, partir de chaque entre, visuelle ou acoustique, les principales
caractristiques articulatoires sont estimes. Ensuite, la reprsentation finale est dfinie en
additionnant les deux projections avec une certaine pondration et elle est fournie au
classifieur pour la reconnaissance du code (voir figure 3.10).

Figure 3.10 Modle recodage dans la modalit motrice.

A notre connaissance, seuls Teissier et al. (1999) et Robert-Ribes et al. (1996) ont
propos une implmentation de ce type de modle. Dans limplmentation de Teissier et al.
(1999), qui a pour objectif la reconnaissance de voyelles du Franais, la transformation des
deux entres en reprsentation motrice est ralise par des associations linaires. Les auteurs
ont choisi comme espace moteur des caractristiques articulatoires reprsentes par trois
paramtres qui fournissent les corrlas articulatoires des dimensions darrondissement,
douverture-fermeture et davant-arrire : les coordonnes horizontale et verticale,
respectivement X et Y, du point le plus haut de la langue et ltirement, not A, du contour
interne des lvres. Le rglage des associateurs est obtenu en dfinissant ces trois paramtres
pour chaque voyelle dun corpus dapprentissage.

70
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Le paramtre A est mesur directement sur lentre visuelle. Par contre, les auteurs ont
utilis comme coordonnes X et Y des valeurs prototypiques provenant dun expert
phontique. La classification est ensuite ralise de la mme faon que pour le modle RD,
cest--dire avec un classifieur Gaussien.

3.6.2 Elments du choix dune architecture : thoriques et exprimentaux

Dans une tache de fusion de deux modalits, un des principaux problmes rside dans le
choix du modle dintgration le plus appropri. Suivant la perspective envisage,
modlisation des processus cognitifs ou reconnaissance de la parole, le modle retenu doit
rendre compte au mieux des donnes au niveau reconnaissance automatique. Dans ce sens,
Robert-Ribs (1995) propose une taxinomie mettant en correspondance les 4 modles
dintgration dcrits prcdemment avec les modles gnraux de la psychologie cognitive
(figure 3.11). Cette taxinomie sorganise autour de 3 questions :

1. Peut-on considrer, en fonction de linteraction entre les modalits, une


reprsentation intermdiaire commune? Sinon, cest un modle ID prconiser.
2. Dans le cas de lexistence dune reprsentation intermdiaire, lintgration est-elle
tardive ou prcoce pour accder au code? Une intgration est tardive quand elle suit
lintervention dun processus de dcodage ; cest--dire quil ya dabord extraction
des informations auditives et visuelles, puis fusion (cest le cas du modle IS). Dans
le cas o`u la fusion intervient au cur du processus dextraction de linformation,
lintgration est dite prcoce.
3. Si lintgration est prcoce, quelle forme prend le flux commun des donnes aprs
fusion? Plus prcisment, existe-t-il une modalit dominante susceptible de fournir la
reprsentation intermdiaire commune dans une architecture intgration prcoce
(cas du modle RD)? ou cette reprsentation est elle amodale (cas du modle RM) ?

Figure 3.11 Taxinomie des modles dintgration (daprs Robert-Ribs (1995)).

71
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Parmi les 4 architectures, les modles ID et IS sont ceux qui sont les plus frquemment
utiliss en reconnaissance de parole (Schwartz 2004). Les deux autres modles sont tr`es
rarement implments et ceci malgr le fait quils semblent tre les plus pertinents au regard
des donnes issues de la psychologie exprimentale. Cest prcisment ces donnes qui ont
conduit Schwartz et al. (1998) privilgier le modle RM.

3.6.3 Etudes comparatives

Dans cette sous-section nous passons en revue quelques tudes comparant les quatre
architectures dintgration.

3.6.3.1 ID vs. IS
Adjoudani (1998) rapporte plusieurs tudes menes dans le domaine de la reconnaissance
audiovisuelle de la parole, parmi lesquelles Robert-Ribs (1995); Movellan et Chadderdon
(1996), comparant les deux modles IS et ID. Il conclut que la grande partie de ces tudes
semblent avantager le modle IS (Duchnowski et al. 1995; Robert-Ribs et al. 1996 ; Silsbee
et Su 1996) tout en notant le statut quo entre ces deux modles relev dans dautres tudes
(Jourlin 1996 ; Silsbee et Su 1996). Lauteur a aussi procd, en tenant compte des rsultats
de ces tudes comparatives, un regroupement des avantages () et des inconvnients ()
de chacun de ces deux modles.

Modle ID

Modle facile implmenter: lobservation bimodale peut se former partir dune


concatnation des indices des deux modalits.
Possibilit de pondrer chaque canal condition de disposer dun corpus dapprentissage
de taille importante (Silsbee et Su 1996).
Modle ncessitant un corpus de taille relativement grande par rapport au modle IS
(Jacob et Snac 1996) car la taille des modles apprendre est plus importante.
Ncessit dune topologie identique des deux sources.
Conservation de la coordination temporelle entre les deux modalits durant la fusion.
Le problme de dphasage nest pas gr.
Apprentissage adapt chaque niveau du Rapport Signal sur Bruit (RSB) de lentre
acoustique (Silsbee et Su 1996).

72
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

Modle IS

Ncessit dun corpus moins important pour lapprentissage que pour le modle ID grce
au traitement spar de chaque modalit.
Les deux modalits ne demandent pas forcment davoir la mme architecture de
reconnaissance.
Le modle sapproche plus des hypothses faites sur la perception audiovisuelle (Robert-
Ribs 1995; Massaro 1996).
Capable de traiter lasynchronie: par exemple dans le cadre dun mot entre son tat initial
et final.
Le module dintgration peut tre complexe et dpendant du corpus.

Aprs avoir compar les modles IS et ID, Adjoudani (1998) a implment, comme nous
lavons vu prcdemment dans la section prcdente, ces deux modles et en a compar les
performances dans une tache de reconnaissance audiovisuelle de la parole avec un niveau de
bruit variant sur lentre auditive. Les rsultats obtenus montrent que malgr que le modle ID
amliore significativement les scores de reconnaissance quand lentre acoustique est bruite
(on passe de 3% en reconnaissance acoustique 33% en audiovisuelle pour la condition dun
RSB acoustique de -6 dB), lintgration reste encore non optimale. Par contre, avec une
pondration de chaque canal par son degr de confiance, le modle IS peut donner des
rsultats meilleurs.
Enfin, lauteur conclut que la complmentarit audio/ vision est mieux exploite en IS et
ceci grce au traitement spar des deux modalits, mme si dans ce cas la coordination
audiovisuelle semble perdue mais peut tre retrouve certains points dancrage.
Inversement, le modle ID exploite bien les covariations des entres visuelle et auditive mais
dans le cas ou lentre auditive est bruite la complmentarit entre lentre propre et lentre
attnue nest pas aussi prise en compte cause du traitement conjoint des deux sources.

3.6.3.2 RD vs. RM

Comme ces deux modles sont peu utiliss dans la reconnaissance audiovisuelle de la
parole, les comparaisons sont rares pour dterminer le plus performant des deux. Il est
important de rappeler que la diffrence entre ces deux modles est la nature de leur
reprsentation commune au niveau de la fusion. Le modle RD appliqu la fusion en parole
considre la modalit auditive comme dominante alors quelle peut ne pas ltre. De ce fait, la

73
Chapitre 3. De la reconnaissance acoustique la reconnaissance bimodale de la parole

complmentarit naturelle entre le son et limage est difficilement exploitable dans ce modle.
Robert-Ribs (1995), lun des rares implmenter les modles RD et RM, dmontre que le
modle RM est mieux adapt que le modle RD la structure de linformation audiovisuelle
et la complmentarit audio-visuelle.

3.7 Conclusion
Ce chapitre qui porte un aperu sur la reconnaissance automatique de la parole, a permis
de dgager les caractristiques du signal et lidentification de ses paramtres en vue de leur
utilisation en reconnaissance vocale. Divers modes de fonctionnement ont t voqu dans ce
chapitre tel que le mode monolocuteur et le mode multilocuteur.
Dans ce chapitre, nous avons galement dcrit un ensemble de modles dintgration
audiovisuelle. Cette intgration peut tre ralise avec quatre modles basiques : ID, IS, RD et
RM. Ces derniers peuvent tre classifis en deux grandes familles. La premire famille, fusion
de reprsentations, regroupe les modles sappuyant sur lentranement dun seul classifieur
appliqu sur un vecteur des reprsentations audio et visuelles concatnes, ou sur toute
transformation sur ce vecteur (modles ID, RM, RD). La seconde famille, fusion de dcisions,
regroupe des modles reposant sur une fusion des sorties de deux classifieurs monomodal. A
ces deux familles, une troisime famille, fusion hybride, peut tre considre, qui consiste
combiner deux modles des deux familles prcdentes. La comparaison entre les quatre
modles classiques semble plutt favoriser les modles ID et IS. Cependant, ces derniers ne
peuvent tre dpartags.
Dans notre travail, nous nous intressons la reconnaissance de la parole arabe en
utilisant les et les modles de Markov cachs de type gauche-droit. Pour pallier les
insuffisances des paradigmes utiliss dans le systme propos. Nous avons combin les
avantages des HMM et les algorithmes gntiques pour aboutir un modle hybride
GA/HMM qui offre plus de performances que les paradigmes classiques.
Dans le chapitre qui suit, nous exposons le fonctionnement des mthodes mentionnes
prcdemment ainsi leurs modle hybride propos.

74
Deuxime partie : Approches proposes
Chapitre 4. Moteur de reconnaissance GA/HMM

Moteur de reconnaissance
GA/HMM 4
Les modles de Markov cachs (HMM) sont des outils statistiques permettant de
modliser des phnomnes stochastiques. Ces modles sont utiliss dans de nombreux
domaines (Capp 2001) tels que la reconnaissance et la synthse de la parole, la biologie,
lordonnancement, lindexation de documents, la reconnaissance dimages, la prdiction de
sries temporelles, Pour pouvoir utiliser ces modles efficacement, il est ncessaire den
connaitre les principes.

Lamlioration de lapprentissage des HMM laide de mtaheuristique base de population


est lobjet de ce chapitre. Ce chapitre a donc pour objectif dtablir les principes, les notations
utiles et les principaux algorithmes qui constituent la thorie des HMM.

A cet effet, nous commenons ce chapitre en dfinissant de que sont les HMM leur principes,
et nous prsentons les algorithmes classiques des HMM : Forward, Backkward et de Viterbi.

4.1 Modles de Markov Cachs


4.1.1 Dfinition

Un modle HMM est dfini comme un ensemble dtats, chacun dentre eux associ
une distribution de probabilit (en gnral multidimensionnelle). Les transitions entre les tats
sont rgies par un ensemble de probabilits appeles probabilits de transition Dans un tat
particulier, un rsultat ou observation peut tre gnr conformment la distribution de
probabilit associe. Par opposition un modle de Markov classique ou ltat est directement
observable par un observateur externe, dans un modle HMM, ltat nest pas directement
observable et seulement des variables influences par ltat le sont. Les tats sont donc
cachs, dou le nom de modle de Markov cach.
Un HMM (reprsent dans la figure 4.1) est dfini par :

77
Chapitre 4. Moteur de reconnaissance GA/HMM

Figure 4.1 HMM 5 tats dont 3 metteurs.

N : le nombre dtats du modle. Les tats seront nots xi pour 1 i N


M : le nombre de symboles dobservation. Dans le cas ou les observations sont
continues, M est infini. Dans notre notation, les symboles dobservation de lalphabet
sont nots Y = {yj} pour 1 j M.
: le vecteur de probabilits initiales des tats. Concernant cet lment, un autre type
de HMM utilise des tats start et end et non une distribution dtats initiaux. Ce type
dHMM est notamment employ en bioinformatique.
A : la matrice de transition ou sont dfinies les probabilits de transition entre les tats.
Ces probabilits A = {aij} sont dfinies comme :
= = |1 = , 1 , (4.1)
avec xt dsigne ltat courant linstant t. Les probabilits de transition aij doivent
satisfaire les contraintes stochastiques :

0 =1 , 1 , (4.2)
B : la matrice de confusion (ou matrice dobservation) contenant les probabilits
dobservation (ou probabilits dmission) B = {bj(k)} associes aux tats. Ces
probabilits sont dfinies comme :
= = = , 1 , 1 (4.3)

avec vk dnote le keme symbole dobservation dans lalphabet, et yt le vecteur de


paramtres actuel (ou simplement observation actuelle) linstant t. Les probabilits
dobservation satisfont aussi les contraintes stochastiques. Dans le cas dobservations
continues, des densits de probabilits continues sont utiliser.

Pour dnoter un modle HMM le triplet = (, A, B) est gnralement utilis. Il est


important de noter que chaque probabilit dans la matrice de transition (de confusion) est

78
Chapitre 4. Moteur de reconnaissance GA/HMM

indpendante du temps. En dautres termes, les matrices ne changent pas dans le temps quand
le systme volue. En pratique, ceci est lune des suppositions les plus discutables des
modles de Markov propos des processus rels.
Dans la thorie des HMMs, des hypothses sont faites pour une docibilit mathmatique
et informatique :
Hypothse markovienne : concernant la dfinition des lments de la matrice de
transition A, la probabilit de transition vers un tat ne dpend que de ltat actuel et
non des tats rencontrs prcdemment. Ainsi, la squence des tats constitue une
chane de Markov simple.
Hypothse de stationnarit : comme nous lavons dj voqu, la matrice des
probabilits de transition est indpendante de lactuel temps, dans lequel les transitions
prennent place.
Mathmatiquement :
1 +1 = 1 = = 2 +1 = 2 = 1 2 , (4.4)
Hypothse dindpendance des sorties (observations) : lobservation courante est
statiquement indpendante des observations prcdentes. Mathmatiquement, cette
hypothse peut tre formule pour un HMM par :

1 , 2 , , , = =1 , . (4.5)

4.1.2 Utilisation et algorithmes

Une fois quun systme est dcrit comme un HMM, trois problmes doivent tre rsolus.
Les deux premiers sont des problmes quon peut associer la reconnaissance : dtermination
de la probabilit dune squence observe tant donn un HMM (cest le problme de
lvaluation); et, tant donn un modle HMM et une squence dobservations, dterminer
quelle squence dtats cachs dans le modle est la plus probable (cest le problme de
dcodage). Le troisime problme est la gnration dun HMM tant donn une squence
dobservations (cest le problme dapprentissage).

4.1.2.1 Evaluation et lalgorithme de Forward

Ce problme se pose notamment quand nous avons, par exemple, plusieurs HMMs
dcrivant diffrents systmes, et une squence dobservations. Nous voulons ainsi connatre

79
Chapitre 4. Moteur de reconnaissance GA/HMM

quel est le HMM ayant la plus forte probabilit davoir gnr cette squence. En dautres
termes, pour un modle = (, A, B) et une squence dobservations Y = y1, y2, ..., yT, nous
avons calculer la probabilit P(Y|). Un calcul de cette probabilit implique un nombre
doprations de lordre de NT. Heureusement, une autre mthode, ayant une complexit
infrieure, existe. Cette mthode utilise une variable intermdiaire appele variable avant ou
forward; dou le nom de lalgorithme Forward ( ou avant).
Algorithme Forward : Cet algorithme est utilis pour calculer la probabilit dune
squence dobservation de longueur T :
= , , , (4.6)
avec chaque y est un lment de lensemble observable. La variable intermdiaire () est
dfinie comme la probabilit de la squence dobservation partielle = , , , ,
qui se termine ltat i. Les probabilits intermdiaires (ou partielles) sont calcules de
manire rcursive en calculant premirement ces probabilits pour tous les tats t = 1.

1 = . 1 , 1 (4.7)

Ensuite, pour chaque instant, t = 2, ..., T, les probabilits partielles sont calcules pour
chaque tat par la relation rcursive suivante :


+1 = =1 , 1 , 1 1 (4.8)

Avec cette relation, nous pouvons alors calculer la probabilit intermdiaire linstant T pour
chaque tat j, . Et finalement, la somme de toutes les probabilits partielles linstant T
fournit la probabilit requise :


= =1 () (4.9)

Pour rcapituler, chaque probabilit partielle ( linstant t > 2) est calcule partir de tous
les tats prcdents. De faon similaire, nous pouvons dfinir une variable arrire ou
backward comme la probabilit de la squence dobservation partielle + , + , , ,
tant donn que ltat courant est i. Pour calculer les , il existe aussi, comme pour
les , une relation rcursive :

80
Chapitre 4. Moteur de reconnaissance GA/HMM


= =1 +1 + 1 , 1 , 1 1 (4.10)

Avec
= 1, 1 . (4.11)

Si nous cherchions un lien entre les deux variables intermdiaires et , nous


pouvons remarquer que :

= , = , 1 , 1 . (4.12)

Ainsi, la somme de ce produit donne une autre faon pour calculer la probabilit , tout
en utilisant les probabilits forward et backward :


= =1 , = = =1 , 1 (4.13)

4.1.2.2 Dcodage et lalgorithme de Viterbi

Le problme du dcodage se pose quand, tant donn une srie dobservations, nous
avons trouver la squence la plus probable des tats cachs dun modle HMM. Ce
problme est dautant plus intressant que dans plusieurs cas, les tats cachs du HMM
reprsentent quelque chose de non observable directement. Pour dterminer la squence des
tats cachs la plus probable, tant donn une squence dobservations, = , , , et
un HMM = (, A, B), lalgorithme de Viterbi est le plus utilis. Dans cette mthode, la
squence complte des tats avec le maximum de vraisemblance est trouve.

Algorithme de Viterbi : Lalgorithme peut se rsumer formellement de la faon suivante :

Pour chacun des tats, calcul par rcurrence de la variable intermdiaire :


= max (1 , 2 , , 1 , = , 1 , 2 , , 1 |) (4.14)
Le maximum tant calcul sur toutes les squences detats possibles1 , 2 , 1 . Ce
calcul se fait de manire rcursive en deux tapes :
Initialisation :
1 = . 1 , 1 (4.15)

81
Chapitre 4. Moteur de reconnaissance GA/HMM

Relation rcursive :
+1 = + 1 1 , 1 , 1 1 (4.16)
Calcul de , 1 j N, en utilisant cette dernire rcursion et en retenant toujours
un pointeur sur ltat lu dans une opration de maximisation.
Dtermination de ltat final du systme (t = T) le plus probable :
= 1 ( ) (4.17)
Suivi du chemin le plus probable en revenant en arrire, soit : Si on note :
= 1 (1 ) (4.18)
la squence dtat la plus probable peut tre trouve par :
= +1 (+1 ) (4.19)

Et en fin, la squence 1 , 2 , , est la squence la plus probable des tats cachs pour la
squence dobservation considre.

4.1.2.3 Apprentissage

Le troisime, et le plus difficile, problme associ aux HMMs est de prendre une
squence connue dobservations pour reprsenter un ensemble dtats cachs, et dobtenir le
HMM = (, A, B) qui est le modle le plus probable dcrivant ce qui est observ. En
dautres termes, dans plusieurs cas dapplications, le problme de lapprentissage concerne la
faon avec laquelle les paramtres du HMM sont ajusts, tant donn un ensemble
dobservations (appel ensemble dapprentissage). Les paramtres du HMM optimiser
peuvent tre diffrents dune application lautre. De ce fait, il peut y avoir divers critres
doptimisation pour lapprentissage, chacun dentre eux tant choisi selon lapplication
considre. Parmi ces critres, nous trouvons le critre du maximum de vraisemblance et de
lInformation Maximum Mutuelle (MMI pour Maximum Mutual Information). Nous nous
contentons ici de dcrire un seul algorithme permettant de gnrer les paramtres dun HMM
partir dune squence dobservations. Il sagit de lalgorithme de Baum-Welch avec un
critre de maximum de vraisemblance. Cet algorithme est aussi connu sous le nom de
Forward-Backward.

- Algorithme de Forward-backward : Cet algorithme est utilis quand les matrices A et B


dun HMM ne sont pas directement mesurables, comme cest souvent le cas dans plusieurs
applications relles. Plus formellement, on considre une unique squence dobservation =

82
Chapitre 4. Moteur de reconnaissance GA/HMM

, , , . Notre but est de trouver les paramtres = (A, B) qui maximisent la


probabilit de gnrer Y avec le modle. Formellement, les calculs doivent maximiser la
quantit :
, = (|, ) log (, , ) (4.20)

ou x dsigne un tat donn et le modle estim. Pour dcrire lalgorithme nous avons
dfinir deux variables intermdiaires : , = ( = , +1 = |, ) : la probabilit
dtre dans ltat i linstant t et dans ltat j linstant t+1. = ( = |, ): la
probabilit dtre dans ltat i linstant t tant donn la squence dobservation et le modle
HMM. Ces deux variables peuvent tre exprimes en fonction des variables forward, () et
backward, () dfinies prcdemment. Pour rsumer, lalgorithme peut tre dcrit de la
faon suivante :

Initialisation : Des paramtres arbitraires pour le modle sont choisis ; entre autre, les valeurs
de sont choisies alatoirement tandis que les variables A et B sont initialises. Par
exemple, les valeurs de A sont fixes priori et celles de B sont initialises par une
quantification vectorielle.
Itration :
Les variables A et B sont places leurs valeurs de pseudo-comptes.
Calcul des variables () et () pour chaque tat i, en utilisant respectivement les
algorithmes forward et backward.
En dduire les variables (, ) et () en utilisant les expressions suivantes qui les
lient aux variables forward et backward :

+1 (+1)
, = (4.21)
=1 =1 +1 (+1)

et

()
= () (4.22)
=1

De ces deux expressions, il facile de remarquer que :


= =1 (, ) (4.23)

83
Chapitre 4. Moteur de reconnaissance GA/HMM

Ltape suivante consiste actualiser les paramtres du HMM en utilisant ce quon


appelle les formules de r-estimation :

= 1 , 1 (4.24)


=1 (, )
= 1 , 1 (4.25)
=1

=1 (, )
= 1 , 1 (4.26)
=1

Lalgorithme est arrt si le changement de la log-vraisemblance est infrieur un seuil


prdfini ou si le nombre maximum ditration est atteint.

4.1.3 Diffrents types de modles HMM

Depuis le dbut de cette section, nous avons trait en gnral le modle HMM en
supposant quil est caractris par une matrice de transition des tats pleine ; cest--dire que
les transitions peuvent seffectuer partir de nimporte quel tat vers nimporte quel autre
tat. On parle ici de modle ergodique. Un tel modle est dfini comme un HMM tel que tous
les tats sont accessibles partir de nimporte quel autre tat. Pour certaines applications, il
est demand dimposer certaines contraintes sur la matrice de transition ; ce qui rend le
modle non ergodique.
Dans ce sens, la littrature nous donne deux exemples types de modles non-ergodique
largement employs (Rabiner and Juang 1993). Ces deux modles sont appels gauche-droite
du fait que la squence des tats produisant la squence dobservations doit toujours avancer
de ltat le plus gauche ltat le plus droite. Ils diffrent par le fait quun est un simple
gauche-droite dans lequel il y a quun seul chemin travers les tats, et lautre est un parallle
gauche-droite dans lequel il y a plusieurs chemins. Un modle gauche-droite (parallle ou
simple) impose une structure temporelle ordonne pour le HMM dans laquelle ltat numrot
avec un numro infrieur prcde toujours ltat avec un numro suprieur. La figure 4.2
illustre les trois structures HMM.

84
Chapitre 4. Moteur de reconnaissance GA/HMM

Figure 4.2 Trois types distincts de modles HMM. Illustration avec un exemple de HMM 4 tat
(daprs Rabiner et Juang 1993).

4.1.4 Rsum

Le modle de Markov cach est un outil statistique qui peut tre dfini quand les tats
dun processus ne sont pas directement observables, mais sont indirectement et
probabilistiquement observables comme un autre ensemble dtats. De tels modles,
appliqus dans des processus rels, imposent de rsoudre trois problmes :

Evaluation : avec quelle probabilit un modle donn gnre-t-il une squence


dobservations donne. Lalgorithme forward rsout efficacement ce problme.

Dcodage : quelle est la squence dtats cachs la plus probable qui gnre une
squence dobservations. Lalgorithme de Viterbi rsout ce problme.

Apprentissage : comment optimiser (apprendre) les paramtres dun modle HMM


partir dun chantillon donn de squences dobservations. Ce problme peut tre
rsolu en utilisant lalgorithme forward-backward.

Enfin, il est noter un dfaut habituel des modles HMM qui concerne la sur-
simplification associe lhypothse markovienne ; cest--dire quun tat dpend seulement
de ses prdcesseurs directs et que cette dpendance est indpendante du temps. Cependant,

85
Chapitre 4. Moteur de reconnaissance GA/HMM

les HMMs ont prouv leur grande valeur dans des systmes rels danalyse et restent lun des
outils les plus utilis en RAP.

4.2 Les algorithmes gntiques


4.2.1 Principe des algorithmes gntiques

Les AG proviennent de la modlisation de la thorie de lvolution de C. Darwin (Darwin


1859). Les AG sont des algorithmes doptimisation, ils font partie du cadre plus gnrale des
mtaheuristiques volutionnaires comprenant, entre autres, les AG (Holland 1975), les
stratgies dvolution (Beyer 2001) et la programmation volutionnaire (Fogel et al. 1966).
Une tude bibliographique trs riche a t prsente par Kicinger dans (Kicinger et al.
2005). Cette tude regroupe des travaux de recherche rcents dans le domaine de
loptimisation structurale par mthode volutionnaire, en particulier par AG.
Initialement dvelopps par Holland (1975), les AG sont devenus populaires partir de la
publication du livre Genetic Algorithms in search, optimization and machine learning de
Goldberg (1989). La forme canonique dun algorithme gntique est donne par :

Initialiser la population dindividus : P0


Evaluer les individus de la population P0
t=0
Rpter

Slectionner les individus pour la production :
1
Croiser les individus de :

Muter les individus de :

Slectionner les individus de conserver
Les individus slectionns forment de la population +1
t=t+1
Tant que condition darrt non vrifie

Le principe gnral du fonctionnement dun algorithme gntique est reprsent sur la


figure 4.3 : on commence par gnrer une population dindividus de faon alatoire. Pour
passer dune gnration k la gnration k+1, les trois oprations suivantes sont rptes pour
tous les lments de la population k. Des couples de parents P1 et P2 sont slectionns en
fonction de leurs adaptations. Loprateur de croisement leur est appliqu avec une probabilit

86
Chapitre 4. Moteur de reconnaissance GA/HMM

Pc (gnralement autour de 0.6) et gnre des couples denfants C1 et C2. Dautres lments P
sont slectionns en fonction de leur adaptation. Loprateur de mutation leur est appliqu
avec la probabilit Pm (Pm est gnralement trs infrieur Pc) et gnre des individus muts
P0. Le niveau dadaptation des enfants (C1, C2) et des individus muts P0 sont ensuite valus
avant insertion dans la nouvelle population.

Figure 4.3 Principe gnral des algorithmes gntiques.

Diffrents critres darrt de lalgorithme peuvent tre choisis :

Le nombre de gnrations que lon souhaite excuter peut tre fix priori. Cest ce
que lon est tent de faire lorsque lon doit trouver une solution dans un temps limit.
Lalgorithme peut tre arrt lorsque la population nvolue plus ou plus suffisamment
rapidement.

Nous allons maintenant dtailler chacun de ces points.

87
Chapitre 4. Moteur de reconnaissance GA/HMM

4.2.2 Description dtaille

4.2.2.1 Codage des donnes


Historiquement le codage utilis par les AG tait reprsent sous forme de chanes de bits
contenant toute linformation ncessaire la description dun point dans lespace dtat. Ce
type de codage a pour intrt de permettre de crer des oprateurs de croisement et de
mutation simples. Cest galement en utilisant ce type de codage que les premiers rsultats de
convergence thorique ont t obtenus.
Cependant, ce type de codage nest pas toujours bon comme le montrent les deux
exemples suivants :
deux lments voisins en terme de distance de Hamming ne codent pas
ncessairement deux lments proches dans lespace de recherche. Cet inconvnient
peut tre vit en utilisant un codage de Gray.
Pour des problmes doptimisation dans des espaces de grande dimension, le codage
binaire peut rapidement devenir mauvais. Gnralement, chaque variable est
reprsente par une partie de la chane de bits et la structure du problme nest pas
bien reflte, lordre des variables ayant une importance dans la structure du
chromosome alors quil nen a pas forcment dans la structure du problme.

Les AG utilisant des vecteurs rels (Goldberg 1991 ; Wright 1991) vitent ce problme
en conservant les variables du problme dans le codage de llment de population sans
passer par le codage binaire intermdiaire. La structure du problme est conserve dans le
codage.

4.2.2.2 Gnration alatoire de la population initiale

Le choix de la population initiale dindividus conditionne fortement la rapidit de


lalgorithme. Si la position de loptimum dans lespace dtat est totalement inconnue, il est
naturel de gnrer alatoirement des individus en faisant des tirages uniformes dans chacun
des domaines associs aux composantes de lespace dtat en veillant ce que les individus
produits respectent les contraintes (Michalewicz and Janikov 1991). Si par contre, des
informations priori sur le problme sont disponibles, il parait bien videmment naturel de
gnrer les individus dans un sous-domaine particulier afin dacclrer la convergence. Dans
lhypothse ou la gestion des contraintes ne peuvent se faire directement, les contraintes sont

88
Chapitre 4. Moteur de reconnaissance GA/HMM

gnralement incluses dans le critre optimiser sous forme de pnalits. Il est clair quil vaut
mieux, lorsque cest possible ne gnrer que des lments de population respectant les
contraintes.

4.2.2.3 valuation

A chaque solution, on associe une fonction performance fitness relie la valeur de la


fonction objectif. Cette fonction dcrit le mrite de lindividu qui est reprsent par un
chromosome. Lvaluation des individus en optimisation topologique des structures se fait par
une mthode danalyse numrique des structures, gnralement la mthode des lments finis.
La fonction performance est trs importante pour un AG au mme titre que le codage. En
effet, pour que les AG se comportent bien, nous devons trouver une manire de formuler des
fonctions performance ne comportant pas trop de maxima locaux et ne prsentant pas de
maximum local isol. La construction de la fonction performance est vidente pour certains
problmes. Pour les problmes de maximisation par exemple, la fonction mrite peut tre
gale la fonction objectif. Par contre, pour les problmes de minimisation, lobjectif est de
trouver des solutions pour lesquelles la fonction objectif atteint des valeurs minimales. Dans
ce cas, la fonction performance choisie est la rciproque de la fonction objectif. Dans tous les
cas, lAG cherche maximiser la fonction performance qui, dans le cadre dun problme de
minimisation, prend la forme suivante :
1
= (4.27)
( )

Ou ( ) reprsente la fonction objectif value pour lindividu .

Un choix classique de fonction objectif est la compliance. Ce choix se justifie pleinement


dans le cadre dune approche dterministe ou il est ncessaire de driver pour pouvoir
procder une analyse de sensibilit. Dans un AG, ou lapproche stochastique ne ncessite
pas de drivation, le choix de la compliance comme fonction objectif nest pas aussi vital.
Jakiela et ses collaborateur (Jakiela 2000) ont pos le problme doptimisation sous forme de
maximisation de la raideur de la structure en supposant que la raideur est inversement
proportionnelle au dplacement maximal de la structure :

1
= (4.28)
| |

89
Chapitre 4. Moteur de reconnaissance GA/HMM

La raideur ntant pas une grandeur diffrentiable, les mthodes dterministes ne sont
oprationnelles pour maximiser mrite dfinie par (1-10). En revanche, ce nest pas le cas
pour les mthodes stochastique, telles que les AG, qui sont exemptes de lanalyse de
sensibilit.

4.2.2.4 Gestion des contraintes

Un lment de population qui viole une contrainte se verra attribuer une mauvaise fitness
et aura une probabilit forte dtre limin par le processus de slection. Il peut cependant tre
intressant de conserver, tout en les pnalisant, les lments non admissibles car ils peuvent
permettre de gnrer des lments admissibles de bonne qualit. Pour de nombreux
problmes, loptimum est atteint lorsque lune au moins des contraintes de sparation est
sature, cest--dire sur la frontire de lespace admissible.
Grer les contraintes en pnalisant la fonction fitness est difficile, un dosage simpose
pour ne pas favoriser la recherche de solutions admissibles au dtriment de la recherche de
loptimum ou inversement. Disposant dune population dindividus non homogne, la
diversit de la population doit tre entretenue au cours des gnrations afin de parcourir le
plus largement possible lespace dtat. Cest le rle des oprateurs de croisement et de
mutation.

4.2.2.5 Principes de slection

A linverse dautres techniques doptimisation, les AG ne requirent pas dhypothse


particulire sur la rgularit de la fonction objectif. LAG nutilise notamment pas ses
drives successives, ce qui rend trs vaste son domaine dapplication. Aucune hypothse sur
la continuit nest non plus requise. Nanmoins, dans la pratique, les AG sont sensibles la
rgularit des fonctions quils optimisent. Le peu dhypothses requises permet de traiter des
problmes trs complexes. La fonction optimiser peut ainsi tre le rsultat dune simulation.
La slection permet didentifier statistiquement les meilleurs individus dune population
et dliminer les mauvais. On trouve dans la littrature un nombre important de principes de
slection plus ou moins adapts aux problmes quils traitent. Dans le cadre de notre travail,
les deux principes de slection suivants ont t tests et valus (Goldberg 1989):

Roulette wheel selection;


Stochastic remainder without replacement selection;

90
Chapitre 4. Moteur de reconnaissance GA/HMM

Le principe de Roulette wheel selection consiste associer chaque individu un segment


dont la longueur est proportionnelle sa fitness. On reproduit ici le principe de tirage alatoire
utilis dans les roulettes de casinos avec une structure linaire. Ces segments sont ensuite
concatns sur un axe que lon normalise entre 0 et 1. On tire alors un nombre alatoire de
distribution uniforme entre 0 et 1, puis on regarde quel est le segment slectionn. Avec ce
systme, les grands segments, cest--dire les bons individus, seront plus souvent adresss que
les petits. Lorsque la dimension de la population est rduite, il est difficile dobtenir en
pratique lesprance mathmatique de slection en raison du peu de tirages effectus. Un biais
de slection plus ou moins fort existe suivant la dimension de la population.
La Stochastic remainder without replacement selection vite ce genre de problme et
donne de bons rsultats pour nos applications. Dcrivons ce principe de slection :

Pour chaque lment i, on calcule le rapport ri de sa fitness sur la moyenne des fitness.
Soit e(ri) la partie entire de ri, chaque lment est reproduit exactement e(ri) fois.
La roulette wheel selection prcdemment dcrite est applique sur les individus
affects des fitness ri e(ri).

Compte-tenu du fait que des faibles populations seront utilises par la suite, ce principe
de slection savrera le plus efficace dans les applications pratiques et sera donc utilis par la
suite.

4.2.2.6 Oprateur de Croisement

Le croisement a pour but denrichir la diversit de la population en manipulant la


structure des chromosomes. Classiquement, les croisements sont envisags avec deux parents
et gnrent deux enfants.
Initialement, le croisement associ au codage par chanes de bits est le croisement
dcoupage de chromosomes (slicing crossover). Pour effectuer ce type de croisement sur des
chromosomes constitus de M gnes, on tire alatoirement une position dans chacun des
parents. On change ensuite les deux sous-chanes terminales de chacun des deux
chromosomes, ce qui produit deux enfants C1 et C2 (voir figure 4.4).
On peut tendre ce principe en dcoupant le chromosome non pas en 2 sous-chanes mais
en 3, 4, etc. (Bridges and Goldberg 1991) (voir figure 4.5). Ce type de croisement
dcoupage de chromosomes est trs efficace pour les problmes discrets. Pour les problmes
continus, un croisement barycentrique est souvent utilis : deux gnes P1(i) et P2(i) sont

91
Chapitre 4. Moteur de reconnaissance GA/HMM

slectionns dans chacun des parents la mme position i. Ils dfinissent deux nouveaux
gnes C1(i) et C2(i) par combinaison linaire :

1 = 1 + 1 2 ()
(4.29)
2 = (1 )1 + 2 ()

ou est un coefficient de pondration alatoire adapt au domaine dextension des gnes (il
nest pas ncessairement compris entre 0 et 1, il peut par exemple prendre des valeurs dans
lintervalle [0.5, 1.5] ce qui permet de gnrer des points entre, ou lextrieur des deux
gnes considrs).
Dans le cas particulier dun chromosome matriciel constitu par la concatnation de
vecteurs, on peut tendre ce principe de croisement aux vecteurs constituant les gnes (voir
figure 4.6) :

1 = 1 + 1 2 ()
(4.30)
2 = (1 )1 + 2 ()

Figure 4.4 Slicing crossover.

92
Chapitre 4. Moteur de reconnaissance GA/HMM

Figure 4.5 Slicing crossover 2 points.

Figure 4.6 Croisement barycentrique.

On peut imaginer et tester des oprateurs de croisement plus ou moins complexes sur un
problme donn mais lefficacit de ce dernier est souvent lie intrinsquement au problme.

4.2.2.7 Oprateur de mutation

Loprateur de mutation apporte aux AG la proprit dergodicit de parcours despace.


Cette proprit indique que lAG sera susceptible datteindre tous les points de lespace
dtat, sans pour autant les parcourir tous dans le processus de rsolution. Ainsi en toute
rigueur, lAG peut converger sans croisement, et certaines implantations fonctionnent de cette
manire. Les proprits de convergence des AG sont donc fortement dpendantes de cet
oprateur sur le plan thorique.

93
Chapitre 4. Moteur de reconnaissance GA/HMM

Pour les problmes discrets, loprateur de mutation consiste gnralement tirer


alatoirement un gne dans le chromosome et le remplacer par une valeur alatoire (voir
figure 4.7). Si la notion de distance existe, cette valeur peut tre choisie dans le voisinage de
la valeur initiale.

Figure 4.7 Principe de loprateur de mutation.

Dans les problmes continus, on procde un peu de la mme manire en tirant


alatoirement un gne dans le chromosome, auquel on ajoute un bruit gnralement gaussien.
Lcart type de ce bruit est difficile choisir a priori.

4.2.2.8 Partage (Sharing)

Le partage est un paramtre volu des AG (Goldberg and Richardson 1987). Il est utilis
pour vit le regroupement dindividus performants, et assurer une certaine diversit
gntique dans la population. Le principe consiste pnaliser les individus qui ont beaucoup
de voisins proches en divisant leurs performances sur une fonction dite de partage. Cette
dernire, dont la valeur est comprise entre 0 et 1, est calcule en fonction dun paramtre qui
mesure le degr de similarit entre les individus. La performance modifie pour un individu xi
scrit de la manire suivante :

94
Chapitre 4. Moteur de reconnaissance GA/HMM

( )
= (4.31)
=1 ( , )

Sh (Sharing) est la fonction de partage de d est la distance entre les individus qui exprime
le degr de similarit entre ces individus.
La technique de partage est souvent accompagne par une technique de regroupement
appel Clustering . Linformation fournie par la fonction de partage peut tre utilise pour
viter le croisement, inutile, entre les individus similaires.

4.2.2.9 Critres darrt de lalgorithme

Le test darrt joue un rle trs important dans le jugement de la qualit des individus. Il
existe trois types:

Arrt de lalgorithme aprs un certain nombre de gnrations.


Arrt de lalgorithme lorsque le meilleur individu na pas t amlior depuis un
certain nombre de gnrations.
Arrt de lalgorithme lorsquil y a perte de diversit gntique.

Ces valeurs sont paramtrer selon le temps disponible pour lexcution de l'algorithme,
la performance de la recherche de celuici et les conditions du problme rsoudre.

4.2.3 Avantages et dsavantages des algorithmes gntiques

Les algorithmes gntiques prsentent les avantages suivants : ce sont des mthodes
robustes linitialisation (c'est--dire que leurs convergences ne dpendent pas de la valeur
initiale), qui permettent de dterminer l'optimum global d'une fonctionnelle ou de sen
approcher, et qui sont paralllisables. En revanche leur inconvnient majeur rside dans le
nombre important d'valuations ncessaires et leur temps de convergence.
En revanche, les mthodes dterministes convergent rapidement vers un optimum.
Cependant, elles ne sont pas aussi robustes linitialisation que les algorithmes gntiques, ce qui
n'assure pas que l'optimum dtermin est un optimum global.

4.3 Moteur de reconnaissance GA/HMM


Dans ce travail, nous avons opt pour des modles statistiques : les HMM qui se sont
imposs comme une technique prdominante en reconnaissance de la parole ces dernires

95
Chapitre 4. Moteur de reconnaissance GA/HMM

annes (Kwong and Chau 1997 ; Shing-Tai et al. 2010). Nous avons utilis pour cette phase
en commun entre la reconnaissance acoustique et visuelle N HMM de type gauche-droite.
Lalgorithme de classification effectue une partition gographique dun nuage de points
(vecteurs acoustiques respectivement visuels) en diffrant classes en minimisant la distorsion
moyenne de lensemble, on utilisant pour cette tape la mthode de K-means la plus connue et
la plus utilise. La taille K du CodeBook est un paramtre crucial dont la valeur affecte en
grande partie les performances des HMMs utiliss pour la reconnaissance, car on le considre
que cest le nombre des mixtures.
Dans la phase dapprentissage en utilisant comme il est mentionn avant les HMM mais
cette fois combins avec les AG, cette algorithme va chercher obtenir des HMM optimales
(Patterson et al. 2002 ; Xue-ying et al. 2007 ; Goh et al. 2010), Le processus de formation d'un
modle = (A, B, ) Pour les donnes de rfrence en utilisant une mthode hybride
GA/HMM peut tre tire partir du diagramme ci-dessous:
Premirement on commence par crer une population de taille S, alatoirement, dune
faon que chaque individu contient n chromosomes pour les probabilits initiales, nn
chromosomes contiennent les probabilits de transition et nm chromosomes chacune
contient la probabilit dmission. Aucun individu nest marqu parent . Le codage de
chaque individu est comme suit :

1 N a1,1 a1,N a2,1 aN,N b1,1 b1,M b2,1 bN,M

Figure 4.8 Mthode de reprsentation des chromosomes dans lapprentissage des GA/HMMs.

Aprs nous appliquons sur chaque HMM de la population non marqu parent
lalgorithme de Baum-Welch partir de l'observation O.

Ltape suivante est de calculer pour chaque individu de la population qui ne porte pas la
marque parent la valeur de fitness (not aussi la fonction objective) on utilisant
lalgorithme de Baum-Welch, et noter la valeur de probabilit de l'observation. Pour tous ceux
qui portaient cette marque, lenlever. Mathmatiquement la fitness de n model est exprim
comme suit (Oudelha and Ainon 2010):

= (4.32)
=1

O, est la probabilit moyenne du model i, N est le nombre des individus dans une
population et M reprsente le nombre de vecteurs dans oi.

96
Chapitre 4. Moteur de reconnaissance GA/HMM

La probabilit moyenne est donc donne par lquation suivante:


=1 o i |i
= (4.33)

O P(o|) est la probabilit de vraisemblance.

La troisime tape est de slectionner parmi tous les individus de la population, un certain
nombre S<S, qui seront utiliss comme parents pour rgnrer les S-S autres individus non
retenus. La slection se ralise suivant les meilleurs scores calculs la phase 3. Chaque
individu slectionn est marqu parent .
Les oprations gntiques peuvent inclure croisement et par mutation. Lopration
gntique est ralise pour amliorer la technique de r-estimation de Baum-Welch pour que
les populations gntiques de cette opration rsultent un modle optimal (Prez et al. 2007 ;
Xue-ying et al. 2007 ; Oudelha and Ainon 2010).
A la fin on termine par lvaluation de la condition darrt, Si le nombre ditrations
maximum nest pas atteint, alors retourner la deuxime tape, sinon aller la dernire tape
qui vas renvoyer la meilleure HMM parmi la population en cours.
Un tel classifieur est bas sur un critre de maximum de vraisemblance, il prend le mot
reconnatre comme tant une squence dobservations discrtes (codes) produites par analyse
et quantification vectorielle de la squence de vecteurs de caractristiques. Ce classifieur
calcule la probabilit qui correspond la probabilit dobtenir la squence par le modle. Ces
probabilits sont values par la version logarithmique de lalgorithme de Viterbi. Finalement,
le mot test est affect la classe du mot K pour laquelle le modle maximise la probabilit
dmission.

4.4 Conclusion

Les modles de Markov cachs, prsents dans ce chapitre sont des techniques largement
utilises en reconnaissance de formes, et sont les plus utiliss en reconnaissance de la parole.
Ils bnficient dalgorithmes dentranement et dcodage performants.
Dans le chapitre suivant, nous prsentons, le principe et le fonctionnement de notre
systme de reconnaissance de la parole audiovisuelle propos en utilisant la mthode hybride
GA/HMM.

97
Chapitre 5. Description du systme propos

Description du systme propos


5
La spcification dun systme dintelligence artificielle utilisant des HMM peut
seffectuer en trois phases distinctes, mais interagissantes entre elles (voir figure 5.1). La
premire phase, que nous nommerons prtraitement par la suite, consiste en lensemble des
actions ncessaires la transformation des donnes en squences temporelles. La deuxime
phase, dite dapprentissage, consiste en la transformation de certaines des squences
construites en HMM, grce un algorithme dapprentissage, tel que ceux dcrits au chapitre
prcdent. La dernire phase, dite de post-traitement, consiste en lutilisation des HMM
produits en deuxime phase et de squences produites par la premire phase pour effectuer le
traitement. Les traitements pouvant tre raliss par un tel systme sont trs varis :
classification, segmentation, analyse, dcision,

Figure 5.1 Phases de spcification dun systme dintelligence artificielle utilisant des HMM.

La phase dapprentissage joue un rle central au sein dun tel systme mais, en pratique,
peu dattention lui est accorde dans le cas des HMM. Dans de nombreuses applications des
modles sous optimaux sont utiliss avec succs. Cependant, ces applications sappuient sur
des principes thoriques qui ne sont valables que lorsque les modles sont optimaux. Par
consquent, il est communment admis que des modles optimaux permettraient, du moins en
thorie, damliorer les performances du systme dintelligence artificielle.
La RAP sapplique ce jour sur de nombreux signaux de qualit diffrente (frquence
dchantillonnage, quantification, codage, conditions denregistrement). Nous rappelons que
la parole est lun des moyens les plus naturels par lequel des personnes communiquent. La
RAP a pour objet la transformation du signal acoustique en une squence de mots qui,

98
Chapitre 5. Description du systme propos

idalement, correspond la phrase prononce par un locuteur. Les systmes de


reconnaissance qui utilisent comme entre uniquement le signal acoustique atteignent leurs
limites surtout dans des cas de situations environnementales bruits donc relles. Dans ces
cas, lintgration de linformation visuelle dans le systme de reconnaissance peut constituer
une voie de solution (Rogozan 1999). A cet effet nous nous intressons la mise en uvre
dun systme de reconnaissance intgrant conjointement les deux informations acoustique et
visuelle de la parole se sont focaliss sur une interaction sensorielle de type fusion ou
intgration. A ce niveau, reste pose la question du ou et comment cette fusion des modalits
acoustique et visuelle se passe-t-elle chez lhomme. Pour rpondre cette question, il existe
plusieurs modles cognitifs qui diffrent de par leur lieu dintgration des informations en vue
de leur intgration. La RAP audiovisuelle est ne de lide que si lhomme exploite les
informations provenant du visage du locuteur pour amliorer lintelligibilit, la machine peut
en faire autant, si dune part le principe dintgration des deux modalits est suffisamment
bien connu, et si dautre part les informations visuelles sont exploites dune faon optimale
(Adjoudani and Benot 1995).
Dans ce chapitre nous dfinissons les diffrentes mthodes que nous utiliserons par la
suite dans la partie exprimentale.

5.1 Architecture de systme de reconnaissance par fusion audiovisuelle

Le systme AVASR comprend trois modules qui sont: le module de reconnaissance


acoustique, le module de reconnaissance visuelle et le module de fusion.
Le module de reconnaissance acoustique utilise lapproche stochastique base sur les
modles de Markov caches (HMM) qui sont un type particulier des rseaux baysiens. On
processus gnrique est bas sur trois phases qui sont : la para mtrisation du signal
acoustique utilisant dans notre cas lanalyse log RASTA-PLP (RelAtive SpecTral Analysis-
Perceptual Linear Predictive), lapprentissage des modles repose sur une recherche gntique
d'un bon modle parmi une population htrogne des HMM (contenant diffrentes
architectures) et une optimisation par un algorithme de gradient (Baum-Welch) et leur
dcodage sur lalgorithme de viterbi. Le module de reconnaissance visuelle utilise la mme
approche stochastique, il diffre uniquement par la phase de para mtrisation base elle sur la
DCT (Discrete Cosine Transform).

99
Chapitre 5. Description du systme propos

Quantification
Dtection Localisation Extraction vectorielle
de visage de la bouche des
Moteur de
paramtres reconnaissance
GA/HMM
vido dentre
Visual front end Intgration
Dcision
audiovisuelle
Moteur de
reconnaissance
Moteur
AG-HMM de
Extraction des paramtres reconnaissance
acoustiques GA/HMM

Quantification
vectorielle
Signal vocal

Figure 5.2 Systme dun AVASR mis en uvre.

La figure 5.2 prsente les diffrentes tapes dans les processus dapprentissage et de
reconnaissance du systme propos. Chacun des lments prsents sur cette figure sera
dtaille dans les prochaines sections.

5.1.1 Traitement visuel

Nous savons que les lvres vhiculent la majeure partie de linformation visuelle utile pour
la comprhension de la parole.
Les tres humains emploient linformation visuelle de faon subconsciente afin de
comprendre les paroles, particulirement dans des environnements bruyants, mais galement
quand les conditions acoustiques sont bonnes. Le mouvement des lvres du locuteur apporte
une srie dinformation importante. Leffet McGurk (McGurk and MacDonald 1976) apporte la
preuve en montrant que le cerveau, soumis des stimuli auditifs et visuels inconsistants,
peroit un son diffrent de celui qui a t dit.

5.1.1.1 Dtection de visage

La dtection des visages pose le problme de la localisation des visages prsents dans une
image d'entre. Idalement, la dtection fourni aussi leurs dimensions pour un ventuel
traitement ultrieur.

100
Chapitre 5. Description du systme propos

Tous les AVASR ncessitent l'identification et le suivi de la ROI, qui peut tre soit
seulement la bouche, ou une rgion plus vaste, comme tout le visage. Cela commence
gnralement par localisation de visage du locuteur, en utilisant un algorithme de dtection de
visage.
Une avance majeure dans le domaine a t ralise par (Viola and Jones 2001). Ces
derniers ont propos une mthode base sur l'apparence ("Appearance-based methods") rapide
et robuste. La renomme de cette approche se base essentiellement sur trois contributions:

Algorithme de Viola & Jones

Comme nous avons dj mentionns Viola et Jones ont propos une mthode base sur
l'apparence ("Appearance-based methods") robuste et tournant 15 fps pour des images de
384 x 288 pixels sur un pc Intel Pentium III 700Mhz. Ce fut la premire mthode en temps
rel prsente. La renomme de cette approche est faite sur trois concepts :

A. L'image intgrale

L'algorithme se base sur les caractristiques de Haar (Haar features) pour localiser les
visages prsents sur une image d'entre. Dans le but d'extraire rapidement ces caractristiques,
l'image est reprsente sous forme intgrale. En effet, sous cette forme, l'extraction d'une
caractristique n'importe quel endroit et n'importe quelle chelle est effectue en un temps
constant tandis que le temps de conversion vers la reprsentation intgrale ne remet pas en
cause ce gain de temps offert par l'utilisation de la reprsentation en image intgrale. La
dfinition des caractristiques de Haar et la manire dont la reprsentation intgrale acclre
considrablement leur extraction sont prsents ci-aprs pour une image en niveaux de gris.
Dans toute image, une zone rectangulaire peut tre dlimite et la somme des valeurs de
ses pixels calcule. Une caractristique de Haar est une simple combinaison linaire de
sommes ainsi obtenues.
Plusieurs caractristiques de Haar peuvent tre dfinies selon le nombre, les chelles, les
positions et les dimensions des zones rectangulaires considres. 4 exemples sont prsents
la figure 5.3.

101
Chapitre 5. Description du systme propos

Figure 5.3 Exemple de 4 caractristiques de Haar. La somme des valeurs des pixels appartenant aux
zones encadres claires est soustraite la somme des valeurs des pixels appartenant aux zones
encadres sombres pour obtenir la caractristique de Haar. Chacune des quatre caractristiques de
Haar est reprsente avec son cadre de dtection respectif.

L'image intgrale est reprsente mathmatiquement par :

, = , ( , ) (5.1)

0 < , 0 < . (5.2)

ou i(x, y) est l'image d'origine et i(x0, y0) l'image sous sa nouvelle reprsentation. Ainsi
chaque pixel a pour valeur la somme des valeurs des pixels compris dans le rectangle dfini
par le coin suprieur gauche de l'image et lui-mme.
Le calcul de la somme des valeurs des pixels appartenant une zone rectangulaire
s'effectue donc en accdant seulement quatre pixel de l'image intgrale : Soit un rectangle
ABCD dont les sommets sont nomms dans le sens des aiguilles d'une montre en commenant
par le sommet suprieur gauche et soit x la valeur sous la reprsentation intgrale d'un
sommet X du rectangle (X {A, B, C, D}). La somme des valeurs des pixels appartement
ABCD est, quelle que soit sa taille, donne par c - b - d + a. Une caractristique de Haar tant
une combinaison linaire de tels rectangles ABCD, son calcul se fait alors en un temps
indpendant sa taille.

B. Algorithme d'apprentissage bas sur Adaboost

Pour localiser les visages sur l'image d'entre, cette dernire est scanne par une fentre
de dimension dtermine. La fentre parcourt l'image et son contenu est analys pour savoir

102
Chapitre 5. Description du systme propos

s'il s'agit d'un visage ou non. Comme dit plus haut, les caractristiques de Haar sont extraites
pour effectuer la classification et de ce fait la reprsentation intgrale de l'image acclre
l'analyse. Mais, pour une fentre de 24x24 pixels il y a 45396 caractristiques de Haar, les
traiter toutes prendrait beaucoup trop de temps pour une application en temps rel. Pour
surmonter ce problme, une variante de la mthode de boosting Adaboost est utilise. Ci-
dessous Adaboost est brivement prsent suivi de sa variante qui constitue le deuxime
apport du travail de Viola & Jones.
Adaboost est une mthode d'apprentissage permettant de "booster" les performances d'un
classifieur quelconque nomm "classifieur faible". L'ide est de faire passer les candidats
classifier travers plusieurs classifieurs faibles, chacun tant entrain en portant plus
d'attention sur les candidats mal classifis par le classifieur prcdent.
Pour arriver ce rsultat des poids sont associs aux chantillons du set d'entrainement
((xi, yi) i = 1, ., m), tout d'abord de manire quilibre :

1
0 = (5.3)

pour i = 1, , m. Le 0 en exposant indique qu'il s'agit des poids initiaux.


Adaboost sert donc booster un classifieur dj existant et priori chaque classifieur faible
possde le mme espace d'entre. Dans la variante d'Adaboost de Viola & Jones, les
classifieurs faibles hj H ont pour entre une caractristique de Haar diffrente. Adaboost
s'apparente alors une slection de caractristiques (feature selection).
Cette variante d'Adaboost est utilise lors de l'apprentissage pour slectionner les
caractristiques de Haar les plus mme de dtecter un visage et permet ainsi de surmonter le
problme du nombre lev de caractristiques de Haar existant pour une fentre de recherche.

C. Cascade

L'ide de base derrire le concept de Cascade est que parmi l'ensemble des candidats,
c'est--dire l'ensemble des tats de la fentre de recherche, une partie peut tre limine sur
base de l'valuation de seulement quelques caractristiques de Haar. Une fois cette
limination effectue, les candidats restants sont analyss par des classifieurs forts plus
complexes (utilisant plus de caractristiques de Haar) demandant un plus grand temps de
traitement. En utilisant plusieurs tages de ce type, le processeur vite d'effectuer des
analyses lourdes en temps de calcul sur des chantillons pour lesquels il est rapidement

103
Chapitre 5. Description du systme propos

possible de se rendre compte qu'ils sont ngatifs. Le processus de classification apparait alors
comme une cascade de classifieurs forts de plus en plus complexes ou chaque tage les
chantillons classifis ngatifs sont sortis tandis que les chantillons classifis positifs sont
envoys aux classifieurs suivants. Ceci est reprsent la figure 5.4.
Si le premier tage rejette un faux ngatif, c'est un gros problme car il ne sera jamais
rcupr par la cascade. Autrement dit c'est un visage qui ne sera pas dtect. Par contre, si le
premier tage transmet un faux positif, il pourra toujours tre limin aux tages suivants de
la cascade. Ce petit raisonnement permet de mettre en vidence que les premiers nuds
constitutifs de la cascade peuvent se permettre d'avoir un taux de faux positifs levs (de
l'ordre de 40-50%) mais doivent absolument assurer un taux de dtection maximum.

Figure 5.4 Cascade de classifieurs forts. A chaque tage, uniquement les candidats classifis positifs
sont transmis l'tage suivant.

Ce concept permet donc l'algorithme de consacrer son temps de longues analyses


complexes uniquement lorsque cela en vaut la peine. Il s'agit nouveau d'un mcanisme qui
acclre la vitesse d'excution de la mthode propose par Viola & Jones.

5.1.1.2 Localisation de la bouche

Aprs la dtection de visage avec lutilisation de lalgorithme de Viola-Jones, il est


possible dextraire des zones partir de la gomtrie du visage trouv, o les points devraient
tre. Ces zones sont les entres relatives l'extraction de la ROI.
Au moment o il est excut en utilisant la teinte distincte des lvres. La lumire se
reflte sur les lvres et ce point est rcupr par une valeur de teinte dfinie. Contrairement

104
Chapitre 5. Description du systme propos

aux autres mthodes, cette mthode n'est pas indpendante de lumire, ainsi l'intensit et la
direction de la lumire peut influencer les rsultats (Pai et al. 2006).
Un visage humain typique suit un ensemble de normes anthropomtriques, qui ont t
utiliss pour affiner la recherche d'une caractristique faciale particulire pour des rgions
plus petites de visage. Nous utilisons les tapes gnriques suivantes pour la dtection des
caractristiques faciales et l'extraction partir de l'image du visage localise (Khandait et al.
2009):
1) Pour une image couleur, la convertir en image en niveaux de gris. Rglez l'intensit
des deux types d'images.

2) Appliquer projection horizontale pour trouver frontire gauche et droite de visage.


Appliquer projection verticale pour trouver la frontire suprieure et infrieure de
visage o trouver rgion d'intrt d'une image.

3) Trouvez le gradient de la ROI de l'image dtecte en utilisant Sobel / Prewitt oprateur


de dtection des frontires et ensuite prenez la partie infrieure du visage et prenez sa
projection verticale pour obtenir la bouche.

4) Dessiner zone rectangulaire sur la composante caractristique dtecte.

5.1.1.3 Extraction des paramtres visuels

Dans cette tude l'extraction des caractristiques vido est effectue avec le DCT
(Rodomagoulakis 2008). Il existe plusieurs types de caractristiques qui peuvent tre utilises
pour chiffrer les informations prsentes dans une image. Nous avons appliqu une version
modifie de la DCT qui utilise les donnes contenues dans une image pour la compresser. Par
exemple, la compression de l'image en format JPEG utilise cette mthode. La compression
des donnes disponible dans l'image permet de rendre le travail de l'algorithme
d'apprentissage plus facile. En plus la DCT est utilise dans le domaine d'authentification et
vrification du locuteur (Sanderson and Paliwal 2002). Cette tape se droule en deux phases :
La premire est la phase de dcoupage de l'image, rsultant de la phase de prtraitement, en
sous-images. Ensuite, la seconde phase qui est l'extraction de vecteurs de caractristiques
consiste appliquer la DCT. Ces tapes seront dtailles dans les paragraphes suivants.

105
Chapitre 5. Description du systme propos

5.1.1.3.1 Dcoupage de l'image

Le dcoupage de l'image consiste subdiviser l'image en entre en sous-images de


dimension fixe qui se chevauchent dans les deux directions, l'axe des y et l'axe des x. Le
dcoupage de l'image se passe de la manire suivante : la premire sous-image de dimension
N N pixel se trouve aux coordonnes (0, 0), (N, N) de l'image d'entre. La seconde sous-
image chevauche la premire sous- image d'une superposition de c pixels en direction de l'axe
des x. Donc, la seconde correspond la sous-image de coordonnes (N c, 0), (2N c, N). La
troisime sous-image a une superposition dans la direction de l'axe des y avec la premire
sous-image. La troisime correspond la sous-image de coordonnes (0, N - c), (N, 2N - c).
Cette procdure se rpte rcursivement jusqu' ce que toute l'image en entre soit traite. Le
rsultat d'un tel dcoupage est montr par la figure 5.4. Dans le cadre de ce projet, la
dimension des sous-images a t fixe 16 16 pixels avec une superposition de 8 pixels.

Figure 5.4 Dcoupage de l'image de l'histogramme.

5.1.1.3.2 Extraction de caractristiques

La phase d'extraction de caractristiques prsente un passage de l'image du domaine


spatial au domaine frquentiel. Comme mentionn au dbut de ce chapitre, nous avons choisi
d'utiliser la DCT. Cette mthode consiste prsenter chaque image comme une matrice de
vecteurs ou chaque vecteur correspond une sous-image rsultant d'un dcoupage rgulier de
l'image. Ces vecteurs sont des coefficients qui correspondent des combinaisons linaires de
fonctions cosinusodales, ces fonctions sont la base du domaine frquentiel.

106
Chapitre 5. Description du systme propos

Plus formellement, tant donne une image qui est prsente par une matrice de sous-
images de dimension N N, ces sous-images sont le rsultat du dcoupage prcdemment
expliqu. Pour chaque image I un vecteur de DCT est extrait. DCT transforme chaque
composante de couleur en coefficients DCT en utilisant lquation suivante (Gupta and Garg
2012):

1 2+1 2 +1
, = () =1 =1 , cos cos (5.4)
2 2

avec,

- u est la frquence spatiale horizontale,

- v est la frquence spatiale verticale,

- f(x, y) est la valeur de pixel aux coordonnes (x, y),

- F(u, v) est le coefficient de DCT au point de coordonnes (u, v), elle est dimensionne de
MN, et () est dfinis comme suit:

1
, =1
= 2
(5.5)
1 , ;

Cette matrice DCT(I) est une matrice des coefficients qui est dfinie l'aide de fonctions
cosinusodales. Ces fonctions constituent la base du domaine frquentiel. La figure 5.5
prsente ces fonctions de base deux variables v, u = 0, 1, 2, , 7.

107
Chapitre 5. Description du systme propos

Figure 5.5 Exemple de fonctions de base de DCT qui forme le domaine frquentiel.

Afin d'obtenir un vecteur DCT qui est la transforme d'une sous-image I donne, le
parcours en zigzag est appliqu la matrice DCT(I). La figure 5.6 montre l'ordre dans
laquelle la matrice DCT(I) est parcourue selon le parcours en zigzag.

Figure 5.6 Parcours en zigzag d'une matrice de dimension 8 8.

Les informations les plus importantes pour reprsenter l'image se trouvent dans les
premiers coefficients. En utilisant uniquement les premiers coefficients et la transformation
DCT inverse, il est possible de rgnrer une image ayant presque le mme rendu visuel que

108
Chapitre 5. Description du systme propos

la sous-image I d'origine. Gnralement, la diffrence entre les deux images est totalement
imperceptible. Afin de compresser les informations l'aide de la DCT, une sous-image est
prsente l'aide des M premiers coefficients de vecteur DCT.

5.1.2 Traitement acoustique

Afin de pouvoir reconnatre le contenu dun signal de parole correctement, il est


ncessaire den extraire des paramtres caractristiques et pertinents pour la reconnaissance.
Le signal de parole n'est pas directement utilisable cause de sa grande complexit (grande
diversit d'information) et de son caractre redondant. Le but de la paramtrisation est
d'extraire l'information pertinente pour la tche propose.
La premire tape de la paramtrisation acoustique consiste dcouper le signal de parole
en fentres de taille fixe (variable de 20 ms environ 40 ms) reparties de faon uniforme le
long du signal (toutes les 10 ms). La taille des fentres est choisie en considrant que les
proprits du conduit vocal peuvent tre considres comme invariables sur une petite dure
gale la taille de la fentre. Le signal audio est donc considr comme stationnaire sur la
dure de la fentre. Pour ce faire, plusieurs techniques danalyse du signal et dextraction de
paramtres peuvent tre utilises, mais dans le cadre de cette tude, seuls les paramtres
acoustiques issus de systmes de RAP de type nergie en sous-bande et de type RASTA-PLP
seront utiliss. Lespace de reprsentation du signal de parole ainsi obtenu est muni dune
mesure de distance euclidienne adapte ces paramtres acoustiques. Cette mesure de
distance est utilise comme critre de similarit au sein de lalgorithme de comparaison du
systme de RAP considr. Lextraction de paramtres acoustiques diffrents est un lment
essentiel de cette thse.

5.1.2.1 Analyse RASTA-PLP

Afin daugmenter la robustesse des paramtres PLP, on peut envisager lanalyse spectrale
relative RASTA (RelAtive SpecTrAl), prsente par (Hermansky and Morgan 1994) comme
une faon de simuler linsensibilit de lappareil auditif humain aux stimuli variation
temporelle lente. Cette technique traite les composantes de parole non linguistiques, qui
varient lentement dans le temps, dues au bruit convolutif (log-RASTA) et au bruit additif (J-
RASTA). En pratique, RASTA effectue un filtrage passe-bande sur le spectre logarithmique
ou sur le spectre compress par une fonction non linaire. Lide principale est de supprimer
les facteurs constants dans chaque composante du spectre court-terme avant lestimation du

109
Chapitre 5. Description du systme propos

modle tout-ple. Lanalyse RASTA est souvent utilise en combinaison avec les paramtres
PLP (Hermansky and Morgan 1994). Les tapes dune analyse RASTA-PLP sont dcrites
dans la figure 5.7. Les tapes grises sont celles qui font la spcificit du traitement RASTA.
La diffrence entre RASTA et J-RASTA se situe au niveau du logarithme (4me tape) : ln(x)
pour RASTA et ln(1 + Jx) pour J-RASTA.

Figure 5.7 Analyse RASTA PLP.

Utilisation des drives premires et secondes

Dans les systmes de reconnaissance actuels, il est trs courant de complter un jeu de
paramtres par les drives premires () et secondes () de ces paramtres. Les drives
permettent dinclure des caractristiques dynamiques des paramtres acoustiques (vitesse et
acclration). Le calcul des drives se fait sur des fentres centres sur la trame analyse, ce
qui assure la cohrence des informations prsentes dans le vecteur. Lutilisation de ces et
est prcisment un cas de concatnation de paramtres acoustiques. Une mthode de
combinaison complte de modles utilisant un jeu de paramtres (PLP), les et les de ces
paramtres est prsente dans (Misra et al. 2003). Chaque type de paramtres (statiques, et
) sont combins de toutes les manires possibles pour former 7 jeux de paramtres
acoustiques utiliss pour apprendre 7 modles acoustiques diffrents, dont les probabilits
sont ensuite combines.

5.1.2.2 La quantification vectorielle

La quantification scalaire consiste reprsenter une valeur d'un chantillon de signal pas
forcement audio avec une prcision rduite, par exemple la reprsenter avec une valeur

110
Chapitre 5. Description du systme propos

appartenant un ensemble plus petit que l'ensemble original. C'est le cas typique de la
conversion analogique/digitale.
Lorsque ce principe est appliqu par bloc d'chantillons (vecteurs), on peut parler de
quantification vectorielle. La quantification vectorielle est alors une gnralisation de la
quantification scalaire. Mais, pendant que la quantification scalaire est dans sa forme la plus
simple juste une conversion analogique/digitale, la quantification vectorielle est une mthode
de codage/compression puissante. Elle est souvent utilise dans les tlcommunications pour
le codage de la source, ou dans la compression des donnes notamment dans la compression
des images. Elle est aussi un puissant outil de classification. La quantification vectorielle est
dfinie par un doublet : un ensemble de vecteurs reprsentatifs appels mots = 1 2
qui forme un dictionnaire (codebook en anglais) et un critre de distorsion d (.,.) (Voir la
figure 5.8).

Figure 5.8 Distribution de probabilits, un chantillon de points associs, et un dcoupage en


nuages (clusters).

Lalgorithme k-means est lalgorithme de clustering le plus connu et le plus utilis, du


fait de sa simplicit de mise en uvre. Il partitionne les donnes dun signal en K clusters.
Contrairement dautres mthodes dites hirarchiques, qui crent une structure en arbre de
clusters pour dcrire les groupements, k-means ne cre quun seul niveau de clusters.
Lalgorithme renvoie une partition des donnes, dans laquelle les objets l'intrieur de chaque
cluster sont aussi proches que possible les uns des autres et aussi loin que possible des objets
des autres clusters. Chaque cluster de la partition est dfini par ses objets et son centrode. Le
k-means est un algorithme itratif qui minimise la somme des distances entre chaque objet et
le centrode de son cluster. La position initiale des centrodes conditionne le rsultat final, de
sorte que les centrodes doivent tre initialement placs le plus loin possible les uns des autres
111
Chapitre 5. Description du systme propos

de faon optimiser lalgorithme. Cette mthode change les objets de cluster jusqu' ce que la
somme ne puisse plus diminuer. Le rsultat est un ensemble de clusters compacts et
clairement spars, sous rserve qu'on ait choisi la bonne valeur K du nombre de clusters. Les
principales tapes de lalgorithme k-means sont :
1. Choix alatoire de la position initiale des K clusters.
2. (R-) Affecter les objets un cluster suivant un critre de minimisation des distances
(gnralement selon une mesure de distance euclidienne).
3. Une fois tous les objets placs, recalculer les K centrodes.
4. Ritrer les tapes 2 et 3 jusqu ce que plus aucune raffectation ne soit faite.

5.1.3 Moteur de reconnaissance GA/HMM

Apprendre un HMM cest ajuster les paramtres du modle de manire maximiser un


certain critre. Diffrents critres sont disponibles dans la littrature. Nous nallons pas tous
les recenser, mais nous allons prsenter une des plus importants et les plus couramment
utiliss (Makhlouf et al. 2016).
Les GA constituent une large famille dalgorithmes statistiques, dvelopps par (Holland
1983) et approfondis par (Goldberg 1999). Nous tudions ici comment une recherche de
gradient l'algorithme de Baum-Welch (BW) peut tre combine avec des GA afin
d'apprendre les HMM. Trois cooprations possibles entre les deux algorithmes sont tudies,
le GA peut tre utilis pour trouver un meilleur point de dpart pour la recherche de gradient.
Finalement, dans la mthode GA/HMM, le GA recherche automatiquement les trois
probabilits, pour plus de dtailles voir chapitre 4.
Pour mmoire, nous rappelons que loprateur de mutation consiste modifier chaque
coefficient de chaque modle avec la probabilit Pm et que loprateur doptimisation consiste
appliquer NBW itrations de lalgorithme de Baum-Welch chaque individu.

5.1.4 La fusion audiovisuelle

Lobjectif dun systme de reconnaissance audio visuelle est de combiner au mieux les
performances de deux systmes audio et vido afin damliorer les performances de
reconnaissance de la parole, en particulier en prsence de bruit. Classiquement, on distingue
deux types de fusion: la fusion des paramtres et la fusion des scores.

112
Chapitre 5. Description du systme propos

5.1.4.1 Fusion des paramtres

Cette fusion est ralise au moment de la paramtrisation des signaux audio et vido. Une
fois les paramtres de chaque modalit sont extraits, les vecteurs audio oA et vido oV de

dimension dA et dV respectivement, sont concatns chaque instant t pour ne former quun

seul vecteur de paramtres audio visuels de dimension dA + dV . Dans les tapes suivantes de
la chane de reconnaissance de la parole (estimation des paramtres, dcodage, valuation),
aucune modification nest ncessaire.

5.1.4.2 Fusion des scores

La fusion de scores ou de dcision est possible lorsque lon dispose de systmes spars
(ici, audio et vido) et que leur fusion est ralise au moment de la dcision, par combinaison
de leurs scores respectifs. Des poids diffrents peuvent tre affectes chaque systme (ou
parties de ces derniers) afin de privilgier lune ou lautre des deux modalits. Dans le cas de
systme de reconnaissance ou les units sub-lexicales (de type phone, par exemple) sont
modlises par des HMM et GA/HMM, cette fusion peut avoir lieu diffrents niveaux qui
sont ltat ou le phone ou le mot ou encore la phrase. Lorsque la fusion est effectue chaque
tat, elle est dite synchrone, sinon elle est asynchrone.
Plusieurs stratgies de fusion de dcision ont t tests (produits, des sommes, minimum,
maximum, vote ...) et tout montrer une amlioration significative des rsultats par rapport la
considration d'une seule modalit, qui nous mener se concentrer dans ce travail sur
l'utilisation du le modle de la fusion spare, c..d. la fusion des scores provenant de chaque
reconnaisseur GA/HMM. Leurs jeux de log-vraisemblance peuvent tre combins en utilisant
les pondrations qui refltent la fiabilit de chaque flux particulier, les scores combins
prennent alors la forme suivante (l'islam et Rahman 2010):

log (oAV |) = log (oA |A ) + log (oV |V ) (5.6)

O A et V sont les GA/HMMs acoustique et visuels respectivement et log (oA |A ) et


log (oV |V ) sont leurs log-vraisemblance. La fiabilit de chaque modalit peut tre calcule
par le plus appropri et le meilleur dans la performance (l'islam et Rahman 2010), la
diffrence moyenne entre le log-vraisemblance maximum et les autres, peut tre trouv par :

1
= =1 log (o|j ) + log (o|i ) (5.7)
1

113
Chapitre 5. Description du systme propos

O C est le nombre de classes tant considr pour mesurer la fiabilit de chaque modalit et
, . Aprs cela, nous pouvons calculer le poids d'intgration de la fiabilit audio A
mesur par:

= (5.8)
+

O et sont la mesure de fiabilit des sorties des GA/HMM acoustique et visuelle


respectivement, et le facteur de pondration de la modalit visuelle peut tre trouve par la
relation:
wA + wV = 1 for 0 < wA, wV <1 (5.9)

Le poids W permet de donner plus dimportance une modalit ou lautre. Pour chaque
systme, W peut tre choisi constant ou variable. Gnralement, il dpend du rapport signal
bruit. Des travaux dans (Makhlouf et al. 2013a) montrent que les performances du systme de
reconnaissance audio visuelle sont meilleures pour un paramtre W dynamique.

5.2 Conclusion
Nous avons dcrit, dans ce chapitre notre systme propos de reconnaissance de la parole
audiovisuelle. Ainsi, nous avons abord la fusion dinformations acoustiques et visuelles pour
la RAP.
Nous nous intressons dans le chapitre suivant la description du systme de
reconnaissance audiovisuelle ralis base des HMM, et le modle hybride GA/HMM.
Egalement, la mise en uvre de systme qui a t appliqu sur deux corpus audiovisuels
diffrents.

114
Chapitre 6. Ralisation

Ralisation
6
Comme tout modle qui doit tre expriment, le prsent chapitre constitue un cadre
dexprimentation et dargumentation du chapitre prcdent.
Nous allons prsenter dans ce chapitre les exprimentations que nous avons menes pour
aller vers une collaboration des processus de reconnaissance automatique de la parole et de
reconnaissance visuelle de la parole.
Nous prsentons prsent les diffrents tests que nous avons effectus afin danalyser les
mrites des mthodes retenues dans le chapitre prcdent. Les plus performantes seront
valides par comparaison avec des algorithmes dapprentissage classiquement utiliss dans la
littrature.

6.1 Architecture gnral du systme de reconnaissance

Dans nos exprimentations nous valuons la performance des modles audio-visuels


HMM appris en utilisant les GA par rapport l'apprentissage standard des HMM en utilisant
une estimation du maximum de vraisemblance (EM).
Comme l'a fait remarquer (Alpaydin 2004), nous devons toujours garder l'esprit
que les conclusions que nous tirons de l'analyse est conditionne par l'ensemble de donnes.
Ainsi, nous ne comparons pas les modles et les algorithmes d'apprentissage d'une manire
indpendante de domaine. Tout rsultat nous prsentons n'est valable que pour l'application
particulire de AVASR et pour l'ensemble de donnes utilis. Comme indiqu dans le Non
djeuner thorme de gratuit (Wolpert and Macready 1997) il n'y a pas une telle chose comme
le "meilleur" algorithme d'apprentissage en gnral. Pour n'importe quel algorithme
d'apprentissage, il y aura un ensemble de donnes o il est trs prcis et une autre ou il est trs
faible. Ainsi, nos rsultats ne sont valables que pour l'application particulire dAVASR et en
particulier pour les corpus de donnes que nous avons choisis. Ces corpus de donnes sont
discuts par la suite.
Dans notre travail nous allons appliquer lalgorithme de clustering K-means sur les BDD
audiovisuelles CUAVE et notre propre BDD arabe (AVARB), les rsultats de cette opration
seront en suite introduits au HMM pour faire lapprentissage. Afin daugmenter la
performance du systme de reconnaissance propos, nous avons utilis une nouvelle mthode
base sur lhybridation des deux paradigmes HMM et GA.

115
Chapitre 6. Ralisation

Pour raliser ce systme de reconnaissance, il fallait :

Dtection de visage et Localisation des lvres dans les scnes vido en utilisant la mthode
Viola-Jones.
Extraction de paramtres acoustiques avec la mthode RASTA-PLP.
Extraction de paramtres visuels avec la mthode DCT.
Raliser une quantification vectorielle et dgager des classes, en utilisant lapproche
suivante : K-means.
Phase dapprentissage en utilisant les modles HMM, et GA/HMM.
Comparaison des taux de reconnaissance obtenus pour tirer la mthode la plus performante
de reconnaissance.

116
Chapitre 6. Ralisation

Signal Quantification
vidos
acoustique vectorielle

Acquisition
Rsultat

Fichiers signaux/
vidos Apprentissage

Dtection visages /
localisation ROI HMM AG/HMM

Analyse Analyse du
visuelle signal
Evaluation

Paramtres Paramtres
visuels acoustiques Intgration
audiovisuelle

Bases de donnes

Evaluation

Choix de la base

Lapproche la plus intressante

Base CUAVE Base AVARB

Figure 6.1 Architecture gnrale du systme propos.


117
Chapitre 6. Ralisation

6.2 Base de donnes utilise


6.2.1 Les bases de donnes audiovisuelle arabe

Dans notre travail nous avons utilis notre propre base de donnes audiovisuelle de parole
arabe : cette base de donnes multi-locuteurs a t enregistre dans un milieu rel (une salle de
cours trs bruyante), Nous visons de plus la diversit des donnes pour un apprentissage bien
amlior, les vidos sont captures La une distance moyenne gale 16.5 cm avec une
rsolution de 690450 pixel et 30 trames/sec et avec des variations de pose (vue de profil, de
face) pour un ensemble de 18 locuteurs (16 garon et 2 filles) sauvegardes avec lextension
.avi , alors que les fichiers audio sont sauvegard avec lextension .wav , lchantillonnage
standard aprs des testes raliss au sein de notre laboratoire est 16 KHz MONO ( un canal
unique) car il est optimal de calculer les coefficients issus dun signal acoustique paramtres
unique.
Notre base AVARB contient 2 corpus, le premier corpus contient des prononciations des
chiffres arabes isols (de zro (0) neuf (9)), alors que le deuxime corpus contient un ensemble
commandes en arabe (25 mots), comme il est illustr dans le tableau 6.1 :

Corpus chiffre Corpus commandes

code Prononciation Ecriture glossaire code Prononciation Ecriture Glossaire


arabe franais arabe franais

1 Siffer Zro 1 Marhaban Bienvenue


2 Wahed Un 2 Ebdaa Dmarrer
3 Ithnani Deux 3 Iqaf Arrter
4 Thalatha Trois 4 Eftah Ouvrir
5 Arbaa Quatre 5 Arliq Fermer
6 Khamssa Cinq 6 Takbir Agrandir
7 Sitta Six 7 Tasrir Rduire
8 Sabaa Sept 8 Tashril Fonctionnement
9 Thamania Huit 9 Elraa Annuler
10 Tissaa Neuf 10 Bahth Recherche
11 Ekhtiyar Slection
12 Aaouda Retour
13 Edhar Affichage
14 Qaima Liste
15 Mouafiq Accepter

118
Chapitre 6. Ralisation

16 Doukhoul Se connecter
17 Khourouj Quitter
18 Nasskh Copier
19 Qass Couper
20 Lasq Coller
21 Tarjama Traduire
22 Khasaiss Proprits
23 Tatbiq Application
24 Tenfid Excution
25 Tahmil Chargement

Table 6.1 Notre deux corpus proposs de chiffres et commandes arabes.

Les locuteurs sont de diffrentes rgions dialectes algriennes, et chaque locuteur prononce
chaque mot 9 fois avec diffrentes modes de prononciation (normal, lente, et rapide). Dans notre
corpus basic qui contient que des mots isols, la taille de chaque enregistrement est 2 secondes
qui est un temps suffisant pour prononcer un mot lentement en arabe. La figure suivante montre
quelques trames de notre base AVARB :

Figure 6.2 quelques exemples de trames de notre base audiovisuelle AVARB.


119
Chapitre 6. Ralisation

6.2.2 La base de donnes CUAVE

Elle se compose de 36 locuteurs, 19 hommes et 17 femmes, poussant chiffres isols et


continue. Les vidos des orateurs sont enregistres en profil frontal, et pendant le mouvement. La
base de donnes CUAVE contient environ 3 heures de parole enregistres par une camra Mini
DV. La Vido a ensuite t compresse en MPEG-2 fichiers (audio stro un taux
d'chantillonnage 44 kHz, 16-bit). Il comprend galement des fichiers audio vrifis pour la
synchronisation (taux de mono de 16 kHz, 16-bit) et des fichiers d'annotation (Patterson et al.
2002).

Figure 6.3 Exemples de trames de la base CUAVE.

6.3 Validation du systme


Une tape importante et trs consommatrice en temps de dveloppement d'un systme de
transcription est l'exprimentation. Il s'agit de tester les diffrents modules du systme pour
ajuster leurs paramtres. De bonnes valeurs de paramtres peuvent apporter beaucoup au niveau
du taux de reconnaissance. Chaque module a ses propres paramtres et il est ncessaire de les
ajuster de faon plus ou moins optimale. Ajuster les paramtres de tous les modules en mme
120
Chapitre 6. Ralisation

temps est une tache irralisable puisque le nombre de combinaisons de paramtres tester serait
trs grand et donc le temps d'exprimentation serait norme. En gnral, l'exprimentation est
effectue module par module pour conomiser du temps. Puis le systme complet est test
galement.

6.4 Traitement des donnes audiovisuelles


6.4.1 Sparation audiovisuelle

Une fois lenregistrement des squences vido du locuteur est ralis laide dun appareil
photo numrique Sony Cyber-Shot DSC-W530 14.1 Mga Pixel avec un zoom optique 4x grand-
angle Zoom optique et 2.7 pouces moniteur LCD. La premire opration consiste la sparation
des deux flux audio et vido. Le flux audio est extrait sous forme dun signal laide du logiciel
Gold Wave de lextension .wav, et partir du flux vido on extrait, laide du logiciel BPS,
des images fixes de la squence. On passe ensuite la construction des bases de donnes audio et
vido.

6.4.2 Donnes visuels

Aprs la dtection de visage avec lutilisation de lalgorithme de Viola-Jones (voir lexemple


dans la figure 6.4), nous avons localis la rgion de la bouche de chaque locuteur comme il est
illustr dans les exemples dans la figure 6.5.

(a) (b) (c)

Figure 6.4 Un exemple de dtection de visage : (a) image originale (b) dtection de peau avec
suppression de bruit (c) rsultat de dtection de visage.

121
Chapitre 6. Ralisation

(a)

(b)
Figure 6.5 Exemples de la rgion de la bouche dtecte partir de : (a) la base AVARB (b) la base
CUAVE.

L'extraction des caractristiques vido est effectue avec la DCT. Les vecteurs dentres sont
forms des coefficients basses frquences qui se trouvent dans le coin suprieur gauche de la
matrice rsultante comme montr par la figure 6.6. Dans cette figure, nous avons conserv
uniquement les 100 premiers coefficients de hautes amplitudes dune image, donc le vecteur
visuel dans ce cas est compos des 100 lments. Le nombre de coefficients hautes amplitudes
conservs aprs la transformation par la DCT est choisi de manire conserver un maximum
dnergie totale dans les coefficients hautes amplitudes qui sera suffisant pour reconstituer les
caractristiques principales de limage (Makhlouf et al. 2013a ; 2013b). Lnergie totale E de
limage est calcule (thorme de Parseval, partir des coefficients de la DCT).

(a) (b)
Figure 6.6 Le processus de slection des coefficients DCT avec un chantillon partir: (a) la base
AVARB (b) la base CUAVE.

122
Chapitre 6. Ralisation

Lide principale de lalgorithme pour encoder limage par la DCT est de ne pas utiliser la
totalit des coefficients (310500 coefficients), afin de limiter la taille mmoire et les calculs
ncessaires pour lentranement et la reconnaissance par les modles proposs dans notre
systme. Dans notre travail nous avons gard les cent (100) premiers coefficients pour
reprsenter limage.

6.4.3 Donnes acoustiques

Lobjectif dun systme de paramtrisation est dextraire les informations caractristiques du


signal de parole en liminant au maximum les parties redondantes. Pour la ralisation de cette
phase dextraction des paramtres, nous avons utilis la technique RASTA-PLP (comme il est
mentionn dans le chapitre 5).
Pour chaque signal vocal et avec la mthode RASTA-PLP, on extrait 9 paramtres du signal
acoustique de 98 trames dchantillonnage 16kHz, et dune taille de fentre 0.025 secondes et
dun pas de 0.010 secondes. En intgrant la premire et la deuxime driv des paramtres, on
obtient des matrice de 27 paramtres organis comme suit : Pour chaque corpus multilocuteur, si
on prend le corpus commandes par exemple, on a pour les tests 25 occurrences de commandes
vocal rpts 3 fois chacune de 18 locuteurs, donc 25*3*18*27= 36450 et 98 trames est la taille
de la matrice, mme pour lapprentissage, sauf que lordre de loccurrence entre les locuteurs
sont organiss les uns aprs les autres.
Un exemple de calcul de quelques paramtres du signal de parole utilisant cette mthode
dextraction est illustr par la figure 6.7.

123
Chapitre 6. Ralisation

(a)

(b)

(c)

Figure 6.7 Exemple d'un signal de parole du mot arabe "/ marhaban /" (a) son spectrogramme (b) et
l'ensemble des caractristiques spectrales RASTA-PLP (c).

124
Chapitre 6. Ralisation

6.5 Modlisation par GA/HMM


Aprs avoir dfini formellement notre approche, il est ncessaire de la tester afin de la
valider.

6.5.1 Rsultats obtenus et discussion

Cet algorithme optimise la fois les paramtres (probabilits) de HMM. Il repose sur une
recherche gntique d'un bon modle parmi une population htrogne de HMM et une
optimisation par un algorithme de gradient (Baum-Welch).
Pour lapprentissage, nous avons utilis un nombre m des HMM de type gauche-droite avec
un nombre m dtats dont m est le nombre des mots dans chaque corpus, afin de reprsenter les
m classes.

6.5.1.1. Exprimentations avec des bruits sonore et visuel additifs

Dans cette section, nous prsentons les rsultats des expriences menes
en utilisant des signaux audio et vido bruyants.
Nous avons utilis deux types de bruit vido pour examiner la robustesse de notre systme
AVASR contrairement audio seule ASR. Les types de bruit que nous avons implment sont la
diminution des trames, et le bruit alatoire gaussien. Ces types de bruit imitent des scnarios
typiques o il existe une distorsion soit depuis un appareil photo dfectueux ou d'un signal de
transmission vido. De plus, La diminution de la frquence de trames (FPS) et le bruit de bloc
peut simuler la perte d'information la suite des mouvements abrupts de la bouche et la parsie
d'une partie de la bouche ou des lvres qui peut tre cause par un problme de sant. Par
consquent, ce type de bruit prsente un intrt dans des environnements d'assistance
envahissants.
Le taux de reconnaissance est affect par la qualit du signal (i.e. diminution du rapport
signal sur bruit (Signal-to-Noise Ratio (SNR))). Nous examinons d'abord le cas de d'image
perdue (Frame-Dropped). La frquence des trames initiale tait 30 fps, donc nous avons rduit
15, 5 et 1fps puis linterpole de nouveau 100fps afin de correspondre au taux de
caractristique audio. Nos mesures sont prsentes dans la figure 6.8(a).
Nous prsentons aussi nos rsultats exprimentaux sur notre systme AVASR
au cours d'une gamme de niveaux de bruit. Nous avons utilis le bruit alatoire gaussien pour
dgrader la qualit de l'image. La valeur moyenne du bruit est 0 et l'cart type tait 15, 30, 50 et

125
Chapitre 6. Ralisation

100 respectivement. L'effet du bruit sur la ROI peut tre vu dans la figure 6.8 et les rsultats dans
la figure 6.8(b).

(A) (B) (C) (D) (E)

Figure 6.8 ROI avec bruit gaussien, l'cart type =(A) 0 (B) 15 (C) 30 (D) 50 et (E) 100.

(a)

(b)
Figure 6.9 La performance du systme AVASR : (a) sous une frquence des trames vido rduite (b)
pour un bruit alatoire gaussien.

126
Chapitre 6. Ralisation

Comme nous pouvons voir, les caractristiques visuelles augmentent le taux de


reconnaissance, mme 1fps. Plus prcisment, le la performance est suprieur pour 5 (de 56.1%
1FPS) et 0 db (24.8% 1FPS) celle du reconnaisseur audio-seul (53.5% et 19.1%
respectivement). Comme le montre le graphique dans 6.8(b), le taux de reconnaissance pour le
systme AVASR est rduit pour 10db mais pour des valeurs plus basses du SNR, le systme
AVASR surpasse le systme de reconnaissance audio-seul. Mme un cart type de 100, le
systme fonctionne mieux pour 0 et 5db atteindre un taux 19.1% et 57,3% respectivement.

6.5.1.2. Exprimentations avec un bruit rel

Nous avons prsent diffrentes sortes dinstance avec des paramtres de contrle diffrents
de GA qui ont t rsolus par notre algorithme pour valuer la performance du systme propos.
Nous avons excut chaque instance 15 fois avec un nombre diffrent de clusters, des valeurs de
probabilit de croisement entre 0.5-0.9, et une probabilit de mutation avec la valeur 0,01. De
plus, nous prenons un nombre maximum d'itrations pour l'algorithme de Baum-Welch gale
40, les valeurs moyennes de P(o|) obtenue valeurs aprs 150 gnrations (le nombre ditrations
idale pour des meilleurs performance) sont lists dans les Tables 6.2 et 6.3 comme suit:

Nombre Pc Pm Average Nombre de Pc Pm Average


de P(o|) clusters P(o|)
clusters
3 0.5 0.01 -2.3630 3 0.5 0.01 -3.7416
5 0.6 0.01 -1.5838 5 0.6 0.01 -3.2604
7 0.7 0.01 -1.1396 7 0.7 0.01 -3.4235
9 0.8 0.01 -3.3185 9 0.8 0.01 -3.9134
12 0.9 0.01 -4.0122 12 0.9 0.01 -4.3637
(a) (b)
Table 6.2 paramtres GA pour lentranement du HMM pour laudio seul: (a) base AVARB (b) base
CUAVE.

Nombre Pc Pm Average Nombre Pc Pm Average


de P(o|) de P(o|)
clusters clusters
3 0.5 0.01 -7.7629 3 0.5 0.01 -5.1860
4 0.5 0.01 -7.0046 5 0.6 0.01 -5.2987
7 0.8 0.01 -7.1555 7 0.7 0.01 -5.4743
9 0.8 0.01 -7.6595 9 0.8 0.01 -5.8747
12 0.9 0.01 -7.8234 12 0.9 0.01 -6.0890
(a) (b)

Table 6.3 paramtres GA pour lentranement du HMM pour le vido seul: (a) base AVARB (b) base
CUAVE.

127
Chapitre 6. Ralisation

Nous observons que les rsultats varient en fonction des paramtres dentrainement de l'AG,
galement aux le nombre de clusters obtenu par la phase de quantification vectorielle, par
exemple, avec 7 clusters, Pc = 0.7 et Pm = 0.01, pour la base AVARB audio et 5 clusters, Pc =
0.6 et Pm = 0.01 pour la base AVARB visuelle sont suprieures toutes les autres approches
dans tous les cas. Par consquent, nous les utilisons dans notre GA/HMM. Les mmes
observations pour la base de donnes audio CUAVE avec 4 clusters, Pc = 0.6 et Pm = 0.01, et
pour la base de donnes visuelle CUAVE la meilleure performance est obtenue avec 3 clusters,
Pc = 0.5 et Pm = 0.01.
Les figures 10 et 11 donnent le taux de reconnaissance moyennes par rapport au nombre de
clusters utiliss dans l'exprience.

(a) (b)

Figure 6.10 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on utilisant :
(a) HMM standard (b) GA/HMM pour la BDD AVARB.

128
Chapitre 6. Ralisation

(a) (b)

Figure 6.11 Comparaison entre les taux de reconnaissances audio, vido, et audiovisuel, on utilisant :
(a) HMM standard (b) GA/HMM pour la BDD CUAVE.

En se basant sur les figures 6.10 et 6.11, nous constatons que les taux de reconnaissance
obtenus avec notre GA/HMM sont meilleurs dans la plupart des cas par rapport ceux obtenus
avec le HMM standard (Les figures ci-dessus indiquent galement que le systme AVASR avec
une fusion des scores dpassent significativement en atteignant des taux de reconnaissance les
plus levs. Dans la figure 6.10, nous avons not presque les mmes observations prcdentes
avec notre base de donnes de AVARB, c'est dire que nous avons trouv le meilleur taux
moyen de reconnaissance gale 93,7% et 97,6% en utilisant le HMM standard (Young et al.
2006) et le modle hybride GA/HMM respectivement, et avec 7 classes la fois.
Pour la base de donnes CUAVE les rsultats montrent que le taux moyen de reconnaissance
atteint un meilleur taux avec 86,8% en utilisant le modle HMM standard avec 5 classes pour la
phase de classification, et 98,1% en utilisant le modle GA/HMM avec 3 classes.
Plus gnralement, nous avons trouv une augmentation du pourcentage variant de presque
5% 28% des rsultats de nos tests, mais cette augmentation dans les taux de reconnaissance
donns n'est pas fixe, ainsi que avec l'augmentation de la taille de la population. Il se peut donner
des taux pire ou les mmes de celle du HMM standard avant les optimisations. Cela est d la
caractristique de la mthode GA qui est alatoire et aussi que ce systme utilise le processus
gnral de remplacement standard.

129
Chapitre 6. Ralisation

6.6 Conclusion

Dans ce chapitre, nous avons prsent les caractristiques techniques et les performances
du systme AVASR propos. Les diffrents blocs matriels ainsi leur fonctionnement ont t
dtaills.
Les rsultats de lvaluation (calcul derreur et les tests de reconnaissance) sont trs
satisfaisants et tmoignent dune grande fiabilit de mesures obtenues par ce systme.
Les scores de reconnaissance obtenus ont montr que lintgration des deux modalits
acoustiques est visuelles sont suprieurs ceux obtenus avec chaque modalit prise
sparment, dans toutes les conditions exprimentales (niveau de bruit).

130
Conclusion et perspectives

Conclusion et perspectives
7.1 Conclusion
Le domaine de la reconnaissance automatique de la parole est actuellement trs actif. De
nombreux laboratoires de recherche et des industriels effectuent des recherches dans ce
domaine, avec un souci thorique et applicatif trs marqu. Mme si quelques problmes de
reconnaissance comme la reconnaissance de mots isols avec un vocabulaire limit et
prononcs dans des conditions calmes d'utilisation ou la reconnaissance dpendant du
locuteur peuvent tre considrs comme ayant atteint un niveau de performance satisfaisant,
la reconnaissance automatique mrite encore de nombreux travaux de recherche pour tendre
son champ d'application. Un axe important de recherche concerne l'amlioration de la
robustesse d'un systme de reconnaissance lorsque l'environnement de test est sensiblement
diffrent de l'environnement d'apprentissage. Ce sujet a t le centre d'attention de ce
document. Deux aspects du problme de robustesse ont t prsents : la robustesse au bruit et
la robustesse au locuteur.
Nos travaux de recherche ont port sur la fusion dinformations acoustiques et visuelles
pour la RAP. Nous avons donc abord les principaux problmes sous-jacents cette fusion,
savoir la paramtrisation des informations de parole et la nature des systmes de
reconnaissance dans chacune des modalits, ainsi que le lieu et la nature du processus de
fusion des informations sensorielles. Nous avons choisi de rsoudre ces problmes en nous
appuyant sur des tudes ralises dans le domaine de la perception audiovisuelle de la parole.
Nous avons dvelopp diffrents systmes pour effectuer la fusion des informations
acoustiques et visuelles en prenant appui sur des modles perceptifs. Ces systmes ont t
tests sur deux corpus audiovisuelles CUAVE.

7.2 Perspectives

Les travaux commencs au cours de cette thse ouvrent la voie de nombreux travaux
futurs.
La prise en compte de la parole continue ainsi spontane est vitale pour un systme de
reconnaissance grand public.
Les pauses, les rptitions, les hsitations, les phrases en suspens posent des
problmes par la suite aux autres modules de l'application vise.

131
Conclusion et perspectives

Les gens utiliseront les systmes de reconnaissance condition que le taux d'erreur de
reconnaissance soit suffisamment faible. La reconnaissance robuste est donc
ncessaire. L'utilisation d'un systme de reconnaissance dans un milieu bruit et par
diffrentes personnes devrait tre habituelle.
La prise en compte des bruits non stationnaires, dont l'importance a t souleve
travers ce document, ncessite de continuer l'effort engag. Nous n'en sommes qu'au
dbut. L'tude des problmes de dtections de changement des bruits et la prise en
compte de ces moments pendant la reconnaissance doit se poursuivre.
Avec la reprsentation par adjacence, prsente dans le 4 me chapitre, nous avons
tabli que le manque de compatibilit entre le GA dune part et loprateur de
mutation gntique dfini sur la base dapproches dterministes dautre part, nuisait
lefficacit de lapproche. Cest donc prioritairement sur ce point que devront se
focaliser de futurs dveloppements.

132
Annexes

Annexe A
A.1 Environnement de dveloppement: MATLAB R2013a
MATLAB ( matrix laboratory ) est un langage de programmation de quatrime
gnration mul par un environnement de dveloppement du mme nom ; il est utilis des
fins de calcul numrique. Dvelopp par la socit amricaine The MathWorks, MATLAB
permet de manipuler des matrices, d'afficher des courbes et des donnes, de mettre en uvre
des algorithmes, de crer des interfaces utilisateurs, et peut sinterfacer avec dautres langages
comme le C, C++, Java, et Fortran. Les utilisateurs de MATLAB (environ un million en
20041) sont de milieux trs diffrents comme lingnierie, les sciences et lconomie dans un
contexte aussi bien industriel que pour la recherche. Matlab peut sutiliser seul ou bien avec
des toolbox ( bote outils ).
Le logiciel Matlab et lenvironnement graphique interactif Simulink sont
particulirement performants et adapts la rsolution de problmes dautomatique,
notamment pour la modlisation et la simulation des systmes dynamiques.

Figure A.1 Linterface de lenvironnement Matlab (R2013a).

133
Annexes

Avantages :
collection trs riche de librairies avec de nombreux algorithmes, dans des domaines
trs varis. Excution rapide car les librairies sont souvent crites dans un langage
compil.
environnement de dveloppement trs agrable : aide complte et bien organise,
diteur intgr, etc.
support commercial disponible

Inconvnients :
langage de base assez pauvre, qui peut se rvler limitant pour des utilisations
avances.
prix lev

Pourquoi alors Matlab ?

En effet plusieurs extensions plus pointues ont t conues sous la forme de


TOOLBOXes , qui sont des paquets (payants) de fonctions supplmentaires ddies des
domaines aussi varis que les statistiques, le traitement du signale et dimage, la logique
floue, les rseaux de neurones, les ondelettes, et qui permettent de rsoudre un bon nombre
de problmes relatifs ses domaines. Pour visualiser ces fonctions, il suffit de taper help
suivi du nom de la famille laquelle appartient la fonction. Pour connaitre le nom de ces
familles, il suffit juste de taper help. Il comporte plus de 1500 fonctions prprogrammes.

bibliothques utiliss :

La phase dapprentissage est ralise en deux tapes majeures : linitialisation et la r-


estimation. Nous les avons conus partir de la plateforme HTK (Hidden Markov Model
ToolKit) de lUniversit de Cambridge. La bote outils HTK est efficace, flexible (libert du
choix des options et possibilit dajout dautres modules) et complte dans le sens ou elle
fournit une documentation trs dtaille (le livre HTK (Young et al. 2006) est une
encyclopdie dans le domaine).

134
Annexes

A.2 Structure et fonctionnement du logiciel


Ce logiciel traite une phase importante de tout type de reconnaissance de formes qui est la
phase de reconnaissance. Il implmente prcisment deux mthodes de prtraitement (DCT et
RASTA-PLP) et lalgorithme K-means pour le clustering, ainsi 2 mthodes de reconnaissance
HMM et le modle hybride GA/HMM.
Le logiciel est implment sur Matlab R2013a, il est sous formes de fichier script
MATLAB, ces fichiers MATLAB qui ont lextension (.m) peuvent tre considrs comme
des fonctions qui peuvent tre appel partie de linterprteur de commande MATALAB et
qui se servent leur tour dun autre type de fichier des fichiers qui ont lextension (.mat). Ces
derniers fichiers reprsentent dans MTLAB des bases de donnes.
Notre application contient un fichier principale qui fait appelle aux autre fichiers .Ce
fichier est nomm "interface " (voir figure A.2).

Figure A.2 Interface principale du logiciel.

135
Annexes

Figure A.3 Interface dextraction des paramtres visuels.

Figure A.4 Interface dextraction des paramtres acoustiques.

136
Bibliographie

Bibliographie
Abry C., Bo L.-J., Corsi P., Descout R., Gentil M. and Graillot P. (1980). Labialit et Phontique,
publications de l'Universit des langues et lettre de Grenoble.
Adjoudani, A., Guiard-Marigny, T., Le Goff, B. and Benot, C. (1994). Un modle 3d de lvres
parlantes. In Actes des XX Journes dEtude sur la Parole (JEP), pp. 143146.
Adjoudani, A. and Benot, C. (1995). Audio-visual speech recognition compared across two
architectures, in Proc. of the 4th EUROSPEECH Conference, Madrid, Espagne, pp. 1563-1566.
Adjoudani, A. (1998). Reconnaissance automatique de la parole audiovisuelle. Thse de doctorat,
Institut National Polytechnique de Grenoble.
Allegre, J. (2003). Approche de la reconnaissance automatique de la parole. Rapport cycle probatoire,
CNAM.
Alpaydin, E. (2004). Introduction to machine learning. MIT Press.
Basso, A. Graf, H.P., Gibbon, D., Cosatto, E. and Liu, S. (2001). Virtual light: Digitally-generated
lighting for video conferencing applications. In Proc. ICIP, 2: pp. 1085-1088, Thessaloniki,
Greece, October 7-10.
Benot, C., Guiard-Marigny, T., Le Goff, B. and Adjoudani, A. (1996). Which Components of the
Face Do Humans and Machines Best Speechread?, in Speechreading by Humans and Machines,
D. Stork and M. Hennecke (eds.), Springer-Verlag, Berlin, pp. 351-372.
Binnie C.A., Montgomery A.A. and Jackson P.L. (1974). Auditory and visual contributions to the
perception of consonants, Journal of Speech & Hearing Research, 17, pp. 619-630.
Berger, K. W., Garner, M., and Sudman, J. (1971) . The effect of degree of facial exposure and the
vertical angle of vision on speechreading performance. Teacher of the Deaf, 69: pp. 322326.
Beyer, H.-G. (2001). The Theory of Evolution Strategies. Natural Computing Series. Springer,
Heidelberg.
Bregler, C., Hild, H., Manke, S. and Waibel, A. (1993). Improving connected letter recognition by
lipreading, Proc of the International Conference on Acoustics, Speech and Signal Processing,
Minneapolis, IEEE, 1, pp. 557-560.
Bridges, C.L. and Goldberg, D.E. 1991. An analysis of multipoint crossover. In Proceedings of the
Foundation Of Genetic Algorithms. FOGA.
Bogert, B., Healy, M. and Tukey, J. (1963). The quefrency alanysis of time series for echoes:
cepstrum, pseudo-autocovariance, cross-cepstrum and saphe cracking. Time Series Analysis, pp.
209-243.
Boite, R., Bourlard, H., Dutoit, T., Hancq, J. and Leich, H. (2000). Traitement de la parole (Presses
Polytechniques et Universitaires Romandes, Lausanne).
Bouchet, A. and Cuilleret, J. (1972). Anatomie topographique descriptive et fonctionelle,
Villeurbanne, Simep ditions.
Broun, C.C., Zhang, X., Mersereau, R.M. and Clements, M. (2002). Automatic speechreading with
application to speaker verification. In Proc. ICASSP, 1: pp. 685-688, Orlando, FL, USA, May 13-
17.
Brunelli, R. and Poggio, T. (1993). Face recognition: features versus templates. IEEE Transactions on
Pattern Analysis and Machine Intelligence, 15(10):1042-1052.
Burnham, D. and Dodd, B. (1996). Auditory-visual speech perception as a direct process: the McGurk
effect in infants and across languages, Speechreading by Humans and Machines, Stork et

137
Bibliographie

Hennecke (eds.), Springer-Verlag, Berlin, pp. 103-114.


Cathiard, M.A. (1988).Identification visuelle des voyelles et des consonnes dans le jeu de la
protrusion-rtraction des lvres en franais. Mmoire de matrise, Universit Grenoble II.
Cathiard, M.A. (1989). La perception visuelle de la parole : aperu des connaissances, Bulletin de
lInstitut de Phontique de Grenoble, 18: pp. 109-193.
Cathiard, M.A. (1994). La perception visuelle de lanticipation des gestes vocaliques : cohrence des
vnements audibles et visibles dans le flux de la parole. Thse de doctorat de psychologie
cognitive, UFR SHS, Universit Pierre Mends France.
Chan, M.T., Zhang, Y. and Huang, T.S. (1998). Real-time lip tracking and bimodal continuous speech
recognition. In Proc. 2nd MMSP, pp. 65-70, Los Angeles, CA, USA, December 7-9.
Chiou, G.I. and Hwang, J.-N. (1996). Lipreading from color motion video. In Proc. ICASSP, 4: pp.
2158-2161, Atlanta, GA, USA.
Coianiz, T., Torresani, L. and Caprile, B. (1996). 2D deformable models for visual speech analysis. In
Stork and Hennecke (1996), pp. 391-398.
Collen, P., Rault, J.B. and Betser, M. (2007). Phase estimating method for a digital signal sinusoidal
simulation," Software Patent PCT/FR2006/051361, 2007.
Dai, Y. and Nakano, Y. (1996). Face-Texture Model Based on SGLD and Its Application in Face
Detection in a Color Scene. Pattern Recognition 29(6), pp. 1007-1017.
Dallos, P. (1973). The Auditory Periphery: Biophysics and Physiology. New York, USA: Academic
Press.
Darwin, C. (1859). On the Origin of Species by Means of Natural Selection, or the Preservation of
Favoured Races in the Struggle for Life. Londres, John Murray.
Davis, S. and Melmerstein, P. (1980). Comparison of parametric representation for monosyllabic word
recognition in continuously spoken sentences. IEEE Trans. on ASSP, 28: pp. 357-366.
Demuynck, K., Garcia, O. and Van Compernolle, D. (2004). Synthesizing speech from speech
recognition parameters. Proc. of ICSLP.
Deviren, M. (2004). Systmes de reconnaissance de la parole revisits : Rseaux Baysiens
dynamiques et nouveaux paradigmes. Universit de Nancy, Nancy, Thse de doctorat.
Dodd, B. and Campbell, R. (1987) (eds.), Hearing by Eye: The Psychology of Lipreading, Lawrence
Erlbaum Associates, Hillsdale, New Jersey.
Duchnowski, P., Hunke, M. Bsching, D., Meier, U. and Waibel, A. (1995). Toward movement-
invariant automatic lip-reading and speech recognition. In Proc. ICASSP, 1: pp.109112, Detroit,
MI, USA.
Dupont, S. and Luettin, J. (2000). Audio-visual speech modeling for continuous speech recognition.
IEEE Transactions on Multimedia, 2(3):141-151.
Erber N.P. (1974). Effect of angle, distance, and illumination on visual reception of speech by
profoundly deaf children. Journal of Speech and Hearing Research, 17:pp. 99112.
Erber N.P. (1975). Auditory-visual perception of speech, Journal of Speech and Hearing Disorders,
40, pp. 481-492.
Escudier, P., Benot, C. and Lallouache, M.T. (1990). Identification visuelle de stimuli associs
lopposition /i/ - /y/: tude statistique, Proceedings of the First French Conference on Acoustics,
Lyon, France, pp. 541-544.
Eyben, F., Wllmer, M. and Schuller, B. (2010). openSMILE The Munich Versatile and Fast Open-
Source Audio Feature Extractor. Proc. of ACM Multimedia, pp. 1459-1462.
Fant, G. (1973). Speech Sounds and Features , M.I.T. Press, Cambridge, USA.

138
Bibliographie

Fogel, L.J., Owens, A.J. and Walsh, M.J. (1966). Artificial Intelligence through Simulated Evolution.
Wiley, New York.
Goh, J., Tang, L. and Al turk, L. (2010). Evolving the Structure of Hidden Markov Models for Micro
aneurysms Detection. UK Workshop on Computational Intelligence (UKCI), pp.16.
Goldberg, D. and Richardson, J. (1987). Genetic algorithm with shearing for multi-model function
optimization, In J.J. Proceeding of the 2nd international conference on genetic algorithms, pp. 41-
49, Lawrence Erlbaum associates.
Goldberg, D. (1989). Genetic Algorithms in Search, Optimization, and Machine Learning. Addison
Wesley Reading, Massachusetts.
Goldberg, D. (1991). Real-coded genetic algorithms, virtual alphabets and blocking. Complex
Systems, 5: pp. 139-167.
Gouet, V. and Montesinos, P. (2002). Normalisation des images en couleur face aux changements
d'illumination. In Proc. RFIA'02, 2: pp. 415-424, Angers, France, January 8-10.
Gray, M.S., Movellan, J.R. and Sejnowski, T.J. (1997a). A comparison of local versus global image
decompositions for visual speechreading. In Proc. 4th Annual Joint Symposium on Neural
Computation, pp. 92-98, Pasadena, CA, USA, May 17.
Gray, M.S., Movellan, J.R. and Sejnowski, T.J. (1997b). Dynamic features for visual speechreading: A
systematic comparison. In Michael C. Mozer, Michael I. Jordan, and Thomas Petsche, editors,
ANIPS, 9: pp. 751-757. The MIT Press.
Gupta, M. and Garg, Dr.A.K. (2012). Analysis of image compression algorithm Using DCT.
International Journal of Engineering Research and Applications (IJERA), 2(1): pp.515521.
Gurbuz, S., Patterson, E.K., Tufekci, Z. and Gowdy, J.N. (2001a). Lip-reading from parametric lip
contours for audio-visual speech recognition. In Proc. 7th Eurospeech, 2: pp.1181-1184, Aalborg,
Denmark, September 3-7.
Gurbuz, S., Patterson, E.K., Tufekci, Z. and Gowdy, J.N. (2001b). Application of affine-invariant
fourier descriptors to lipreading for audio-visual speech recognition. In Proc. ICASSP, 1: p. 177-
180, Salt Lake City, UT, USA, May 7-11.
Hlaoui, A. (1999). Reconnaissance de mots isols arabes par hybridation de rseaux de neurones et
modles de Markov cachs. cole nationale dingnieurs de Tunis.
Hardcastle, W.J. (1976). Physiology of Speech Production, Academic Press, Londres.
Harvey, R., Matthews, L., Bangham, J.A. and Cox, S. (1997). Lip reading from scale-space
measurements. In Proc. CVPR, pp. 582-587, Puerto Rico, June.
Haton, J.-P. (2006). Reconnaissance automatique de la parole : Du signal son interprtation. Dunod
Paris.
Hermansky, H., Morgan, N., Bayya, A. and Kohn, P. (1992). RASTA-PLP Speech Analysis. IEEE
International conference on Acoustics, speech and signal processing, 1: pp.121124.
Holland, J. (1975). Adaptation in Natural and Artificial Systems. University of Michigan Press.
Hunke, H. M. and Waibel, A. (1994). Face locating and tracking for human-computer interaction,
Proc. Twenty-Eight Asilomar Conference on Signals, Systems & Computers, Monterey, CA,
USA.
Hunke, H. M. (1994). Locating and tracking of human faces with neural networks. Masters thesis,
University of Karlsruhe.
Jacob, B. and Snac, C. (1996). Un modle matre-esclave pour la fusion de donnes acoustiques et
articulatoires en reconnaissance. In Actes des Journes dEtude sur la Parole (JEP), pp. 363366,
Avignon, Juin.

139
Bibliographie

Jakiela, M., Chapman, C., Duda, J., Adweuya, A. and Saitou, K. (2000).Continuum structural
topology design with genetic algorithm. Comput. Methods Appl. Mech. Engrg 186, pp. 339-356.
Jourlin, P. (1996). Handling disynchronization phenomena with hmm in connected speech. In
Proceedings of European Signal Processing Conference, pp. 133136, Trieste.
Kant, E. (1787). Critique de la Raison Pure, Presses Universitaires de France, 11me edition, 1944,
dition originale, 1787.
Khandait, S.P., Khandait, P.D. and Thool, Dr.R.C. (2009). An Efficient Approach to Facial Feature
Detection for Expression Recognition. International Journal of Recent Trends in Engineering,
2(1): pp.179182.
Kicinger, R., Arciszewski, T., and Jong, K. D. (2005). Evolutionary computation and structural
design: A survey of the state-of-the-art. Computers & Structures, 83(23-24): pp. 1943-1978.
Klatt. D. H. (1979). Speech perception: A model of acoustic-phonetic analysis and lexical access.
Journal Phonetique. 7: pp. 279312.
Kubrick, S. (1968). 2001 : A space odyssey (2001 : l'odyse de l'espace). Metro-Goldwyn-Mayer
(Turner Entertainment Co), April 3. http ://www.kubrick2001.com/ ,
http://sfstory.free.fr/films/2001.html.
Kuhl, P.K. and Meltzoff, A.N. (1982). The bimodal perception of speech in infancy. Science, 218, pp.
1138-1141.
Kwong, S. and Chau, C.W. (1997). Analysis of Parallel Genetic Algorithms on HMM Based Speech
Recognition System. IEEE Transactions on Consumer Electronics. 43(4): pp. 1229 1233.
Ladefoged P. (1979). Articulatory parameters, W.P.P. 45, U.C.L.A., pp. 25-31.
Lallouache M.T. (1991). Un poste visage-parole couleur. Acquisition et traitement automatique des
contours des lvres, PhD. dissertation, INPG, Grenoble, France.
Laprie, Y. (2000). Analyse spectrale de la parole.
Larr A. L. (1959). Speechreading through closed-circuit television. Volta Review, 61: pp.1921.
Lee, J. and Kim, J.Y. (2001). An efficient lipreading method using the symmetry of lip. In Proc. 7th
Eurospeech, 2: pp. 1019-1022, Aalborg, Denmark, September 3-7.
Le Goff, B., Guiard-Marigny, T., and Benot, C. (1995). Read my lips ... and my jaw! how intelligible
are the components of a speakers face ? In Eurospeech95, Madrid, Spain.
Le Goff, B., Guiard-Marigny, T., and Benot, C. (1996).Progress in Speech Synthesis, chapitre
Analysis-synthesis and intelligibility of a talking face, pp. 235246. Springer, New York.
Le Huche, F. and Allali, A. (2001). La Voix. Anatomie et physiologie des organes de la voix et de la
parole (Masson, Paris).
Leroy, B. and Herlin, I.L. (1995). Un modle dformable paramtrique pour la reconnaissance de
visages et le suivi du mouvement des lvres. In 15th GRETSI Symposium Signal and Image
Processing, pp. 701-704, Juan-les-Pins, France, September 18-21.
Leroy, B. Chouakria, A., Herlin, I.L. and Diday, E. (1996a). Approche gomtrique et classification
pour la reconnaissance de visages. In Proc. RFIA, pp. ??-??, Rennes, France.
Liberman, A.M. and Mattingly, I.G. (1985). The motor theory of speech production revised.
Cognition, 21: pp.136, 1985.
Lievin, M. and Luthon, F. (1999). Lip features automatic extraction. Proceedings of IEEE
International Conference on Image Processing, Chicago, IL, USA, 3: pp. 168172.
Liew, A.W.C., Sum, K. L., Leung, S.H. and Lau, W.H. (1999). Fuzzy segmentation of lip image using
cluster analysis. In Proc. 6th Eurospeech, 1: pp. 335-338, Budapest, Hungary, September 6-9.

140
Bibliographie

Liu, L., He, J. and Palm, G. (1997). Effects of the phase on the perception of intervocalic stop
consonants. Speech Communication, 4(22): pp. 403-417.
Lockwood, P., Boudy, J. and Blanchet, M. (1992). Non-linear spectral subtraction (NSS) and hidden
Markov models for robust speech recognition in car noise environments. Proc. of IEEE ICASSP,
1: pp. 265-268.
Luettin, J. Thacker, N.A. and Beet, S. (1996a). Active shape models for visual speech feature
extraction. In Stork and Hennecke (1996), pp. 383-390.
Luettin, J. Thacker, N.A. and Beet, S. (1996b). Locating and tracking facial speech features. In Proc.
ICPR, 1: pp. 652-656, Vienna, Austria, August 25-29.
Luettin, J. Thacker, N.A. and Beet, S. (1996c). Speaker identification by lipreading. In Proc. 4th
ICSLP, 1: pp. 62-65, Philadelphia, PA, USA, October 3-6.
Luettin, J. Thacker, N.A. and Beet, S. (1996d). Speechreading using shape and intensity information.
In Proc. 4th ICSLP, 1: pp. 58-61, Philadelphia, PA, USA, October 3-6.
Luettin, J. Thacker, N.A. and Beet, S. (1996e). Statistical lip modelling for visual speech recognition.
In Proc. 8th Eusipco, 1: pp. 137-140, Trieste, Italy, September 10-13.
Luettin, J. Thacker, N.A. and Beet, S. (1996f). Visual speech recognition using active shape models
and hidden Markov models. In Proc. ICASSP, 2: pp. 817-820, Atlanta, GA, USA, May 7-10.
Luettin, J. and Thacker, N.A. (1997). Speechreading using probabilistic models. Computer Vision and
Image Understanding, 65(2):163-178.
Luettin, J. (1997a). Towards speaker independent continuous speechreading. In Proc. 5th Eurospeech,
pp. 1991-1994, Rhodes, Greece, September 22-25.
Luettin, J. (1997b). Visual Speech and Speaker Recognition, PhD dissertation, Universit de
Sheffield.
Luettin, J. and Dupont, S. (1998). Continuous audio-visual speech recognition. LNCS, 1407: pp. 657-
673.
Makhlouf A., Lazli, L. and Bensaker, B. (2013a). Automatic Speechreading Using Genetic
Hybridization of Hidden Markov Models. In Proceeding of the IEEE World Congress on
Computer and Information Technology (WCCIT13), June 22-24, 2013, Sousse, Tunisia.
Makhlouf A., Lazli, L. and Bensaker, B. (2013b). Hybrid Hidden Markov Models and genetic
algorithm for Robust Automatic visual speech recognition. Journal of Information Technology
Review (JITR), 4(3): pp. 105-114.
Makhlouf A., Lazli, L. and Bensaker, B. (2016). Structure Evolution of Hidden Markov Models for
Audiovisual Arabic Speech Recognition. International Journal of Signal and Imaging Systems
Engineering, IJSISE, 9(1).
Malasn, N., Yang, F., Paindavoine, M.and Mitran, J. (2002). Suivi dynamique et vrification de
visages en temps rel : algorithme et architecture. In Proc. RFIA'02, pp.77-86, Angers, France.
Mase, K. (1991). Automatic lipreading by optical-flow analysis. Systems and Computers in Japan,
22(6): 67-75.
Massaro, D.W. (1987). Categorical Perception: The Groundwork of Cognition, chapitre Categorical
partition: a fuzzy logical model of categorization behavior. Cambridge, MA : University Press.
Massaro, D.W. (1989). Multiple book review of Speech perception by ear and eye, Behavioral and
Brain Sciences, 12, pp.741-794.
Massaro, D.W. (1998). Perceiving talking faces: From speech perception to a behavioral principle.
Cambridge, Massachusetts : MIT Press.

141
Bibliographie

Matthews, L. Bangham, J. and Cox, S. (1996a). Audiovisual speech recognition using multiscale
nonlinear image decomposition. In Proc. 4th ICSLP, 1: pp. 38-41, Philadelphia, PA, USA,
October 3-6.
Matthews, L. Bangham, J.A., Harvey, R. and Cox, S. (1998). A comparison of active shape models
and scale decomposition based features for visual speech recognition. LNCS, 1407: pp. 514-528.
McGurk, H. and McDonald, J. (1976). Hearing Lips and Seeing Voices, Nature, 264: pp. 746-748.
Meier, U. Hrst, H. and Duchnowski, P. (1996). Adaptive bimodal sensor fusion for automatic
speechreading. In Proc. ICASSP, pp. 833-836, Atlanta, GA, USA, May.
Messer, k., Matas, J., Kittler, J., Luettin, J. and Matre, G. (1999). XM2VTSDB : The extended
M2VTS database. In Proc. 2nd AVBPA, pp. 7277, Washington, DC, USA, March 22-23.
Michalewicz, Z. and Janikov, C.Z. (1991). Handling constraints in genetic algorithms. In Proceedings
of the Fourth International Conference on Genetic Algorithm. ICGA.
Milner, B. and Darch, J. (2011). Robust Acoustic Speech Feature Prediction From Noisy Mel-
Frequency Cepstral Coefficients. IEEE Trans. on ASLP, 2(19): pp. 338-347.
Movellan, J.R (1995). Visual speech recognition with stochastic networks. In Gerald Tesauro, David
Touretzky, and Todd Leen, editors, ANIPS, 7: pp. 851-858, Cambridge, MA, USA. The MIT
Press.
Movellan, J.R and Chadderdon, G. (1996). Speechreading by Man and Machine: Models, Systems and
Applications. chapitre Channel separability in the audiovisual integration of speech : A Bayesian
approach, pp. 473488. Springer-Verlag, NATO ASI Series, Berlin, Germany.
Murty, K.S.R. and Yegnanarayana, B. (2006). Combining evidence from residual phase and MFCC
features for speaker recognition. IEEE Signal Processing Letters, 1(13): pp. 52-55.
Nakano, Y. (1961). A study on the factors which influence lipreading of deaf children. Language
research in countries other than the United States, Volta Review, 68:pp. 6883. Cited by Quigley
(1966).
Neely, K. K. (1956). Effect of visual factors on the intelligibility of speech. Journal of Acoustic
Society of America, 28: pp.12751277.
Nefian, A.V., Liang, L., Pi, X., Xiaoxiang, L., Mao, C. and Murphy, K. (2002). A coupled HMM for
audio-visual speech recognition. In Proc. ICASSP, 2: pp. 2013-2016, Orlando, FL, USA, May 13-
17.
Neti, C. V. and Senior, A. (1999). Audio-visual speaker recognition for video broadcast news. In
DARPA HUB4 Workshop, pp. 139142, Washington, DC, USA.
Neti, C., Potamianos, G., Luettin, J., Matthews, L., Glotin, H., Vergyri, D., Sison, J., Mashari, A. and
Zhou, J. (2000). Audio-visual speech recognition. Technical Report Workshop 2000,
International Computer Science Institute, Center for Language and Speech Processing (CLSP),
The Johns Hopkins University, Baltimore, MD, USA, October 12.
O'Shaughnessy, D. (1987). Speech Communications: Human and Machine, Series in Electrical
Engineering ed. USA: Addison-Wesley Publishing Co.
Oudelha, M. and Ainon, R.N. (2010). HMM parameters estimation using hybrid Baum-Welch genetic
algorithm. International Symposium in Information Technology (ITSim), 2: pp.542545.
Pai, Y., Ruan, S., Shie, M., Liu, Y. (2006). A Simple and Accurate Color Face Detection Algorithm in
Complex Background. In ICME, pp. 1545-1548.
Patterson, E.K., Gurbuz, S., Tufekci, Z. and Gowdy, J.N. (2002). Moving-talker speaker-independent
feature study and baseline results using the CUAVE multimodal speech corpus. EURASIP
Journal on Applied Signal Processing, 11: pp.11891201.

142
Bibliographie

Pentland, A. and Mase, K. (1989). Automatic lipreading by optical-flow analysis. Technical Report
VA189-8, ITEJ.
Prez, , Piccardi, M. and Garca, J. (2007). Comparison between genetic algorithms and the Baum-
Welch algorithm in learning HMMs for human activity classification, Proceeding of
EvoWorkshops7, pp.399406.
Petajan, E. (1984). Automatic lipreading to enhance speech recognition, PhD. dissertation, Univ.
Illinois at Urbana-Champagne.
Pigeon, S. and Vandendorpe. L. (1997). The M2VTS multimodal face database. LNCS, pp. 403410.
Potamianos, G., Cosatto, E., Graf, H.P. and Roe, D.B. (1997). Speaker independent audio-visual
database for bimodal ASR. In Benot and Campbell (1997), pp. 65-68.
Potamianos, G., Verma, A., Neti, C. and Iyengar, G. (2000). A cascade image transform for speaker
independent automatic speechreading. In Proc. ICME, pp. 1097-1100, New York, NY, USA.
Potamianos, G., Luettin, J. and Neti, C. (2001a). Hierarchical discriminant features for audio-visual
LVCSR. In Proc. ICASSP, 1: pp. 165-168, Salt Lake City, UT, USA, May 7-11.
Potamianos, G., Neti, C., Iyengar, G. and Helmuth, E. (2001b). Large-vocabulary audio-visual speech
recognition by machines and humans. In Proc. 7th Eurospeech, 2: pp. 1027-1030, Aalborg,
Denmark, September 3-7.
Potamianos, G., Neti, C., Iyengar, G., Senior, A.W. and Verma, A. (2001c). A cascade visual front end
for speaker independent automatic speechreading. Speech Technology, 4: pp. 193208.
Rabiner, L. and Juang, B.H. (1993). Fundamentals of Speech Recognition. Oxford University Press.
Rao, R. and Mersereau, R. M. (1995). On merging hidden Markov models with deformable templates.
In Proc. ICIP, 3: pp. 35563559, Washington, DC, USA.
Reisberg, D., McLean, J. and Goldfield, A. (1987). Easy to hear but hard to understand: A lip-reading
advantage with intact auditory stimuli , in Hearing by Eye : the psychology of lip-reading, B.
Dodd et R. Campbell (eds.), Lawrence Erlbaum Associates, Hillsdale, New Jersey, pp.97-114.
Revret, L. (1999). Conception et valuation dun systme de suivi automatique des gestes labiaux en
parole. Thse de doctorat, de linstitut national polytechnique de Grenoble.
Robert-Ribes, J., Piquemal, M., Schwartz, J. L. and Escudier, P. (1996). Speechreading by Man and
Machine: Models, Systems and Applications. chapitre Exploiting sensor fusion architectures and
stimuli complementarity in AV speech recognition, pp. 193210. Springer-Verlag, NATO ASI
Series, Berlin, Germany.
Rodomagoulakis, I. (2008). Feature Extraction Optimization and Stream Weight Estimation in Audio-
Visual Speech Recognition.Phd thesis from Technical University of Crete.
Rogozan, A., Delglise, P. and Alissali, M. (1996). Intgration asynchrone des informations auditives
et visuelles dans un systme de reconnaissance de la parole , Actes des 21mes Journes
dEtudes sur la Parole, Avignon, pp. 359-362.
Rogozan, A. (1999). tude de la fusion des donnes htrognes pour la reconnaissance automatique
de la parole audiovisuelle. Thse de doctorat, Universit d'Orsay - Paris XI.
Snchez, U.R. (2000). Aspects of facial biometrics for verification of personal identity. Ph.D. thesis,
University of Surrey, Guilford, UK.
Sanderson C. and Paliwal, K. (2002). Polynomial features for robust face authentication. In
proceedings of International Conference on Image Processing.
Schwartz, J.-L., Robert-Ribs, J. and Escudier, P. (1998). Hearing by Eye II: Advances in the
Psychology of Speechreading and Auditory-Visual Speech. chapitre Ten years after Summerfield:
A taxonomy of models for audio-visual fusion in speech perception, pp. 85108. Psychology
Press, Hove, UK.

143
Bibliographie

Schwartz, J.-L. (2002). Traitement automatique du langage parl 2: reconnaissance de la parole.


chapitre La parole multimodale: deux ou trois sens valent mieux quun, pp. 141178. Hermes,
Paris.
Schwartz, J.-L. (2004). La parole multisensorielle: Plaidoyer, problmes et perspectives. In Actes des
XXVme Journes dEtude sur la Parole (JEP), pp. 1117, Fs, Maroc.
Silsbee, P.L. and Su, Q. (1996). NATO ASI: Speechreading by Humans and Machines. chapitre
Audiovisual sensory integration using hidden Markov models, pp. 489495. Springer-Verlag.
Senior, A. W., (1999). Face and feature finding for a face recognition system. In Proc. 2nd AVBPA,
pp. 154159, Washington, DC, USA, March 22-23.
Shdaifat, I., Grigat, R. R. and Luetgert, S. (2001). Viseme recognition using multiple feature matching.
In Proc. 7th Eurospeech, 4: pp. 24312434, Aalborg, Denmark, September 3-7.
Shing-Tai, P., Ching-Fa, C. and Jian-Hong Z. (2010). Speech Recognition via Hidden Markov Model
and Neural Network Trained by Genetic Algorithm. Ninth International Conference on Machine
Learning and Cybernetics. Qingdao, 11-14 July.
Sobottka, K., and Pitas, I. (1996). Segmentation and tracking of faces in color images, Automatic face
and gesture recognition, pp. 236241.
Stevens, S.S., Volkman, J. and Newman, E. (1937). A scale for the measurement of the psychological
magnitude pitch. Proc. of JASA, 3(8): pp. 185190.
Stork, D.G. (1997). HAL's Legacy. 2001's Computer as Dream and Reality. MIT Press, Cambridge,
MA, USA.
Sumby, W.H. and Pollack, I. (1954). Visual contribution to speech intelligibility in noise, Journal of
the Acoustical Society of America, 26, pp. 212-215.
Summerfield, Q. (1979). Use of visual information for phonetic perception, Phonetica, 36: pp. 314-
331.
Summerfield, Q. (1983). Audio-visual speech perception, lipreading and artificial stimulation. Hearing
Science and Hearing Disorders, pp. 131182.
Summerfield, Q. (1987). Some preliminaries to a comprehensive account of audio-visuel speech
perception, in Hearing by Eye: The psychology of lipreading, B. Dodd and R. Campbell, eds.
Summerfield, Q., MacLeod A., McGrath M. and Brooke M. (1989). Lips, teeth, and the benefits of
lipreading, in Handbook of Research on Face Processing, A.W. Young and H.D. Ellis (eds.),
Elsevier Science Publishers, pp. 223-233.
Taboada, J., Feijoo, S., Balsa, R. and Hernandez, C. (1994). Explicit estimation of speech boundaries.
IEEE Proc. Sci. Meas. Technol., 141: pp. 153-159.
Teissier, P., Robert-Ribs, J. and Schwartz, J.-L. (1999). Comparing models for audiovisual fusion in
a noisy-vowel recognition task. IEEE Transactions on Speech and Audio Processing, 7(6): pp.
629642.
Viola, P. and Jones, M. (2001). Rapid object detection using a boosted cascade of simple features. In:
Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern
Recognition (CVPR 2001), IEEE Computer Society Press, Jauai, Hawaii, December 8-14.
Waibel, A. and Lee, K.-F. (1990). (eds), Readings in Speech Recognition, San Mateo, CA: Morgan
Kaufmann.
Walden, B. E., Prosek, A. and Montgomery (1977). Effect of training on the visual recognition of
consonants, Journal of Speech and Hearing Research, 20: pp. 130-145.
Wark, T. & Sridharan, S. (1998). An approach to statistical lip modelling for speaker identification via
chromatic feature extraction, in International Conference on Pattern Recognition, pp. 123-125.

144
Bibliographie

Whalen D.H. (1990). Coarticulation is largely planned, Journal of Phonetics, 18(1), pp. 3-35.
Wojdel J.C. and Rothkrantz. L.J.M. (2001a). Robust video processing for lipreading applications. In
Proc. 6th Euromedia, pp. 195-199, Valencia, Spain, April 18-20.
Wojdel J.C. and Rothkrantz. L.J.M. (2001b). Using aerial and geometric features in automatic lip-
reading. In Proc. 7th Eurospeech, 4: pp. 2463-2466, Aalborg, Denmark, September 3-7.
Wolpert, D.H., and Macready, W.G. (1997). No free lunch theorems for optimization. IEEE
Transactions on Evolutionary Computation, 1(1), pp. 67-82.
Wright, A.H. (1991). Genetic algorithms for real parameter optimization. In Proceeding of the
Foundation Of Genetic Algorithms. FOGA.
Xue-ying, Z., Yiping, W. and Zhefeng, Z. (2007). A Hybrid Speech Recognition Training Method for
HMM Based on Genetic Algorithm and Baum Welch Algorithm. IEEE 2nd International
conference on Innovative Computing, Information and Control (ICICIC07), pp.572.
Yang, J. and Waibel, A., (1996). A real-time face tracker. In: Proc. 3rd IEEE Workshop on
Application of Computer Vision. pp. 142-147.
Yang, C., Soong, F.K. and Lee, T. (2007). Static and dynamic spectral features: their noise robustness
and optimal weights for ASR. IEEE Trans. on ASSP, 3(15): pp. 1087-1097.
Young, S., Evermann, G., Gale, M., Hain, s.T., Kershaw, D., Liu, X., Moore, G., Odell, J., Ollason,
D., Povey, D., Valtchev, V. and Woodland, P. (2006). The HTK Book (for HTK version 3.4).
Cambridge University Engineering Department, Ed.
Zemlin, W.R. (1968). Speech and Hearing Science: Anatomy and Physiology, New Jersey, Prentice-
Hall.
Zwicker, E. (1961). Subdivision of the audible frequency range into critical bands. Proc. of JASA,
2(33): pp. 248.

145
Notations

Notations
AAM Active Appearance Model
ACP Analyse en Composantes Principales
ASR Automatic Speech Recognition
AVASR Audio-Visual Automatic Speech Recognition
BW Baum-Welch algorithm
DCT Discrete Cosine Transform
DI Direct Integration
DWT Discrete Wavelet Transform
FAP Facial Animation Parameters
FCC Face Color Classifier
FLMP Fuzzy-Logical Model of Perception
HMM Hidden Markov ModelS
ID Identification Directe
ICP Institut de la Communication Parle
IFCC Individuel Face Color Classifier
IS Identification Spare
GA Genetic Algorithm
GFCC General Face Color Classifier
GMM Gaussian Mixture Model
LDA Linear Discriminant Analysis
LPC Linear Predictive Coding
LUT Look-Up Table
MFCC Mel-scaled Frequency Cepstral Coefficients
MLLT Maximum Likelihood Linear Transform
MMI Maximum Mutual Information
MSA Multiscale Spatiale Analysis
PLP Perceptual Linear Predictive
RAP reconnaissance automatique de la parole
RASTA-PLP RelAtive SpecTral Analysis-Perceptual Linear Predictive
ROI Region Of Interest
SI Separate Integration
SNR Signal-to-Noise Ratio

146
Rfrences personnelles

Publications ralises au cours de la thse

Publications et confrences internationales :


Makhlouf A., Lazli, L. and Bensaker, B. (2012). Structure Evolution of Hidden Markov Models for
an Automatic Speechreading. Accepted paper for 7th International Conference on Bio-Inspired
Models of Network, Information, and Computing Systems, Lugano, Switzerland.

Makhlouf A., Lazli, L. and Bensaker, B. (2013a). Automatic Speechreading Using Genetic
Hybridization of Hidden Markov Models. In Proceeding of the IEEE World Congress on
Computer and Information Technology (WCCIT13), June 22-24, 2013, Sousse, Tunisia.
Makhlouf A., Lazli, L. and Bensaker, B. (2013b). Hybrid Hidden Markov Models and genetic
algorithm for Robust Automatic visual speech recognition. Journal of Information Technology
Review (JITR), 4(3): pp. 105-114.
Makhlouf A., Lazli, L. and Bensaker, B. (2016). Structure Evolution of Hidden Markov Models for
Audiovisual Arabic Speech Recognition. International Journal of Signal and Imaging Systems
Engineering, IJSISE, 9(1), pp.5566.

Co-encadrement:
Master de recherche Reconnaissance des Formes et Intelligence Artificielle (Janvier 2015- Juin 2015)

Boukhatem Chemssedine, extraction des paramtres vocaux laide dune nouvelle mthode
danalyse acoustique , un master pourtant sur la mise en uvre de la mthode J-RASTA pour faire
une extraction des paramtres acoustiques.

147