Memoire

Vrication de lidentit dun visage parlant.
Apport de la mesure de synchronie audiovisuelle

face aux tentatives dlibres dimposture.
Herv Bredin
20 novembre 2007
Pour Mum un petit peu, mais pas trop !
Pour Dad nalement convaincu ?
Pour Carine parce que.
Rsum
La scurit des personnes, des biens ou des informations est lune des proccupations majeures de nos
socits actuelles. Lauthentication de lidentit des personnes est lun des moyens permettant de sen
assurer. La principale faille des moyens actuels de vrication didentit est quils sont lis ce quune
personne possde (un passeport, un badge magntique, etc.) et/ou ce quelle sait (un code PIN de carte
bancaire, un mot de passe, etc.). Or, un badge peut tre vol, un mot de passe devin ou cass par force
algorithmique brute. La biomtrie est le domaine technologique traitant de la vrication didentit et/ou
de lidentication de personnes par leurs caractristiques physiques individuelles, pouvant tre morpho-
logiques ou morpho-comportementales. Elle apparat comme une solution vidente au problme soulev
prcdemment : lidentit dune personne est alors lie ce quelle est et non plus ce quelle possde ou
sait.
En plus dtre une des modalits biomtriques les moins intrusives et donc plus facilement accepte par le
grand public, la vrication didentit base sur les visages parlants est intrinsquement multimodale : elle
regroupe la fois la reconnaissance du visage, la vrication du locuteur et une troisime modalit relevant
de la synchronie entre la voix et le mouvement des lvres.
La premire partie de notre travail est loccasion de faire un tour dhorizon de la littrature portant sur la
biomtrie par visage parlant et nous soulevons le fait que les protocoles dvaluation classiquement utiliss
ne tiennent pas compte des tentatives dlibres dimposture. Pour cela, nous confrontons un systme de
rfrence (bas sur la fusion des scores de vrication du locuteur et du visage) quatre types dimposture
dlibre de type rejeu et mettons ainsi en vidence les faiblesses des systmes actuels.
Dans la seconde partie, nous proposons dtudier la synchronie audiovisuelle entre le mouvement des
lvres acquis par la camra et la voix acquise par le microphone de faon rendre le systme de rfrence
robuste aux attaques. Plusieurs nouvelles mesures de synchronie bases sur lanalyse de corrlation cano-
nique et lanalyse de co-inertie sont prsentes et values sur la tche de dtection dasynchronie. Les
bonnes performances obtenues par la mesure de synchronie base sur un modle dpendant du client nous
encouragent ensuite proposer une nouvelle modalit biomtrique base sur la synchronie audiovisuelle.
Ses performances sont compares celle des modalits locuteur et visage et sa robustesse intrinsque aux
attaques de type rejeu est mise en vidence. La complmentarit entre le systme de rfrence et la nouvelle
modalit synchronie est souligne et des stratgies de fusion originales sont nalement mises en place de
faon trouver un compromis entre les performances brutes du premier et la robustesse de la seconde.
Abstract
Authenticating people is a means to ensure the safety of people, goods or sensitive information, which is
one of the major concerns of our modern societies. The main weakness of current authentication systems is
that they rely on what a person owns (a passport, a magnetic card, etc.) and/or what he/she knows (a PIN
number, a password, etc.). Still, a card can be stolen and a password broken.
Biometrics is the technological eld dealing with authentication and/or identication of people using
their physical characteristics, including morphological and behavioral measurements. This happens to be an
obvious solution to the issue previously highlighted : the identity of a person is then related to who he/she
is and no longer to what he/she owns or knows.
Not only is talking face one of the less intrusive biometric modality, it is also intrinsically multimodal :
it includes both speaker and face verication, and a third modality related to audiovisual speech synchrony
between the voice and lip motion.
In the rst part of this document, we overview the literature about the talking-face biometric modality and
we underline that deliberate impostor attacks are often forgotten in the development process of talking-face
authentication algorithms. We simulate four kinds of deliberate impostor replay attacks in order to uncover
the main weakness of classical systems based on the fusion of speaker and face verication scores.
In the second part, we propose to study the audiovisual synchrony between voice and lip motion as a
way of making a classical speaker+face robust to attacks. Several novel synchrony measures based on
canonical correlation analysis and co-inertia analysis are introduced and tested on the asynchrony detection
task. The promising results that we obtained with a client-dependent synchrony measure led us to introduce
a novel biometric modality based on audiovisual synchrony. Though it is not as efcient as speaker and
face verication, this new modality is intrinsically robust to deliberate impostor attacks. We nally point out
the complementarity between the speaker+face reference system and the synchrony modality and introduce
novel fusion strategies that allow to achieve a good compromise between the efciency of the former and
the robustness of the latter.
Remerciements
Je tiens tout dabord remercier Mme Sylvie Lelandais-Bonade et M. Grard Bailly pour avoir accept de
rapporter sur mes travaux. Je remercie par la mme occasion Mmes Rgine Andr-Obrecht et Delphine Char-
let, ainsi que MM. Farzin Deravi et Chac Mokbel pour avoir accept de participer mon jury de thse.
Je remercie chaleureusement mon directeur de thse, M. Grard Chollet, qui ma fait conance tout au
long de ces trois annes de thse. Il a su crer des conditions de travail idales, alliant une trs grande libert
et la participation de nombreux projets lchelle nationale ou europenne. Il na jamais rechign me
laisser partir lautre bout de la plante pour prsenter mes travaux : mes diffrents voyages en Australie,
en Chine, en Inde et mme Hawaii (pour ne citer que les destinations les plus exotiques) en sont la preuve
clatante. Pour tout cela, je le remercie vivement.
Ces trois annes auraient t bien longues sans les diffrents collgues avec qui jai partag mon bureau.
Merci en particulier Leila et Rmi que jai ctoys pendant la plus grande partie de mes trois annes de
thse. Jai comme limpression que vous allez me manquer ! Jajouterai une petite pense pour Patricia et
Catherine qui mont grandement facilit la vie maintes reprises.
Ce rapport de thse ne serait pas ce quil est aujourdhui sans les nombreuses (et fastidieuses, si si !)
relectures qui en ont t faites. Merci Marc et Grard pour leurs remarques sages et avises. Un trs grand
merci Rmi pour avoir pluch avec le plus grand soin les pages qui suivent. Mille mercis milie, Fanny
et Nicolas pour avoir os se plonger dans ce charabia la recherche de coquilles et autres croustillantes
formulations dont jai le secret.
Je nirai par un petit mot lattention de ma petite Lili qui a su tre (trs) patiente quand je ny voyais
plus trs clair. Merci, merci, merci. . .
Table des matires
Introduction gnrale 25
I Vrication audiovisuelle de lidentit 33
1 Tour dhorizon 35
1.1 Vrication du visage partir dune squence vido . . . . . . . . . . . . . . . . . . . . . . 35
1.2 Dtection dattaques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
1.3 Parole audiovisuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2 valuation 41
2.1 Mesures de performance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.2 Base de donnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.3 Protocoles dvaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.4 Base de donnes et protocoles additionnels . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Systme initial 51
3.1 Vrication du locuteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.2 Vrication du visage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Normalisation des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4 Fusion des scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4 Attaques 67
4.1 Attaques de type rejeu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Crazy Talk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
11
II Synchronie audiovisuelle 77
5 tat de lart 81
5.1 Paramtrisation de la parole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.2 Sous-espaces audiovisuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.3 Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.4 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
6 Dtection dasynchronie 95
6.1 Paramtrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6.2 Paramtres corrls . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.3 Mesure de synchronie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.4 valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
7 Vrication didentit 113
7.1 Modalit synchronie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.2 valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
7.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
8 Fusion robuste 121
8.1 Stratgies de fusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
8.2 valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
Conclusions et perspectives 133
A Technovision IV2 137
A.1 Base Technovision IV2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
A.2 Protocole dvaluation Technovision IV2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
A.3 valuation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
B Publications 143
The BioSecure Talking-Face Reference System . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
Detecting Replay Attacks in Audiovisual Identity Verication . . . . . . . . . . . . . . . . . . . . 156
GMM-based SVM for Face Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
Vrication Audiovisuelle de lIdentit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
Aliveness Detection using Coupled Hidden Markov Models . . . . . . . . . . . . . . . . . . . . . 173
Biometrics and Forensic Sciences : the Same Quest for Identication ? . . . . . . . . . . . . . . . 182
Bibliographie 195
Table des gures
1 Modalits biomtriques morphologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Modalits biomtriques morpho-comportementales . . . . . . . . . . . . . . . . . . . . . . 26
3 Systme de vrication biomtrique didentit . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.1 Distance lespace de visage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.1 Courbe DET . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2 Description de la base BANCA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
2.3 Conditions controlled, degraded et adverse . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1 Dtail des modules de la vrication du locuteur . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2 Modlisation bigaussienne de lnergie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 Dtection du silence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4 Extraction des MFCC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.5 Performances du systme de vrication du locuteur . . . . . . . . . . . . . . . . . . . . . 55
3.6 Dtail des modules de la vrication du visage . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.7 Normalisation du visage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.8 Distance lespace de visages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.9 Slection des meilleurs visages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.10 Performances du systme de vrication du visage . . . . . . . . . . . . . . . . . . . . . . 60
3.11 Effet de la Znorm sur les scores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.12 Effet de la Znorm sur les performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.13 Effet de la normalisation tanh sur les scores . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.14 Performances du systme locuteur+visage . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1 Attaque de type Paparazzi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
15
4.2 Attaque de type Echelon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.3 Attaque de type Big Brother . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.4 Performances du systme locuteur+visage face aux attaques . . . . . . . . . . . . . . . . . 72
5.1 Information mutuelle et dcalage temporel . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
6.1 Extraction des paramtres visuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.2 Coefcients DCT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.3 Effet de CANCOR et CoIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.4 Mesure de synchronie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.5 Partition de la squence de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.6 Performances de la synchronie CANCOR sur le protocole S . . . . . . . . . . . . . . . . 104
6.7 Performances de la synchronie CoIA sur le protocole S . . . . . . . . . . . . . . . . . . . 105
6.8 Taille de la rgion dintrt pour lextraction des paramtres visuels . . . . . . . . . . . . . 105
6.9 Comparaison des mesures bases sur CANCOR et CoIA . . . . . . . . . . . . . . . . . . . 107
6.10 Courbes DET correspondant aux systmes du tableau 6.3 . . . . . . . . . . . . . . . . . . . 108
6.11 Performances de CoIA sur le protocole S
c
. . . . . . . . . . . . . . . . . . . . . . . . . . 110
6.12 Effet de la normalisation sur les corrlations . . . . . . . . . . . . . . . . . . . . . . . . . . 111
6.13 Comparaison des deux mesures CoIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
7.1 Performance de la modalit synchronie sur le protocole P . . . . . . . . . . . . . . . . . . . 115
7.2 Inuence de la Znorm sur le systme bas sur la synchronie . . . . . . . . . . . . . . . . . . 116
7.3 Inuence du texte prononc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
7.4 Performances du systme bas sur la synchronie . . . . . . . . . . . . . . . . . . . . . . . . 118
7.5 Erreur de dtection de la bouche rsultant en un mauvais modle . . . . . . . . . . . . . . . 119
8.1 Distribution des scores de synchronie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8.2 Performances des systmes de fusion sur le protocole P original . . . . . . . . . . . . . . . 125
8.3 Performances du systme de fusion par pnalisation . . . . . . . . . . . . . . . . . . . . . . 126
8.4 Performances du systme de fusion par somme pondre adaptative . . . . . . . . . . . . . 127
8.5 Compromis entre performance brute et robustesse aux attaques . . . . . . . . . . . . . . . . 128
A.1 Distribution des scores de synchronie (BANCA vs. Technovision IV2) . . . . . . . . . . . . 139
A.2 Performances sur le protocole Technovision IV2 . . . . . . . . . . . . . . . . . . . . . . . . 141
A.3 Performances optimales sur le protocole Technovision IV2 . . . . . . . . . . . . . . . . . . 142
Liste des tableaux
1 Comparaison des performances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.1 Paramtres acoustiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.2 Paramtres visuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.3 Meilleur systme pour chaque mesure de synchronie sur le protocole S . . . . . . . . . . . . 108
17
Acronymes
AHMM Modle de Markov cach asynchrone Asynchronous Hidden Markov Model
CANCOR Analyse de corrlation canonique Canonical Correlation Analysis
CoIA Analyse de co-inertie Co-Inertia Analysis
DCF Fonction de cot de dtection Detection Cost Function
DCT Transforme en cosinus discrte Discrete Cosine Transform
DET Courbe de dtection Detection Error Tradeoff
DFFS Distance lespace de visage Distance From Face Space
EER Taux dgale erreur Equal Error Rate
EM Expectation Maximization
FA Fausse Acceptation
FAR Taux de fausse acceptation False Acceptance Rate
fps Images par seconde frame per second
FR Faux Rejet
FRR Taux de faux rejet False Rejection Rate
GMM Modle de mlange de gaussiennes Gaussian Mixture Model
HMM Modle de Markov cach Hidden Markov Model
ICA Analyse en composantes indpendantes Independent Component Analysis
LPC Linear-Predictive Coding
19
LSF Line Spectral Frequencies
MAP Maximum A Posteriori
MFCC Mel-Frequency Cepstral Coefcients
MLP Rseau de neurones multi-couches Multiple Layer Perceptron
NN Rseau de neurones Neural Network
PCA Analyse en composantes principales Principal Components Analysis
PIN Numro didentication personnel Personal Identication Number
RMS Valeur efcace Root Mean Square
ROI Rgion dintrt Region Of Interest
SIFT Scale Invariant Feature Transform
SVM Machine vecteur de support Support Vector Machine
UBM Modle du monde Universal Background Model
WER Taux derreur pondr Weighted Error Rate
Introduction gnrale
23
La scurit des personnes, des biens ou des informations est lune des proccupations majeures de nos
socits actuelles. Lauthentication de lidentit des personnes permet de sen assurer. Ainsi, une personne
dsirant traverser une frontire sensible se verra systmatiquement demander de dcliner et prouver son
identit laide de son passeport par exemple ; une autre voulant accder un service bancaire sur lInternet
devra la plupart du temps saisir un nom dutilisateur et le mot de passe correspondant. La grande faiblesse
des moyens actuels de vrication didentit apparat clairement ici : lidentit dune personne est directe-
ment lie ce quelle possde (un passeport, un badge magntique, etc.) et/ou ce quelle sait (un code PIN
de carte bancaire, un mot de passe, etc.). Or, un badge peut tre vol, un mot de passe devin ou cass par
force algorithmique brute : ceci menant lusurpation didentit.
La biomtrie est le domaine technologique traitant de la vrication didentit et/ou de lidentication
de personnes par leurs caractristiques physiques individuelles, pouvant tre morphologiques ou morpho-
comportementales. Elle apparat comme une solution vidente au problme soulev prcdement : lidentit
dune personne est lie ce quelle est et non plus ce quelle possde ou sait.
Modalits biomtriques Les modalits biomtriques morphologiques les plus courantes sont obtenues
partir de plusieurs parties du corps humain, telles que loeil (pour liris et la rtine), la main (pour les
empreintes digitales et palmaires ou encore la forme de la main) ou le visage. Cette liste peut tre allonge
par des modalits moins rpandues (voire exotiques) telles que la forme de loreille, les vaisseaux sanguins
de la main, etc.
FIG. 1 Modalits biomtriques morphologiques
Comme leur nom lindique, les modalits biomtriques morpho-comportementales sont lies autant
la morphologie humaine qu la dynamique du comportement. Nous pouvons citer des modalits telles que
la voix, la dynamique de la signature, la dmarche ou la dynamique de la frappe sur un clavier. titre
dexemple, les caractristiques physiques de la voix sont la fois guides par le comportement et la mor-
phologie du conduit vocal du locuteur. Il en est de mme pour la dmarche qui ne saurait tre compltement
dcorrle de la morphologie du marcheur.
FIG. 2 Modalits biomtriques morpho-comportementales
Vrication biomtrique didentit
Quelle que soit la nature de la modalit utilise, les systmes biomtriques partagent tous une structure
de base commune.
Enrlement La premire tape indispensable lutilisation dun systme biomtrique par une per-
sonne est son enrlement. Il sagit du processus pendant lequel un chantillon biomtrique de la personne
est acquis, partir duquel un modle didentit de la personne est obtenu et stock (par exemple, sur
un serveur central ou sur une carte puce que seule la personne possde). Lacquisition de lchantillon
biomtrique est effectue de diffrentes faons selon la modalit : laide dun appareil photo pour la recon-
naissance du visage, un microphone pour la vrication du locuteur ou encore une tablette graphique pour
la signature. Cette tape denrlement est rsume schmatiquement dans la gure 3.
Vrication didentit vs. identication Deux applications de la biomtrie sont alors envisageables :
la vrication didentit et lidentication. Souvent confondus dans la littrature, ces deux termes nen
dcrivent pas moins deux applications diffrentes :
FIG. 3 Systme de vrication biomtrique didentit
La vrication didentit consiste dcider si lidentit , clame par une personne , est correcte.
Il sagit donc de comparer les donnes biomtriques de la personne au modle constitu lors de
lenrlement de la personne et de fournir une dcision du type accept (si = ) ou refus (si
,= ). Une seule comparaison [ vs. ] est effectue chaque accs.
Quant lidentication, elle consiste dterminer si une personne est enregistre dans le systme
et, le cas chant, quelle est son identit. La dcision attendue est du type identit = : accept ou
identit inconnue : refus. Si N personnes sont enregistres dans le systme, N comparaisons sont
effectues chaque accs [ vs.
i
], pour i 1 . . . N.
Nos travaux se limiteront au cadre de la vrication didentit. Ltape de vrication est rsume schma-
tiquement et mise en relation avec ltape denrlement dans la gure 3.
Client et imposteur Au moment du test, deux situations peuvent se produire :
On parle daccs lgitime ou accs client lorsque une personne clame sa propre identit auprs
du systme de vrication biomtrique.
On parle daccs illgitime ou accs imposteur lorsquune personne clame une identit diffrente
de la sienne ( ,= ). La personne est la cible de limposteur .
Quelle modalit pour quelle application?
Toutes les modalits ne sont pas quivalentes et leur utilisation varie selon lapplication vise et les
performances souhaites. Ainsi, un systme biomtrique destin grer laccs une zone contenant des
informations trs sensibles sera diffrent dun systme biomtrique dit de confort, permettant par exemple
de jouer dans un salon la musique prfre de la personne reconnue. Plusieurs critres permettent de choisir
celle qui est la plus adapte.
Le critre le plus vident est la performance. Certaines modalits sont beaucoup plus performantes
que dautres et obtiennent de trs faibles taux derreur (citons liris et les empreintes digitales, voir le ta-
bleau 1).
Modalit Ordre de grandeur
Iris 0.1 %
Empreinte digitale 1 %
Voix 5 %
Visage 10 %
TAB. 1 Comparaison des taux dgale erreur daprs [Ross et al., 2006]
Le passage lchelle dun systme (scalability dans la littrature anglophone) est un point qui doit
tre mentionn. Ainsi, en fonction de lapplication vise et du nombre de personnes enregistres dans la
base de donnes du systme biomtrique, les performances de ce dernier peuvent tre dgrades aussi bien
du point de vue des taux derreur que de la rapidit dexcution. Selon que lon se pose le problme de la v-
rication didentit la personne correspond-elle au modle de lidentit clame ? ou de lidentication
de personnes quel modle y correspond le mieux ? , le nombre de comparaisons entre donnes bio-
mtriques et modles varie normment. Il est alors important dassocier cette variation celui du temps
dattente effectif avant la prise de dcision nale lorsque le systme est mis en application.
Le cot de la mise en place dun systme biomtrique dpend beaucoup de celui du capteur associ.
En effet, un capteur pour la modalit visage peut tre trs bon march ; en tmoigne la multiplication des
tlphones portables munis dun appareil photo. Dj des tlphones sont proposs avec un systme de v-
rication du visage pour accder aux fonctionnalits du tlphone. loppos, les capteurs diris, beaucoup
plus coteux, ne sont installs que pour protger laccs des lieux ou donnes dont la scurit est trs
sensible.
Le niveau dacceptabilit des modalits par le grand public varie selon les modalits. Ainsi, la capta-
tion de limage de liris peut effrayer certaines personnes cela va-t-il abmer mes yeux ? et les questions
dhygine peuvent survenir au moment de passer son doigt sur un capteur dempreinte digitale qui est
pass avant moi ? : il sagit de modalits dites intrusives. Ainsi, la coopration de la personne identier est
souvent indispensable au bon droulement du processus de vrication didentit [Bolle et Pankanti, 1998].
Cependant, certaines modalits (telles que le visage, la voix ou la dmarche) peuvent mener une vrica-
tion biomtrique linsu de la personne, rsolvant ainsi le problme de la coopration de la personne mais
soulevant aussi quelques questions thiques.
La premire tape dite denrlement dune personne consiste acqurir un ou des chantillon(s)
de la modalit de la personne de faon construire un modle qui lui sera associ. Cette tape peut par-
fois chouer (failure to enrol, dans la littrature anglophone). titre dexemple, environ 2% de la popu-
lation teste na pas pu senregistrer en utilisant la modalit empreinte digitale dans les travaux reports
dans [Fairhurst et al., 2004]. Il convient donc de considrer le critre duniversalit de la modalit biom-
trique.
Multi-modalit Bien que dj trs performants pris sparment, les systmes mono-modaux (i.e. ne fai-
sant appel qu une seule modalit) peuvent mener un systme multi-modal encore meilleur lorsquils sont
fusionns [Ross et al., 2006]. Cette amlioration est sensible au niveau du taux derreur mais aussi au ni-
veau de luniversalit, lutilisation de plusieurs modalits limitant de faon drastique lchec de lacquisition
dchantillons au moment de lenrlement et/ou du test [Jain et Ross, 2002].
Visage parlant
Lchantillon biomtrique disponible pour la vrication didentit par la modalit visage parlant est
un enregistrement audiovisuel de la personne parlant face la camra. En plus dtre lune des modalits
les moins intrusives et donc plus facilement accepte par le grand public [Bolle et Pankanti, 1998], la vri-
cation didentit base sur les visages parlants est intrinsquement multi-modale : elle inclut en particulier
la modalit visage et la modalit voix. Son cot est, en outre, trs faible : une simple webcam quipe dun
microphone suft pour acqurir les chantillons biomtriques. La modalit visage parlant apparat donc
comme un trs bon compromis entre tous les critres dnis prcdemment.
Plan du document
La premire partie de notre expos sera loccasion de faire un tour dhorizon de la littrature portant sur la
biomtrie par visage parlant (chapitre 1). Les protocoles dvaluation utiliss pour reporter les performances
de nos diffrents algorithmes seront lobjet du chapitre 2. Nous dcrirons ensuite le systme classique que
nous avons dvelopp, bas sur la fusion des modalits voix et visage, et valuerons ses performances (cha-
pitre 3). Notre premire contribution originale consistera dnir des tentatives dlibres dimposture (o
limposteur a acquis au pralable une photographie du visage et un enregistrement de la voix de sa cible)
an de mettre en vidence la principale faiblesse du systme initial voix+visage (chapitre 4).
Dans la deuxime partie, nous proposerons un moyen de rendre le systme de base robuste ces attaques
labores. La solution propose repose sur ltude de la synchronie audiovisuelle entre la voix et le mou-
vement des lvres. Une revue de la littrature du domaine sera lobjet du chapitre 5. Une nouvelle mesure
de la synchronie audiovisuelle (et ses quatre variantes) sera introduite et value au chapitre 6. Ltude
plus approfondie de sa variante dpendante du client nous mnera la dnition et lvaluation dune troi-
sime modalit (aprs la voix et le visage) relevant de la synchronie de la parole audiovisuelle (chapitre 7).
Dans le dernier chapitre (8), deux nouvelles stratgies de fusion des modalits voix, visage et synchronie se-
ront introduites. Nous montrerons alors comment lutilisation de cette nouvelle modalit synchronie permet
daugmenter la robustesse du systme voix+visage initial face aux tentatives dlibres dimposture.
Avertissement
La notion de synchronie audiovisuelle dveloppe dans ce rapport peut prter confusion. L o un
lecteur averti pourrait sattendre une approche locale visant dtecter des incohrences entre vnements
acoustiques et visuels, les approches dveloppes ici visent valuer un degr global de cohrence entre les
ux acoustiques et visuels.
Lvaluation, sur la tche de dtection dasynchronie, des diffrentes mesures que nous proposons a pour
unique objectif la slection de la meilleure mesure qui sera utilise par la suite dans le cadre de la vrication
didentit. Il apparat clairement que les mthodes locales bases sur la dtection dvnements ont leur mot
dire pour la tche de dtection dasynchronie. En effet, une seule incohrence (au niveau dune plosive par
exemple) suft une mthode locale pour dtecter des ux asynchrones, alors que cette incohrence sera
noye au milieu du ux pour une mesure globale.
Cependant, lobjectif nal est dobtenir, sur la tche de vrication didentit, un degr de vraisemblance
plutt quune dcision binaire synchrone/asynchrone. Les mesures globales prennent alors tout leur sens :
ce sont elles que nous tudierons dans la deuxime partie de ce document.
Premire partie
Vrication audiovisuelle de lidentit
33
Chapitre 1
Tour dhorizon
La vrication didentit base sur les visages parlants est souvent introduite dans la littrature sous
la dnomination biomtrie audiovisuelle [Aleksic et Katsaggelos, 2006] ; la plupart des travaux existants ne
considrant un visage parlant que comme la fusion des deux modalits audio (vrication du locuteur) et
visuelle (reconnaissance du visage). Lobjet de ce chapitre nest pas dentrer dans les dtails des processus
de vrication du locuteur et du visage et ni dans ceux du processus de fusion : ils ont dj t largement
tudis dans la littrature [Furui, 1997,Reynolds, 2002,Zhao et al., 2003,Li et Jain, 2005,Ross et al., 2006].
Il sagit plutt de dtailler la spcicit de la modalit visage parlant.
1.1 Vrication du visage partir dune squence vido
L o un algorithme de vrication du visage classique ne dispose que dune image (ou dun petit
nombre dimages) du visage, la vrication du visage parlant repose sur une squence vido constitue dun
grand nombre de trames. Tout algorithme de vrication du visage (quil utilise une seule image ou une s-
quence vido) est gnralement constitu de trois modules bien distincts : un module de dtection du visage,
un autre module dextraction de caractristiques et un dernier module qui est charg de la comparaison entre
ces caractristiques. Chacun de ces trois modules peut bncier de linformation supplmentaire apporte
par une squence vido.
Dtection du visage Linformation de mouvement est particulirement utile la dtection du visage. Par
exemple, Turk et al. calculaient la diffrence entre les niveaux de gris des pixels de deux trames successives,
an de rduire la rgion de recherche du visage [Turk et Pentland, 1991b]. Cependant, une telle approche
est trs sensible au mouvement qui peut se produire derrire la personne dont on cherche vrier lidentit.
35
36 CHAPITRE 1. TOUR DHORIZON
La combinaison de linformation de couleur et de mouvement permet de dterminer une zone de recherche
de visage plus robuste [Choudhury et al., 1999]. Cependant, ltape nale de dtection du visage de ce type
dapproches repose tout de mme sur les mthodes classiques de dtection du visage [Yang et al., 2002].
Lapport le plus vident de lutilisation des squences vido rside dans le fait quil est possible de mettre
en place des techniques de suivi du visage dtect sur la premire trame ou sur une autre trame o la
dtection est plus facile. Plusieurs techniques sont labores qui se rapprochent gnralement de lapproche
CAMshift [Bradski, 1998] ou des modles actifs dapparence [Zhou et al., 2004].
Extraction des caractristiques Les premiers travaux de vrication du visage bnciant des squences
vido considrent ces dernires comme un ensemble dimages indpendantes les unes des autres. Les carac-
tristiques sont alors extraites dune ou plusieurs trames (choisies alatoirement) de la squence ; comme sil
sagissait de vrication du visage partir dune image xe [Zhao et al., 2003]. Une amlioration consiste
ne conserver que les meilleures trames selon un critre dni au pralable. En effet, une rotation du visage,
de mauvaises conditions dclairage ou une expression du visage peuvent entraner une dgradation des per-
formances du systme. Par exemple, la distance lespace de visage (DFFS, pour Distance From Face Space
en anglais) peut tre utilise comme une mesure du caractre normal dun visage dtect et ainsi permettre
de rejeter les trames ventuelles sources derreur [Turk et Pentland, 1991b]. Comme le rsume la gure 1.1,
DFFS est la distance entre un visage et sa projection sur lespace de visage obtenu par analyse en compo-
santes principales. Plus rcemment, les changements de pose du visage tout au long de la squence vido
FIG. 1.1 Distance lespace de visage
1.2. DTECTION DATTAQUES 37
sont utiliss an de mener bien une reconstruction en trois dimensions du visage [Chowdhury et al., 2002]
et ainsi procder la vrication 3D du visage [Zhao et al., 2003]. Un modle 2D gnrique est propos
dans [Choudhury et al., 1999] an destimer la pose du visage et de reconstruire articiellement une vue
frontale du visage pour chacune des trames de la squence vido. Enn, linformation contenue dans les
mouvements du visage apporte une dimension dynamique aux caractristiques qui peuvent tre extraites.
Dans [Saeed et al., 2006] par exemple, lorientation du visage, les clignements des yeux et louverture de la
bouche sont autant de caractristiques dynamiques du visage utiles la vrication.
Modle et comparaison Le grand nombre de caractristiques extraites grce labondance de trames
dans les squences vidos a donn naissance de nouvelles approches de modlisation et comparaison.
Les algorithmes classiques de vrication du visage partir dimages xes nutilisent gnralement pas
de modle : les caractristiques de limage teste sont directement compares aux caractristiques issues
de limage utilise pour lenrlement. Ce principe peut tre directement tendu aux squences vido en
appliquant un processus de vote : les n trames de la squence de test sont compares, une une, aux m
trames de la squence denrlement. Chacune des n m comparaisons fournit une dcision (acceptation
ou rejet) et un vote la majorit permet la dcision nale. Dautres schmas de vote (tels que le mini-
mum, le maximum ou la moyenne des distances) sont aussi parfois envisags. [Krueger et Zhou, 2002]
montrent que les performances sont amliores avec lutilisation dun plus grand nombre dchantillons.
L o la modlisation statistique est souvent impossible avec un seul chantillon, il est possible dentraner
des modles partir dun ensemble dchantillons dune mme personne. Ainsi, dans [Bicego et al., 2005],
une machine vecteurs de support une classe (one-class SVM) est apprise partir de lensemble des
trames de la squence denrlement. Par analogie avec les approches classiques en vrication du locu-
teur, nous avons propos de modliser le visage dune personne laide dun modle de mlange de gaus-
siennes [Bredin et al., 2006a, Bredin et al., 2006b]. Dans [Bicego et al., 2006], des modles de Markov ca-
chs pseudo-hirarchiques sont proposs, o le nombre dtats est dtermin automatiquement en fonction
des mouvements du visage.
1.2 Dtection dattaques
Comme on la crit prcdemment, la plupart des systmes biomtriques bass sur les visages parlants
nest base que sur la fusion des scores produits par deux algorithmes de vrication du locuteur et de
vrication du visage. Ainsi, si aucune vrication de la prsence effective dune personne relle devant la
camra nest ralise, un tel systme est directement menac par un imposteur montrant une photographie du
visage de sa cible et rejouant une enregistrement audio de sa voix. Ce type dattaque (de type rejeu ou replay
attacks dans la littrature anglophone) nest que trs rarement pris en compte, alors mme quil constitue
lune de ses plus dangereuses menaces.
Mot cl alatoire La premire parade contre ce type dattaques peut tout aussi bien tre implmente dans
le cadre de la seule vrication du locuteur. Elle consiste demander de prononcer un mot cl (ou phrase)
alatoire diffrent chaque accs (un systme de transcription automatique de la parole se chargeant de
vrier lexactitude de la phrase rellement prononce). Cette mthode simple permet dempcher lutilisa-
tion dun enregistrement pralable de la voix de la cible. Toutefois, un systme de synthse de parole par
concatnation pourrait aisment tromper cette parade.
Analyse du mouvement Une autre solution (spcique la vrication du visage partir de squences
vido) consiste analyser le mouvement du visage et des parties du visage an de vrier quil ne sagisse
pas dun faux (une photographie, par exemple). Dans [Kollreider et al., 2005], les mouvements de plusieurs
parties du visage (nez, oreille, yeux, . . . ) sont compars et, selon quils soient proches les uns des autres
ou non, laccs est refus (les mouvements des diffrentes parties du visage sont presque identiques dans
le cas dune image) ou accept. Cependant, il existe aujourdhui de nombreux outils permettant danimer
articiellement une photographie contre lesquels ces techniques sont inefcaces.
Mesure de synchronie Une troisime solution, qui tire prot du caractre bimodal dun visage par-
lant, consiste mesurer le degr de synchronie entre la voix acquise par le microphone et le mouvement
des lvres de la personne devant la camra. Seul un petit nombre de travaux porte sur la question sp-
cique de la dtection dasynchronie pour la biomtrie base sur les visages parlants. Chetty et al. pro-
posent un modle de mlange de gaussiennes dans lespace des paramtres acoustiques et visuels conca-
tns [Chetty et Wagner, 2004]. Au moment du test, la mesure de synchronie est donne par la moyenne
des vraisemblances des paramtres audiovisuels de la squence de test par rapport ce modle de syn-
chronie. Eveno et al. proposent une mesure base sur la corrlation entre paramtres acoustiques et vi-
suels [Eveno et Besacier, 2005a, Eveno et Besacier, 2005b] laide de lanalyse de corrlation canonique
[Weenink, 2003] et lanalyse de co-inertie [Doldec et Chessel, 1994].
1.3 Parole audiovisuelle
La dernire spcicit de la modalit visage parlant est le fait que le signal de parole y est audiovisuel.
En effet, le mouvement des lvres peut tre utilis comme une source complmentaire dinformation au
signal de parole acoustique. La fusion des signaux de parole acoustique et visuel tombe classiquement dans
1.3. PAROLE AUDIOVISUELLE 39
lune de ces trois catgories : la fusion au niveau des scores, la fusion au niveau des paramtres et la fusion
au niveau des modles [Chibelushi et al., 2002].
Fusion au niveau des scores La grande majorit des systmes audiovisuels de vrication du locuteur
est base sur la fusion des scores de deux systmes de vrication du locuteur : lun bas sur le signal
acoustique seul, et lautre bas sur le seul signal visuel. Nous nentrerons pas dans les dtails du premier.
Des modles de Markov cachs (HMM, pour Hidden Markov Model) dpendant du locuteur sont entrans
laide de paramtres lis la forme des lvres dans [Jourlin et al., 1997], laide de paramtres de type
eigenlips (zone de la bouche transforme par analyse en composantes principales) dans [Dean et al., 2005]
et des coefcients DCT (transforme en cosinus discrte) de la zone de la bouche dans [Sargin et al., 2006].
Dans [Fox et al., 2007], les auteurs concluent cependant que lutilisation de modles de mlange de gaus-
siennes serait sufsante puisque les meilleures performances sont obtenues avec des HMM un seul tat.
Tous ces travaux tirent la mme conclusion selon laquelle la fusion des deux scores monomodaux (acous-
tique et visuel) est un moyen simple et efcace damliorer les performances globales de la vrication
didentit, et tout particulirement en milieu bruit.
Fusion au niveau des paramtres La fusion au niveau des paramtres consiste en la combinaison de
deux (ou plus) vecteurs de paramtres monomodaux an de former un unique vecteur de paramtres multi-
modal, utilis en entre dun systme de vrication. Dans le cas de la parole audiovisuelle, les frquences
dchantillonnage diffrent entre les deux modalits acoustique et visuelle. Typiquement, 100 vecteurs de
paramtres acoustiques sont extraits chaque seconde alors que seulement 25 (ou 30) trames vido sont dis-
ponibles pendant la mme priode. An dquilibrer les frquences dchantillonnage, une solution consiste
interpoler linairement les vecteurs de paramtres visuels [Sargin et al., 2006, Bredin et al., 2006a]. Une
autre solution consiste sous-chantillonner les vecteurs de paramtres acoustiques [Arsic et al., 2006]. Les
vecteurs concatns sont fournis en entre dun rseau de neurones (MLP, pour Multiple Layer Percep-
tron) dans [Chibelushi et al., 1997a] et dun GMM dans [Arsic et al., 2006]. Le au de la dimension (curse
of dimensionality dans la littrature anglophone) est voqu dans [Chibelushi et al., 1997a]. Une solution
consiste appliquer une analyse en composantes principales ou une analyse discriminante linaire pour
rduire la dimension des paramtres audiovisuels dans le but dobtenir conscutivement une meilleure mo-
dlisation. Dans [Sargin et al., 2006], une analyse de corrlation canonique permet dextraire des paramtres
acoustiques et visuels dimensions rduites avec une corrlation maximise, utiliss par la suite pour entra-
ner un unique HMM audiovisuel. Comme dans le cas de la fusion au niveau des scores, la fusion au niveau
des paramtres est surtout efcace dans le cas dun environnement acoustique bruit.
Fusion au niveau des modles Dans le cadre de la fusion au niveau des modles, les modles sont in-
trinsquement conus de faon tenir compte du caractre bimodal de la parole audiovisuelle. Par exemple,
les HMM coupls peuvent tre dcrits comme deux HMM parallles dont les probabilits de transition d-
pendent des tats de chacun deux. Ils ont t appliqus des paramtres acoustiques (MFCC) et visuels (ei-
genlips) transforms par LDA dans [Nean et Liang, 2003]. Les HMM-produits permettent de tenir compte
de lasynchronie entre paramtres acoustiques et visuels [Lucey et al., 2005] : une transition acoustique ne
correspond pas forcment une transition visuelle. [Andr-Obrecht et al., 1997] proposent lutilisation de
deux HMM corrls : un HMM matre traitant le ux visuel et un HMM esclave qui en dpend, traitant du
ux acoustique. Enn, les HMM asynchrones proposs dans [Bengio, 2003] modlisent la diffrence des
frquences dchantillonnage acoustique et visuelle, en introduisant la probabilit dexistence dun vecteur
de paramtres visuels un temps donn.
Chapitre 2
valuation
Dans ce chapitre, nous dnissons les mesures qui seront utilises pour raliser lvaluation objective
des performances obtenues par nos diffrentes propositions. Nous prsenterons ensuite la base de donnes
BANCA partir de laquelle nous avons men nos expriences ainsi que les protocoles dvaluation associs.
2.1 Mesures de performance
De faon comparer objectivement deux systmes, il convient dintroduire des grandeurs mathmatiques
lies aux erreurs quils peuvent commettre : cest lobjet de ce paragraphe.
2.1.1 Faux rejet et fausse acceptation
Un systme de vrication didentit biomtrique peut faire deux types derreur. Une fausse acceptation
(FA) se produit lorsquun imposteur (clamant lidentit de sa cible ,= ) nest pas rejet par le systme
et un faux rejet (FR) se produit lorsquun client (clamant sa propre identit ) est rejet par le systme.
Ces deux types derreur dpendent du seuil de dcision auquel est compar le score issu du processus de
comparaison. Une valeur leve de tendra rendre laccs plus difcile, en augmentant le nombre de faux
rejets NFR et diminuant le nombre de fausses acceptations NFA. Inversement, une valeur faible de tendra
faciliter laccs et donc augmenter le nombre de fausses acceptations NFA.
En pratique, les taux de fausse acceptation (FAR, pour False Acceptance Rate) et de faux rejet (FRR, pour
False Rejection Rate) sont mesurs exprimentalement partir dun corpus de test en comptant le nombre
41
42 CHAPITRE 2. VALUATION
de fausses acceptations et de faux rejets :
FAR() =
NFA()
NI
(2.1)
FRR() =
NFR()
NC
(2.2)
o est le seuil de dcision, NI et NC sont les nombres daccs imposteur et client respectivement dans le
corpus de test.
2.1.2 Courbe DET et EER
Les taux de faux rejet et de fausse acceptation tant tous les deux fonctions du seuil de dcision , il est
possible de reprsenter les performances dun systme en traant la valeur de FRR() en fonction de FAR()
pour variant de +, comme illustr dans la gure 2.1. En utilisant une chelle logarithmique, nous
obtenons une courbe de dtection (DET, pour Detection Error Tradeoff ) introduite dans [Martin et al., 1997].
FIG. 2.1 Courbe DET
2.1. MESURES DE PERFORMANCE 43
Une mesure de performance dcoulant de la courbe DET est le taux dgale erreur (EER, pour Equal
Error Rate), qui correspond au point particulier de la courbe DET dni par le seuil
(situ lintersection
de la courbe DET et de la droite FAR=FRR) vriant lquation (2.3) :
EER = FAR(
) = FRR(
) (2.3)
2.1.3 DCF
Bien que la courbe DET et le taux dgale erreur fournissent un bon moyen de comparer les performances
de diffrents systmes en phase de dveloppement, ils ne permettent pas dvaluer les performances de ces
systmes en situation relle de fonctionnement. En effet, en situation relle, le seuil de dcision a t x
une fois pour toute partir dun ensemble de dveloppement, optimis pour une application donne, et le
corpus de test est inconnu.
On dnit la fonction de cot de dtection (DCF, pour Detection Cost Function) comme la somme, pond-
re par les cots C
a
et C
r
, des taux de fausse acceptation FARet faux rejet FRR[Martin et Przybocki, 2000] :
DCF(
) = C
a
FAR(
) +C
r
FRR(
) (2.4)
o le seuil de dcision

a t optimis au pralable par minimisation du DCF sur lensemble de dvelop-
pement. Dans notre cas particulier o lobjectif principal est la robustesse aux tentatives dimposture, on
convient des cots C
a
= 0.99 et C
r
= 0.10 [Martin et Przybocki, 2000] : il est ainsi plus coteux pour le
systme de faire une erreur de type fausse acceptation que de rejeter une personne dont la demande daccs
tait lgitime.
DCF(
) = 0.99 FAR(
) + 0.10 FRR(
) (2.5)
Variante Une variante du DCF est le taux derreur pondr (WER, pour Weighted Error Rate) qui est
dni de faon analogue la fonction de cot de dtection, par lquation (2.6) :
WER
r
(
) =
r FAR(
) + FRR(
)
r + 1
(2.6)
o r dcrit le cot dune fausse acceptation vis--vis dun faux rejet. Typiquement, trois valeurs de r peuvent
tre choisies : r = 0.1, r = 1 et r = 10.
2.1.4 Comment sassurer quun systme est meilleur quun autre ?
Sassurer que la diffrence de performance entre deux systmes est statistiquement signicative est une
question trop souvent passe sous silence dans la littrature. Une diffrence de 10% de la valeur dun taux
de fausse acceptation estime partir de 5 accs imposteur nest sans doute pas statistiquement signicative
alors quune diffrence de 0.5% estime partir de 100000 accs lest peut-tre. . . [Guyon et al., 1998,
Bengio, 2003].
Modlisation statistique des taux derreur (daprs [Bengio, 2003]) Sous lhypothse que les accs
au systme sont indpendants, les dcisions binaires prises par le systme sont elle aussi indpendantes.
Il est donc raisonnable de supposer que la variable alatoire X reprsentant le nombre derreurs suit une
loi binomiale B (n, p) o n est le nombre de tests et p est le taux derreur. En outre, il est connu quune
distribution binomiale B (n, p) peut tre approxime par une distribution normale ^
_
,
2
_
avec
= np et
2
= np(1 p) (2.7)
lorsque n est sufsamment grand. Enn, si X ^ (np, np(1 p)), alors la distribution du taux derreur
Y =
X
n
est aussi une distribution normale :
Y ^
_
p,
p(1 p)
n
_
(2.8)
Il est alors possible de calculer un intervalle de conance autour de lestimation p du taux derreur en
dterminant les bornes p , p + telles que :
P (p < Y < p +) = (2.9)
o est la mesure de conance (classiquement = 95%) en lestimation p du taux derreur. Dans le cadre
dune distribution normale, la valeur de peut facilement tre obtenue laide de la table de la loi normale.
Intervalle de conance sur FAR, FRR et DCF En appliquant la mthode au nombre de fausses accepta-
tions (X = NFA), on obtient p = FAR, n = NI et lintervalle de conance CI(FAR) sur le taux de fausse
acceptation via lquation (2.10) :
CI(FAR) = FAR
_
1
NI
FAR(1 FAR) (2.10)
2.2. BASE DE DONNES 45
o = 1.960 dcrit un intervalle de conance 95% et = 2.576 un intervalle de conance 99%. Par
analogie, on obtient pour les faux rejets :
CI(FRR) = FRR
_
1
NC
FRR(1 FRR) (2.11)
Sous lhypothse que les accs client et imposteur sont indpendants, les taux derreur FAR et FRR le
sont aussi. Or, la somme de deux lois normales indpendantes est aussi une loi normale. Par consquent,
lintervalle de conance CI(DCF) de la fonction de cot de dtection est obtenu via lquation (2.12) :
CI(DCF) = DCF
_
0.99
2
NI
FAR(1 FAR) +
0.10
2
NC
FRR(1 FRR) (2.12)
Comparaison On considre deux systmes S
1
et S
2
dont les performances sur lensemble de test sont
DCF
1
et DCF
2
avec DCF
2
< DCF
1
. Le systme S
2
est signicativement meilleur que le systme S
1
si
la valeur de DCF
2
est lextrieur de lintervalle de conance CI(DCF
1
). Dans le cas contraire, aucune
conclusion statistiquement signicative ne peut tre dduite quant au meilleur des deux systmes.
Remarque Les quations (2.10) et (2.11) reposent toutes deux sur lhypothse selon laquelle n est suf-
samment grand (n = NI ou NC). Dans le cas des attaques de type Big Brother et Crazy Talk dnies au
chapitre 4, cette hypothse nest pas vrie (NI = 52). Il est alors possible de montrer que lintervalle de
conance 100 (1 ) % sur FAR est dni par lquation suivante :
FAR
_
_
2
(2 NFA)
2 NI
,
2
1
2
(2 NFA + 2)
2 NI
_
_
(2.13)
o
2
(n) est la loi du Khi-Deux n degrs de libert [Saporta, 1978]. Dans le cas dun intervalle de
conance 95%, = 0.05.
2.2 Base de donnes
Plusieurs bases contenant des donnes permettant lvaluation de systmes de vrication de liden-
tit des visages parlants sont disponibles. Citons les bases de donnes BT-DAVID [BT-DAVID, 1996],
XM2VTSDB[Messer et al., 1999], CUAVE [Patterson et al., 2002], BANCA[Bailly-Baillire et al., 2003],
Biomet [Garcia-Salicetti et al., 2003], MyIDEA [Dumas et al., 2005] et SecurePhone [Morris et al., 2006].
La base de donnes BANCA (Biometric Access control for Networked and e-Commerce Applications)
est une base de donnes audiovisuelles destine laide au dveloppement et lvaluation de systmes
de vrication didentit [Bailly-Baillire et al., 2003]. Les squences audiovisuelles ont t acquises dans
quatre langues europennes : une squence de chiffres suivie des nom et adresse de la personne ont t
enregistrs pour chaque accs. Nous nous concentrons cependant sur la seule partie en langue anglaise, dont
la constitution est rsume dans le schma de la gure 2.2 et dtaille ci-dessous.
FIG. 2.2 Description de la base BANCA
2.3. PROTOCOLES DVALUATION 47
Elle est divise en deux groupes disjoints de personnes, appels G1 et G2 par la suite. Chaque groupe est
constitu de 26 personnes rparties quitablement par genre : 13 femmes et 13 hommes. Trois conditions
diffrentes denregistrement, illustres dans la gure 2.3, ont t appliques. Dans la condition controlled,
la personne apparat face la camra sur un fond bleu xe et une camra DV est utilise pour lacquisi-
tion. Dans la condition degraded, lenregistrement a lieu dans un bureau laide dune webcam de moins
bonne qualit. Enn, les enregistrements de la condition adverse ont lieu dans un rfectoire universitaire, o
dautres personnes peuvent circuler en arrire-plan.
FIG. 2.3 Exemple des conditions controlled, degraded et adverse
Dans chacune des trois conditions, chaque personne a particip quatre sessions espaces dans le temps,
numrotes de 1 4 pour la condition controlled, de 5 8 pour la condition degraded et de 9 12 pour
la condition adverse. Chaque session est elle-mme constitue de deux squences audiovisuelles. Dans la
premire, la personne prononce, face la camra, son nom et son adresse : on parle daccs client. Dans la
seconde, elle prononce le nom et ladresse dune autre personne : on parle daccs imposteur, puisquelle
prtend tre une autre personne.
Un troisime groupe, appel world model, regroupe une trentaine de personnes ayant chacune enregistr
deux squences. Les 60 squences rsultantes (20 en conditions controlled, 20 degraded et 20 adverse) sont
disponibles pour le dveloppement des diffrents algorithmes.
2.3 Protocoles dvaluation
La base de donnes BANCA tant constitue de deux groupes disjoints G1 et G2, il est prvu dutiliser
lun deux comme ensemble de dveloppement et lautre comme ensemble de test. Lensemble de dve-
loppement permet le rglage des diffrents modules du systme de vrication didentit. Par exemple, le
seuil de dcision

utilis pour le calcul du DCF, les poids de fusion dnis la page 64 et la mesure
de conance dnie la page 122 sont tous rgls partir de lensemble de dveloppement avant dtre
appliqus directement sur lensemble de test de faon mesurer les performances.
En pratique, les mesures DCF, FAR et FRR sont calcules partir des deux ensembles de test G1 et G2.
2
et

1
tant les seuils optimiss par minimisation du DCF sur les ensembles de dveloppement G2 et G1
respectivement, les quations (2.1) et (2.2) de la page 42 deviennent :
FAR =
NFA
G1
(
2
) + NFA
G2
(
1
)
NI
G1
+ NI
G2
(2.14)
FRR =
NFR
G1
(
2
) + NFR
G2
(
1
)
NC
G1
+ NC
G2
(2.15)
2.3.1 Protocole P
Le protocole Pooled est lun des protocoles distribus avec la base de donnes BANCA et qui a t utilis
lors dune comptition en 2004 [Messer et al., 2004].
Enrlement Pour chaque personne , la squence audiovisuelle de laccs client de la session 1 de la
condition controlled est utilise comme donne denrlement pour obtenir le modle .
Tests client Pour chaque personne , les squences audiovisuelles des accs client de des sessions 2 4
(controlled), 6 8 (degraded) et 10 12 (adverse) sont compares au modle . Au nal, le protocole
P prvoit donc 9 tests client par personne, soit 234 tests client par groupe.
Tests imposteur Pour chaque personne , toutes les squences audiovisuelles des accs imposteur de
(sessions 1 12) sont compares au modle de la personne dont prononce le nom et ladresse. En
entrant dans le dtail de ces accs imposteur, on note que la personne est en fait compare chacune
des 12 autres personnes du mme groupe et du mme sexe. Au nal, le protocole P prvoit donc 12
tests imposteur par personne, soit 312 tests imposteur par groupe.
2.3.2 Protocole txtP
Le protocole P peut tre considr comme un protocole dpendant du texte. En effet, chaque personne
sont associs un nom et une adresse qui lui sont propres et quelle prononce lors de ses accs client. En outre,
lors des accs imposteur, limposteur prononce le nom et ladresse que sa cible utilise pour sauthentier.
On introduit donc le protocole txtP indpendant du texte, qui est une adaptation du protocole P original.
2.3. PROTOCOLES DVALUATION 49
Enrlement En ce qui concerne lenrlement, les protocoles P et txtP sont identiques.
Tests client Pour chaque personne , les squences audiovisuelles des accs imposteur de la personne des
sessions 1 12 sont compars au modle de la personne . Ainsi, le texte prononc dans la squence
de test est toujours diffrent de celui prononc dans la squence denrlement. Au nal, le protocole
txtP prvoit donc 12 tests client par personne, soit 312 tests client par groupe.
Tests imposteur Les tests imposteur du protocole txtP sont identiques ceux du protocole P.
Le protocole txtP est dit indpendant du texte dans le sens o le texte prononc lors de chaque accs client
est diffrent du texte prononc lors de la squence audiovisuelle denrlement. Il sera utilis pour valuer
linuence de la phrase dauthentication sur la nouvelle modalit biomtrique base sur la synchronie
audiovisuelle introduite dans le chapitre 7.
2.3.3 Protocole xP
Le nombre de tests du protocole original P tant trs limit, ce dernier possde un intrt limit par les
larges intervalles de conance (dnis dans le paragraphe 2.1.4) qui en dcoulent. Nous avons donc dni
le protocole xP, comme une extension du protocole P.
Enrlement En ce qui concerne lenrlement, les protocoles P et xP sont identiques.
Tests client Pour chaque personne , toutes les squences audiovisuelles de (accs client et imposteur,
lexception de la session 1) sont compares au modle . Au nal, le protocole xP prvoit donc 22
tests client par personne, soit 572 tests client par groupe.
Tests imposteur Pour chaque personne , toutes les squences audiovisuelles des autres personnes (accs
client et imposteur) sont compares au modle . Au nal, le protocole xP prvoit donc 600 tests
imposteur par personne, soit 15600 tests imposteur par groupe.
Ce protocole tendu permet dobtenir un nombre de scores plus important qui pourra tre utilis pour le
rglage des diffrents paramtres que nous introduirons au fur et mesure de notre expos ; en particulier,
les paramtres de normalisation des scores de la page 63 et la mesure de conance dnie la page 122.
2.3.4 Protocole S
L o le protocole P (et ses variantes) permet lvaluation des performances dun systme de vrication
didentit, le protocole S que nous avons dni sattaque un problme diffrent, soulev dans le chapitre 6 :
la dtection de lasynchronie. Il sagit de dcider si la voix capte par le microphone et le mouvement des
lvres acquises par la camra ont t produits simultanment par une seule et mme personne. On parle alors
de squence synchrone. Dans le cas contraire, la squence est dite asynchrone. Deux ensembles de squences
audiovisuelles (o la personne prononce une squence de chiffres suivie dun nom et une adresse) sont ainsi
constitus :
Squences synchrones Toutes les squences originales de la base BANCA sont synchrones. Aussi, les 24
squences (12 sessions constitues dun accs client et dun accs imposteur) de chaque personne
constituent lensemble des squences synchrones : nous obtenons ainsi NC = 624 accs synchrones
par groupe.
Squences asynchrones Les squences asynchrones sont gnres articiellement en combinant la partie
audio et la partie vido de deux squences diffrentes. La dure de la squence nale est choisie
comme tant le minimum des dures de la partie audio et de la partie vido. Pour chaque personne,
56 squences asynchrones sont ainsi gnres partir dun enregistrement de sa voix et de la partie
vido dune autre squence (de cette mme personne 12 squences , ou non 44 squences). Nous
obtenons ainsi NI = 1456 accs asynchrones par groupe.
Bien que provenant de deux squences diffrentes, les mmes nom et adresse sont prononcs dans les par-
ties audio et vido des squences asynchrones, rendant la tche de dtection dasynchronie particulirement
difcile dans certains cas.
Important Les nombres NI, NC, NFA et NFR correspondant lvaluation sur le protocole S (ddi
la tche de dtection dasynchronie) ont une signication diffrente de NI, NC, NFA et NFR obtenus
partir du protocole P et ses variantes (ddis la tche de vrication didentit) :
NI est le nombre de squences asynchrones ;
NC est le nombre de squences synchrones ;
NFA est le nombre de squences asynchrones faussement classes comme tant synchrones ;
NFR est le nombre de squences synchrones faussement classes comme tant asynchrones.
2.4 Base de donnes et protocoles additionnels
Dans le cadre du projet Technovision IV2, une base de donnes a t acquise dans le but dorganiser une
campagne dvaluation de systmes biomtriques bass (entre autres modalits) sur les visages parlants. Les
expriences ralises dans ce cadre sont reportes dans lannexe A (page 137) o sont prsents la base de
donnes, le protocole dvaluation associ ainsi que les performances obtenues par nos diffrents systmes.
Chapitre 3
Systme initial
An de mettre en avant nos contributions centres sur lanalyse de la synchronie dans la parole au-
diovisuelle , un premier systme tat-de-lart de vrication didentit bas sur les visages parlants a t
dvelopp. Il est bas sur la fusion des scores obtenus par deux sous-systmes monomodaux de vrication
du locuteur et dauthentication du visage. Ces travaux ont t en partie publis dans larticle de confrence
intitul The Biosecure Talking-Face Reference System et reproduit en annexe [Bredin et al., 2006a].
3.1 Vrication du locuteur
Le module de vrication du locuteur est bas sur lapproche classique par modles de mlange de gaus-
siennes : la gure 3.1 rsume son fonctionnement.
Dtection du silence An de ne conserver que la partie du signal acoustique dentre correspondant aux
plages o le locuteur est effectivement en train de parler, la premire tape consiste supprimer les plages
de silence. Tout dabord, la distribution de lnergie du signal acoustique est modlise par un mlange
bigaussien : la gaussienne de moyenne la plus leve tant associe lactivit vocale, et celle de moyenne
la plus faible au silence (qui nest jamais parfait, du fait du bruit ambiant). La gure 3.2 prsente le rsultat
de cette modlisation sur un exemple. Un seuil s est ensuite x la valeur s
0
(reprsent par le trait
noir vertical) estime partir des moyenne et variance de la gaussienne correspondant lnergie
dactivit vocale (celle la plus droite) : s
0
= 2. Si lnergie est infrieure au seuil, la fentre de signal
correspondante est dtecte comme silence. La gure 3.3 prsente le rsultat de la dtection du silence sur
le mme exemple que prcdemment.
51
52 CHAPITRE 3. SYSTME INITIAL
FIG. 3.1 Dtail des modules de la vrication du locuteur
Extraction des vecteurs de paramtres Un vecteur de 12 paramtres MFCC (pour Mel-Frequency Ceps-
tral Coefcients), dont le processus dextraction est schmatis dans la gure 3.4, est extrait toutes les 10 ms
sur une fentre glissante de longueur 20 ms. Ne sont conservs que les vecteurs de paramtres correspon-
dants aux fentres classes par le dtecteur de silence comme non silence. Plusieurs jeux de paramtres
peuvent tre extraits selon que lon ajoute lnergie, les drivs premires (appeles par la suite) ou
secondes ().
Modlisation par mlange de gaussiennes Un modle du monde (not UBM pour Universal Back-
ground Model dans la gure 3.1) est tout dabord appris partir dune grande quantit de donnes ac-
quises auprs dun large chantillon de locuteurs, de faon couvrir au maximum la variabilit des locu-
teurs. Lapprentissage de ce modle de mlange de gaussiennes est ralis par le biais de lalgorithme EM
[Dempster et al., 1977]. Une fois ce modle disponible, il est possible de ladapter un locuteur particulier
grce ses donnes denrlement. Lapproche MAP (Maximum A Posteriori) nous permet ainsi dobtenir
un modle adapt aux donnes du locuteur [Reynolds et al., 2000b].
3.1. VRIFICATION DU LOCUTEUR 53
11 10 9 8 7 6 5 4 3 2
0
20
40
60
80
100
11 10 9 8 7 6 5 4 3 2
0
0.1
0.2
0.3
0.4
FIG. 3.2 Modlisation bigaussienne de lnergie. La distribution relle de lnergie du signal acoustique
est prsente en bleu dans la courbe en haut. Sa modlisation bigaussienne est reprsente dans la courbe en
bas (en vert pointill, la gaussienne associe au silence ; en rouge continu, celle associ lactivit vocale).
Le seuil (trait noir vertical) est calcul partir de la moyenne et de la variance de la gaussienne associe
lactivit vocale.
Rapport de vraisemblance Au moment du test, il sagit de vrier si la personne dont la voix est
acquise est bien la personne quelle prtend tre. Les vecteurs de paramtres extraits de la squence
(MFCC) sont compars au modle du locuteur , ainsi quau modle du monde . Le rapport de ces
vraisemblances S est nalement compar un seuil permettant de vrier lidentit clame par le locuteur.
En rsum, notant x un vecteur de paramtres MFCC, on obtient :
S
locuteur
([) =
p(x[)
p(x[)
(3.1)
Laccs est accept si S
locuteur
([) > et refus dans le cas contraire.
Performances Le systme de vrication du locuteur utilis repose sur une modlisation GMM 256
gaussiennes, dans lespace 36 dimensions des MFCC auquel on a ajout les drivs secondes et premires
(on note MFCC + + ). Le modle du monde UBM est appris partir des enregistrements des 30
0 100 200 300 400 500 600 700
0.5
0
0.5
1
1.5
0 100 200 300 400 500 600 700
12
10
8
6
4
2
FIG. 3.3 Dtection du silence. Lvolution de lnergie du signal acoustique est prsente en bleu, dans la
courbe en haut. La courbe rouge, en bas, prsente le rsultat de la dtection du silence (0 signie silence, 1
signie activit vocale).
FIG. 3.4 Extraction des MFCC
personnes issus de la partie world model de BANCA, qui reprsentent environ 10 minutes de parole. Les
performances de ce systme sur le protocole P sont rsumes dans la gure 3.5. Nous avons, en outre, utilis
la bote outils BECARS
1
pour la modlisation GMM et le calcul des vraisemblances [Blouet et al., 2004].
1
http://www.tsi.enst.fr/becars
3.2. VRIFICATION DU VISAGE 55
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
Taux de fausse acceptation (en %)
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Protocole P DCF = 5.84 1.08%
FAR = 1.61 0.99%
FRR = 42.49 4.49%
FIG. 3.5 Performances du systme de vrication du locuteur
Discussion Rappelons ici que deux canaux audio sont disponibles pour chacune des vidos (lun de bonne
qualit et lautre acquis avec un microphone de mauvaise qualit et trs bruit). Nous avons ici choisi duti-
liser le canal de mauvaise qualit. Ceci explique en partie les performances assez loignes de ce que lon
peut trouver dans la littrature ltat-de-lart. Une autre explication rside dans la petite taille de lensemble
dapprentissage du modle du monde.
3.2 Vrication du visage
Le module de vrication du visage est bas sur lapproche classique des eigenfaces propose par Turk et
Pentland [Turk et Pentland, 1991a]. En outre, nous proposons dutiliser la redondance dinformation dispo-
nible dans la squence vido (chacune des trames fournissant un vecteur de paramtres dcrivant le visage)
en slectionnant plusieurs trames selon un critre de qualit dni par la suite. La mesure de similarit entre
donnes denrlement et donnes de test est base sur lapproche classique de la distance de Mahalano-
bis [Mahalanobis, 1936]. La gure 3.6 dcrit cette approche.
FIG. 3.6 Dtail des modules de la vrication du visage
Dtection du visage La premire tape indispensable la vrication du visage est la dtection de celui-
ci. Lalgorithme propos par Fasel et al. est utilis ici [Fasel et al., 2004]. Dans chaque trame de la squence
vido, un dtecteur de Viola & Jones est appliqu pour obtenir toutes les zones candidates contenir un
visage [Viola et Jones, 2002]. An damliorer la prcision spatiale des visages dtects (et en prvision de
ltape suivante de normalisation), les yeux sont leur tour dtects en appliquant le trs fort a priori selon
lequel deux yeux doivent tre dtects dans la rgion dintrt. Les dtails de cet algorithme sont dcrits
dans [Fasel et al., 2004]. Nous utilisons son implmentation open-source propose dans la bote outils
Machine Perception Toolbox [Fasel et al., 2004]. Enn, nous faisons appel la priori trs contraignant
quun seul visage est cens apparatre devant la camra (la personne dont on cherche authentier lidentit).
Par consquent, tous les visages dtects tort peuvent tre supprims en ne conservant que le plus grand
des visages dtects.
Extraction des vecteurs de paramtres Une fois le visage et les yeux dtects, le visage est normalis de
faon ce que les yeux soient centrs et aligns horizontalement. Un masque ovale permettant de supprimer
des pixels de fond et une galisation dhistogramme sont aussi appliqus, comme le montre la gure 3.7. Le
visage de chaque trame de la vido peut alors tre projet dans lespace de visage, obtenu par analyse en
FIG. 3.7 Normalisation du visage. Le visage est normalis en fonction de la position des yeux dtects.
Un masque ellipsode est ajout an de supprimer le fond.
composantes principales suivant le principe des eigenfaces [Turk et Pentland, 1991a]. Cependant, la qualit
de dtection varie selon les images. Aussi, pour mener bien la modlisation et/ou la reconnaissance, une
slection des meilleurs visages (selon un critre que lon dnit par la suite) est effectue an de ne conserver
que ces vecteur de paramtres.
Slection des meilleurs visages La distance lespace de visage (DFFS, pour Distance From Face Space)
[Turk et Pentland, 1991b, Potamianos et al., 2003] est utilise comme un indicateur permettant de dtermi-
ner la vraisemblance selon laquelle une zone dtecte automatiquement correspond effectivement un vi-
sage. Plus une zone candidate est proche de son propre projet dans lespace de visage, plus il est probable
que le visage ait t correctement dtect. La gure 3.8 illustre ce principe. Pour chaque zone candidate,
un indice de conance r est calcul partir de la distance lespace de visage par inversion de celle-ci :
r = 1/DFFS. Ainsi, plus r est grand, plus il est probable que le visage soit correctement localis. La -
gure 3.9 illustre le rsultat de la slection des meilleurs visages dune mme squence, en utilisant cet indice.
FIG. 3.8 Distance lespace de visages
FIG. 3.9 Slection des meilleurs visages. tant donne une squence vido, lindice de conance r(t) est
calcul pour chaque trame t. Le maximum r
max
= max r(t) est choisi comme rfrence. Un visage t est
nalement conserv si r(t) > r
max
o est x 2/3 dans notre cas.
Distance de Mahalanobis Au moment du test, il sagit de vrier si la personne dont le visage est
acquis est bien la personne quelle prtend tre. Les vecteurs de paramtres x
i
extraits de la squence de
test (i variant de 1 N) sont compars aux vecteurs de paramtres x
j
extraits de la squence denrlement

(j variant de 1 N
) laide de la distance de Mahalanobis [Mahalanobis, 1936] :

d(x
i
, x
j
) =
_
(x
i
x
j
)
t
(x
i
x
j
) (3.2)
o
est la matrice de covariance des x

j
: il sagit dune distance euclidienne dans lespace o chaque

dimension est normalise par sa variance. Ces N N
distances sont alors tries dans lordre croissant et

loppos de la moyenne des n plus petites distances est choisie comme la mesure de similarit S
visage
([)
(dans notre cas, n est x 10). Cette mesure est nalement compare un seuil permettant de vrier
lidentit clame par la personne :
visage
Performances Le systme de vrication du visage utilis repose sur des vecteurs de paramtres de di-
mension 80 (les projections sur les 80 premires composantes principales). Ces composantes principales ont
t obtenues partir dune base de donnes denviron 2200 visages issus de plusieurs bases :
ATT [AT&T Laboratories Cambridge, 1994] ;
BANCA world model [Bailly-Baillire et al., 2003] ;
CALTECH [Weber, 1999] ;
GeorgiaTech [Georgia Institute of Technology, 1999] ;
Biomet [Garcia-Salicetti et al., 2003].
Les performances de ce systme sur le protocole P sont rsumes dans la gure 3.10.
Discussion Au vu de la relative faiblesse de ce module, nous avons propos deux pistes damlioration
du systme de vrication du visage. La premire est une adaptation directe de la technique propose par
Dehak et Chollet [Dehak et Chollet, 2006] pour la vrication du locuteur par modle de mlange de gaus-
siennes [Bredin et al., 2006b]. La seconde sattaque au problme de la paramtrisation en fusionnant deux
systmes, lun bas sur les eigenfaces et lautre sur les descripteurs SIFT [Landais et al., 2007]. Ces deux
publications se trouvent en annexe.
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Protocole P DCF = 8.05 1.20%
FAR = 2.09 1.12%
FRR = 59.87 4.45%
FIG. 3.10 Performances du systme de vrication du visage
3.3 Normalisation des scores
Rappelons le test menant la dcision nale des systmes de vrication du locuteur et du visage :
Laccs est accept si S([) > et refus dans le cas contraire.
Le choix dun seuil indpendant du client est un domaine de recherche part entire, qui a t tudi
en dtails par la communaut des chercheurs en vrication du locuteur [Bimbot et al., 2004]. La principale
difcult est issue de la grande variabilit des scores issus du module de comparaison. Cette variabilit peut
provenir des conditions denrlement diffrentes selon les clients (variabilit inter-client) ou des variabilits
intra-client (dues lge, ltat motionnel ou de sant, . . . ) ou encore des conditions dacquisition des
donnes au moment du test. Une solution consiste centrer, pour chaque client, la distribution des scores
imposteur en appliquant une transformation /, rsume dans lquation (3.3) :
S
normalis
([) =
S([)
(3.3)
3.3. NORMALISATION DES SCORES 61
Le lecteur intress pourra se rfrer [Bimbot et al., 2004] comme introduction aux diffrentes mthodes
de normalisation des scores (Znorm, Hnorm, Tnorm, HTnorm, Cnorm, Dnorm, . . . ). Nous avons appliqu
la Znorm.
3.3.1 Znorm
Au moment de lenrlement du client , son modle est compar un ensemble de squences dim-
posteurs (extraites de lensemble de dveloppement, typiquement) de faon estimer la moyenne
et la
variance
2
des scores imposteur associs au client . On note Z le score issu de la Z-normalisation :
Z([) =
S([)
(3.4)
Comme lillustre la gure 3.11, la Znorm a pour effet de centrer la distribution des scores imposteur (ligne
ne) en en diminuant sensiblement la variance.
Original Znorm
15 10 5 0
0
0.02
0.04
0.06
0.08
0.1
0.12
10 5 0 5 10 15
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
FIG. 3.11 Effet de la Znorm sur les scores Distribution des scores visage avant ( gauche) et aprs
Znorm ( droite). La ligne paisse correspond la distribution des scores client, la ligne ne celle des
scores imposteur.
Limpact de la Znorm sur les performances des modules de vrication du locuteur et du visage est
prsent dans la gure 3.12 laide de courbes DET. Bien que lamlioration apporte par la Znorm soit
relativement faible, le systme rsultant est toujours au moins aussi bon que le systme original utilisant les
scores bruts.
Groupe 1 Groupe 2
Locuteur
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
ZNorm
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
ZNorm
Visage
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
ZNorm
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
ZNorm
FIG. 3.12 Effet de la Znorm sur les performances Courbes DET avant et aprs Znorm, pour les modalits
voix (en haut) et visage (en bas).
Remarque Les gures 3.5 et 3.10 (pages 55 et 60 respectivement) dcrivant les rsultats obtenus par les
deux modules de vrication du locuteur et du visage tiennent compte de la Znorm.
3.3. NORMALISATION DES SCORES 63
3.3.2 Normalisation tanh
Le paragraphe 3.4 qui suit a pour objet la fusion au niveau des scores des deux systmes de vrication
du locuteur et du visage laide dune somme pondre des scores S
locuteur
et S
visage
(ou plutt leur
version Z-normalise Z
locuteur
et Z
visage
). An de faciliter la recherche des poids optimaux, une tape
supplmentaire de normalisation des scores vise sassurer que les scores locuteur et les scores visage
possdent le mme ordre de grandeur [Jain et al., 1999, Ross et al., 2006].
Les rsultats de [Jain et al., 2005] montrent que la normalisation tanh est lune des techniques de norma-
lisation les plus robustes et efcaces. Elle est dnie par lquation (3.5) :
S([) = 0.5
_
1 + tanh
_
0.01
Z([)
c
c
__
(3.5)
o
c
et
c
2
sont les moyenne et variance de la distribution des scores client estimes sur lensemble de
dveloppement. La gure 3.13 illustre, droite, le rsultat de cette normalisation : lordre de grandeur et
lamplitude de variation des scores locuteur et visage sont comparables.
Original Normalisation tanh
20 10 0 10 20 30 40
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.46 0.47 0.48 0.49 0.5 0.51 0.52 0.53
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
FIG. 3.13 Effet de la normalisation tanh sur les scores Distribution des scores locuteur (en rouge) et
visage (en bleu) avant ( gauche) et aprs normalisation tanh ( droite). La ligne paisse correspond la
distribution des scores client, la ligne ne celle des scores imposteur.
3.4 Fusion des scores
ce stade de la vrication, les deux modules de vrication du locuteur et du visage ont chacun fourni
un score (
S
locuteur
([) et

S
visage
([), respectivement). Lobjectif de la fusion des scores est dobtenir,
partir de ces deux scores, un score global rsultant en une performance globale meilleure que celle de
chacun des deux modules. La fusion choisie, simple mais efcace [Jain et al., 2005], consiste alors en une
somme pondre des scores des deux modules, comme le rsume lquation (3.6).
S([) = w
l

S
locuteur
([) +w
v

S
visage
([) avec w
l
+w
v
= 1 (3.6)
Lestimation des poids w
l
et w
v
se fait laide de lensemble de dveloppement, en minimisant la fonction
de cot de dtection DCF dnie par lquation (2.5) la page 43.
Laccs est accept si S([) > et refus dans le cas contraire.
Rsultats Lestimation des poids w
l
et w
v
sur les ensembles de dveloppement conduit donner environ
deux fois plus de poids la modalit voix qu la modalit visage : w
l
= 0.66 et w
v
= 0.34 pour G1 et
w
l
= 0.62 et w
v
= 0.38 pour G2. La gure 3.14 rsume les performances du systme bas sur la fusion
locuteur+visage, pour le protocole P.
Discussion Au regard du tableau de la gure 3.14, les performances obtenues par le systme fusionn,
en termes de DCF et FAR, ne sont pas signicativement diffrentes de celles obtenues par le meilleur des
deux systmes monomodaux, savoir la vrication du locuteur. En revanche, lamlioration apporte par
la fusion en termes de faux rejet est statistiquement signicative. DCF constant, le systme fusionn offre
donc plus de confort aux clients lgitimes qui se verront moins souvent refuser laccs.
3.4. FUSION DES SCORES 65
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Locuteur
Visage
Fusion
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Locuteur
Visage
Fusion
Fusion DCF = 5.82 1.19%
FAR = 2.09 1.12%
FRR = 37.55 4.40%
Locuteur DCF = 5.84 1.08%
FAR = 1.61 0.99%
FRR = 42.49 4.49%
Visage DCF = 8.05 1.20%
FAR = 2.09 1.12%
FRR = 59.87 4.45%
FIG. 3.14 Performances du systme locuteur+visage
Chapitre 4
Attaques
La grande majorit des systmes de vrication didentit base sur les visages parlants repose unique-
ment sur la fusion (au niveau des scores) de deux sous-systmes de vrication du locuteur et de recon-
naissance du visage. En consquence, un imposteur jouant un enregistrement sonore de la voix de sa cible
tout en prsentant une photographie de son visage devant la camra obtiendrait laccs : aucun des deux
sous-systmes voqus plus haut ne permet de vrier la prsence effective dune personne relle devant la
camra.
Il est tonnant de constater que les bases de donnes et protocoles dvaluation associs diffuss dans
la communaut des chercheurs en biomtrie partagent tous la mme philosophie : ils sont dnis de fa-
on valuer les performances brutes de vrication didentit et ne tiennent pas compte de lventualit
dattaques dlibres dimposteur telles que celle que nous venons de dcrire. titre dexemple, les accs
imposteur du protocole P de la base BANCA ne sont considrs comme tels que du seul fait que le nom
et ladresse prononcs par la personne (limposteur) sont ceux dune autre personne (la cible). Aucun rel
effort nest dploy par limposteur pour ressembler sa cible et ainsi tromper le systme. Cest ce titre
que nous parlons dimposture alatoire.
Par dnition, un imposteur est quelquun qui essaie de se faire passer pour quelquun dautre. Pour
mettre toutes les chances de son ct, un imposteur mettra en oeuvre des techniques plus labores. L o
limposteur alatoire ne possde aucune connaissance a priori sur sa cible autre que son nom et son adresse,
limposteur dlibr aura pralablement collect un maximum dinformation sur sa cible.
67
68 CHAPITRE 4. ATTAQUES
Dans le cadre de la vrication didentit biomtrique dun visage parlant, un imposteur essaiera de se
procurer, linsu de sa cible, du matriel biomtrique le reprsentant. Il convient de remarquer ici que la
voix et le visage dune personne ne sont pas des informations secrtes. moins que la cible vive dans un
endroit reclus tenu secret et coup du monde, il est ais de se procurer la photographie du visage dune
personne et/ou un enregistrement sonore de sa voix. La gnralisation et la miniaturisation des appareils
photo rend lacquisition discrte de la premire trs facile et une simple conversation tlphonique permet
dacqurir le second. Cette spcicit de la multimodalit visage parlant est donc aussi sa plus grande
faiblesse. Comparativement, il est beaucoup plus difcile (mais nanmoins ralisable) dobtenir une image
de liris linsu dune personne.
Les tentatives dlibres dimposture nont que trs peu t tudies dans la littrature. Chetty et Wag-
ner simulent des attaques dans lesquelles un imposteur prsente une photographie du visage de sa cible
devant la camra en construisant articiellement des squences audiovisuelles o la mme image du vi-
sage de la cible est rpte tout au long de la squence [Chetty et Wagner, 2004]. Bien quelle ait le mrite
dexposer les limites dun systme de vrication didentit base sur les visages parlants, cette simula-
tion est nanmoins peu raliste et facilement dtectable. Kollreider et al. amliorent un peu ces simulations
en ajoutant une translation horizontale et verticale limage rpte [Kollreider et al., 2005]. Pour gagner
en ralisme, Jee et al. ont ralis de vraies attaques en prsentant une photographie de la cible devant la
camra [Jee et al., 2006]. Lexploitation des rsultats est nanmoins limite par le nombre relativement res-
treint des attaques (seules 10 personnes ont t photographies).
En outre, notre connaissance, limpact de ces attaques sur les performances globales de vrication
didentit na jamais t tudi : seule lefcacit des algorithmes de dtection des attaques est reporte. Il
est donc difcile dvaluer lapport des mthodes proposes pour la vrication didentit.
4.1 Attaques de type rejeu
An de montrer les limites du systme initial, nous avons simul des attaques de type rejeu qui nous
semblent tre les attaques les plus faciles mettre en oeuvre pour mettre dfaut un systme bas sur la
fusion des scores de deux sous-systmes de vrication du locuteur et du visage. Parmi les attaques de type
rejeu, nous distinguons les attaques suivantes
1
:
1
Un exemple de squence imposteur est propos en ligne ladresse http://www.tsi.enst.fr/~bredin/these,
section Complments multimdia, pour chaque type dattaque.
4.1. ATTAQUES DE TYPE REJEU 69
Paparazzi Dans le cadre du scnario baptis Paparazzi, limposteur a acquis au pralable une photo-
graphie du visage de sa cible. Au moment du test, il la prsente devant la camra tout en prononant
le nom et ladresse de sa cible. Nous avons simul ce type dattaque en lmant un morceau de papier
bleu prsent devant la camra, sur lequel nous avons coll la photographie de la cible a posteriori. La
gure 4.1 rsume schmatiquement ce scnario. Cette simulation est beaucoup plus raliste que celles pro-
poses dans [Kollreider et al., 2005] et [Jee et al., 2006] puisque le mouvement de la photographie est issu
dune squence bien relle o le morceau de papier bleu est translat et inclin manuellement au cours
du temps. Tous les accs imposteur du protocole P original sont ainsi modis, soit un total de 312 tests
imposteur diffrents par groupe.
FIG. 4.1 Attaque de type Paparazzi
Echelon Dans le cadre du scnario baptis Echelon, limposteur a acquis au pralable un enregistrement
de la voix de sa cible (au cours dune conversation tlphonique, par exemple). Au moment du test, il joue
cet enregistrement laide dun magntophone et se prsente devant la camra. Nous avons simul ce type
dattaque en remplaant la bande sonore des tests imposteur par laudio dune squence de la cible. La
gure 4.2 rsume schmatiquement ce scnario. Tous les accs imposteur du protocole P original sont ainsi
modis, soit un total de 312 tests imposteur diffrents par groupe.
FIG. 4.2 Attaque de type Echelon
Big Brother Le scnario baptis Big Brother est une combinaison des deux premiers scnarii : limposteur
a acquis la fois une photographie du visage et un enregistrement de la voix de sa cible. Au moment du
test, il prsente la photographie devant la camra tout en jouant lenregistrement de la voix de sa cible. La
gure 4.3 rsume schmatiquement ce scnario. Pour chaque client, une squence imposteur de ce type est
gnre, soit un total de 26 tests imposteur diffrents par groupe.
4.2 Crazy Talk
Un quatrime scnario faisant appel des techniques danimation de visage a aussi t envisag. Il sagit
danimer une photographie du visage de la cible en accord avec un enregistrement audio de sa voix. Pour
cela, nous avons utilis le logiciel commercial CrazyTalk de la socit Reallusion
2
, appliqu aux donnes
2
http ://www.reallusion.com/crazytalk/
4.3. VALUATION 71
FIG. 4.3 Attaque de type Big Brother
du scnario Big Brother. Dans le scnario Crazy Talk, limposteur possde donc une photographie du vi-
sage et un enregistrement de la voix de la cible et utilise le logiciel CrazyTalk pour gnrer une squence
audiovisuelle dans laquelle les lvres du visage sont animes en fonction de lenregistrement de la voix. Au
del de la seule animation des lvres, le logiciel anime aussi dautres parties du visage : en particulier, des
clignements des yeux sont galement gnrs, rendant la dtection de lattaque encore plus difcile. Pour
chaque client, une squence imposteur de ce type est gnre, soit un total de 26 tests imposteur diffrents
par groupe.
4.3 valuation
La gure 4.4 rsume les performances du systme de fusion locuteur+visage face aux diffrentes attaques
introduites dans ce chapitre. taux de faux rejet FRR constant (les accs client ntant pas modis), le taux
de fausse acceptation FAR passe denviron 2% 60% pour les attaques de type Paparazzi et 76% pour
les attaques de type Echelon. Bien pire quun systme qui prendrait une dcision alatoire (pour lequel FAR
= 50%), le systme de fusion locuteur+visage laisse passer plus de 90% des attaques Big Brother et Crazy
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
Paparazzi
Echelon
Big Brother
Crazy Talk
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Protocole P original DCF = 5.82 1.19%
FAR = 2.09 1.12%
FRR = 37.55 4.40%
Attaque Paparazzi DCF = 62.71 3.84%
FAR = 59.55 3.85%
Attaque Echelon DCF = 79.40 3.33%
FAR = 76.40 3.33%
Attaque Big Brother DCF = 97.04% [72%, 100%]
FAR = 94.23% [69%, 100%]
Attaque Crazy Talk DCF = 95.14% [70%, 100%]
FAR = 92.31% [68%, 100%]
FIG. 4.4 Performances du systme locuteur+visage face aux attaques
Talk.
Conclusion
La grande majorit des systmes de vrication didentit base sur les visages parlants repose unique-
ment sur la fusion au niveau des scores de deux modules de vrication du locuteur et de reconnaissance du
visage. Aussi, dfaut dun module de vrication de prsence effective dune personne bien relle devant
lobjectif de la camra, un imposteur pourrait simplement rejouer un enregistrement sonore de la voix de sa
cible tout en prsentant une photographie de son visage devant la camra. Lventualit des attaques de type
rejeu (ou replay attacks dans la littrature anglophone) a t peu frquemment tudie dans la littrature.
Aussi, nous avons dni et simul quatre scnarii dattaque et valu leur impact sur notre systme de rf-
rence, reproduisant le schma classique de fusion au niveau des scores dun module de vrication bas sur
la voix et dun autre module bas sur le visage. Notre systme de rfrence se trouve alors dans lincapacit
de dtecter ces attaques.
Lobjet de la seconde partie est donc de rendre le systme de rfrence robuste toutes ces attaques. Une
premire solution consiste demander la personne de prononcer une phrase alatoire et de sen assurer
laide dun systme de transcription automatique de la parole, empchant ainsi lutilisation dun enregistre-
ment sonore de la voix de la cible. Une deuxime solution consiste tudier le mouvement du visage an de
dterminer sil est bien rel. Dans [Kollreider et al., 2005], les auteurs tudient les mouvements relatifs des
diffrentes parties du visage (nez, oreilles, yeux, . . . ). Dans le cas o une photographie est prsente devant
la camra, chaque partie du visage dtect possde quasiment le mme vecteur mouvement. En revanche,
lorsquune personne bien relle bouge devant la camra et tourne la tte, les diffrentes parties du visage
possdent des vecteurs mouvements apparents diffrents. Dans [Jee et al., 2006], les yeux sont dtects dans
la squence dimages et les variations des deux rgions correspondant aux deux yeux permettent de dtermi-
ner si le visage prsent devant le camra est bien rel ou sil sagit dune photographie. Cependant, la qualit
danimation de visage obtenue par un logiciel tel que CrazyTalk de Reallusion laisse prsager que de telles
mthodes seraient insufsantes. Ainsi, la troisime solution, que nous avons adopte, est base sur lanalyse
de la synchronie audiovisuelle entre la voix et le mouvement des lvres : il sagit de sassurer que la voix
73
acquise par le microphone et le mouvement des lvres acquises par la camra ont t produits simultanment
par une seule et mme personne.
4.3. VALUATION 75
Deuxime partie
Synchronie audiovisuelle
77
Introduction
Le signal de parole est intrinsquement bimodal. Si son traitement se limite souvent ces caractristiques
acoustiques (transcription [Gauvain et Lamel, 2000, Young, 2001, Deng et Huang, 2004] et vrication du
locuteur [Furui, 1997, Reynolds et al., 2000a, Reynolds, 2002, Ben et Bimbot, 2003, Ben, 2004]), son com-
plmentaire visuel peut tre dune grande aide, particulirement dans des conditions acoustiques dgra-
des [Potamianos et al., 2004].
La dmonstration la plus vidente de cette complmentarit est donne par la capacit quont les per-
sonnes atteintes de surdit ou de problmes daudition lire sur les lvres. En outre, dans un environne-
ment acoustique bruit, la comprhension du signal de parole est aussi amliore lorsque le signal visuel
est disponible (i.e. lorsque les lvres du locuteurs sont visibles). Il est par exemple plus facile de distinguer
le son [m] du son [n] en voyant les lvres. loppos, il nest pas possible de distinguer le son [b] du son
[p] la seule vue des lvres : les signaux acoustiques correspondant tant, eux, bien distincts. Enn, leffet
McGurk est une dmonstration bien connue de lintrication du signal acoustique et du signal visuel dans
linterprtation globale que lhomme a de ceux-ci. Combiner le signal acoustique correspondant au son [ba]
au signal visuel correspondant au son [ga] entrane la sensation du son [da]. Une vido de dmonstration de
ce phnomne peut tre trouve sur lInternet
3
.
Le signal visuel de parole correspond lobservation des dformations et mouvements de lappareil vo-
cal dont rsulte le signal acoustique de parole. Aussi, plus que complmentaires, ces deux signaux sont
profondment corrls, le second rsultant du premier. Les travaux de Yehia et Barker ont montr quil
tait possible de partiellement dduire les signaux acoustiques de lobservation du signal visuel, et inverse-
ment [Yehia et al., 1998, Barker et Berthommier, 1999b, Barker et Berthommier, 1999a].
3
Effet McGurk : http://www.media.uio.no/personer/arntm/McGurk_english.html
79
80
Par la suite, nous qualierons de synchrones deux signaux acoustique et visuel produits simultanment
par une seule et mme personne.
Dans le chapitre 5, nous proposons un tour dhorizon de la littrature sintressant au problme particulier
de la synchronie audiovisuelle. La question de la paramtrisation du signal de parole audiovisuelle sera
aborde ainsi que celle des diffrentes mthodes (le plus souvent statistiques) proposes pour valuer le
degr de synchronie entre les signaux de parole acoustique et visuel. Dans le chapitre 6, nous proposons
une nouvelle mesure de synchronie et tudions son application la dtection dasynchronie. Nous drivons
ensuite de cette mesure une nouvelle modalit biomtrique et valuons ses performances pour la vrication
didentit dans le chapitre 7. Enn, dans le chapitre 8, nous proposons des stratgies originales de fusion de
cette nouvelle modalit et du systme de rfrence de faon rendre ce dernier robuste aux attaques.
Chapitre 5
tat de lart
5.1 Paramtrisation de la parole
Cette section fait linventaire des diffrentes paramtrisations du signal de parole utilises dans la lit-
trature relative la synchronie audiovisuelle. Toutes ces paramtrisations partagent lobjectif commun de
rduire les donnes brutes de faon permettre une bonne modlisation par la suite. Nous aborderons suc-
cessivement la question des paramtres issus du signal de parole acoustique et ceux issus du signal de parole
visuel.
5.1.1 Paramtres acoustiques
Classiquement, les vecteurs de paramtres acoustiques sont extraits du signal audio partir dune fentre
temporelle glissante avec recouvrement.
nergie brute Lamplitude du signal audio peut tre utilise telle quelle. Dans [Hershey et Movellan, 1999],
les auteurs extraient lnergie acoustique moyenne sur la fentre courante de faon obtenir une param-
trisation mono-dimensionnelle relative lactivit vocale. Des mthodes similaires faisant appel la valeur
efcace Root Mean Square (RMS) en anglais ou la log-nergie sont aussi proposes dans les rf-
rences [Barker et Berthommier, 1999b, Bredin et al., 2006c].
Priodogramme Dans [Fisher et al., 2001], un priodogramme du signal audio sur la plage de frquence
[010 kHz] est calcul sur une fentre glissante de dure 2/29.97 s (correspondant la dure de 2 trames
de vido une frquence de 29.97 images par seconde) et utilis directement comme les paramtres du ux
audio.
81
82 CHAPITRE 5. TAT DE LART
Mel-Frequency Cepstral Coefcients (MFCC) Le fait que les coefcients MFCCsoient trs frquemment
utiliss [Slaney et Covell, 2000, Cutler et Davis, 2000, Nock et al., 2002, Iyengar et al., 2003] peut sexpli-
quer de faon pragmatique du fait quils constituent la paramtrisation tat-de-lart de la majorit des sys-
tmes de traitement automatique de la parole acoustique [Reynolds et al., 2000b] et quils ont dmontr leur
efcacit que ce soit en transcription de la parole ou en vrication du locuteur. La gure 3.4 la page 54
rsume les tapes de calcul des coefcients MFCC.
Linear-Predictive Coding (LPC) et Line Spectral Frequencies (LSF) Lutilisation des LPC, ainsi que des
LSF qui en drivent [Sugamura et Itakura, 1986], a aussi t largement investigue. Yehia et al. ont montr la
plus grande corrlation de la gomtrie du conduit vocal avec les LSF quavec les LPC [Yehia et al., 1998].
Une comparaison de ces diffrents paramtres acoustiques, appliqus dans le cadre de loprateur li-
naire FaceSync (voir plus bas), est rapporte dans [Slaney et Covell, 2000]. En deux mots, dans le cadre
de leurs travaux, les auteurs concluent que les paramtres MFCC, LSF et LPC montrent des liens avec le
signal de parole visuel plus forts que le priodogramme ou lnergie brute. Ces rsultats sont cohrents
avec ceux que nous avons obtenus dans nos travaux (nergie brute dans [Bredin et al., 2006c] vs. MFCC
dans [Bredin et Chollet, 2007]).
5.1.2 Paramtres visuels
Dans cette section, nous appellerons rgion dintrt Region of Interest (ROI) en anglais la zone de
limage autour de la bouche. Cette rgion peut tre beaucoup plus large que la seule zone des lvres, jusqu
inclure la mchoire et les joues. Par la suite, nous ferons lhypothse que cette rgion a t dtecte au
pralable. La plupart des paramtres visuels proposs dans la littrature relative la synchronie est identique
ceux utiliss dans le cadre de la transcription automatique de la parole audiovisuelle. Cependant, nous
verrons que des paramtrisations bas-niveaux beaucoup plus simples spciques la synchronie ont aussi
t tudies dans le cadre de ltude de la synchronie :
Pixels Il sagit de lquivalent visuel de lnergie acoustique brute. Dans [Hershey et Movellan, 1999]
et [Iyengar et al., 2003], lintensit des pixels est utilise telle quelle. Nos premiers travaux considraient
la somme des intensits des pixels en niveaux de gris dans la ROI, de faon obtenir une paramtrisation
mono-dimensionnelle du signal de parole visuel [Bredin et al., 2006c].
Lextraction de paramtres holistiques revient considrer la ROI comme un tout, une source dinforma-
tion inscable :
5.1. PARAMTRISATION DE LA PAROLE 83
Transforme en cosinus discrte Nock et al. applique une transformation en cosinus discrte Discrete
Cosine Transform (DCT) en anglais sur la ROI, en ne conservant que les coefcients les plus nergtiques :
il sagit dune technique classique dans le domaine de la compression dimage. un coefcient multipli-
catif de normalisation prs, les coefcients DCT extraits dune ROI de dimension N N sont dnis par
lquation (5.1) :
DCT(u, v) =
N
i=1
N
j=1
I(i, j) cos
_

N
_
i
1
2
_
(u 1)
_
cos
_

N
_
j
1
2
_
(v 1)
_
(5.1)
o u 1 . . . N, v 1 . . . N et I(i, j) est lintensit du pixel (i, j).
Eigenlips Des transformations linaires tenant compte de la distribution des niveaux de gris spcique
la ROI ont aussi t proposes. Ainsi, Bregler et al. projettent la ROI (reprsente par un vecteur contenant
la valeur de tous les pixels) sur un espace vectoriel pralablement calcul par analyse en composantes prin-
cipales Principal Components Analysis (PCA) en anglais. Les auteurs travaillent sur une ROI couvrant la
zone des lvres : partir dun ensemble dapprentissage constitu de centaines dimagettes de lvres, des
eigenlips sont calculs par PCA, par analogie la mthode des eigenfaces [Turk et Pentland, 1991a], dans
le but dextraire les paramtres codant pour un maximum de variations de la ROI [Bregler et Konig, 1994].
Gomtrie Des mthodes considrent les lvres comme un objet dformable dont les paramtres gom-
triques peuvent tre extraits. Ils sont la plupart du temps bass sur des points caractristiques qui ncessite
une localisation automatique pralable. Dans [Barker et Berthommier, 1999b], deux camras fournissent
une vue frontale et de prol du visage. La localisation automatique de points caractristiques de la ROI
(tels que les commissures des lvres, par exemple) est facilite grce un maquillage adapt. Goecke et al.
rsument la forme de la bouche en quatre paramtres : la largeur et la hauteur de la bouche, la protrusion des
lvres et un dernier paramtre que les auteurs appellent un compteur de dents (teeth count, en anglais) et qui
constitue une mesure de la visibilit des dents. Le modle dformable compos de plusieurs courbes polyno-
miales, propos par Eveno et al. dans [Eveno et Besacier, 2005b, Eveno et Besacier, 2005a] suit le contour
des lvres : la hauteur, la largeur et laire de la bouche en sont dduites. Enn, le rapport entre louverture
et la largeur des lvres constitue lunique paramtre visuel dans [Chetty et Wagner, 2004].
Paramtres dynamiques Chibelushi et al. [Chibelushi et al., 2002] soulignent que, bien quune impor-
tante part de linformation de parole soit dynamique, lextraction de paramtres dynamiques est rarement
pratique dans la littrature. Cependant, quelques travaux sur la synchronie essaient dintgrer cette dimen-
sion du signal de parole. Ainsi, lutilisation des drives temporelles est propose dans [Fox et Reilly, 2003].
Cutler et al. calculent la variation temporelle totale (entre deux trames vido conscutives) de la valeur des
pixels de la ROI, selon lquation (5.2).
v
t
=
W
i=1
H
j=1
[I
t
(i, j) I
t+1
(i, j)[ (5.2)
o I
t
(i, j) est lintensit du pixel de coordonnes (i, j) de la ROI de la trame t.
5.1.3 Frquences dchantillonnage
Les frquences dchantillonnage des paramtres acoustique et visuel sont souvent trs diffrentes. Dans
le domaine de la vrication du locuteur par exemple, les MFCC peuvent tre extraits toutes les 10 ms alors
que les squences vido sont gnralement encodes 25 fps (images par seconde) ou 29.97 fps, en fonction
du codec utilis. Par consquent, il est souvent requis dquilibrer les frquences dchantillonnage (sous-
chantillonnage des paramtres acoustiques ou sur-chantillonnage des paramtres visuels) avant mme
de pouvoir valuer la synchronie audiovisuelle. Cependant, bien que lextraction de lnergie acoustique
brute ou le calcul du spectrogramme peuvent tre effectus directement sur des fentres plus larges (et
donc avec une frquence dchantillonnage proche de celle des paramtres visuels), le sous-chantillonnage
des paramtres audio est connu pour dgrader les performances en traitement automatique de la parole
acoustique. Aussi, le sur-chantillonnage des paramtres visuels lui est souvent prfr (par interpolation
linaire, par exemple). Il est aussi envisageable dutiliser directement une camra 100 fps ou dutiliser
des paradigmes traitant directement les paramtres acoustique et visuel aux frquences dchantillonnage
originales [Cutler et Davis, 2000, Bengio, 2003].
5.2 Sous-espaces audiovisuels
Dans cette section, nous prsentons les transformations qui sont appliques dans les espaces acoustique,
visuel et/ou audiovisuel dnis par les paramtres lists dans la section prcdente. Ces transformations ont
toujours pour but de trouver des sous-espaces dans lesquels la mesure de la synchronie audiovisuelle se
trouve amliore.
5.2. SOUS-ESPACES AUDIOVISUELS 85
5.2.1 Analyse en composantes principales
Lanalyse en composantes principales (PCA) est une transformation linaire visant trouver un espace
de projection dans lequel ltalement des donnes (leur variance) soit maximis. La PCA permet dobtenir
une base de composantes principales, partir des vecteurs propres de la matrice de covariance des vecteurs
de paramtres issus dun large ensemble dapprentissage. Dans [Chibelushi et al., 1997b], la PCA est appli-
que dans un espace audiovisuel (cr par concatnation des paramtres acoustiques et visuels) de faon
rduire sa dimensionnalit, tout en conversant les caractristiques contribuant le plus sa variance.
5.2.2 Analyse en composantes indpendantes
Lanalyse en composantes indpendantes Independent Component Analysis (ICA) en anglais a t in-
troduite an de rsoudre le problme de sparation de sources [Hyvrinen, 1999]. Dans [Sodoyer et al., 2003],
les auteurs tiennent compte des paramtres visuels de parole an damliorer la sparation de diffrentes
sources de parole. Dans [Smaragdis et Casey, 2003], lICA est applique un enregistrement audiovisuel
dune session de piano : la camra fait un gros plan sur le clavier et le signal de musique est acquis laide
dun microphone. LICA permet de dcouvrir clairement la correspondance entre la note acoustique et la
note visuelle (le mouvement de la touche correspondante). Cependant, aucune mention de lapplication de
lICA au signal de parole audiovisuelle na t trouve dans la littrature.
5.2.3 Analyse en corrlation canonique
tant donns deux ux de paramtres acoustiques X R
n
et visuels Y R
m
, lobjectif de lanalyse
de corrlation canonique Canonical Correlation Analysis (CANCOR) en anglais est de dterminer les
directions a U
n
et b U
m
(avec U
d
=
_
z R
d
[|z| = 1
_
) telles que les projections de X et Y sur ces
deux vecteurs maximisent leur corrlation (voir lquation (5.3)).
Proposition 1 (Analyse de corrlation canonique)
(a, b) = argmax
(a,b)U
n
U
m
corr
_
a
t
X, b
t
Y
_
(5.3)
Soient a U
n
et b U
m
dnis par lquation (5.3). a est le vecteur propre norm correspondant
la plus grande valeur propre
1
de la matrice C
1
XX
C
XY
C
1
Y Y
C
Y X
et b est le vecteur norm colinaire
C
1
Y Y
C
Y X
a.
Dmonstration 1 On dnit
= corr
_
a
t
X, b
t
Y
_
=
cov
_
a
t
X, b
t
Y
_
_
cov (a
t
X, a
t
X)
_
cov (b
t
Y, b
t
Y )
=
a
t
C
XY
b
a
t
C
XX
a
b
t
C
Y Y
b
En crivant ce problme de maximisation sous sa forme lagrangienne et en drivant par rapport a et b,
nous obtenons les quations de lanalyse en corrlation canonique 5.4 et 5.5 (voir [Weenink, 2003] pour
tous les dtails) :
_
C
XY
C
1
Y Y
C
t
XY

2
C
XX
_
a = 0 (5.4)
_
C
t
XY
C
1
XX
C
XY

2
C
Y Y
_
b = 0 (5.5)
On multiplie gauche (5.4) par C
t
XY
C
1
XX
pour obtenir :
_
C
t
XY
C
1
XX
C
XY
C
1
Y Y
C
t
XY

2
C
t
XY
_
a = 0
Lintroduction de C
Y Y
C
1
Y Y
= I nous permet dobtenir :
_
C
t
XY
C
1
XX
C
XY
C
1
Y Y
C
t
XY

2
C
Y Y
C
1
Y Y
C
t
XY
_
a = 0
_
C
t
XY
C
1
XX
C
XY

2
C
Y Y
_
C
1
Y Y
C
t
XY
a = 0
Nous avons ainsi montr que les valeurs propres des quations (5.4) et (5.5) sont les mmes et que b =
C
1
Y Y
C
t
XY
a. On multiplie alors lquation (5.4) par C
1
XX
:
_
C
1
XX
C
XY
C
1
Y Y
C
t
XY

2
_
a = 0
dont la solution est donne par a vecteur propre de C
1
XX
C
XY
C
1
Y Y
C
t
XY
.
En triant les valeurs propres par ordre dcroissant, CANCOR nous permet dobtenir un ensemble de vecteurs
orthonormaux a
1
, . . . , a
d
et b
1
, . . . , b
d
maximisant les corrlations corr
_
a
t
k
X, b
t
k
Y
_
entre les projec-
tions de X et Y (d tant le rang de C
XY
). En dautres termes, CANCOR projette X et Y dans un nouveau
systme de coordonnes o leur corrlation est maximise, dimension dimension.
5.2. SOUS-ESPACES AUDIOVISUELS 87
5.2.4 Analyse de co-inertie
Lanalyse de co-inertie Co-Inertia Analysis (CoIA) en anglais est une transformation trs proche
de CANCOR. Cependant, l o CANCOR cherche maximiser une corrlation, CoIA vise maximiser la
covariance entre les paramtres acoustiques et visuels. Elle a t utilise par Doldec et Chessel en biolo-
gie [Doldec et Chessel, 1994] an dextraire les relations caches entre les espces et leur environnement.
Son objectif est de dterminer les directions a U
n
et b U
m
telles que les projections de X et Y sur ces
deux vecteurs maximisent leur covariance (voir lquation (5.6)).
Proposition 2 (Analyse de co-inertie)
(a, b) = argmax
(a,b)U
n
U
m
cov
_
a
t
X, b
t
Y
_
(5.6)
Soient a U
n
et b U
m
dnis par lquation (5.6). a est le vecteur propre norm correspondant la plus
grande valeur propre
1
de la matrice C
XY
C
t
XY
et b est le vecteur norm colinaire C
t
XY
a.
Dmonstration 2 On note
= cov
_
a
t
X, b
t
Y
_
= a
t
C
XY
b (5.7)
Cherchant maximiser , on fait lhypothse que > 0 (si < 0, il suft de changer a en a) : il est par
consquent quivalent de maximiser et
2
.
2
=
_
a
t
C
XY
b
_
t
_
a
t
C
XY
b
_
=
_
_
C
t
XY
a
_
t
b
_
t
_
_
C
t
XY
a
_
t
b
_
Selon lingalit de Cauchy-Schwarz,
2
|C
t
XY
a| |b| avec galit si et seulement si b peut scrire
C
t
XY
a, avec R. Ainsi, lquation (5.7) devient :
= a
t
C
XY
_
C
t
XY
a
_
= a
t
_
C
XY
C
t
XY
_
a
Puisque |a| = 1, est proportionnel au quotient de Rayleigh R
_
C
XY
C
t
XY
, a
_
, qui est maximis pour a
vecteur propre de C
XY
C
t
XY
associe la plus grande valeur propre
1
.
En triant les valeurs propres par ordre dcroissant, CoIA nous permet dobtenir un ensemble de vecteurs or-
thonormaux a
1
, . . . , a
d
et b
1
, . . . , b
d
maximisant les covariances cov
_
a
t
k
X, b
t
k
Y
_
entre les projections
de X et Y (d tant le rang de C
XY
). En dautres termes, CoIA projette X et Y dans un nouveau systme de
coordonnes o leur covariance est maximise, dimension dimension.
Notations Par la suite, on notera A et B les matrices rsultantes de lanalyse de corrlation canonique
et/ou analyse de co-inertie dont les colonnes sont les vecteurs de projection a
k
et b
k
:
A = [a
1
[a
2
[ . . . [a
d
] et B = [b
1
[b
2
[ . . . [b
d
] (5.8)
Remarque Des tudes comparatives entre CANCORet CoIAsont proposes dans [Goecke et Millar, 2003,
Eveno et Besacier, 2005b, Eveno et Besacier, 2005a]. Les auteurs de [Goecke et Millar, 2003] montrent que
CoIA est plus stable que CANCOR : les rsultats sont beaucoup moins sensibles au nombre dchantillons
disponibles pour lapprentissage. En outre, le score de liveness propos dans [Eveno et Besacier, 2005b,
Eveno et Besacier, 2005a] (permettant de vrier le caractre vivant de lchantillon biomtrique et rsum
au paragraphe 5.3.3) est beaucoup plus efcace avec CoIA quavec CANCOR pour la tche de dtection
dasynchronie. Les auteurs de [Eveno et Besacier, 2005b] expliquent cette diffrence par le fait que CoIA
est un compromis entre CANCOR (o la corrlation audiovisuelle est maximise) et PCA (o seules les
directions acoustiques et visuelles de plus grande variance sont conserves) et prote par consquent des
avantages de deux transformations.
5.3 Mesures
Dans cette section, nous dcrivons les mesures de correspondances proposes dans la littrature pour
valuer la synchronie entre les paramtres acoustiques et visuels.
5.3.1 Corrlation
Soient X et Y deux variables alatoires. Le carr du coefcient de corrlation de Pearson R(X, Y )
(dni dans lquation (5.9)) dcrit la portion de la variance totale de X qui peut tre explique par une
transformation linaire de Y (et rciproquement, la mesure tant symtrique).
R(X, Y ) =
cov (X, Y )
Y
(5.9)
5.3. MESURES 89
Dans [Hershey et Movellan, 1999], les auteurs calculent le coefcient R entre lnergie acoustique X et la
valeur Y des pixels de la vido an de dterminer quelle zone de limage est la plus corrle avec laudio.
Ceci permet alors de dcider quelle personne parle, parmi toutes celles apparaissant lcran.
5.3.2 Information mutuelle
En thorie de linformation, linformation mutuelle MI(X, Y ) de deux variables alatoires X et Y
mesure la dpendance mutuelle entre ces deux variables. Dans le cas o X et Y sont discrtes, MI est
dnie par lquation (5.10) :
MI(X, Y ) =
xX
yY
p(x, y) log
p(x, y)
p(x)p(y)
(5.10)
Cest une mesure non-ngative (MI(X, Y ) 0) et symtrique (MI(X, Y ) = MI(Y, X)). On peut aussi
dmontrer que X et Y sont indpendantes si et seulement si MI(X, Y ) = 0. Dans le cas o X et Y
sont des variables alatoires mono-dimensionnelles normales [Hershey et Movellan, 1999], linformation
mutuelle MI est li R via lquation :
MI(X, Y ) =
1
2
log
_
1 R(X, Y )
2
_
(5.11)
Dans [Hershey et Movellan, 1999, Fisher et al., 2001, Nock et al., 2002, Iyengar et al., 2003], linformation
mutuelle est utilise an de localiser les pixels de la vido qui correspondent au signal audio : le visage de
la personne qui parle est la zone qui se dtache clairement du reste de limage. Cependant, il est notable que
la zone de la bouche nest pas toujours la partie du visage dont linformation mutuelle avec le signal audio
est la plus leve : les contours du visage sont parfois mis en vidence, montrant que certains mouvements
globaux du visage compltent de faon synchrone le signal de parole acoustique.
Remarque Dans [Bregler et Konig, 1994], pour un signal de parole donn, linformation mutuelle entre
le ux audio X (8 coefcients cepstraux) et le ux visuel Y
t
(10 coefcients de type eigenlips) dcal
dans le temps est trace en fonction du dcalage temporel t (voir la gure 5.1 tire de larticle origi-
nal). Il apparat que linformation mutuelle atteint son maximum pour un dlai du ux visuel compris
entre 0 et 120 ms. Ce phnomne largement constat dans la littrature portant sur le traitement de la pa-
role audiovisuelle peut sexpliquer par le fait que la cause (le mouvement articulatoire) prcde leffet (le
son) [Vatikiotis-Bateson et al., 2006]. Cette observation a conduit les auteurs de [Eveno et Besacier, 2005a,
Eveno et Besacier, 2005b] proposer un score de liveness L(X, Y ) qui tient compte de ce dlai et que nous
FIG. 5.1 Mesure de linformation mutuelle (Mutual Information) en fonction du dcalage temporel entre
les ux visuel et acoustiques (Visual Offset). Le maximum est atteint pour un dcalage de 120 ms gure
extraite de [Bregler et Konig, 1994].
dcrivons dans le paragraphe suivant.
5.3.3 Mesure propose par Eveno et Besacier
La paramtrisation de la parole audiovisuelle choisie par Eveno et Besacier est ralise ainsi :
5 coefcients LPC sont extraits toutes les 40 ms et constituent ainsi le ux X R
5
.
La hauteur, la largeur et laire de la bouche sont extraites pour chaque trame de la vido (toutes les
40 ms) en utilisant un outil de dtection et suivi des lvres, constituant ainsi le ux Y R
3
.
Les deux ux X et Y possdent donc la mme frquence dchantillonnage. On note Y
le ux visuel avec
un dcalage de trames dans le temps. Lapplication de lanalyse de co-inertie entre X et Y
permet de
5.3. MESURES 91
dterminer les vecteurs a
et b
maximisant la covariance entre a
t
X et b
t
Y
. On dnit alors
= R
_
a
t
X, b
t
Y
_
(5.12)
ref
= max
20
[
] (5.13)
moy
=
1
2 + 1
(5.14)
L(X, Y ) =
1
2 + 1
_

ref
moy
1
_

=
1
ref
[
] (5.15)
o = 10 (correspondant une dcalage maximum de 400 ms), 1
ref
[] = 1 si
ref
et 0 sinon. En
rsum, plus le pic obtenu pour
ref
est marqu, plus la valeur de L(X, Y ) est leve.
Cette mesure constitue linspiration premire de nos travaux. Nous lutiliserons, en particulier, comme
mesure talon an de montrer les apports de nos diffrentes propositions.
5.3.4 Modlisation conjointe
L o les coefcients Ret MI permettent une mesure efcace de la correspondance entre deux variables
alatoires, dautres mthodes cherchent mesurer cette correspondance en modlisant conjointement les
paramtres acoustiques et visuels.
Modle de mlange de gaussiennes
Considrons deux variables alatoires discrtes X = x
t
, t N et Y = y
t
, t N de dimen-
sions respectives d
X
et d
Y
. Typiquement, X reprsente les paramtres acoustiques et Y les paramtres
visuels [Sodoyer et al., 2002, Chetty et Wagner, 2004]. On peut dnir une troisime variable alatoire dis-
crte Z = z
t
, t N de dimension d
Z
o z
t
est la concatnation des deux chantillons x
t
et y
t
, de sorte
que z
t
= [x
t
, y
t
] et d
Z
= d
X
+d
Y
.
tant donn un chantillon z, le modle de mlange de gaussiennes dnit sa fonction de distribution de
probabilit comme suit :
p(z[) =
N
i=1
w
i
^(z;
i
,
i
) (5.16)
o ^(; , ) est la distribution normale de moyenne et de matrice de covariance . = w
i
,
i
,
i
i[1,N]
est lensemble des paramtres dcrivant la distribution jointe de X et Y . partir dun ensemble dappren-
tissage dchantillons synchrones x
t
et y
t
concatns en un chantillon joint z
t
, lalgorithme EM (pour
Expectation-Maximization) permet lestimation de . Au moment de tester la synchronie entre deux ux
X = x
t
, t [1, T] et Y = y
t
, t [1, T], une mesure de correspondance C
(X, Y ) peut tre calcule

via lquation (5.17).
C
(X, Y ) =
1
T
T
t=1
p([x
t
, y
t
][) (5.17)
Enn, lapplication dun seuil permet de dcider si les ux X et Y se correspondent (si C
(X, Y ) > )
ou non (si C
(X, Y ) ).
Modle de Markov cach
Le dcalage temporel entre les ux acoustiques et visuels nest pas modlis par les GMMs, ni par les
coefcients R et MI. Ainsi, Bengio propose un modle de Markov cach asynchrone (AHMM) pour la
reconnaissance de la parole audiovisuelle. Il fait lhypothse qu chaque instant t il existe une observa-
tion acoustique x
t
et que lobservation visuelle y
t
nexiste que de temps en temps. Ainsi, la diffrence de
frquence dchantillonnage est directement prise en compte en introduisant la probabilit que le systme
mette lobservation visuelle suivante y
s
au temps t. Dans [Bengio, 2003], AHMM donne de meilleurs r-
sultats que les HMM dans la tche de reconnaissance de la parole audiovisuelle en rsolvant naturellement
le problme de diffrence entre les frquences dchantillonnage.
Modles non-paramtriques
Lutilisation des rseaux de neurones (NN) est tudie dans [Cutler et Davis, 2000]. tant donn un
ensemble dapprentissage de donnes audiovisuelles synchrones et de donnes asynchrones, un rseau de
neurones une couche cache est entran de faon retourner la valeur 1 quand les donnes en entre sont
synchrones et la valeur 0 sinon. En outre, les auteurs proposent dutiliser une couche dentre au temps t
de type [X
tN
X
, . . . , X
t
, . . . , X
t+N
X
, Y
tN
Y
, . . . , Y
t
, . . . , Y
t+N
Y
] (au lieu de [X
t
, Y
t
]), en choisissant N
X
et N
Y
de sorte quenviron 200 ms de contexte temporel soient passes en entre. Cette proposition vise
rsoudre le problme de dlai entre les ux audio et visuel soulev dans le paragraphe sur linformation
mutuelle. Elle permet aussi dter le besoin de sous-chantillonnage audio ou sur-chantillonnage visuel.
5.4. APPLICATIONS 93
5.4 Applications
Mesurer la synchronie entre les ux de parole acoustique et visuel peut tre dune grande aide dans de
nombreuses applications audiovisuelles et multimdia.
Localisation de source sonore La localisation de source sonore est lapplication des mesures de syn-
chronie audiovisuelle la plus cite [Barker et al., 1998]. Dans [Cutler et Davis, 2000], une fentre glissante
survole la vido an de trouver la zone de la bouche qui correspond le plus probablement la bande sonore
(en utilisant un rseau de neurones). Dans [Nock et al., 2002], linformation mutuelle permet de dcider la-
quelle des quatre personnes apparaissant limage est la source de la voix entendue dans la bande sonore :
un taux de correction de 82% est atteint (moyenne sur 1016 vidos de test). On peut imaginer un systme de
visio-confrence intelligent dont la camra zoomerait sur le locuteur courant [Yoshimi et Pingali, 2002].
Indexation de squences audiovisuelles Dans [Iyengar et al., 2003], les auteurs fusionnent les scores de
trois systmes (dtection du visage, dtection du silence et mesure de correspondance base sur linforma-
tion mutuelle entre la bande sonore et la valeur des pixels) an damliorer leur algorithme de dtection
de monologue. Des expriences ralises dans le cadre de TREC 2002 Video Retrieval Track montrent une
amlioration relative de 50% de la prcision moyenne
1
.
Post-production Lors de la post-production doeuvres cinmatographiques, les dialogues sont souvent
renregistrs en studio. Une mesure de correspondance audiovisuelle pourrait tre dune grande aide au
moment de synchroniser le nouvel enregistrement audio avec la vido originale. De telles mesures peuvent
aussi tre une faon dvaluer la qualit dun doublage dans une langue trangre : la traduction choisie
est-elle raliste vis--vis des mouvements du visage de lacteur ?
Autres applications Dans [Sodoyer et al., 2002], la correspondance audiovisuelle est utilise de faon
amliorer un algorithme de sparation de parole. Enn, les auteurs de [Fisher et al., 2001] laborent des
ltres pour la rduction de bruit partir de mesure de synchronie audiovisuelle.
1
http://trec.nist.gov/
Chapitre 6
Dtection dasynchronie
Contexte
Il existe relativement peu de travaux portant sur la question de la dtection dasynchronie pour la vri-
cation didentit. Chetty et al. proposent dutiliser des modles de mlange de gaussiennes dans un espace
de paramtres constitus de la concatnation de paramtres acoustiques (les MFCC) et de paramtres vi-
suels (eigenlips et mesures gomtriques) [Chetty et Wagner, 2004]. Au moment du test, la vraisemblance
des vecteurs de paramtres audiovisuels constitue la mesure de correspondance entre les paramtres acous-
tiques et visuels. Leur protocole dvaluation mriterait cependant dtre amlior an de rendre les attaques
plus ralistes puisquils simulent des attaques de type prsentation de photographie devant la camra en r-
ptant simplement la mme image tout au long de la squence vido. Comme nous lavons dj crit au
paragraphe 5.3.3 (page 90), Eveno et Besacier proposent une mesure de corrlation entre paramtres acous-
tiques et visuels du signal de parole. Elle est obtenue par analyse de corrlation canonique et/ou analyse de
co-inertie de ces paramtres [Eveno et Besacier, 2005a, Eveno et Besacier, 2005b] et constitue linspiration
premire de notre travail sur la synchronie audiovisuelle.
6.1 Paramtrisation
La paramtrisation pour laquelle nous avons opt est celle classiquement utilise dans les systmes de
reconnaissance automatique de la parole audiovisuelle [Potamianos et al., 2004] : les coefcients MFCC
pour la partie acoustique et les coefcients DCT de la zone de la bouche pour la partie visuelle.
95
96 CHAPITRE 6. DTECTION DASYNCHRONIE
6.1.1 Paramtres acoustiques X
Plusieurs jeux de paramtres acoustiques peuvent tre construits partir des coefcients MFCC pr-
sents dans le chapitre 3, selon que lon ajoute lnergie du signal acoustique, les drives premires et
secondes. Le tableau 6.1 tablit un rcapitulatif des 6 diffrents types de paramtres qui seront utiliss par
la suite.
Type Description Dimension n
MFCC Coefcients MFCC 12
MFCC + Ajout des drives premires 24
MFCC + + Ajout des drives secondes 36
MFCCE Coefcients MFCC et nergie 13
MFCCE + Ajout des drives premires 26
MFCCE + + Ajout des drives secondes 39
TAB. 6.1 Paramtres acoustiques
6.1.2 Paramtres visuels Y
Le processus dextraction des paramtres visuels est dcrit dans la gure 6.1. Ltape 1 _ de dtec-
tion du visage par localisation des yeux est celle dj utilise dans le systme de vrication du visage
prsent au chapitre 3. Ltape 2 _ fait appel la connaissance a priori de la structure gomtrique du
visage humain pour dlimiter une zone de recherche de la bouche dont la position est dduite de la po-
sition des yeux. Ltape 3 _ est la dtection proprement dite de la bouche laide dun dtecteur de type
Viola and Jones [Viola et Jones, 2002] : il sagit du dtecteur de bouche entran par Castrilln et al.
[Castrilln Santana et al., 2005], disponible librement sur lInternet. Enn, les tapes 4 _ et 5 _ consistent
extraire de la zone de la bouche (dont deux tailles sont envisageables) les 28 paramtres DCT (voir lqua-
tion (5.1) de la page 83) correspondant aux basses frquences spatiales, comme le montre la gure 6.2.
Plusieurs jeux de paramtres visuels (rappels dans le tableau 6.2) peuvent tre construits partir des coef-
cients DCT selon que lon ajoute les drives premires et secondes.
Type Description Dimension m
DCT Coefcients DCT 28
DCT + Ajout des drives premires 56
DCT + + Ajout des drives secondes 84
TAB. 6.2 Paramtres visuels
L o les paramtres acoustiques sont extraits toutes les 10 ms, la frquence dchantillonnage des
6.1. PARAMTRISATION 97
FIG. 6.1 Extraction des paramtres visuels. 1 _Dtection des yeux. 2 _Slection de la zone dintrt pour
la recherche de la bouche. 3 _Dtection de la bouche. 4 _Slection de la zone dintrt pour lextraction des
coefcients DCT. 5 _Extraction des coefcients DCT.
FIG. 6.2 Extraction des 28 coefcients DCT correspondant aux basses frquences spatiales selon le prin-
cipe du zig-zag.
paramtres visuels est dpendante du nombre dimages par seconde de la squence audiovisuelle. Dans le
cas de BANCA, les paramtres visuels sont extraits toutes les 40 ms (ce qui correspond une frame rate de
25 images par seconde). De faon avoir le mme nombre de paramtres acoustiques et visuels pour chaque
squence audiovisuelle, on choisit deffectuer une interpolation linaire des paramtres visuels.
Remarque Lutilisation dune paramtrisation lie la forme des lvres a aussi t tudie. Un algorithme
de dtection et de suivi des lvres a permis dextraire des paramtres tels que laire dlimite par le contour
des lvres, la hauteur et la largeur de la bouche [Matthews et Baker, 2004]. Cependant, les premires exp-
riences ont montr leur faiblesse et leur utilisation a donc t abandonne [Argones-Ra et al., 2007a].
6.2 Paramtres corrls
tant donns deux ux synchrones de paramtres acoustiques X R
n
et visuels Y R
m
, CANCOR et
CoIA (dnies et dmontres aux pages 85 et 87 respectivement) permettent dobtenir les matrices A et B
A = [a
1
[a
2
[ . . . [a
d
] et B = [b
1
[b
2
[ . . . [b
d
] (6.1)
qui, leur tour, permettent lextraction de paramtres acoustiques et visuels corrls A et
A = A
t
X et = B
t
Y (6.2)
de mme dimension d = min (n, m) :
k 1, . . . , d, A
k
= a
t
k
X =
n
i=1
a
ki
X
i
k
= b
t
k
Y =
m
i=1
b
ki
Y
i
(6.3)
Leffet de CANCOR et CoIA sur des donnes relles est illustr par la gure 6.3, qui montre des paramtres
extraits dune squence de la base de donnes BANCA [Bailly-Baillire et al., 2003].
Remarque En ne choisissant que les D < d premires dimensions, les mthodes CANCOR et CoIA sont
appliques an de rduire la dimension des paramtres acoustiques et visuels en limitant la perte dinforma-
tion relative leur corrlation. Cette proprit est particulirement importante lorsque la synchronie audiovi-
suelle est modlise par des outils statistiques ncessitant de grandes quantits de donnes dapprentissage.
Dans [Sargin et al., 2006], CANCOR est utilise pour rduire la dimension de paramtres audiovisuels en
entre dun systme de vrication du locuteur bas sur des modles de Markov cachs (HMM, pour Hid-
6.2. PARAMTRES CORRLS 99
a. Paramtres acoustiques (X
1
X
7
) et visuels (Y
1
Y
7
) originaux
0 100 200 300 400 500 600 700
40
30
20
10
0
10
0 100 200 300 400 500 600 700
50
40
30
20
10
0
10
b. Paramtres acoustiques A
1
et visuels
1
obtenus par CANCOR
0 100 200 300 400 500 600 700
1
0.5
0
0.5
1
0 100 200 300 400 500 600 700
4
2
0
2
4
c. Paramtres acoustiques A
1
et visuels
1
obtenus par CoIA
0 100 200 300 400 500 600 700
5
0
5
x 10
7
0 100 200 300 400 500 600 700
4
2
0
2
4
6
FIG. 6.3 volution des paramtres acoustiques (seules les dimensions X
1
X
7
sont reprsentes) et visuels
(Y
1
Y
7
) avant (a) et aprs transformation (A
1
=
n
i=1
a
1i
X
i
et
1
=
m
i=1
b
1i
Y
i
) par CANCOR (b) et
CoIA (c). La corrlation entre X and Y est plus visible dans lespace transform que dans lespace original.
den Markov models en anglais). Dans [Argones-Ra et al., 2007b, Argones-Ra et al., 2007a], nous avons
propos une modlisation statistique de la synchronie audiovisuelle laide de deux HMM coupls, portant
respectivement sur des paramtres acoustiques et visuels dont la dimension est pralablement rduite par
CoIA.
6.3 Mesure de synchronie
Nous introduisons dans cette section une mthode utilisant ces transformations an de mesurer la syn-
chronie dune squence audiovisuelle de test dont on a extrait les paramtres acoustiques X
et visuels
Y
.
6.3.1 Principe commun
Quatre mesures diffrentes sont proposes qui partagent cependant toutes un cadre commun en trois
tapes, rsum schmatiquement dans la gure 6.4 : aprs une premire tape de modlisation de la syn-
chronie laide de CANCOR et/ou CoIA, les paramtres de la squence de test sont transforms et une
mesure de synchronie base sur leur corrlation est nalement obtenue.
FIG. 6.4 Mesure de synchronie
tape 1 : Modlisation partir de paramtres acoustiques X
et visuels Y
extraits des squences is-

sues de lensemble dapprentissage , CANCOR et/ou CoIA permettent de dduire les matrices A
et B
:
6.3. MESURE DE SYNCHRONIE 101
(X
, Y
) (A
, B
) (6.4)
tape 2 : Transformation Les paramtres acoustiques X
et visuels Y
de la squence dont on cherche

mesurer la synchronie sont extraits puis transforms laide des deux matrices A
et B
an dobtenir les
paramtres acoustiques et visuels corrls A et :
A = A
t
X
= B
t
Y
(6.5)
tape 3 : Mesure Les corrlations entre chaque dimension de A et sont calcules et participent la
mesure s
D
_
X
, Y
_
de synchronie entre X
et Y
. Plus elles sont leves, plus le degr de synchronie est

lev :
s
D
_
X
, Y
_
=
1
D
D
k=1
corr (A
k
,
k
)
=
1
D
D
k=1
A
k
t
k
_
A
k
t
A
k
_
k
t
k
=
1
D
D
k=1
_
a
k
t
X
_
t
_
a
k
t
Y
_
_
_
a
k
t
X
_
t
_
a
k
t
X
_
_
_
a
k
t
Y
_
t
_
a
k
t
Y
_
(6.6)
o
D d est le nombre de dimensions effectivement conserves.
6.3.2 Variantes
Synchronie ( = ) Dans le cas o lon choisit la squence elle-mme comme squence dapprentis-
sage ( = ), on parle de synchronie . CANCOR et/ou CoIA sont directement appliques sur la squence
audiovisuelle dont on cherche mesurer la synchronie : il sagit dune mesure de la synchronie intrinsque
de la squence .
Synchronie par morceau ( = ) Cette mthode est une extension de la synchronie base sur le
postulat suivant :
Si la squence est effectivement synchrone, alors chaque sous-squence devrait suivre le mme
modle de synchronie. Ainsi, un modle de synchronie intrinsque une sous-squence sera
aussi optimal pour toute autre sous-squence ;
En revanche, si la squence nest pas synchrone, alors un modle de synchronie intrinsque
une sous-squence ne portera que trs peu dinformation quant la synchronie dune autre sous-
squence ( = ).
Notons N le nombre dchantillons de la squence : X
= x
1
, . . . , x
N
et Y
= y
1
, . . . , y
N
. On
dnit P
lensemble des sous-squences de de cardinal N/2 de faon partitionner la squence

en deux sous-squences dapprentissage et de test de mme taille ( un chantillon prs) comme lillustre
la gure 6.5. La mesure de synchronie par morceaux est nalement obtenue laide de lquation (6.7).
s
D
_
X
, Y
_
=
1
card P
D
(X
, Y
) (6.7)
Pour des raisons combinatoires, il nest en pratique pas envisageable de sommer sur lensemble de toutes
les partitions de . Par consquent, un petit nombre de partitions (50, dans notre cas) est tir alatoirement,
qui participe la mesure de synchronie par morceaux.
FIG. 6.5 Partition de la squence en sous-squence dapprentissage et sous-squence de test
6.4. VALUATION 103
Synchronie ( = ) Par analogie au modle du monde (UBM, pour Universal Background Model
en anglais) en vrication du locuteur, la synchronie fait appel un modle du monde . Ainsi, des
paramtres acoustiques X
et visuels Y
sont extraits dun ensemble de squences audiovisuelles dun

grand nombre de personnes diffrentes. Ceci permet de calculer les matrices A
et B
qui dcrivent des

transformations maximisant globalement la corrlation entre les paramtres acoustiques et visuels du monde
. Il sagit dune mesure de la synchronie universelle de la squence .
Synchronie ( = ) La mesure de synchronie est une mesure dpendante de la personne. Elle repose
sur le postulat que chaque personne possde sa propre faon de synchroniser sa voix et le mouvement de
ses lvres. Ainsi, des paramtres acoustiques X
et visuels Y
sont obtenus partir dune squence au-

diovisuelle de la personne (la squence denrlement dans le systme biomtrique, typiquement) an de
calculer les matrices A
et B
.
Important Ce chapitre tant ddi la tche de dtection dasynchronie, les performances des mesures
de synchronie sont values laide du protocole S. Dans ce cadre diffrent de celui de la vrication
didentit, il convient de rappeler la signication des nombres NI, NC, NFA et NFR utiliss pour le calcul
des valeurs de DCF et le trac des courbes DET :
NI est le nombre de squences asynchrones ;
NC est le nombre de squences synchrones ;
NFA est le nombre de squences asynchrones faussement classes comme tant synchrones ;
NFR est le nombre de squences synchrones faussement classes comme tant asynchrones.
6.4 valuation
Un grand nombre de rglages diffrents peuvent inuer sur les performances de ces diffrentes mesures
de synchronie. Les gures 6.6 et 6.7 rsument les nombreuses expriences menes sur le protocole S avec
la mesure de synchronie .
Pour chaque courbe, le titre indique quelle combinaison de paramtres acoustiques et visuels est utilise.
La premire des trois colonnes correspond aux paramtres visuels de type DCT, la seconde ceux de type
DCT+ et la troisime ceux de type DCT++. De faon analogue, chaque ligne correspond un type
de paramtres acoustiques ; dans lordre, de la premire la sixime ligne : MFCC, MFCCE, MFCC+,
MFCCE+, MFCC++ et MFCCE++ (voir les tableaux 6.1 et 6.2).
5 10 15 20 25 30 35
0.05
0.1
MFCCDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCEDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCEDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCEDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCDDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCDDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCDDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCEDDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCEDDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCEDDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCDADCT
5 10 15 20 25 30 35
0.05
0.1
MFCCDADCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCDADCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCEDADCT
5 10 15 20 25 30 35
0.05
0.1
MFCCEDADCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCEDADCTDA
FIG. 6.6 Performances de la synchronie CANCOR sur le protocole S. Chaque courbe correspond une
combinaison MFCC/DCT (voir les tableaux 6.1 et 6.2). La valeur de DCF est trace en fonction de D. La
courbe rouge en pointills correspond aux paramtres visuels DCT
1
, celle en bleu en trait plein ceux de
type DCT
2
. La ligne noire horizontale en pointills correspond la valeur de DCF de la meilleure mesure
CANCOR .
La valeur de DCF est trace en fonction de la dimension D introduite dans lquation (6.6). Les courbes
rouges en pointills correspondent aux paramtres visuels de type DCT
1
et les courbes bleues ceux de type
DCT
2
(voir la gure 6.8). La ligne horizontale noire en pointills correspond la valeur de DCF du meilleur
systme de chaque gure.
Taille de la rgion dintrt La premire observation (surtout visible sur la gure 6.7 correspondant
CoIA) concerne la comparaison entre les paramtres DCT
1
et DCT
2
. Les performances obtenues avec les
paramtres DCT
1
sont toujours, sinon quivalentes, moins bonnes que celles obtenues avec les paramtres
DCT
2
. Il apparat ainsi que linformation visuelle de parole nest pas conne dans la seule rgion des lvres
que dcrivent les paramtres de type DCT
1
: il convient donc dintgrer les informations contenues dans une
rgion plus large englobant une partie de la mchoire et des joues. Ce comportement a aussi t observ lors
6.4. VALUATION 105
5 10 15 20 25 30 35
0.05
0.1
MFCCDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCEDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCEDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCEDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCDDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCDDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCDDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCEDDCT
5 10 15 20 25 30 35
0.05
0.1
MFCCEDDCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCEDDCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCDADCT
5 10 15 20 25 30 35
0.05
0.1
MFCCDADCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCDADCTDA
5 10 15 20 25 30 35
0.05
0.1
MFCCEDADCT
5 10 15 20 25 30 35
0.05
0.1
MFCCEDADCTD
5 10 15 20 25 30 35
0.05
0.1
MFCCEDADCTDA
FIG. 6.7 Performances de la synchronie CoIA sur le protocole S. Chaque courbe correspond une
combinaison MFCC/DCT. La valeur de DCF est trace en fonction de D. La courbe rouge en pointills
correspond aux paramtres visuels DCT
1
, celle en bleu en trait plein ceux de type DCT
2
. La ligne noire
horizontale en pointills correspond la valeur de DCF de la meilleure mesure CoIA .
FIG. 6.8 Taille de la rgion dintrt pour lextraction des paramtres visuels. En rouge, la zone obtenue
par lalgorithme de dtection de la bouche ; en vert, la zone conserve dans le cas de DCT
1
; en bleu, celle
do sont extraits les coefcients DCT
2
.
des expriences menes sur les mesures de synchronie et .
Par la suite, nous ne considrerons donc que les paramtres visuels de type DCT
2
.
Drives premires et secondes Si lon compare les courbes bleues (correspondant aux paramtres DCT
2
)
des trois colonnes de la gure 6.7, lajout des drives premires des paramtres visuels apporte une petite
amlioration (bien que non statistiquement signicative) tandis que lajout complmentaire des drives
secondes a tendance dgrader les performances. Deux principales raisons peuvent expliquer ce phno-
mne. Tout dabord, alors que le nombre dchantillons disponibles pour lapprentissage reste inchang,
lajout des drives secondes augmente les dimensions du modle de synchronie (les matrices A et B) ;
ceci risque dentraner une modlisation approximative de la synchronie (le fameux au des dimensions).
Cette remarque est dautant plus vraie pour CANCOR qui, comme on la dj mentionn, est beaucoup plus
sensible la taille de lensemble de lapprentissage et ncessite gnralement plus de donnes que CoIA
pour mener correctement ltape de modlisation. La seconde raison rside dans la mthode de calcul des
drives secondes. tant calcules partir dune fentre temporelle dchantillons eux-mmes interpols li-
nairement, il est probable que les drives secondes ainsi estimes apportent plus de bruit que dinformation
pertinente.
En ce qui concerne les drives des paramtres acoustiques MFCC, leur inuence est beaucoup moins
marque et les diffrences de performances observes ne permettent pas de tirer de conclusion.
nergie acoustique La diffrence (en termes de DCF) mesure entre les systmes utilisant (lignes 2, 4 et
6) ou non (lignes 1, 3 et 5) lnergie acoustique est loin dtre statistiquement signicative. Pourtant, nos
premiers travaux publis dans [Bredin et al., 2006c] avaient montr quelle est une source dinformation
pertinente dans la tche de dtection dasynchronie.
Dans la suite du chapitre, la combinaison de paramtres choisie est {MFCCE+, DCT+}.
CANCOR vs. CoIA La gure 6.9 nous permet dentrer dans les dtails de la comparaison des compor-
tements de CANCOR et CoIA. Lutilisation de la mesure de synchronie mne systmatiquement des
valeurs de DCF plus leves que celles obtenues par les mesures de synchronie ou . On remarque cepen-
dant la diffrence de comportement entre CANCOR et CoIA en comparant les synchronies et . L o
la synchronie est bien meilleure que la synchronie pour CoIA, linverse est constat pour CANCOR.
Ceci peut sexpliquer par le fait que lestimation robuste des matrices A et B ncessite beaucoup plus de
6.4. VALUATION 107
CANCOR CoIA
5 10 15 20 25
0.04
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
Dimension D
V
a
l
e
u
r

d
e

D
C
F
Synchronie
Synchronie
Synchronie
5 10 15 20 25
0.04
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
Dimension D
V
a
l
e
u
r

d
e

D
C
F
Synchronie
Synchronie
Synchronie
FIG. 6.9 Comparaison des mesures bases sur CANCOR et CoIA. Les points indiquent les meilleurs
systmes pour chaque conguration. Les lignes noires horizontales en pointills indiquent lintervalle de
conance 95% sur la valeur de DCF des meilleures mesures CANCOR () et CoIA ().
donnes pour CANCOR (base sur lestimation des matrices de covariance C
XY
, C
XX
et C
Y Y
) que pour
CoIA (base sur lestimation de la seule matrice de covariance C
XY
).
Dimension D Les courbes DCF = f(D) pour les synchronies , et prsentent des allures diffrentes.
La mesure de synchronie obtient ses meilleures performances pour des petites valeurs de D. En effet,
ajouter des dimensions supplmentaires dtriore irrmdiablement et trs rapidement les performances. Le
modle de synchronie intrinsque dune squence audiovisuelle est ainsi rsum en trs peu dinformation,
les dimensions restantes pouvant tre considres comme du bruit. La mesure de synchronie obtient aussi
ses meilleures performances pour des petites valeurs de D mais ajouter des dimensions supplmentaires au
calcul de la mesure ne dtriore que trs peu les performances. Enn, la mesure de synchronie ncessite
un nombre plus important de dimensions pour atteindre ses meilleures performances. Il est possible din-
terprter ce comportement en considrant que les toutes premires dimensions de projection dcrivent un
comportement universel et les dtails de la synchronie propre chacun sont contenus dans les dimensions
suivantes.
Synchronie par morceaux Le tableau 6.3 rsume en quelques chiffres les performances optimales
(correspondant aux dimensions marques dun point dans la gure 6.9) des diffrentes congurations
qui partagent toutes les mmes paramtres audiovisuels { MFCCE+, DCT+ }. En outre, nous avons
Mesure de synchronie Dimension D DCF
CANCOR 2 8.4 0.5 %
CANCOR par morceaux 7.9 0.5 %
CANCOR 8 5.7 0.5 %
CANCOR 14 6.0 0.4 %
CoIA 2 8.0 0.5 %
CoIA par morceaux 7.4 0.5 %
CoIA 9 6.1 0.5 %
CoIA 8 5.0 0.4 %
Eveno NA 9.7 0.3 %
TAB. 6.3 Meilleur systme pour chaque mesure de synchronie sur le protocole S
report dans la gure 6.10 les courbes DET correspondantes. Pour des raisons de clart, nous navons pas
report celles correspondant aux mesures de synchronie par morceaux. Comme le montre le tableau 6.3,
CANCOR CoIA
1 2 5 10 15 20 30 40 50
1
2
5
10
15
20
30
40
50
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Synchronie
Synchronie
Synchronie
1 2 5 10 15 20 30 40 50
1
2
5
10
15
20
30
40
50
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Synchronie
Synchronie
Synchronie
Eveno et Besacier
FIG. 6.10 Courbes DET correspondant aux systmes du tableau 6.3
lamlioration apporte par la synchronie par morceaux nest pas signicative pour le systme CANCOR.
Celui-ci tant dj trs limit par la quantit de donnes dapprentissage disponible, la diviser par deux en
appliquant la synchronie par morceaux ne fait que lui rendre la tche dapprentissage encore plus difcile.
En revanche, son application sur le systme CoIA apporte une lgre amlioration quil convient toutefois
de relativiser : ses performances restent moins bonnes que la mesure de synchronie CoIA alors quelle
demande pourtant environ cinquante fois plus de temps de calcul.
6.5. DISCUSSION 109
Comparaison avec lexistant En termes de DCF, les performances de notre implmentation de la tech-
nique propose par Eveno et Besacier sont moins bonnes que chacune de nos meilleures propositions. Ce-
pendant, l o ils utilisaient des paramtres visuels lis la forme des lvres (hauteur, largeur et aire) et des
paramtres acoustiques LPC, notre implmentation utilise les coefcients DCT et MFCC. Pouvoir tirer des
conclusions dnitives quant au meilleur systme ncessiterait dutiliser la mme implmentation que celle
dcrite dans [Eveno et Besacier, 2005b].
6.5 Discussion
Nous avons propos quatre variantes originales dune mesure de synchronie de la parole audiovisuelle et
avons valu leurs performances pour la tche de dtection dasynchronie.
Le systme-talon Eveno et Besacier permet dobtenir une mesure du niveau de difcult du protocole S :
son taux dgale erreur est denviron 26%. Dans [Eveno et Besacier, 2005b], sur un protocole quivalent
construit partir de squences de la base de donnes XM2VTSDB [Messer et al., 1999], son taux dgale
erreur tait denviron 14%. La diffrence entre ces deux protocoles rside essentiellement dans les conditions
denregistrement des squences audiovisuelles. L o le protocole dEveno et Besacier est bas sur des
donnes de type controlled (avec fond bleu et une camra de bonne qualit), le protocole S fait, quant
lui, appel des donnes de type controlled, degraded (dans un bureau et avec une webcam) et adverse (la
personne est debout dans un rfectoire, la tte penche vers le bas), comme lillustre la gure 2.3 de la
page 47.
Aussi, nous avons dni un protocole S
c
partir du protocole S en ne conservant que les tests portant sur
les squences de type controlled. Les rsultats obtenus par le meilleur systme (CoIA avec D = 8) sur les
deux protocoles sont compars dans la gure 6.11. Les courbes DET montrent clairement que la dgradation
des conditions denregistrement entrane une dgradation des performances : les valeurs de DCF permettent
de tirer la mme conclusion : DCF (S) = 5.0 0.4% et DCF (S
c
) = 3.4 1.5%. Notons que pour le systme
Eveno et Besacier, DCF (S
c
) = 9.5 1.7%.
Le protocole S est dautant plus difcile que des squences asynchrones sont parfois synchrones (dun
point de vue subjectif) par le seul fait du hasard
1
.
1
Un exemple de squence asynchrone particulirement difcile dtecter est propos en ligne ladresse
http://www.tsi.enst.fr/~bredin/these, section Complments multimdia.
1 2 5 10 15 20 30 40 50
1
2
5
10
15
20
30
40
50
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)

Protocole S
c
Protocole S
FIG. 6.11 Performances de CoIA sur le protocole S
c
.
Poids des dimensions Les ux de parole acoustique X et visuel Y sont transforms en des ux A et
de mme dimension D par analyse de corrlation canonique et analyse de co-inertie. Les quatre variantes
partagent la mme mesure de corrlation qui affecte le mme poids chacune des D dimensions et que lon
rappelle ici :
s(X, Y ) =
1
D
D
k=1
w
k
corr (A
k
,
k
) avec w
k
= constante = 1 (6.8)
Pourquoi ne pas pondrer diffremment chacune des dimensions ? Est-il sens de toutes leur donner le mme
poids ? Il serait certainement judicieux de sintresser la question plus en dtails. Nous allons tcher dy
apporter une rponse prliminaire.
gauche dans la gure 6.12, la valeur moyenne de corr (A
k
,
k
) estime (pour la mesure CoIA ) sur
lensemble de test est reporte en fonction de la dimension k, pour les squences synchrones (en pointills
verts) et asynchrones (en rouge). Il apparat clairement que les premires dimensions contiennent un maxi-
mum de corrlation et la mesure dnie par lquation (6.8) donne, naturellement et malgr les apparences,
plus de poids aux premires dimensions. An dquilibrer linuence de chaque dimension, nous proposons
de normaliser les corrlations en introduisant les poids w
k
dnis par lquation (6.9) et estims laide de
6.5. DISCUSSION 111
Avant normalisation Aprs normalisation
5 10 15 20 25
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
Dimension k
C
o
r
r
e
l
a
t
i
o
n

m
o
y
e
n
n
e
Synchronise
Non synchronise
5 10 15 20 25
0
0.2
0.4
0.6
0.8
1
1.2
1.4
1.6
1.8
2
Dimension k
C
o
r
r
e
l
a
t
i
o
n

m
o
y
e
n
n
e
Synchronise
Non synchronise
FIG. 6.12 Effet de la normalisation sur les corrlations. La valeur moyenne de w
k
corr (A
k
,
k
) estime
(pour la mesure CoIA ) sur lensemble de test est reporte en fonction de la dimension k, gauche avant
normalisation (w
k
= 1) et droite aprs normalisation (voir quation (6.9)), pour les squences synchrones
(en pointills verts) et asynchrones (en rouge).
lensemble (groupe G1 ou G2) de dveloppement :
w
k
= E[corr (A
k
,
k
)]
1
(6.9)
Leffet de cette normalisation sur les corrlations est mise en vidence dans la gure 6.12 droite. Son
effet sur les performances globales (en termes de DCF) de la mesure de synchronie CoIA est lobjet de la
gure 6.13 : elle tend conrmer lobservation selon laquelle seules les premires dimensions apportent une
relle information, les suivantes ayant tendance dgrader les performances. La version non-normalise de
la mesure de synchronie CoIA reste toutefois la meilleure.
Dpendance phontique Une deuxime interrogation rside dans la modlisation globale de la syn-
chronie audiovisuelle. Le mouvement conjoint des lvres avec la voix est-il global ? Ne dpend-il pas du
texte prononc ? Ne serait-il pas prfrable de modliser la synchronie en fonction de la structure pho-
ntique du texte prononc ? Plusieurs pistes sont ouvertes pour essayer de rpondre ces questions. Dans
[Argones-Ra et al., 2007b,Argones-Ra et al., 2007a] traitant aussi de la tche de dtection dasynchronie,
nous avons utilis des HMM coupls 5 tats pour modliser la synchronie, permettant ainsi de dcouper
le signal en autant de classes phontiques. Aucune diffrence signicative de performance na t consta-
te. Nous avons, en outre, implment une version avec fentre glissante de la mesure de synchronie ,
visant extraire localement linformation de synchronie. Les rsultats ont montr une dgradation signi-
5 10 15 20 25
0.04
0.05
0.06
0.07
0.08
0.09
0.1
0.11
0.12
Dimension D
V
a
l
e
u
r

d
e

D
C
F
Synchronie
Synchronie
w
FIG. 6.13 Comparaison des mesures de synchronie CoIA originale et normalise
w
.
cative des rsultats de dtection dasynchronie, probablement du fait de la quantit trop rduite de donnes
dapprentissage.
Chapitre 7
Vrication didentit
Introduction
Les bons rsultats obtenus par la mesure de synchronie par CoIA pour la tche de dtection dasyn-
chronie nous ont amens rchir son utilisation dans le cadre de la vrication didentit. En effet, sil
est prfrable dutiliser un modle dpendant du locuteur pour valuer le degr de synchronie audiovisuelle,
il est vraisemblable que ce modle contienne une information relative son identit. Nous sommes ainsi
partis du postulat selon lequel chaque personne possde une faon de synchroniser sa voix et ses lvres qui
lui est propre et introduisons dans ce chapitre une troisime modalit biomtrique (aprs la vrication du
locuteur et celle du visage) lie la synchronie audiovisuelle.
7.1 Principe de la modalit synchronie
Enrlement partir de paramtres acoustiques X
et visuels Y
extraits de la squence denrlement de

la personne , lapplication de CoIA permet de dduire les matrices A
et B
.
_
X
, Y
_

_
A
, B
_
(7.1)
Le couple
_
A
, B
_
constitue alors le modle didentit du client .
Test Les paramtres acoustiques X
et visuels Y
de la squence dont on cherche dterminer si elle

correspond la personne sont extraits puis transforms laide des deux matrices A
et B
an dobtenir
les paramtres acoustiques et visuels corrls A et :
113
114 CHAPITRE 7. VRIFICATION DIDENTIT
A = A
t
X
= B
t
Y
(7.2)
Les corrlations entre chaque dimension de A et sont calcules et participent la mesure s
D
_
X
, Y
_
de similarit S
synchronie
([) :
S
synchronie
([) = s
D
_
X
, Y
_
=
1
D
D
k=1
corr (A
k
,
k
)
=
1
D
D
k=1
A
k
t
k
_
A
k
t
A
k
_
k
t
k
=
1
D
D
k=1
_
a
k
t
X
_
t
_
a
k
t
Y
_
_
_
a
k
t
X
_
t
_
a
k
t
X
_
_
_
a
k
t
Y
_
t
_
a
k
t
Y
_
(7.3)
o
D d est le nombre de dimensions conserves dans la mesure de synchronie.
Cette mesure est nalement compare un seuil permettant de vrier lidentit clame par la personne :
synchronie
7.2 valuation
La gure 7.1 rsume les expriences menes sur le protocole P. Pour chaque courbe, le titre indique quelle
combinaison de paramtres acoustiques et visuels est utilise. La valeur de DCF est trace en fonction de la
dimension D.
nergie acoustique Lobservation des performances (en termes de DCF) des systmes utilisant (lignes 2,
4 et 6) ou non (lignes 1, 3 et 5) lnergie acoustique montre que lajout de lnergie acoustique aux vecteurs
de paramtres acoustiques tend dgrader les performances. Ce comportement correspond au phnomne
gnralement observ en vrication du locuteur base sur les coefcients MFCC : lajout de lnergie
acoustique dgrade les performances. Par la suite, on prfre donc ne pas prendre en compte cette informa-
7.2. VALUATION 115
FIG. 7.1 Performance de la modalit synchronie sur le protocole P. Chaque courbe reprsente la valeur
de DCF en fonction de D et correspond une combinaison MFCC/DCT (voir les tableaux 6.1 et 6.2 aux
pages 96 et 96). La ligne horizontale noire en pointills correspond la valeur de DCF du meilleur systme
(point rouge).
tion perturbatrice.
Drives Comme nous lavions constat pour lapplication de dtection de synchronie, lajout des dri-
ves premires (autant acoustiques que visuelles) entrane lamlioration des performances. En revanche,
les drives secondes napportent aucune amlioration signicative supplmentaire (voire dtriorent les
performances dans le cas des drives secondes visuelles).
Dans la suite du chapitre, la combinaison de paramtres choisie est {MFCC+, DCT+} avec D = 9.
Znorm De faon analogue aux deux systmes bass sur les modalits voix et visage, nous appliquons une
tape supplmentaire de normalisation des scores par Znorm. Les courbes DET de la gure 7.2 montrent
quaucune amlioration signicative nest apporte par cette normalisation.
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
ZNorm
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
ZNorm
FIG. 7.2 Inuence de la Znorm sur le systme bas sur la synchronie
Inuence du texte prononc Le protocole P peut tre considr comme un protocole dpendant du texte.
En effet, chaque personne sont associs un nom et une adresse qui lui sont propres et quelle prononce
lors de ses accs client. En outre, lors des accs imposteur, limposteur prononce le nom et ladresse que sa
cible utilise pour sauthentier. An dtudier la dpendance du modle avec la phrase denrlement, nous
avons introduit le protocole txtP qui est indpendant du texte dans le sens o les clients prononcent une
phrase diffrente de celle denrlement. Les courbes et chiffres de la gure 7.3 dcrivent les rsultats obte-
nus. Puisque seuls les accs client diffrent entre les protocoles P et txtP, les valeurs de FAR sont les mmes.
On note une lgre augmentation du FRR qui nest cependant pas statistiquement signicative (au vu des
intervalles de conance). Contrairement la modalit voix dont les performances varient signicativement
entre les protocoles P et txtP (le FRR passe denviron 42% 53%), le modle de synchronie cr lors de
7.2. VALUATION 117
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Protocole P
Protocole txtP
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Protocole P
Protocole txtP
FAR = 0.96 0.77%
FRR = 76.61 3.84%
Protocole txtP DCF = 8.72 0.83%
FAR = 0.96 0.77%
FRR = 77.69 3.27%
FIG. 7.3 Inuence du texte prononc
lenrlement nest donc pas perturb par lutilisation dune phrase dauthentication diffrente : il est assez
gnral pour tre utilis dans un cadre indpendant du texte. Ce rsultat savre trs satisfaisant.
Robustesse aux attaques Rappelons que cette nouvelle modalit biomtrique a t introduite dans le but
de parer aux attaques dlibres dimposture. Il convient donc dtudier ses performances face aux attaques
introduites au chapitre 4 et qui constitue un rel danger pour le systme de fusion locuteur+visage. Comme
nous pouvons le constater dans la gure 7.4, la nouvelle modalit est intrinsquement robuste aux attaques :
elles sont toutes rejetes, sans exception. Cependant, ses performances brutes (sur le protocole P original,
o les impostures sont alatoires) sont beaucoup moins satisfaisantes. L o le FRR du systme de fusion
locuteur+visage est denviron 37%, celui de la modalit synchronie atteint 76%, multipliant par deux le
nombre de clients faussement rejets et potentiellement mcontents. Enn, en termes de DCF, le systme de
fusion locuteur+visage possde des performances brutes largement meilleures (5.8% contre 8.6% pour la
modalit synchronie).
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
Paparazzi
Echelon
Big Brother
Crazy Talk
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
Paparazzi
Echelon
Big Brother
Crazy Talk
FAR = 0.96 0.77%
FRR = 76.61 3.84%
FAR = 0%
FAR = 0%
FAR = 0% [0%, 7%]
FAR = 0% [0%, 7%]
FIG. 7.4 Performances du systme bas sur la synchronie
7.3 Discussion
Nous avons propos dans ce chapitre une mthode originale de vrication didentit base sur lanalyse
de la synchronie audiovisuelle. Contrairement au systme de fusion locuteur+visage, cette nouvelle mo-
dalit est intrinsquement robuste aux attaques dlibres dimposture introduites au chapitre 4. En outre,
contrairement au module de vrication du locuteur, les performances de la modalit synchronie ne sont pas
dgrades dans un contexte de vrication indpendante du texte.
7.3. DISCUSSION 119
Notons que mme dans le cas des attaques Crazy Talk o les lvres et la voix sont effectivement synchro-
nises, la modalit synchronie est en mesure de rejeter les imposteurs. Cette observation conrme le fait
quil y a une relle information didentit dans la faon qua une personne de synchroniser sa voix et ses
lvres et que le logiciel Crazy Talk nest pas en mesure de reproduire.
Les performances relativement faibles de la modalit synchronie sur le protocole P original (DCF = 8.6%
comparer DCF = 5.8% pour le systme de fusion locuteur+visage) sexpliquent en partie par les erreurs
de segmentation des lvres. En effet, en nous penchant sur la distribution des scores client issus du test sur
le groupe G1, nous avons extrait les deux personnes pour lesquelles les scores taient les plus faibles. Nous
avons ensuite visualis le rsultat de la dtection du visage et de la bouche sur leurs squences denrlement
et prsentons deux rsultats typiques dans la gure 7.5. De nombreuses erreurs de segmentation surviennent
FIG. 7.5 Erreur de dtection de la bouche rsultant en un mauvais modle
tout au long de ces deux squences. La mauvaise qualit des modles de synchronie rsultant explique alors
pourquoi ces deux clients sont faussement rejets au moment du test. La premire piste damlioration de
cette modalit rside donc dans le perfectionnement du module de segmentation du visage et de la bouche.
Malgr toutes ces proprits trs prometteuses, les performances brutes (sur le protocole P original) rela-
tivement faibles ne permettent pas la mise en place dun systme biomtrique bas sur cette seule modalit
synchronie. Il convient de tirer prot de sa complmentarit avec le systme de fusion locuteur+visage :
cest lobjet du chapitre suivant.
Chapitre 8
Fusion robuste
Introduction
Nous avons jusquici dcrit et tudi deux systmes de vrication de lidentit des visages parlants :
le premier est un systme classique bas sur la fusion des deux modalits locuteur et visage, le second
repose quant lui sur la modalit synchronie que nous avons introduite dans le chapitre prcdent. Alors
quil possde les meilleures performances brutes de vrication, le premier systme est nanmoins trs peu
robuste aux attaques dcrites au chapitre 4. linverse, la modalit synchronie a des performances brutes
relativement faibles mais est intrinsquement robuste aux impostures dlibres. Lobjectif de ce chapitre
est de tirer prot de cette complmentarit en fusionnant ces deux systmes de faon obtenir un systme
nal la fois robuste aux attaques et obtenant des performances brutes satisfaisantes.
8.1 Stratgies de fusion
Chacune des trois modalits locuteur, visage et synchronie fournit un score : S
locuteur
, S
visage
et
S
synchronie
respectivement. Trois stratgies de fusion de ces scores sont proposes et values relative-
ment leurs performances brutes (sur le protocole P original) et leur robustesse aux attaques.
Remarque Pour plus de lisibilit, nous noterons par la suite S
l
, S
v
et S
s
les scores normaliss (voir le
paragraphe 3.3.2 propos de la normalisation tanh) issus respectivement de la vrication du locuteur, du
visage et de la synchronie.
121
122 CHAPITRE 8. FUSION ROBUSTE
8.1.1 Fusion nave
La premire stratgie de fusion consiste en une extension de la stratgie de fusion des deux modalits
locuteur et visage (prsente au paragraphe 3.4, page 64) aux trois modalits locuteur, visage et synchronie.
Comme le rsume lquation (8.1), il sagit de la somme pondre des trois scores S
l
, S
v
et S
s
.
S
1
= w
l
S
l
+w
v
S
v
+w
s
S
s
avec w
l
+w
v
+w
s
= 1 (8.1)
Lestimation des poids optimaux w
l
, w
v
et w
s
est ralise en minimisant le taux derreur sur lensemble
de dveloppement (G1 quand le systme est test sur G2, et rciproquement).
8.1.2 Fusion robuste
Comme nous le verrons par la suite, lapport de cette premire stratgie de fusion par rapport au systme
de fusion locuteur+visage est nul. Aussi, nous proposons deux nouvelles stratgies de fusion tirant mieux
prot des spcicits de chacun des systmes en termes de robustesse aux attaques et de performances
brutes.
Mesure de conance
Comme on peut le constater dans la gure 8.1 gauche, les scores de la modalit synchronie obtenus par
les imposteurs (alatoires ou dlibrs, en rouge et vert) sont, en moyenne, plus faibles que ceux obtenus
lors des accs client (en bleu).
La diffrence entre la distribution des scores imposteur alatoires et dlibrs sexplique par le fait que
les lvres et la voix ne sont pas synchrones pour les secondes ( lexception des attaques Crazy Talk o elles
sont articiellement synchronises) alors quelles le sont dans le cas dimposteurs alatoires. Nanmoins,
les scores client sont, en moyenne, plus levs que les scores imposteur alatoires puisque la mesure de
synchronie utilise est la mesure dpendante de lidentit du client. Nous proposons donc de dnir une
mesure de conance en le systme de fusion locuteur+visage initial, fonction du score S
s
fourni par la
modalit synchronie :
(S
s
) = p (s S
s
[ accs client) (8.2)
La mesure correspond la fonction de rpartition des scores client de la modalit synchronie. Cette
8.1. STRATGIES DE FUSION 123
0.05 0 0.05 0.1 0.15 0.2 0.25
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0.2

Client
Imposture Aleatoire
Attaque
0.05 0 0.05 0.1 0.15 0.2 0.25
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1

Client
Imposture Aleatoire
Attaque
FIG. 8.1 gauche, distribution des scores de la modalit synchronie pour les accs client, imposteur
alatoires et les attaques. droite, les fonctions de rpartitions correspondantes.
fonction est estime partir des accs client de lensemble dapprentissage. Son allure est dessine dans la
gure 8.1 droite en bleu. Il sagit dune mesure de conance en le systme de fusion locuteur+visage dans
le sens o sa valeur est plus leve si la mesure de synchronie est grande (i.e. sil est plus probable quau-
cune attaque nait lieu, auquel cas on peut faire conance au systme de fusion initial) et plus faible si la
mesure de synchronie est petite (i.e. sil est probable que le systme soit attaqu par un imposteur alatoire
ou dlibr, auquel cas il est prfrable de considrer avec prcaution le score issu du systme de fusion
initial).
Pnalisation
La premire stratgie de fusion robuste consiste pnaliser les accs dont la mesure de conance est
faible. Lquation (8.3) rsume ce processus de pnalisation :
S
2
= (S
s
) S
1
(8.3)
Le score S
1
dni par lquation (8.1) est ainsi modul par la mesure de conance qui varie entre 0 (lorsque
la mesure de synchronie est minimale) et 1 (lorsque elle est maximale).
Somme pondre adaptative
La seconde stratgie de fusion robuste vise proter de la complmentarit entre les performances brutes
de la premire stratgie de fusion et la robustesse aux attaques de la modalit synchronie. Alors que la pre-
mire stratgie de fusion est trs sensible aux attaques dlibres dimposture mais possde les meilleures
performances brutes, la modalit synchronie est trs robuste aux attaques mais possde des performances
brutes limites. Aussi, on propose de raliser une somme pondre de ces deux systmes en xant les poids
en fonction de la mesure de conance :
S
3
= (S
s
) S
1
+ [1 (S
s
)] S
s
(8.4)
Comme le montre lquation (8.4), cette dernire stratgie est base sur une somme pondre adaptative
des scores normaliss. Un poids plus important est donn la modalit synchronie quand la mesure de syn-
chronie est faible. Rciproquement, son poids est rduit quand la mesure de synchronie est leve et que
lon peut avoir conance en la stratgie de fusion initiale.
8.2 valuation
Fusion nave Lapprentissage des poids w
l
, w
v
et w
s
sur les ensembles de dveloppement G1 et G2 met
en vidence la faiblesse principale de la modalit synchronie : w
l
= 0.66, w
v
= 0.34 et w
s
= 0.00 pour
G1 et w
l
= 0.62, w
v
= 0.38 et w
s
= 0.00 pour G2. En dautres termes, ses mauvaises performances brutes
ont tendance dgrader les performances du systme de fusion locuteur+visage initial : un poids nul lui est
donc affect et le systme de fusion S
1
est identique au systme de fusion initial.
Performance brute La gure 8.2 rsume les performances des diffrentes stratgies de fusion sur le pro-
tocole P original. En termes de DCF, la fusion nave donne les meilleures performances, trs similaires
celles obtenues par la somme pondre adaptative. En ce qui concerne la stratgie de pnalisation, ses perfor-
mances sont identiques celle de la modalit synchronie. Les stratgies de pnalisation et somme pondre
adaptative rendent laccs plus difcile pour les imposteurs (FAR trs faibles) comme pour les clients (FRR
beaucoup plus levs, passant de 38% 54% et 76% respectivement).
Robustesse aux attaques Les gures 8.3 et 8.4 mettent en vidence la robustesse des stratgies de pna-
lisation et somme pondre adaptative aux attaques dlibres dimposture. Les courbes correspondant au
systme de fusion nave ne sont pas rptes ici : puisque w
s
= 0, le systme de fusion nave est le mme
8.2. VALUATION 125
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Fusion S1
Synchronie
Fusion S2
Fusion S3
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Fusion S1
Synchronie
Fusion S2
Fusion S3
Somme pondre S
1
DCF = 5.82 1.19%
FAR = 2.09 1.12%
FRR = 37.55 4.40%
Synchronie DCF = 8.61 0.85%
FAR = 0.96 0.77%
FRR = 76.61 3.84%
Pnalisation S
2
DCF = 8.21 0.73%
FAR = 0.64 0.63%
FRR = 75.75 3.89%
Somme pondre adaptative S
3
DCF = 6.00 0.77%
FAR = 0.64 0.62%
FRR = 53.65 4.53%
FIG. 8.2 Performances des systmes de fusion sur le protocole P original
que le systme de fusion de rfrence locuteur+visage. L encore, le systme de fusion par pnalisation ob-
tient des performances identiques (selon lintervalle de conance 95%) celle de la modalit synchronie.
Il rejette la totalit des attaques dlibres dimposture mais entrane aussi un taux de faux rejet trs lev.
Le systme de fusion par somme pondre adaptative apparat comme un bon compromis entre performance
brute et robustesse. En termes de DCF, il obtient, sur le protocole P, des performances brutes similaires au
systme de rfrence. Il est aussi trs robuste face aux attaques : il est meilleur que la modalit synchronie
pour les attaques Paparazzi, obtient des performances similaires pour les attaques Echelon et Big Brother
et est lgrement moins efcace face lattaque Crazy Talk (mais la diffrence nest pas statistiquement
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
Paparazzi
Echelon
Big Brother
Crazy Talk
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
Paparazzi
Echelon
Big Brother
Crazy Talk
FAR = 0.64 0.63%
FRR = 75.75 3.89%
FAR = 0%
FAR = 0%
FAR = 0% [0%, 7%]
FAR = 0% [0%, 7%]
FIG. 8.3 Performances du systme de fusion par pnalisation
signicative).
8.2. VALUATION 127
Groupe 1 Groupe 2
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
Paparazzi
Echelon
Big Brother
Crazy Talk
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Original
Paparazzi
Echelon
Big Brother
Crazy Talk
FAR = 0.64 0.62%
FRR = 53.65 4.53%
FAR = 0.32 0.44%
FAR = 2.41 1.20%
FAR = 1.92% [0%, 11%]
FAR = 7.69% [2%, 19%]
FIG. 8.4 Performances du systme de fusion par somme pondre adaptative
8.3 Discussion
La gure 8.5 rsume toutes ces expriences et inclut les performances du systme de rfrence, de la
modalit synchronie et des deux stratgies de fusion par pnalisation et par somme pondre adaptative. Le
compromis entre performance brute et robustesse aux attaques est mis en vidence en reportant en abscisse
la valeur de DCF sur le protocole P original et en ordonne la valeur de DCF face aux deux attaques les
plus difciles (Big Brother et son animation Crazy Talk). Alors quil possde les meilleures performances
0 0.02 0.04 0.06 0.08 0.1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
DCF sur le protocole P original
D
C
F

s
u
r

l
e
s

a
t
t
a
q
u
e
s
Fusion S1
Synchronie
Fusion S2
Fusion S3
Big Brother
Crazy Talk
FIG. 8.5 Compromis entre performance brute et robustesse aux attaques
brutes (dont lintervalle de conance est report en trait pointill la fois en abscisse et en ordonne, pour
rfrence), il apparat clairement que le systme de rfrence (quivalent au systme de fusion S
1
) est com-
pltement inefcace face aux attaques. linverse, la modalit synchronie est trs robuste aux attaques (la
valeur de DCF rfrence est atteinte pour les attaques) mais possde des performances brutes loignes de
la valeur de rfrence sur le protocole P original. Le systme de fusion par somme pondre adaptative b-
ncie la fois des performances brutes du systme de rfrence locuteur+visage et de la robustesse de la
modalit synchronie.
8.3. DISCUSSION 129
Ce meilleur compromis nous a ainsi permis datteindre lobjectif x dans la conclusion de la premire
partie : rendre le systme de rfrence robuste aux attaques sans dgrader ses performances brutes.
Conclusions et perspectives
131
Conclusions
Les systmes de vrication didentit base sur les visages parlants reposent pour la plupart sur la fusion
multimodale de deux modules de vrication du locuteur et de reconnaissance du visage. Cette architecture
parallle constitue leur principal dfaut : il suft en effet de montrer une photographie dune personne en
utilisant un magntophone pour rejouer un enregistrement de sa voix pour tromper ce type de systme.
Premire contribution Nous avons dni et simul quatre scnarios dattaques dlibres dimpos-
ture (nomms Paparazzi, Echelon, Big Brother et Crazy Talk) et y avons confront un systme rfrence
bas sur larchitecture classique de fusion des scores de vrication du locuteur et du visage. Nous avons
ainsi mis en vidence la totale inefcacit de ce type de systme face des attaques pourtant facilement
accessibles et ralisables par une personne malintentionne.
Quelques parades simples ont dj t proposes dans la littrature. La majorit dentre elles se base
sur lexploitation des donnes vidos uniquement : il sagit danalyser le visage et ses mouvements et den
dduire une dcision sur lventualit dune attaque. Cependant, les logiciels danimation de visage tels
que Crazy Talk de la socit Reallusion sont de plus en plus performants et proposent des animations trs
ralistes susceptibles de tromper ce type de parade.
Deuxime contribution Nous avons propos quatre nouvelles mesures de synchronie audiovisuelle
permettant de mesurer le degr de correspondance entre la voix acquise par le microphone et le mouvement
des lvres vues par la camra. Elles sont bases sur lanalyse de corrlation canonique et lanalyse de co-
inertie des deux ux acoustique et visuel et apportent un gain en performance consquent par rapport la
mthode dont elles sont inspires. Les mesures et par morceaux permettent dextraire une mesure de la
synchronie intrinsque dune squence audiovisuelle, sans apprentissage pralable de modle de synchronie.
La mesure est base sur un modle de synchronie comparable un modle du monde en vrication du
locuteur. Enn, la mesure fait appel un modle de synchronie dpendant du client.
La comparaison de ces diffrentes mesures de synchronie pour la tche de dtection dasynchronie a mis
en avant la mesure de synchronie dpendante du client : ses bons rsultats nous ont ensuite amens
rchir son application pour la vrication didentit.
Troisime contribution partir du postulat selon lequel chaque personne possde une faon qui lui
est propre de synchroniser sa voix et ses lvres, nous avons propos une nouvelle modalit biomtrique
base sur la synchronie audiovisuelle. Lors de lenrlement, un modle de synchronie dpendant du client
constitu de deux matrices de projection est calcul par analyse de co-inertie entre les ux de parole acous-
tique et visuel. Au moment du test, les deux ux de parole acoustique et visuel sont transforms par les
matrices du modle de lidentit clame. La mesure de synchronie est nalement utilise comme score de
vrication. Bien que ses performances brutes soient moins bonnes que le systme de rfrence, la modalit
synchronie est intrinsquement robuste aux attaques dlibres dimposture.
Ainsi, le systme de rfrence et cette nouvelle modalit sont tout fait complmentaires : quand lun
possde de bonnes performances brutes mais est inefcace face aux attaques, lautre y est robuste mais
possde des performances brutes moyennes.
Quatrime contribution Nous avons donc propos deux nouvelles stratgies de fusion visant tirer
prot de cette complmentarit. Elles font toutes deux appel une nouvelle mesure de conance (base sur
la mesure de synchronie) en le systme initial. La premire stratgie de fusion (dite de pnalisation) vise
pnaliser les accs dont la mesure de conance est faible. La seconde stratgie est une somme pondre
adaptative (en fonction de la mesure de conance) des scores issus du systme initial locuteur+visage et
de la modalit synchronie. Elle donne plus de poids au systme initial lorsque la mesure de conance est
leve. Inversement, elle privilgie la modalit synchronie lorsque la mesure de conance est faible.
Au nal, la stratgie de fusion par somme pondre adaptative des scores du systme de rfrence et de
la modalit synchronie apporte le meilleur compromis possible : elle permet de concilier les performances
brutes du systme initial et la robustesse aux attaques de la modalit synchronie. Nous avons ainsi apport
une solution originale et efcace au problme de robustesse aux attaques dlibres dimposture rencontr
par les systmes de vrication biomtrique didentit bass sur les visages parlants. Mme les attaques
de type Crazy Talk (que lon considre comme les plus difciles contrer) ne parviennent pas tromper
le systme nal, l o les mthodes proposes dans la littrature et bases sur la seule analyse de la partie
visuelle du signal auraient chou.
Perspectives court terme
Aprs analyse des rsultats obtenus par la modalit synchronie, il apparat que la grande majorit des
erreurs quelle commet est issue dune mauvaise segmentation de la zone des lvres. Cette tape cruciale au
traitement de la parole audiovisuelle mriterait donc lavenir de recevoir toute notre attention.
Parmi les attaques dlibres dimposture que nous avons proposes, lattaque de type Crazy Talk consti-
tue la menace la plus difcilement dtectable. Cependant, dans le cas o une phrase alatoire diffrente est
demande chaque nouvel accs, elle serait inoprante puisquil est trs peu probable que lenregistrement
audio pralable contiennent cette mme phrase. Aussi, il conviendra, court terme, de se pencher sur la
question de llaboration dattaques plus labores : une solution serait de faire appel conjointement des
techniques de conversion et/ou synthse de voix et danimation du visage. La voix de limposteur pronon-
ant la phrase demande serait transforme de faon ressembler celle de la cible et une photographie du
visage serait anime laide du logiciel Crazy Talk.
Des expriences prliminaires ont dj t menes et montrent quune simple transformation dans le
domaine cepstral suft augmenter de faon drastique le taux de fausse acceptation dun systme de vri-
cation du locuteur. Ceci a fait lobjet de la publication [Perrot et al., 2007] reporte en annexe (page 182).
Perspectives long terme
La vrication de lidentit dun visage parlant est loin dtre la seule application de ces nouvelles me-
sures de synchronie audiovisuelle.
Par exemple, elles pourraient tre utilises pour noter les synthtiseurs audiovisuels de parole et ainsi
fournir une mesure objective mettre en relation avec les mesures subjectives gnralement utilises dans
ce domaine. Un tel outil dvaluation objective pourrait, par exemple, tre utilis dans une campagne dva-
luation de synthtiseurs audiovisuels.
Dans lindustrie du cinma, la qualit du doublage de longs mtrages en langue trangre pourrait
aussi tre value laide de telles mesures. Il sufrait par exemple dacqurir le mouvement des lvres du
doubleur et de le comparer la voix de lacteur original. La meilleure prise pourrait tre alors automatique-
ment choisie en comparant leurs mesures de synchronie. Enn, en la couplant un systme de vrication
du locuteur fournissant un score de ressemblance avec lacteur doubl, un score global de doublage pourrait
tre obtenu, notant la fois la qualit du doublage et la ressemblance de la voix.
Une dernire application originale consiste utiliser ces nouvelles mesures de synchronie pour localiser,
parmi plusieurs personnes apparaissant lcran, celle qui est effectivement en train de parler. Il suft pour
cela de mesurer la synchronie entre la voix entendue et le mouvement des lvres de chaque personne :
la personne dont la mesure de synchronie est la plus leve est celle qui parle. Ceci ouvre la voie de
nouvelles applications dans le domaine de lindexation de squences audiovisuelles. En la couplant des
techniques de segmentation en locuteurs et de suivi et reconnaissance du visage, il devient possible de
constituer automatiquement un modle didentit audiovisuelle de chacun des acteurs dun long mtrage et
terme de faciliter larchivage voire de proposer un mode de navigation intelligent dans les bases de lms,
ax sur les acteurs prsents limage.
Annexe A
Technovision IV2
Le projet Technovision IV2 a pour but de crer des ressources et les conditions dune valuation lchelle
nationale et internationale de diffrents systmes lis linformation du visage, de liris et de la voix, dans
des milieux semi-contraints. Une base de donnes biomtriques a t constitue dans le but dvaluer les
performances de systmes didentication par liris, par le visage 2D et 3D et par lanalyse de visages par-
lants, de systmes de dtection de la position des yeux dans les images 2D et de systmes de reconstruction
3D du visage.
A.1 Base Technovision IV2
Les squences acquises lors de la campagne dacquisition des donnes visage parlant ont t enregistres
simultanment laide dun camscope DV et dune webcam. Les personnes devaient lire, face la camra,
une quinzaine de phrases constituant un corpus phontiquement quilibr, correspondant environ une
minute de parole en franais par session denregistrement :
1. 0 - 1 - 2 - 3 - 4 - 5 - 6 - 7 - 8 - 9
2. 9 - 8 - 7 - 6 - 5 - 4 - 3 - 2 - 1 - 0
3. Oui - Non
4. Il se garantira du froid avec un bon capuchon.
5. Annie sennuie loin de mes parents.
6. Les deux camions se sont heurts de face.
7. Un loup sest jet immdiatement sur la petite chvre.
137
138 ANNEXE A. TECHNOVISION IV2
8. Ds que le tambour bat, les gens accourent.
9. Mon pre ma donn lautorisation.
10. Vous poussez des cris de colre.
11. Ce petit canard apprend nager.
12. La voiture sest arrte au feu rouge.
13. La vaisselle propre est mise sur lvier.
14. Alors que monsieur Gorbatchev regagnait Moscou au terme dun
difficile voyage en Lituanie, une partie du Caucase sest embrase.
15. Chaque jour ils reoivent dans la bonne humeur la visite du
commissaire des renseignements gnraux qui suit de loin
lopration.
Parmi toutes les personnes ayant particip la campagne dacquisition de donnes Technovision IV2 et
dont nous avons obtenu les donnes, seules 54 personnes ont enregistr deux sessions ou plus : 51 dentre
elles ont particip deux sessions exactement et les 3 autres trois sessions. Les 111 squences webcam
correspondantes ont t extraites et constituent la base de test Technovision IV2 - Visage parlant.
A.2 Protocole dvaluation Technovision IV2
Ce petit nombre de personnes multi-sessions et le faible nombre de sessions ne nous permettent pas de
dnir deux groupes de test disjoints comme cest le cas pour la base de donnes BANCA. Un seul ensemble
de test compos de la totalit des 111 squences est ainsi constitu et le protocole dvaluation Technovision
IV2 est dni comme suit :
Enrlement An de maximiser le nombre de tests client, chacune des 111 squences est utilise pour
constituer un modle didentit.
Tests client Pour chaque modle , toutes les squences de la mme personne (autres que la squence
utilise pour constituer le modle) sont compares au modle . Au nal, le protocole Technovision
IV2 prvoit 2 tests client pour les 51 personnes ayant particip deux sessions et 6 tests client pour
les 3 personnes ayant particip trois sessions, soit seulement 120 tests client au total.
Tests imposteur Pour chaque modle , toutes les squences des autres personnes (diffrentes de celle
correspondant au modle) sont compares au modle. Au nal, le protocole Technovision IV2 prvoit
12090 tests imposteur.
A.3. VALUATION 139
A.3 valuation
La gure A.2 rcapitule les performances obtenues sur le protocole Technovision IV2 par le systme
optimis sur le protocole P de la base BANCA.
Les performances relativement mauvaises obtenues par le systme bas sur la modalit voix (DCF
IV2
=
8.5% vs. DCF
BANCA
= 5.8%) peuvent paratre dautant plus surprenantes que les squences Technovi-
sion IV2 sont environ trois fois plus longues que les squences BANCA. Nanmoins, elles peuvent sex-
pliquer par le fait que le modle du monde a t constitu partir denregistrements en langue anglaise
alors mme que la base Technovision IV2 est en franais. Ladaptation dun modle du monde anglais
laide de squences en franais entrane sans doute la cration de modles peu robustes. De mme, la mo-
dalit synchronie est paradoxalement beaucoup moins performante sur la base de donnes Technovision
IV2 (DCF
IV2
= 10% vs. DCF
BANCA
= 8.6%). La gure A.1 prsente la distribution des scores de syn-
chronie sur les bases BANCA et Technovision IV2. Il apparat clairement que les mauvaises performances
obtenues sur le protocole Technovision IV2 sont dues au fait que les distributions diffrent largement entre
les deux protocoles : un seuil optimis sur la base BANCA entrane un rejet systmatique de tout accs
(client ou imposteur) du protocole Technovision IV2. Les performances obtenues par le systme bas sur
0.1 0.05 0 0.05 0.1 0.15 0.2 0.25 0.3
0
0.05
0.1
0.15
0.2
0.25
IV2 Client
IV2 Imposteur
BANCA Client
BANCA Imposteur
FIG. A.1 Distribution des scores de synchronie pour les bases BANCA et Technovision IV2
la modalit visage sont quivalentes sur les deux bases BANCA et Technovision IV2 (DCF
IV2
= 7.6% vs.
DCF
BANCA
= 8.0%). La modalit visage apparat ici comme la plus stable des trois modalits voix, visage
et synchronie. Enn, les systmes bass sur les trois stratgies de fusion (somme pondre, pnalisation et
somme pondre adaptative) ptissent invitablement des mauvaises performances des deux modalits voix
et synchronie.
Le faible nombre de clients multi-sessions na pas permis de dnir densemble de dveloppement sur la
base de donnes Technovision IV2. Nanmoins, en utilisant lensemble de test comme ensemble de dvelop-
pement, il est possible dobtenir une mesure des performances optimales que lon peut esprer atteindre :
ceci est rsum dans la gure A.3. Notons en outre que, dans ce cadre, nous avons aussi entran un modle
du monde en langue franaise partir des donnes Technovision IV2 des clients mono-session (qui ne font
pas partie de lensemble de test). La stratgie de somme pondre adaptative (la meilleure en termes de
compromis entre la performance brute et la robustesse aux attaques) donne des performances quivalentes
sur les deux bases BANCA et Technovision IV2 (DCF
IV2
= 6.2% vs. DCF
BANCA
= 6.0%).
A.3. VALUATION 141
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Locuteur
Visage
Synchronie
Fusion S1
Fusion S2
Fusion S3
FAR = 3.17 0.31%
FRR = 54.17 8.92%
Visage DCF = 7.64 0.90%
FAR = 1.65 0.23%
FRR = 60.00 8.77%
FAR = 0.00 0.00%
FRR = 100.00 0.00%
Somme pondre DCF = 9.23 0.90%
FAR = 6.63 0.44%
FRR = 26.67 7.91%
Pnalisation DCF = 10.00 0.00%
FAR = 0.00 0.00%
FRR = 100.00 0.00%
Somme pondre adaptative DCF = 9.36 0.48%
FAR = 0.12 0.06%
FRR = 92.50 4.71%
FIG. A.2 Performances sur le protocole Technovision IV2, avec apprentissage sur la base BANCA.
1 2 5 10 15 20 30 40 50 60 80 90
1
2
5
10
15
20
30
40
50
60
80
90
T
a
u
x

d
e

f
a
u
x

r
e
j
e
t

(
e
n

%
)
Locuteur
Visage
Synchronie
Fusion S1
Fusion S2
Fusion S3
FAR = 1.76 0.23%
FRR = 40.83 8.79%
Visage DCF = 7.09 0.89%
FAR = 0.93 0.17%
FRR = 61.67 8.70%
FAR = 0.02 0.02%
FRR = 96.67 3.21%
Somme pondre DCF = 4.93 0.86%
FAR = 1.78 0.24%
FRR = 31.67 8.32%
Pnalisation DCF = 9.31 0.50%
FAR = 0.15 0.07%
FRR = 91.67 4.95%
Somme pondre adaptative DCF = 6.20 0.92%
FAR = 1.71 0.23%
FRR = 45.00 8.90%
FIG. A.3 Performances optimales sur le protocole Technovision IV2.
Annexe B
Publications
Articles de journaux
H. Bredin et G. Chollet, Audiovisual Speech Synchrony Measure : Application to Biometrics, EUR-
ASIP Journal on Advances in Signal Processing, 2007 (2007), pp. Article ID 70186, 11 pages.
doi :10.1155/2007/70186.
E. Argones-Ra, H. Bredin, G. Chollet et D. G. Jimnez, Audio-Visual Speech Asynchrony Detection
using Co-Inertia Analysis and Coupled Hidden Markov Models, submitted to Pattern Analysis and
Applications Journal, (2007).
Chapitres douvrages
B. Abboud, H. Bredin, G. Aversano et G. Chollet, ch. Audio-Visual Identity Verication : an Intro-
ductory Overview, Progress in Nonlinear Speech Processing, no. 4391 in Lecture Notes in Computer
Science, Springer, 2007, pp. 118134.
Confrences internationales
K. McTait, H. Bredin, S. Colon, T. Fillon et G. Chollet, Adapting a High Quality Audiovisual Da-
tabase to PDA Quality, 4th International Symposium on Image and Signal Processing and Analysis
(ISPA05), Zagreb, Croatia, Septembre 2005, pages 262-267.
H. Bredin, A. Miguel, I. H. Witten et G. Chollet, Detecting Replay Attacks in Audiovisual Iden-
tity Verication, in 31st IEEE International Conference on Acoustics, Speech, and Signal Processing
143
144 ANNEXE B. PUBLICATIONS
(ICASSP06), vol. 1, Toulouse, France, Mai 2006, pp. 621624 | voir page 156
H. Bredin, N. Dehak et G. Chollet, GMM-based SVM for Face Recognition, in 18th International
Conference on Pattern Recognition (ICPR06), Hong-Kong, Aot 2006, pp. 11111114 | voir page 161
H. Bredin et G. Chollet, Measuring Audio and Visual Speech Synchrony : Methods and Applica-
tions, in IET International Conference on Visual Information Engineering (VIE06), Bangalore, Inde,
Septembre 2006, pp. 255260.
H. Bredin et G. Chollet, Audio-Visual Speech Synchrony Measure for Talking-Face Identity Verica-
tion, in 32nd IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP07),
Honolulu, USA, Avril 2007
R. Landais, H. Bredin, L. Zouari et G. Chollet, Vrication Audiovisuelle de lIdentit, in Traitement
et Analyse de lInformation : Mthodes et Applications (TAIMA07), Hammammet, Tunisie, Juin
2007, pp. 2732 | voir page 166
P. Perrot, H. Bredin et G. Chollet, Biometrics and Forensic Sciences : the Same Quest for Identica-
tion ?, in International Crime Science Conference, London, UK, Juillet 2007 | voir page 182
Confrences nationales
F. Brugger, L. Zouari, H. Bredin, A. Amehraye, G. Chollet, D. Pastor et Y. Ni, Reconnaissance Audio-
Visuelle de la Parole par VMike, in XXVImes Journes dtude sur la Parole (JEP06), Dinard,
France, June 2006, pp. 417420
E. Argones-Ra, C. Garca-Mateo, H. Bredin et G. Chollet, Aliveness Detection using Coupled Hid-
den Markov Models, in First Spanish Workshop on Biometrics (SWB07), Girona, Espagne, Juin 2007
| voir page 173
Workshops
H. Bredin, G. Aversano, C. Mokbel et G. Chollet, The Biosecure Talking-Face Reference System,
in 2nd Workshop on Multimodal User Authentication (MMUA06), Toulouse, France, Mai 2006 |
voir page 147
J. Koreman, A. C. Morris, D. Wu, S. Jassim, H. Sellahewa, J.-H. Ehlers, G. Chollet, G. Aversano,
H. Bredin, S. Garcia-Salicetti, L. Allano, B. L. Van et B. Dorizzi, Multimodal Biometric Authenti-
cation on the SecurePhone PDA, in 2nd Workshop on Multimodal User Authentication (MMUA06),
Toulouse, France, 2006.
145
H. Bredin et G. Chollet, Synchronisation Voix/Lvres pour la Vrication dIdentit, Journe Jeunes
Chercheurs - Visage/Geste/Mouvement, Paris, France, October 27, 2006.
147
149
151
153
155
157
159
161
163
165
167
169
171
173
175
177
179
181
183
Bibliographie
[Aleksic et Katsaggelos, 2006] Petar S. ALEKSIC et Aggelos K. KATSAGGELOS. Audio-Visual Biometrics.
Dans Proceedings of the IEEE, volume 94, pages 20252044, November 2006.
[Andr-Obrecht et al., 1997] Rgine ANDR-OBRECHT, Bruno JACOB, et Nathalie PARLANGEAU. Audio-
Visual Speech Recognition and Segmental Master Slave HMM. Dans Workshop on Audio-Visual Speech
Processing (AVSP97), pages 4952, September 1997.
[Argones-Ra et al., 2007a] Enrique ARGONES-RA, Herv BREDIN, Grard CHOLLET, et Daniel Gonz-
lez JIMNEZ. Audio-Visual Speech Asynchrony Detection using Co-Inertia Analysis and Coupled Hid-
den Markov Models. submitted to Pattern Analysis and Applications Journal, 2007.
[Argones-Ra et al., 2007b] Enrique ARGONES-RA, Carmen GARCA-MATEO, Herv BREDIN, et G-
rard CHOLLET. Aliveness Detection using Coupled Hidden Markov Models. Dans First Spanish Work-
shop on Biometrics (SWB07), Girona, Spain, June 2007.
[Arsic et al., 2006] Ivana ARSIC, Roger VILAGUT, et Jean-Philippe THIRAN. Automatic Extraction of
Geometric Lip Features with Application to Multi-Modal Speaker Identication. Dans IEEE Internatio-
nal Conference on Multimedia and Expo (ICME06), pages 161164, 2006.
[AT&T Laboratories Cambridge, 1994] AT&T LABORATORIES CAMBRIDGE. AT&T Database of Faces.
1994.
[Bailly-Baillire et al., 2003] Enrique BAILLY-BAILLIRE, Samy BENGIO, Frdric BIMBOT, Miroslav
HAMOUZ, Josef KITTLER, Johnny MARITHOZ, Jiri MATAS, Kieron MESSER, Vlad POPOVICI, Fa-
bienne PORE, Belen RUIZ, et Jean-Philippe THIRAN. The BANCA Database and Evaluation Protocol.
Dans 4th International Conference on Audio-and Video-Based Biometric Person Authentication (AVB-
PA03), volume 2688 de Lecture Notes in Computer Science, pages 625 638, Guildford, UK, January
2003. Springer.
[Barker et al., 1998] Jon BARKER, Franois BERTHOMMIER, et Jean-Luc SCHWARTZ. Is Primitive AV
Coherence an Aid to Segment the Scene ? Dans Denis BURNHAM, Jordi ROBERT-RIBES, et Eric
185
186 BIBLIOGRAPHIE
VATIKIOTIS-BATESON, diteurs, Auditory-Visual Speech Processing Workshop (AVSP98), pages 103
108, Sydney, Australia, December 1998.
[Barker et Berthommier, 1999a] Jon P. BARKER et Franois BERTHOMMIER. Estimation of Speech Acous-
tics from Visual Speech Features : a Comparison of Linear and Non-Linear Models. Dans Audio-Visual
Speech Processing (AVSP99), pages 112117, Santa Cruz, USA, August 1999.
[Barker et Berthommier, 1999b] Jon P. BARKER et Franois BERTHOMMIER. Evidence of Correlation bet-
ween Acoustic and Visual Features of Speech. Dans 14th International Congress of Phonetic Sciences
(ICPhS99), pages 199202, San Francisco, USA, August 1999.
[Ben, 2004] Mathieu BEN. Approches Robustes pour la Vrication Automatique du Locuteur par Norma-
lisation et Adaptation Hirarchique. PhD thesis, University of Rennes I, 2004.
[Ben et Bimbot, 2003] Mathieu BEN et Frdric BIMBOT. D-MAP : a Distance-Normalized MAP Estima-
tion of Speaker Models for Automatic Speaker Verication. Dans 28th IEEE International Conference
on Acoustics, Speech, and Signal Processing (ICASSP03), volume 2, pages 6972, Hong-Kong, April
2003.
[Bengio, 2003] Samy BENGIO. An Asynchronous Hidden Markov Model for Audio-Visual Speech Re-
cognition. Dans S. BECKER, S. THRUN, et K. OBERMAYER, diteurs, Advances in Neural Information
Processing Systems 15, pages 12131220. MIT Press, 2003.
[Bicego et al., 2005] Manuele BICEGO, Enrico GROSSO, et Massimo TISTARELLI. Face Authentication
using One-Class Support Vector Machines. Dans Stan Z. LI, Tieniu TAN, Sharath PANKANTI, Grard
CHOLLET, et David ZHANG, diteurs, International Workshop on Biometric Recognition Systems, vo-
lume 3781 de Lecture Notes in Computer Science, page 15, 2005.
[Bicego et al., 2006] Manuele BICEGO, Enrico GROSSO, et Massimo TISTARELLI. Person Authentication
from Video of Faces : a Behavioral and Physiological Approach using Pseudo Hierarchical Hidden Mar-
kov Models. Dans International Conference on Biometrics, volume 3832 de Lecture Notes in Computer
Science, pages 113120, Hong-Kong, January 2006.
[Bimbot et al., 2004] Frdric BIMBOT, Jean-Franois BONASTRE, Corinne FREDOUILLE, Guillaume
GRAVIER, Ivan MAGRIN-CHAGNOLLEAU, Sylvain MEIGNIER, Teva MERLIN, Javier ORTEGA-
GARCIA, Dijana PETROVSKA-DELACRTAZ, et Douglas A. REYNOLDS. A Tutorial on Text-
Independent Speaker Verication. EURASIP Journal on Applied Signal Processing, 4 :430451, 2004.
[Blouet et al., 2004] Raphael BLOUET, Chac MOKBEL, Hoda MOKBEL, Eduardo SANCHEZ, et Grard
CHOLLET. BECARS : a Free Software for Speaker Verication. Dans Javier ORTEGA-GARCIA, Joa-
quin GONZLEZ-RODRIGUEZ, Frdric BIMBOT, Jean-Franois BONASTRE, Joseph CAMPBELL, Ivan
BIBLIOGRAPHIE 187
MAGRIN-CHAGNOLLEAU, John S.D. MASON, Renana PERES, et Douglas A. REYNOLDS, diteurs,
ODYSSEY 2004 - The Speaker and Language Recognition Workshop, pages 145148, Toledo, Spain,
May 2004.
[Bolle et Pankanti, 1998] Ruud BOLLE et Sharath PANKANTI. Biometrics - Personal Identication in Net-
worked Society. Kluwer Academic Publishers, 1998.
[Bradski, 1998] Gary R. BRADSKI. Real-Time Face and Object Tracking as a Component of a Perceptual
User Interface. Dans 4th IEEE Workshop on Applications of Computer Vision (WACV98), pages 214
219, Princeton, NJ, USA, October 1998.
[Bredin et al., 2006a] Herv BREDIN, Guido AVERSANO, Chac MOKBEL, et Grard CHOLLET. The
Biosecure Talking-Face Reference System. Dans 2nd Workshop on Multimodal User Authentication
(MMUA06), Toulouse, France, May 2006.
[Bredin et Chollet, 2007] Herv BREDIN et Grard CHOLLET. Audio-Visual Speech Synchrony Measure
for Talking-Face Identity Verication. Dans 32nd IEEE International Conference on Acoustics, Speech,
and Signal Processing (ICASSP07), Honolulu, USA, April 2007.
[Bredin et al., 2006b] Herv BREDIN, Najim DEHAK, et Grard CHOLLET. GMM-based SVM for Face
Recognition. Dans 18th International Conference on Pattern Recognition (ICPR06), pages 11111114,
Hong-Kong, August 2006.
[Bredin et al., 2006c] Herv BREDIN, Antonio MIGUEL, Ian H. WITTEN, et Grard CHOLLET. Detec-
ting Replay Attacks in Audiovisual Identity Verication. Dans 31st IEEE International Conference on
Acoustics, Speech, and Signal Processing (ICASSP06), volume 1, pages 621624, Toulouse, France,
May 2006.
[Bregler et Konig, 1994] Christoph BREGLER et Yochai KONIG. Eigenlips for Robust Speech Re-
cognition. Dans 19th IEEE International Conference on Acoustics, Speech, and Signal Processing
(ICASSP94), volume 2, pages 1922, Adelaide, Australia, April 1994.
[BT-DAVID, 1996] BT-DAVID. http ://eegalilee.swan.ac.uk/. 1996.
[Castrilln Santana et al., 2005] M. CASTRILLN SANTANA, J. LORENZO NAVARRO, O. DNIZ SUREZ,
et A. FALCN MARTEL. Multiple Face Detection at Different Resolutions for Perceptual User Interfaces.
Dans 2nd Iberian Conference on Pattern Recognition and Image Analysis, Estoril, Portugal, June 2005.
[Chetty et Wagner, 2004] Girija CHETTY et Michael WAGNER. Liveness Verication in Audio-Video
Authentication. Dans 10th Australian International Conference on Speech Science and Technology
(SST04), pages 358363, Sydney, Australia, December 2004.
188 BIBLIOGRAPHIE
[Chibelushi et al., 2002] Claude C. CHIBELUSHI, Farzin DERAVI, et John S.D. MASON. A Review of
Speech-Based Bimodal Recognition. IEEE Transactions on Multimedia, 4(1) :2337, 2002.
[Chibelushi et al., 1997a] Claude C. CHIBELUSHI, John S.D. MASON, et Farzin DERAVI. Feature-Level
Data Fusion for Bimodal Person Recognition. Dans Sixth International Conference on Image Processing
and its Applications, volume 1, pages 399403, 1997.
[Chibelushi et al., 1997b] Claude C. CHIBELUSHI, John S.D. MASON, et Farzin DERAVI. Integrated Per-
son Identication Using Voice and Facial Features. Dans IEE Colloquium on Image Processing for
Security Applications, numro 4, pages 15, London, UK, March 1997.
[Choudhury et al., 1999] Tanzeem CHOUDHURY, Brian CLARKSON, Tony JEBARA, et Alex PENTLAND.
Multimodal Person Recognition using Unconstrained Audio and Video. Dans 2nd International Confe-
rence on Audio-Video Based Person Authentication, pages 176180, Washington, USA, March 1999.
[Chowdhury et al., 2002] A.R. CHOWDHURY, Rama CHELLAPPA, S. KRISHNAMURTHY, et T. VO. 3D
Face Reconstruction from Video using a Generic Model. Dans IEEE International Conference on Multi-
media and Expo (ICME02), volume 1, pages 449452, Lausanne, Switzerland, August 2002.
[Cutler et Davis, 2000] Ross CUTLER et Larry DAVIS. Look Whos Talking : Speaker Detection using
Video and Audio Correlation. Dans IEEE International Conference on Multimedia and Expo (ICME00),
volume 3, pages 15891592, New-York, USA, July 2000.
[Dean et al., 2005] David DEAN, Patrick LUCEY, Sridha SRIDHARAN, et Tim WARK. Comparing Audio
and Visual Information for Speech Processing. Dans Eighth International Symposium on Signal Proces-
sing and its Applications, volume 1, pages 5861, August 2005.
[Dehak et Chollet, 2006] Najim DEHAK et Grard CHOLLET. Support Vector GMMs for Speaker Veri-
cation. Dans IEEE ODYSSEY 2006 - The Speaker and Language Recognition Workshop, pages 14, San
Juan, Puerto Rico, June 2006.
[Dempster et al., 1977] Arthur P. DEMPSTER, Nan LAIRD, et Donald B. RUBIN. Maximum Likelihood
from Incomplete Data via the EM Algorithm. Journal of Royal Statistical Society. Series B (Methodolo-
gical), 39(1) :138, 1977.
[Deng et Huang, 2004] Li DENG et Xuedong HUANG. Challenges in Adopting Speech Recognition. Com-
munication of the ACM - Special Issue : Multimodal Interfaces that Flex, Adapt, and Persist, 47 :6975,
2004.
[Doldec et Chessel, 1994] Sylvain DOLDEC et Daniel CHESSEL. Co-Inertia Analysis : an Alternative
Method for Studying Species-Environment Relationships. Freshwater Biology, 31 :277294, 1994.
BIBLIOGRAPHIE 189
[Dumas et al., 2005] B. DUMAS, C. PUGIN, J. HENNEBERT, D. PETROVSKA-DELACRTAZ, A. HUMM,
F. EVQUOZ, R. INGOLD, et D. Von ROTZ. MyIdea - Multimodal Biometrics Database, Description
of Acquisition Protocols. Dans Third COST 275 Workshop (COST 275), pages 5962, Hateld, UK,
October 2005.
[Eveno et Besacier, 2005a] Nicolas EVENO et Laurent BESACIER. A Speaker Independent Liveness Test
for Audio-Video Biometrics. Dans 9th European Conference on Speech Communication and Technology
(Interspeech2005 - Eurospeech), pages 30813084, Lisboa, Portugal, September 2005.
[Eveno et Besacier, 2005b] Nicolas EVENO et Laurent BESACIER. Co-Inertia Analysis for Liveness Test
in Audio-Visual Biometrics. Dans 4th International Symposium on Image and Signal Processing and
Analysis (ISISPA05), pages 257261, Zagreb, Croatia, September 2005.
[Fairhurst et al., 2004] Michael C. FAIRHURST, Farzin DERAVI, et J. GEORGE. Towards Optimised Im-
plementations of Multimodal Biometric Congurations. Dans IEEE International Conference on Com-
putational Intelligence for Homeland Security and Personal Safety (CIHSPS04), pages 113116, July
2004.
[Fasel et al., 2004] Ian FASEL, Bret FORTENBERRY, et J. R. MOVELLAN. A Generative Framework for
Real-Time Object Detection and Classication. Computer Vision and Image Understanding - Special
Issue on Eye Detection and Tracking, 98(1) :182210, 2004.
[Fisher et al., 2001] John W. FISHER, Trevor DARRELL, William T. FREEMAN, et Paul VIOLA. Learning
Joint Statistical Models for Audio-Visual Fusion and Segregation. Dans T. K. LEEN, T. G. DIETTERICH,
et V. TRESP, diteurs, Advances in Neural Information Processing Systems 13, pages 772778. MIT
Press, 2001.
[Fox et Reilly, 2003] Niall FOX et Richard B. REILLY. Audio-Visual Speaker Identication Based on the
Use of Dynamic Audio and Visual Features. Dans 4th International Conference on Audio-and Video-
Based Biometric Person Authentication (AVBPA03), volume 2688 de Lecture Notes in Computer Science,
pages 743751, Guildford, UK, January 2003. Springer.
[Fox et al., 2007] Niall A. FOX, Ralph GROSS, Jeffrey F. COHN, et Richard B. REILLY. Robust Biome-
tric Person Identication using Automatic Classier Fusion of Speech, Mouth and Face Experts. IEEE
Transactions on Multimedia, 9(4) :701714, June 2007.
[Furui, 1997] Sadaoki FURUI. Recent Advances in Speaker Recognition. Dans International Conference on
Audio- and Video-Based Biometric Person Authentication (AVBPA97), pages 237251, Crans-Montana,
Switzerland, March 1997.
190 BIBLIOGRAPHIE
[Garcia-Salicetti et al., 2003] S. GARCIA-SALICETTI, C. BEUMIER, G. CHOLLET, B. DORIZZI, J.-L. JAR-
DINS, J. LUNTER, Y. NI, et D. PETROVSKA-DELACRETAZ. BIOMET : a Multimodal Person Authenti-
cation Database including Face, Voice, Fingerprint, Hand and Signature Modalities. Dans International
Conference on Audio- and Video-Based Biometric Person Authentication (AVBPA03), pages 845 853,
Guildford, UK, June 2003.
[Gauvain et Lamel, 2000] Jean-Luc GAUVAIN et Lori LAMEL. Large-Vocabulary Continuous Speech Re-
cognition : Advances and Applications. Dans Proceedings of the IEEE, volume 88, pages 11811200,
2000.
[Georgia Institute of Technology, 1999] GEORGIA INSTITUTE OF TECHNOLOGY. Georgia Tech Face Da-
tabase - http ://www.anean.com/face_reco.htm. 1999.
[Goecke et Millar, 2003] Roland GOECKE et Bruce MILLAR. Statistical Analysis of the Relationship bet-
ween Audio and Video Speech Parameters for Australian English. Dans ISCA Tutorial and Research
Workshop on Audio Visual Speech Processing (AVSP03), pages 133138, Saint-Jorioz, France, Septem-
ber 2003.
[Guyon et al., 1998] Isabelle GUYON, John MAKHOUL, Richard SCHWARTZ, et Vladimir VAPNIK. What
Size Test Set Gives Good Error Rate Estimates ? IEEE Transactions on Pattern Analysis and Machine
Intelligence, 20(1) :5264, January 1998.
[Hershey et Movellan, 1999] John HERSHEY et Javier MOVELLAN. Audio-Vision : Using Audio-Visual
Synchrony to Locate Sounds. Dans Michael S. KEARNS, Sara A. SOLLA, et David A. COHN, diteurs,
Advances in Neural Information Processing Systems 11, pages 813819. MIT Press, 1999.
[Hyvrinen, 1999] Aapo HYVRINEN. Survey on Independent Component Analysis. Neural Computing
Surveys, 2 :94128, 1999.
[Iyengar et al., 2003] G. IYENGAR, H.J. NOCK, et Chalapathy NETI. Audio-Visual Synchrony for Detec-
tion of Monologues in Video Archives. Dans IEEE International Conference on Multimedia and Expo
(ICME03), volume 1, pages 329332, Baltimore, USA, July 2003.
[Jain et al., 1999] Anil JAIN, Lin HONG, et Yatin KULKARNI. A Multimodal Biometric System Using
Fingerprint, Face, and Speech. Dans International Conference on Audio- and Video-Based Biometric
Person Authentication (AVBPA99), Washington, USA, March 1999.
[Jain et al., 2005] Anil JAIN, Karthik NANDAKUMAR, et Arun A. ROSS. Score Normalization in Multimo-
dal Biometric Systems. Pattern Recognition, 38(12) :22702285, 2005.
BIBLIOGRAPHIE 191
[Jain et Ross, 2002] Anil K. JAIN et Arun A. ROSS. Learning User-Specic Parameters in a Multibiometric
System. Dans 9th IEEE International Conference on Image Processing (ICIP02), volume 1, pages 57
60, New-York, USA, September 2002.
[Jee et al., 2006] Hyung-Keun JEE, Sung-Uk JUNG, et Jang-Hee YOO. Liveness Detection for Embedded
Face Recognition System. International Journal of Biomedical Sciences, 1(4) :235238, 2006.
[Jourlin et al., 1997] Pierre JOURLIN, Juergen LUETTIN, Dominique GENOUD, et Hubert WASSNER.
Acoustic-Labial Speaker Verication. Dans First International Conference on Audio- and Video-based
Biometric Person Authentication, volume 18, pages 853858, Crans-Montana, Switzerland, 1997.
[Kollreider et al., 2005] K. KOLLREIDER, H. FRONTHALER, et Josef BIGUN. Evaluating Liveness by Face
Images and the Structure Tensor. Dans Fourth IEEE Workshop on Automatic Identication Advanced
Technologies (AutoID05), pages 7580, 2005.
[Krueger et Zhou, 2002] Volker KRUEGER et Shaohua ZHOU. Exemplar-based Face Recognition from
Video. Dans 7th European Conference on Computer Vision, volume 4, page 732, Copenhagen, Denmark,
May 2002.
[Landais et al., 2007] Rmi LANDAIS, Herv BREDIN, Leila ZOUARI, et Grard CHOLLET. Vrication
Audiovisuelle de lIdentit. Dans Proceedings of Traitement et Analyse de lInformation : Mthodes et
Applications, pages 2732, Hammamet, Tunisia, June 2007.
[Li et Jain, 2005] Stan Z. LI et Anil K. JAIN. Handbook of Face Recognition. Springer, 2005.
[Lucey et al., 2005] Simon LUCEY, Tsuhan CHEN, Sridha SRIDHARAN, et Vinod CHANDRAN. Integration
Strategies for Audio-Visual Speech Processing : Applied to Text-Dependent Speaker Recognition. IEEE
Transactions on Multimedia, 7(3) :495506, June 2005.
[Mahalanobis, 1936] Prasanta Chandra MAHALANOBIS. On the Generalised Distance in Statistics. Dans
Proceedings of the National Institute of Science of India 12, pages 4955, 1936.
[Martin et al., 1997] Alvin F. MARTIN, George R. DODDINGTON, T. KAMM, M. ORDOWSKI, et M. PRZY-
BOCKI. The DET Curve in Assessment of Detection Task Performance. Dans European Conference on
Speech Communication and Technology (Interspeech1997 - Eurospeech), volume 4, pages 18951898,
Rhodes, Greece, 1997.
[Martin et Przybocki, 2000] Alvin F. MARTIN et Mark A. PRZYBOCKI. The NIST Speaker Recognition
Evaluation - an Overview. Digital Signal Processing, 10 :118, 2000.
[Matthews et Baker, 2004] Iain MATTHEWS et S. BAKER. Active Appearance Models Revisited. Interna-
tional Journal of Computer Vision, 60(2) :135164, 2004.
192 BIBLIOGRAPHIE
[Messer et al., 2004] Kieron MESSER, Josef KITTLER, Mohammad SADEGHI, Miroslav HAMOUZ, Alexey
KOSTIN, Fabien CARDINAUX, Sbastien MARCEL, Samy BENGIO, Conrad SANDERSON, Norman POH,
Yann RODRIGUEZ, Jacek CZYK, Luc VANDENDORPE, Chris MCCOOL, Scott LOWTHER, Sridha SRID-
HARAN, Vinod CHANDRAN, Roberto Parades PALACIOS, Enrique VIDAL, Li BAI, LinLin SHEN, Yan
WANG, Chiang YUEH-HSUAN, Liu HSIEN-CHANG, Hung YI-PING, Alexander HEINRICHS, Marco
MUELLER, Andreas TEWES, Christoph von der MALSBURG, Rolf WURTZ, Zhenger WANG, Feng XUE,
Yong MA, Qiong YANG, Chi FANG, Xiaoqing DING, Simon LUCEY, Ralph GOSS, et Henry SCHNEI-
DERMAN. Face Authentication Test on the BANCA Database. Dans 17th International Conference on
Pattern Recognition (ICPR04), volume 4, pages 523532, Cambridge, UK, August 2004.
[Messer et al., 1999] Kieron MESSER, Jiri MATAS, Josef KITTLER, Juergen LUETTIN, et G. MAITRE.
XM2VTSDB : The Extended M2VTS Database. Dans International Conference on Audio- and Video-
Based Biometric Person Authentication (AVBPA99), pages 7277, Washington, USA, March 1999.
[Morris et al., 2006] Andrew C. MORRIS, Jacques KOREMAN, Harin SELLAHEWA, Johan-Hendrik EH-
LERS, Sabah JASSIM, Lorene ALLANO, et Sonia GARCIA-SALICETTI. The SecurePhone PDA Database,
Experimental Protocol and Automatic Test Procedure for Multi-Modal User Authentication. Rapport
Technique, Saarland University, Institute of Phonetics, 2006.
[Nean et Liang, 2003] Ara V. NEFIAN et Lu Hong LIANG. Bayesian Networks in Multimodal Speech
Recognition and Speaker Identication. Dans Conference Record of the Thirty-Seventh Asilomar Confe-
rence on Signals, Systems and Computers, volume 2, pages 20042008, 2003.
[Nock et al., 2002] H. J. NOCK, G. IYENGAR, et Chalapathy NETI. Assessing Face and Speech Consistency
for Monologue Detection in Video. Dans 10th ACM International Conference on Multimedia, pages 303
306, Juan-les-Pins, France, 2002.
[Patterson et al., 2002] E. PATTERSON, S. GURBUZ, Z. TUFEKCI, et J.N. GOWDY. CUAVE : a new Audio-
Visual Database for Multimodal Human-Computer Interface Research. Dans IEEE International Confe-
rence on Acoustics, Speech, and Signal Processing (ICASSP02), volume 2, pages 20172020, Orlando,
Florida, May 2002.
[Perrot et al., 2007] Patrick PERROT, Herv BREDIN, et Grard CHOLLET. Biometrics and Forensic
Sciences : the Same Quest for Identication ? Dans International Crime Science Conference, London,
UK, July 2007.
[Potamianos et al., 2003] Gerasimos POTAMIANOS, Chalapathy NETI, Guillaume GRAVIER, Ashutosh
GARG, et Andrew W. SENIOR. Recent Advances in the Automatic Recognition of Audiovisual Speech.
Dans Proceedings of the IEEE, volume 91, pages 13061326, September 2003.
BIBLIOGRAPHIE 193
[Potamianos et al., 2004] Gerasimos POTAMIANOS, Chalapathy NETI, Juergen LUETTIN, et Iain MAT-
THEWS. Audio-Visual Automatic Speech Recognition : An Overview. Dans G. BAILLY, Eric
VATIKIOTIS-BATESON, et P. PERRIER, diteurs, Issues in Visual and Audio-Visual Speech Processing,
Chapitre 10. MIT Press, 2004.
[Reynolds, 2002] Douglas A. REYNOLDS. An Overview of Automatic Speaker Recognition Technology.
Dans 27th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP02),
volume 4, pages 40724075, Orlando, Florida, May 2002.
[Reynolds et al., 2000a] Douglas A. REYNOLDS, George R. DODDINGTON, Mark A. PRZYBOCKI, et Al-
vin F. MARTIN. The NIST Speaker Recognition Evaluation - Overview Methodology, Systems, Results,
Perspective. Dans Speaker Recognition and its Commercial and Forensic Applications, volume 31 de
Speech Communication, pages 225254, 2000.
[Reynolds et al., 2000b] Douglas A. REYNOLDS, Thomas F. QUATIERI, et Robert B. DUNN. Speaker Ve-
rication using Adapted Gaussian Mixture Models. Digital Signal Processing, 10 :19 41, 2000.
[Ross et al., 2006] Arun A. ROSS, Karthik NANDAKUMAR, et Anil K. JAIN. Handbook of Multibiometrics.
Springer, 2006.
[Saeed et al., 2006] Usman SAEED, Federico MATTA, et Jean-Luc DUGELAY. Person Recognition based
on Head and Mouth Dynamics. Dans IEEE International Workshop on Multimedia Signal Processing
(MMSP06), Victoria, Canada, October 2006.
[Saporta, 1978] Gilbert SAPORTA. Thories et Mthodes de la Statistique. Technip, Paris, 1978.
[Sargin et al., 2006] Mehmet Emre SARGIN, Engin ERZIN, Yucel YEMEZ, et A. Murat TEKALP. Multimo-
dal Speaker Identication using Canonical Correlation Analysis. Dans 31st IEEE International Confe-
rence on Acoustics, Speech, and Signal Processing (ICASSP06), volume 1, pages 613616, Toulouse,
France, May 2006.
[Slaney et Covell, 2000] Malcolm SLANEY et Michele COVELL. FaceSync : A Linear Operator for Mea-
suring Synchronization of Video Facial Images and Audio Tracks. Dans Advances in Neural Information
Processing Systems 13. MIT Press, 2000.
[Smaragdis et Casey, 2003] Paris SMARAGDIS et Michael CASEY. Audio/Visual Independent Compo-
nents. Dans 4th International Symposium on Independent Component Analysis and Blind Signal Se-
paration (ICA03), pages 709714, Nara, Japan, April 2003.
[Sodoyer et al., 2003] David SODOYER, Laurent GIRIN, Christian JUTTEN, et Jean-Luc SCHWARTZ.
Speech Extraction based on ICA and Audio-Visual Coherence. Dans 7th International Symposium on
Signal Processing and its Applications (ISSPA03), volume 2, pages 6568, Paris, France, July 2003.
194 BIBLIOGRAPHIE
[Sodoyer et al., 2002] David SODOYER, Jean-Luc SCHWARTZ, Laurent GIRIN, Jacob KLINKISCH, et
Christian JUTTEN. Separation of Audio-Visual Speech Sources : A New Approach Exploiting the Audio-
Visual Coherence of Speech Stimuli. EURASIP Journal on Applied Signal Processing, 11 :11651173,
2002.
[Sugamura et Itakura, 1986] Noboru SUGAMURA et Fumitada ITAKURA. Speech Analysis and Synthesis
Methods developed at ECL in NTTFrom LPC to LSP. Speech Communications, 5(2) :199215, June
1986.
[Turk et Pentland, 1991a] Matthew TURK et Alex PENTLAND. Eigenfaces for Recognition. Journal of
Cognitive Neuroscience, 3(1) :7186, 1991.
[Turk et Pentland, 1991b] Matthew TURK et Alex PENTLAND. Face Recognition using Eigenfaces. Dans
IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR91), pages
586591, Maui, USA, June 1991.
[Vatikiotis-Bateson et al., 2006] Eric VATIKIOTIS-BATESON, Grard BAILLY, et Pascal PERRIER. Audio-
Visual Speech Processing. The MIT Press, 2006.
[Viola et Jones, 2002] Paul A. VIOLA et Michael J. JONES. Robust Real-Time Object Detection. Interna-
tional Journal of Computer Vision, 57(2) :137154, 2002.
[Weber, 1999] Markus WEBER. CALTECH Face Database - http ://www.vision.caltech.edu/html-
les/archive.html. 1999.
[Weenink, 2003] David WEENINK. Canonical Correlation Analysis. Dans University of AMSTERDAM,
diteur, Institute of Phonetic Sciences, volume 25, pages 8199, 2003.
[Yang et al., 2002] M.H. YANG, D. KRIEGMAN, et N. AHUJA. Detecting Faces in Images : a Survey. IEEE
Transactions on Pattern Analysis and Machine Intelligence, 24 :3458, 2002.
[Yehia et al., 1998] Hani YEHIA, Philip RUBIN, et Eric VATIKIOTIS-BATESON. Quantitative Association
of Vocal-Tract and Facial Behavior. Speech Communication, (28) :2343, 1998.
[Yoshimi et Pingali, 2002] Billibon H. YOSHIMI et Gopal S. PINGALI. A multimodal speaker detection
and tracking system for teleconferencing. Dans Tenth ACM international conference on Multimedia
(MULTIMEDIA02), pages 427428, New York, NY, USA, 2002. ACM Press.
[Young, 2001] Steve YOUNG. Statistical Modelling in Continuous Speech Recognition (CSR). Dans 17th
International Conference on Uncertainty in Articial Intelligence, pages 562571, Seattle, USA, August
2001.
[Zhao et al., 2003] Wen-Yi ZHAO, Rama CHELLAPPA, P.J. PHILLIPS, et Azriel ROSENFELD. Face Recog-
nition : a Literature Survey. ACM Computing Surveys, 35(4) :399458, 2003.
BIBLIOGRAPHIE 195
[Zhou et al., 2004] Shaohua ZHOU, Rama CHELLAPPA, et Baback MOGHADDAM. Visual Tracking and
Recognition using Appearance-Adaptive Models in Particle Filters. IEEE Transactions on Image Pro-
cessing, 13(11) :14911506, 2004.

Memoire

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Memoire

Încărcat de

Drepturi de autor:

Formate disponibile

Vrication de lidentit dun visage parlant.

Apport de la mesure de synchronie audiovisuelle

extraits de la squence denrlement

) laide de la distance de Mahalanobis [Mahalanobis, 1936] :

est la matrice de covariance des x

: il sagit dune distance euclidienne dans lespace o chaque

distances sont alors tries dans lordre croissant et

maximisant la covariance entre a

(X, Y ) peut tre calcule

extraits des squences is-

de la squence dont on cherche

. Plus elles sont leves, plus le degr de synchronie est

lensemble des sous-squences de de cardinal N/2 de faon partitionner la squence

sont extraits dun ensemble de squences audiovisuelles dun

qui dcrivent des

sont obtenus partir dune squence au-

extraits de la squence denrlement de

de la squence dont on cherche dterminer si elle

S-ar putea să vă placă și