Memoire These Amehraye

Thèse
présentée à
l’Ecole Nationale Supérieure des

Télécommunications de Bretagne
EN HABILITATION CONJOINTE AVEC L’UNIVERSITÉ
DE BRETAGNE SUD
EN COTUTELLE AVEC L’UNIVERSITÉ
MOHAMED-V-AGDAL DE RABAT
pour obtenir
le grade de : Docteur de Télécom Bretagne
mention : Traitement du Signal et Télécommunications
par
Asmaa Amehraye
Débruitage perceptuel de la parole

Soutenue le 15 mai 2009 devant la commission d’Examen :
Composition du Jury :
Président : Jacques FROMENT, Professeur à l’UBS, Vannes

Rapporteurs : Régine LE BOUQUIN JEANNÈS, professeur à l’Université de Rennes1
Yves LAPRIE, directeur de recherche au CNRS, Nancy
Examinateurs : Driss ABOUTAJDINE, professeur à l’Université MohammedV-Agdal
Ahmed TAMTAOUI, professeur à l’INPT, Rabat
Samir SAOUDI, professeur à Télécom Bretagne, Brest
Invités : Dominique PASTOR, professeur à Télécom Bretagne, Brest
Christophe BEAUGEANT, ingénieur de recherche, INFINEON
À la mémoire de mon père
Remerciements
Je tiens d’abord à remercier Dominique PASTOR pour avoir encadré cette thèse
et pour m’avoir encouragée, motivée et conseillée tout au long de mes années de thèse
sans oublier les heures de discussions fructueuses au téléphones lors des périodes de
thèse passées au Maroc.
Je remercie également le professeur Driss Aboutajdine qui as cru en mes
compétences jusqu’au bout et m’a proposé cette thèse en cotutelle pour la première
fois entre l’Université MohamedV-Agdal et Télécom Bretagne.
Je remercie vivement les professeurs Régine LE BOUQUIN JEANNÈS et Yves
LAPRIE pour avoir accepté de rapporter cette thèse. Merci pour toutes vos remarques
et questions qui ont permis de mettre plus en valeur ce document de synthèse.
Mes remerciements vont également aux membres de mon jury : M. Jacques FRO-
MENT qui a accepté de présider la soutenance, M. Ahmed TAMTAOUI et M. Chris-
tophe BEUAGEANT pour l’intérêt qu’ils ont porté à mes travaux et finalement le
professeur Samir SAOUDI pour avoir accepté de diriger cette thèse et la mener à
terme surtout administrativement.
Je garde un souvenir chaleureux de l’équipe des permanents et des thésards du
département Signal et Communications pour leur esprit de famille. Je les remercie
pour tous les bons moments passés ensemble.
Un grand merci à tous les volontaires (permanents, thésards et stagiaires), des
différents départements de Télécom Bretagne, qui se sont pris la peine de passer une
heure et demi de tests d’écoute afin que je puisse reproduire une analyse subjective de
mes algorithmes.
Merci à tout ceux que j’ai connu de l’ensemble du personnel administratif et tech-
nique de TELECOM Bretagne pour leur gentillesse, disponibilité et efficacité.
Une pensée profonde et affectueuse à ma chère mama qui m’a toujours soutenu et
fait confiance, sans elle et feu mon père, je n’aurais jamais pu partir loin de mon pays
et faire cette thèse. Merci infiniment pour vos prières.
Mes vives remerciements à mes soeurs et à mon frère pour leur solidarité, leur
encouragements, leur patience et leur amour. Sachez que votre soutien est bien plus
puissant que vous ne l’imaginez.
A mon rayon de soleil qui a éclairé le ciel gris de la Bretagne, qui m’a encouragée,
soutenue et motivée sans cesse pour arriver au bout de cette thèse, un grand merci
pour tout.
Résumé
Depuis une dizaine d’année, l’investigation des méthodes de débruitage de la parole

a permis d’atteindre des résultats spectaculaires. Cependant, certaines problématiques
et questions restent ouvertes. Une de ces problématiques est de parvenir à un compromis
entre la réduction du bruit, la distorsion du signal et le bruit résiduel et musical. L’essor
des méthodes basées sur des notions perceptuelles, essentiellement le phénomène de
masquage fréquentiel, a suscité beaucoup d’intérêt ces dernières décennies. L’objectif
de base des filtres perceptuels est de réduire le bruit sans apporter plus de distorsion
sur le signal de parole. L’une des façons d’éviter des distorsions superflues est alors
d’opérer uniquement dans les fréquences où le bruit est perceptuellement significatif.
Cependant, en procédant ainsi, le bruit initialement inaudible, et par conséquent non
pris en compte par le débruitage perceptuel, risque de devenir audible et gênant si
les masquants de ce bruit sont filtrés. C’est ce que l’on nomme dans cette thèse, le
phénomène MAN (Maskee to Audible Noise).
Les contributions majeures de cette thèse sont en premier lieu, de mettre en évidence
ce phénomène qui, à notre connaissance, n’a jamais encore été décrit et de montrer ses
effets secondaires. Ensuite, nous proposons une approche élémentaire pour remédier
au phénomène MAN grâce à un double filtrage atténuant le bruit dans toutes les
fréquences pour éviter la production de ce phénomène. Nous proposons une deuxième
approche basée sur un filtre optimal, dit anti-MAN, au sens d’un critère sélectif par
zone de fréquence. A travers ce critère, nous définissons la zone du phénomène MAN
et pouvons ainsi atténuer le bruit y contribuant.
Des évaluations comparatives sur des critères objectifs et subjectifs de qualité sont
présentées pour plusieurs types de bruit et de rapport signal à bruit. Les résultats ont
révélé la supériorité des méthodes proposées dans ce travail par rapport à des méthodes
perceptuelles récentes ne considérant pas le phénomène MAN.
Dans la suite expérimentale de ce travail, nous avons conçu deux systèmes de re-
connaissance de la parole avec HTK (Hidden Markov Models) ; l’un est basé sur des
monophones et l’autre sur des triphones. La phase d’apprentissage de ces deux systèmes
s’est déroulée en absence du bruit ; ceci nous a permis d’évaluer l’impact du débruitage
sur les performances de ces systèmes en présence de bruit. Les résultats montrent que
les méthodes qui se distinguent par rapport à des critères objectifs et même subjectifs
ne sont pas forcément celles qui rendent les systèmes de reconnaissance plus robustes.
Ces derniers sont généralement plus sensibles aux distorsions vu que le destinataire
final est une machine.
Mots clés : Débruitage perceptuel, psychoacoustique, filtrage de Wiener, mas-
quage fréquentiel, bruit musical, distorsion du signal, phénomène MAN, tests subjectifs
et objectifs, reconnaissance de la parole.
Abstract
Speech enhancement has been extensively investigated in the last years giving rise
to spectacular results. However, some problems and questions remain open. One of
these problems is to reach a compromise between noise reduction, signal distorsion
and residual musical noise. The development of methods based on perceptual notions,
mainly on the masking phenomenon, gained a lot of interest these last decades. The
basic objective of perceptual filters is to reduce noise without introducing much signal
distorsion. One way to avoid superfluous distorsion is then to operate only in frequencies
where noise is perceptually significant. However, by so processing, the initially inaudible
noise, and as such not taken into account by the perceptual denoising, can become
audible and annoying if its maskers are filtered. This is what we call in this thesis the
MAN phenomenon (Maskee to Audible Noise).
The main contributions of this thesis are the following ones. We begin by illustrating
the MAN phenomenon, which, to our knowledge, has never been presented before.
We show the side effects of this phenomenon. Then, we propose a basic approach to
correct the MAN phenomenon thanks to a double filtering that attenuates noise in all
frequencies to avoid the production of this phenomenon.
We propose a second approach based on an optimal filter called anti-MAN filter.
It is frequency selective. In this criterion, we define the MAN phenomenon location to
attenuate the noise contributing to it.
Comparative evaluation based on objective and subjective criteria is introduced
for several noise types and several signal to noise conditions. Results revealed the
superiority of the proposed methods in comparison with recently perceptual methods
not taking the phenomenon MAN into account.
We also conceived two speech recognition systems with HTK (Hidden Markov Mo-
dels Tollkit) : the first one is based on monophones and the other one on triphones. The
training of these two systems was performed in the absence of noise ; this allowed us to
assess the impact of the enhancement on the speech recognition system performance
in presence of noise. Results show that the best methods regarding objective and even
subjective criteria are not necessarily those that return the more robust recognition
systems. The latters are in general more sensitive to distorsions.
key words : Perceptual enhancement, psycho-acoustic, Wiener filtering, frequency
masking, musical noise, signal distorsion, MAN phenomenon, subjective and objective
tests, speech recognition.
Table des matières
Résumé v
Acronymes xiii
Notations xv
Liste des tableaux xvii
Liste des figures xix
1 Introduction générale 1
1.1 Présentation du problème . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Contexte, motivations et objectifs . . . . . . . . . . . . . . . . . . . . . 2
1.3 Plan du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Généralités sur le signal de parole 5

2.1 La parole et le bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Production du signal de parole . . . . . . . . . . . . . . . . . . . 5
2.1.2 Perception de la parole . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.3 Analyse et paramétrisation de la parole . . . . . . . . . . . . . . 6
2.1.4 Nature et caractéristiques du bruit . . . . . . . . . . . . . . . . 9
2.1.5 Qu’est ce qu’un bruit musical . . . . . . . . . . . . . . . . . . . 9
2.2 Notions de psychoacoustique . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Quelques définitions en psychoacoustique . . . . . . . . . . . . . 11
2.2.2 Modèle de Johnston pour le calcul de la courbe de masquage . . 17
2.2.3 Modèle ISO/MPEG-1 pour le calcul de la courbe de masquage 19
2.2.4 Choix du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
x TABLE DES MATIÈRES
3 Évaluation de la qualité et de l’intelligibilité de la parole 25

3.1 Qualité et intelligibilité de la parole . . . . . . . . . . . . . . . . . . . . 25
3.2 Critères subjectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2.1 Analyse et présentation des résultats . . . . . . . . . . . . . . . 28
3.2.2 Analyse statistique par t-test et ANOVA . . . . . . . . . . . . . 29
3.3 Critères objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3.1 SNR segmental (segSNR) . . . . . . . . . . . . . . . . . . . . . 33
3.3.2 Mesure d’Itakura Saito . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.3 Distance cepstrale . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3.4 BSD et MBSD . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.5 PSQM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3.6 PESQ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4 État de l’art du débruitage mono-capteur de la parole 37

4.1 Soustraction spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4.1.2 Paramétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.3 Amélioration psychoacoustique . . . . . . . . . . . . . . . . . . 41
4.2 Filtrage de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 MMSE et MMSE-LSA . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.2 Améliorations de l’approche Decision-Directed . . . . . . . . . . 48
4.4 Méthodes à sous-espace signal . . . . . . . . . . . . . . . . . . . . . . . 50
4.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.5 Réducteurs perceptuels du bruit audible . . . . . . . . . . . . . . . . . 55
4.5.1 Approches et limitations . . . . . . . . . . . . . . . . . . . . . . 55
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5 Estimation du bruit 63
5.1 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Estimateur de la borne essentielle (Essentiel Supremum Estimate) . . . 66
5.2.1 Cas du bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . 66
TABLE DES MATIÈRES xi
5.2.2 Cas du bruit coloré . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.3 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6 Estimation de la courbe de masquage 77

6.1 Estimation à partir d’un signal débruité . . . . . . . . . . . . . . . . . 79
6.2 Ajustement de la courbe de masquage . . . . . . . . . . . . . . . . . . . 81
6.2.1 Proposition de Virag . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.2 Proposition de Tuffy . . . . . . . . . . . . . . . . . . . . . . . . 81
6.2.3 Proposition de Ben Aicha . . . . . . . . . . . . . . . . . . . . . 83
6.3 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.1 Première proposition . . . . . . . . . . . . . . . . . . . . . . . . 84
6.3.2 Deuxième proposition . . . . . . . . . . . . . . . . . . . . . . . . 89
6.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
7 Débruitage perceptuel de la parole - limitations et contributions 95

7.1 Le phénomène MAN (Maskee to Audible Noise) . . . . . . . . . . . . . 96
7.1.1 Illustration du phénomène MAN . . . . . . . . . . . . . . . . . . 96
7.2 Double filtrage pour éviter le phénomène MAN . . . . . . . . . . . . . 99
7.2.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
7.2.2 Etude asymptotique du double filtrage . . . . . . . . . . . . . . 100
7.2.3 Lissage fréquentiel . . . . . . . . . . . . . . . . . . . . . . . . . 100
7.2.4 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . 101
7.3 Filtre optimal anti-MAN . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.3.1 Critère anti-MAN . . . . . . . . . . . . . . . . . . . . . . . . . . 106
7.3.2 Dérivation du filtre perceptuel anti-MAN . . . . . . . . . . . . . 107
7.3.3 Résultats expérimentaux . . . . . . . . . . . . . . . . . . . . . . 108
7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
8 Reconnaissance de la parole 117

8.1 Reconnaissance à bord des véhicules . . . . . . . . . . . . . . . . . . . 117
8.2 Principe de la reconnaissance vocale . . . . . . . . . . . . . . . . . . . 119
8.3 Reconnaissance de la parole en milieu bruité - Etat de l’art . . . . . . . 122
8.3.1 Paramétrage résistant au bruit . . . . . . . . . . . . . . . . . . . 123
8.3.2 Débruitage en amont . . . . . . . . . . . . . . . . . . . . . . . . 125
8.3.3 Compensation du bruit . . . . . . . . . . . . . . . . . . . . . . . 125
8.3.4 Reconnaissance audio-visuelle . . . . . . . . . . . . . . . . . . . 127
xii TABLE DES MATIÈRES
8.4 Construction d’un système de reconnaissance de la parole sous HTK . . 128

8.5 Analyse des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
9 Conclusion générale 139

9.1 Résultats principaux et apports . . . . . . . . . . . . . . . . . . . . . . 139
9.2 Perspectives de recherche . . . . . . . . . . . . . . . . . . . . . . . . . . 140
A Echelle de notation de la norme P-835 143
B Filtre de Wiener 145
C Tables statistiques 147

C.1 Distribution de la loi de Student . . . . . . . . . . . . . . . . . . . . . 147
C.2 Distribution de la loi de Fisher . . . . . . . . . . . . . . . . . . . . . . 148
D Un Système de reconnaissance de la parole sous HTK 149

D.0.1 Avec monophone . . . . . . . . . . . . . . . . . . . . . . . . . . 149
D.0.2 Avec triphone . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
Bibliographie 159
Acronymes
ACR Absolute Category Rating

AI Articulation index
AM Amplitude Modulation
ANOVA Analyse Of VAriance
AR Auto Régressif
AMPF Ant-Man Perceptual Filtering
BMB Bruit Masquant Bruit
BMT Bruit Masquant une Tonale
BSD Bark Spectral Distortion
CCR Comparison Category Rating
C-ESE Complex Essentiel Supremum Estimate
CM Courbe de Masquage
CMN Cepstral Mean Normalization
CMOS Comparison Mean Opinion Score
CVN Cepstral Variance Normalization
DAV Détecteur d’Activité Vocale
DCT Discret Cosine Transform
DCR Degradation Category Rating
DF Double Filtring
DMOS Degradation Mean Opinion Score
DRT Diagnostic Rhyme Test
DSP Densité Spectrale de Puissance
EQM Erreur Quadratique Moyenne
FFT Fast Fourier Transform
FM Frequency Modulation
GMM Gaussian Mixture Model
HMM Hidden Markov Model
HOS High Order Statistics
HTK Hidden Markov Model Toolkit
IFFT Inverse Fast Fourier Transform
IMCRA Improved Minima Controlled Recursive Averaging
IS itakura saito
xiv ACRONYMES
ISO International Standards Organisation

LDA Linear Discriminant Analysis
LFER Low band to Full band Energy Ratio
LLR Likelihood Linear Regression
LPC Linear Predictive Coding
LRT Likelihood Ratio Test
MAP Maximum A Posteriori
MBSD Modified Bark Spectral Distortion
MFCC Mel Frequency Cepstral Coefficients
MCRA Minima Controlled Recursive Averaging
MLLR Maximum Likelihood Linear Regression
MMSE Minimum Mean Square Error
MPEG Moving Picture Experts Group
MOS Mean Opinion Score
NSNR Noisy Signal to Noise Ratio
PAQM Perceptual Audio Quality Measure
PCA Principal Component Analysis
PESQ Perceptual Evaluation of Speech Quality
PLP Perceptually Linear Predictive
PMC Parallel Model Combination
PSQM Perceptual Speech Quality Measure
PWPT Perceptual Wavelet Packet Transform
RAP Reconnaissance Automatique de la Parole
RASTA RelAtive SpecTrAl
segSNR segmental SNR
SF Spreading Function
SFM Spectral Flatness Measure
SII Speech Intelligibility Index
SKR Skewness to Kurtosis Ratio
SNR Signal to Noise Ratio
SMC Short-time Modified Coherence
SSA Soustraction Spectrale d’Amplitude
SSP Soustraction Spectrale de Puissance
STI Speech Transmission Index
STSA Short-Term Spectral Amplitude
TEO Teager Energy Operator
TFD Transformée de Fourier Discrèt
TMB Tonale Masquant Buit
Notations
s(t) Signal de parole

y(t) Signal de parole bruité
b(t) Bruit additif
S(ν) Transformée de Fourier Discrète du signal de parole à la fréquence ν
Y (ν) Transformée de Fourier Discrète du signal de parole bruité à la fréquence ν
B(ν) Transformée de Fourier Discrète du bruit à la fréquence ν
|S(ν)| Amplitude du signal de parole à la fréquence ν
|Y (ν)| Amplitude du signal de parole bruité à la fréquence ν
|B(ν)| Amplitude du bruit à la fréquence ν
γ(ν) Densité spectrale de puissance du bruit à la fréquence ν
δ(ν) Densité spectrale de puissance du signal de parole à la fréquence ν
σ 2 (ν) Variance du bruit à la fréquence ν
T (ν) Courbe de masquage du signal de parole propre
T y (ν) Courbe de masquage du signal de parole bruité
T b (ν) Courbe de masquage du bruit
Liste des tableaux
2.1 Différentes classes du bruit . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Bandes critiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1 Échelle MOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.2 Échelle CMOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Échelle DMOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4 Exemple : Rendement de machines . . . . . . . . . . . . . . . . . . . . 31
3.5 Classification des critères d’évaluation objective les plus communément
utilisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.1 Algorithme C-ESE dans le cas du bruit blanc . . . . . . . . . . . . . . 71
7.1 La moyenne des scores MOS pour les auditeurs d’origine anglaise . . . 106
7.2 La moyenne des scores MOS pour les auditeurs de différentes nationalités106
7.3 La moyenne des scores MOS selon les échelles SIG, BACK et OVRL
pour les méthodes DF et AMPF dans les cas du bruit de voiture et du
bruit de conversation selon un rapport signal à bruit de 5 dB et 10 dB . 110
8.1 Performance des systèmes de reconnaissance à base de monophones et

triphones sur la base de test et la base de développement du corpus
TIdigits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
8.2 Taux de reconnaissance des signaux bruités à différents rapport signal à
bruit (système à base de monophones) . . . . . . . . . . . . . . . . . . 130
8.3 Taux de reconnaissance des signaux bruités à différents rapport signal à
bruit (système à base de triphones) . . . . . . . . . . . . . . . . . . . . 130
A.1 Echelle d’évaluation du signal vocal . . . . . . . . . . . . . . . . . . . . 143

A.2 Echelle d’évaluation du bruit de fond . . . . . . . . . . . . . . . . . . . 143
A.3 Echelle d’évaluation de la qualité globale . . . . . . . . . . . . . . . . . 143
D.1 Dictionnaire de la base TIdigits . . . . . . . . . . . . . . . . . . . . . . 150

xviii LISTE DES TABLEAUX
D.2 Grammaire de la base TIdigits . . . . . . . . . . . . . . . . . . . . . . . 150

D.3 Fichier de configuration pour la phase de l’analyse acoustique . . . . . 151
D.4 Fichiers de transcription en mots et phonèmes . . . . . . . . . . . . . . 151
D.5 Fichier prototype d’initialisation . . . . . . . . . . . . . . . . . . . . . . 152
Liste des figures
1.1 Cadre générale de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1 Modèle simple de production de la parole . . . . . . . . . . . . . . . . . 6

2.2 Détermination de la fréqeunce fondamentale par cepstre . . . . . . . . . 8
2.3 Chaı̂ne de calcul des coefficients MFCC . . . . . . . . . . . . . . . . . . 8
2.4 Spectre d’amplitude en 3D, à travers 20 trames, d’un échantillon de
signal de parole : (a) Signal propre (b) Signal débruité par filtrage de
Wiener avec une nette présence de bruit musical . . . . . . . . . . . . 11
2.5 Seuil d’audition absolu . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 Courbes d’isosonie de Fletcher et Munson . . . . . . . . . . . . . . . . 13
2.7 Effet de masquage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.8 Masquage fréquentiel : (a) Tonale Masquant un Bruit (b) Bruit Mas-
quant une Tonale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.9 Masquage temporel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.10 Maximums locaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.11 Composantes tonales et non tonales . . . . . . . . . . . . . . . . . . . . 21
2.12 Seuil de masquage global . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1 Résultats d’ANOVA correspondant à l’exemple du rendement de trois

machines à cinq ouvriers chacune . . . . . . . . . . . . . . . . . . . . . 31
4.1 Modèle de débruitage utilisé dans ce document . . . . . . . . . . . . . . 37

4.2 Parties transitoires de la parole . . . . . . . . . . . . . . . . . . . . . . 49
4.3 Débruitage à sous-espace signal . . . . . . . . . . . . . . . . . . . . . . 51
4.4 Distorsion et bruit résiduel en fonction du RSB a priori ξ . . . . . . . . 58
4.5 Distorsion, bruit résiduel et courbe de masquage . . . . . . . . . . . . . 59
4.6 Distorsion, bruit residuel et courbe de masquage : intersection entre la
courbe de masquage et l’erreur quadratique moyenne . . . . . . . . . . 59
xx LISTE DES FIGURES
5.1 Spectrogramme d’un signal bruité par un bruit de conversation (Babble)

à 5dB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 C-ESE appliqué à toutes les trames par canal de fréquence donné dans
le cas d’un bruit coloré . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.3 Évolution du MSE par trame pour un signal de parole donné . . . . . 73
5.4 MSE correspondant à chaque estimateur dans le cas du bruit blanc gaus-
sien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.5 MSE correspondant à chaque estimateur dans le cas du bruit Babble . 74
5.6 MSE correspondant à chaque estimateur dans le cas du bruit de voiture
(Volvo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.7 segSNR moyen correspondant à chaque estimateur dans le cas du bruit
blanc gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Babble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
de voiture (Volvo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.1 Estimation de la Courbe de Masquage CM vs Densité Spectrale de puis-

sance d’un bruit blanc gaussien BBG : (a) Sous-estimation (b) Sur-
estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Estimation de la Courbe de Masquage (CM) par filtrage de Wiener et
soustraction spectrale (SSP) sur deux exemples de trames : l’une est
voisée et l’autre est non voisée. . . . . . . . . . . . . . . . . . . . . . . 80
6.3 Correction de l’estimation de la Courbe de Masquage CM par la méthode
Ben Aicha avec un indice de tonalité constant sur toutes les fréquences 85
6.4 Correction de l’estimation de la Courbe de Masquage CM par la méthode
Udrea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
6.5 Modification de la correction de l’estimation de la Courbe de Masquage
CM par la méthode Udrea améliorée dans le cas du filtrage par Wiener 88
6.6 Exemple de comparaison entre la densité spectrale issue du modèle AR
et celle par périodogramme . . . . . . . . . . . . . . . . . . . . . . . . 90
6.7 Estimation de la courbe de masquage CM par densité spectrale issue du
modèle AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
6.8 Estimation de la courbe de masquage CM par densité spectrale issue du
modèle AR appliqué au signal débruité par Wiener . . . . . . . . . . . 93
6.9 Correction de l’estimation de la Courbe de Masquage CM en fonction
du NSNR et du SSNR . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
7.1 Maskee to audible noise phenomenon description . . . . . . . . . . . . . 97

7.2 Atténuation spectrale du signal implique une atténuation de sa courbe
de masquage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
LISTE DES FIGURES xxi
7.3 Apparition du phénomène MAN après filtrage du bruit audible uniquement 98

7.4 Principe du double filtrage DF pour une trame k donnée . . . . . . . . 99
7.5 Impact du paramètre q . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.6 Effet du lissage sur la fonction du gain du débruitage . . . . . . . . . . 101
7.7 Comparaison en terme de moyenne de MBSD dans le cas de parole
bruitée par un bruit blanc, un bruit de conversation et un bruit de
voiture respectivement . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
7.8 Comparaison en terme de moyenne de SSNR dans le cas de parole bruitée
par un bruit blanc, un bruit de conversation et un bruit de voiture
respectivement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
7.9 Comparaison en terme de moyenne de PESQ dans le cas de parole bruitée
par un bruit blanc, un bruit de conversation et un bruit de voiture
respectivement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
7.10 Disparition du phénomène MAN après filtrage AMPF . . . . . . . . . . 109
7.11 Comparaison en terme de MBSD, PESQ et SSNR dans le cas du bruit
blanc (en supposant connaı̂tre la variance du bruit . . . . . . . . . . . . 111
babble (en supposant connaı̂tre la variance du bruit) . . . . . . . . . . 112
car (en supposant connaı̂tre la variance du bruit) . . . . . . . . . . . . 113
blanc gaussien (DAV G729) . . . . . . . . . . . . . . . . . . . . . . . . 114
babble (DAV G729) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
car (DAV G729) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
8.1 Architecure d’un système de reconnaissance de la parole par HMM . . . 119

8.2 Exemple de structure à 5 états d’un HMM. Les états q2 , q3 et q4 sont
émetteurs alors que l’état initial q1 et l’état final q5 ne génèrent pas
d’observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
8.3 Architecture des systèmes de Reconnaissance Automatique de la Parole
robustes au bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
8.4 Taux de reconnaissance par monophones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
bruit de conversation et débruités par différentes méthodes en supposant
connaı̂tre la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . 132
xxii LISTE DES FIGURES
8.6 Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de voiture et débruités par différentes méthodes en supposant
bruit blanc et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729 . . . . . . . . . . 133
bruit de conversation et débruités par différentes méthodes en estimant
la variance du bruit pendant les pauses fournies par le DAV G729 . . . 134
bruit de voiture et débruités par différentes méthodes en estimant la
variance du bruit pendant les pauses fournies par le DAV G729 . . . . . 134
8.10 Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
bruit de conversation et débruités par différentes méthodes en supposant
bruit de voiture et débruités par différentes méthodes en supposant
bruit blanc et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729 . . . . . . . . . . 136
bruit de conversation et débruités par différentes méthodes en estimant
la variance du bruit pendant les pauses fournies par le DAV G729 . . . 137
bruit de voiture et débruités par différentes méthodes en estimant la
variance du bruit pendant les pauses fournies par le DAV G729 . . . . . 137
D.1 Fixation du modèle de silence Sp . . . . . . . . . . . . . . . . . . . . . 154

1
CHAPITRE
Introduction générale
1.1 Présentation du problème
Le problème de débruitage de la parole n’est pas récent. Cependant, il constitue

toujours un champ d’étude vaste et encore riche d’idées. L’objectif est de restaurer un
signal utile à partir d’observations corrompues par un bruit souvent considéré additif.
Cette hypothèse est souvent utilisée, à la fois pour sa simplicité, mais aussi car elle
permet de modéliser un grand nombre de situations pratiques. Le signal observé est
donc considéré comme la somme du signal de parole et du bruit ambiant. Ce modèle
omet tout bruit convolutif, électrique ou de quantification.
Les méthodes classiques, comme la soustraction spectrale ou le filtrage de Wiener,
réussissent à réduire le bruit additif, mais en contrepartie, introduisent un bruit résiduel
(bruit musical) gênant pour la perception humaine. Le besoin de réduire ce type de
bruit tout en préservant l’intelligibilité de la parole a poussé les chercheurs à proposer
d’autres solutions à ce problème, mais aussi à réduire certaines limitations des systèmes
mono-capteur de débruitage de la parole (estimation du bruit, détection de l’activité
vocale...).
Ces premières tentatives ont apporté des améliorations sur la procédure classique
de soustraction spectrale afin d’éviter ses effets indésirables et d’améliorer ainsi l’in-
telligibilité de la parole. Mais par la suite, vu les progrès du traitement du signal,
de nouvelles solutions ont été proposées, par exemple, l’emploi des ondelettes et les
méthodes à sous-espace signal.
En codage de la parole, des progrès ont été réalisés en exploitant les propriétés de la
perception auditive de l’être humain à travers le phénomène de masquage. Les travaux
en débruitage de la parole ont commencé récemment à suivre cette tendance qui semble
fructueuse. Le phénomène de masquage prouve la non objectivité de l’interprétation
des sons par notre cerveau. En effet, l’existence physique d’un son ne garantit pas sa
perception auditive par notre cerveau. Ceci est dû à la possibilité qu’il soit masqué
par la présence d’un autre son plus puissant. Il est donc possible de conserver un bruit
tant que celui-ci reste inaudible. Il existe deux variétés de masquage : fréquentiel et
temporel. Dans le cadre des applications audio, notamment le débruitage, le phénomène
le plus exploité est le masquage fréquentiel. Le masquage temporel est quant à lui
rarement utilisé car difficile à modéliser et à exploiter ; en plus il est de faible influence
par rapport au masquage fréquentiel. La modélisation du phénomène de masquage
2 CHAPITRE 1 : Introduction générale
Figure 1.1 — Cadre générale de la thèse
fréquentiel est faite par le calcul de la courbe de masquage qui représente les points
de pression acoustique nécessaires pour qu’un son test soit perçu en présence d’un son
masquant.
L’intérêt s’est porté aussi sur l’amélioration des mesures de qualité de la parole en
vue d’une évaluation plus objective s’approchant au mieux du jugement de l’auditeur.
Bien que les tests subjectifs soient plus décisifs et traduisent l’opinion des sujets hu-
mains, leur coûteuse mise en œuvre a nécessité le développement d’autres critères. Les
plus usuels sont ceux évaluant la qualité de la parole débruitée en terme de distorsion
de forme en comparaison avec le signal de parole de référence. Certes, ce type de me-
sure délivre une information sur les performances du débruiteur, mais ne garantit pas
d’obtenir une qualité perçue qui peut satisfaire l’auditeur, d’où la proposition de me-
sures objectives de qualité se basant sur des notions de psychoacoustique pour simuler
la perception humaine sans avoir besoin d’effectuer des tests subjectifs.
L’axe psychoacoustique semble prometteur et ses bénéfices sont évidents sur les
systèmes de débruitage de la parole. La combinaison des deux constitue de nos jours
un champ d’étude qui peut encore évoluer si l’on arrive à surmonter certaines difficultés
en relation avec le calcul de la courbe de masquage et l’estimation du bruit.
1.2 Contexte, motivations et objectifs

Le cadre générale de cette est résumé dans la figure 1.1. On se place dans la situation
d’un seul canal de réception (système monocapteur) où l’observé est un signal de parole
bruité additivement. Les algorithmes de débruitage traités sont non-paramétriques du
fait qu’ils n’exigent pas de connaissances a priori sur les signaux observés, contraire-
ment aux méthodes paramétriques dont l’information a priori est souvent encapsulée
dans la fonction de densité de probabilité, pdf (attribution d’une pdf à cause de la
nature aléatoire des données). L’intérêt de se placer dans le cas des systèmes mono-
capteurs vient du fait que les applications visées sont l’amélioration de l’intelligibilité
Section 1.3 : Plan du document 3
audio et la reconnaissance automatique de la parole pour la téléphonie mobile et la

téléphonie mains-libres à bord des véhicules. Pour ce type d’applications, on dispose
souvent d’un seul système de restitution pour des raisons de conception comme pour
des raisons de coût.
Partant du principe que les bénéfices d’introduire des notions de psychoacoustique
dans les systèmes de débruitage de la parole sont prometteurs, notre intérêt s’est donc
porté sur des algorithmes tenant compte de ces notions. Le but est de concevoir un
algorithme de débruitage perceptuel de la parole qui soit performant.
Nos travaux sont complétés par une étude de l’impact du débruitage, comme étape
de pré-traitement, sur les performances des systèmes de Reconnaissance Automatique
de la Parole (RAP) en présence du bruit et à différents rapports signal à bruit.
Enfin, de nombreux tests subjectifs sont réalisés, dans diverses conditions de bruit
et de rapport signal à bruit, pour évaluer plus précisément la qualité des débruiteurs
étudiés. Compte-tenu de cet avant propos du document, comment ce dernier est-il
organisé ?
1.3 Plan du document

Le premier chapitre tient lieu d’introduction générale pour le reste du document.
Ce chapitre permet notamment de situer les problèmes abordés par rapport au cadre
plus général et de présenter l’organisation des chapitres de ce document.
Dans le deuxième chapitre nous abordons des généralités sur le signal de parole,
le bruit et les notions de psychoacoustique. La mise en place de ces notions permet
de mieux suivre les autres chapitres et d’avoir une idée sur les subtilités qui accom-
pagnent le signal, de sa production à sa perception. Ce deuxième chapitre se conclut
par une description du phénomène de masquage et du choix du modèle permettant de
le modéliser parmi deux systèmes présentés.
Le chapitre 3 donne les définitions des critères d’évaluation de la qualité et de l’intel-
ligibilité de la parole. Ces deux notions sont ici différenciées alors qu’elles sont souvent,
et malheureusement, confondues. Un signal peut donc être de mauvaise qualité, tout
en ayant une bonne intelligibilité, ou l’inverse.
Le chapitre 4 constitue une présentation, surtout bibliographique, des techniques
classiques et plus sophistiquées de réduction de bruit de fond fonctionnant selon le
principe d’atténuation spectrale à court-terme. L’étude bibliographique menée nous
a permis d’extraire les points clés de chaque méthode et de décrire les améliorations
apportées au fil des années. Nous allons également aborder le fait qu’en adoptant
un filtrage linéaire, on est obligé de faire un compromis entre réduction du bruit et
distorsion du signal, la réduction simultanée des deux étant impossible à atteindre.
Les chapitres sont en rapport avec des problèmes d’estimation concernant le bruit et
la courbe de masquage. Ces deux éléments sont indispensables à l’emploi des méthodes
de débruitage perceptuel. Dans le chapitre 5, nous résumons les principales méthodes
usuelles de l’estimation du bruit. Nous concluons le chapitre par la présentation d’un
algorithme d’estimation de la variance du bruit, que nous avons eu l’occasion d’étudier
4 CHAPITRE 1 : Introduction générale
de près et qui ne requiert aucun a priori sur les distributions des signaux à part des
hypothèses statistiques et de parcimonie sur les signaux. Quant au chapitre 6, nous
le consacrons à l’estimation de la courbe de masquage. Il nous a permis de parcourir
les quelques travaux peu nombreux sur la correction de l’estimation de la courbe de
masquage et de présenter deux approches constituant notre contribution par rapport
à cette partie.
Le chapitre 7 constitue la contribution majeure de cette thèse. Nous le commençons
en décrivant les limitations des approches perceptuelles qui traitent uniquement le bruit
audible. Ensuite, nous décrivons et illustrons un phénomène dénommé MAN (Maskee to
Audible Noise), nous montrons ses effets secondaires et nous enchaı̂nons en proposant
deux solutions donnant lieu à deux filtrages peceptuels dont l’un est optimal. Nous
évaluons l’apport des méthodes proposées par rapport à d’autres et nous concluons par
présenter et analyser les résultats obtenus.
Le dernier chapitre, avant la conclusion générale, concerne l’application du
débruitage à la reconnaissance automatique de la parole en présence du bruit. Nous
présentons le principe de fonctionnement des systèmes de reconnaissance de la parole
et nous décrivons les différentes classes de méthodes destinées à rendre ces systèmes
robustes au bruit. Le débruitage de la parole en fait partie, raison pour laquelle nous
avons conçu deux systèmes de références, qui vont nous permettre de voir l’influence
du débruitage sur les performances de ces systèmes en présence du bruit.
Enfin, ce mémoire s’achève par un chapitre de conclusion des principaux apports et
résultats et traçant à la fin les perspectives de recherche liées au débruitage perceptuel
et à la reconnaissance automatique de la parole.
2
CHAPITRE
Généralités sur le signal
de parole
2.1 La parole et le bruit

Notre environnement est souvent bruité, les applications audio se trouvent ainsi
confrontées au bruit ambiant. Ce chapitre résume les principales caractéristiques de la
parole et du bruit : pour la parole, de sa production à sa modélisation ; pour le bruit,
on citera les caractéristiques temporelles et spectrales de certains types de bruits liés
aux applications de téléphonie mobile et de téléphonie mains libres à bord de véhicules.
2.1.1 Production du signal de parole

Le signal de parole est le résultat de l’excitation du conduit vocal par un train d’im-
pulsions ou un bruit donnant lieu respectivement aux sons voisés et non voisés figure
2.1 [Rabiner 07]. Dans le cas des sons voisés, l’excitation est une vibration périodique
des cordes vocales suite à la pression exercée par l’air provenant de l’appareil respira-
toire. Ce mouvement vibratoire correspond à une succession de cycles d’ouverture et de
fermeture de la glotte. Le nombre de ces cycles par seconde correspond à la fréquence
fondamentale F0 . Quant au signaux non-voisés, l’air passe librement à travers la glotte
(du moins pas dans tout le conduit vocal) sans provoquer de vibration des cordes
vocales.
2.1.2 Perception de la parole

Le signal de parole est un vecteur acoustique porteur d’informations d’une grande
complexité, variabilité et redondance. Les caractéristiques de ce signal sont appelées
traits acoustiques. Chaque trait acoustique a une signification sur le plan perceptuel.
Le premier trait est la fréquence fondamentale, fréquence de vibration des cordes
vocales. Ses variations définissent le pitch qui constitue la perception de la hauteur
(où les sons s’ordonnent de grave à aigu). Seuls les sons quasi-périodiques (voisés)
engendrent une sensation de hauteur tonale bien définie.
Le deuxième trait est le spectre fréquentiel dont dépend principalement le
timbre de la voix. Le timbre est une caractéristique permettant d’identifier une per-
6 CHAPITRE 2 : Généralités sur le signal de parole
Figure 2.1 — Modèle simple de production de la parole
sonne à la simple écoute de sa voix. Le timbre dépend de la corrélation entre la fréquence

fondamentale et les harmoniques qui sont les multiples de cette fréquence.
Le dernier trait acoustique est l’énergie correspondant à l’intensité sonore. Elle est
habituellement plus forte pour les segments voisés de la parole que pour les segments
non voisés.
2.1.3 Analyse et paramétrisation de la parole
Le signal de parole est un processus aléatoire non-stationnaire à long terme, mais

il est considéré comme stationnaire dans des fenêtres temporelles d’analyse de l’ordre
de 20 à 30ms. Cette propriété de stationnarité à court terme permet donc une analyse
et modélisation progressive du signal de parole accompagnée, bien sûr, d’un chevau-
chement de fenêtres pour permettre une continuité temporelle des caractéristiques de
l’analyse et du modèle.
Analyse LPC : Dans l’analyse par prédiction linéaire LPC, le conduit vocal est
modélisé par une fonction de transfert qui suit un modèle autorégressif. Cette analyse
est fort utilisée dans le codage de parole dans le but de réduire la redondance du signal
vocal, ou pour extraire des paramètres pertinents pour la reconnaissance de parole
[Young 06]. L’estimation des coefficients de la fonction de transfert du conduit vocal
est faite en supposant connaı̂tre le signal d’excitation. Pour les sons non voisés, le signal
d’excitation est un bruit blanc de moyenne nulle et de variance unité. Pour les sons
voisés, cette excitation est une suite d’impulsions d’amplitude unité. La fonction de
transfert du conduit vocal dans le domaine Z est donnée par
S(z) G
H(z) = = (2.1)
U(z) 1 − A(z)
Section 2.1 : La parole et le bruit 7
p
X
où A(z) = ak z −k est le prédicteur linéaire, ak sont les coefficients de prédiction,
k=1
S(z) est le signal de parole produit en sortie, U(z) est le signal d’excitation et G est un
gain. Le signal de parole s(n) à la sortie du modèle est donc représenté par la somme
d’une combinaison linéaire des échantillons précédents et de la fonction d’excitation,
tel que
p
X
s(n) = ak s(n − k) + Gu(n). (2.2)
k=1
Le modèle de prédiction exploite le fait que les échantillons successifs du signal de

parole sont corrélés ; d’où l’intérêt de ce modèle dans le codage de la parole dans le
sens où il permet de représenter la parole juste par ses paramètres pertinents, sans
redondance. Signalons également que les coefficients sont choisis de façon à minimiser
l’erreur quadratique de prédiction sur chaque segment de la fenêtre d’analyse.
Cepstre : Le cepstre est basé sur une connaissance du modèle de production de la

parole. Comme nous l’avons vu dans la section précédente, une modélisation du signal
de parole consiste à définir ce signal comme le résultat de la convolution de la fonction
de transfert du conduit vocal (filtre) par un signal d’excitation (source). Le but du
cepstre est de séparer ces deux contributions (source et filtre) par application de la
déconvolution à travers une transformée en cosinus discret. Le processus de calcul du
cepstre est le suivant où s, u et h le signal de parole, le signal d’excitation (source) et
la fonction de transfet du conduit vocal (filtre),
s=u∗h (2.3)
TFD(s) = UH (2.4)
Le logarithme de l’amplitude transforme le produit de la TFD en somme. On obtient
alors :
log |S(ν)| = log |U| + log |H| (2.5)
Par transformation en cosinus discret (DCT), on obtient le cepstre. L’expression du
cepstre réel est donc :
c = DCT(log(TFD(s))). (2.6)
L’espace fréquentiel de représentation du cepstre est équivalent à un espace temporel.
A partir du cepstre (Fig. 2.2), il est possible de définir la fréquence fondamentale de la
source u en détectant les pics périodiques (harmoniques) au-delà d’un certain nombre
N de coefficients. En effet, les N premiers points du cepstre contiennent l’information
la plus pertinente sur le spectre et permettent d’obtenir un spectre lissé, débarrassé des
harmoniques dûs à la contribution de la source. Cependant, déterminer la fréquence
fondamentale d’un signal de parole reste encore un problème difficile. En effet, les
algorithmes classiques manquent de robustesse quand le bruit est présent, quand la
fréquence fondamentale change rapidement ou quand la valeur de celle-ci n’est pas
assez élevée.
Signal temporel
0.1
Amplitude
0.05
0
−0.05
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14
Temps (s)
50
Puissance (dB)
Spectre
0
−50
−100
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Fréquence (Hz)
400
Cepstre
Fréquence fondamentale
Amplitude
200
0
0 0.002 0.004 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02
Quéfrence (s)
Figure 2.2 — Détermination de la fréqeunce fondamentale par cepstre
L’analyse cepstrale est basée sur un calcul de coefficients dits coefficients cepstraux
de Mel, soit en abrégé MFCC (Mel Frequency Cepstral Coefficients). Le calcul est en ef-
fet basé sur une échelle de Mel. Cette échelle se rapproche de la perception fréquentielle
de l’oreille. L’idée est de moyenner le spectre dans des bandes de fréquence correspon-
dant grossièrement au filtrage effectué par la membrane basilaire. L’échelle Mel est
approchée par un banc de 15 à 24 filtres triangulaires espacés linéairement jusqu’à
1 KHz, puis espacés logarithmiquement jusqu’aux fréquences maximales. Elle a été
conçue de telle façon que 1000 Hz correspondent à 1000mels. La formule de conversion
Fenêtrage
Banc de filtres Log| . | Transformée en MFCC
s(n) + FFT
Mel cosinus Discrét
pré−accentuation
Figure 2.3 — Chaı̂ne de calcul des coefficients MFCC
du hertz en mel la plus utilisée est la suivante :

fHz
mel = 2595 log10 (1 + ). (2.7)
700
La procédure de calcul pas à pas des MFCC est la suivante (voir la figure 2.3) :
– Découpage en trame (stationnarité), chevauchement (éviter les transitions
brusques de trame en trame).
Section 2.1 : La parole et le bruit 9
– Pré-accentuation (pour donner plus d’énergie et renforcer la contribution des

hautes fréquences) avec un filtre passe-haut de la forme 1 − 0.9z −1 puis fenêtrage
de Hanning (pour la continuité aux bords).
– Calcul de la TFD sur chaque trame.
– Filtrage par un banc de filtres triangulaires répartis le long de l’échelle de Mel.
– Calcul du logarithme du module de l’énergie en sortie du banc de filtres.
– Application de la Transformée en Cosinus Discrète inverse (joue le rôle d’une
TFD inverse).
– Seuls les premiers coefficients sont conservés. Par exemple, dans la reconnaissance
de la parole par HTK (Chapitre 7), on utilise les 12 premiers coefficients. Le
premier coefficient c0 représente l’énergie mais peut être remplacé par le log de
l’énergie moyenne des échantillons.
2.1.4 Nature et caractéristiques du bruit

On appelle bruit tout signal nuisible qui se superpose au signal utile en un point
quelconque d’une chaı̂ne de mesure ou d’un système de transmission. Il constitue donc
une gêne dans la compréhension du signal utile, qui est dans notre cas, la parole. En
physique, en acoustique et en traitement du signal, bien que le bruit soit, par nature,
aléatoire, il possède certaines caractéristiques statistiques, spectrales ou spatiales. Le
tableau 2.1, extrait de [Virag 99], représente les différentes classes auxquelles un bruit
peut appartenir.
Propriétés Types
Structure Continu/Impulsif/Périodique
Type d’interaction Additif/Multiplicatif/Convolutif
Comportement temporel Stationnaire/Non-stationnaire
Bande de fréquence étroit/large
Dépendance Corrélé/ Décorrélé
Propriétés statistiques Dépendant/Indépendant
Propriétés spatiales Cohérent/Incohérent
Tableau 2.1 — Différentes classes du bruit
Comme notre but est essentiellement le débruitage et la reconnaissance de la pa-

role pour des applications de téléphonie mobile et de téléphonie mains libres à bord
de véhicules, on se limite dans notre étude aux bruits additifs, stationnaires ou non
stationnaires, et décorrélés avec la parole (indépendance au sens statistique), tels que
le bruit de conversation appelé Babble, le bruit de voiture appelé (car) et le bruit blanc
gaussien (ce dernier est souvent utilisé mais peu réaliste).
2.1.5 Qu’est ce qu’un bruit musical

Le bruit musical est un bruit résiduel perceptuellement gênant qui apparaı̂t suite au
débruitage de la parole par des algorithmes d’atténuation spectrale à court terme tels
que la soustraction spectrale ou le filtrage de Wiener. Le spectre du bruit musical est
particulièrement tonal, d’où le caractère musical. Son énergie moyenne est plus faible
que celle du bruit initial, mais sa dispersion en fréquence est plus grande, ce qui le
rend plus gênant que le bruit de départ du point de vue perception. Parmi les raisons
d’apparition de ce type de bruit [Loizou 07, Cappe 94], on cite :
– Le traitement non linéaire des composantes négatives du signal débruité,
– L’estimée non précise de la densité spectrale de bruit,
– L’estimation basée sur des périodogrammes,
– La variabilité de la fonction de gain appliquée au signal bruité,
– La variance des estimateurs locaux de la densité spectrale des signaux...
Soient respectivement yk (t), sk (t) et bk (t), t = 0, 1, . . . , N − 1, le signal bruité, le
signal propre et le bruit dans la k ème trame. On a donc, yk (t) = sk (t) + bk (t). Les
Transformées de Fourier Discrètes (TFDs) de ces signaux sont respectivement notées
Yk (ν), Sk (ν) et Bk (ν), ν = 0, 1, . . . , N − 1 et nous avons Yk (ν) = Sk (ν) + Bk (ν). Ces
notations seront conservées tout au long de ce manuscrit.
Pour un problème de débruitage linéaire classique où l’on cherche un estimateur
Hk (ν) tel que Sbk (ν) = Hk (ν)Yk (ν), l’erreur dûe à ce filtrage est la suivante :
ek (ν) = Sk (ν) − Sbk (ν)

= (Hk (ν) − 1)Sk (ν) + Hk (ν)Bk (ν). (2.8)
L’expression (Hk (ν) − 1)Sk (ν) représente la distorsion du signal tandis que
Hk (ν)Bk (ν) désigne le bruit résiduel contenant le bruit musical. Dans le cas où
0 ≤ Hk (ν) ≤ 1, il est généralement très difficile de réduire le bruit musical sans
apporter de distorsion sur le signal. Le besoin d’un compromis entre la distorsion et
le bruit musical s’avère donc le meilleur moyen pour augmenter les performances en
qualité et intelligibilité. Pour illustrer le bruit musical, on a choisi de représenter le
spectre d’amplitude, le long de plusieurs trames, d’un échantillon de signal de parole
auquel on a ajouté un bruit blanc gaussien à 5 dB. Ce signal bruité est par la suite
débruité par un filtrage de Wiener classique afin d’obtenir une estimée du signal propre
de départ. La figure 2.4, décrit, donc, la distribution aléatoire des pics spectraux du
bruit musical en sortie du filtre de Wiener.
Le chapitre IV présentera une synthèse des méthodes visant à traiter ce type de
bruit pour améliorer les performances du débruitage de la parole.
2.2 Notions de psychoacoustique

La psychoacoustique est l’étude de la perception des sons. Elle rassemble et décrit
les relations qui existent entre le phénomène acoustique physique, sa perception par
notre oreille et la description que l’on en fait. L’oreille humaine perçoit un son pur dans
l’intervalle de 20 Hz à 20 kHz ; cet intervalle est variable selon les individus et décroı̂t
avec l’âge. Il existe un seuil d’audition absolu en dessous duquel l’oreille ne perçoit pas
de son (figure 2.5). Ce seuil caractérise l’énergie dont a besoin un son pur pour être
perçu par l’oreille en silence absolu. Il existe également un seuil traduisant la limite
supérieure de la perception de l’oreille. Il est connu sous le nom de seuil de douleur
Section 2.2 : Notions de psychoacoustique 11
1.5
Amplitude
1
0.5
0
40
4000
30 3000
2000
1000
Numéro de la trame 20 0
Fréquence(Hz)
1.5
Amplitude
0.5
0
40
4000
30 3000
2000
1000
Numéro de la trame 20 0
Fréquence(Hz)
Figure 2.4 — Spectre d’amplitude en 3D, à travers 20 trames, d’un échantillon de

signal de parole : (a) Signal propre (b) Signal débruité par filtrage de Wiener avec
une nette présence de bruit musical
car des douleurs aiguës de l’oreille apparaissent à ce niveau. Il se situe à environ 130
dB. Expérimentalement, on s’arrête à 90 dB, car là d’ores et déjà les dégradations de
l’audition apparaissent [Zwicker 81].
2.2.1 Quelques définitions en psychoacoustique

Afin de mieux comprendre le fonctionnement interne de notre système auditif, il
est important de rappeler les définitions de certaines notions qui sont souvent sujet
d’ambiguı̈té.
Son pur, son complexe : Un son pur, désigné dans le jargon de la psychoacoustique
par le terme de tonale, génère une pression acoustique sinusoı̈dale dans le temps. Le
niveau acoustique de ce son est représenté sur une échelle logarithmique. Il a l’allure
d’une seule raie en fréquence. Un son pur est rarement rencontré dans la nature. Les
sons les plus fréquents sont complexes. Un son complexe est généré par une combinaison
Niveaux (dB)
Seuil de douleur
120
100
80
60 Aire d’audition
40
20
0
Seuil d’audition absolu Fréquences (Hz)
20 1000 20000
Figure 2.5 — Seuil d’audition absolu
de sons purs. Son spectre est donc formé de plusieurs raies.
Sonie (Loudness) : La sonie est la perception de l’intensité sonore. C’est donc une
impression subjective où les sons s’ordonnent sur une échelle de faible à fort, de même
que dans la tonie (mesure de hauteur équivalente à la fréquence) les sons s’ordonnent
dans une échelle d’aigu, grave ou médium. La sonie est caractérisée par des lignes
isosoniques (Fig. 2.6), le lieu des points de même sonie. Pour mesurer la sonie d’un
son pur, on maintient constantes sa fréquence et sa durée. Par définition, à un son de
niveau acoustique 40 dB, de fréquence 1 kHz et de durée 1 s, on attribue arbitrairement
une sone, qui est l’unité de la sonie. On a alors 1 sone = 40 phones . La sonie varie
en proportion logarithmique avec l’échelle en phones (l’échelle des décibels dB). Une
augmentation de 10 dB correspond à une augmentation de 2 sones. Ainsi, pour basculer
de l’échelle de sone d’indice s à l’échelle de phone d’indice p, on a :
p−40
s=2 10 . (2.9)
Niveau d’intensité sonore : L’oreille n’a pas une sensibilité à l’intensité sonore
identique à toutes les fréquences. En effet, des sons d’intensité sonore égale n’ont pas la
même intensité perçue (sonie) selon qu’ils sont de fréquence basse, moyenne ou haute.
Ainsi, soient trois sons de même intensité sonore 40 dB et de fréquences 100Hz, 1kHz et
10kHz. Les sons de basse et haute fréquence seront plus faiblement perçus par rapport
au son de fréquence moyenne (autour de 1 kHz). Par définition, le niveau d’intensité
sonore, ayant pour unité le phone, indique le niveau de pression acoustique d’un son
pur de 1 KHz qui provoque la même sensation d’intensité sonore que le son test.
Exemple : Un son pur de fréquence 500Hz et qui est ressenti comme étant aussi fort
qu’un son pur de 1 kHz ayant un niveau de 50 dB a donc un niveau d’intensité sonore
égale à 50 dB (les courbes d’isosonie (2.6) que nous décrivons maintenant).
Courbes d’isosonie : Les courbes d’isosonie représentent les courbes d’égale in-
tensité sonore perçue (isosonique, c’est-à-dire ayant la même sonie). Deux sons purs
de fréquences différentes seront d’égale sonie si leurs niveaux en dB se placent sur la

même courbe d’isosonie. A 1 kHz, il y a correspondance entre dB et phone (figure 2.6).
Ces courbes décrivent comment les sons graves (basses fréquences) demandent à être
entendus à un niveau sonore plus élevé que les sons aigus (hautes fréquences) pour être
perçus avec la même intensité. On observe que, globalement, l’oreille perd une grande
partie de sa sensibilité dans les basses fréquences.
Figure 2.6 — Courbes d’isosonie de Fletcher et Munson
Bandes critiques : Du point de vue du traitement de signal, l’oreille interne est

modélisée par un banc de filtres passe-bande se chevauchant fortement. Ils ont une
bande passante croissante avec la fréquence (bancs de filtres à Q constant). Les bandes
critiques sont une façon de représenter ces filtres. Les bandes critiques montrent que
notre oreille fonctionne de façon sélective en fonction des fréquences. La largeur d’une
bande critique, quelle que soit sa fréquence centrale, est appelée un Bark. Jusqu’à 1
kHz, cette largeur de bande est linéaire et est égale à 100 Hz. Au-delà de 1 kHz, elle
varie dans une proportion logarithmique avec la fréquence.
La notion de bande critique est d’une importance primordiale en psychoacoustique.
Une bande critique représente aussi l’écart minimal pour que deux fréquences soient
perceptuellement discriminées. La puissance perçue par l’oreille dans une bande critique
est égale à la somme de toutes les puissances des composantes dans cette bande de
fréquences. Si cette somme est supérieure au seuil d’audition absolu, le signal compris
dans la bande considérée est audible, sinon il est inaudible. Dans l’échelle des Barks,
un accroissement de 1 Bark correspond à une augmentation en fréquence de 1 bande
critique (tableau 2.2). La relation Bark/Hertz (2.10) est quasi-linéaire jusqu’à 500 Hz ;
su-delà, elle est quasi-logarithmique.
j 2
z(j) = 13 arctan(0.00076.j) + 3.5 arctan[( )] (2.10)
7500
avec j la fréquence en kHz.
Bandes Fréquence(Hz) Bandes Fréquence(Hz)

Critiques Basse Haute Largeur Critiques Basse Haute Largeur
0 0 100 100 13 2000 2320 320
1 100 200 100 14 2320 2700 380
2 200 300 100 15 2700 3150 450
3 300 400 100 16 3150 3700 550
4 400 510 110 17 3700 4400 700
5 510 630 120 18 4400 5300 900
6 630 770 140 19 5300 6400 1100
7 770 920 150 20 6400 7700 1300
8 920 1080 160 21 7700 9500 1800
9 1080 1270 190 22 9500 12000 2500
10 1270 1480 210 23 12000 15500 3500
11 1480 1720 240 24 15500 22050 6550
12 1720 2000 280
Tableau 2.2 — Bandes critiques
L’effet de Masquage : Le cerveau humain n’interprète pas le son de manière objec-

tive. Il existe un phénomène important à considérer : l’effet de masquage. Le masquage
est un phénomène psychoacoustique auquel tout le monde est soumis : un son peut en
cacher un autre partiellement ou entièrement. Le masquage peut intervenir sous deux
formes, fréquentielle et temporelle. Dans le cadre des applications audio, notamment
le débruitage, le phénomène le plus exploité est le masquage fréquentiel (figure 2.7).
Le masquage temporel est quant à lui rarement utilisé car difficile à modéliser et à
exploiter, en plus il est de faible influence par rapport au masquage fréquentiel.
Masquage fréquentiel : L’effet de masquage fréquentiel se produit lorsqu’un son

a un volume plus important qu’un autre. Plutôt que d’entendre parfaitement les deux
sons à des volumes différents, on entend bien le plus fort, mais le plus faible devient
difficile à distinguer car il est masqué par l’autre. Il existe trois types de masquage
fréquentiel [Painter 00] :
TMB (Tonale Masquant un Bruit) : Une tonale au centre d’une bande critique va
masquer tout bruit présent dans la même bande et d’intensité plus faible 2.8 (a).
Le terme SMR (Signal to Mask Ratio) représente la différence de niveau entre le
masquant et le masqué.
BMT (Bruit Masquant une Tonale) : La largeur spectrale du bruit à bande

étroite, présent dans la figure 2.8 (b) est celle d’un bande critique. Il va masquer
toute tonale présente dans la même bande critique dont l’intensité est plus faible
Figure 2.7 — Effet de masquage
que la sienne.
BMB (Bruit Masquant un Bruit) : Le BMB est difficile à modéliser à cause de

l’influence du rapport de phase entre les deux bruits [Painter 00].
Masquage temporel : Les phénomènes de masquage apparaissent dans le domaine

temporel lors de fortes variations du signal, les signaux transitoires créant des zones
de pré- et de post-masquage importantes. Ainsi l’oreille ne perçoit pas les sons faibles
précédant ou suivant immédiatement un son de forte intensité. Le post-masquage ap-
paraı̂t quand l’oreille a été stimulée par un son pur très fort à une certaine fréquence ;
après cessation du son, il y a une perte de sensibilité autour de cette fréquence : environ
10 dB de perte qui disparaissent au bout de quelques centaines de millisecondes. Ceci
traduit la persistance de l’effet masquant d’un son sur un autre. La durée effective
du pré-masquage temporel est brève, de l’ordre de 5 ms, contrairement au masquage
postérieur qui persiste plus de 100 ms (figure 2.9). Le phénomène de masquage temporel
est difficile à modéliser et donc peu utilisé dans les applications audio.
dB
(a)
Tonale masquante
Bruit masqué
Bande critique Freq. (Hz)
(b)
dB
Bruit masquant
Tonale masquée
Bande critique Freq. (Hz)
Figure 2.8 — Masquage fréquentiel : (a) Tonale Masquant un Bruit (b) Bruit Mas-
quant une Tonale
Figure 2.9 — Masquage temporel
Courbe de masquage : C’est la courbe obtenue en enregistrant les pressions acous-

tiques nécessaires pour qu’un son test devienne audible en présence d’un son masquant.
Pour chaque type de masquant, on obtient une courbe de masquage spécifique. Il existe
deux méthodes, très souvent utilisées, de calcul de cette courbe. Elles seront présentées
et comparées dans les sections suivantes.
2.2.2 Modèle de Johnston pour le calcul de la courbe de mas-

quage
Le modèle de Jonhston [Johnston 88] pour le calcul de la courbe de masquage
constitue la base sur laquelle se fondent la majorité des applications visant à modéliser
le phénomène de masquage fréquentiel pour tirer profit de l’aspect perceptuel. Dans
le codage audio, cette courbe indique la quantité maximale du bruit de quantification
inaudible que peut introduire le processus de codage sans affecter la qualité perçue. De
même, en débruitage de la parole, cette courbe indique la quantité maximale de bruit
qui peut affecter la parole sans être audible. Une autre définition consiste à dire que
la courbe de masquage est une variation du seuil d’audition en fonction de la nature
du signal (tonale ou bruit). Les principales étapes de calcul de cette courbe, dans le
domaine spectral, sont les suivantes :
1. Calcul du spectre en Bark (par bande critique).

2. Application de la fonction d’étalement sur le spectre en Bark.
3. Calcul du seuil de masquage global.
4. Comparaison de ce seuil avec le seuil d’audition absolu.
Nous détaillons maintenant ces étapes.
Le spectre en Bark : Soit sk une trame d’indice k du signal de parole dans le

domaine temporel (avec les notations déjà introduites). Le passage dans le domaine
fréquentiel est effectué par la Transformée de Fourier Discrète (TFD).
Sk (ν) = T F D(sk ). (2.11)
Le spectre instantané de puissance Pk (ν) est donné par :
Pk (ν) = Re2 {Sk (ν)} + Im

2
{Sk (ν)} . (2.12)
Pour simuler le fonctionnement de notre oreille, la notion de bande critique est incon-
tournable. Comme définie précédemment, une bande critique est la plage de fréquences
qui doit séparer deux fréquences de même intensité pour qu’elles soient perçues in-
dividuellement. Le spectre en Bark Bi est la sommation de toutes les énergies Pk (ν)
appartenant à la plage de fréquence définissant une bande critique i.
hi
X
Bi = Pk (ν) (2.13)
ν=bi
où bi et hi sont les fréquences basse et haute de la bande critique i.

Application de la fonction d’étalement au spectre en Bark : La fonction

d’étalement (Spreading Function) SF(i, j) est introduite pour modéliser l’étalement de
l’effet de masquage à une bande critique i sur les autres bandes j.
q
SFi,j = 15.81 + 7.5 ((i − j) + 0.474) − 17.5 1 + ((i − j) + 0.474)2 . (2.14)
La convolution de cette fonction avec le spectre en Bark donne lieu au spectre en Bark
étalé Ci .
Ci = Si ∗ Bi . (2.15)
Calcul du seuil de masquage global : D’abord, on part du principe que l’effet

de masquage est supposé linéaire, d’où l’obtention du seuil global par addition de
tous les seuils individuels (issus de tonales ou de bruit). Ensuite, il est à signaler que
l’effet de masquage dépend de la nature spectrale du signal. En effet, une tonale et
un bruit ont des capacités de masquage différentes (le bruit est le meilleur masquant).
Par conséquent, la distinction entre eux donne lieu à deux types de seuils de masquage :
Tonale Masquant Bruit(TMB) : estimé à (14.5 + i) dB au dessous de Ci .

Bruit Masquant Tonale(BMT) : estimé à 5.5 dB au dessous de Ci.
Pour décider entre ces deux seuils, on a recours à la mesure de la platitude du spectre
qui est définie par le rapport entre la moyenne géométrique et la moyenne arithmétique
du spectre en Bark du signal sur l’ensemble des bandes critiques N :

Gm
SFMdB = 10 log10 (2.16)
Am
Q PN
où Gm = N i=1 Bi et Am = N
1
i=1 Bi . Quand la mesure de la platitude du spectre
SFMdB est grande, le spectre est de puissance à peu près constante sur toutes les
fréquences (similarité avec le bruit blanc). Le spectre est dit dans ce cas plat ou lissé.
A l’inverse, quand la mesure SFMdB est petite, la puissance est relativement concentrée
dans des petites bandes de fréquences (similarité avec un mélange de sinusoı̈des). Le
spectre est ainsi hérissé.
Cette mesure nous permet donc de classer les signaux en signal tonal ou bruit
suivant un calcul de l’indice de tonalité α,

SFMdB
α = min ,1 . (2.17)
SFMdBmax
où SFMdBmax = −60 dB [Johnston 88], indique que le signal est d’une nature très
tonale et 0 ≤ α ≤ 1.
L’indice de tonalité est donc une mesure permettant de montrer si certaines tonales
ressortent du signal. En effet, plus le coefficient de tonalité est proche de 0, plus le
signal est assimilé à du bruit. A l’inverse, plus le coefficient de tonalité est proche de
1, plus le signal est à composantes tonales majoritaires.
– Si SFMdB = 0, alors α = 0. Il s’agit d’un bruit.
– Si SFMdB = −60 dB, alors α = 1. Il s’agit d’un signal de nature tonale.
L’indice de tonalité est une mesure qui peut être utilisée comme un détecteur d’ac-
tivité vocale ou plutôt, comme un classificateur parole/bruit dont les performances
sont satisfaisantes par rapport à des classificateurs à base d’entropie ou employant
la variance de l’énergie normalisée. Ceci a été montré dans un travail [Manohar 06]
comparant les trois types de détecteurs parole/bruit pour des fins de débruitage de la
parole dans des environnements à bruits non-stationnaires.
L’indice α est alors utilisé pour introduire les deux seuils TMB et BMT via le seuil
de correction Oi ci dessous :
Oi (dB) = α (14.5 + i) + 5.5 (1 − α) . (2.18)
Ensuite, on soustrait Oi du spectre en Bark étalé Ci (exprimé en décibel) pour aboutir

au seuil de masquage global Ti .
Oi
Ti = 1010 log10 (Ci )−( 10 ) . (2.19)
Comparaison avec le seuil d’audition absolu : L’étape finale consiste à com-

parer le seuil de masquage Ti avec le seuil d’audition absolu Ui . Dans chaque bande
critique i, les composantes au-dessous du seuil d’audition absolu sont substituées par
ce dernier ; on considère ainsi la valeur maximale Eq. (2.20) :
Ti = max{Ti , Ui }. (2.20)
2.2.3 Modèle ISO/MPEG-1 pour le calcul de la courbe de

masquage
Le modèle psychoacoustique de la couche 1 de la norme MPEG-1(ISO/IEC 11172-3)
est aussi conçu initialement pour déterminer la quantité maximale de bruit de quanti-
fication inaudible que peut introduire le processus de codage audio.
Les étapes clés du calcul de la courbe de masquage selon ce standard (initialement
détaillées dans [Painter 00]) sont brièvement résumées dans cette sous-section. Les prin-
cipales étapes du calcul de cette courbe sont illustrées à l’aide de figures produites à
partir d’une même trame d’un signal de référence. Après segmentation en trames d’in-
dice k et d’échantillons ν = 0, 1, . . . , N − 1, la première étape consiste à normaliser
le signal de parole Eq. (2.21) et à calculer le spectre de puissance du signal normalisé
Pk (ν) en l’exprimant en dB Eq. (2.22) :
sk (t)
xk (t) = (2.21)
2b−1 N
où N est la taille de la TFD et b est le nombre de bits par échantillon ;
N
X −1
2πνt
Pk (ν) = PN + 10 log10 | w(t)xk (t)e−i( N
)
|2 (2.22)
t=0

où PN = 90, 302 dB est le terme de normalisation en dB et w(t) = 0.5 1 − cos( 2πt
N
)
est la fenêtre de Hanning.
Identification des composantes tonales et non tonales : Les composantes

tonales sont définies comme les maximums locaux du spectre de puissance Pk (ν) (Fig.
2.10). En effet, la composante Pk (ν) est une tonale si elle est supérieure à ses voisines
immédiates (ν ± 1) (maximum local) et si elle est supérieure de 7 dB par rapport à
ses autres voisines écartées d’elle avec une distance ∆ν . L’ensemble ST des maximums
locaux est ainsi défini par :

ST = Pk (ν) : Pk (ν) > Pk (ν ± 1) et Pk (ν) > Pk (ν ± ∆ν ) + 7dB} (2.23)
avec 
 2 2 < ν < 63 (0, 17 − 5, 5kHz)
∆ν ∈ [2, 3] 63 ≤ ν < 127 (5, 5 − 11kHz) (2.24)

[2, 6] 127 ≤ ν ≥ 256 (11 − 20kHz).
Maximums locaux
100
90
80
70
60
dB
50
40
30
20
10
0
0 50 100 150 200 250
Fréquence (Hz)
Figure 2.10 — Maximums locaux
Pour chaque pic appartenant à l’ensemble ST , on combine les trois composantes

spectrales adjacentes pour former une seule tonale masquant PT M (ν) .
1
X
PT M (ν) = 10 log10 100.1Pk (ν+j) . (2.25)
j=−1
Une fois les tonales déterminées, les composantes non tonales ou le bruit masquant
PBM (ν) sont identifiés par bande critique. Ils font partie des composantes spectrales
Pk (ν) qui n’appartiennent pas au voisinage ±∆ν des tonales. Le principe repose sur le
fait qu’une énergie de la bande critique qui n’est pas associée à une tonale masquante
est, par défaut, considérée comme un bruit masquant (Fig. 2.11).

hi
!1/(bi −hi +1)
X Y
0.1Pk (j)
PBM (ν) = 10 log10 10 avec ν = j (2.26)
j j=bi
où les Pk (j) sont différentes des PT M (ν, ν ± 1, ν ± ∆ν ), ν est la moyenne géométrique
des fréquences d’une bande critique (Eq. (2.26)) et bi et hi sont respectivement la
fréquence la plus basse et la fréquence la plus haute de chaque bande critique. À partir
de l’équation (2.26), on obtient ainsi une seule composante de bruit masquant qui
associe toutes les énergies des composantes spectrales d’une bande critique n’ayant pas
donné lieu à une composante tonale.
Composantes Tonales et non−Tonales
100
90
80
70
60
dB
50
40
30
20 Tonales
non−Tonales
10
0
0 50 100 150 200 250
Fréquence (Hz)
Figure 2.11 — Composantes tonales et non tonales
Décimation des masquants : Pendant cette étape, le nombre de masquants

définis par les deux équations (2.26) et (2.25) est réduit selon deux critères :
– Les tonales et les bruits masquants qui se situent au-dessous du seuil d’audition
absolu Ta (ν) sont éliminés. On retient seulement les masquants vérifiant
PT M , PBM (ν) ≥ Ta (ν). (2.27)
– Si deux masquants sont très proches (moins d’1/2 Bark), on ne retient que le
masquant le plus puissant.
Seuils de masquage individuels : Un masquant relève le seuil d’audibilité au

voisinage de sa fréquence centrale j. Il masque ainsi les sons d’intensité plus faible, situés
à des fréquences i adjacentes. C’est l’étalement de l’effet de masquage. L’expression du
seuil de masquage issu d’une tonale masquante à une fréquence j est donnée par :
TT M (i, j) = PT M (j) + E(i, j) − 0.275z(j) − 6.025 (2.28)
où z(j) est la fréquence en Bark et j la fréquence en Hz. Le terme E(i, j) exprime
l’étalement de l’effet de masquage de la fréquence j sur la fréquence i.


 17∆z − 0.4PT M (j) + 11, −3 ≤ ∆z < −1

(0.4PT M (j) + 6)∆z , −1 ≤ ∆z < 0
E(i, j) = (2.29)

 −17∆z , 0 ≤ ∆z < 1

(0.15PT M (j) − 17)∆z − 0.15PT M (j), −1 ≤ ∆z < 8
avec ∆z = z(i) − z(j).
En ce qui concerne les bruits masquants, le seuil individuel est exprimé ainsi :
TBM (i, j) = PBM (j) + SF (i, j) − 0.175z(j) − 2.025 (2.30)
où SF (i, j) a la même expression que (2.29) en remplaçant juste PT M (j) par PBM (j).
Seuil de masquage global : À cette étape, on additionne les seuils de masquage

individuels pour former un seuil de masquage global pour chaque canal de fréquence i.
L M
!
X X
T (i) = 10 log10 100.1Ta (i) + 100.1TT M (i,l) + 100.1TBM (i,m) (2.31)
l=1 m=1
où L et M sont respectivement le nombre de tonales et de bruits masquants identifiés

dans les étapes précédentes. Il est à noter que le seuil d’audition absolu Ta à la fréquence
i intervient dans cette équation.
Seuil de masquage global

90
85
80
75
70
dB
65
60
55
50
45
40
0 50 100 150 200 250
Fréquence (Hz)
Figure 2.12 — Seuil de masquage global

Section 2.3 : Conclusion 23
2.2.4 Choix du modèle

En passant en revue les différentes étapes de construction de la courbe de mas-
quage selon les deux modèles MPEG et Johnston, on s’aperçoit qu’il existe certaines
différences de calcul qui sont largement liées au caractère tonal et non tonal du signal.
Quand il s’agit du calcul du seuil de correction Oi où interviennent les seuils in-
dividuels traduisant les deux types de masquage TMB et BMT, les deux modèles se
distinguent. Dans le modèle de Johnston, on soustrait (14.5 + i) (Eq. 2.18) de l’énergie
du masquant de type tonal alors que dans le modèle MPEG on extrait plutôt une va-
leur de 0.275i + 6.025 (Eq. 2.28). De même, pour un masquant de type bruit dans le
premier modèle, on extrait une valeur constante de l’ordre de 5.5 (Eq. 2.18), alors que,
dans le modèle MPEG, on extrait une valeur dépendant de la bande critique et qui est
de l’ordre de 0.175i + 2.025 (Eq. 2.30).
L’indice de tonalité dans le modèle de Johnston (Eq. 2.17) est global puisqu’il est
constant pour toute la trame alors que, dans le modèle MPEG, l’identification des
composantes tonales et non tonales est un processus sélectif en fréquence (Eq. 2.23) et
(Eq. 2.24).
L’étalement de l’effet de masquage dans le modèle de Johnston dépend uniquement
de la bande critique (Eq. 2.16) alors que, dans le modèle MPEG, il dépend, en plus
de la bande critique, de la nature du masquant, tonale ou bruit (Eq. 2.29). De par ces
différences, le modèle MPEG est plus précis certes, mais aussi plus complexe en terme
de calculs (il introduit plus de détails et de paramètres) que le modèle de Johnston.
Dans [Beaugeant 98] et [Faucheur 07], un modèle hybride est proposé qui profite de la
simplicité du second modèle et de la précision du premier dans le but de concevoir un
modèle plus performant. Dans le cadre de cette thèse, pour les raisons citées au dessus
et comme dans plusieurs travaux, même récents, le choix s’est porté plutôt sur le modèle
de Johnston qui reste simple, moins coûteux et suffisant pour nos applications.
2.3 Conclusion
Du fait que notre environnement est bruyant, la parole et le bruit sont donc deux
signaux qui coı̈ncident souvent. Dans ce chapitre, les propriétés et caractéristiques de
chacun d’eux ont été rappelées afin de mieux les traiter dans le cadre de cette thèse.
On a aussi défini et décrit le comportement du bruit musical. A cet effet, plus de détails
seront donnés ultérieurement pour décrire les méthodes de débruitage dont l’objectif
est de réduire ce type de bruit perceptuellement très gênant. En parlant de perception
de la parole, on a présenté quelques définitions de psychoacoustique indispensables pour
mieux comprendre le débruitage employant des notions perceptuelles. Le phénomène de
masquage est le point clé dans ce type d’approches. Pour modéliser ce phénomène, on
cherche à calculer une courbe de masquage correspondant à chaque signal en question.
Les deux modèles de calcul de la courbe de masquage présentés sont tous les deux
intéressants, mais présentent des différences surtout du point de vue coût de calcul. Le
choix entre les deux dépend surtout de l’application. Par exemple, si l’on procède à une
analyse faisant la distinction entre tonale et non tonale, il est plus intéressant d’utiliser
le modèle MPEG [Aicha 06]. Dans le cadre de cette thèse, on a utilisé le modèle de
Johnston qui présente une simplicité de calcul tout en donnant lieu à une courbe de
masquage aussi précise que celle de MPEG.
3
CHAPITRE
Évaluation de la qualité
et de l’intelligibilité de
la parole
L’évaluation subjective de la qualité de la parole est une étape indispensable dans

tout processus de traitement, automatisé ou non. Elle permet de tenir compte du
jugement humain à travers des essais d’écoute de laboratoire par plusieurs auditeurs.
Des méthodes statistiques sont ensuite mises en œuvre pour classer les différentes
opinions avec un intervalle de confiance de largeur minimale. L’évaluation de la qualité
subjective est coûteuse en termes de temps et de ressources. Cette difficulté a donné lieu
au développement d’autres métriques objectives de qualité qui, bien que moins précises,
sont beaucoup plus pratiques et moins coûteuses. La corrélation entre les mesures
objectives et les mesures subjectives est utilisée comme un critère de performance de
ces nouvelles métriques. Plus le critère objectif est corrélé avec les mesures subjectives,
plus il constitue une bonne mesure pouvant, plus ou moins, remplacer le jugement
humain.
Dans de ce chapitre, on fera donc le point sur les caractéristiques et les inconvénients
des tests subjectifs et objectifs afin de pouvoir justifier nos choix par la suite.
3.1 Qualité et intelligibilité de la parole

L’intelligibilité de la parole correspond à la capacité de comprendre un mes-
sage linguistique contenu dans un signal de parole [Virole 01]. L’intelligibilité est donc
une mesure objective définie par le nombre de mots prononcés correctement identifiés
[Hu 07] par l’auditeur. Chaque mesure d’intelligibilité est une interaction entre le locu-
teur, l’environnement de transmission et l’auditeur. Le meilleur moyen de juger l’intel-
ligibilité est d’effectuer des tests d’écoute avec des sujets, dont la capacité d’écoute est
normale, en utilisant par exemple la méthode du test de rime DRT (Diagnostic Rhyme
Test)[Bunieti 97] ; celui-ci permet d’évaluer la transparence du message reçu à travers
une mesure du degré de dégradation des caractéristiques élémentaires des consonnes
lorsque celles-ci se trouvent au début de mots [Bunieti 97], [Quackenbush 88]. Une ver-
sion plus générale du test DRT a permis de tester tout aussi bien les voyelles que les
consonnes et ce quelle que soit leur position dans un mot [Fairbanks 58]. Il existe ce-
CHAPITRE 3 :
26 Évaluation de la qualité et de l’intelligibilité de la parole
pendant des moyens objectifs qui permettent d’estimer l’intelligibilité de la parole et

qui sont largement utilisés dans la littérature, à savoir le test STI (Speech Transmission
Index) [IEC-Standard.60268-16 98], le test SII (Speech Intelligibility Index) [ANSI 89]
et le test AI (Articulation Index) [S3.5 69].
La qualité d’un signal de parole permet de prendre en compte la présence d’agents
extérieurs “perturbateurs” (environnement bruyant, distorsions,. . . ). La clarté du mes-
sage peut en effet être affectée par ce bruit environnemental, ce qui nuit au confort
d’écoute. C’est donc une mesure subjective liée à l’aspect agréable de l’écoute du si-
gnal de parole par l’auditeur. Cependant, même après le débruitage, la qualité de la
parole n’est pas totalement restituée ; elle est même parfois encore plus dégradée. Les
éléments fondamentaux qui influent sur la qualité de la parole après débruitage sont les
distorsions du signal et le bruit résiduel communément appelé bruit musical. Les tests
de jugement de la qualité par des auditeurs sont les seuls moyens d’évaluation valables
et sûrs d’un système de débruitage de la parole. Mais comme pour l’intelligibilité, il
existe des critères objectifs d’évaluation de la qualité tels que le PESQ, MBSD, etc. Ces
critères ont un caractère perceptuel justement parce qu’ils sont fondés sur des notions
psychoacoustiques pour simuler notre perception vis-à-vis du signal de parole. Plus de
détails sur ces différents critères feront partie des sections à venir.
Pour conclure, l’intelligibilité est donc une notion à ne pas confondre avec la qualité
de la parole. Une amélioration de la qualité de la parole n’implique pas une amélioration
en terme d’intelligibilité. Dans les environnements bruyants, améliorer l’intelligibilité
de la parole s’avère une tâche plus difficile qu’améliorer la qualité de la parole.
3.2 Critères subjectifs

Les mesures de qualité subjective les plus fréquemment utilisées sont le MOS (Mean
Opinion Score), le DMOS (Degradation Mean Opinion Score) et le CMOS (Comparison
Mean Opinion Score) [Keagy 00].
Le MOS est le résultat de l’analyse par catégories absolues ACR (Absolute Category
Rating) dans laquelle un groupe d’auditeurs écoute un ensemble de fichiers audio et les
évalue indépendamment, un à un, selon une échelle de notation sur la qualité perçue
(tableau 3.1). Le CMOS est le résultat de l’analyse par catégories de comparaisons
CCR (Comparison Category Rating) dans laquelle on fournit à un groupe d’auditeurs
des signaux par paires. L’auditeur compare les deux signaux de chaque paire en terme
de qualité en précisant lequel est le meilleur et évalue la différence selon une échelle de
notation bien définie (tableau 3.2).
Quant au DMOS, il résulte de l’analyse par catégories de dégradations DCR (Degra-
dation Category Rating) dans laquelle on fournit à un groupe d’auditeurs des paires de
signaux pour comparer cette fois-ci la qualité en terme de dégradation. Contrairement
au CMOS, les auditeurs savent a priori que la qualité du second signal est moins bonne
que celle du premier. Ils doivent donc indiquer à quel point le second est justement
moins bon suivant l’échelle de DMOS (tableau 3.3).
D’une manière générale, lors de ces trois types de tests, les plus communément
Section 3.2 : Critères subjectifs 27
utilisés surtout pour évaluer les codeurs de parole, la qualité du signal de parole dépend
de la personne qui la juge et l’évalue. Sa façon de percevoir met en jeu l’expérience
passée, l’environnement dans lequel elle s’est déroulée, son humeur et ses attentes.
Ainsi, afin de diminuer l’effet subjectif sur l’évaluation de la qualité vocale, les notes
des participants pour une condition de test donnée sont moyennées pour obtenir la
note moyenne d’opinion.
Dans ce qui suit et comme il est d’usage, on désigne par MOS, comme terme général,
les trois tests subjectifs déjà définis sauf précision. Par définition donc, le MOS est un
sondage auprès d’un échantillon de personnes représentatives du reste de la population.
Lors de ce sondage, les auditeurs sont invités à écouter et à juger. Le jugement se fait
à travers l’attribution d’une note sanctionnant la qualité perçue du signal de parole
qu’ils ont écouté. La moyenne des notes attribuées constitue donc le MOS. L’avantage
du MOS est qu’il quantifie la qualité perçue par les auditeurs participant aux tests.
C’est donc une évaluation réelle, fiable et correcte de la qualité des signaux mis en jeu.
Cependant, ce test est souvent écarté du fait qu’il requiert :
• Un grand nombre d’auditeurs
• Un équipement audio adapté
• Une formation des auditeurs à la bonne façon d’attribuer des notes pour que celles-ci
soient exploitables
• Une collecte d’informations et des traitements statistiques pour réduire l’aléa.
En outre, le MOS n’est pas standardisé et le processus de test ne peut pas être
complètement automatisé.
Score MOS Qualité MOS

5 Excellent
4 Bon
3 Passable
2 Mauvais
1 Médiocre
Tableau 3.1 — Échelle MOS
Score CMOS Qualité du second comparé au premier

3 Bien meilleure
2 Meilleure
1 Légèrement meilleure
0 A peu près équivalente
-1 Un peu moins bonne
-2 Moins bonne
-3 Nettement médiocre
Tableau 3.2 — Échelle CMOS

CHAPITRE 3 :
Score MOS Qualité MOS

5 Dépourvu de dégradation
4 Dégradation audible mais pas gênante
3 Dégradation un peu gênante
2 Dégradation gênante
1 Dégradation très gênante
Tableau 3.3 — Échelle DMOS
3.2.1 Analyse et présentation des résultats

Dans la recommandation UIT-T P.835 [P.835 03] dédiée aux algorithmes de sup-
pression de bruit, la distinction est faite entre qualité de la parole et qualité du bruit
de fond avant d’attribuer une dernière note à la qualité globale (Annexe A). Les au-
diteurs sont alors invités à donner trois notes pour chaque séquence de test. Celle-ci
est composée de trois phrases séparées par des phases de silence de durées suffisantes
pour permettre à l’auditeur d’attribuer une note. Pour l’évaluation du signal vocal,
l’auditeur se concentre uniquement sur le signal vocal. Pour l’évaluation du bruit de
fond, il se concentre uniquement sur le bruit de fond. Pour l’évaluation de la qualité
globale, il donne ses appréciations en fonction du tout. Seules les notes relatives au
critère de qualité globale seront utilisées pour l’évaluation finale. Les autres critères
vont juste permettre d’analyser la façon d’attribuer les notes par les auditeurs et de
vérifier la cohérence. Il est à signaler aussi qu’avant le calcul de la moyenne des notes
sur l’ensemble des sujets (auditeurs), une étude des notes individuelles est indispen-
sable afin d’écarter les sujets dont les notes sont aberrantes, d’où la question suivante :
quel critère utiliser pour décider qu’un résultat est aberrant ?
Soient uijk la note d’évaluation de l’échantillon k par l’observateur i dans la condi-
tion de test j et N le nombre d’observateurs. La quantité uijk présente des variations
dûes aux différences dans le jugement entre les N sujets. La moyenne des notes ou le
MOS est le premier calcul à effectuer pour analyser les résultats du test subjectif :
N
1 X
Ūjk = uijk . (3.1)
N i=1
Pour évaluer la fiabilité des résultats, on associe à chaque MOS un intervalle de

confiance à 95% des notes moyennes de chaque échantillon. Cet intervalle, calculé à
partir de l’écart type empirique δjk et de la note moyenne Ūjk , est donné par :
[Ūjk − ∆jk , Ūjk + ∆jk ] (3.2)
où v
u N
δjk uX (uijk − Ūjk )2
∆jk = 1.96 √ et δjk =t .
N i=1
(N − 1)
Selon la norme ITU-R 500-10 [ITU-R.500-10 02], il est possible de rejeter un

observateur qui n’a pas fait le test correctement (faute d’attention, de mauvaise
compréhension,. . . ). Le critère est basé sur le calcul du kurtosis qui permet d’éliminer
les notes non cohérentes. On définit pour cette raison les paramètres suivants : β2jk ,
m4 et m2 , qui sont le kurtosis et les moments empiriques d’ordre 4 et 2 tels que :
m4
PN
β2jk = (m2 )2
et mℓ = i=1 (uijk − Ūjk )ℓ , ℓ = 2, 4.
Selon cette recommandation, si 2 ≤ β2jk ≤ 4, la distribution des notes par présentation
est considérée comme normale. On calcule ainsi Li et Ri , deux compteurs associés à l’
observateur i, le test j et l’échantillon k tel que,
Li = Ri = 0 ;
Pour j = 1, 2, . . . , J et k = 1, 2, . . . , K
Si 2 ≤ β2jk ≤ 4, alors :
Si uijk ≥ Ūjk + 2δjk , alors Ri = Ri + 1
Si uijk ≤ Ūjk − 2δjk , alors Li = Li + 1
Sinon √
Si uijk ≥ Ūjk + 20δjk , alors Ri = Ri + 1
√
Si uijk ≤ Ūjk − 20δjk , alors Li = Li + 1
FinSi
FinPour.
où J et K sont respectivement le nombre total de conditions de tests et le nombre
total d’échantillons. À partir de Li et Ri , les relations suivantes permettent de rejeter
l’auditeur dont les résultats sont aberrants où J × K est le nombre total de notes
Li +Ri Li −Ri
attribuées par chaque utilisateur. Alors, si J×K > 0.05 et Li +Ri < 0.3, les notes du
Li +Ri
sujet i doivent être supprimées. A signaler que le rapport prend en compte les
J×K
Li −Ri
écarts importants par rapport à la moyenne et le rapport Li +Ri modélise les écarts
autour de la moyenne. Après l’élimination des sujets dont les notes ne pourraient pas
conduire à des estimations cohérentes, on passe à une analyse statistique plus poussée
des résultats et qui s’avère indispensable pour une présentation plus significative des
notes MOS. Cette analyse statistique est effectuée par le test de Student t-test et
l’analyse de la variance ANOVA. On présente les deux dans la section suivante.
3.2.2 Analyse statistique par t-test et ANOVA

Le but de l’analyse statistique, postérieure aux tests subjectifs, est de pouvoir tirer
des conclusions ayant une signification statistique. L’hypothèse de départ est que les
notes sont conçues à partir de distributions gaussiennes de moyennes différentes ν1 et
ν2 et de variances identiques. Pour étudier la validité de cette hypothèse, on définit les
deux hypothèses de test suivantes :
H0 : ν1 = ν2
H1 : ν1 6= ν2 .
Et la question qui se pose est : va-t-on accepter ou rejeter l’hypothèse H0 ? Pour
tester les deux hypothèses, on fait appel au test statistique t désigné souvent dans la
littérature par le terme t-test.
CHAPITRE 3 :
t-test ou test de Student : C’est un test paramétrique qui repose sur des com-
paraisons de moyennes issues de deux échantillons indépendants (deux algorithmes de
test ou deux groupes par exemple). Il s’applique à tout test statistique dont la dis-
tribution est de type Student quand l’hypothèse nulle est vraie. Une variable T suit
une distribution de Student ou une loi de Student si elle est définie par le quotient
entre une variable aléatoire Z centrée et réduite et une variable U indépendante de Z
et distribuée suivant la loi du χ2 , tel que
Z
T =p (3.3)
U/k
k est le degré de liberté de la loi de Student. Le t-test est calculé ainsi,

ν1 − ν2
t= (3.4)
sν1 −ν2
avec s
s21 s2
sν1 −ν2 = + 2
n1 n2
où s2i et ni sont respectivement la variance et le nombre d’échantillons (nombre de
participants par groupe) du groupe i et t est la valeur critique du test de Student.
La valeur de t est, physiquement, un rapport entre la différence des moyennes
des groupes (numérateur) et la dispersion ou la variabilité des notes entre groupes
(dénominateur). A partir de la valeur de t, on décide de retenir ou de rejeter l’hy-
pothèse H0 , mais, avant, on se fixe un certain seuil de confiance α qui est la probabilité
de rejeter l’hypothèse H0 alors qu’elle est vraie. On choisit souvent α = 0.05. Autre-
ment dit, avec cette valeur de α, on rejette correctement H0 avec une probabilité de
0.95. On détermine aussi le degré de liberté qui est égal à (n1 + n2 − 2). Donc, suivant
la valeur de α et le degré de liberté, on obtient une certaine valeur critique issue de
la table de la loi de Student (Annexe D). Si la valeur de t qu’on vient de calculer est
supérieure à cette valeur critique, on rejette H0 et on considère que les moyennes des
deux échantillons sont différentes.
Dans le cas où on veut comparer plus de deux groupes, il devient nécessaire d’utiliser
une ANOVA adaptée, contrairement à l’idée intuitive consistant à mettre en place
plusieurs t-tests. L’inconvénient de procéder ainsi est d’augmenter la probabilité de
rejeter par erreur au moins une hypothèse H0 au fur et à mesure que le nombre de
t-tests augmente [Loizou 07].
ANOVA : L’analyse de variance ANOVA est une généralisation du t-test à plus de

deux groupes. Les deux hypothèses de tests sont alors :
H0 : ν1 = ν2 = ... = νM
H1 : Au moins une seule moyenne diffère des autres.
On compare la variance inter-groupe à la variance intra-groupe. La variance intra-

groupe est la variance à l’intérieur de chaque groupe et la variance inter-groupe reflète
les variances entre groupes. Techniquement, l’ANOVA est un test unilatéral ; on cherche
seulement à savoir si la variance inter-groupe est plus grande que la variance intra-
groupe en calculant la statistique de Fisher :
variance inter-groupe
F = . (3.5)
variance intra-groupe
Cette statistique a une distribution F de degré de liberté (dl1 , dl2 ) tel que dl1 = M − 1
et dl2 = M(n − 1), avec M le nombre de populations ou de groupes et n est le nombre
d’échantillons par groupe. La valeur critique du test de statistique F issue de la table de
Fisher (Annexe D) dépend des degrés de liberté dl1 et dl2 ainsi que du paramètre α. On
compare cette valeur critique avec la valeur expérimentale obtenue par l’équation (3.5).
Si la valeur expérimentale est supérieure à la valeur critique, on rejette l’hypothèse H0
tout en concluant qu’au moins une des moyennes νi diffère des autres. Dans le cas
contraire, on accepte l’hypothèse H0 et on conclut que les moyennes de toutes les
populations sont égales.
Soit l’exemple suivant où on essaie de voir si trois machines (M = 3) ont un rende-
ment différent. On attribue 5 ouvriers (n = 5) par machine et on se fixe α = 0.05. Un
calcul d’ANOVA (sous Matlab) sur les rendements illustrés par le tableau 3.4 donne
lieu au résultat donné par la figure (3.1). Pour l’exemple précédent, on aboutit à une
Machine 1 Machine 2 Machine 3

25.4000 23.4000 20.0000
26.3100 21.8000 22.2000
24.1000 23.5000 19.7500
23.7400 22.7500 20.6000
25.1000 21.6000 20.4000
Tableau 3.4 — Exemple : Rendement de machines
26
25
24
Values
23
22
21
20
1 2 3
Column Number
Figure 3.1 — Résultats d’ANOVA correspondant à l’exemple du rendement de trois

machines à cinq ouvriers chacune
valeur de F supérieure à la valeur critique issue de la table de la loi de Fisher (Annexe

CHAPITRE 3 :
D) et ce pour une valeur de α = 0.05. La décision prise est donc de rejeter l’hypothèse
H0 ce qui signifie qu’au moins une des moyennes νi diffère des autres.
Si l’hypothèse d’égalité des moyennes est rejetée, ANOVA ne fournit pas d’analyse
des raisons de ce rejet. La statistique a été amenée à développer un grand nombre
de tests consécutifs à une ANOVA ayant rejeté l’hypothèse nulle. Ils sont destinés à
analyser les raisons ayant induit ce rejet. Ces tests sont qualifiés de a posteriori ou post
hoc. Le test post hoc le plus connu est appelé LSD (Least Significant Difference), plus
de détails sur ce test sont donnés dans [Loizou 07].
3.3 Critères objectifs
Les mesures objectives de qualité des signaux vocaux les plus communément uti-
lisées sont citées et classées dans le tableau 3.5.
Mesures dans le domaine Mesures dans le domaine Mesures dans le domaine

temporel fréquentiel perceptuel
SNR IS BSD, MBSD
segSNR CD PSQM
WSS PESQ
LLR
Tableau 3.5 — Classification des critères d’évaluation objective les plus com-
munément utilisés
Les critères temporels et fréquentiels se basent essentiellement sur l’évaluation de

la qualité en terme de comparaison de distorsion de formes entre signal de référence
et signal débruité, sans tenir compte de l’aspect perceptif. Certes, c’est une condition
nécessaire mais non suffisante dans la mesure où deux signaux pratiquement de même
forme peuvent être perçus différemment [Wang 92], d’où l’intérêt d’introduire le fac-
teur psychoacoustique pour tout système ayant pour objectif de conserver la qualité
de la parole. Diverses mesures objectives perceptuelles sont élaborées conduisant à de
bonnes corrélations avec la perception humaine. Elles sont essentiellement dédiées au
codage de la parole, mais trouvent leur application en débruitage de la parole([Hu 04],
[Ma 04], [Hu 07],. . . ). À part le fait qu’elles donnent une meilleure corrélation avec la
qualité vocale, leur application en débruitage n’a pas été justifiée jusqu’à présent. En
guise d’illustration, citons la mesure de la qualité de la parole perçue (PSQM) (Per-
ceptual Speech Quality Measure) [P.861 98] et sa version améliorée PESQ(Perceptual
Evaluation of Speech Quality) [P862 00],le BSD (Bark Spectral Distortion)[Wang 92]
et sa version améliorée, MBSD (Modified Bark Spectral Distortion) [Yang 97]. Dans
la suite, nous donnons, à titre d’exemple, plus de détails sur ces différentes mesures.
Il en existe évidemment d’autres, comme le WSS et le LLR qui sont bien décrits dans
[Loizou 07].
Section 3.3 : Critères objectifs 33
3.3.1 SNR segmental (segSNR)

Le SNR (Signal to Noise Ratio) segmental segSNR est la mesure de qualité objective
la plus utilisée dans le domaine temporel. Il définit la moyenne des SNRs issus de
plusieurs segments de courte durée (15 à 20 ms) :
M −1 PmN +N −1 2
10 X s (i)
SNRseg = log10 PmN +Ni=mN
−1
(3.6)
M m=0 i=mN (s(i) − ŝ(i)))2
où s(i), ŝ(i), N et M sont respectivement le signal de référence, le signal débruité, la

longueur d’un segment et le nombre total de segments.
Le SNR segmental souffre de deux limitations : d’abord si le signal de parole contient
des segments de silence, ce qui est très probable, le s(i) sera nul et n’importe quelle
quantité de bruit entraı̂nera un SNR en dB négatif pour ce segment ; du coup le SNR
total sera biaisé par cette quantité. Ce problème peut être résolu partiellement en
choisissant un seuil d’énergie au delà duquel le SNR segmental sera calculé. Ensuite, il
faut nécessairement que les deux signaux comparés soient alignés temporellement car
ce critère est très sensible aux déphasages.
3.3.2 Mesure d’Itakura Saito

La mesure d’Itakura Saito repose sur l’analyse LPC. Son expression fait intervenir
le modèle tout pôle du signal de référence s et celui du signal testé y. Soient P (ω),
P̂ (ω) les densités spectrales de puissance du modèle AR du signal de référence et du
signal de test. La distance d’Itakura Saito est donnée par :
Z π" #
1 P (ω) P (ω)
dIS (P (ω), P̂ (ω)) = − log − 1 dω (3.7)
2π −π P̂ (ω) P̂ (ω)
3.3.3 Distance cepstrale

La distance cepstrale est principalement utile pour représenter la distribution de
l’erreur au cours du temps. Les coefficients cepstraux c(i) peuvent être caluclués à partir
des coefficients de prédiction linéaire a(i) à l’aide de la relation suivante [Tohkura 87] :
c(1) = −a(1) (3.8)

i−1
X
k
c(i) = −a(i) − 1− c(i − k)a(k), 1 ≤ i ≤ p. (3.9)
k=1
i
Considérons les coefficients cepstraux ct (i) et cr (i) calculés respectivement sur les
trames d’indice i du signal-test à évaluer et de la référence. La distance cepstrale d’ordre
2 entre ces deux signaux est donnée par [Kobatake 94] :
p
X
dcep = (ct (i) − cr (i))2 (3.10)
i=1
CHAPITRE 3 :
où p est l’ordre des coefficients LPC. Suite à cette écriture, la distance cepstrale
est tout simplement la distance euclidienne entre les coefficients cepstraux générés
récursivement à partir de l’analyse LPC.
3.3.4 BSD et MBSD

La mesure BSD (Bark Spectral Distortion) [Wang 92] est parmi les premiers critères
à avoir incorporé des notions en relation avec notre système d’audition dans l’évaluation
de la qualité de la parole [Wang 97]. Le BSD a pour objectif de mesurer la distorsion
entre le signal de référence et celui codé, dans le domaine de Bark. La sensation de
force sonore connue sous le nom de sonie est mise en jeu pour calculer cette distorsion.
En effet, la distorsion totale est la moyenne de la distance euclidienne entre la sonie du
signal de référence et celle du signal débruité.
Le MBSD (Modified Bark Spectral Distortion) [Yang 99] introduit le seuil de mas-
quage du bruit pour calculer la distorsion dans le BSD ; l’idée est de ne tenir compte que
de la distorsion audible. Effectivement, tout ce qui est au-dessous du seuil de masquage
du bruit est imperceptible à l’oreille humaine. Par conséquent, la distorsion totale est
la moyenne de la différence entre les sonies du signal de référence et du signal débruité
pondérée par un paramètre s’annulant lorsque la distorsion est inaudible.
3.3.5 PSQM
Le PSQM (Perceptual Speech Quality Measure) est une version typique aux signaux
de parole décrite par la norme P.861 [P.861 98]. Elle constitue donc un cas particulier du
critère PAQM (Perceptual Audio Quality Measure) [Beerendes 92] dédié aux signaux
audio en général. L’intérêt de concevoir une mesure uniquement pour la parole revient
aux différences de caractéristiques existant entre la parole et la musique. Le PSQM
exploite à son tour les propriétés de la perception auditive humaine pour évaluer la
qualité de la parole. La moyenne de la différence en sonie, désignée dans la norme par
le terme bruit perturbateur, constitue la note PSQM attribuée à la qualité du signal
codé.
3.3.6 PESQ
Le PESQ (Perceptual Evaluation of Speech Quality) est l’évaluation de la qualité
vocale perçue désignée dans la norme P.862 [P862 00] comme moyen adapté aux codecs
vocaux et aux mesures de bout en bout. De ce fait, d’autres facteurs supplémentaires
sont pris en considération pour mieux simuler les conditions réelles, à savoir le temps
de propagation, les distorsions dûes aux erreurs de transmission, les pertes de pa-
quets. . . Néanmoins, il existe bel et bien d’autres facteurs techniques et applications
[P862 00] pour lesquels la méthode d’évaluation PESQ n’a pas été encore validée à ce
jour, notamment les artefacts causés par les algorithmes de réduction de bruit ainsi
que les dégradations liées à l’interaction bidirectionnelle lors de la transmission comme
par exemple l’effet d’écho.
Très schématiquement, ce critère se base sur un calcul de distance perceptuelle

(différence audible entre la représentation perceptuelle du signal de référence et celle
du signal de test) suivie d’un modèle cognitif qui permet de prendre en compte le fait
qu’une dégradation n’a pas le même impact selon qu’elle est additive ou soustractive, ou
selon son contexte (segment de parole ou non) et sa distribution (localisée ou non). La
note d’évaluation PESQ finale est une combinaison linéaire de la valeur de perturbation
moyenne et de la valeur de perturbation asymétrique moyenne.
Le PESQ permet d’évaluer la qualité d’écoute dans de nombreuses conditions de
dégradation (perte de paquets, distorsion dûe au codage et bruit ambiant du côté
émission...), aboutissant à une corrélation proche des notes subjectives.
Pour les applications de débruitage de la parole, ce critère crée un désaccord au
sein de la communauté de recherche bien qu’il soit très utilisé. Dans certains travaux
[Hu 06], [Rix 01] et [Grundlehner 05], on dit que la corrélation de ce critère avec la
qualité globale n’est importante que dans le cas de la transmission de la parole par
le biais de réseaux de communication. D’autres travaux, tel que [Hu 08], confirment,
par le biais d’études expérimentales et de calculs de corrélation dans le contexte de
débruitage de la parole, que ce critère est le plus corrélé parmi six autres mesures
objectives, avec un facteur de corrélation de 0.89.
Du fait que ce critère est largement utilisé dans le domaine, nous avons choisi de
le conserver comme critère d’évaluation de nos algorithmes bien qu’il donne parfois
des résultats incohérents avec ce que nous attendons en nous basant sur des critères
d’écoute et sur d’autres critères objectifs.
3.4 Conclusion
Les mesures objectives de qualité qui reposent sur des notions de psychoacoustique
permettent de prévoir les notes de qualité de perception qu’attribueraient au signal testé
les sujets participant à un essai d’écoute subjective. Elles permettent d’automatiser le
processus d’évaluation de la qualité et se prêtent plus à une éventuelle application en
temps réel. Elles sont donc indispensables pour les systèmes où l’homme fait partie
intégrante du processus de réception. Cependant, leur corrélation insuffisante avec les
résultats des tests subjectifs limite encore leur substitution complète aux méthodes
subjectives.
Il existe d’autres mesures de qualité qui ne requièrent pas de disposer d’un si-
gnal de référence. Elles sont de deux types, paramétriques et non-paramétriques,
et elles ont pour objectif d’évaluer en continu la qualité de la parole dans les
réseaux de télécommunications (voix sur IP, téléphone mobile,. . . ). Les mesures non-
paramétriques, dites basées sur le signal, comparent ce dernier avec un signal artificiel
issu d’une base de référence (codebook). Les mesures paramétriques telles que ITU-
T P.563 [Malfait 06] et le modèle E [G.107 03] sont basées sur des mesures physiques
(délai, écho, bruit,...) du système à évaluer et exploitent les propriétés du conduit vocal
pour déterminer la distorsion.
Pour la phase d’évaluation, notre choix s’est porté sur les mesures PESQ, MBSD
CHAPITRE 3 :
comme mesures perceptuelles en raison de leur bonne corrélation avec les tests subjectifs
et le segSNR pour une évaluation du rapport signal à bruit des débruiteurs. Nous
avons également opté pour la recommandation UIT-T P.835 [P.835 03] pour les tests
subjectifs du fait qu’elle est spécialement dédiée aux applications d’annulation du bruit.
4
CHAPITRE
État de l’art du
débruitage
mono-capteur de la
parole
L’oreille humaine a des capacités impressionnantes pour reconnaı̂tre et distinguer

la parole du bruit. Mais, pour le bien être de l’auditeur et dans le souci de limiter sa
fatigue, on cherche à améliorer la qualité de l’écoute à travers le débruitage de la parole
(pour des applications telles que la téléphonie mobile et la téléphonie mains-libres). On
peut aussi utiliser des systèmes de débruitage pour des applications où la cible n’est pas
humaine telles que la reconnaissance et la synthèse vocale, le codage de la parole, etc.
Les systèmes dédiés à ces dernières applications sont très affectés par la qualité de la
parole et leurs performances peuvent être médiocres en présence du bruit notamment
lorsqu’il y a eu apprentissage en milieu non bruité. Plusieurs méthodes de débruitage de
la parole ont été proposées dans la littérature pour répondre aux besoins des utilisateurs
et des applications dédiées à la parole. On fera une étude succincte de certaines d’entre
elles présentant à chaque fois le principe, les limitations et les améliorations apportées.
Tout au long de ce chapitre, on considère le problème de débruitage schématisé par la
figure 4.1, les notations en découlant auront ainsi la même signification dans toute la
suite.
s(t) y(t) Système sb(t)

de débruitage
b(t)
Figure 4.1 — Modèle de débruitage utilisé dans ce document
Soit y(t) un signal de parole bruité et échantillonné. Ce signal est divisé en trames
successives, d’indice k, qui comportent le même nombre d’échantillons noté N. Ce
nombre d’échantillons est choisi de manière à ce que la durée d’une trame soit de l’ordre
de 20 à 30 ms. On construit ainsi des trames où la parole est supposée stationnaire.
À partir du modèle yk (t) = sk (t) + bk (t), on cherche à restituer le signal propre sk (t)
CHAPITRE 4 :
38 État de l’art du débruitage mono-capteur de la parole
à partir du signal observé yk (t), t = 0, 1, . . . , N − 1. Les Transformées de Fourier

Discrètes (TFD) de ces signaux sont respectivement notées Yk (ν), Sk (ν) et Bk (ν),
ν = 0, 1, . . . , N − 1 et nous avons donc Yk (ν) = Sk (ν) + Bk (ν). Cette dernière notation
est justifiée sous l’hypothèse de la non-corrélation entre le bruit et le signal. Pour alléger
les notations, on se contentera d’écrire par exemple S(ν) au lieu de Sk (ν) en supposant
toujours que les traitements sont faits trame par trame et en considérant une trame
quelconque du signal.
4.1 Soustraction spectrale
4.1.1 Principe
La soustraction spectrale est la méthode de débruitage la plus ancienne. Elle est
introduite dans [Boll 79]. Elle opère dans le domaine fréquentiel et a pour principe de
soustraire une estimée du bruit à partir du signal observé. Le bruit est supposé additif,
stationnaire ou légèrement variant ce qui nous permet de l’estimer pendant les périodes
de silence. Il existe deux versions de base de la soustraction spectrale se différenciant
l’une de l’autre par l’utilisation soit de la puissance soit de l’amplitude. Si
b
|S(ν)| b
= |Y (ν)| − |B(ν)|, (4.1)
il s’agit de la soustraction spectrale d’amplitude (SSA). Si, par contre, le bruit estimé
est donné par son spectre de puissance, on aura la soustraction spectrale de puissance
(SSP) :
b
|S(ν)| 2 b
= |Y (ν)|2 − |B(ν)| 2
. (4.2)
Vu que le second terme de l’équation (4.2) peut être négatif, on peut le rendre positif
en changeant de signe ou bien en l’annulant comme dans l’équation (4.3). Ceci fait
partie des premières améliorations apportées à la soustraction spectrale :

b
|Y (ν)|2 − |B(ν)| 2 b
si |Y (ν)|2 > |B(ν)| 2
b 2
|S(ν)| = (4.3)
0 sinon.
Le passage dans le domaine temporel est réalisé par la transformée de Fourrier

inverse en gardant la phase du signal bruité. On se permet de procéder ainsi, d’une
part, parce que notre oreille est peu sensible aux variations de la phase et, d’autre part,
parce qu’une estimation de la phase est une tâche très compliquée.
h i
b
s(t) = IFFT |S(ν)|.e
b i×arg Y (ν)
(4.4)
Les algorithmes de soustraction spectrale peuvent être étudiés sous un autre angle,
celui du filtrage du signal observé en se basant toujours sur une estimation du bruit.
La suppression devient donc une multiplication par un gain G(ν) comme ci-dessous :
b
|S(ν)| = G(ν).|Y (ν)|, 0 ≤ G(ν) ≤ 1. (4.5)
Section 4.1 : Soustraction spectrale 39
Pour la SSP, G est donné par :

( q
b 2
1− |B(ν)| b
si |Y (ν)|2 > |B(ν)| 2
G(ν) = |Y (ν)|2 (4.6)
0 sinon.
4.1.2 Paramétrisation
La soustraction spectrale est largement étudiée dans la littérature vu sa simplicité,
mais elle reste limitée par les artefacts qu’elle génère en sortie, à savoir la distorsion
du signal et le bruit musical. Les tentatives de réduction de celui-ci ont amené les
chercheurs à s’investir sur l’expression adéquate qui peut être le compromis entre la
quantité du bruit musical et la distorsion du signal. Ainsi, pour donner plus de souplesse
à la soustraction spectrale, plusieurs améliorations ont été apportées à cette technique.
L’objectif de cette section est de décrire les plus connues.
Proposition de Berouti : Berouti [Berouti 79] a constaté qu’après soustraction

spectrale le bruit résiduel est constitué de deux types de pics : pics larges perçus
comme étant un bruit large bande et pics étroits perçus comme étant des tonales. Il
qualifie le bruit musical comme étant l’ensemble des crêtes du 2ème type. Pour réduire
ce bruit, il propose de paramétrer la soustraction spectrale par deux facteurs, le premier
pour soustraire une sur-estimation du bruit et le second pour éviter que le résultat de
la soustraction dépasse un seuil de tolérance fonction de l’estimée de la puissance du
bruit. On obtient l’expression suivante :
(
|Y (ν)| 2
− α| b
B(ν)| 2
si |Y (ν)| 2
− α| b
B(ν)| 2 b
> β|B(ν)| 2
b
|S(ν)| 2
=
b
β|B(ν)| 2
ailleurs .
b
L’introduction de la quantité β|B(ν)| 2
, au lieu d’un zéro (comme dans l’équation (4.6)),
permet d’ajouter un bruit large bande qui, selon Berouti, va masquer les composantes
tonales voisines de même amplitude (ou d’amplitudes comparables). Les paramètres
α et β ont pour objectif de trouver un compromis entre la quantité du bruit résiduel,
celle du bruit musical et finalement la distorsion du signal. Ajuster convenablement ces
deux paramètres est une tâche qui influe beaucoup sur la qualité des résultats.
Les expériences [Berouti 79] ont montré que le paramètre α dépend du RSB seg-
mental, noté segSNR, selon l’équation,
segSNR
α = α0 − (4.7)
s
avec s = 20 3
pour α0 = 4. Pour une plage de segSNR variant de −5 dB à 5 dB, α0
est compris entre 3 et 6. Le paramètre β est très sensible au niveau de bruit. Pour de
très hauts niveaux de bruit (−5 dB), le paramètre β doit être compris dans l’intervalle
0.02 ≤ β ≤ 0.06. Pour des niveaux bas du bruit (0 dB ou 5 dB), il vaut mieux choisir
β tel que 0.005 ≤ β ≤ 0.02.
CHAPITRE 4 :
Proposition de Boll : Le travail de Boll [Boll 79] repose également sur la soustrac-
tion spectrale, mais sa contribution apparaı̂t comme un facteur complémentaire. Le but
n’est donc pas de paramètrer la soustraction spectrale pour améliorer les performances,
mais plutôt d’étudier l’erreur qu’elle génère afin de réduire les artefacts au moyen de
quatre méthodes :
1. Moyenne d’amplitude :
b
S(ν) = [|Y (ν)| − µ(ν)]ei×arg Y (ν) (4.8)
où µ(ν) = E[|B(ν)|] est la moyenne du bruit calculée pendant les silences. Le filtre
équivalent est de la forme
µ(ν)
H(ν) = 1 − . (4.9)
|Y (ν)|
Soit ǫ(ν) l’erreur spectrale due au processus de soustraction. On a
b
ǫ(ν) = S(ν) − S(ν) = B(ν) − µ(ν)ei×arg Y (ν) (4.10)
où ǫ(ν) dépend à la fois de B(ν) et de sa moyenne µ(ν). Pour réduire ǫ(ν) il
faut que B(ν) P≃ µ(ν). Si on introduit la moyenne de l’amplitude du signal bruité
1 N −1
|Y (ν)| = N ν=0 |Y (ν)| dans l’équation (4.8), on obtient une nouvelle estimée
notée Sbm (ν) :
Sbm (ν) = [|Y (ν)| − µ(ν)]ei×arg Y (ν) . (4.11)
L’expression de l’erreur devient :
ǫ(ν) = S(ν) − Sbm (ν) ≃ µ(ν) − |B(ν)| (4.12)

PN −1
où |B(ν)| = N1 ν=0 |B(ν)|. En procédant ainsi, aussi longtemps qu’on moyenne,
l’erreur se réduit, mais l’hypothèse de la non-stationnarité de la parole ne reste
plus valable, d’où la limitation de la méthode.
2. Rectification de l’estimateur : Cette méthode consiste à remplacer les valeurs
b
négatives de S(ν) par zéro. La nouvelle expression de H(ν) modélisant cette
contrainte est :
H(ν) + |H(ν)|
H R (ν) = (4.13)
2
b
et S(ν) = H R (ν)Y (ν).
3. Réduction du bruit résiduel : Cette étape est résumée par l’équation suivante
(
|Sbk (ν)| si Sbk (ν) ≥ max |B R (ν)|
|Sbk (ν)| = (4.14)
min |Sbj (ν)|, j = k − 1, k, k + 1 si Sbk (ν) < max |B R (ν)|
avec k l’indice de la trame, Sbk (ν) = HkR (ν).Yk (ν) où HR est donné par l’équation
(4.13), max |B R (ν)| est le maximum du bruit résiduel (B R (ν) = |B(ν)|−µ(ν)) me-
suré pendant les instants de silence et l’indice j désigne le numéro de la trame. La
réduction du bruit résiduel s’effectue ainsi en sélectionnant le minimum de l’am-
plitude estimée durant 3 trames adjacentes si l’amplitude dans la trame courante
j est inférieure au niveau du maximum du bruit résiduel B R (ν).
Section 4.1 : Soustraction spectrale 41
4. Atténuation additionnelle durant les silences : De manière empirique, Boll pro-

pose un seuil de détection d’activité vocale dont la formule est donnée ci-dessous :
" Z #
π b
1 S(ν)
τ = 20 log10 dν . (4.15)
2π −π µ(ν)
Si τ < −12dB, il n’y a pas d’activité vocale. À ce moment-là, au lieu de supprimer

complètement le bruit, il propose de l’atténuer. Il justifie cette alternative par
l’effet désirable de ce bruit comme moyen de rendre moins perceptible le bruit non
masqué pendant l’activité vocale. La formule d’atténuation est donnée par :

b
|S(ν)| si τ ≥ −12 dB
b
|S(ν)| = (4.16)
cB(ν) si τ < −12 dB
où 20 log10 c = −30 dB.
Proposition de Virag : Dans [Virag 99], Virag a combiné la méthode de Berouti

[Berouti 79] avec la généralisation de Lim [Lim 79] pour aboutir à une expression de
soustraction spectrale plus généralisée et permettant une flexibilité dans le choix des
paramètres. L’intérêt est d’assurer un compromis entre réduction du bruit et distorsion
du signal. Le gain Gk (ν) de la soustraction spectrale généralisée est donné par
 η1 η2 η1

 1 − α |B(ν)|
si |B(ν)| 1
< α+β
 |Y (ν)|
! |Y (ν)|
G(ν) = η1 η2 (4.17)

 β |B(ν)|
sinon.
 |Y (ν)|
où α est un facteur de sur-soustraction (α > 1). Le spectre du signal bruité est diminué
plus que nécessaire ce qui entraı̂ne une diminution du bruit résiduel certes, mais aug-
mente en contrepartie la distorsion du signal. Le paramètre β, tel que 0 ≤ β << 1,
est un facteur qui permet d’introduire un bruit de fond léger pour masquer le bruit
résiduel.
Remarques :
1. Le choix de α et β est plus critique que celui de ηi , i = {1, 2}.
2. Si η1 = η2 = 1, il s’agit d’une soustraction spectrale d’amplitude.
3. Si η1 = 2, η2 = 0.5, il s’agit d’une soustraction spectrale de puissance.
4. Si η1 = 2, η2 = 1, il s’agit du filtrage de Wiener.
4.1.3 Amélioration psychoacoustique

La soustraction spectrale, malgré sa simplicité, ses capacités à réduire le bruit additif
et les améliorations qui lui ont été apportées (du point de vue paramétrisation contrôlée
par le rapport signal à bruit), reste une méthode limitée par l’apparition des distorsions
et du bruit musical au niveau du signal estimé. Au fil du temps, d’autres améliorations
CHAPITRE 4 :
ont été étudiées dans plusieurs travaux [Virag 99, Udrea 08, Bhatnagar 02]. Elles sont
basées sur des notions psychoacoustiques. Nous décrivons ici la contribution de Virag
[Virag 99] qui a suscité beaucoup d’intérêt dans le domaine. Elle consiste à rendre le
bruit musical perceptuellement moins gênant en exploitant le phénomène de masquage.
On rappelle que ce dernier est modélisé par le calcul du seuil de masquage du signal
trame par trame et que tout bruit au-dessous de ce seuil est imperceptible à l’oreille
humaine. Les deux étapes clé de sa méthode sont :
– Le calcul du seuil de masquage du bruit par la procédure de Johnston à partir
d’une estimée du signal de parole issue de la soustraction spectrale classique. Elle
corrige cette courbe vu la différence qu’elle présente par rapport à la courbe de
masquage du signal propre. Cette différence est plus significative pour les bandes
critiques au delà de 15 (c’est-à-dire aux hautes fréquences). La correction proposée
est empirique et consiste à diminuer le seuil de masquage pour tenir compte de
l’effet tonal du bruit musical. En effet, la nature tonale du bruit musical semblable
à celle de la parole influence la précision de calcul du seuil de masquage de manière
à augmenter son niveau normal. La correction proposée ne peut être fiable que si
l’on arrive à localiser le bruit musical ou du moins l’estimer afin de contrôler le
niveau de diminution ou d’augmentation de cette courbe estimée. Plus de détails
sur l’estimation et la correction de la courbe de masquage seront donnés dans le
chapitre 5.
– Elle généralise les méthodes de soustraction spectrale selon une formule unique
(Eq. 4.17) et adapte les paramètres en fonction du seuil de masquage. Si le seuil
de masquage est au-dessus du bruit résiduel, ce dernier sera automatiquement
masqué. Il est inutile de le réduire pour éviter toute distorsion du signal de la
parole et les paramètres sont maintenus à leur minimum. Sinon, le bruit sera
perceptible et doit être réduit en augmentant les paramètres de soustraction.
Dans [Virag 99], l’adaptation des paramètres est régie par les deux formules ci
dessous :
α(ν) = Fα [αmin , αmax , T (ν)] (4.18)
β(ν) = Fβ [βmin, βmax , T (ν)] (4.19)
où T (ν) est le seuil de masquage, Fα et Fβ sont deux fonctions non linéaires
permettant une réduction maximale (resp. minimale) du bruit résiduel pour des
valeurs minimales (resp. maximales) de la courbe de masquage :
Fα = αmax si T (ν) = Tmin (ν) (4.20)

Fα = αmin si T (ν) = Tmax (ν). (4.21)
De même pour Fβ .
Fβ = βmax si T (ν) = Tmin (ν) (4.22)

Fβ = βmin si T (ν) = Tmax (ν). (4.23)
Pour les valeurs Tmin (ν) < T (ν) < Tmax (ν), Virag [Virag 99] suggère d’effectuer
une interpolation dépendante de la valeur de T (ν). Après des expériences avec
différents types de bruit et pour des valeurs de η = η1 = 2 ;η2 = η11 = 0.5, les
valeurs de α et β, ci-dessous, se sont avérées les plus appropriées dans le sens où
Section 4.2 : Filtrage de Wiener 43
elles permettent le meilleur compromis possible entre la quantité du bruit résiduel

et la distorsion du signal.
αmin = 1 ; αmax = 6 ; βmin = 0 ; βmax = 0.02.
Le fait de se baser sur la courbe de masquage, au lieu du rapport signal à bruit pour
ajuster les paramètres de la soustraction spectrale, permet d’introduire un effet de
lissage qui limite l’apparition du bruit musical. La limitation de la méthode reste le
caractère empirique et non précis de la correction de la courbe de masquage. Ceci
pourrait limiter les performances de la méthode en cas de mauvaise estimation de la
courbe de masquage dont dépend largement le processus d’ajustement des paramètres
α et β.
4.2 Filtrage de Wiener

4.2.1 Principe
Le filtre de Wiener est parmi les méthodes de débruitage classiques les plus uti-
lisées dans la littérature. C’est l’estimateur W (ν) qui minimise l’Erreur Quadratique
Moyenne (EQM) entre le signal d’entrée et celui en sortie Eq.(4.24) :
h i
b 2
E[|ǫ(ν)|2 ] = E S(ν) − S(ν) (4.24)
h 2 i
= E S(ν) − W (ν)Y (ν) . (4.25)
L’expression du filtre est donnée par

W (ν) = argmin E |S(ν) − W (ν)Y (ν)|2 . (4.26)
D’après le théorème de projection, il y a une seule solution à (4.26). Elle est donnée
par le principe d’orthogonalité via l’équation :

E ǫ(ν)Y (ν)+ = 0. (4.27)
où Y (ν)+ ets le transposé conjugué de Y (ν). Tout calcul fait (Annexe B), on aboutit
à l’expression du filtre de Wiener suivante :
δ(ν)
W (ν) = (4.28)
δ(ν) + γ(ν)
où δ(ν) et γ(ν) sont respectivement les densités spectrales de puissance du signal de
parole et du bruit. Dans le problème de débruitage de la parole mono-capteur, on ne
dispose que du signal observé alors que l’expression (4.28) fait intervenir des quantités
a priori. L’une des façons d’estimer la densité spectrale de puissance du signal de parole
est de procéder à un calcul itératif du filtre de Wiener basée sur une modélisation LPC
du signal de parole. La mise à jour de la densité spectrale de puissance est faite à
chaque itération et déduite à partir des coefficients AR. Une des limitations de cette
méthode, comme pour tout processus itératif, est de choisir le moment où il est pertinent
CHAPITRE 4 :
d’arrêter les itérations (la convergence est alors supposée atteinte), sans parler des coûts
de calculs qui sont très élevés. D’un autre point de vue, pour éviter le passage par
l’estimation de la densité spectrale de puissance du signal, on peut exprimer l’équation
(4.28) en terme de rapport signal à bruit a priori (Eq. 4.29) ce qui nous conduit à
un problème d’estimation du rapport signal à bruit (Eq. 4.30) au lieu de la densité
spectrale de puissance :
ξ(ν)
W (ν) = , (4.29)
1 + ξ(ν)
E[|S(ν)|2 ] δ(ν)
ξ(ν) = 2
= . (4.30)
E[|B(ν)| ] γ(ν)
Comme pour la soustraction spectrale, l’une des améliorations apportées au filtrage
de Wiener [Lim 79] est la paramétrisation de sa fonction de gain afin de la rendre plus
flexible selon l’équation (4.31) :
δ(ν) β
W (ν) = . (4.31)
δ(ν) + αγ(ν)
Cette même équation, ré-écrite différemment en fonction du rapport signal à bruit

(4.32), montre que le paramètre β affecte l’atténuation, et ainsi les distorsions, unique-
ment pour les rapports signal à bruit faibles :
ξ(ν) β
W (ν) = . (4.32)
α + ξ(ν)
Quant au paramètre α, il offre plus de flexibilité puisqu’il peut influencer l’atténuation

pour les faibles et forts rapports signal à bruit [Loizou 07].
La paramétrisation ainsi que la version du filtrage de Wiener itératif ne parviennent
pas à éviter complètement le problème du bruit musical. On verra dans la section sui-
vante les améliorations apportées de type perceptuel et leur impact sur les performances
du débruitage de la parole. À noter également qu’on verra par la suite que plusieurs
autres critères d’optimisation aboutissent à un filtrage de Wiener mais sous d’autres
contraintes.

Dans [Lin 02], on propose de décomposer le signal de parole observé en bandes cri-
tiques selon un banc de filtres afin de simuler le comportement non linéaire en fréquence
de notre système d’audition. Ensuite, on exprime l’erreur quadratique moyenne par
bande critique et on se donne le critère suivant :
h i
2 2
Jj = (Kj − 1) δj + µKj max γj − ηTj , 0 (4.33)
où δj ne désigne pas la densité spectrale de puissance du signal de parole dans un canal
de fréquence ν mais plutôt dans la bande critique j (idem pour γj la densité spectrale de
puissance du bruit) ; Kj , Tj sont respectivement le filtre de Wiener modifié à déterminer
Section 4.3 : MMSE et MMSE-LSA 45
et la courbe de masquage à la bande critique j ; η est un paramètre permettant d’ajouter

un autre degré de liberté à la conception du filtre minimisant le critère Jj . Ce dernier
apporte une modification au critère ordinaire des moindres carrés de par l’introduction
du terme de la courbe de masquage lui apportant ainsi une contrainte supplémentaire.
En outre, le bruit est pondéré, dans le critère, uniquement par la quantité audible. Il
s’agit d’une hypothèse simple, mais elle est certainement plus précise, du point de vue
perception, que l’hypothèse habituelle. En résolvant l’équation
dJj
= 0, (4.34)
dKj
on obtient un filtrage de Wiener perceptuel du bruit audible (Eq. 4.35)
δ
Kj = j . (4.35)
δj + max γj − Tj , 0
D’après cette équation, on remarque que le gain Kj décroı̂t à mesure que le bruit est
supérieur à la courbe de masquage, mais ce gain reste inférieur au gain du filtrage
optimal de Wiener (Eq. 4.28) ainsi qu’à celui du filtrage de Wiener généralisé (Eq.
4.31).
Dans un autre travail [Beaugeant 98], les auteurs proposent de pondérer le filtre de
Wiener perceptuellement sans affecter l’expression du filtre optimal. En effet, le but
est d’appliquer le filtrage de Wiener uniquement dans les fréquences où le bruit est
audible.
(
δ(ν)
δ(ν)+γ(ν)
si γ(ν) > T (ν)
Hk (ν) = (4.36)
1 ailleurs.
Dans le chapitre suivant, on verra en détails notre contribution dans l’amélioration

du filtrage de Wiener. Des résultats expérimentaux de différentes méthodes seront
également présentés.
4.3 MMSE et MMSE-LSA

4.3.1 Principe
La particularité de cette règle provient du fait que la valeur de l’atténuation spec-
trale dépend essentiellement des valeurs du spectre à court terme mesurées dans les
trames précédant la trame courante.
La règle de suppression d’Ephraim et Malah [Ephraim 84] est fondée sur une esti-
mation bayesienne du spectre à court terme dans le sens des moindres carrés, d’où l’ap-
pellation d’estimateur de l’amplitude spectrale à court terme au sens de l’erreur qua-
dratique moyenne MMSE-STSA (Minimum Mean Square Error-Short-Term Spectral
Amplitude). Elle est une des méthodes les plus populaires donnant des résultats satis-
faisants aussi bien du point de vue réduction de bruit que vis-à-vis du bruit musical.
CHAPITRE 4 :
La fonction du gain de cette règle (tel que Ŝ(ν) = G(ν).Y (ν)), dans la trame k et à la
fréquence ν, est donnée par :
√ s h ξb (ν) i
π 1 ξbk (ν) k
Gk (ν) = F χk (ν) (4.37)
2 χk (ν) 1 + ξbk (ν) 1 + ξbk (ν)
où ξbk (ν) est l’estimée du rapport signal à bruit a priori dans la trame k donnée par
l’Eq. (4.39) et F est une fonction définie par :
−x h x x i
F (x) = exp (1 + x)I0 + xI1 (4.38)
2 2 2
où I0 (.) et I1 (.) sont respectivement les fonctions de Bessel modifiées d’ordre 0 et 1 et
l’expression de ξbk (ν) est la suivante :
ξbk (ν) = (1 − α)h( χk (ν) − 1 ) + α |Gk−1(ν)Yk−1 (ν)|2 /γk (ν) . (4.39)

| {z } | {z }
RSB instantané RSB passé
Dans l’expression (4.39), χk (ν) est l’estimée de E[|Yk (ν)|2 ]/γk (ν), le Rapport Signal à
Bruit a posteriori. Afin d’éviter d’éventuelles valeurs négatives de χk (ν), la fonction
h permet de considérer seulement la partie positive : h(x) = x si x ≥ 0 et h(x) = 0
ailleurs. Cet estimateur (4.39) est récursif et s’avère performant du fait qu’il apporte
des améliorations sur la qualité du signal débruité. Il permet de réduire le bruit musical
et les distorsions du signal de par ses propriétés de lissage fréquentiel. Cet estimateur
est connu sous le nom de Directed-Decision. On s’aperçoit, à partir de (4.39) et (4.37),
que l’estimateur Gk (ν) dépend essentiellement des valeurs du spectre à court terme
mesurées dans les trames précédentes. Effectivement, l’estimée ξk (ν) prend en compte
la trame bruitée courante avec un poids de (1 − α) et la trame débruitée précédente
avec un poids de α (sachant que 0 ≤ α ≤ 1).
Dans [Cappe 94], une analyse asymptotique du gain Gk (ν) en fonction de ξk (ν)
montre que, pour des valeurs de ξk (ν) très petites, on applique une forte atténuation.
Dans ce cas de figure, le comportement de Gk (ν) en fonction de (χk (ν) − 1), en
fixant la valeur de ξk (ν), montre que pour des valeurs petites de ξk (ν) l’influence
de (χk (ν) − 1) devient importante. Cette influence est même contre intuitive puisque
des fortes atténuations sont appliquées quand (χk (ν) − 1) est grand, alors que la lo-
gique veut plutôt qu’on débruite plus quand le rapport signal à bruit est faible. Dans
[Cappe 94], l’auteur indique que cette contre intuition est utile pour le traitement de
segments de parole de faible énergie. Dans une comparaison entre le filtre de Wiener
et l’estimateur MMSE-STSA [Ephraim 84], les auteurs constatent que :
– l’erreur quadratique moyenne de l’estimateur MMSE-STSA ne peut pas dépasser
1
1 alors que pour le filtre de Wiener, elle peut même atteindre la valeur 1−π/4 .
– l’estimateur MMSE-LSA et le filtre de Wiener sont peu sensibles à des petites va-
riations dans l’estimation de ξk (ν). Ils tolèrent en l’occurrence une sur-estimation
de cette grandeur plutôt qu’une sous-estimation. Une sur-estimation de ξk (ν) im-
plique même une atténuation de l’erreur quadratique moyenne dans le cas du
filtre de Wiener. Ceci est dû au fait que le filtre de Wiener n’est pas optimal au
sens du MMSE quand il emploie l’expression (4.39).
– en utilisant l’expression (4.39) avec une valeur de α égale à 0.98, le filtre de

Wiener introduit moins de bruit résiduel que l’estimateur MMSE-STSA, sachant
que le bruit résiduel est de nature moins colorée et moins gênant que le bruit
musical pour les deux estimateurs. L’estimateur MMSE-STSA introduit moins
de distorsion que le filtre Wiener.
La réduction du bruit musical est fortement liée à l’expression du RSB a priori (4.39),
qui constitue d’ailleurs l’originalité du travail présenté dans [Ephraim 84]. Analysant
cette expression :
– Si χk (ν) − 1 ≤ 0, alors ξk (ν) correspond à une version lissée du rapport signal à
bruit a posteriori. Ceci implique que la variance du RSB a priori est plus petite
que celle du RSB a posteriori. Puisque Gk (ν) dépend essentiellement de ξk (ν),
l’atténuation appliquée au signal bruité ne changera pas brusquement d’une trame
à l’autre, d’où la réduction de l’apparition du bruit musical.
– Si χk (ν) − 1 > 0, alors ξk (ν) est une version lissée et retardée d’une trame du
RSB a posteriori.
– Quand α diminue, les distorsions diminuent et le bruit musical augmente et
vice-versa. Sachant que si α diminue, le poids de h(χk (ν) − 1) augmente, on peut
donc conclure que le bruit musical est très sensible à ce terme.
L’inconvénient de cette expression est la sur-atténuation au moment des transitoires

dans le cas de l’apparition d’une composante de parole à faible niveau [Cappe 94], d’où
une des améliorations proposées dans la section 4.3.2.
Dans une autre version de leurs estimateurs [Ephraim 84], les auteurs tiennent
compte d’un autre facteur déterminant, il s’agit en l’occurrence de la probabilité de
présence du signal. L’expression du nouvel estimateur qui tient compte de cette pro-
babilité est !
Λk (ν)
Hk (ν) = Gk (ν) (4.40)
Λk (ν) + 1
avec Λk (ν), le rapport de vraisemblance généralisé, dont l’expression est
! !
1 − qk (ν) exp(vk (ν))
Λk (ν) =
qk (ν) 1 + ξk (ν)
où qk (ν) est la probabilité d’absence du signal dans la composante spectrale ν et à la

trame k et !
ξk (ν)
vk (ν) = χk (ν). (4.41)
1 + ξk (ν)
Cet estimateur donne de meilleures performances par rapport à l’estimateur MMSE-
STSA qui ne considère pas cette probabilité [Ephraim 84]. Les auteurs de [Ephraim 84]
ont également proposé un autre estimateur, nommé MMSE-LSA, basé cette fois-ci sur
le critère de la minimisation de l’erreur quadratique moyenne appliquée au logarithme :
n 2 o
E log Sk − log Sbk . (4.42)
CHAPITRE 4 :
Ce critère s’approche plus de l’échelle subjective en relation avec la perception humaine,

d’où son intérêt. L’expression de l’estimateur MMSE-LSA qui dépend également du
RSB a priori ξk (ν) est la suivante :
! ( Z )
∞ −t
ξ k (ν) 1 e
GLSA
k (ν) = exp dt (4.43)
ξk (ν) + 1 2 vk (ν) t
où vk (ν) est donnée par l’équation (4.41). L’intégrale dans l’expression (4.43) est ap-
pelée intégrale exponentielle ; elle est approximée numériquement par
Z ∞ −t
e e−x X k!
dt ≈ .
x t x k xk
Une comparaison entre l’estimateur MMSE-STSA et l’estimateur MMSE-LSA

[Loizou 07] montre que GLSA k (ν) est souvent inférieur de 3 dB par rapport à Gk (ν)
pour des mêmes valeurs de χk (ν) et ξk (ν). Il permet donc une grande atténuation et
réduit le bruit résiduel sans pour autant introduire plus de distorsion.
4.3.2 Améliorations de l’approche Decision-Directed

Dans des travaux plus récents, en cherchant à analyser l’estimateur du RSB a
priori selon l’approche Decision-Directed (Eq. 4.39), diverses conclusions ont été tirées
menant à plusieurs améliorations de cette technique, citons par exemple [Cappe 94],
[Plapous 07] et [Azirani 96]. Comme on va comparer l’estimateur d’Ephraim et Ma-
lah avec d’autres estimateurs qui visent à l’améliorer, on notera dorénavant ξkDD (ν)
l’estimateur du RSB a priori selon la méthode Decision-Directed et ξek (ν) toute autre
amélioration.
Il est à noter qu’on introduit plus de bruit musical lorsque le gain de débruitage
dépend du RSB a posteriori [Cappe 94]. La qualité est alors mauvaise même s’il y a
peu de distorsions du signal. Le RSB a priori (Eq. 4.39) d’Ephraim et Malah, pour
des valeurs de α proches de 1, réduit le bruit musical et résiduel en général, mais aux
dépens d’une réduction de l’intelligibilité liée au lissage des transitions du signal de
parole (la figure 4.2 met en évidence les transitions du signal marquant le passage du
silence à la parole ou vise-versa). En plus, le fait de favoriser les trames précédentes
introduit un retard qui, du point de vue de la perception, est perçu comme un effet
de réverbération [Plapous 07]. Le délai dans l’estimation de ξkDD (ν) induit tantôt une
sous-estimation du Rapport Signal à Bruit instantané tantôt une sur-estimation selon
la nature de la trame passée (k − 1) (parole ou silence).
Dans [Plapous 07], pour remédier à ce problème qui se pose surtout pour les parties
transitoires de la parole, les auteurs proposent un autre estimateur qui fonctionne en
deux étapes :
Etape I :
ξkDD (ν)
GDD
k (ν) = . (4.44)
ξkDD (ν) + 1
Parole
Silence Silence
Onset Offset
Figure 4.2 — Parties transitoires de la parole
Etape II :
ξek (ν) = ξk+1

DD
(ν) (4.45)
|GDD (ν)Yk (ν)|2
= α′ k + (1 − α′ )h(χk+1 (ν) − 1) (4.46)
γk (ν)
|GDD
k (ν)Yk (ν)|
2
≈ . (4.47)
γk (ν)
Le paramètre α′ joue le même rôle que α mais son inconvénient est de se baser
sur une information future χk+1 (ν) dont on ne dispose pas. Par approximation et dans
le but d’éviter des retards inutiles, les auteurs dans [Plapous 07] fixent la valeur de
α′ à 1, d’où l’expression 4.47. Le nouvel estimateur ξek (ν) a l’avantage de garder les
propriétés de ξkDD (ν) quand le rapport signal à bruit instantané est inférieur à 0 dB
et ainsi permet de réduire le bruit musical. Pour un rapport signal à bruit instantané
supérieur à 0 dB, ξek (ν) coı̈ncide avec ce dernier contrairement à ξkDD (ν) qui introduit
un retard.
Une autre amélioration [Cappe 94] consiste à seuiller la valeur minimale du RSB a
priori ξkDD (ν) à une valeur ξkmin (ν) = 15 dB (Eq. 4.48) afin de permettre de réduire le
bruit musical de faible énergie ce qui donne lieu à l’estimateur
n o
e DD min
ξk (ν) = max ξk (ν), ξk (ν) . (4.48)
Dans [Martin 03], forcer le terme χk (ν) − 1 à être positif introduit à son tour un
biais dans l’estimation du RSB a priori. La fonction h est donc omise dans la nouvelle
estimation (Eq. 4.49) :
n |G (ν)Y (ν)|2 o
k−1 k−1
ξek (ν) = max α + (1 − α)(χk (ν) − 1), ξkmin (ν) (4.49)
γk (ν)
Dans le cas où α ≈ 1 dans l’expression de ξkDD (ν), on a
|Gk−1 (ν)Yk−1 (ν)|2 |Sbk−1 (ν)|2

ξkDD (ν) ≈ = . (4.50)
γk (ν) γk (ν)
Dans [Erkelens 07], l’auteur explique qu’un biais est introduit suite à l’emploi du terme
|Sbk−1 (ν)|2
γk (ν)
dans l’équation (4.39). L’espérance au carré de l’amplitude est utilisée au lieu
de l’espérance du carré de l’amplitude ce qui introduit un biais dans l’estimation de
CHAPITRE 4 :
ξ DD (ν) surtout pour ξ DD (ν) << 1. La correction qu’il propose permet d’introduire
un facteur correctif de l’ordre de π4 ce qui donne lieu à l’expression du RSB a priori
suivante :
n π |G (ν)Y (ν)|2 o
k−1 k−1
ξek (ν) = max α + (1 − α)(χk (ν) − 1), ξkmin (ν) . (4.51)
4 γk (ν)
L’introduction du facteur π4 implique une sur-estimation du RSB a priori dont les
conséquences sont moins graves que celle provenant d’une sous-estimation [Ephraim 84]
de cette quantité.
Les autres améliorations apportées à l’estimateur ξkDD (ν) sont en relation avec le
paramètre α. En effet, quand α ≈ 1, l’approximation (Eq. 4.50) introduit un retard non
négligeable (de l’ordre d’une trame) pour les portions du signal correspondant à une
apparition brusque de la parole. Ceci introduit des atténuations indésirables de ce type
de composantes de signal de parole. Si l’on diminue α, en plus de l’apparition du bruit
musical, le même problème de délai se pose pour le cas des transitions parole/silence
(Offset sur la figure 4.2) [Cappe 94], d’où la suggestion d’adapter ce paramètre en
fonction du rapport signal à bruit. Dans [Beaugeant 99], les auteurs proposent d’ajuster
le paramètre α selon l’équation (4.52) :
ξkDD (ν)
α = αmax − λ (4.52)
ξkDD (ν) + 1
où λ > 1. Quand ξkDD (ν) est faible, on a α qui tend vers αmax . Dans ce cas, le bruit
musical diminue si αmax ≈ 1. Quand ξkDD (ν) est fort, α tend vers αmax − λ. La valeur
petite de α implique une adaptation rapide (réduction du délai) et une réduction des
distorsions. Dans [Beaugeant 99], des tests expérimentaux ont révélé que des valeurs
de αmax = 0.98 et λ = 0.06 donnent de meilleurs résultats.
4.4 Méthodes à sous-espace signal

4.4.1 Principe
L’une des approches de débruitage de la parole qui a suscité beaucoup d’intérêt
est le filtrage à sous-espace signal. Dans cette approche, on développe un estimateur
linéaire non paramétrique, du signal de parole propre, obtenu par décomposition du
signal observé en deux sous-espaces orthogonaux : le sous-espace signal et le sous-
espace bruit. La décomposition est achevée soit par valeurs singulières SVD ou par
valeurs propres EVD. Le principe des méthodes à sous-espace signal, décrit dans cette
section, se fera premièrement en supposant que le bruit est additif, blanc et décorrélé
de la parole, deuxièmement, en raisonnant par rapport à une décomposition en valeurs
propres. Pour plus de détails sur l’utilisation des valeurs singulières dans ce genre
d’application le lecteur peut se référer à [Loizou 07]. La réduction du bruit par cette
approche est obtenue par annulation des composantes du sous-espace bruit en premier
lieu et en supprimant la contribution du bruit dans le sous-espace signal en second
(figure 4.3).
Section 4.4 : Méthodes à sous-espace signal 51
Figure 4.3 — Débruitage à sous-espace signal
La première étape est simple dans le cas où le bruit est blanc (on verra par la suite
ce qui se passe dans le cas où le bruit est coloré). La deuxième étape est indispensable
contrairement à la troisième qui est souvent omise pour éviter les distorsions puisque,
dans l’espace signal, le bruit et le signal interfèrent.
Comment peut on décomposer un vecteur de Rn en deux composantes orthogonales ?
Soient y, s et b les vecteurs correspondant respectivement au signal bruité, au signal
propre et au bruit, tels que :
     
y1 s1 b1
 y2   s2   b2 
     
y= .. , s =  .. , b =  .. 
 .   .   . 
yq sq bq
on a
y = s + b. (4.53)
Soit Ry , Rs et Rb , les matrices d’autocorrélation de y, s et b. Sous l’hypothèse que la

parole est décorrélée du bruit, on écrit :
Ry = Rs + Rb . (4.54)
La décomposition en valeurs propres EVD de ces matrices d’autocorrélation donne

CHAPITRE 4 :
lieu aux équations suivantes :
Rs = UΛs U T (4.55)
Rb = U(σ 2 I)U T (4.56)
Ry = U(Λs + σ 2 I)U T , (4.57)
Λs est la matrice diagonale contenant les valeurs propres λs de Rs ; U est une matrice
orthonormale en colonnes ; σ 2 est la variance du bruit et I est la matrice identité.
D’après les équations (4.55), (4.56) et (4.57), on remarque que les vecteurs propres
du bruit sont identiques aux vecteurs propres du signal de parole grâce à l’hypothèse
de bruit blanc. Ces vecteurs propres peuvent donc êtres calculés à partir de Ry (c-à-d
à partir du signal observé). En supposant le sous-espace signal de dimension p avec
p < q, la matrice d’autocorrélation Ry possède ainsi p valeurs propres λs non nulles si
λs > σ 2 . Dans ce cas, le bruit peut être séparé de la parole et Ry peut être réécrite en
supposant que les vecteurs propres sont en ordre décroissant :

Λs 0 2 Ip 0 T
Ry = Up Uq−p +σ Up Uq−p . (4.58)
0 0 0 Iq−p
Indifféremment du critère d’optimisation, le débruitage de la parole est obtenu :

– en annulant les composantes du signal bruité dans le sous-espace bruit (de di-
mension q − p).
– en atténuant les valeurs propres du sous-espace signal (de dimension p).
Mathématiquement, le débruitage se ramène à un filtrage F tel que bs = Fy, où F =

Up Gp UpT , avec Gp une matrice (p × p) diagonale contenant les facteurs de pondération
gi appliqués aux p premières valeurs propres de Ry , tel que
p
X
F= gi ui uTi (4.59)
i=1
est une sommation de filtrages intermédiaires appliqués sur chaque vecteur propre où
gi est le ième élément diagonal de G. La suppression de la contribution du bruit dans
le sous-espace signal se fait selon un critère dont l’objectif est de trouver les éléments
de la matrice G. Dans la littérature, plusieurs critères ont fait l’objet de travaux. Ils
sont de trois classes : temporels, fréquentiels et perceptuels [Ephraim 95], [Jabloun 03],
[Hermus 07], [Hu 06]. Ils sont tous basés sur la minimisation de la distorsion du signal
en contraignant le bruit résiduel à être au dessous d’un certain seuil (la courbe de
masquage dans le cas des estimateurs perceptuels).
Estimateur dans le domaine temporel : Le critère d’estimation dans le domaine

temporel s’écrit sous forme d’un problème d’optimisation (minimisation de l’énergie de
la distorsion du signal) sous contrainte (seuil maximal du bruit résiduel).
min ε2s
G (4.60)
sous contrainte que ε2b ≤ qσ 2 ,
Section 4.4 : Méthodes à sous-espace signal 53
où ε2s désigne la distorsion du signal, σ 2 la variance du bruit et q contrôle le niveau

admissible du bruit résiduel (0 < q < 1). Ce problème est résolu par la méthode du
Lagrangien en résolvant l’équation

dL(G, µ) d ε2s + µ(ε2b − qσ 2 )
= =0 (4.61)
dG dG
où µ est le multiplicateur de Lagrange. Tout calcul fait, on aboutit à l’expression du
filtre optimal G suivante
Rs Rs
Gopt = = (4.62)
Rs + µRb Rs + µσb2 I
En utilisant la décomposition en valeurs propres des matrices d’autocorrélation Rs et
Rb , le filtre G (Eq. 4.62) peut être simplifié par

Gµ 0
Gopt = U UT (4.63)
0 0
où
Gµ = Λs (Λs + µσb2 I)−1 . (4.64)
Estimateur dans le domaine spectral : Cet estimateur est une généralisation de

celui du domaine temporel, de telle façon à minimiser l’énergie de la distorsion du signal
en gardant un certain niveau du bruit résiduel cette fois-ci pour chaque composante
1
spectrale. Soit uTk ǫ2b la k ı̈¿ 2 e composante spectrale du bruit résiduel. L’estimateur H
qu’on cherche peut accepter cette fois-ci des valeurs d’entrée qui sont complexes. Le
critère, dans le domaine spectral, s’écrit ainsi :
min ǫ2s
H

E|uTk ǫ2b | ≤ αk σ 2 k = 1, 2, ...p
sous contrainte que (4.65)
E|uTk ǫ2b | = 0 k = p + 1, ...q.
L’énergie du signal dans le sous-espace bruit est nulle pour tout composante spectrale k,
tel que p + 1 < k < q. La solution de ce problème est aussi donnée par le multiplicateur
de Lagrange qui débouche sur l’estimateur optimal H satisfaisant l’équation suivante :
HRs + σ 2 (UΛµ U T )H − Rs = 0 (4.66)
tel que Λµ = diag(µ1 , µ2 , ...µp ) est la matrice diagonale des multiplicateurs de Lagrange.
En utilisant la décomposition en valeurs propres de Rs (Eq. 4.55) et en l’injectant dans
(4.66) , on obtient :
(I − U T HU)Λ − σw
2
Λµ U T HU = 0.
En posant Q = U T HU et en supposant que cette matrice est diagonale, le filtre opti-

mal a la même expression que celui du domaine temporel H = UQU T . Les éléments
diagonaux de Q ont alors la forme
(
λy (k)
λ (k)+σ 2 k = 1, ...p
qk = s b µk (4.67)
0 k = p + 1, ...q.
CHAPITRE 4 :
L’hypothèse de départ pour le développement des méthodes à sous-espace signal

est de supposer que le bruit est blanc. Dans ce cas, la matrice de variance du bruit
est diagonale de forme σb2 I et les vecteurs propres du signal bruité sont identiques à
ceux du signal propre et du bruit. La relation reliant ensuite les valeurs propres de ces
signaux est
Λy (k) = Λs (k) + Λb (k), k = 1, 2, ...q (4.68)
Λy (k) = Λs (k) + σb (k), k = 1, 2, ...q. (4.69)
Extension des méthodes à sous-espace signal au cas du bruit coloré : Dans

le cas du bruit coloré, la matrice d’autocorrélation du bruit n’est pas diagonale et
Λy (k) 6= Λs (k) + Λb (k), k = 1, 2, ...q. Dans la littérature, il n’existe pas de méthode
permettant de déduire les valeurs propres du signal de parole à partir d’une version
de celui-ci entachée par un bruit coloré. La solution courante est de passer par un
blanchissement du signal observé afin de se ramener au cas du bruit blanc et suivre
ainsi les étapes décrites dans la section précédente.
On commence par estimer la matrice d’autocorrélation du bruit Rb pendant les
instants d’absence d’activité vocale. Ensuite, on factorise cette matrice Rbb , supposée
symétrique et positive, suivant une factorisation de Cholesky [Hermus 07], tel que
Rbb = RRT . On utilise la matrice R−1 pour blanchir le signal bruité selon les équations
suivantes
R−1 y = R−1 s + R−1 b (4.70)
ȳ = s̄ + b̄. (4.71)
Le bruit b̄ est de variance σb2 . En calculant les matrices d’autocorrélation des signaux
ȳ, s̄ et b̄, on obtient Rȳ = Rs̄ + I, avec Rs̄ = RRs RT . L’étape finale consiste à faire
l’inverse du blanchiment pour retrouver la bonne estimation du signal de parole. Soit
H̄ l’estimateur obtenu par un des problèmes d’optimisation déjà mentionnés, on a
ensuite :
b̄s = H̄ ȳ (4.72)
bs = Rb̄s. (4.73)
Limitation des méthodes à sous-espace signal : Les méthodes de débruitage

de la parole à sous-espace signal évitent certains problèmes (par exemple la variance
des estimateurs mauvaise locaux de la densité spectral des signaux) accompagnant, par
exemple, les méthodes à soustraction spectrale et qui provoquent l’apparition du bruit
musical, mais introduisent à leur tour ce type d’artefacts à cause d’autres limitations
de nature différente, à savoir
– Le changement brusque de l’estimation de l’ordre du modèle.
– La confusion entre vecteurs propres du sous-espace signal et ceux du sous-espace
bruit (subspace swapping, [Klein 02]).
– La qualité de l’estimation de l’autocorrélation Rs affecte directement la précision
de calcul des valeurs et vecteurs propres. Les petites valeurs propres ne sont pas
forcément celles représentant le bruit blanc.
Section 4.5 : Réducteurs perceptuels du bruit audible 55
–
En outre, le débruitage à sous-espace signal est très coûteux en terme de calcul à
cause du calcul des matrices d’autocorrélation et surtout à cause de leur décomposition
en valeurs propres. Les deux opérations qui sont répétées pour chaque trame du signal.

L’introduction de notions psychoacoustiques dans les méthodes à sous-espace a
suscité beaucoup d’attention. Le but est d’atténuer les imperfections avec un minimum
de distorsions en se basant sur le phénomène de masquage et sur le fait que le bruit
est inaudible tant qu’il est au dessous de la courbe de masquage.
Les modèles de calcul de la courbe de masquage existants (Johnston ou MPEG, voir
sections 2.2.2 et 2.2.3) sont élaborés dans le domaine fréquentiel. La difficulté qui peut
donc accompagner l’utilisation des améliorations de type perceptuel est l’adaptation de
cette courbe dans l’espace propre. Dans [Jabloun 03], [You 05], les auteurs proposent un
modèle de transformation du domaine de Fourier au domaine propre afin de remédier à
ce problème. Une fois que la courbe de masquage est bien adaptée au domaine propre,
on applique les critères d’optimisation (4.60) ou (4.65) de façon à remplacer les seuils
d’admissibilité du bruit résiduel en le contraignant, cette fois-ci, à être au-dessous de
la courbe de masquage T , ce qui signifie qu’on le force à être inaudible.
4.5 Réducteurs perceptuels du bruit audible

4.5.1 Approches et limitations
Tsoukalas [Tsoukalas 97] est parmi les premiers à avoir incorporé les notions de
psychoacoustique pour améliorer les performances du débruitage de la parole. Il a mis
en place la notion de quantité de bruit audible qui est la différence entre le spectre
du signal bruité audible (Eq. 4.74) et le spectre du signal de parole propre audible
(Eq. 4.75), voir (Eq. 4.76). Il a conçu un signal non linéaire (Eq. 4.77) basé sur une
estimation spectrale dite sparse (une composante spectrale par bande critique BC).
Cette estimée représente le minimum spectral du signal de parole propre par bande
critique. Des expériences expérimentales l’ont amené à conclure que ce minimum Smin (i)
a une distribution de probabilité de type Rayleigh dans la majorité des bandes critiques.
Le filtre non linéaire proposé est aussi basé sur le seuil de masquage. Ce dernier est
obtenu via un débruitage itératif par le biais du signal estimé de l’équation (4.77). Les
itérations permettent d’affiner l’estimation du signal propre et ainsi celle de la courbe
de masquage ;
n o
Ay (ν) = max |Y (ν)|2 , T (ν) , (4.74)
n o
As (ν) = max |S(ν)|2 , T (ν) , (4.75)
Ab (ν) = Ay (ν) − As (ν), (4.76)

CHAPITRE 4 :
b Y φ(ν) (ν)
S(ν) = . (4.77)
aφ(ν) (ν) + Y φ(ν) (ν)
Le paramètre φ(ν) représente le seuil minimal au-dessous duquel une forte suppres-
sion de bruit est produite. Le paramètre a(ν) contrôle le taux de suppression donné par
Y (ν)
a(ν)
. Tsoukalas suggère d’adapter a(ν) pour une valeur fixe de φ(ν). Les tests objectifs
ont révélé que l’algorithme n’est pas beaucoup influencé par le choix du paramètre
φ(ν) et qu’une valeur de φ(ν) = 1, pour toutes les bandes critiques, donne les meilleurs
résultats. Les tests d’intelligibilité ont montré, à leur tour, que l’algorithme basé sur
le minimum spectral ainsi que celui basé sur la courbe de masquage augmentent aussi
bien l’un que l’autre le taux d’intelligibilité avec 20% pour le premier et 13% pour le
second.
Dans les travaux [Virag 99, Tsoukalas 97, Gustafsson 98], l’incorporation des no-
tions psychoacoustiques, pour concevoir ou ajuster les filtres perceptuels proposés, se
fait de manière heuristique. Dans [Hu 04], la conception du débruiteur est ramenée à
un problème d’optimisation (minimisation) sous contrainte (courbe de masquage). Soit
ε l’erreur d’estimation dûe au filtrage linéaire H(ν)
e
ε(ν) = S(ν) − S(ν)
= (1 − H(ν))S(ν) − H(ν)B(ν). (4.78)
La quantité εs (ν) = (1 − H(ν))S(ν) représente la distorsion du signal et εb (ν) =

H(ν)B(ν) représente le bruit résiduel. Le spectre d’énergie de ces deux quantités est
donné par :
ε2s (ν) = E (1 − H(ν))2 S(ν)2 = (1 − H(ν))2 E S(ν)2 (4.79)
2
2 2
2
2

εb (ν) = E H(ν) S(ν) = H(ν) E B(ν) . (4.80)
Le problème d’optimisation (4.81) consiste à réduire les distorsions ε2s sous contrainte
que le bruit résiduel ε2b ne dépasse pas un certain seuil, noté à ce stade par α :
min ε2s (ν)

H (4.81)
sous contrainte que ε2b (ν) ≤ α(ν)
C’est un problème convexe dont la solution est facilement obtenue par la méthode du
multiplicateur de Lagrange en posant
N
X
J(H, µ1 , µ2 , ...µN ) = ε2s (ν) + µ(ν) ε2b (ν) − α(ν) .
ν=1
dJ
En résolvant l’équation dH
= 0, on aboutit au filtre linéaire (4.82) pour le problème
(4.81) :
δ(ν)
H(ν) = (4.82)
δ(ν) + µ(ν)γ(ν)
qui peut s’écrire également sous l’expression
ξ(ν)
H(ν) = ,
ξ(ν) + µ(ν)
δ(ν)
où ξ(ν) = γ(ν) est le rapport signal à bruit a priori. Le filtre H(ν) se ramène à un
simple filtrage de Wiener quand µ(ν) = 1. Le paramètre µ(ν) contrôle le rapport entre
l’atténuation spectrale et le rapport signal à bruit. Quand µ(ν) >> 1, les atténuations
augmentent pour un RSB faible. Ces atténuations sont faibles quand ce paramètre
devient très petit. Ce paramètre doit être soigneusement choisi pour éviter d’introduire
trop de distorsions du signal. Dans [Hu 04], ce choix est fait en exploitant la courbe
de masquage T (ν). Ainsi, dans le problème précédent (4.81), au lieu d’un seuil α
quelconque en contraignant le bruit résiduel à être au dessous de la courbe de masquage
T (ν), on aboutit à l’expression du filtre perceptuel optimal suivant :
1
Hopt (ν) = q . (4.83)
γ(ν)
1 + max T (ν)
− 1, 0
Dans [Gustafsson 98] et [Lee 04], les auteurs ont abouti à la même fonction de gain avec
un problème de minimisation sous contrainte qui est plus simple, en contraignant l’er-
reur entre le bruit résiduel H 2 (ν)γ(ν) et le niveau de bruit résiduel qualifié souhaitable
η 2 γ(ν) à être au-dessous de la courbe de masquage (Eq. 4.84) ;
γ(ν)(H 2 (ν) − η 2 ) ≤ T (ν). (4.84)
Aucune contrainte n’est faite sur la distorsion du signal. Quand η > 0 cela signifie qu’on
souhaite garder un certain niveau de bruit résiduel qui va permettre de lisser le spectre
après filtrage ce qui donne lieu à un bruit résiduel plus stationnaire. La résolution de
l’équation (4.84) avec une condition supplémentaire H(ν) ≤ 1 donne lieu au filtre
s
n T (ν) o
H(ν) = min + η2, 1 . (4.85)
γ(ν)
Pour des objectifs audio [Lee 04], on se fixe η = 1 alors que dans le cas de la reconnais-
sance de la parole une valeur de η = 0.05 s’est avérée plus convenable pour diminuer
les distorsions.
Si nous revenons sur l’expression de l’erreur de filtrage (4.78), nous en déduisons
que la distorsion du signal se produit inévitablement quand on supprime le bruit.
D’ailleurs, plus nous supprimons le bruit, plus nous atténuons le signal de parole et
introduisons des distorsions. Le compromis entre suppression et atténuation doit être
optimisé selon un certain critère. Sans faire intervenir des notions psychoacoustiques,
la qualité du débruitage reste contrôlée uniquement par l’erreur totale ε2 (ν) (Eq. 4.78).
La minimisation de cette erreur donne lieu aux filtres optimaux Wiener ou MMSE.
Dans [Gustafsson 98] et [Yanpu 02], une étude géométrique de l’erreur de filtrage
ε(ν) permet d’illustrer l’impact des distorsions sur le bruit résiduel et vice-versa en
fonction du rapport signal à bruit a priori ξ(ν) (Fig. 4.4). Dans cette figure, pour
ξ(ν) = 1, le filtre optimal minimisant ε2 (ν) coı̈ncide avec l’intersection de ε2b (ν) et
ε2s (ν), c’est-à-dire ε2b (ν) = ε2s (ν). Dans le cas où ξ(ν) < 1, le filtre optimal donne lieu à
une minimisation du bruit résiduel au dépens de la distorsion du signal ε2b (ν) < ε2s (ν).
Dans le cas où ξ(ν) > 1, le filtre optimal donne lieu à une minimisation de la distorsion
du signal au dépens du bruit résiduel ε2b (ν) > ε2s (ν). En conclusion, on s’aperçoit que le
CHAPITRE 4 :
ξ=1
ǫ2 ǫ2b
ǫ2s
T
G
0 Gopt 1
ξk < 1 ξk > 1
ǫ2b
ǫ2 ǫ2
ǫ2s
ǫ2b
ǫ2s
G G
0 Gopt 0 Gopt
Figure 4.4 — Distorsion et bruit résiduel en fonction du RSB a priori ξ
filtrage optimal minimisant l’erreur quadratique moyenne ε2 (ν) ne peut pas contrôler
séparément les quantités ε2b et ε2s . Aussi, les améliorations apportées dans la littérature
visent à injecter des informations supplémentaires perceptuelles afin d’ajouter plus
de flexibilité à ces deux quantités et ainsi améliorer les performances. L’information
souvent exploitée est la courbe de masquage parce qu’elle modélise le phénomène de
masquage qui se produit au niveau de notre système d’audition et dont l’impact est
très déterminant. Dans la figure 4.5, on présente le premier cas de figure qui peut
se présenter : ε2 > Tk quel que soit ν. Il n’y a donc pas d’intersection entre l’erreur
totale ε2 et la courbe de masquage Tk . Cela signifie que, quel que soit le gain G(ν), il
est impossible de contraindre cette erreur à être au-dessous de T (ν) et la rendre ainsi
ξ=1
ǫ2 ǫ2b
ǫ2s
T
H
0 Gopt 1
Figure 4.5 — Distorsion, bruit résiduel et courbe de masquage
ξ=1
ǫ2
ǫ2s ǫ2b T
H
0 G1 Gopt G2 1
Figure 4.6 — Distorsion, bruit residuel et courbe de masquage : intersection entre

la courbe de masquage et l’erreur quadratique moyenne
inaudible.
Dans le cas où il y a intersection, on se donne simplement la contrainte d’avoir
ε2 < Tk sans imposer le minimum. Ce qui permet de jouer sur la distorsion et le bruit
résiduel tout en restant au dessous du seuil de maquage Tk . L’intersection entre le seuil
de masquage et ε2 donne lieu à deux filtres différents G1 et G2 ) représentant les points
d’intersection gauche et droit respectivement [Gustafsson 98].
p
δ(ν) ± δ(ν)T (ν) − γ(ν)δ(ν) + T (ν)γ(ν)
G1,2 (ν) = . (4.86)
γ(ν) + δ(ν)
CHAPITRE 4 :
Si on privilégie les distorsion du signal et qu’on veut en avoir le minimum possible, on

choisi un filtre G qui tend vers G1 . Si on veut obtenir moins de bruit résiduel, on prend
un G qui tend vers G2 .
Généralement, on prend G(ν) ≤ 1, alors que, dans l’équation (4.86), on peut se
retrouver face à des valeurs de G supérieures à 1, d’où la contrainte supplémentaire
suivante
n o
G = min Gi (ν), 1 , pour i ∈ 1, 2.
Pour un G tel que G1 ≤ G ≤ G2 , l’erreur ε2 est au dessous de la courbe de masquage

T (ν). Elle est donc inaudible. En priorité, on choisit G2 comme solution puisqu’elle
nous garantit le niveau de distorsion le plus faible.
Chen [Qijun 06] introduit la notion de probabilité pour optimiser son filtrage per-
ceptuel. Il s’agit de la probabilité de masquage du bruit qui est une originalité de son
travail bien que l’idée fut déjà présente dans le travail d’Azirani [Azirani 95]. En ef-
fet, les auteurs se différencient uniquement dans l’expression de cette probabilité. Si
Azirani considère un modèle simple où la probabilité de masquage du bruit est égale
à un quand le bruit est audible et est égale à zéro dans le cas inverse, Chen établit
une expression de cette probabilité qui est une fonction de la courbe de masquage (Eq.
4.87). Il part de l’hypothèse que l’amplitude du bruit a une fonction de densité de
probabilité de type Rayleigh :
T (ν)
p(ν) = 1 − e γ(ν) . (4.87)
Pour la conception de son estimateur, Azirani considère S(ν) b = E[S(ν)|Y (ν)]
comme l’estimation du signal de parole sachant l’observation au sens de la minimi-
sation de l’erreur quadratique moyenne. En développant cette espérance conditionnelle
de façon à introduire une condition sur l’hypothèse binaire (4.89) de l’état du bruit
(masqué ou non masqué), on aboutit à l’estimateur suivant :

b
S(ν) = E S(ν)|Y (ν), H0 p H0 |Y (ν) + E S(ν)|Y (ν), H1 p H1 |Y (ν) (4.88)
avec
H0 : bruit masqué (4.89)
H1 : bruit non masqué

et p Hk |Y (ν) est la probabilité que le signal de parole soit dans l’état Hk sachant
que le signal observé (bruité) est Y (ν). Dans l’état H0 , le bruit est considéré inaudible.
Aucun traitement ne sera envisagé pour éviter les distorsions hsuperflues. Le spectrei du
signal se ramène ainsi au spectre du signal bruité c’est-à-dire E S(ν)|Y (ν), H0 = Y (ν).
En tenant compte de cette modification, l’équation 4.88 se ramène à
h i
b
S(ν) = Y (ν)p(ν) + (1 − p(ν))E S(ν)|Y (ν), H1 (4.90)
h i
avec p(ν) = p H0 |T (ν), γ(ν) = 1 − p H1 |Y (ν) . Pour le calcul de E S(ν)|Y (ν), H1
dans l’équation (4.90), c’est-à-dire dans le cas où le bruit est audible (état H1 ), l’auteur
utilise l’estimateur MMSE-LSA d’Ehpraim et Malah (voir l’équation (4.40) de la section
4.3).
4.6 Conclusion
Dans de ce chapitre, nous avons présenté l’ensemble des techniques de réduction
de bruit les plus répandues dans la littérature. Les méthodes découlant de chaque
technique ont chacune leur intérêt et les améliorations qui leur ont été apportées au fil
du temps sont justifiées.
En résumant les difficultés, on s’aperçoit que toutes les techniques ont un point
commun, c’est la recherche d’un compromis entre bruit résiduel et distorsion du signal.
L’apport de l’aspect perceptuel dans les algorithmes de débruitage de la parole
est très prometteur. Les résultats montrent une nette amélioration par rapport aux
méthodes traditionnelles.
Un autre point de vue important est la complexité des algorithmes, Par exemple, les
méthodes à sous-espace signal, bien que performantes restent pénalisées par la charge
de calcul importante qu’elles demandent.
Enfin, compte tenu du niveau de complexité, les méthodes basées sur le filtrage de
Wiener restent très séduisantes du point de vue de leur simplicité et de leur flexibilité
par rapport aux améliorations (surtout perceptuelles) qui peuvent leur être apportées.
Nous aurons l’occasion de revenir sur cette technique au chapitre 6, notamment pour
présenter nos contributions sur ce sujet.
5
CHAPITRE
Estimation du bruit
5.1 État de l’art

La plupart des algorithmes de réduction du bruit qui opèrent dans le domaine
spectral nécessitent une estimation précise de la densité spectrale de puissance du
bruit pour restituer une bonne estimée du signal de parole. C’est le cas surtout des
systèmes monocapteur. Les méthodes classiques sont basées sur un détecteur d’activité
vocale. L’idée est que les périodes de pause correspondent à la présence de bruit seul.
On limite ainsi la mise à jour de l’estimation du bruit en faisant une moyenne sur
ces périodes. Certes, les performances de ces méthodes sont satisfaisantes quand il
s’agit de bruits stationnaires et quand le rapport signal à bruit (SNR) est élevé mais
deviennent modestes dans les situations inverses ou alors quand il y a de la respiration.
Cependant, même si cette hypothèse peut être critique, elle est souvent utilisée. En
outre, ces méthodes requièrent généralement un bon détecteur d’activité vocale.
Des techniques alternatives et plus sophistiquées ont donc été élaborées pour pallier
ces problèmes. Pour commencer, l’une des techniques de base est le suivi des statistiques
minimales (MS, Minimum Statistics) proposé par Martin dans [Martin 94]. Cette tech-
nique ne requiert pas la présence d’un détecteur d’activité vocale et permet d’estimer
même les bruits non stationnaires. Le suivi du minimum spectral dans chaque bande
de fréquence s’effectue après une première opération de lissage, de premier ordre, du
périodogramme du signal bruité |Yk (ν)|2 Eq. 5.1.
Pk (ν) = αPk−1(ν) + (1 − α)|Yk (ν)|2 (5.1)
où k est l’indice de la trame. Par convention, la première trame est considérée comme
une trame de silence : P1 (ν) = |Y1 (ν)|2 . L’estimée de la densité spectrale de puis-
sance du bruit b γk (ν) à la trame k est obtenue par sélection du minimum Pkmin (ν) du
périodogramme lissé Pk (ν) dans une fenêtre de L canaux de fréquences. Après un pre-
mier travail [Martin 94] où α était considéré comme une constante, dans une version
plus récente [Martin 01], ce paramètre de lissage devient dépendant du temps et de la
fréquence pour éviter des estimées avec une très grande variance. Alors, dans le cas où
α dépend à la fois de la fréquence et du temps, l’expression (5.1) devient :
Pk (ν) = αk (ν)Pk−1 (ν) + (1 − αk (ν))|Yk (ν)|2 (5.2)
Quand la parole est absente, on cherche Pk (ν) ≈ γk (ν) selon un problème d’optimisa-
tion qui consiste à trouver α minimisant l’erreur quadratique moyenne conditionnelle
64 CHAPITRE 5 : Estimation du bruit
suivante : h 2 i
E Pk (ν) − γk (ν) |Pk−1(ν) . (5.3)
La solution de ce problème nous amène à l’expression de α optimal suivante :
1
αkopt (ν) = Pk−1 (ν) 2 (5.4)
1+ γk (ν)
−1
2
où Pγk−1 (ν)
k (ν)
est une version lissée du rapport signal à bruit a posteriori χk (ν) = |Yk−1 (ν)|
γk (ν)
et 0 < αopt (ν) < 1 . Côté pratique, pour calculer αkopt (ν), on remplace γk (ν) par sa
valeur estimée dans la trame précédente b γk−1(ν). On limite également α à une valeur
maximale αmax = 0.96.
Puisqu’on se sert de l’information sur la trame précédente, l’estimée de la densité
spectrale du bruit présente un certain retard. Pour le compenser, un facteur de cor-
rection αc (ν) dont les valeurs sont choisies empiriquement plus grandes que 0.7 est
introduit dans l’Eq. (5.5) :
αc (ν) = 0.7αc (ν − 1) + 0.3 max(b

αc (ν), 0.7) (5.5)
avec
1
α
bc (ν) = P PN −1 2 . (5.6)
N −1 2 −1
1+ ν=0 P k−1 (ν)/ ν=0 |Y k (ν)|
tous détails sur la dérivation de l’équation (5.6) sont présentés dans [Martin 01].
Pour conclure, le paramètre de lissage final α
bk (ν) est la multiplication du paramètre
opt
de lissage optimal αk (ν) par le facteur de correction αc (ν) et une pondération par la
valeur maximale αmax de α, ce qui donne lieu à l’équation suivante :
αmax αc (ν)
α
bk (ν) = Pk−1 (ν) 2 (5.7)
1+ γ
bk (ν)
−1
De cette façon, le paramètre de lissage α

bk (ν) devient sous-optimal, mais les différences
par rapport au cas optimal sont en moyenne très petites.
Le minimum d’un ensemble de variables aléatoires est inférieur à leurs moyennes, d’où
le biais dans l’estimation de la variance du bruit par la technique de suivi du minimum
et ainsi le besoin de compenser ce biais afin d’améliorer l’estimation. Effectivement,
cette compensation sera assurée par la multiplication de l’estimée issue du minimum
de l’Eq. (5.1), c’est-à-dire Pkmin(ν), par l’inverse de la moyenne du minimum de L
séquences de variables aléatoires qui sont dans notre cas les estimations de la densité
spectrale de puissance, Pk (ν) où k ∈ {k, k − 1, ..., k − L + 1}. L’estimateur de la densité
spectrale de puissance après compensation du biais a donc comme expression :
Pkmin (ν)
bk2 (ν) =
γ . (5.8)
E[Pkmin(ν)]|γk2 (ν)=1
La méthode ainsi présentée par Martin [Martin 01] fournit une bonne estimée de
bruit, mais son inconvénient majeur est le délai de l’estimation qui, dans le pire cas,
Section 5.1 : État de l’art 65
atteint 2L. Une amélioration, apportée à cette méthode dans [Martin 01], consiste à
diviser le segment de recherche de longueur L en U fenêtres de V échantillons tel que :
L = U × V . De cette façon, le retard maximum est, cette fois-ci, de l’ordre de L + V
c’est-à-dire qu’on effectue une mise à jour du bruit dès la première fenêtre (de taille V )
du deuxième segment(de taille L), d’où L + V . Pour une fréquence d’échantillonnage
de 8 kHz, les valeurs de U = 8 et V = 12 se sont avérées les plus adéquates [Martin 01].
Cette amélioration accélère un peu le processus du suivi du minimum pour procéder à
une meilleure estimée dans le cas où la puissance du bruit augmente brusquement.
Dans un autre travail, Cohen [Cohen 02] a proposé un algorithme (MCRA, Minima
Controlled Recursive Averaging) basé sur la moyenne récursive des trames précedentes
du signal bruité. Cette moyenne est contrôlée par un paramètre de lissage dépendant
de la fréquence et dont la mise à jour est fonction de la probabilité de présence de la
parole dans chaque canal de fréquence. Les limitations de cette méthode résident dans
les retards que présente l’estimation par rapport aux changements brusques du niveau
de bruit. Soit
Pk (ν) = α̃k (ν)Pk−1 (ν) + (1 − α̃k (ν))|Yk (ν)|2 (5.9)
où, cette fois-ci, α̃k (ν) est donné par
α̃k (ν) = αk (ν) + (1 − αk (ν))pk (ν) (5.10)
et pk (ν) est la probabilité de présence du signal de parole dont l’expression est donnée
par,
n qk (ν) o−1
pk (ν) = 1 + 1 + ξk (ν) exp − vk (ν) (5.11)
1 − qk (ν)
où ξk (ν) est le rapport signal à bruit a priori, qk (ν) = P(Hk0 (ν)) est la probabilité a
priori d’absence du signal de parole (Hk1(ν) et Hk0 (ν) sont respectivement l’hypothèse
de présence et d’absence du signal de parole) et vk (ν) = χk (ν)ξk (ν)/(1 + ξk (ν)) tel que
χk (ν) est le rapport signal à bruit a posteriori.
Dans une version de l’algorithme (IMCRA, Improved Minima Controlled Recursive
Averaging) [Cohen 03], l’auteur apporte des amélioration à l’ancienne version qui sont
en relation avec le biais introduit par le calul de la probabilité de présence de la parole
(voir équations (5.9, 5.10 et 5.11). Pour compenser ce biais quand la parole est absente,
le périodogramme lissé est pondéré par un facteur β dépendant de la probabilité a priori
de l’absence du signal de parole qk (ν) = P(Hk0 (ν)). Pour calculer cette probabilité
dont dépend aussi le lissage du périodogramme (Eq. 5.9) à travers le paramètre de
lissage de l’équation (5.10). Son estimateur qbk (ν) requiert deux itérations de lissage
temps-fréquence et de suivi de minimum, la première itération pour mettre au point
un détecteur d’activité vocale dans chaque canal de fréquence et l’autre pour éliminer
les composantes puissantes du signal en présence de la parole pour faciliter le suivi du
minimum.
Vu que la probabilité d’absence du signal de parole est aussi basée sur une connais-
sance du minimum local, le retard de calcul en découlant est à peu près du même
ordre de grandeur que dans la version précédente surtout dans le cas où le bruit est
important, mais cette méthode donne de meilleurs performances que la version d’avant.
Dans un autre travail, Rangachari [Rangachari 04] propose une méthode qui permet
une mise à jour plus rapide, par rapport aux autres méthodes déjà citées, de l’estimée
du bruit dans chaque trame. Cette estimée est basée sur un détecteur d’activité vocale.
Lors des pauses, le coefficient de lissage est constant. La présence de parole est définie
par le rapport entre le signal bruité et son minimum local. Cette méthode parvient
rapidement à s’adapter à un changement brusque du niveau de bruit. Deux modofi-
cations ont été apportées à cette méthode dans [Rangachari 06]. Premièrement, plus
besoin d’un DAV explicite. Deuxièmement, l’estimation de la probabilité de présence de
parole (Eq. 5.12) exploite, cette fois-ci, la corrélation entre les composantes spectrales
de puissance adjacentes :
pk (ν) = αkp (ν) + (1 − αkp (ν))Ik (ν). (5.12)
Si Pk (ν)/Pkmin (ν) > δ(ν), on pose Ik (ν) = 1, ce qui revient à considérer que la parole
est présente ; sinon, on pose Ik (ν) = 0 ce qui signifie que la parole est absente. Le
seuil δ(ν) dépend de la fréquence (contrairement à [Cohen 02] et [Cohen 03] où ce seuil
est fixé pour toutes les fréquences) et est déterminé expérimentalement. L’algorithme
proposé effectue une mise à jour de l’estimée du bruit dans chaque trame en utilisant
un facteur de lissage temps-fréquence calculé à partir de la probabilité de présence de
la parole.
Dans le contexte de la reconnaissance de la parole, des algorithmes d’estimation
récursive du bruit non stationnaire ont été proposés dans le domaine cepstral. Ils em-
ploient les GMM (Gaussian Mixture Model) pour modéliser le bruit [Deng 03]. Les
paramètres du bruit sont considérés comme déterministes et sont donc obtenus par
approches stochastiques itératives. L’estimation récursive emploie un facteur d’oubli
pour un compromis entre la précision de l’estimation et la rapidité avec laquelle les
changements brusques du bruit sont pris en compte.
Dans la section suivante, on présente un estimateur de bruit dont l’idée repose sur la
notion de parcimonie où un signal utile peut êre représenté par un nombre relativement
faible de valeurs d’amplitudes signficativement grandes.
5.2 Estimateur de la borne essentielle (Essentiel

Supremum Estimate)
5.2.1 Cas du bruit blanc
Dans de nombreuses applications, extraire une information sur le signal à partir des
observations exige la connaissance au préalable de l’écart type du bruit (dans le cas
du bruit blanc gaussien) ou du spectre de bruit en général (traitement du signal radar,
débruitage de la parole,. . . ). L’approche [Pastor 07a], [Pastor 07b] décrite dans cette
section est basée sur les statistiques que l’ont peut calculer à partir des signaux ob-
servés additivement corrompus par un bruit blanc gaussien. Ces signaux sont supposés
indépendants et de dimension d. Leurs amplitudes sont supérieures à une amplitude
minimale et leurs probabilités de présence appartiennent à [0, 1[ . On suppose qu’on
Section 5.2 : Estimateur de la borne essentielle (Essentiel Supremum Estimate) 67
ignore les distributions de probabilité de ces signaux et qu’aucune connaissance a priori

sur le bruit n’est supposée à l’avance.
Soient ε = (εk )k∈N une suite de variables aléatoires à valeurs dans {0, 1}, S =
(Sk )k∈N une suite de vecteurs aléatoires de dimension d et X = (Xk )k∈N une suite de
vecteurs aléatoires indépendants de dimension d, identiquement distribués et tels que
Xk ∼ N(0, σ02 ) pour tout entier naturel k. Soit ℓ∞ (N, Lν (Ω, Rd )) l’ensemble des suites
S = (Sk )k∈N de vecteurs aléatoires de dimension d telles que S ∈ Lν (Ω, Rd )) pour tout
k ∈ N et supk∈ E [[] kSk kν ] < ∞.
Soit Y = εS + X où Y = (Yk )k∈N . Soient les hypothèses suivantes :
(H1) pour tout k ∈ N, εk , Sk et Xk sont indépendants ;
(H2) les vecteurs aléatoires Yk sont indépendants ;
(H3) pour tout k ∈ N, l’ensemble des probabilités P ({εk = 1}) est borné par p = 1/2
et les variables aléatoires εk , k ∈ N sont indépendantes ;
(H4) il existe ν ∈ [0, ∞] tel que S ∈ ℓ∞ (N, Lν (Ω, Rd )).
Soit r et s, deux nombres réels positifs tels que 0 ≤ s < r ≤ ν/2. Pour tout entier
naturel m et tout couple (σ, T ) de nombres réels positifs ou nuls, définissons la variable
aléatoire ∆m (σ, T ), tel que
m
X
kY k r
I(kY k ≤ σT )
k k
k=1 Υ r (T )
∆m (σ, T ) = m −σ r−s
(5.13)
X Υ s (T )
kYk ks I(kYk k ≤ σT )

k=1
où
R x I(kY k k ≤ σT ) est une fonction indicatrice de l’événement kYk k ≤ σT et Υq (x) =
q+d−1 −t2 /2
0
t e dt (d’après un calcul analytique présenté en détail dans [Pastor 07a]).
La variable aléatoire ∆m (σ, T ) représente physiquement un écart énergétique
sélectif qui tient compte uniquement des normes kYk kr inférieures à un certain seuil
σT . On élimine ainsi les portions où la paroles est présente. La quantité σ r−s Υ r (T )
Υs (T )
est calculée analytiquement et représente un niveau moyen énergétique auquel va
tendre le rapport à gauche dans l’équation (5.13) quand le nombre d’observations m
et l’amplitude des signaux sont suffisamment grands.
Le spectrogramme d’un signal de parole, c’est à dire la représentation temps-
fréquence de ce signal obtenue par Transformée de Fourier à court-terme, est une
représentation parcimonieuse du signal de parole dans le sens où seules quelques va-
leurs complexes parmi celles fournies par le calcul du spectrogramme ont des modules
significativement grands par rapport aux autres. Dans l’exemple d’un spectrogramme
de signal bruité (figure 5.1) , on voit bien que le bruit est plus présent que la parle
alors que la parole est d’énergie plus élevée. Le but de l’algorithme est d’estimer le
bruit dans les trous contenant alors que du bruit.
Selon ces hypothèses, σ0 est l’unique réel positif σ tel que, pour tout β0 ∈ (0, 1],

lim lim sup ∆m (σ, T ) = 0 (5.14)
a(S)→∞ m ∞
Figure 5.1 — Spectrogramme d’un signal bruité par un bruit de conversation

(Babble) à 5dB
où
a(S) = sup{α ∈ [0, ∞] : ∀k ∈ N, kSk k ≥ α}. (5.15)
est l’amplitude minimale des kSk k.
L’idée de ce théorème est de dire que l’écart type du bruit est le seul réel positif
pour lequel la convergence (5.14) est vérifiée lorsque le nombre d’observations m et
l’amplitude minimale a(S) des signaux utiles tendent vers l’infini. Cette convergence
peut s’expliquer en développant le rapport à gauche dans l’équation (5.13).
Selon la loi des grands nombres et quand m → ∞, on a
m
1 X
kYk kr I(kYk k ≤ σT ) ≈ E(kYk kr I(kYk k ≤ σT )). (5.16)
m k=1
On a alors,
E [kYk kr I(kYk k ≤ σT )] = E [kYk kr I(kYk k ≤ σT )] P (εk = 0)

+ E [kYk kr I(kYk k ≤ σT )] P (εk = 1) (5.17)
r
= E [kXk k I(kXk k ≤ σT )] P (εk = 0)
+ E [kSk + Xk kr I(kSk + Xk k ≤ σT )] P (εk = 1). (5.18)
Si kSk + Xk k ≤ σT , alors kSk + Xk kr ≤ σ r T r , de plus, E(I(A)) = P(A). On obtient

alors,
E [kYk kr I(kYk k ≤ σT )] ≤ E [kXk kr I(kXk k ≤ σT )] P (εk = 0)

+ σ r T r E [I(k(Sk + Xk )k ≤ σT )] P (εk = 1) (5.19)
≤ E [kXk kr I(kXk k ≤ σT )] P (εk = 0)
+ σ r T r P [kSk + Xk k ≤ σT ] P(εk = 1) (5.20)
On peut alors montrer que si T = T (ρ) avec ρ = a(S) σ

est bien choisi (Lemme,
[Pastor 07a]),
lim σ r T r P [kSk + Xk k ≤ σT ] = 0 (5.21)
ρ→∞
m
X
On a alors, 1
m
kYk kr I(kYk k ≤ σT ) ≤ p E [kXk kr I(kXk k ≤ σT )] où p = P (εk = 0).
k=1
En fait, la théorie nous montre que cette inégalité est pratiquement une égalité de sorte
que nous avons
m
1 X
kYk kr I(kYk k ≤ σT ) ≈ p E [kXk kr I(kXk k ≤ σT )] (5.22)
m
k=1
où P[εk = 0] = p. La représentation heuristique (5.22) est justifiée lorsque l’amplitude

des signaux Sk est suffisamment grande et que le seuil σT est bien choisi.
En suivant ces même étapes, cette fois-ci, pour le calcul de la quantité
m
X
1
m
kYk ks I(kYk k ≤ σT ), on obtient,
k=1
m
1 X
kYk ks I(kYk k ≤ σT ) ≈ p E [kXk ks I(kXk k ≤ σT )] . (5.23)
m k=1
Ainsi,
m
X
kYk kr I(kYk k ≤ σT )
k=1 E [kXk kr I(kXk k ≤ σT )]
m ≈ . (5.24)
X E [kXk ks I(kXk k ≤ σT )]
s
kYk k I(kYk k ≤ σT )
k=1
E[kXk kr I(kXk k≤σT )]

Un calcul élémentaire, présenté dans [Pastor 07b] montre que E[kXk ks I(kXk k≤σT )]
vaut
σ r−s Υ r (T )
Υs (T )
. Ainsi,
m
X
kYk kr I(kYk k ≤ σT )
k=1 Υr (T )
m ≈ σ r−s . (5.25)
X Υs (T )
s
kYk k I(kYk k ≤ σT ))
k=1
Les signaux Sk sont souvent à énergies E[|Sk |2 ] finies, on a alors ν = 2 (cf. (H4)).
En plus, du moment où on a l’inégalité 0 ≤ s < r ≤ 1, en choisissant r = 1 et s = 0
dans l’équation (5.13), l’algorithme de la borne essentielle estime l’écart type du bruit
σ0 par un minimum local du coût ∆m . Cette estimée, σ̃0 , est appelée estimée de la
borne essentielle.
Le calcul de la borne essentielle σ̃0 exige de connaı̂tre une borne inférieure de
l’amplitude des signaux, celle-ci n’est pas toujours connue. Dans sa première ver-
sion [Pastor 07a], l’algorithme exigeait une connaissance de l’amplitude minimale
des signaux. Dans sa version actuelle [Pastor 07b], l’algorithme s’affranchit de cette
contrainte en supposant a(S) = 0 qui est une borne inférieure triviale pour les normes
des signaux bi-dimensionnels dont la représentation est statistiquement parcimonieuse.
√
Puisque T = T a(S)σ
= T (0) = 2 (voir justification dans [Pastor 02]), ceci donne lieu
à une autre estimée σ
b0 par un minimum local de l’équation (5.26).
m
X √
kY kI(kY k ≤ σ 2)
k k √
Υ1 ( 2)
sup = k=1 m −σ √ . (5.26)
ℓ∈{1,...,L} X √ Υ0 ( 2)
I(kYk k ≤ σ 2)

k=1
L’algorithme est cette fois-ci appelé C-ESE, par référence à une estimée dans le cas
complexe de la borne essentielle. On gardera en dernier lieu une estimée C-ESE qui est
meilleure que les autres et qu’on note ici σ0∗ tel que
v
uX
u m √
u kY k k 2
I(kY k k ≤ σ
b 2)
u
u
σ0∗ = η u k=1 m . (5.27)
u X √
t I(kY k ≤ σ b 2)
k
k=1
La justification théorique de σ0∗ est un problème qui reste ouvert. D’après [Pastor 07b],
√
η est choisi proche de 1 et sa valeur est ajustée selon l’application. Une valeur de 2
s’avère meilleure pour le cas de signaux de parole bruités par un bruit blanc gaussien
dont on cherche l’écart type. Un résumé des principales étapes de l’algorithme C-ESE
est décrit dans le tableau 5.1.
5.2.2 Cas du bruit coloré

Dans le cas du bruit coloré Xk (ν) ∼ N(0, Nγ(ν)), l’adaptation de l’algorithme C-
ESE est basée sur deux hypothèses, à savoir que le bruit est stationnaire au sens large
durant l’observation du signal de parole et que le signal et le bruit sont indépendants.
Le but de l’algorithme est d’estimer cette fois-ci la densité spectrale de puissance du
bruit que l’on note ici γ tel que :
E[|Xk (ν)|2 ]
γ(ν) = . (5.28)
N
Le point essentiel est de dire que la représentation temps-fréquence (spectrogramme)
d’un signal de parole est une représentation parcimonieuse dans le sens où seules
quelques valeurs complexes ont des modules significativement grands par rapport aux
autres.
Pour un canal de fréquence ν fixe, la suite des valeurs Xk (ν) est une suite de
variables aléatoires décorrélées, de même variance et gaussiennes. Ce qui revient à dire
que le bruit par harmonique ν est blanc spatialement, c’est-à-dire sur une bande de
fréquence donnée.
L’algorithme C-ESE pour le cas du bruit coloré consiste alors à calculer une estimée
du bruit sur chaque canal de fréquence ν en appliquant un simple C-ESE sur les
coefficients temps-fréquence calculés dans ce canal.
Soit y(t), t = 0, ..., T − 1 un signal bruité, ν = 2, r = 1 et s = 0

1. Découpage de y(t) en trames non chevauchantes de N échantillons,
puis passage au domaine fréquentiel par transformée de Fourier
discrète (TFD).
2. Tous les vecteurs sont rassemblés dans une matrice N/2∗K (la moitié
du spectre est dûe à la symétrie hermitienne de la TFD) où K est le
nombre de trames.
3. Permutation des vecteurs de la matrice afin de garantir l’indépendance
entre échantillons puis concaténation de tous les vecteurs en un seul
vecteur ligne.
4. Découpage de ce vecteur ligne en segments de m observations.
5. Calcul de la racine carrée de la sommation des échantillons du
carrée
pPm de la norme de chaque segment de taille m, c’est-à-dire
2
k=1 |Yk (ν| .
6. Tri des normes par ordre croissant : on obtient alors la séquence Y[k] ,
k = 1, ..., m.
7. Calcul de l’intervalle [σmin , σmax ] de recherche√du minimum local fσ0√de
l’expression (5.26) tel que : σmin = kY[kmin] k/ 2 et σmax = kY[m] k/ 2
p m
où kmin = m(1/2 − h), h = 1/ 4m(1 − Q) et Q ≤ 1 − 4(m/2−1) 2 , avec
comme valeur typique Q = 0.95. Les justifications théoriques de ces

choix sont présentées dans [Pastor 07a].
8. Recherche du minimum local fσ0 de (5.26) dans l’intervalle [σmin , σmax ]
par la fonction MATLAB, fminbnd.m.
9. Enfin, calcul de σ
b0 l’estimée de σ0 tel que :
v
uX m
√
u 2
u |Y k | I(|Y k | ≤ σ
f 0 2)
u
u k=1
b0 = η u
σ m
u X √
t I(|Y | ≤ f σ 2)
k 0
k=1
√ √
où η = 2 et I(|Yk | ≤ f
σ0 2) est la fonction indicatrice√ des segments
σ0 2.
d’indice k pour des normes inférieures ou égales à f
Tableau 5.1 — Algorithme C-ESE dans le cas du bruit blanc
Quant à la programmation, dans le cas d’un signal de parole bruité par un bruit
coloré, on découpe ce dernier en une suite de trames de N échantillons chacune. Puis,
chaque trame subit une Transformation de Fourier Discrète. Le résultat est stocké dans
une matrice complexe dont l’indice de ligne indique le numéro de la trame et l’indice
de colonne désigne le rang k de l’harmonique. Ensuite, nous appliquons l’algorithme C-
ESE pour chaque harmonique sur toutes les trames simultanément (voir schéma de la
figure 5.2) en considérant uniquement la moitié de la matrice, étant donnée la symétrie
C−ESE Y1 (1) Y2 (1) . . . . YK (1) σ0∗ (1)
C−ESE Y1 (2) Y2 (2) . . . . YK (2) σ0∗ (2)

. . .
. . .
. . .
. . .
. . .
. . .
C−ESE Y1 (N − 1) Y2 (N − 1) . . . . YK (N − 1) σ0∗ (N − 1)
Figure 5.2 — C-ESE appliqué à toutes les trames par canal de fréquence donné
dans le cas d’un bruit coloré
hermitienne de la TFD. Nous obtenons ainsi une estimée du spectre du bruit coloré γb
telle que :    
γb(1) σ0∗ (1)
 γb(2)  1 
∗ 
   σ0 (2) 
 .. =  .. . (5.29)
 .  N . 
γb(N − 1) σ0∗ (N − 1)
5.3 Simulations
Nous présentons ici quelques résultats de simulations pour illustrer le comportement
et les performances de chacune des méthodes suivantes : IMCRA [Cohen 03], MCRA2
[Rangachari 06], MS [Martin 01] et C-ESE [Pastor 07b]. Pour cela, nous considérons
un ensemble de 100 fichiers de parole choisis aléatoirement dans la base TIdigits et
bruités successivement par un bruit blanc gaussien généré par matlab et sauvegardé en
mémoire, un bruit Babble et un bruit de voiture (Volvo) de la base Noisex. Les signaux
de parole bruités sont ensuite décomposés en trames successives non chevauchantes et
de longueur N = 256 pour le cas de l’évaluation par l’algorithme C-ESE. Elles sont che-
vauchantes à 50%, fenêtrées par Hanning et de même taille pour le cas des algorithmes
IMCRA, MCRA2 et MS. Chaque méthode est ainsi mise dans ses meilleures condi-
tions de fonctionnement afin de la tester objectivement. Les méthodes sont comparées
en premier lieu par un critère objectif, qui est en l’occurrence l’erreur quadratique
moyenne normalisée MSE (Mean Square Error) [Rangachari 06], dont l’expression est
la suivante : 2
L−1 PN −1
1 X ν=0 σ bk2 (ν) − σk2 (ν)
MSE = PN −1 2 (5.30)
L k=0 ν=0 (σk (ν)) 2
bk2 (ν) et σk2 (ν) sont respectivement le

où L est le nombre total de trames du signal, σ
spectre de puissance du bruit estimé par chaque méthode et la valeur empirique de
ce spectre. Une méthode d’estimation du bruit est d’autant meilleure que le MSE
Section 5.3 : Simulations 73
s’approche de 0 et vice-versa. D’après l’équation (5.30), on effectue une moyenne sur

toutes les trames du fait que le MSE n’est pas constant et varie d’une trame à l’autre,
ce qui est illustré par la figure 5.3 où nous nous contentons de donner les résultats pour
2 méthodes. D’après cette figure, on constate qu’effectivement le MSE change d’une
2.5
IMCRA
MCRA2
2
MSE par trame
1.5
0.5
0
0 10 20 30 40 50 60 70 80 90 100
Numéro de trame
Figure 5.3 — Évolution du MSE par trame pour un signal de parole donné
trame à l’autre et qu’en faisant la moyenne on pourrait avoir une meilleure idée des
performances d’un algorithme. D’après cette même figure, on remarque que le MSE
correspondant aux premières trames s’approche plus de 0 ceci est du au fait que ces
trames correspondent à des moments de silence où seul le bruit est présent. Pour la
suite des évaluations des méthodes, on considère la moyenne du MSE présenté dans
l’équation (5.30).
D’après les tableaux 5.4, 5.5 et 5.6, l’algorithme C-ESE se distingue nettement
des autres méthodes avec des valeurs de MSE presque négligeables. Ceci montre que
l’algorithme est performant mais cette mesure objective reste insuffisante parce que
trop sensible aux valeurs aberrantes. En plus, elle ne fait pas la distinction entre sur-
estimation et sous-estimation du bruit [Rangachari 04].
Pour compléter notre analyse, nous avons utilisé une deuxième mesure objective,
le rapport signal à bruit segmental segSNR calculé en sortie d’un filtrage de Wiener
ajusté par une estimation de bruit provenant des quatre méthodes à comparer. Les
résultats sont présentés dans les tableaux 5.7, 5.8 et 5.9. D’après ces tableaux, le C-ESE
continue de donner de meilleurs résultats en cohérence avec la première évaluation par
MSE pour le cas du bruit blanc et du bruit Babble. Pour le cas du bruit de voiture c’est
l’algorithme du suivi de minimum MS de Martin qui donne les meilleures performances.
0.25
MS
IMCRA
MCRA2
0.2 C−ESE
0.15
MSE
0.1
0.05
0
0 5 10
SNR (dB)
Figure 5.4 — MSE correspondant à chaque estimateur dans le cas du bruit blanc
gaussien
1.8
MS
1.6 IMCRA
MCRA2
1.4 C−ESE
1.2
1
MSE
0.8
0.6
0.4
0.2
0
0 5 10
SNR (dB)
Figure 5.5 — MSE correspondant à chaque estimateur dans le cas du bruit Babble
10
MS
9 IMCRA
MCRA2
8 C−ESE
7
6
MSE
0
0 5 10
SNR (dB)
Figure 5.6 — MSE correspondant à chaque estimateur dans le cas du bruit de

voiture (Volvo)
Section 5.3 : Simulations 75
3.5
MS
3 IMCRA
MCRA2
2.5 C−ESE
segSNR (dB) 2
1.5
0.5
−0.5
−1
−1.5
0 5 10
SNR (dB)
Figure 5.7 — segSNR moyen correspondant à chaque estimateur dans le cas du

bruit blanc gaussien
2
MS
IMCRA
1 MCRA2
C−ESE
0
segSNR (dB)
−1
−2
−3
−4
0 5 10
SNR (dB)

bruit Babble
3
MS
IMCRA
2 MCRA2
C−ESE
1
segSNR(dB)
−1
−2
−3
−4
0 5 10
SNR (dB)

bruit de voiture (Volvo)
5.4 Conclusion
Dans ce chapitre, nous avons présenté un aperçu de quelques méthodes usuelles
d’estimation du spectre de bruit. Ces méthodes sont essentiellement basées sur le suivi
du minimum du spectre du signal observé. Si elles ne requièrent pas un détecteur
d’activité vocale explicite, elles sont tout de même basées sur la probabilité de présence
de la parole. Cette information permet de changer le comportement des algorithmes
en fonction du résultat de la détection. Le calcul de cette probabilité est soit basé sur
un détecteur d’activité vocale moins sophistiqué (par seuillage), soit sur le suivi du
minimum lui même. Ce dernier est d’autant plus précis qu’il est considéré sur plusieurs
segments. L’inconvénient majeur de ce type de méthode est l’introduction de retard
d’estimation dont la conséquence immédiate est la lenteur d’adaptation de l’estimation
face aux changements brusques de l’énergie des bruits non-stationnaires.
Nous avons également présenté l’algorithme C-ESE dont le principe est différent : il
n’a besoin d’aucun a priori. Il est simplement conçu à base d’hypothèses statistiques et
de parcimonie des signaux. L’estimation de bruit par C-ESE donne lieu à une estimée
du spectre qui est précise du point de vue du critère de l’erreur quadratique moyenne
MSE. Cette estimée, injectée dans un système de débruitage de la parole par filtrage de
Wiener, permet d’augmenter le rapport signal à bruit segmental par rapport aux autres
méthodes évaluées. Cependant, cette estimation reste limitée pour plusieurs raisons.
Premièrement, l’algorithme C-ESE ne fonctionne pas en temps réel. Deuxièmement,
certains de ces paramètres sont ajustés de façon complètement heuristique et le champ
est encore ouvert pour toute justification théorique à ce propos. Enfin, cet algorithme
est moins rapide que les autres méthodes, ce qui est dû au fait qu’il traite toutes les
trames du signal simultanément au lieu de donner une estimation au fur et à mesure
de l’arrivée des trames.
De part sa précision, cet algorithme reste prometteur. Il serait même très intéressant
d’étudier la possibilité de le combiner avec des méthodes heuristiques décrites dans ce
chapitre afin de réduire la part d’empirisme de ces méthodes. On peut penser notam-
ment à la méthode de Martin qui recherche un minimum statistique qui pourrait être
remplacé par une estimée issue du C-ESE.
Lors de ces travaux de thèse, nous n’avons pas pu tester toutes les méthodes d’es-
timation du spectre de bruit, décrites auparavant, dans un système de débruitage. La
partie évalutaion des débruiteurs s’est principalement basée sur un estimateur de bruit
provenant d’une moyenne sur les instants de pauses fournis en sortie du détecteur
d’activité vocale du standard G729. A signaler par contre, qu’on a testé l’estimateur
C-ESE pour des fins de débruitage et que les résultats sont présentés dans l’article
[Pastor 07b]. Dans la suite de nos travaux et comme perspective à court terme, il se-
rait donc intéressant de compléter l’étude en étudiant également le gain (en MBSD et
SSNR) apporté par les autres méthodes d’estimations du spectre de bruit déjà évalués.
6
CHAPITRE
Estimation de la courbe
de masquage
Parmi les problématiques liées au débruitage perceptuel, et qui peuvent réduire ses
performances, on trouve l’estimation de la courbe de masquage (CM). À partir du
moment où cette courbe n’a de signification précise que si elle est calculée en se basant
sur le signal de parole propre, la difficulté est donc présente puisqu’on ne dispose pas
de cet a priori.
Jusqu’à quel point la précision de calcul de la courbe de masquage peut-elle influen-
cer les performances du débruitage de la parole ?
L’influence d’une mauvaise estimation de cette courbe peut être illustrée par deux
cas limites, à savoir une sur-estimation ou une sous-estimation de la courbe de masquage
réelle (Fig. 6.1). Partant du principe que le débruitage perceptuel traite essentiellement
(uniquement, dans plusieurs travaux) le bruit audible, une sur-estimation de la courbe
de masquage va laisser passer beaucoup de bruit considéré ainsi inaudible, ce qui va
introduire beaucoup de bruit résiduel. Une sous-estimation va entraı̂ner par contre des
distorsions superflues. Les deux cas ont des conséquences non négligeables.
Dans la littérature, peu de travaux ont abordé l’amélioration de l’estimation de
la courbe de masquage. L’intérêt s’est porté plus sur l’estimation du bruit malgré
le fait que les deux problèmes ont pratiquement le même niveau d’influence sur les
performances du débruitage perceptuel.
Dans cette partie, nous allons donner un aperçu sur quelques méthodes de la
littérature. Ensuite, nous allons proposer deux méthodes : la première est basée sur
le calcul de la courbe de masquage à partir de la densité spectrale de puissance issue
d’une modélisation Auto Régressive (AR) et la deuxième sur une correction consis-
tant à soustraire le bruit résiduel, non pas du signal de parole, mais de la courbe de
masquage et ce, en se basant sur l’évolution de deux paramètres influents, à savoir le
segSNR (Segmental Signal to Noise Ratio) et le NSNR (Noisy Signal to Noise Ratio).
On note que les figures illustrant les méthodes implémentées en plus de celles qu’on
a proposées correspondent au même signal de parole issu de la base Timit, échantillonné
à 8 kHz et corrompu par un bruit blanc à 5 dB.
78 CHAPITRE 6 : Estimation de la courbe de masquage
(a)
70
65
60
Spectre de puissance (dB)
55
50
45
40
35
30
CM réelle
25 CM estimée
DSP du BBG à 5dB
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence (Hz)
(b)
70
60
50
40
30
20
CM réelle
10 CM estimée
DSP du BBG à 5dB
0 500 1000 1500 2000 2500 3000 3500

Fréquence (Hz)
Figure 6.1 — Estimation de la Courbe de Masquage CM vs Densité Spectrale de

puissance d’un bruit blanc gaussien BBG : (a) Sous-estimation (b) Sur-estimation
Section 6.1 : Estimation à partir d’un signal débruité 79
6.1 Estimation à partir d’un signal débruité
L’estimation de la courbe de masquage à partir d’un signal de parole débruité

par une soustraction spectrale simple constitue la méthode la plus adoptée dans la
littérature. Cependant, cette estimation n’est guère optimale, du fait qu’elle est biaisée
par la présence du bruit musical accompagnant toujours la soustraction spectrale. A
cause de son caractère tonal, ce bruit introduit une sur-estimation de cette courbe
surtout pour les hautes fréquences. Cette méthode a été adoptée dans divers travaux,
d’un côté pour éviter l’introduction de distorsion et, de l’autre, pour éviter d’estimer
la courbe à partir d’un débruiteur sophistiqué et coûteux sachant qu’une complexité, a
priori non négligeable, est déjà introduite par le processus de génération de la courbe
de masquage, que ce soit par le modèle MPEG ou celui de Johnston (Chapitre 2).
L’autre alternative, qui nous semble plus intéressante, consiste à employer le filtrage
de Wiener basé sur l’estimation du rapport signal à bruit a priori d’Ephraim et Malah
(4.39). Ce filtrage est préférable du fait qu’il introduit moins de bruit musical et pas
plus de distorsion ni de coût de calcul qu’une simple soustraction spectrale.
Sur un échantillon de parole de la base Timit, sous-échantillonné à 8kHz et corrompu
par un bruit blanc gaussien à 5 dB, comparons la courbe de masquage estimée à partir
de la sortie du filtre de Wiener et celle calculée par la soustraction spectrale de puissance
proposée par Berouti [Berouti 79]. A partir des observations effectuées sur plusieurs
trames, on constate que la soustraction spectrale a tendance à surestimer la courbe de
masquage réelle alors que le filtre de Wiener la sous-estime (sur la figure 6.2, on illustre
l’exemple sur une trame donnée). Se basant sur cette remarque et sur le fait qu’une
sous-estimation peut entraı̂ner des distorsions au niveau du signal de parole, on peut
envisager de privilégier l’estimation issue de la soustraction spectrale, sauf que celle-ci
a tendance à changer la forme de la courbe de masquage réelle. Quant à la courbe
provenant du filtre de Wiener, elle épouse souvent la forme de la courbe réelle avec
une légère sous-estimation. Notre conclusion finale consiste à dire qu’une estimation
par le filtre de Wiener accompagnée d’une bonne estimation du bruit peut donner de
meilleures performances puisque cette mesure supplémentaire nous évitera d’introduire
des distorsions. Tandis qu’une estimation issue de la soustraction spectrale, même avec
une bonne estimation du bruit, le débruitage perceptuel ne peut éviter l’introduction
du bruit résiduel puisqu’il est basé sur une courbe de masquage laissant passer une
quantité non négligeable de bruit a priori audible.
Dans [Tsoukalas 97], l’auteur propose d’effectuer un processus itératif de débruitage
du bruit audible, permettant d’affiner de mieux en mieux l’estimation de la courbe de
masquage. La procédure est coûteuse mais aboutit à des estimations de la courbe de
masquage plus ou moins satisfaisantes. Quant à l’idée présentée dans [Sarikaya 99],
elle consiste à exploiter un corpus d’apprentissage comportant des paires de vecteurs.
Le premier vecteur représente la courbe de masquage d’un signal propre et le second
vecteur représente la courbe de masquage du signal bruité lui correspondant (l’auteur
a utilisé un bruit donné et un SNR de 5 dB). Ce corpus d’apprentissage est supposé
flexible dans le sens où l’algorithme envisage une structure d’arbre dépendant du type
de bruit et du phonème de parole. À partir d’un signal observé, évidemment bruité,
l’auteur calcule la courbe de masquage et recherche son équivalent parmi toutes les
10000
Amplitude
5000
−5000
0 50 100 150 200 250 300
80
CM, SSP
CM, Wiener
60
CM réelle
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
60
CM, SSP
50 CM, Wiener
CM réelle
40
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Figure 6.2 — Estimation de la Courbe de Masquage (CM) par filtrage de Wiener et

soustraction spectrale (SSP) sur deux exemples de trames : l’une est voisée et l’autre
est non voisée.
Section 6.2 : Ajustement de la courbe de masquage 81
courbes des signaux bruités constituant le corpus d’apprentissage. Une fois le choix
effectué (suite à une minimisation de la distance entre la courbe de masquage du signal
bruité en entrée et celles appartenant au corpus d’apprentissage une à une), il exploite la
courbe de masquage du signal propre représentant le deuxième vecteur correspondant à
son choix. La méthode est prometteuse mais nous la considérons limitée par la nécessité
de connaı̂tre le bruit a priori et soulève ainsi exactement les mêmes difficultés que nous
pouvons relever au niveau des systèmes de reconnaissance de la parole envisageant de
bruiter les références [Mokbel 92].
6.2 Ajustement de la courbe de masquage

6.2.1 Proposition de Virag
Dans [Virag 99], l’estimation de la courbe de masquage est effectuée à partir d’une
estimée du signal de parole issue de la soustraction spectrale classique. L’auteur suggère
par la suite de corriger cette courbe vu la différence qu’elle présente par rapport à la
courbe de masquage du signal propre surtout pour les bandes critiques au delà de la
15ème (hautes fréquences). La correction proposée est empirique et consiste à diminuer
le seuil de masquage pour tenir compte de l’effet tonal du bruit musical. En effet, la
nature tonale du bruit musical semblable à celle de la parole affecte le calcul du seuil de
masquage en augmentant la valeur de celui-ci plus qu’il ne devrait l’être. Mais une chose
est certaine, cette correction ne peut être fiable que si l’on arrive à localiser ou estimer
le bruit résiduel, afin de repérer les bandes critiques concernées par la procédure de
correction ou de diminution du seuil de masquage. Mais de combien faut-il le diminuer ?
Pour répondre à une telle question, il faudrait estimer le bruit résiduel. Cette solution
a fait l’objet du travail d’Udrea [Udrea 08] que nous avons complété et amélioré (voir
section 6.3.1).
6.2.2 Proposition de Tuffy

Dans [Tuffy 99], l’auteur propose une méthode originale pour estimer la courbe de
masquage du signal propre. Cette courbe ne sera pas calculée à partir d’une estimée
du signal propre. Le problème est ainsi contourné de manière à éviter tout passage par
l’estimée du signal de parole qu’elle soit issue d’une soustraction spectrale ou de tout
autre débruiteur.
En espérant disposer d’un bon estimateur du bruit, Tuffy propose d’exploiter la
courbe de masquage calculée à partir du signal bruité et celle calculée à partir du bruit
pour générer la courbe de masquage du signal propre. Il étudie la relation entre ces deux
courbes, dans chaque bande critique, pour pouvoir en extraire les paramètres conve-
nables qui servent à paramétrer la soustraction spectrale d’énergie des deux courbes
(au lieu de celle du spectre de puissance des deux signaux) selon la formule suivante :
(
bs = Ey − ηEb̂ si Ey − ηEb̂ > U,
E (6.1)
U ailleurs,
où Ebs , Ey , E sont respectivement l’énergie du signal estimé, l’énergie du signal de

b̂
parole bruité et l’énergie du bruit dans le domaine fréquentiel. Ces grandeurs converties
en dB donneraient lieu aux courbes de masquages Tb(ν), T y (ν) et T b (ν) ; η et T h sont
le facteur de pondération et le seuil d’audition absolu. En se basant sur l’observation
du tracé des deux courbes T y (ν) et T b (ν), quatre intervalles d’études, dépendants du
rapport signal bruité à bruit NSNR (Eq. 6.2),
PN 2
ν=1 |Yk (ν)|
NSNR = 10 log10 PN , (6.2)
b 2
ν=1 |Bk (ν)|
se présentent :
1- NSNR = 0 dB
2- −1 ≤ NSNR ≤ 1 dB
3- 1 < NSNR ≤ 3 dB
4- |NSNR| > 3 dB.
NSNR = 0 dB : Ce cas se présente quand Ey = Eb̂ , c’est-à-dire lorsqu’il n’y a pas

d’activité vocale, mais uniquement du bruit de fond. Pour soustraire complètement ce
bruit, l’auteur pose η = 1 dans l’équation (6.1) . Afin d’éviter que la valeur de la courbe
de masquage estimée soit au dessous du seuil d’audition absolu U, il considère, dans
chaque bande critique, le maximum entre la valeur de E bs et celle de U .
−1 ≤ NSNR ≤ 1 dB : Ce second cas, où on exclut la situation NSNR = 0, se présente
quand il y a une quantité significative du signal de parole. Expérimentalement, l’auteur
fixe la valeur de η à 0.8 puisqu’elle donne de meilleurs résultats.
1 < NSNR ≤ 3 dB : Dans ce troisième intervalle, la limite supérieure de l’intervalle
d’étude (c’est-à-dire 3 dB) implique que l’énergie d’un des seuils est équivalente au
double de l’autre. Afin de déterminer quel seuil offre le plus d’énergie, on effectue
une simple soustraction d’énergie entre les deux (c’est-à-dire en posant η = 1). Une
différence de 3 dB signifie que l’énergie du signal bruité est le double de celle du bruit,
alors qu’une différence de −3 dB implique le cas inverse, c’est-à-dire que l’énergie du
bruit est le double de l’énergie du signal bruité. Une normalisation s’impose dans les
deux cas, selon l’équation
Ey
Enorm = (6.3)
ηEb̂
où Enorm est l’énergie normalisée et η ∈ {0.5, 2}. Ensuite, afin de mettre plus en
valeur la contribution de la courbe de masquage du signal bruité, il réduit le paramètre
pondérant l’énergie du bruit d’un facteur de 2. La valeur du paramètre η est donc
obtenue comme suit,
Enorm
η= . (6.4)
2
|NSNR| > 3 dB : Ce dernier intervalle d’étude concerne les SNRs supérieurs à 3 dB
en valeur absolue. Ce cas se produit quand on a une différence forte entre les deux
courbes de masquage, justifiée dans le cas de NSNR positif par la domination de la
parole et dans le cas inverse par la domination du bruit. La contribution du bruit dans
Section 6.2 : Ajustement de la courbe de masquage 83
ce cas est difficile à gérer. Néanmoins, il est toujours possible d’approcher l’allure de
la courbe de masquage du signal propre rien qu’en utilisant une valeur η constante
pour toutes les bandes critiques. Ceci permet d’éviter une amplification d’une portion
du spectre par rapport aux autres portions et ainsi un effet perceptuel désagréable.
Expérimentalement également, l’auteur trouve qu’il est plus approprié de réduire le
niveau de la courbe du signal bruité d’un facteur de α = 4 pour NSNR > 3 dB et de
α = 3 pour NSNR < −3 dB. L’effet de l’énergie du bruit est ainsi réduit.
6.2.3 Proposition de Ben Aicha

Dans [Aicha 07], les auteurs exploitent la tonalité de la bande critique pour détecter
le bruit musical, surtout pour les hautes fréquences, et ne pas en tenir compte dans le
calcul de la courbe de masquage. Dans un travail précédent, les auteurs constatent que
le bruit musical est surtout présent et gênant au delà de 1kHz. Comme ils travaillent
avec des signaux sous-échantillonnés à 8kHz, les auteurs se focalisent sur les bandes
critiques de 9 à 18. Afin de détecter les tonales du bruit musical présentes dans un
signal débruité par Wiener Sbk , ils utilisent un signal de référence Sek . Ce signal est une
version légèrement débruitée du signal observé de façon à ne pas introduire ni du bruit
musical ni des distorsions du signal. Ils subdivisent les signaux Sbk et Sek en bandes
critiques. Puis, ils calculent leurs coefficients de tonalité, αbj et αej respectivement, selon
l’équation (6.5),
SFMdB
α = min ,1 (6.5)
SFMdBmax
où nous rappellons que SFMdB est la mesure de la platitude du spectre (voir le chapitre
2 pour plus de détails). Ensuite, à partir de la comparaison entre ∆αj = αbj − αej et un
seuil ζ choisi expérimentalement, les auteurs concluent sur la présence ou non (fonction
indicatrice Mj dans l’Eq. 6.8) du bruit musical. Si le bruit musical est présent dans
la bande critique j, l’indice de tonalité de cette bande αbj est remplacé par l’indice de
tonalité du signal de référence αej (Eq. 6.7) dans le calcul du seuil de correction Oj dans
l’équation (6.6).
Oj = αj (14.5 + j) + (1 − αj )5.5 dB (6.6)

αbj si Mj = 1,
αj = (6.7)
αej si Mj = 0,

1 si αbj − αej ≥ ζ,
Mj = (6.8)
0 ailleurs.
La raison pour laquelle les auteurs se basent sur un signal de référence (signal
légèrement débruité) pour détecter le bruit musical au lieu du signal observé est que ce
dernier induit des fausses détections. Dans un signal bruité, surtout à des SNRs faibles,
certaines tonales de la parole peuvent être masquées par le bruit. Elles apparaı̂tront
suite au débruitage ce qui va entraı̂ner une augmentation du niveau de tonalité de
la bande critique en question, non pas à cause de la présence du bruit musical mais
plutôt par la présence du signal utile. Pour aboutir à un débruitage n’introduisant pas
de bruit musical ni de distorsion du signal, les auteurs introduisent une correction au

niveau du filtrage de Wiener Wk , tel que :

ck = Wk + γ si Wk + γ ≤ 1
W (6.9)
1 sinon.
où γ est fixé expérimentalement. Cette méthode est prometteuse dans le sens où elle
s’affranchit des erreurs d’estimation du signal de parole propre pour estimer la courbe
de masquage. Cependant, elle reste très influencée par la nature du débruitage donnant
lieu au signal de référence sur lequel est basée la détection des tonales du bruit musical.
Dans cette thèse, dans un but purement démonstratif et expérimental, nous avons
implémenté le principe de l’idée, mais en gardant un indice de tonalité constant sur
toutes les bandes critiques d’une trame donnée. L’adaptation ou la correction de cet
indice, pour neutraliser l’effet du bruit musical, se fait par la suite comme décrit aupa-
ravant, c’est-à-dire selon l’équation (6.7).
Les raisons pour lesquelles nous n’avons pas fait varier cet indice par bande critique
sont premièrement liées aux coûts de calcul qu’on reproche aussi au modèle MPEG.
Deuxièmement, nous avons adopté tout au long de ce mémoire le modèle de Johnston
dont l’estimation de l’indice de tonalité est calculée à partir de la mesure de la platitude
du spectre (Spectral Flatness Measure) sur toute la trame (voir les équations 2.16 et
6.5 section 2.2.2). L’indice de tonalité, de ce modèle, est considéré global dans le sens
où il est constant pour toutes les bandes critiques.
La figure 6.3 illustre l’estimation de la courbe de masquage obtenue par cette
procédure sur une trame de parole donnée. On constate qu’effectivement la méthode
améliore la précision de l’estimation pour les hautes fréquences en considérant un signal
de parole en sortie du filtrage de Wiener.
6.3 Contribution
6.3.1 Première proposition
À partir du signal débruité, la variance du bruit résiduel R(ν) dans une trame
donnée et à la fréquence ν peut être estimée pendant les périodes d’absence d’activité
vocale. Dans [Udrea 08] ainsi que [Boll 79], l’estimation du bruit résiduel est obtenue
en faisant la soustraction entre l’énergie instantanée du bruit et la moyenne de cette
énergie sur une trame de silence. Dans [Udrea 08], cette procédure est répétée pour L
trames de silence. Le bruit résiduel dans ce cas représente le maximum des différences
entre trames (Eq. 6.10).
n 1 X N o
b 2 b 2
R(ν) = max |B(ν)| − |B(ν)| . (6.10)
L N ν=1
Section 6.3 : Contribution 85
Amplitude 10000
5000
−5000
0 50 100 150 200 250 300
80
CM wiener
60 CM Aicha wiener
CM clean
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
fréquences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
60
CM wiener
CM Aicha wiener
50
CM clean
40
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (dB)
Figure 6.3 — Correction de l’estimation de la Courbe de Masquage CM par la

méthode Ben Aicha avec un indice de tonalité constant sur toutes les fréquences
Cette estimation du bruit résiduel est ensuite convertie en spectre en Bark comme suit :
hj
X
Rj = R(ν) (6.11)
ν=bj
où bj et hj sont respectivement la fréquence basse et haute de la bande critique j.

L’auteur propose par la suite d’atténuer la courbe de masquage, pour les bandes de
fréquences supérieures à la 12ème , en soustrayant Rj en dB du seuil de correction Oj
(voir Eq. 2.18 de la section 2.2.2 ) selon l’équation (6.12) :

“O ” “R ”
j
10 log10 (Cj )− − 10j
Tj = 10 10
. (6.12)
où Cj est le spectre en Bark étalé (voir équation 2.15).
10000
Amplitude
5000
−5000
0 50 100 150 200 250 300
80
CM,SSP
60 CM,wiener
CM,sspec Udrea
40 CM, wiener Udrea
CM, clean
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
60
CM,SSP
CM,wiener
40 CM,SSP (Udrea)
CM,wiener (Udrea)
20 CM, clean
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Figure 6.4 — Correction de l’estimation de la Courbe de Masquage CM par la

méthode Udrea
D’après la figure (6.4), on constate que la correction proposée par Udrea, consistant
à baisser la courbe de masquage d’un niveau équivalent au bruit résiduel, apporte
une amélioration pour l’estimation issue de la soustraction spectrale. Elle biaise par
contre l’estimation qui provient du filtrage de Wiener. Vu que le filtrage de Wiener
apporte moins de bruit musical que la soustraction spectrale, la courbe de masquage a

tendance à être sous-estimée. Ceci nous amène à vouloir plutôt augmenter le niveau de
la courbe provenant du filtrage de Wiener afin de le rapprocher au plus de la courbe
idéale. La figure 6.5 illustre l’apport de cette modification sur l’estimation de la courbe
de masquage issue du filtrage de Wiener. L’augmentation du niveau de la courbe de
masquage est obtenue, contre intuitivement, par ajout de“ la”quantité
“ ”
du bruit résiduel
Oj Rj
10 log10 (Cj )− +
Rj dans l’équation (6.12), c’est-à-dire Tj = 10 10 10
).
En outre, plusieurs observations du comportement de la courbe de masquage nous
ont amené à conclure que la correction de l’estimation de cette courbe ne dépend pas
uniquement des bandes critiques et ainsi des fréquences, mais également du rapport
signal bruité à bruit NSNR (Eq. 6.2) et du rapport signal à bruit segmental segSNR
(Eq. 6.13) :
PN
|Sk (ν)|2
segSNR = 10 log10 PNν=1 (6.13)
bk (ν)|2
|B
ν=1
où |Sk (ν)|2 est estimé en sortie du filtre de Wiener.

Ces constatations font l’objet de notre suite d’améliorations apportées à la
méthode d’Udrea. En effet, en observant le comportement de la courbe de masquage
en fonction des paramètres segSNR et NSNR, nous avons extrait 4 situations distinctes :
1er cas : NSNR < 0 dB et segSNR < 0 dB
si NSNR < 0 dB, alors l’énergie du signal bruité est inférieure à l’énergie du bruit.
si segSNR < 0 dB, alors l’énergie du signal est inférieure à l’énergie du bruit.
Ce cas se présente quand le signal de parole est non voisé et à faible énergie ou quand
il n’y a pas d’activité vocale.
2ème cas : NSNR > 0 dB et segSNR > 0 dB
si NSNR > 0 dB, alors l’énergie du signal bruité est supérieure à l’énergie du bruit.
si segSNR > 0 dB, alors l’énergie du signal est supérieure à l’énergie du bruit.
Ce cas se présente quand le signal de parole est voisé et que le bruit est à faible énergie.
3ème cas : NSNR > 0 dB et segSNR < 0 dB

Avec le même raisonnement, ce cas se présente quand le bruit est à forte énergie et
que le signal de parole est voisé, mais de faible énergie.
4ème cas : NSNR < 0 dB et segSNR > 0 dB

Ce dernier cas se présente quand le bruit est à forte énergie et que le signal de parole
est non voisé et de faible énergie.
10000
5000
Amplitude
−5000
0 50 100 150 200 250 300
80
CM,SSP
60 CM,wiener
CM,wiener corrigee
40 CM,sspec corrigee
CM, clean
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréqences (Hz)
2000
1000
Amplitude
−1000
−2000
0 50 100 150 200 250 300
60
CM,SSP
50 CM,wiener
CM,wiener corrigé
40 CM,sspec (Udrea)
CM, clean
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Figure 6.5 — Modification de la correction de l’estimation de la Courbe de Mas-

quage CM par la méthode Udrea améliorée dans le cas du filtrage par Wiener
Ainsi, en fonction de ces quatres situations, nous proposons de corriger la courbe

de masquage selon la procédure suivante (voir Fig. 6.9 pour les illustrations) : Quand
le segSNR et le NSNR sont tous les deux négatifs (1er cas) ou quand nous sommes face
au 3ème cas, nous procèdons à une augmentation du niveau de la courbe de masquage
pour toutes les bandes critiques. En effet, la courbe de masquage est sous-estimée (avant
notre correction) pour toutes les fréquences dans le 1er et 3ème cas. Cela signifie qu’une
importante atténuation a été apportée au signal de parole suite au filtrage linéaire par
Wiener. Ce filtrage a donc des coefficients de petites valeurs (proches de 0) pour deux
raisons : soit le bruit est de forte énergie, soit il a été sur-estimé. La sur-estimation du
bruit peut effectivement dans certains cas se produire pour les segments de parole non
voisés. Ces derniers ont un comportement et une ressemblance avec le bruit qui fait
en sorte que le détecteur d’activité vocale peut provoquer une fausse détection et que
l’estimation du bruit en dépendant soit biaisée.
Quand le segSNR et le NSNR sont tous les deux positifs (2ème cas) ou quand on
est face au 4ème cas, on augmente uniquement les hautes fréquences (bandes critiques
au delà de la 9ème pour le 2ème cas et au delà de la 7ème pour le 4ème cas). Comme
on peut le remarquer à partir de la figure 6.9, la courbe de masquage (avant notre
correction) est souvent légèrement sous-estimée pour les hautes fréquences ceci est dû
à l’atténuation inhérente des composantes du signal de parole après le filtrage linéaire
du signal bruité.
Cette procédure de correction est complètement heuristique dans le sens où elle
est basée sur plusieurs observations du comportement de la courbe de masquage vis
à vis du changement des valeurs du segSNR et du NSNR. Ces observations ont été
effectuées suite à plusieurs expériences menées sur différents signaux, différents types
de bruit et de rapports signal à bruit. Dans la figure (6.9), on présente le résultat de la
correction proposée mettant en avant des exemples de trames de parole correspondant
aux différents cas cités plus haut. L’expérience présentée concerne un échantillon de
parole de la base Timit sous-échantillonné à 8 kHz et corrompu par un bruit blanc à
5 dB.
D’après ces expérimentations, nous constatons que la méthode proposée apporte
une amélioration significative par rapport aux autres méthodes basées sur l’idée de la
correction de la courbe de masquage uniquement pour les hautes fréquences.
6.3.2 Deuxième proposition

Un signal aléatoire AutoRégressif (AR) s(n) est le résultat du filtrage d’un bruit
blanc b(n) de moyenne nulle et de variance σ 2 par un filtre tout pôle. Dans ce type
de modélisation (Eq. 6.14), nommé LPC (Linear Predictive Coding), le signal s(n) est
supposé être prédictible en fonction d’un certain nombre de ses valeurs antérieures.
C’est le cas du signal de parole, par exemple :
p
X
s(n) = b(n) + ak s(n − k). (6.14)
k=1
Le bruit b(n) représente l’erreur de prédiction, p est l’ordre du modèle et les coefficients
(ak )k=1...p sont les paramètres du modèle permettant d’estimer la densité spectrale de
puissance du signal s(n) selon l’équation (6.15) :
σ 2 (ν)
γ(ν) = p 2 . (6.15)
X
1 − ak exp{−i2πνk}
k=1
Dans la figure 6.6, on compare la densité spectrale du signal de parole calculée par
l’équation (6.15) et celle estimée à partir d’un périodogramme. On constate que l’esti-
mation à base des coefficients LPC est lissée et peut donc atténuer l’effet indésirable
du bruit.
1
DSP par périodogramme
0.9 DSP du modèle AR
0.8
0.7
DSP normalisée
0.6
0.5
0.4
0.3
0.2
0.1
0
0 20 40 60 80 100 120 140
Echantillons
Figure 6.6 — Exemple de comparaison entre la densité spectrale issue du modèle

AR et celle par périodogramme
Nous avons calculé, dans un premier temps, la courbe de masquage issue du signal
de parole propre et la courbe de masquage calculée à partir de la densité spectrale
de puissance provenant du modèle AR (Eq. 6.15) appliquée directement au signal de
parole propre. Sur deux types de trames du signal données, la figure (6.7) illustre les
deux courbes et montre ainsi que la modélisation LPC du signal en absence du bruit
donne lieu à une courbe de masquage qui épouse parfaitement l’allure de la courbe
ordinaire.
L’estimation des coefficients LPC à partir d’un signal bruité est très sensible au
bruit, d’où l’intérêt de passer d’abord par un filtrage (Wiener par exemple) pour
atténuer le bruit additif avant de calculer la densité spectrale à partir des coefficients
AR. Nous calculons ensuite la courbe de masquage à partir de cette densité spectrale
du signal débruité que nous comparons avec la courbe de masquage du signal propre.
La figure 6.8 présente l’exemple de deux types de trames (les mêmes conservées tout au
long de ce chapitre pour des comparaisons cohérentes entre les différentes méthodes)
avec les deux méthodes de calcul de la courbe de masquage. Nous constatons, d’après
cette figure, que l’estimation de la courbe de masquage à partir d’une modélisation LPC
du signal de parole n’est pas très différente de celle provenant du filtrage par Wiener.
Elle est meilleure seulement. La proposition est ainsi prometteuse. Dans le chapitre
7, nous allons voir qu’il existe une méthode plus robuste pour calculer les coefficients
LPC en présence du bruit et ce en procédant dans le domaine de l’autocorrélation.
Cette technique est nommée SMC (Short-time Modified Coherence) et pourrait être
intéressante à appliquer ici à des fins d’estimation de la courbe de masquage. Par faute
de temps, nous n’avons pas pu implémenter et étudier cette méthode que nous avons
gardée comme perspective à court terme de ce chapitre.
6.4 Conclusion
Dans ce chapitre, nous avons évoqué l’impact d’une mauvaise estimation de la
courbe de masquage sur les performances des débruiteurs perceptuels. Cette influence
dépend de deux cas limites, liés souvent aux problèmes d’estimations, à savoir la sur-
estimation et la sous-estimation. Nous avons présenté les quelques méthodes d’état de
l’art visant à affiner l’estimation de la courbe de masquage. Elles opèrent différemment
mais se rejoignent sur l’idée d’apporter une modification plutôt aux hautes fréquences.
Il est vrai que le bruit résiduel est plus gênant dans les hautes fréquences car dans les
basses fréquences il est souvent masquée par la parole dont l’énergie est plus importante,
mais cela reste valable du côté perception. L’ajustement de la courbe de masquage, à
notre sens, devrait être également envisagé pour les basses fréquences, car un biais
d’estimation pour ces fréquences, surtout une sous-estimation, devient préjudiciable et
peut introduire beaucoup de distorsions du signal après débruitage.
Dans ce chapitre, nous avons proposé une méthode de correction guidée par la valeur
de deux paramètres qui sont le rapport signal bruité à bruit NSNR et le rapport signal
à bruit segmental segSNR. La méthode peut ainsi opérer sur toutes les fréquences ou
simplement sur quelques-unes. On a également présenté une deuxième méthode basée
sur l’estimation de la densité spectrale de puissance (DSP) du signal de parole à partir
d’une modélisation LPC. De par sa structure lissée, cette DSP peut réduire l’effet du
bruit résiduel à la sortie du filtre de Wiener qui biaise généralement l’estimation de la
courbe de masquage. La deuxième méthode, qui apporte une légère amélioration, reste
prometteuse surtout si l’on utilise d’autres variantes de l’analyse LPC connues pour
leur robustesse face au bruit, telle que la SMC souvent employée dans le domaine de
la reconnaissance de la parole et dont le principe sera donné au chapitre 7.
10000
5000
−5000
0 50 100 150 200 250 300
80
CM, dsp AR
CM clean
60
dB
40
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
2000
1000
−1000
−2000
0 50 100 150 200 250 300
60
CM, dsp AR
CM clean
50
dB
40
30
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
Figure 6.7 — Estimation de la courbe de masquage CM par densité spectrale issue

du modèle AR
10000
5000
−5000
0 50 100 150 200 250 300
80
CM dsp AR wiener
60 CM wiener
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
2000
1000
−1000
−2000
0 50 100 150 200 250 300
60
CM dsp AR wiener
CM wiener
40 CM clean
dB
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence en Hz
Figure 6.8 — Estimation de la courbe de masquage CM par densité spectrale issue

du modèle AR appliqué au signal débruité par Wiener
NSNR =−3.9252dB SSNR =−9.3718dB

2000
1000
−1000
−2000
0 50 100 150 200 250 300
60
CM wiener
50 CM (segSNR et NSNR)
CM clean
dB
40
30
20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Nb Trame: 112 NSNR =6.4992dB SSNR =6.6851dB

10000
5000
−5000
0 50 100 150 200 250 300
80
CM wiener
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Nb Trame: 54 NSNR =2.228dB SSNR =−1.5268dB

5000
−5000
0 50 100 150 200 250 300
80
CM wiener
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Nb Trame: 53 NSNR =−0.017473dB SSNR =2.0297dB

5000
−5000
0 50 100 150 200 250 300
80
CM wiener
CM clean
dB
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Figure 6.9 — Correction de l’estimation de la Courbe de Masquage CM en fonction

du NSNR et du SSNR
7
CHAPITRE
Débruitage perceptuel
de la parole -
limitations et
contributions
Comme mentionné précédemment, le phénomène de masquage est l’effet de la non

sélectivité en fréquence de notre système auditif. Il se produit quand un son puissant
crée une distorsion locale du seuil d’audition absolu en augmentant son niveau, rendant
ainsi inaudibles les sons plus faibles qui autrement auraient été audibles.
Le phénomène de masquage se manifeste différemment en fonction de la fréquence
du masquant et celle du masqué. Il est accentué quand les deux fréquences coı̈ncident
et s’affaiblit quand les deux fréquences s’éloignent l’une de l’autre.
L’objectif du débruitage perceptuel est de réduire le bruit sans apporter plus de
distorsion sur le signal de parole. L’une des façons d’éviter des distorsions superflues
est d’opérer uniquement dans les fréquences où le bruit est perceptuellement significatif.
Cependant, en procédant ainsi, le bruit initialement inaudible, et par conséquent non
pris en compte par le débruitage perceptuel, risque de devenir audible et gênant si
les masquants de ce bruit sont filtrés. C’est ce que l’on nomme dans cette thèse le
phénomène MAN (Maskee to Audible Noise) [Amehraye 08b].
Le but de ce chapitre est d’illustrer ce phénomène, qui à notre connaissance, n’a
jamais été décrit auparavant, de montrer ses effets secondaires et de proposer deux
approches pour y remédier. La première consiste à appliquer un double filtrage dans le
but d’éviter l’apparition du phénomène MAN. La seconde méthode consiste à employer
un filtrage optimal sélectif par zone de fréquence et minimisant un critère global tenant
compte du phénomène MAN. Ce filtre optimal permet de définir la zone du phénomène
MAN et d’atténuer le bruit y contribuant.
CHAPITRE 7 :
96 Débruitage perceptuel de la parole - limitations et contributions
7.1 Le phénomène MAN (Maskee to Audible

Noise)
Le phénomène de masquage est inhérent à notre système d’audition. Il est fortement
dépendant de la nature du son et ainsi du signal. Lors du débruitage perceptuel, on
conçoit les filtres en se basant sur la courbe de masquage du signal propre dont on
ne dispose pas en réalité. On utilise ainsi une estimation de cette courbe qui n’est pas
forcément précise (voir chapitre III).
Mais, le vrai problème n’est pas là. Lorsqu’on évalue la qualité du signal débruité,
que ce soit par des critères objectifs ou subjectifs, ce qui compte en dernier c’est
le signal débruité lui même. Du point de vue perceptif, ce signal possède sa propre
courbe de masquage. En effet, quand on débruite le signal, on atténue forcément le
signal de parole. L’atténuation, certes, dépend du gain du filtre linéaire, mais elle reste
non négligeable en général. Qui dit atténuation du signal de parole dit atténuation de
sa courbe de masquage (voir figure 7.3) .
Le fait de percevoir le bruit résiduel (bruit musical en particulier), après filtrage,
prouve que le signal débruité n’a pas pu le masquer. Ce bruit est donc situé au dessus
de la courbe de masquage du signal débruité.
Par cette analyse, en mettant en évidence le problème d’atténuation de la courbe
de masquage, nous introduisons un phénomène qui est une conséquence immédiate de
cette atténuation. Il s’agit du bruit qui, masqué au départ, peut ne plus l’être après
débruitage, d’une part, parce qu’il est situé au dessus du seuil d’audition absolu et
d’autre part parce que le niveau d’atténuation de la courbe de masquage lui permet
de se dégager du spectre atténué et de devenir audible, engendrant ainsi une partie
du bruit musical. Ce phénomène, nous l’avons baptisé, dans cette thèse, le phénomène
MAN (Maskee to Audible Noise ).
7.1.1 Illustration du phénomène MAN

Afin d’illustrer expérimentalement le phénomène MAN (figure 7.1), on suppose
qu’un masquant est présent à la fréquence f0 de sorte que la courbe de masquage
résultante est au-dessus du seuil d’audition absolu au voisinage de cette fréquence.
Elle masque ainsi le bruit adjacent et moins puissant qui est présent à la fréquence f2 ,
tandis que la deuxième composante de bruit à la fréquence f1 reste audible du fait que
son niveau acoustique est suffisamment élevé pour être perçue en présence du signal
masquant.
Supposant maintenant qu’on procède à un filtrage perceptuel classique consistant à
traiter uniquement le bruit audible, ce filtrage va réduire le bruit à la fréquence f1 , ce
qui va entraı̂ner une atténuation du signal à cette fréquence et ainsi une atténuation de
sa courbe de masquage dans ce voisinage. Il s’ensuit que le bruit masqué à la fréquence
f2 devient audible. Ce phénomène peut se produire quand l’énergie d’une composante
de bruit masquée est comprise entre la courbe de masquage et le seuil d’audition
absolu T ⋆ , à condition que son masquant soit atténué. C’est donc un phénomène qui
Section 7.1 : Le phénomène MAN (Maskee to Audible Noise) 97
dB zone MAN
120
100 masquant
80 courbe
de masquage
60
40
bruit audible Avant filtrage
20
0 masqué
Seuil d’audition
absolu Fréquences (Hz)
f0 f1 f2
dB
120
100
80
courbe masquant
de masquage
60
40 Après filtrage
bruit audible
20
0
Seuil d’audition
absolu masqué Fréquences (Hz)
f0 f1 f2
Figure 7.1 — Maskee to audible noise phenomenon description
55
50
45
Puissance du signal (dB)
40
35
30
25
20 CM avant attenuation
CM après atténuation
15
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
Figure 7.2 — Atténuation spectrale du signal implique une atténuation de sa courbe

de masquage
peut se produire fréquemment et dont la conséquence immédiate est l’apparition de

tonales isolées et dispersées accentuant la perception du bruit musical. L’autre effet en
découlant est le masquage de certaines composantes du signal de parole dont l’énergie
est faible à cause de certaines de ces tonales de bruit plus puissantes, ce qui peut induire
des distorsions du signal.
Pour illustrer l’effet d’une atténuation spectrale sur la courbe de masquage d’un
signal, la figure 7.2 présente une comparaison entre la courbe de masquage (CM) d’un
signal avant atténuation et celle du même signal, mais après avoir subi une atténuation,
dans le domaine fréquentiel, par un facteur β = 1/2 pour toutes les fréquences (juste
à titre d’exemple). Cette deuxième courbe est notée “CM après atténuation” dans la
figure 7.2. Sur cette figure, on constate que la deuxième courbe de masquage est une
translation de la première avec un facteur de −6.02 dB (ce qui est normal puisque
CHAPITRE 7 :
80
Bruit initial
Bruit residuel
60 T (ν)
Tb(ν)
T ⋆(ν)
40
20
−20
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquences (Hz)
50 Bruit initial
Bruit residuel
45 T (ν)
Tb(ν)
puissance du signal (dB)
40
35
30
25
20
15
800 900 1000 1100 1200 1300 1400 1500 1600 1700
Fréquences (Hz)
Figure 7.3 — Apparition du phénomène MAN après filtrage du bruit audible uni-
quement
20 log10 ( X2 ) = −20 log10 2 + 20 log10 X = −6 + 20 log10 X). On s’attendait peut être à

une translation de −3 dB mais cela prouve encore que les transformations qui donnent
lieu à la courbe de maquage ne sont pas linéaires. Trouver donc une expression ou
une méthode adéquate pour déduire le niveau de la nouvelle courbe de masquage en
connaissant celui de l’attenuation du signal n’est, a priori, pas une tâche facile.
Dans l’exemple de la figure 7.3, on suppose connaı̂tre la courbe de masquage T (ν)
du signal propre (un échantillon de la base Timit) et la densité spectrale du bruit
γ(ν) (un bruit de voiture de la base Noisex à 5 dB ) et T⋆ (ν) est le seuil d’audition
Section 7.2 : Double filtrage pour éviter le phénomène MAN 99
absolu. On effectue le débruitage du signal bruité par un filtrage perceptuel qui traite
uniquement le bruit audible (Eq. 4.35 adaptée au domaine de Fourier, voir Eq. 7.1 ).
Sur cette figure, en analysant le bruit résiduel, on constate que certaines compo-
santes du bruit additif, qui n’étaient pas audibles au départ, se retrouvent maintenant
au-dessus de la courbe de masquage Tb(ν) du signal débruité. Elles seront ainsi audibles
après débruitage. Si ce phénomène se produit répétitivement dans chaque trame, plu-
sieurs tonales de bruit, éparpiées en fréquences, vont ainsi apparaı̂tre et contribueront
à la perception du bruit musical.
7.2 Double filtrage pour éviter le phénomène MAN
Wiener ek ( )
S Estimation de la courbe
yk (t) = sk (t) + nk (t) Wk ( ) de masquage
Tk ( )
Hk ( )
Yk ( ) Réducteur de bruit Filtrage perceptuel
TFD
Fk ( ) Gk ( )
k ( ) bk ( )
S
DAV
Estimation du bruit TFD 1
s^(t)
Figure 7.4 — Principe du double filtrage DF pour une trame k donnée
7.2.1 Principe
Dans le but d’éviter l’apparition du phénomène MAN, pour les raisons citées
précédemment, notre première suggestion [Amehraye 08a] consiste à appliquer un
double filtrage dont le synoptique est décrit par la figure 7.4. Ce synoptique permet
d’améliorer le réducteur de bruit F (ν) grâce à une pondération perceptuelle à travers
un second filtrage G(ν).
La figure 7.4 pourrait certainement être envisagée pour plusieurs types de réducteurs
de bruit non perceptuels (Wiener, soustraction spectrale,...) suivis d’une pondération
de type perceptuel. Dans notre cas, nous avons considéré le filtre de Wiener (Eq. 4.29)
comme réducteur de bruit (Fk (ν) = Wk (ν)) de par ses performances reconnues. Nous
avons opté pour l’adaptation du filtre perceptuel de l’équation (4.35) au domaine de
Fourier, ce qui donne lieu à l’équation suivante
|Sek (ν)|2
Gk (ν) = (7.1)
|Sek (ν)|2 + max γk (ν) − Tk (ν), 0
CHAPITRE 7 :
où |Sek (ν)| est l’amplitude du signal restitué à la sortie du filtrage de Wiener, Tk (ν) est
la courbe de masquage estimée et γk (ν) est la densité spectrale de puissance du bruit.
L’intérêt de l’approche du double filtrage est d’atténuer d’abord toutes les com-
posantes du bruit, même celles initialement inaudibles, par le biais du réducteur de
bruit, d’appliquer ensuite un filtrage perceptuel qui agira en accentuant le débruitage
dans les fréquences où le bruit est perceptuellement significatif. En procédant ainsi, on
limite l’apparition du phénomène MAN. Le double filtrage DF résultant a donc pour
expression
HkDF (ν) = Wk (ν)Gk (ν) (7.2)
7.2.2 Etude asymptotique du double filtrage

Nous analysons maintenant les propriétés du double filtrage proposé dans l’Eq. (7.2)
en utilisant le fait que Wk et Gk sont compris entre 0 et 1.
Si γk (ν) < Tk (ν), ce qui signifie que le bruit est inaudible, nous avons Gk (ν) = 1.
Seul le filtre de Wiener est activé pour deux raisons : premièrement pour favoriser le
gain en rapport signal à bruit et deuxièmement pour réduire le risque que les portions
de bruit inaudibles deviennent audibles lorsque les masquants ont disparu, c’est-à-dire
pour éviter le phénomène MAN.
Si γk (ν) ≪ Tk (ν), ce qui signifie un très bon rapport signal à bruit avant débruitage,
on a Gk (ν) = 1. Très peu de distorsion est introduite et Wk (ν) ≈ 1 .
Si γk (ν) > Tk (ν), on profite à la fois de la capacité du filtre de Wiener à réduire
le bruit et de l’effet du facteur perceptuel pondérant pour traiter le bruit audible et
améliorer la qualité du signal débruité par réduction du bruit musical.
Si γk (ν) ≫ Tk (ν), on a ξk (ν) ≪ 1. De fait, Wk (ν)Gk (ν) tend plus rapidement vers 0
que Wk (ν). Le double filtrage DF proposé accentue donc le débruitage quand le bruit
est perceptuellement gênant.
7.2.3 Lissage fréquentiel

D’après l’équation (7.1), on constate que le gain Gk (ν) peut présenter des dis-
continuités dûes au traitement sélectif en fréquence, ce qui peut introduire des effets
perceptuels désagréables dans le signal débruité. Un lissage devient donc indispensable.
Le lissage en fréquence est obtenu par l’intermédiaire d’une fonction de pondération
(par exemple la fenêtre de Hanning élevée à une puissance donnée). Il doit préserver le
caractère local du signal et il s’effectue aux dépens de la résolution fréquentielle.
Pour toute méthode perceptuelle évoquée et testée dans ce chapitre, on applique au
filtre Hk un lissage fréquentiel par corrélogramme lissé, avant de procéder au débruitage.
Ce lissage est le résultat de la convolution circulaire entre la suite de valeurs Hk (ν),
ν = 0, 1, . . . , N − 1, et une fenêtre de pondération dont les valeurs C(ν) pour ν =
0, 1, . . . , N − 1,Psont réelles telles que C(N − ν) = C(ν) et vérifient la condition de
N −1
normalisation k=0 C(ν) = 1. La fenêtre que l’on a choisie est la version normalisée
d’une puissance de la fenêtre de Hanning, à savoir :

(0.5 + 0.5 cos(2πν/N))q
C(ν) = PN −1 , (7.3)
(0.5 + 0.5 cos(2πν/N)) q
ν=0
pour ν = 0, 1, . . . , N − 1. Cette convolution s’obtient comme TFD du produit des

TFDs inverses des suites Hk (ν) et C(ν), ν = 0, 1, . . . , N − 1. Le choix de la puissance
q est guidé par le souci de diminuer le nombre de pics vus par la fenêtre glissante.
On cherche alors à réduire la durée de celle-ci en augmentant la valeur du paramètre
q (figure 7.5). Un exemple de l’effet du lissage, par le biais de la fonction Ck (ν), est
0.04
q = 30
0.035
q = 20
0.03 q = 16
0.025
q = 10
C (ν )
0.02
0.015
q=4
0.01
q=1
0.005
0
0 500 1000 1500 2000 2500 3000 3500 4000
Fréquence (Hz)
Figure 7.5 — Impact du paramètre q
illustré par la figure (7.6).
0.9
0.8 H (ν)
k
0.7
0.6
0.5 H (ν)*C(ν)
k
0.4
0.3
0.2
0.1
0
0 500 1000 1500 2000 2500 3000 3500 4000
Freq (Hz)
Figure 7.6 — Effet du lissage sur la fonction du gain du débruitage
7.2.4 Résultats expérimentaux

L’étude expérimentale est menée sur 250 fichiers de parole de la base TIdigits sous-
échantillonnés à 8 kHz. Les signaux de parole sont bruités additivement par trois types
de bruit : un bruit blanc gaussien généré sous Matlab, un bruit de conversation (Babble)
CHAPITRE 7 :
et un bruit de voiture de la base Noisex. On procède par trames de longueur N = 256,

avec un recouvrement de 50%. Chaque trame est pondérée par la fenêtre de Hanning et
transformée dans le domaine spectral par le biais de la transformée de Fourier discrète
TFD. Comme indiqué précédemment, on estime la courbe de masquage selon le modèle
de Johnston (voir section 2.2) et à partir de la sortie du filtre de Wiener. Quant à la
densité spectrale de puissance du bruit γ, elle est estimée pendant les instants de pause
fournis par le détecteur d’activité vocale du standard G729 [G.729 96].
A ce stade, on compare cinq méthodes déjà décrites auparavant, à savoir (A) (Eq.
7.1), (B) (Eq. 4.36), (C) (Eq. 4.85), le filtrage de Wiener standard (Eq. 4.29) et le
Double filtrage DF (Eq. 7.2). Le corrélogramme lissé utilisé est ajusté avec q = 20 dans
l’Eq. (7.3).
Les performances de ces méthodes sont évaluées via trois critères objectifs : le rap-
port signal à bruit segmental SSNR (Segmental Signal to Noise Ratio) et deux critères
perceptuels, le MBSD (Modified Bark Spectral Distortion) et le PESQ (Perceptual
Evaluation of Speech Quality).
Les deux critères MBSD et SSNR montrent bien l’apport de la méthode proposée
par rapport aux autres méthodes testées, ce qui montre la capacité du double filtrage
à réduire le bruit et les distorsions. Cependant, quand il s’agit du critère PESQ, la
méthode est moins bonne. Afin de mieux évaluer les performances de DF, on a mis
en place des tests subjectifs en se plaçant dans le cas où le spectre du bruit est connu
afin d’éviter tout biais introduit par une mauvaise estimation du bruit. Le protocole
choisi est celui de la norme [P.835 03] décrite au chapitre 3. Rappelons juste que dans
ce protocole, chaque sujet attribue une note, allant de 1 à 5, sur la qualité de la parole
seule (SIG), le bruit de fond seul (BACK) et enfin sur la qualité globale (OVRL).
On a sollicité 24 volontaires dont 8 qui sont d’origine anglaise. On s’est limité au cas
du bruit de conversation et du bruit de voiture et à deux conditions de bruit, à savoir
5 dB et 10 dB et ce pour 10 phrases choisies aléatoirement dans la base de données
TIdigits. Malgré tout, le nombre total d’échantillons de parole reste assez important,
raison pour laquelle on a organisé 3 séances par volontaire. Pendant chaque séance,
d’au plus une demi-heure, le participant écoute 100 signaux d’une durée maximum de
4 secondes chacun.
D’après les tableaux 7.1 et 7.2, le double filtrage DF se comporte généralement
mieux que les autres méthodes. Néanmoins, pour plus de rigueur et de fiabilité, les
tests subjectifs ont été complétés par une analyse de la variance (ANOVA) sur les
scores obtenus avec un choix d’un niveau de confiance α = 0, 05.
Ainsi, par rapport à l’échelle BACK, l’algorithme DF apporte moins de distorsion
de bruit (valeurs élevées de BACK) selon des scores statistiquement significatifs (p-
value< 0.05). Ceci rejoint le fait que le double filtrage DF vise à réduire le bruit
résiduel en évitant le phénomène MAN.
Quand il s’agit par contre de la distorsion du signal (échelle SIG) et dans le cas du
bruit de voiture, les résultats ne sont pas statistiquement différents, ce qui implique que
les méthodes sont statistiquement aussi performantes les unes que les autres (p-value
> 0.05). En revanche, dans le cas du bruit de conversation, les auditeurs préfèrent
statistiquement les signaux bruités (p-value < 0, 05).
0.9
Wiener
0.8
(A)
(B)
(C)
0.7 DF
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
1
Wiener
0.9 (A)
(B)
0.8 (C)
DF
0.7
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
0.35
Wiener
(A)
0.3 (B)
(C)
DF
0.25
0.2
MBSD
0.15
0.1
0.05
0
−5 0 5 10 15 20
SNR (dB)
Figure 7.7 — Comparaison en terme de moyenne de MBSD dans le cas de parole

bruitée par un bruit blanc, un bruit de conversation et un bruit de voiture respecti-
vement
Le fait que le débruitage par DF ne se distingue pas statistiquement des autres

méthodes, en ce qui concerne la qualité du signal, peut découler du fait que le filtrage
de Wiener dégrade la qualité de la parole que même une pondération perceptuelle en
amont ne peut corriger, même si elle réussit à diminuer le bruit résiduel.
CHAPITRE 7 :
10
Wiener
(A)
8 (B)
(C)
6 DF
4
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)
10
Wiener
(A)
(B)
(C)
DF
5
SSNR
−5
−5 0 5 10 15 20
SNR (dB)
14
Wiener
12 (A)
(B)
10 (C)
DF
8
6
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)
Figure 7.8 — Comparaison en terme de moyenne de SSNR dans le cas de parole

vement
Maintenant, quant à la qualité globale (OVRL), DF se comporte statistiquement

mieux dans toutes les situations, sauf pour le bruit de conversation à 5 dB où les
auditeurs préfèrent statistiquement le filtrage de Wiener.
Compte-tenu des résultats objectifs et subjectifs, on s’aperçoit que le phénomène
MAN a un impact significatif sur les performances du débruitage perceptuel de la parole
3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
PESQ 2.6
2.4
2.2
1.8
1.6
1.4
−5 0 5 10 15 20
SNR (dB)
3.5
Wiener
(A)
(B)
3 (C)
DF
2.5
PESQ
1.5
1
−5 0 5 10 15 20
SNR (dB)
4.2
Wiener
4 (A)
(B)
3.8 (C)
DF
3.6
3.4
PESQ
3.2
2.8
2.6
2.4
2.2
−5 0 5 10 15 20
SNR (dB)
Figure 7.9 — Comparaison en terme de moyenne de PESQ dans le cas de parole

vement
du moment où le double filtrage DF apporte une amélioration notable en évitant la

production de ce phénomène. Cependant, l’inconvénient de ce filtrage est d’opérer sur
toutes les fréquences, ce qui induit des distorsions, au niveau du signal restitué, qui
ne peuvent pas être compensées par la pondération perceptuelle, d’où une deuxième
proposition qui fera l’objet de la section suivante.
CHAPITRE 7 :
bruit de voiture Signaux bruités Wiener (A) (B) DF p-value

SIG 4.53 4.5 4.53 4.39 4.61 0.54
5dB BACK 2.44 3.96 3.90 3.96 4.54 3.2E-8
OVRL 3.09 4.28 3.88 3.85 4.39 0.0028
SIG 4.66 4.64 4.61 4.64 4.64 0.99
10dB BACK 2.99 4.59 4.33 4.26 4.65 3.1E-7
OVRL 3.46 4.38 4.28 4.18 4.40 0.024
bruit de conversation Signaux bruités Wiener (A) (B) DF p-value
SIG 3.96 3.08 2.31 2.31 3.01 0.0002
5dB BACK 1.41 3.33 2.88 2.79 3.88 0.0001
OVRL 2.09 2.70 1.99 1.81 2.71 0.0111
SIG 4.19 3.85 2.94 2.89 3.78 0.0006
10dB BACK 1.73 3.68 3.20 3.38 4.26 6.7E-7
OVRL 2.35 3.26 2.46 2.44 3.45 0.0001
Tableau 7.1 — La moyenne des scores MOS pour les auditeurs d’origine anglaise
bruit de voiture Signaux bruités Wiener (A) (B) DF p-value

SIG 4.43 4.42 4.35 4.23 4.46 0.67
5dB BACK 2.52 4.49 3.83 3.84 4.63 0
OVRL 3.32 4.29 3.88 3.82 4.41 5.3E-10
SIG 4.40 4.47 4.30 4.42 4.49 0.82
10dB BACK 2.78 4.50 4.18 4.20 4.54 0
OVRL 3.41 4.30 4.08 4.22 4.37 3.6E-10
bruit de conversation Signaux bruités Wiener (A) (B) DF p-value
SIG 4.13 2.98 2.26 2.26 2.94 3.4E-13
5dB BACK 1.87 3.49 3.29 3.23 3.78 7.8E-8
OVRL 2.65 2.86 2.11 2.16 2.79 1.7E-5
SIG 4.39 3.54 2.91 2.86 3.51 4.8E-12
10dB BACK 2.08 3.83 3.42 3.52 3.98 2.9E-10
OVRL 2.92 3.24 2.63 2.61 3.34 0.0001
Tableau 7.2 — La moyenne des scores MOS pour les auditeurs de différentes natio-
nalités
7.3 Filtre optimal anti-MAN
7.3.1 Critère anti-MAN

Au lieu d’éviter le phénomène MAN en agissant sur toutes les fréquences pour
réduire tout type de bruit, nous adoptons une autre solution visant à corriger le
phénomène MAN dans la zone MAN. L’idée est de procéder au traitement du si-
gnal bruité en fonction de la valeur du spectre de bruit γ(ν). Nous considérons alors
différemment les trois intervalles de bruit suivants :
n o
Zone audible : A = ν : T (ν) < γ(ν)
n o
⋆
Zone MAN : M = ν : T (ν) < γ(ν) ≤ T (ν)
n o
Zone absolument inaudible : I = ν : γ(ν) ≤ T (ν)
où T ⋆ (ν) et T (ν) sont respectivement le seuil d’audition absolu et la courbe de masquage
du signal. Le bruit appartenant à la zone M est typiquement candidat au phénomène
MAN.
Section 7.3 : Filtre optimal anti-MAN 107
Soit le gain h(ν) à la fréquence ν. Ce gain est appliqué individuellement sur chaque
fréquence ν selon la formule S(ν)b = h(ν)Y (ν). Soit J(ν) l’erreur quadratique moyenne
b
entre le signal propre S(ν) et le signal débruité S(ν),
h 2 i h 2 i
b
J(ν) = E S(ν) − S(ν) = E S(ν) − h(ν)Y (ν) (7.4)
2
= 1 − h(ν) δ(ν) + h(ν)2 γ(ν) (7.5)
où δ(ν) et γ(ν) sont respectivement la densité spectrale de puissance de la parole et

celle du bruit. Vu l’importance du phénomène MAN et le besoin de limiter les dis-
torsions du signal, la qualité de ce dernier sera évaluée différemment selon les 3 zones
définies précédemment, mais toujours en se basant sur le critère de l’erreur quadra-
tique moyenne J(ν). Nous proposons ainsi de concevoir le filtre h(ν) qui minimise
simultanément les critères suivants :
 2
 2
 h(ν) − 1 δ(ν) + h (ν) γ(ν) − T (ν) , si ν ∈ A
¯ = 2
J(ν) h(ν) − 1 δ(ν) + h(ν)2 γ(ν) , si ν ∈ M (7.6)

 2
h(ν) − 1 δ(ν) , si ν ∈ I
Le critère global J¯(ν), comme le montre l’équation 7.6, est un critère sélectif en
fréquence. D’après cette équation, nous constatons que, quand le bruit est initiale-
ment audible (zone A), nous considérons uniquement la quantité du bruit audible
(γ(ν) − T (ν)) dans l’expression du MSE 7.5. L’atténuation du signal bruité dépendra
ainsi de cette quantité.
Dans la zone M, le bruit est initialement masqué mais risque de devenir audible
si ses masquants sont atténués d’où l’intérêt de l’atténuer aussi. Son atténuation n’a
guère besoin d’être contrôlée par un critère psychoacoustique, raison pour laquelle le
critère J(ν) n’est pas pénalisé.
Dans la zone I, le bruit est dit absolument inaudible, d’une part parce qu’il est
au-dessous du seuil d’audition absolu et, d’autre part, parce que ce seuil est constant,
c’est-à-dire qu’il ne sera pas atténué suite au filtrage. Il n’y a donc aucune raison
d’atténuer davantage ce bruit. Au contraire, ne pas l’atténuer va éviter d’introduire
¯
des distorsions inutiles du signal de parole. Le critère J(ν), dans cette zone, se ramène
à une minimisation du terme de distorsion du signal uniquement.
7.3.2 Dérivation du filtre perceptuel anti-MAN

L’équation 7.6 représente un problème de programmation convexe dont la solution
est obtenue par résolution de l’équation
¯
dJ(ν)
=0 (7.7)
dh(ν)
Le filtre optimal h(ν) [Amehraye 09], nommé dorénavant AMPF (Anti-MAN Percep-
tual Filter) est solution de l’équation (7.7) et de la forme
CHAPITRE 7 :
 (a)
 h (ν) , si T (ν) < γ(ν)
h(ν) = h(m) (ν) , si I(ν) < γ(ν) ≤ T (ν) (7.8)

1 , si γ(ν) ≤ T (ν)
où h(a) (ν) et h(m) (ν) sont les filtres optimaux au sens de la minimisation du critère
¯
J(ν) par zone de fréquence. Leurs expressions sont respectivement données par
δ(ν)
h(a) (ν) = (7.9)
δ(ν) + γ(ν) − T (ν)
δ(ν)
h(m) (ν) = (7.10)
δ(ν) + γ(ν)
Dans l’équation 7.9, on retrouve l’expression du filtrage de l’équation (7.1). Ce filtrage

va nous permettre de traiter uniquement le bruit audible, puisqu’il opère dans la zone
A. Dans la zone M, puisque notre but est d’atténuer le bruit pour qu’il n’apparaisse pas
brusquement suite au filtrage des voisins masquants et audibles, le filtrage de Wiener
s’avère un premier choix nous garantissant la minimisation simultanée du bruit et des
distorsions. Dans la zone I où le bruit est absolument inaudible, il n’y aura donc aucun
traitement dans cette zone. Aucune distorsion ne sera donc introduite.
Dans la figure 7.10, on illustre le phénomène MAN avant et après le filtrage avec le
débruiteur anti-MAN proposé (Eq. 7.8 ). Grâce au zoom sur la figure, on constate que
les portions du bruit résiduel qui étaient au-dessus de la courbe de masquage du signal
débruité par un filtrage perceptuel traitant uniquement le bruit audible tel que celui de
l’équation 7.1, sont maintenant au dessous de cette courbe et seront donc inaudibles.
7.3.3 Résultats expérimentaux

Dans la suite des expériences menées dans la section 7.2.4, l’objectif de cette section
est de montrer l’apport du filtre AMPF à travers plusieurs expérimentations. Dans la
première, on considère un échantillon de parole de la base TIdigit auquel on ajoute un
bruit de voiture de la base Noisex à un rapport signal à bruit de −5 dB. La courbe
de masquage T (ν) est calculée directement à partir du signal de parole propre suivant
le modèle de Johnston et la densité spectrale de bruit γ(ν) est supposée connue afin
d’évaluer les performances du filtre optimal sans introduire de biais d’estimation. On
débruite le signal avec le filtrage perceptuel (A) (7.1), traitant uniquement le bruit
audible, puis on trace la courbe du bruit résiduel et la courbe de masquage Te(A) (ν)
issue du signal débruité. Ensuite, on débruite le même signal bruité de départ avec le
filtrage AMPF et on trace les mêmes courbes (le bruit résiduel et la courbe de masquage
Teampf (ν)) que précédemment, mais provenant de ce second filtrage.
Dans la figure 7.10, le tracé de toutes les courbes déjà citées donne lieu à une
comparaison assez intéressante. En effet, cette figure montre à la fois l’atténuation de
la courbe de masquage suite à l’atténuation du signal de parole après filtrage (A),
l’apparition du phénomène MAN dans certaines fréquences suite à ces atténuations
Section 7.3 : Filtre optimal anti-MAN 109
Phénomène MAN
Bruit initial T (ν) T ⋆ (ν)

Bruit résiduel à (A) Te (ν)
(A)
Bruit résiduel à AMPF Teampf (ν)
Fréquence (Hz)
Figure 7.10 — Disparition du phénomène MAN après filtrage AMPF
et enfin la disparition du phénomène MAN suite au filtrage optimal AMPF : aucune

composante de bruit initialement masquée par T (ν) ne devient audible après le filtrage
AMPF. A signaler que dans cette figure, T ⋆ (ν) se refère au seuil d’audition absolu et
le bruit initial désigne la densité spectrale du bruit additif à −5 dB.
La deuxième partie des expériences est menée sur 250 fichiers de la base TIdigits
suivant le même protocole que celui de la section 7.2.4. A ce stade, on évalue les
performances du débruitage avec le filtre AMPF en comparaison avec tous les filtres
évalués dans la section 7.2.4 selon les mêmes critères objectifs MBSD, PESQ et SSNR.
Les résultats sont présentés dans les figures 7.11, 7.12, 7.13 dans le cas où la densité
spectrale de bruit est supposée connue et dans les figures 7.14, 7.15, 7.16 dans le cas
où la densité spectrale du bruit est estimée pendant les instants de pauses fournis par
le détecteur d’activité vocale du standard G729.
Quand le bruit est estimé à partir du détecteur d’activité vocale du standard G729,
les performances du filtrage AMPF sont légèrement inférieures à celles de DF.
Dans le cas où la densité spectrale du bruit est supposée connue, le filtrage per-
ceptuel AMPF est meilleur que les autres méthodes, quel que soit le critère objectif
et dans toutes les conditions de bruit et de rapport signal à bruit. A ce niveau, nous
avons mis en place une suite des tests d’écoute selon la norme P835, afin d’évaluer les
performances du filtrage AMPF en comparaison avec DF en terme de critères subjec-
tifs. Nous nous sommes limités à la comparaison des méthodes AMPF et DF pour deux
raisons. Premièrement, le double filtrage DF est meilleur que les autres méthodes déjà
évaluées puisqu’il se distingue d’elles statistiquement. Deuxièmement, pour diminuer
la charge des tests et rendre plus facile la tâche des volontaires. Nous avons, tout de
CHAPITRE 7 :
même, conservé le même protocole de test pour garder une certaine compatibilité et
continuité des tests. La moyenne des scores MOS obtenus (voir tableau 7.3) montre
que le filtrage DF est mieux noté par les utilisateurs, mais cette supériorité n’est statis-
tiquement pas significative, ce qui nous laisse conclure que du point de vue perception
les deux algorithmes sont équivalents et meilleurs que les autres méthodes.
bruit de voiture DF AMPF

SIG 4.35 4.24
5dB BACK 4.08 3.86
OVRL 4.01 3.89
SIG 4.37 4.37
10dB BACK 4.21 4.03
OVRL 4.12 4.02
bruit de conversation DF AMPF
SIG 2.81 2.654
5dB BACK 3.22 2.554
OVRL 2.56 2.27
SIG 3.46 3.49
10dB BACK 3.51 3.03
OVRL 3.23 2.99
Tableau 7.3 — La moyenne des scores MOS selon les échelles SIG, BACK et OVRL
pour les méthodes DF et AMPF dans les cas du bruit de voiture et du bruit de
conversation selon un rapport signal à bruit de 5 dB et 10 dB
7.4 Conclusion
Dans ce chapitre, nous avons mis expérimentalement en évidence l’effet MAN (Mas-
kee to Audible Noise). Ce phénomène se manifeste par la perception, après débruitage,
de certaines composantes de bruit initialement inaudibles. Ceci est dû à l’atténuation
du signal de parole suite au filtrage linéaire du bruit additif et, par conséquent, à
l’atténuation de la courbe de masquage du signal restitué. Nous avons proposé deux
méthodes pour réduire son influence sur les performances du débruitage. L’une consiste
à appliquer un double filtrage réduisant toutes les fréquences du bruit et dont le prin-
cipal inconvénient est d’apporter quelques distorsions superflues. L’autre est basée sur
un filtrage optimal sélectif en fréquence et minimisant un critère global tenant compte
du phénomène MAN.
Sur la base de critère objectifs et subjectifs, les résultats expérimentaux obtenus
ont montré la supériorité des deux méthodes proposées par rapport à des méthodes
perceptuelles récentes ne considérant pas le phénomène MAN. Quel sera donc l’apport
de ces méthodes et du débruitage en général sur les performances d’un système de
reconnaissance de la parole en milieu bruité ? Cette question est traitée au chapitre
suivant.
0.25
Wiener
(A)
(B)
0.2 (C)
DF
AMPF
0.15
MBSD
0.1
0.05
0
−5 0 5 10 15 20
SNR (dB)
3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
2.6 AMPF
PESQ
2.4
2.2
1.8
1.6
1.4
−5 0 5 10 15 20
SNR dB)
10
Wiener
(A)
8 (B)
(C)
DF
6
AMPF
SSNR
−2
−5 0 5 10 15 20
SNR (dB)
Figure 7.11 — Comparaison en terme de MBSD, PESQ et SSNR dans le cas du

bruit blanc (en supposant connaı̂tre la variance du bruit
CHAPITRE 7 :
0.06
Wiener
(A)
0.055 (B)
(C)
0.05 DF
AMPF
0.045
MBSD
0.04
0.035
0.03
0.025
0.02
−5 0 5 10 15 20
SNR (dB)
4
Wiener
(A)
(B)
3.5 (C)
DF
AMPF
3
PESQ
2.5
1.5
−5 0 5 10 15 20
SNR (dB)
14
Wiener
12 (A)
(B)
(C)
10
DF
AMPF
8
SSNR
−2
−5 0 5 10 15 20
SNR (dB)

bruit babble (en supposant connaı̂tre la variance du bruit)
0.03
Wiener
(A)
(B)
0.025 (C)
DF
AMPF
0.02
MBSD
0.015
0.01
0.005
−5 0 5 10 15 20
SNR (dB)
4.6
Wiener
(A)
4.4
(B)
(C)
4.2 DF
AMPF
4
PESQ
3.8
3.6
3.4
3.2
−5 0 5 10 15 20
SNR (dB)
20
Wiener
(A)
(B)
15 (C)
DF
AMPF
10
SSNR
−5
−5 0 5 10 15 20
SNR(dB)

bruit car (en supposant connaı̂tre la variance du bruit)
CHAPITRE 7 :
0.9
Wiener
0.8
(A)
(B)
(C)
0.7 DF
AMPF
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
3.2
Wiener
3 (A)
(B)
2.8 (C)
DF
2.6 AMPF
PESQ
2.4
2.2
1.8
1.6
1.4
−5 0 5 10 15 20
SNR (dB)
10
Wiener
(A)
8
(B)
(C)
6 DF
AMPF
4
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)

bruit blanc gaussien (DAV G729)
1
Wiener
0.9 (A)
(B)
0.8 (C)
DF
0.7 AMPF
0.6
MBSD
0.5
0.4
0.3
0.2
0.1
0
−5 0 5 10 15 20
SNR (dB)
3.5
Wiener
(A)
(B)
replacemen 3 (C)
DF
AMPF
2.5
PESQ
1.5
1
−5 0 5 10 15 20
SNR (dB)
10
Wiener
(A)
(B)
(C)
DF
5 AMPF
SSNR
−5
−5 0 5 10 15 20
SNR (dB)

bruit babble (DAV G729)
CHAPITRE 7 :
0.35
Wiener
(A)
0.3 (B)
(C)
DF
0.25 AMPF
0.2
MBSD
0.15
0.1
0.05
0
−5 0 5 10 15 20
SNR (dB)
4.2
Wiener
4 (A)
(B)
3.8 (C)
3.6
DF
AMPF
3.4
PESQ
3.2
2.8
2.6
2.4
2.2
−5 0 5 10 15 20
SNR (dB)
14
Wiener
12 (A)
(B)
10 (C)
DF
8 AMPF
6
SSNR
−2
−4
−5 0 5 10 15 20
SNR (dB)

bruit car (DAV G729)
8
CHAPITRE
Reconnaissance de la
parole
Nous consacrons ce chapitre à la reconnaissance automatique de la parole en

présentant le principe de fonctionnement des systèmes de reconnaissance automatique
de la parole ainsi que les différentes classes de méthodes destinées à rendre ces systèmes
robustes au bruit. Notre contribution concerne la conception de deux systèmes de recon-
naissance de la parole sous HTK, l’un est contextuel (triphones) et l’autre non (mono-
phones). Le but est d’étudier l’impact du débruitage de la parole, comme prétraitement,
et surtout le débruitage perceptuel, sur les performances des systèmes de reconnais-
sance. La phase de conception des deux systèmes a été détaillée à des fins pédagogiques
et va permettre de reprendre facilement les étapes franchies et de mettre en évidence
certaines difficultés qui peuvent être rencontrées.
8.1 Reconnaissance à bord des véhicules

Avec le progrès de la microélectronique et de l’électronique embarquée, le marché de
l’automobile a connu une évolution impressionnante de la technologie mains-libres. Des
kits multi-usages “ornent” les tableaux de bord et offrent plus de flexibilité pour une
interaction homme-machine plus transparente. L’intérêt majeur de la reconnaissance
de la parole à bord des véhicules est d’éviter la distraction du conducteur lors de la
conduite et d’assurer sa sécurité. C’est aussi une façon d’offrir plus de confort et plus
de services télématiques au conducteur.
Les systèmes de reconnaissance embarqués sont confrontés à deux types de
problèmes liés à des aspects pratiques et théoriques. Tout d’abord, ces systèmes sont
perturbés par la présence du bruit ambiant à l’intérieur du véhicule (moteur, roues,
radio, conversations...). Ils sont aussi limités par la complexité intrinsèque du signal
de parole (redondance, effets de coarticulation en parole continue, grande variabilité
intra et inter-locuteurs,...). En effet, ces systèmes nécessitent que la parole modélisée
soit la plus naturelle possible afin de mieux reconnaı̂tre ce qui est prononcé par les
locuteurs (conducteurs). L’idéal, donc, est que ces derniers ne soient pas obligés de
marquer trop de silences ni de parler d’une façon monotone pour faciliter la tâche du
système de reconnaissance. En pratique, la mise en øeuvre de tels systèmes exige une
interface homme-machine fiable, facile à manipuler, la plus indépendante et la moins
118 CHAPITRE 8 : Reconnaissance de la parole
contraignante possible pour l’utilisateur.

Un aperçu historique dans ce domaine montre que cette technologie est en pleine
évolution. En 1999, Mercedez Benz fut le premier fabriquant de voiture dans le monde à
employer la technologie de reconnaissance vocale à bord de ses véhicules. Le système est
appelé Linguatronic et il est destiné uniquement au service de téléphonie mains-libres.
Quant à BMW7, le protocole de reconnaissance employé est simple et comprend une
série de commandes indépendantes du locuteur et de la langue. Ces commandes font
partie d’un dictionnaire fixe et sont passées via l’interface téléphonique. Ce système
est résistant au bruit environnemental grâce à l’emploi d’algorithmes de réduction de
bruit. Les services offerts sont la téléphonie, la navigation et la sténographie. En outre,
l’utilisateur peut créer un annuaire téléphonique de plus de 40 numéros. Par ailleurs,
et avec sept ans d’expérience dans les solutions mains-libres pour les véhicules, le
constructeur français Parrot met en vente un kit avancé équipé de technologie bluetooth
offrant le service de téléphonie et de PDA (Personnal Digital Assistant). Il est le premier
à incorporer un service d’affichage, via un écran LCD, facilitant la navigation dans les
diverses options du menu.
Honda est le premier fabriquant de voiture à équiper ses véhicules d’ un système de
navigation employant une reconnaissance vocale avancée ainsi qu’une synthèse vocale.
Ce système a la possibilité d’identifier les rues et les villes des USA. Le conducteur
peut donc communiquer tous les noms au système et recevoir des indications vocales
pour les différentes destinations. Ce système est le fruit de la collaboration entre IBM
et Honda Motor Company, il constitue donc une plate-forme conversationnelle reliant
les avantages des deux technologies : IBM Embeded ViaVoice et VoiceBox Navigator.
Microsoft Windows s’est lancé aussi dans ce domaine et a mis en place une plate-
forme à commande vocale composée de deux interfaces ; l’interface utilisateur SUI
(Speech User Interface) et l’interface de programmation SAPI (Speech Application
Programming Interface). Grâce à ces deux interfaces, le conducteur peut interagir sim-
plement avec son dispositif embarqué en parlant de manière naturelle. Il a à son service
la navigation assistée, le rappel de rendez-vous, la recherche de numéros de téléphone
et d’adresses professionnelles, sans oublier le téléphone et le système multimédia. Ce
système embarqué a l’avantage de suspendre les interactions vocales en conditions de
conduites difficiles.
Récemment, le système de reconnaissance vocale de Siemens VDO peut reconnaı̂tre
70000 noms de villes et de rues d’Allemagne. Le traitement s’effectue en douze langues
incluant le chinois et le japonais. Ils ont aussi développé une interface homme-machine,
pour des tâches plus complexes, permettant un dialogue entre le conducteur et le
système de reconnaissance. Ils envisagent d’autres améliorations par introduction de la
reconnaissance d’images pour la lecture des mouvements des lèvres.
Le constructeur Freescale (précédemment Motorola Semi-conducteurs), leader mon-
dial dans la conception et la production de semi-conducteurs embarqués pour les
marchés de l’automobile, ambitionne des véhicules conviviaux et personnalisables à
souhait.
Les solutions offertes jusqu’à maintenant sont diverses et le champ est encore ouvert
à d’autres améliorations. Certaines recherches étudient même la possibilité d’améliorer
Section 8.2 : Principe de la reconnaissance vocale 119
l’interaction entre le conducteur et la voiture en mettant l’accent sur le contrôle

d’émotions [Jones 05]. La première idée qui vient à l’esprit est le suivi du mouvement
du visage, des gestes et du langage corporel via le traitement d’image. Cependant, la
technique retenue est la reconnaissance d’émotions à travers le traitement du signal
de parole, d’abord, parce que ce signal est riche en informations et il a été démontré
que la plupart des émotions sont associées à des propriétés acoustiques de la voix
tels que la fréquence fondamentale. En second lieu, les caméras vidéo et les détecteurs
biométriques ne sont pas adaptés pour le moment en tant que normes dans les véhicules.
8.2 Principe de la reconnaissance vocale

Soit Ω un dictionnaire d’éléments finis, constitué d’un ensemble de mots. Une phrase
est une série de mots W = (ω1 , ω2 ...) tel que ωi ∈ Ω. Cette phrase n’a un sens que si
elle suit une certaine grammaire Σ. Avec ces outils, on définit l’ensemble E des W ∈ Ω
qui obéissent à la grammaire Σ. Cet espace définit la parole comme étant une fonction
f définie sur l’ensemble E et associant à un signal acoustique s la séquence de mots W
tel que s = f (W ). L’objectif de la reconnaissance vocale est de trouver la séquence de
mot W = (ω1 , ω2 , ...), dans le dictionnaire Ω suivant une certaine grammaires décrites
dans Σ, qui ont produit un signal acoustique donné s.
Figure 8.1 — Architecure d’un système de reconnaissance de la parole par HMM
Trouver la séquence de mots prononcés, c’est-à-dire réaliser une transcription,

nécessite le passage par diverses étapes intermédiaires, les principales étant présentées
dans la figure (8.1).
Tout d’abord, on transforme le signal de parole, donné en entrée du système, en
paramètres compacts et pertinents. Il s’agit de la phase de paramétrisation donnant
lieu aux vecteurs acoustiques. Les techniques de paramétrisation les plus courantes
sont :
1. L’analyse par prédiction linéaire qui permet de représenter le signal de parole par
les coefficients de codage prédictif linéaire LPC ou par des coefficients de prédiction
à base de notions psychoacoustiques PLP.
2. L’analyse spectrale où l’on calcule les énergies à la sortie d’un banc de filtres
couvrant toute la bande de fréquences du signal.
3. L’analyse cepstrale où les paramètres sont calculés par la transformée en cosinus
inverse sur le logarithme de la distribution spectrale de l’énergie. Ces paramètres
sont appelés coefficients MFCC. Ils sont les plus souvent utilisés en raison de leur
robustesse.
Les vecteurs acoustiques en sortie de la paramétrisation vont servir d’observations dans
les Modèles de Markov cachés HMM (Hidden Markov Model). Dans la littérature, ces
derniers sont les plus utilisés dans le processus de la modélisation acoustique. Leur
but est de trouver la meilleure séquence de mots sous contrainte d’un lexique qui
définit les mots reconnaissables et d’une grammaire qui détermine les séquences de
mots valables ou, du moins, les plus probables.
Un HMM est un ensemble de nœuds (ou états) et de transitions (ou arcs) les reliant.
Le chemin emprunté par un processus aléatoire, modélisé par un HMM, est inconnu
du fait que les états parcourus ne sont pas directement observables, d’où l’appella-
tion modèle de Markov caché. La structure d’un HMM (Fig. 8.2) est définie par trois
paramètres principaux :
1. La matrice des probabilités d’émission des observations définissant l’ensemble
des lois d’émission, B = (bi (ot )) où bi (ot ) est la distribution de probabilité d’être
dans l’état qi et d’émettre l’observation oi . Ces distributions sont souvent de type
gaussien ou des combinaisons de gaussiennes.
2. La matrice des probabilités de transition, A = (aij ) où aij est la probabilité
de passer de l’état qi à l’état qj .
3. La matrice de la distribution initiale des états, π = (πi ) où πi est la probabilité
d’être dans l’état qi à l’instant initial.
a22 a33 a44
q1 q2 q3 q4 q5
a12 a23 a34 a45
a24
o2 o3 o4
Processus externe (observable)
Processus interne (inobservable)
Figure 8.2 — Exemple de structure à 5 états d’un HMM. Les états q2 , q3 et q4 sont
émetteurs alors que l’état initial q1 et l’état final q5 ne génèrent pas d’observations
Section 8.2 : Principe de la reconnaissance vocale 121
Avec ces outils, la conception d’un système HMM doit répondre aux questions consti-
tuant les trois problématiques du processus de reconnaissance de la parole.
Etant donné la séquence d’observations O = (o1 , o2 , ..., oT ) et un HMM φ = (A, B, π) :
1. Comment calculer P (O | φ), la probabilité de la séquence d’observations, étant
donné le modèle HMM φ ? (modélisation acoustique).
2. Quelle est la séquence d’états Q = (q1 , q2 , ..., qT ) qui est la plus vraisemblable
étant donné la séquence d’observations O ? Ce problème correspond au processus
de décodage ou de reconnaissance.
3. Comment ajuster les paramètres du modèle HMM φ pour maximiser la probabilité
P (O | φ) ? Ce problème correspond au processus d’apprentissage.
La reconnaissance de la parole à base des HMMs est une modélisation stochastique
dont l’objectif est de trouver, parmi toutes les séquences de mots W possibles, la
séquence de mots Wc la plus probable connaissant les observés O (Eq. 8.1).
c = arg max P (W | O)
W (8.1)
W
La probabilité P (W | O) est une probabilité dont le calcul repose sur une modélisation
du canal acoustique qu’on ne peut pas calculer directement [Halton 06]. Cependant,
une réécriture ou simplification probabiliste, telle une décision bayesienne, permet de
décomposer cette probabilité en l’exprimant autrement. En effet, grâce à la formule
de Bayes1 appliquée à la probabilité P (W | O) (Eq. 8.2), on exprime le problème,
cette fois-ci, comme une recherche de la suite de mots W maximisant la probabilité
a priori P (W ) de leur apparition dans la langue (modélisation linguistique) et que
les paramètres acoustiques observés correspondent à cette suite de mots (modélisation
acoustique), P (O | W ). La formule finale (Eq. 8.3) ne fait pas intervenir P (O), la
probabilité d’occurrence de la chaı̂ne acoustique O, car elle est indépendante de W et
reste constante quand W varie.
P (O, W ) P (W )P (O | W )
arg max P (W | O) = arg max = arg max (8.2)
W W P (O) W P (O)
= arg max P (W )P (O | W ) (8.3)
W
L’approche stochastique permet ainsi d’intégrer les niveaux acoustiques et linguistiques

dans un seul processus de décision. Ce processus consiste à chercher le chemin opti-
mal correspondant à la séquence d’état la plus probable au sens de la probabilité de
vraisemblance de la séquence d’observations. Ceci est effectué généralement par l’algo-
rithme de Viterbi 2 qui délivre également la probabilité de vraisemblance sur le meilleur
chemin.
On parle souvent de mot comme unité acoustique ou modèle phonétique, mais
en réalité, on utilise fréquemment des unités plus courtes telles que les monophones
basés sur un seul phonème, par exemple [a], les diphones considérant un phonème
1
P (A | B) = PP(A,B)
(B)
2
détail de cet algorithme dans le livre d’HTK
précédé ou suivi d’un autre, par exemple [a]+[b] et les triphones qui tiennent compte
des phonèmes avant et après, comme [c]-[a]+[b]. Les diphones et triphones sont dits
modèles phonétiques contextuels.
8.3 Reconnaissance de la parole en milieu bruité -

Etat de l’art
La Reconnaissance Automatique de la Parole doit faire face à de nombreux
problèmes. Au rang de ceux qui limitent son application et ses performances se trouve
le problème du bruit auquel sont soumis les systèmes de Reconnaissance Automatique
de la Parole développés en laboratoire. En environnement de laboratoire, et au cours
de la phase d’apprentissage, les contraintes de bruit sont souvent considérées comme
inexistantes. Cependant, le bruit fait partie intégrante des environnements réels ou de
test. Cette différence entre conditions d’apprentissage et de test explique en partie le
manque de performance et les problèmes de mise en œuvre. Les algorithmes utilisés
pour augmenter la robustesse des systèmes de reconnaissance de la parole en milieu
bruité peuvent être généralement classés en deux groupes principaux. Le premier groupe
d’algorithmes se concentre sur la migration des données observées pour qu’elles soient
plus proches de l’état initial d’apprentissage. Ceci est réalisé par compensation du si-
gnal de parole ou des paramètres qui en sont extraits ou par intégration d’attributs
visuels. Ainsi, la paramétrisation robuste ou résistante au bruit, le débruitage de la
parole et la reconnaissance audiovisuelle sont les méthodes de l’état de l’art apparte-
nant à cette première catégorie. Le débruitage de la parole vise à supprimer le bruit du
signal observé, la paramétrisation robuste ne fait pas de transformation sur le signal
mais utilise plutôt des paramètres résistant au bruit et la reconnaissance audio-visuelle
qui, comme son nom l’indique, fusionne les paramètres audio avec des attributs visuels
de façon à rapprocher l’environnement de test de celui d’apprentissage.
La deuxième catégorie, quant à elle, suppose déjà que le signal et les paramètres
sont sensibles au bruit et se focalise ainsi sur l’adaptation des modèles acoustiques
d’apprentissage pour qu’ils soient plus proches des modèles acoustiques de test. Les
méthodes s’inscrivant dans cette catégorie sont dédiées à la compensation du bruit
appelée aussi adaptation des modèles (HMM par exemple).
Ainsi, pour une présentation plus structurée (Fig. 8.3), on suivra une classification
qui mettra en valeur chacune des sous-classes suivantes :
– Paramétrage résistant au bruit
– Débruitage en amont
– Compensation du bruit
– Reconnaissance audio-visuelle
Les techniques découlant de chacune des sous-classes citées plus haut constituent
aujourd’hui les méthodes de l’état de l’art de la Reconnaissance Automatique de la
Parole en milieu bruité. Elles sont nombreuses et sont plus ou moins bien adaptées au
traitement d’un signal de parole corrompu par un bruit additif ou convolutif.
Section 8.3 : Reconnaissance de la parole en milieu bruité - Etat de l’art 123
Environnement d’apprentissage (absence du bruit)
Environnement de test (présence du bruit)

Système de RAP initial
Système de RAP avec

débruitage en amont
Signal Paramètres Modèles
Système de RAP avec
paramétrisation
robuste
Débruitage du signal Paramètres robustes Compensation ou Système de RAP avec

de parole au bruit adaptation des modèles compensation des modèles
ou
Fusion entre paramètres

audio et vidéo
Figure 8.3 — Architecture des systèmes de Reconnaissance Automatique de la Pa-

role robustes au bruit
8.3.1 Paramétrage résistant au bruit
L’objectif de ce type de méthode est de trouver des paramètres adéquats qui ne

soient pas trop influencés par l’environnement acoustique. On considère, à ce pro-
pos, que le système de Reconnaissance Automatique de la Parole est indépendant
des conditions de bruit. L’avantage de ces méthodes est qu’elles ne requièrent aucune
connaissance a priori ni hypothèse sur le bruit. Cette technique conduit à l’utilisation
de mesures de distances, de similarités et à l’extraction d’indices acoustiques dont la
résistance au bruit est connue et prouvée [Gong 95]. Les coefficients MFCC sont par
exemple plus résistants au bruit que les coefficients LPC.
Les systèmes de Reconnaissance Automatique de la Parole classiques sont basés sur
les statistiques du second ordre. Les performances dans de tels systèmes sont appau-
vries en présence du bruit dans le signal à analyser. Dans [Moreno 95] est présenté
une nouvelle méthode de reconnaissance basée sur les statistiques d’ordre supérieur à
deux HOS (Higher Order Statistics). Elle est plus avantageuse que les méthodes d’au-
tocorrélation dans des environnements à SNR faible. Les HOS sont nuls pour les bruits
gaussiens (blanc et coloré) ce qui permet de séparer la parole du bruit. Toujours dans
le but de chercher les paramètres les moins influencés par l’environnement acoustique
une méthode inspirée de la robustesse de la paramétrisation auditive est le sujet de
[J.Chen 01]. Elle utilise une information de la fréquence dominante moins influencée
par la présence du bruit par rapport à l’énergie. Le calcul de cette fréquence est effectué
à partir du spectre à court terme de la parole.
La technique d’analyse par prédiction linéaire perceptive PLP, développée dans
[Hermansky 90], modélise un spectre auditif par un modèle tout pôle. Elle diffère de
l’analyse standard LPC par une intégration en bandes critiques du spectre de puissance,
suivie d’une préaccentuation par des courbes d’isosonie, d’une conversion d’intensité
en sonie et finalement d’une modélisation tout pôle [Junqua 90]. Ses performances, en
présence du bruit, sont médiocres, d’où l’apparition de la RASTA (RelAtive Spec-
TrAl) [Hermansky 94] qui dérive de l’analyse PLP et dont le but est d’améliorer la
robustesse du système de reconnaissance en milieu bruité. En effet, après avoir effectué
la transformée de Fourier discrète à court terme, on calcule le spectre d’amplitude en
bandes critiques, on applique le logarithme pour récupérer l’enveloppe spectrale du
signal comme pour une analyse cepstrale. On effectue ensuite un filtre passe bande qui
a pour conséquence de supprimer les composantes constantes ou lentes du signal et on
réalise une compression de l’amplitude par l’application d’une racine cubique. Enfin,
on calcule les coefficients selon la méthode LPC classique.
La présence du bruit dégrade la qualité de l’estimation LPC [Lim 78], et les per-
formances des systèmes de Reconnaissance Automatique de la Parole utilisant cette
paramétrisation chutent rapidement lorsque le SNR diminue. Dans [Mansour 88], on
utilise la corrélation entre les segments adjacents du signal pour améliorer la robustesse
au bruit. On montre que l’autocorrélation d’un signal de parole obtenu par modélisation
1
tout pôle est elle même un signal auto-régressif dont la fonction de transfert est A(z) 2
[Mokbel 92] [Mansour 88]. De ce fait, il est possible d’utiliser l’autocorrélation pour
estimer A(z) et les coefficients LPC, ak z −k . L’intérêt de passer par l’autocorrélation
est de permettre d’isoler une partie de la contribution du bruit. Pour des bruits à den-
sité spectrale plate, par exemple le bruit blanc, on élimine de l’analyse les premiers
coefficients qui sont les plus entachés par le bruit. On obtient ainsi des coefficients de
prédiction non bruités. Pour résumer, au lieu d’effectuer une modélisation tout pôle du
signal temporel, l’autocorrélation du signal est d’abord calculée, suivie d’une compres-
sion en racine carrée dans le domaine spectral, avant d’effectuer une analyse LPC. Ces
opérations définissent la nouvelle paramétrisation SMC [Mansour 88]. Sur une tâche
de reconnaissance d’une quarantaine de mots isolés en parole propre, la SMC conduit
à l’obtention de résultats équivalents à ceux de la LPC. Par contre, en reconnaissance
de parole bruitée, la SMC s’avère plus efficace que la LPC [Mansour 88].
Pour trouver une transformation linéaire de l’espace paramètre qui minimise les
variances intra-classes, tout en maximisant les variances inter-classes, on a recours
à l’analyse linéaire discriminante LDA. Celle-ci permet de compresser l’information
et de la rendre plus discriminante. Dans [Siohan 94], la LDA permet d’obtenir un
paramétrage efficace pour la reconnaissance de la parole dans le bruit. Les performances
de la LDA sont meilleures que celles obtenues en utilisant différentes approches de
compensation de modèles et de transformation d’espace appliquées sur un paramétrage
cepstral. Par contre, la nature du bruit conditionne très fortement la robustesse des
paramètres issus de la LDA face aux variations du rapport signal à bruit.
Les modulations d’amplitude et de fréquence AM-FM décrivent le signal de parole
comme la somme de différents signaux représentant les fréquences formantiques, mo-
dulés en fréquence et en amplitude. Ces signaux tentent de modéliser certains aspects
du signal acoustique qui ne sont pas capturés par le modèle (source-filtre) de pro-
duction de la parole le plus communément utilisé [Dimitriadis 98]. Les paramètres de
modulation AM-FM ont deux avantages majeurs par rapport aux paramètres MFCC.
Premièrement, ils peuvent modéliser la nature dynamique de la parole et ses fluctua-

tions rapides. Deuxièmement, ils sont relativement résistants au bruit et donc apportent
de meilleurs résultats, en particulier pour la Reconnaissance Automatique de la Parole
en présence du bruit. De meilleures performances sont notées dans le cas du bruit blanc
par rapport au bruit convolutif [Dimitriadis 98]. Les résultats sont encore meilleurs
quand les paramètres de modulation sont combinés avec les paramètres MFCC.
Deux autres méthodes intéressantes sont la normalisation de la moyenne cepstrale
CMN [Liu 93a] et la normalisation de la variance cepstrale CVN [Molau 01]. Ces
deux traitements s’appliquent aux coefficients cepstraux avant le calcul des dérivées.
La CMN est l’estimation de la moyenne des vecteurs cepstraux sur une fenêtre et la
soustraction de cette moyenne de chaque vecteur cepstral [Nadeu 97, Liu 93b]. Après
avoir fait la CMN, on applique la CVN qui consiste à diviser les vecteurs par leur
écart-type estimé sur la même fenêtre.
Comme on vient de le voir, il existe une multitude de paramétrisations robustes, les
unes améliorant les autres. Les performances, bien qu’assez limitées, restent promet-
teuses.
8.3.2 Débruitage en amont

Les techniques de débruitage en amont des systèmes de reconnaissance de la pa-
role font en sorte que ces systèmes n’aient pas à s’adapter aux nouvelles conditions
acoustiques. Leur avantage est donc de garder les systèmes intacts.
Ces techniques consistent à transformer le signal de parole bruité en un signal moins
bruité qui est le plus proche possible, en terme de qualité ou d’intelligibilité, d’un signal
de parole propre. Le débruitage comme prétraitement a pour objectif d’atteindre une
amélioration qualitative du signal d’entrée. Le bruit est ainsi réduit avant que le signal
de parole ne soit traité par le système de reconnaissance. Cette réduction peut se faire
dans le domaine spectral ou dans le domaine cepstral, par soustraction ou filtrage du
signal original. Un état de l’art de ces méthodes est présenté dans le chapitre 4.
Certains travaux ont montré que, pour une reconnaissance en milieu bruité par un
système entraı̂né en environnement non bruité, l’ajout du bruit aux références (classé en
catégorie compensation de bruit qu’on verra dans la section suivante) est plus approprié
que le débruitage des signaux de test. Dans [Mokbel 92], l’auteur donne une justification
théorique et expérimentale de la supériorité des techniques de bruitage par rapport aux
techniques de débruitage. Cette justification n’est valable que pour les méthodes de
débruitage utilisant des estimateurs non optimaux au sens du Maximum a posteriori.
En outre, il faudrait bien garantir que le bruit rencontré en environment opérationnel
est de même nature que celui qui a servi à bruiter les références.
8.3.3 Compensation du bruit

Une troisième technique consiste à transformer les modèles de référence de la pa-
role de l’environnement d’apprentissage en des modèles qui tiennent compte du bruit
de l’environnement réel. Cette technique permet une adaptation ou compensation des
modèles au bruit, appelée aussi bruitage des références [Mokbel 92]. Contrairement
à ce qui est fait par les techniques de débruitage du signal, dans cette catégorie de
techniques, le bruit n’est pas amoindri et sera donc présent lors de l’étape de recon-
naissance puisqu’il est considéré comme une partie du signal à traiter. En effet, les
signaux bruités sont utilisés pour adapter les paramètres des modèles de la parole,
telles que la moyenne et la variance, de façon à compenser les différences entre la base
d’apprentissage et la base de test.
La combinaison parallèle de modèles PMC initialement mis au point dans
[Young 92] et affinée par la suite dans [Gales 96] ne repose pas sur les données de parole
bruitée mais utilise plutôt les observations du bruit pour estimer les modèles dans le
nouvel environnement. Les nouveaux modèles de la parole sont alors une combinaison
entre les modèles initiaux et un modèle du bruit estimé à partir des observations de ce
dernier. Les modèles ainsi obtenus sont dits corrompus par du bruit. La reconnaissance
de la parole basée sur cette technique donne de bons résultats sur des digits isolés
[Gales 96]. Une utilisation de modèles de 2 à 4 états pour les bruits non stationnaires
améliore les résultats. Le seul inconvénient de cette méthode est qu’elle est coûteuse
du fait que chaque modèle doit être compensé.
Le maximum a posteriori MAP [Lee 91, Gauvain 94] et le maximum de vraisem-
blance de régression linéaire MLLR [Leggetter 95] sont des techniques employées pour
réestimer les modèles acoustiques afin de mieux représenter l’environnement de test à
partir des données disponibles. Ils étaient initialement conçus pour à fins d’adaptation
aux locuteurs. Mais qui dit adaptation au locuteur dit adaptation à l’environnement.
Dans le MAP, l’adaptation des modèles se base sur l’information a priori des modèles
de signaux propres lors de l’apprentissage et sur l’information a posteriori des obser-
vations bruitées. Ainsi, seules les observations ayant un grandde vraisemblance seront
utilisées pour l’adaptation. Quant au MLLR, on adapte la moyenne des gaussiennes
des modèles en la multipliant par une matrice issue du maximum de vraisemblance
[Gong 95]. L’avantage du MLLR en comparaison avec le MAP est qu’il permet une
bonne adaptation même si on ne dispose que de peu de données. Il a par contre un
mauvais comportement asymptotique dû à une saturation rapide du gain en perfor-
mance avec l’augmentation de la quantité de données. Dans ce dernier cas, c’est le
MAP qui l’emporte. On peut ainsi imaginer qu’une combinaison des deux apporte de
meilleurs résultats.
Une méthode simple et directe fondée sur les modèles est l’inclusion de toutes
les conditions de bruit de l’environnement de test dans le corpus d’apprentissage
[Furui 01]. En ce sens, la modélisation statistique sera en mesure de simuler toutes
les variabilités possibles, dans les vecteurs de paramètres, en raison du bruit externe.
Expérimentalement, il est démontré que le système de reconnaissance devient plus ro-
buste dans les environnements bruyants. Toutefois, cette méthode n’est pas réaliste
dans le sens où il est impossible d’inclure tous les types de bruit dans la phase d’ap-
prentissage des modèles. Une légère variante de cette approche consiste à inclure un
ensemble représentatif de différents bruits dans le corpus d’apprentissage et de faire
en sorte que les modèles statistiques soient généralisés au bruit invisible. Cette tech-
nique améliore les systèmes de Reconnaissance Automatique de la Parole, même si les
dégradations sont sévères, en comparaison avec les techniques d’adaptation des modèles
en fonction du type de bruit.

Les approches fondées sur les modèles statistiques, en particulier les techniques
d’adaptation, sont coûteuses en terme de calcul. Certaines ont besoin d’une exigence,
irréaliste, d’une grande quantité de données transcrites pour l’adaptation au cours de
la procédure de reconnaissance.
8.3.4 Reconnaissance audio-visuelle

La conception d’un système de reconnaissance audiovisuel fait appel à des pa-
ramètres acoustiques obtenus à partir d’un signal de parole, et des paramètres visuels,
obtenus à partir de capture d’image faciale et typiquement labiale (mouvement des
lèvres). Cette technique s’inspire de notre comportement quotidien. En effet, on emploie
inconsciemment l’information visuelle afin de comprendre la parole, particulièrement
dans des environnements bruyants, mais également en absence de bruit. La reconnais-
sance audiovisuelle repose donc sur l’idée que la parole est un moyen audiovisuel de
communication. Le message vocal est d’autant plus intelligible quand on est en face
du locuteur, plus particulièrement en présence du bruit, l’information visuelle restant
intacte par le bruit acoustique.
Un système de reconnaissance audiovisuelle est donc un système multimodal. Il
résulte de la fusion ou combinaison des deux systèmes audio et vidéo. En littérature, on
distingue deux types de fusion : la fusion d’attributs ou de paramètres et la fusion
de décisions ou de scores.
En plus de la stratégie d’intégration entre données audio et visuelles, les systèmes de
reconnaissance audiovisuelle se distinguent également par le dispositif et la technique
de capture de l’image employée : suivre la zone de la bouche ou globalement certains
attributs faciaux.
Dans les systèmes de reconnaissance audiovisuelle, mis à part le problème de
l’intégration des deux sources d’informations, le problème principal est la représentation
de l’information visuelle qui doit être pertinente et de faible dimension pour ensuite
faciliter la modélisation statistique. Il existe trois types principaux d’attributs visuels
largement employés dans la reconnaissance de la parole [Potamianos 04] :
1. Attributs d’apparence qui sont extraits des pixels de la région d’intérêt. Les moyens
les plus utilisés sont l’analyse en composantes principales PCA, l’analyse linéaire
discriminante LDA, la transformée en cosinus discrète DCT.
2. Attributs de forme qui sont extraits du contour des lèvres (hauteur, surface, lar-
geur...). Des attributs plus complexes peuvent être déduits des contours des lèvres,
par exemple par des modèles de formes actifs.
3. Attributs de la combinaison des deux (apparence et forme).
Les attributs de forme ont l’inconvénient d’exiger un suivi précis des lèvres, ils sont donc
sensibles à l’image (qualité, résolution,...). La fusion d’attributs peut être effectuée par
simple concaténation des attributs audio et visuels ou par une concaténation précédée
d’une discrimination des paramètres pertinents sans a priori (LDA par exemple). L’in-
convénient de l’approche de fusion de paramètres, en général, est le fait qu’elle ne peut
pas modéliser explicitement la fiabilité de chaque modèle de paramètre (audio et vidéo)

ainsi que la grande dimension des vecteurs de paramètres.
Dans le cas de la fusion de décisions, prises indépendamment sur les informations
audio d’une part et visuelles d’autre part, des modèles (HMM par exemple) différents
sont appris pour les canaux audio et vidéo. Leurs sorties (logarithme de vraisemblance)
sont ensuite combinées selon un poids approprié (en fonction de la fiabilité). Il existe
trois façons différentes de combiner les vraisemblances individuelles des modèles audio
et vidéo [Potamianos 04] :
1. Intégration précoce où les vraisemblances sont combinées au niveau des états en
forçant la synchronisation des deux flux de données. Ceci conduit à des modèles
HMM multi-flux.
2. Intégration tardive, qui demande deux HMMs. La reconnaissance finale est obtenue
en sélectionnant le mot selon la méthode des n-meilleurs parmi les sorties des HMM
audio et vidéo.
3. Intégration intermédiaire utilisant des modèles qui forcent la synchronisation aux
limites des phonèmes ou des mots. En effet, bien que les données audio et visuelles
soient corrélées, elles ne sont pas synchrones et l’activité visuelle précède souvent
le signal sonore. Combiner les vraisemblances à un niveau plus élevé que la trame,
comme le phonème ou encore le mot permet de remédier à cette asynchronie
[Tomlinson 96, Dupont 00].
Généralement, les performances de la reconnaissance audiovisuelle avec fusion de
décisions sont meilleures que celles basées sur la fusion d’attributs [Potamianos 04].
8.4 Construction d’un système de reconnaissance

de la parole sous HTK
Initialement, les algorithmes de débruitage étudiés dans cette thèse sont essentiel-
lement dédiés à des applications audio où le destinataire est purement humain. Le but
n’est donc pas le même avec la reconnaissance de la parole. En effet, si l’oreille hu-
maine peut tolérer certaines distorsions, la machine reste plus sensible et les systèmes
de reconnaissance de la parole doivent être très robustes afin de garder une certaine
souplesse face aux différents agents extérieurs nuisibles (bruit, effet Lombard, stress,...).
Maintenant, pour étudier l’impact du débruitage perceptuel sur les performances d’un
système de reconnaissance de la parole en présence du bruit, nous avons développé,
dans le cadre de cette thèse, deux systèmes opérationnels, indépendants du locuteur et
fondés sur les modèles de Markov cachés. Nous les avons conçus à partir de la plate-
forme HTK (Hidden Markov ToolKit) de l’Université de Cambridge et sur la base de
données de parole TIdigits. La boı̂te à outils HTK est efficace, flexible (liberté du choix
des options et possibilité d’ajout d’autres modules) et complète dans le sens où elle
fournit une documentation très détaillée (le livre HTK [Young 06] est une encyclopédie
dans le domaine). Le premier système est basé sur des monophones et l’autre sur les
triphones. L’intérêt est d’étudier l’impact de la nature de l’unité phonétique sur les per-
formances de la reconnaissance de la parole. Le choix de la base de données s’est porté
Section 8.5 : Analyse des résultats 129
sur le corpus TIdigits à vocabulaire assez simple. TIdigits pour Texas Instruments
digits est parmi les premières bases de données de parole destinées à des applications
de traitement de la parole. Conçue initialement à des fins d’évaluation des algorithmes
de reconnaissance de la parole indépendante du locuteur, elle contient 77 séquences de
digits connectés prononcées par 326 locuteurs dont 114 femmes, 111 hommes, 51 filles
et 50 garçons.
En annexe D, on présente les étapes de conception des deux systèmes accompagnées
d’illustrations et de commentaires.
8.5 Analyse des résultats

L’évaluation des performances de nos systèmes de reconnaissance conçus sur le
corpus de parole TIdigits est d’abord effectuée sur la base de test. Cette dernière base
contient, bien évidemment, les signaux de parole qui n’ont pas fait partie du processus
d’apprentissage. Ces signaux sont également propres. Les résultats sont présentés dans
le tableau 8.1.
Monophones Triphones
Base de test (Acc%) 99.51 99.47
99.05 99.23
Base de développement (Acc%)
S= 66, I= 67 S= 84, I= 83
Tableau 8.1 — Performance des systèmes de reconnaissance à base de monophones

et triphones sur la base de test et la base de développement du corpus TIdigits
D’après ce tableau, nos deux systèmes basés sur une paramétrisation de type MFCC,
sur une modélisation statistique de type HMM et sur une transcription avec et sans
contexte, donnent de très bons résultats pour des fichiers de parole propres. Les per-
formances du système à base de triphones ne se distinguent pas nettement des perfor-
mances du système à base de monophones, ceci peut être expliqué par le fait que les
prononciations de la base de données TIdigits sont presque parfaites et les enregistre-
ments ne modélisent pas les effet de coarticulation, Lombard, stress, sans pour autant
oublier de signaler que cette base de parole reste trop petite.
Dans le reste de la partie expérimentale, nous considérons 250 fichiers de parole
choisis aléatoirement dans la base de test du corpus TIdigits, bruités additivement
par trois types de bruit (bruit blanc, bruit de conversation et bruit de voiture) à
différents rapports signal à bruit. Ils sont par la suite débruités par les différentes
méthodes déjà évaluées par des critères objectifs et subjectifs. Nous calculons les taux
de reconnaissance sur ces fichiers bruités puis débruités en considérant les deux systèmes
de reconnaissances conçus. Les résultats de la reconnaissance sur les fichiers bruités sont
présentés dans les tableaux 8.2 et 8.3 et ceux issus du débruitage sont présentés sur les
figures 8.4 à 8.15.
Les tableaux 8.2 et 8.3 donnent une idée sur la détérioration des performances des
systèmes de reconnaissance, en présence du bruit, quand ces systèmes sont conçus à
Bruit blanc
Input SNR (dB) -5 0 5 10 15 20
%Acc 35.51 39.99 54.98 72.48 81.18 88.19
Bruit de voiture
Input SNR (dB) -5 0 5 10 15 20
%Acc 91.06 97.16 98.77 98.89 99.20 99.51
Bruit de conversation
Input SNR (dB) -5 0 5 10 15 20
%Acc 38.19 48.65 57.81 69.07 83.50 94.58
Tableau 8.2 — Taux de reconnaissance des signaux bruités à différents rapport

signal à bruit (système à base de monophones)
Bruit blanc
Input SNR (dB) -5 0 5 10 15 20
%Acc 35.57 41.65 61.00 77.21 86.78 92.63
Bruit de voiture
Input SNR (dB) -5 0 5 10 15 20
%Acc 88.10 96.73 98.52 99.32 99.20 99.51
Bruit de conversation
Input SNR (dB) -5 0 5 10 15 20
%Acc 38.19 47.23 56.33 70.60 85.51 96.89
Tableau 8.3 — Taux de reconnaissance des signaux bruités à différents rapport

signal à bruit (système à base de triphones)
base d’apprentissage dans un environnement non bruyant.

D’après les résultats des figures 8.4 à 8.15, dans le cas où la variance du bruit
est supposée connue, le filtrage optimal AMPF apporte un gain significatif pour les
rapports signal à bruit faibles, mais, généralement, la méthode de débruitage perceptuel
(C) (Eq. 4.85) se distingue dans la majorité des cas, avec estimation du bruit incluse, en
surpassant toutes les autres méthodes évaluées. Cependant, avec des critères objectifs
et même subjectifs (des tests d’écoute), cette méthode ne s’est pas avérée la meilleure.
Nous en concluons que les systèmes de débruitage doivent s’adapter en fonction de leur
objectif final : application audio ou application de reconnaissance vocale. Les conditions
de l’un ne sont pas forcément celles de l’autre.
Les taux de reconnaissance obtenus ne représente en réalité qu’une estimation des
performances du système de reconnaissance évalué. La fiabilité et la confiance qu’on
peut accorder à ces taux dépend de l’analyse statistique faite en amont. A partir de N,
le nombre de tests réalisés équivalent au nombre d’unités acoustiques à reconnaı̂tre (les
mots dans notre cas) et de P , le taux de reconnaissance obtenu (Accuracy%), Montacié
et Chollet [Montacié 87] modélisent les réussites par une distribution binomiale et
définissent ainsi l’intervalle de confiance à zx du taux de reconnaissance [P-,P+] par :
q
zx2
P+ N
± zx P (1−P
N
)
+ zx2
4N 2
P± = zx2
(8.4)
1+ N
Cela signifie qu’il y a x% de chance que le taux réel (exact) se trouve dans cet
intervalle. Dans les figures 8.4 à 8.15, chaque résultat est accompagné de son intervalle
de confiance calculé à partir de l’équation 8.4. Ces intervalles sont très petits pour
toutes les situations expériementées sauf pour le cas du bruit de voiture pour une
variance de bruit connue (figures 8.6 et 8.12 ). Dans ce dernier cas, les résultats peuvent
être considérés statistiquement comparables du fait que les intervalles de confiance
accompagnant les mesures sont très larges.
8.6 Conclusion
Dans ce chapitre, nous avons étudié de près les systèmes de reconnaissance de la
parole en parcourant leur principe et les mesures de précautions prises pour les rendre
robustes face au bruit. Nous avons conçu deux systèmes (avec monophones et triphones)
sans condition de bruit, qui nous ont permis d’évaluer l’impact du débruitage sur les
performances de ces systèmes en présence du bruit. Les méthodes de débruitage qui se
distinguent par rapport à des critères objectifs et même subjectifs ne sont pas forcément
celles qui rendent les systèmes de reconnaissance plus robustes au bruit, ce qui rejoint
l’idée du premier chapitre où qualité et intelligibilité de la parole ont été différenciées.
Ceci est sans doute à cause de leur sensibilité face aux distorsions du signal plus qu’au
bruit de fond ou même au bruit musical. Néanmoins, l’apport du débruitage reste net,
surtout celui des méthodes perceptuelles par rapport aux méthodes usuelles. Comme
perspective de ce chapitre, il serait vraisemblablement judicieux de paramétrer les
algorithmes de débruitage perceptuel de façon à se donner un certain degré de liberté
pour ajuster les valeurs de ces paramètres de manière à réduire les types de distorsions
qui peuvent être destructives au système de reconnaissance de la parole.
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Acurracy(%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
Figure 8.4 — Taux de reconnaissance par monophones sur des signaux bruités
par un bruit blanc et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit
110
Wiener
(B)
(A)
100 (C)
DF
AMPF
90
80
Acurracy (%)
70
60
50
40
−5 0 5 10 15 20
SNR (dB)
Figure 8.5 — Taux de reconnaissance par monophones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit
101
100
99
98
Accuracy (%)
97
96
95
Wiener
(B)
94 (A)
(C)
DF
AMPF
93
−5 0 5 10 15 20
SNR (dB)
un bruit de voiture et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit
100
Wiener
(B)
(A)
(C)
90 DF
AMPF
80
Accuracy (%)
70
60
50
40
−5 0 5 10 15 20
SNR (dB)
un bruit blanc et débruités par différentes méthodes en estimant la variance du bruit
pendant les pauses fournies par le DAV G729
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Accuracy (%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
un bruit de conversation et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729
100
95
90
85
Accuracy (%)
80
75
70
Wiener
(B)
(A)
65 (C)
DF
AMPF
60
−5 0 5 10 15 20
SNR (dB)
un bruit de voiture et débruités par différentes méthodes en estimant la variance du
bruit pendant les pauses fournies par le DAV G729
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Accuracy (%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
Figure 8.10 — Taux de reconnaissance par triphones sur des signaux bruités par un
bruit blanc et débruités par différentes méthodes en supposant connaı̂tre la variance
du bruit
110
100
90
80
Accuracy (%)
70
60
Wiener
(B)
50 (A)
(C)
DF
AMPF
40
−5 0 5 10 15 20
SNR (dB)
Figure 8.11 — Taux de reconnaissance par triphones sur des signaux bruités par
un bruit de conversation et débruités par différentes méthodes en supposant connaı̂tre
la variance du bruit
101
Wiener
(B)
(A)
100 (C)
DF
AMPF
99
98
Accuracy (%)
97
96
95
94
−5 0 5 10 15 20
SNR (dB)
un bruit de voiture et débruités par différentes méthodes en supposant connaı̂tre la
variance du bruit
100
Wiener
(B)
(A)
90 (C)
DF
AMPF
80
70
Accuracy (%)
60
50
40
30
−5 0 5 10 15 20
SNR (dB)
un bruit blanc et débruités par différentes méthodes en estimant la variance du bruit
pendant les pauses fournies par le DAV G729
100
Wiener
(B)
(A)
(C)
90 DF
AMPF
80
Accuracy (%)
70
60
50
40
−5 0 5 10 15 20
SNR (dB)
un bruit de conversation et débruités par différentes méthodes en estimant la variance
du bruit pendant les pauses fournies par le DAV G729
100
95
90
85
Accuracy (%)
80
75
70
Wiener
(B)
65 (A)
(C)
DF
AMPF
60
−5 0 5 10 15 20
SNR (dB)
un bruit de voiture et débruités par différentes méthodes en estimant la variance du
bruit pendant les pauses fournies par le DAV G729
9
CHAPITRE
Conclusion générale
Ce rapport de thèse a présenté notre travail de recherche. Nous le concluons en

résumant les résultats principaux et les apports avant de proposer quelques perspec-
tives.
9.1 Résultats principaux et apports

Le problème traité dans cette thèse concerne l’estimation d’un signal perturbé par
un bruit additif lorsqu’on dispose d’une seule observation. L’estimation est accom-
plie par filtrage linéaire de l’observation en supposant que le signal et le bruit sont
décorrélés. Nous avons étudié des méthodes dites perceptuelles dans le sens où elles
sont conçues à base de notions psychoacoustiques. Ces méthodes ont l’avantage de tirer
profit des caractéristiques de notre système d’audition et principalement du phénomène
de masquage fréquentiel pour rendre plus agréable la perception des signaux restitués.
Toutefois, comme tout problème de débruitage, les méthodes perceptuelles sont
aussi influencées par l’estimation du bruit auquel s’ajoute également un autre problème,
à savoir l’estimation de la courbe de masquage.
Nous avons ainsi présenté l’algorithme C-ESE dédié à l’estimation de la variance
du bruit et dont le principe est différent des méthodes usuelles dans ce domaine : il n’a
besoin d’aucun a priori. Il est simplement conçu à base d’hypothèses statistiques et de
parcimonie des signaux. Notre apport a été d’appliquer cet estimateur, à la base conçu
pour diverses applications tels que les signaux radar, à la parole et de le comparer à
des méthodes récentes d’estimation du bruit.
Nous avons évoqué, par la suite, l’impact d’une mauvaise estimation de la courbe
de masquage sur les performances des débruiteurs perceptuels. Cette influence dépend
de deux cas limites, liés souvent aux problèmes d’estimation, à savoir la sur-estimation
et la sous-estimation, une sur-estimation conduisant à beaucoup de bruit résiduel et
une sous-estimation entraı̂nant des distorsions superflues du signal.
Nous avons jugé important d’envisager un ajustement de la courbe de masquage
pour les basses fréquences autant que pour les hautes fréquences, car un biais d’esti-
mation pour les basses fréquences, surtout une sous-estimation, devient préjudiciable
pour le signal de parole et peut ainsi introduire beaucoup de distorsions du signal après
débruitage. Nous avons ainsi proposé une méthode de correction guidée par la valeur de
140 CHAPITRE 9 : Conclusion générale
deux paramètres qui sont le rapport signal bruité à bruit (NSNR) et le rapport signal
à bruit segmental (segSNR). Cette méthode peut opérer sur toutes les fréquences ou
simplement sur quelques unes ; tout dépend essentiellement des paramètres segSNR et
NSNR. On a également proposé une deuxième méthode basée sur l’estimation de la
densité spectrale de puissance (DSP) du signal de parole à partir d’une modélisation
LPC (Linear Predictive Coding). De par sa structure lissée, cette DSP peut réduire
l’effet du bruit résiduel à la sortie de Wiener qui biaise généralement l’estimation de la
courbe de masquage. La deuxième méthode, qui apporte une légère amélioration, reste
prometteuse surtout si l’on utilise d’autres variantes de l’analyse LPC connues pour
leur robustesse au bruit, telle que la SMC (Short-time Modified Coherence) souvent
employée dans le domaine de la reconnaissance de la parole comme paramétrisation
robuste au bruit et qui consiste à calculer les coefficients de prédiction dans le domaine
de l’autocorrélation.
Dans la suite de nos contributions, nous avons étudié et mis en évidence un
phénomène nommé MAN (Maskee to Audible Noise). Ce phénomène se manifeste
par la perception, après débruitage, de certaines composantes de bruit initialement
inaudibles. Il se produit à cause de l’atténuation de la courbe de masquage du signal
restitué, en comparaison de celle du signal d’origine ; cette atténuation est consécutive
de l’atténuation du signal de parole suite au filtrage du bruit additif. Nous avons pro-
posé deux méthodes pour réduire l’influence de ce phénomène sur les performances du
débruitage perceptuel. L’une consiste à appliquer un double filtrage réduisant toutes
les fréquences du bruit et dont le principal inconvénient est d’apporter quelques distor-
sions superflues. L’autre est basée sur un filtrage optimal sélectif par zone de fréquence
du bruit et minimisant un critère global tenant compte du phénomène MAN.
Nous avons mis en place une étude expérimentale afin d’évaluer les algorithmes
proposés, premièrement, par le biais de trois critères objectifs (MBSD, PESQ et seg-
SNR) qui se sont révélés parfois incohérents laissant ainsi la question ouverte sur la
fiabilité de ces critères, deuxièmement, en organisant des tests d’écoute, selon la norme
P-835, en sollicitant la participation de plusieurs volontaires d’origine anglaise ou de
nationalités différentes. Enfin, nous avons conçu deux systèmes de reconnaissance de
la parole à base de monophones et de triphones qui nous ont permis d’étudier l’im-
pact du débruitage sur les performances des systèmes de reconnaissance en présence
de bruit. Notre conclusion à ce propos est que les méthodes de débruitage qui se
distinguent sur des critères objectifs et même subjectifs ne sont pas forcément celles
qui rendent les systèmes de reconnaissance plus robustes au bruit. Cette constata-
tion rejoint l’idée du premier chapitre où qualité et intelligibilité de la parole ont été
différenciées. Néanmoins, l’apport du débruitage sur les performances de ces systèmes
est avéré, surtout celui des méthodes perceptuelles par rapport aux méthodes usuelles.
9.2 Perspectives de recherche

Le filtrage optimal proposé, au sens du critère que nous avons défini au chapitre 7,
constitue une première approche pour réduire le phénomène MAN. Cependant, comme
perspective de ce travail, il serait intéressant d’étudier un autre filtrage optimal conçu
Section 9.2 : Perspectives de recherche 141
sur la base d’un critère prenant en compte, cette fois-ci, la courbe de masquage après
débruitage afin de rendre tout type de bruit résiduel inaudible après le débruitage.
Dans l’optique de l’évolution de la courbe de masquage au cours du débruitage, il
serait intéressant d’étudier une estimation adaptative de cette courbe. L’étude d’une
relation récursive de cette courbe entre trames peut être envisagée comme objectif à
court terme. Pour donner du poids et de l’efficacité à cet évolution adaptative, il serait
plus raisonnable d’avoir au départ une estimation précise de la courbe de masquage
réelle (du signal propre). A ce sujet, nous suggérons (chapitre 6) d’implémenter la
paramétrisation SMC (Short-time Modified Coherence). Celle-ci, en milieu bruyant,
s’avère plus puissante que la modélisation LPC (Linear Predictive Coding). Son point
fort est de se baser sur la corrélation des segments adjacents du signal pour améliorer
la robustesse au bruit.
Comme suite de ce travail, il est aussi d’une grande importance d’étudier la faisabi-
lité d’un système complet basé sur le meilleur estimateur de bruit étudié, la meilleure
estimation de la courbe de masquage et le meilleur débruiteur perceptuel, tout ceci
dans le but de chercher à atteindre des performances maximales. Cet objectif n’est pas
aussi trivial qu’on pourrait l’imaginer.
Pour l’estimation du bruit, il serait très intéressant d’étudier la possibilité de combi-
ner l’algorithme C-ESE avec des méthodes heuristiques décrites dans le chapitre 5 afin
de réduire la part d’empirisme de ces méthodes. On peut penser, à titre d’exemple, à la
méthode de Martin qui recherche un minimum statistique qui pourrait être remplacé
par une estimée issue du C-ESE.
Il serait intéressant d’inclure le phénomène MAN dans les autres débruiteurs per-
ceptuels, qui ne traitent que le bruit audible.
Finalement, il peut être pertinent d’envisager de paramétrer les débruiteurs percep-
tuels afin de leur donner plus de souplesse et de diminuer les distorsions qu’ils peuvent
apporter. On pourrait ainsi les adapter aux contraintes des systèmes de reconnaissance
très sensibles aux distorsions.
A
ANNEXE
Echelle de notation de
la norme P-835
Le signal vocal dans cet échantillon était

5− Dépourvu de distorsion
4− Légèrement distordu
3− Quelque peu distordu
2− Assez distordu
1− Très distordu
Tableau A.1 — Echelle d’évaluation du signal vocal
Le bruit de fond dans cet échantillon était

5− Imperceptible
4− Légèrement imperceptible
3− Perceptible mais non gênant
2− Quelque peu gênant
1− Très gênant
Tableau A.2 — Echelle d’évaluation du bruit de fond
L’ échantillon vocal global était

5− Excellent
4− Bon
3− Passable
2− Médiocre
1− Mauvais
Tableau A.3 — Echelle d’évaluation de la qualité globale

B
ANNEXE
Filtre de Wiener
Le but de cet annexe est de calculer le filtre de Wiener seulement à partir du

théorème de projection au lieu d’utiliser la dérivée comme dans la plupart des travaux.
En effet, d’après le théorème de projection, il y a une seule solution à (4.26). Cette
solution est donnée par le principe d’orthogonalité via l’équation :

E ε(ν)Y (ν)+ = 0 (B.0)
b
où Y (ν)+ désigne le transposé conjugué de Y (ν) et ε(ν) = S(ν) − S(ν), on a donc :

E ε(ν)Y (ν)+ = 0
h i
E S(ν) − W (ν)Y (ν) Y (ν)+ = 0

E S(ν)Y (ν)+
W (ν) = (B.0)
E Y (ν)Y (ν)+

Avec E Y (ν)Y (ν)+ supposée définie, positive et inversible. Pour le problème de
débruitage de la parole, auquel on s’intéresse ici, le bruit est supposé additif et décorrélé
du signal de parole, d’où :

E S(ν)Y (ν)+ = E S(ν) S(ν) + B(ν) (B.1)

= E S(ν)S(ν) + E S(ν)B(ν) (B.2)

= E S(ν)S(ν) (B.3)
2
= E S(ν) (B.4)
La nouvelle expression de W (ν) est :

2
E S(ν)
W (ν) = 2 (B.4)
E Y (ν)
qui peut aussi être noté ainsi :

2
E S(ν)
W (ν) = 2 2 (B.4)
E S(ν) + E B(ν)
146 ANNEXE B : Filtre de Wiener
2 2
En choisissant les notations suivantes : E S(ν) = δ(ν) ; E B(ν) = γ(ν), l’ex-
pression finale de Wiener faisant intervenir les densités spectrales de puissance du bruit
et du signal est la suivante :
δ(ν)
W (ν) = (B.4)
δ(ν) + γ(ν)
C
ANNEXE
Tables statistiques
C.1 Distribution de la loi de Student

148 ANNEXE C : Tables statistiques
C.2 Distribution de la loi de Fisher

D
ANNEXE
Un Système de
reconnaissance de la
parole sous HTK
Cette annexe a pour objectif de présenter les étapes de la conception d’un système
de reconnaissance de la parole à petit vocabulaire en utilisant l’outil HTK.
D.0.1 Avec monophone

A ce stade, on conçoit notre système en se basant sur des unités acoustiques de type
monophone. On commence par définir les ressources nécessaires dont on aura besoin
par la suite. On définit, alors, le modèle de langage, appelé aussi lexique ou grammaire
(table D.2), qui décrit l’enchaı̂nement des mots dans les phrases. Ensuite, on construit
le réseau de mots (wdnet) et le dictionnaire (table D.1 ) respectivement, grâce aux
outils HTK HParse (ligne de Commande D.0.1) et HDMan (ligne de Commande D.0.1) .
Pour la base de données TIdigits, qui est une base de chiffres en anglais, le vocabulaire
est assez limité, d’où la facilité de définir le dictionnaire et la grammaire (tableaux D.1
et D.2).
HParse grammaire wdnet (D.0)
HDMan − m − w wlist − n monophones1 − g global.ded − l dlog dict
(D.0)
VoxForgeDict names
avec wlist la liste des mots (constituant la base de données TIdigits) ordonnés par
ordre alphabétique qui vont être transcrits en phonèmes et sauvegardés dans le dic-
tionnaire dict par la commande HDMan. La transcription en phonèmes de chaque mot
requiert un dictionnaire de référence représentant dans notre cas la langue anglaise.
Pour cela, on a utilisé le dictionnaire réduit et très pratique VoxForgeDict 1 en rem-
placement de beep proposé par HTK et qui nous donne des erreurs de compilation.
Le fichier dlog contient toutes les statistiques de la phase de construction du dic-
tionnaire, notamment des erreurs s’il y en a. La liste des monophones (monophones1)
renvoyée par HDMan et définissant le lexique de la base TIdigits est la suivante :
f ; k ; n ; r ;s ;t ;v ;w ;z ;sil ;ah ;ao ;ax ;ay ;eh ;ey ;ih ;iy ;ow ;th ;uw
1
http ://www.repository.voxforge1.org/downloads/SpeechCorpus/Trunk/Lexicon/VoxForge.tgz
150 ANNEXE D : Un Système de reconnaissance de la parole sous HTK
soit un total de 21 phonèmes. Une fois qu’on a défini le dictionnaire, la grammaire
eight ey t sil
five f ay v sp
four f ao r sp
nine n ay n sp
oh ow sp
one w ah n sp
seven s eh v ax n sp
sil
six s ih k s sp
three th r iy sp
two t uw sp
zero z ih r ow sp
Tableau D.1 — Dictionnaire de la base TIdigits
$digit = one|two|three|four|five|six|seven|eight|nine|zero|oh ;
(sil <$digit> sil)
Tableau D.2 — Grammaire de la base TIdigits
et la liste des phonèmes, on passe à la description des modèles de Markov cachés. On

construit un modèle HMM pour chaque unité acoustique. La topologie HMM choisie
est de type gauche-droit à 5 états dont les transitions autorisées sont décrites dans la
figure (8.2) et initialisées dans la matrice de transition. La moyenne est initialisée à 0
et la variance à 1 (voir fichier prototype d’initialisation tableau (D.5)). Ces paramètres
du modèle HMM seront réestimés par la suite lors de la phase d’apprentissage.
Le fichier de configuration config permet de définir les paramètres indispensables
pour la phase de l’analyse acoustique. Le choix s’est porté sur les 12 premiers coefficients
MFCC excepté le coefficient c0 qui est substitué par le logarithme de l’énergie du signal,
d’où le terme -E dans le fichier de configuration. Pour chaque coefficient plus l’énergie,
on attribue une dérivée première (13 dérivées premières au total) ainsi qu’une dérivée
seconde (13 dérivées secondes) pour prendre en compte la dynamique du signal. En
somme, on obtient un vecteur acoustique de 39 coefficients correspondant à chaque
trame du signal. Ces coefficients sont extraits des fichiers wav et sur des fenêtres de
25ms grâce à l’outil HCopy en se servant du fichier de configuration comme paramètre
d’entrée selon la commande (D.0.1).
HCopy − T 1 − C config − S liste train.scp (D.0)

151
SOURCEFORMAT = WAV------> Format des signaux en entrée de la

phase d’analyse acoustique
TARGETKIND = MFCC-E-D-A ------> Type de paramétrisation utilisé
WINDOWSIZE = 250000.0 ------> Durée de la trame (25ms)
TARGETRATE = 100000.0 ------> Périodicité de la trame
PREEMCOEF = 0.97 ------> Coefficient de pré-accentuation
NUMCHANS = 26 ------> Nombre de canaux du banc de filtres Mel
NUMCEPS = 12 ------>Nombre de coefficients cepstraux MFCC
CEPLIFTER = 22 ------>Coefficient de lissage
Tableau D.3 — Fichier de configuration pour la phase de l’analyse acoustique
mots.mlf phones.mlf
# !MLF !# # !MLF !#
"*/Z2273A.lab" "*/Z2273A.lab"
zero sil
two z
two ih
two r
seven ow
three t
. uw
"*/547A.lab" s
five eh
four v
seven ax
... ...etc
Tableau D.4 — Fichiers de transcription en mots et phonèmes
Une étape indispensable, également, concerne la transcription de chaque signal ap-

partenant à la base d’apprentissage. D’habitude, les bases de données de parole sont
accompagnées de leur transcription. Cependant, avec la base TIdigits, ce n’est pas le
cas. Heureusement,dans notre cas, la transcription n’est pas compliquée, parce que les
signaux .wav de cette base portent chacun un nom qui correspond à la phrase pro-
noncée par un certain locuteur. Le résultat de la transcription est sauvegardé dans le
fichier mot.mlf illustré par le tableau (D.4). À partir de ce dernier fichier, on génère
une transcription, cette fois-ci, au niveau du phonème à travers l’outil HTK HLEd selon
la ligne de commande (D.0.1).
HLEd − l ′ ∗′ −d dict − i monophones1.mlf mkphones0.led mots.mlf (D.0)

~o <VecSize> 39 <MFCC E D A>

~h "proto"
<BeginHMM>
<NumStates> 5------> Nombre d’états HMM
<State> 2 <NumMixes> 1 ------> Nombre de gaussiennes
<Stream> 1
<Mixture> 1 1.0000
<Mean> 39
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 39
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<State> 3 <NumMixes> 1
<Stream> 1
<Mixture> 1 1.0000
<Mean> 39
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 39
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<State> 4 <NumMixes> 1
<Stream> 1
<Mixture> 1 1.0000
<Mean> 39
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0
<Variance> 39
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0 1.0
<TransP> 5 ¯
0.000e+0 1.000e+0 0.000e+0 0.000e+0 0.000e+0 ¯
0.000e+0 4.000e-1 3.000e-1 3.000e+1 0.000e+0 ¯
0.000e+0 0.000e+0 6.000e-1 4.000e-1 0.000e+0 ¯------> Matrice
0.000e+0 0.000e+0 0.000e+0 6.000e-1 4.000e-1 ¯ de transition
0.000e+0 0.000e+0 0.000e+0 0.000e+0 0.000e+0 entre les états
<EndHMM>
Tableau D.5 — Fichier prototype d’initialisation
où mkphones0.led est un script permettant de remplacer chaque mot par la pronon-
ciation lui correspondant dans le dictionnaire et d’insérer un silence au début et à la
fin de chaque expression.
Apprentissage : La phase d’apprentissage permet de constituer la base de données

des modèles de référence du système. La qualité de cette modélisation conditionne en
grande partie les résultats du système de reconnaissance de la parole. L’apprentissage
est réalisé sous HTK en deux étapes majeures : l’initialisation et la ré-estimation. Pour
cette raison, deux outils sont souvent sollicités : HCompV et HERest. La phase d’initia-
lisation des modèles HMM par l’outil HCompV (ligne de commande D.0.1) permet de
mettre à jour la moyenne et la variance qui valent, avant cette étape,respectivement,
0 et 1 . Cette mise à jour est réalisée sur l’ensemble des données du corpus d’appren-
153
tissage permettant d’aboutir, à la fin, à des valeurs globales qui seront clonées pour
chaque état des modèles HMM.
HCompV − T 1 − C config − f 0.01 − m − S liste train − M hmm0 proto

(D.0)
Suite à cette commande, on obtient dans le répertoire hmm0 un nouveau fichier prototype
contenant des valeurs globales de la moyenne et de la variance. On copie le contenu de
ce fichier autant de fois qu’on a de phonèmes et on stocke le résultat du clonage dans
un fichier macro nommé modèles.mmf. Tous les phonèmes seront ainsi initialisés aux
mêmes valeurs de moyenne et de variance. Par ailleurs, l’option -f de la commande
(D.0.1) permet de générer un fichier vFloor contenant la variance seuil qui est une
fraction de la variance globale estimée. L’intérêt de ce seuil est de fixer une limite à
la variance lors des étapes d’estimation afin d’éviter des valeurs aberrantes. A noter
également que la mise à jour des variances est effectuée par défaut avec la commande
HCompV, tandis que pour réestimer la moyenne, l’option -m devient indispensable.
Par la suite, le raffinement des modèles HMM consiste à réestimer leurs paramètres
(moyenne et variance) suivant l’algorithme de Baum Welch 2 grâce à l’outil HERest
(commande D.0.2) et selon trois itérations. Les modèles ainsi estimés seront sauvegardés
dans le répertoire hmm3 (réestimation des modèles HMM contenu dans le répertoire hmmi
et sauvegarde dans le répertoire hmmi+1 à chaque itération i).
HERest − C config − I phones0.mlf − t 250.0 150.0 1000.0 − S liste train

−H hmm0/macros − H hmm0/modeles0.mmf − M hmm1 monophones0
(D.0)
A ce niveau, on ne considère pas encore le modèle de pause “sp”. Le fichier modeles0
est ainsi une version restreinte de modeles1 dans le sens où on en enlève le phonème
“sp”. D’un autre côté le fichier macros est une version de vFloor à laquelle on a ajouté
l’entête, ~o <MFCC E D A> <VecSize> 39, définissant le type de paramétrisation et la
taille du vecteur MFCC. L’ajout du modèle de silence “sp” aux autres modèles HMMs
est réalisé différemment. La procédure consiste à l’attacher à l’état central (état 3) du
modèle de silence “sil”(Fig. (D.1)).
En pratique, on va copier l’état 3 du modèle HMM du phonème “sil” et on va
l’attribuer à l’état 2 du modèle de pause “sp”. Celui-ci ne possède que 3 états dont le
premier et le dernier ne sont pas émetteurs. On initialise la matrice de transition de ce
modèle à des valeurs aléatoires qui seront réestimées par la suite. A signaler que lors
de cette étape et grâce à l’outil HHEd, on ajoute, exclusivement au modèle de silence
“sil”, une probabilité de transition de l’état 4 à l’état 2 (voir fichier sil.hed) .
Le contenu du fichier sil.hed est :

AT 2 4 0.2 sil.transP
AT 4 2 0.2 sil.transP
AT 1 3 0.3 sp.transP
TI silst sil.state[3],sp.state[2]
2
détail de cet algorithme dans le livre d’HTK
silence
1 2 3 4 5
Etat partagé
1 2 3
Sp
Figure D.1 — Fixation du modèle de silence Sp
HHEd − H hmm4/macros − H hmm4/modeles0.mmf − M hmm5 sil.hed monophones1

(D.0)
La commande (D.0.1) permet d’attacher le modèle de pause “sp” au modèle de silence
“sil” selon la figure D.1. Suite à cette commande, on a généré un autre fichier modeles0
dans le répertoire hmm5. Les modèles contenus dans ce fichier seront réestimés suite
à deux itérations de l’algorithme de Baum Welch représenté par l’outil HERest exacte-
ment comme lors de l’étape (D.0.2). Les derniers paramètres estimés, à ce stade, sont
sauvegardés dans le répertoire hmm7.
Il s’avère que, parfois, il existe diverses façons de prononcer le même mot. Afin
de rendre robuste le système de reconnaissance de la parole face à cette diversité, il
peut être intéressant de tenir compte de toutes ces variantes de prononciation. Ceci
est possible par l’intermédiaire d’un alignement de la base d’apprentissage qui permet
d’analyser toutes les prononciations décrites dans le dictionnaire du langage dict 3 et
de choisir la plus adéquate ou la plus proche en comparaison avec le signal acoustique
contrairement à l’étape (D.0.1), où la génération de la transcription en phonèmes par
HLEd prend juste en compte la première prononciation rencontrée lors du parcours du
dictionnaire. Cette étape nous permet également d’insérer le modèle de pause dans
le nouveau fichier de transcription aligned.mlf. L’alignement est accompli par la
commande (D.0.1) où .
HVite − l ´ ∗ ´ − o SWT − b sil − C config − a − H hmm7/macros

−H hmm7/modeles0.mmf − i aligned.mlf − m − t 250.0 − y lab
−I mots.mlf − S liste train dict monophones1
(D.0)
Deux itérations de l’algorithme de Baum Welch permettent de réestimer les modèles
tout en prenant en considération ces dernières améliorations. Les derniers paramètres
estimés sont sauvegardés dans le répertoire hmm9. Ainsi s’achève la phase d’apprentis-
sage des modèles HMM avec une seule gaussienne.
3
Le dictionnaire doit être classé par ordre alphabétique croissant (minuscule avant majuscule).
155
Amélioration des modèles : Les modèles obtenus peuvent être améliorés par uti-
lisation de densités de probabilités d’émission multi-gaussiennes au lieu de se contenter
d’une simple loi normale à matrice diagonale. Cela permet d’éviter certaines hypothèses
grossières sur la forme de la densité si le nombre de gaussiennes est suffisant. En effet, le
choix du nombre optimal de gaussiennes est un problème difficile. En pratique, la seule
recommandation donnée est l’augmentation incrémentale et progressive du nombre de
gaussiennes jusqu’à atteindre le nombre voulu. Une commande d’HTK HHEd (D.0.1)
réalise l’augmentation du nombre de gaussiennes via le script mkmu3.hed, où on aug-
mente progressivement le nombre de gaussiennes (1, 2, 4, 8, 12, 16). Chaque augmenta-
tion de gaussienne est suivie de deux réestimations des modèles avec HERest HERest.
Suite à cette procédure les modèles sont de plus en plus précis. Le seul inconvénient
est la charge des calculs qui augmente à son tour. Les derniers modèles estimés sont
sauvegardés dans le répertoire hmm30.
HHEd − B − H hmm9/macros − H hmm9/modeles0.mmf − M hmm10

(D.0)
mkmu3.hed monophones1
D.0.2 Avec triphone

Le premier système conçu est basé sur une modélisation par monophones, les
modèles sont ainsi hors contexte. Or, un système plus robuste de reconnaissance de
la parole continue devrait au moins envisager les effets de la co-articulation et de la vi-
tesse d’élocution qui peuvent limiter son efficacité. On a souvent tendance à considérer
que la production de la parole est parfaite et on oublie que le débit de la parole peut
s’accélérer et que les organes phonatoires ne peuvent pas suivre car ils sont limités
dans leur déplacement. Tout ceci provoque une certaine influence mutuelle suivant ou
précédant les sons produits qui altère leurs formes en fonction du contexte gauche ou
droit. D’où l’intérêt des modèles contextuels (diphones, triphones,...). Ceux-ci prennent
en compte la source de variabilité du signal de parole permettant ainsi une meilleure
modélisation, un gain significatif en précision de la transcription et ainsi de meilleures
performances [Halton 06]. Le seul inconvénient de telles approches est l’augmentation
de la charge de calcul vu le très grand nombre de modèles contextuels existants. Suite
à ces remarques, l’étape prochaine consiste à élaborer un système de reconnaissance
de la parole dit contextuel car basé sur des triphones (contextes gauche et droit d’un
phonème).
Conversion de la transcription : On commence par convertir les transcriptions

de phonèmes alignés aligned.mlf, à l’étape (D.0.1), en transcription par triphones
avec l’outil HLEd selon la ligne de commande (D.0.2).
HLEd − n triphones1 − l ´ ∗ ´ − i wintri.mlf mktri.led aligned.mlf

mkmu3.hed monophones1
(D.0)
où mktri.led contient les lignes suivantes :
WB sp
WB sil
TC
Pour créer le fichier mktri.hed, on utilise le script perl maketrihed tel que,
perl maketrihed monophones1 triphones1 (D.0)
Ensuite, on réestime en deux itérations la moyenne et la variance des modèles avec

l’algorithme Baum Welch toujours via l’outil HERest.
HERest − C config − I wintri.mlf − t 250.0 150.0 1000.0 − s stats − S

liste train − H hmm11 tri/macros − H hmm11 tri/modeles0.mmf
−M hmm12 tri triphones1
(D.0)
Le résultat de ces deux itérations est sauvegardé dans le répertoire hmm13 tri.
Ensuite, comme pour la reconnaissance par monophones, on va procéder à l’augmen-
tation progressive des gaussiennes jusqu’à en atteindre 16. Chaque augmentation sera
suivie d’une phase de réestimation des modèles par l’algorithme de Baum Welch. Après
toutes ces étapes, les derniers modèles affinés, attribués à la phase de reconnaissance,
sont dans le répertoire hmm45 tri
Reconnaissance : Le processus de décodage consiste à comparer l’image de l’unité

à identifier avec celles de la base de référence. Le module de décodage de la parole,
HVite, utilise l’algorithme de Viterbi pour trouver la séquence d’états la plus probable
correspondant aux paramètres observés et en déduire les unités acoustiques corres-
pondantes. Le décodage est réalisé par l’algorithme de Viterbi sous la contrainte d’un
réseau syntaxique et éventuellement d’un modèle de langage.
Nous allons tester, en premier lieu, les performances de nos systèmes de recon-
naissances (à base de monophones et de triphones) sur les sous-bases de test et de
développement de la base TIdigits. A noter que la base de développement nous a per-
mis d’ajuster le paramètre p utilisé par la commande HVite dans (D.0.2) et (D.0.2).
Ce paramètre est d’autant plus optimal que le nombre de suppressions S et à peu près
égal au nombre d’insertions I (voir tableau 8.1).
Pour les monophones :
HVite − H hmm39/macros − H hmm39/modeles0.mlf − S liste test − l ′ ∗′

−i resultats test mono.mlf − w wdnet − p − 51 − s5.0dictmonophones
(D.0)
Enfin, les résultats du décodage sont évalués par alignement dynamique avec les données
de référence via l’outil HResults.
HResults − I mots test.mlf monophones1 resultats test mono.mlf (D.0)
Nous obtenons, pour cet exemple, le résultat suivant

Ces résultats fournissent les taux de reconnaissance des mots corrects %Corr ainsi que
la précision de la reconnaissance de ces mots %Acc. La précision tient compte également
des insertions contrairement à %Corr. Lors de nos évaluations, nous tiendrons compte
157
=============== HTK Results Analysis ================

Date : Sat Sept 25 16 :54 :30 2008
Ref : mots test.mlf
Rec : resultats test mono.mlf
------------------------ Overall Results ---------------------------
SENT : %Correct=97.76 [H=8505, S=195, N=8700]
WORD : %Corr=99.66, Acc=99.51 [H=45828, D=67, S=88, I=69, N=45983]
==============================================
que de %Acc, mais, par abus de langage, nous le noterons taux de reconnaissance.
Pour les triphones :
HVite − C confighvite hmm45 tri/macros − H 45 tri/modeles0.mlf − S

liste test − l ′ ∗′ −i resultats test tri.mlf − w wdnet − p − 57 − s
5.0 dict tiedlist
(D.0)
Après exécution de HResults,
HResults − I mots test.mlf tiedlist resultats test tri.mlf (D.0)
on obtient,
=============== HTK Results Analysis ================

Date : Sat Sept 25 16 :59 :30 2008
Ref : mots test.mlf
Rec : resultats test tri.mlf
------------------------ Overall Results ---------------------------
SENT : %Correct=97.51 [H=8505, S=195, N=8700]
WORD : %Corr=99.69, Acc=99.47 [H=45840, D=63, S=80, I=100, N=45983]
==============================================
La configuration supplémentaire confighvite permet à HTK d’adapter le dictionnaire

dict et le réseau de mot wdnet avec les modèles HMM des triphones. Le fichier de
configuration confighvite contiendra uniquement deux paramètres FORCECXTEXP et
ALLOWXWRDEXP, le premier mis à T (True) et le second à F (False).
HResults − I mots test.mlf tiedlist resultats test tri.mlf (D.0)

Mes Publications
Articles de revue :
A. Amehraye, D. Pastor, Ahmed Tamtaoui et Driss. Aboutajdine , From maskee

to audible noise in perceptual speech enhancement, International Journal of Signal
processing (IJSP), 2009.
D. Pastor, A. Amehraye, Algorithms and applications for estimating the standard

deviation of AWGN when observations are not signal-free, Journal of Computers
(JCP), 2007.
Conférences nationales et internationales :
A. Amehraye, D. Pastor et A. Tamtaoui, Perceptual improvement of Wiener

filtering, ICASSP’08, Las Vegas, USA, 2008.
A. Amehraye, D. Pastor et A. Tamtaoui, Amélioration psychoacoustique du filtrage

de Wiener, Gretsi’07, Troyes, France, 2007.
A. Amehraye, D. Pastor et S. Ben Jebara, On the application of recent results

in statistical decision and estimation theory to perceptual filtering of noisy speech
signals, International Symposium on Control, Communications, and Signal Processing
(ISCCSP), Marrakech, Maroc, 2006.
A. Amehraye and D. Pastor, Speech enhancement and psychoacoustics, European

Mathematical Psychology group : 37ème meeting, 11-13 septembre, Brest, France, 2006.
D. Pastor et A. Amehraye, From non-parametric statistics to speech denoising, 3nd

International Symposium On Image/Video Communications (ISIVC’06), Tunisie, 2006.
F. Brugger, L. Zouari, H. Bredin, A. Amehraye, G. Chollet, D. Pastor et Y. Ni,

Reconnaissance audiovisuelle de la parole par VMike, Journées d’Étude sur la Parole
(JEP), Dinard, France, 2006.
Bibliographie
[Aicha 06] A. Ben Aicha & S. Ben Jebara. Utilisation de la courbe

de masquage pour la détection des tonales musicales ar-
tificielles dans un signal de parole débruité par approche
spectrales. In Proc. of ISIVC, volume I, 2006.
[Aicha 07] A. Ben Aicha & S. Ben Jebara. Perceptual musical
noise reduction using critical bands tonality coefficients
and masking thresholds. In Proc. of INTERSPEECH,
Antwerp, Belgium, pages 822–825, 2007.
[Amehraye 08a] A. Amehraye, D. Pastor & A. Tamtaoui. Perceptual im-
provement of Wiener filtering. In Proc. of ICASSP, Las
Vegas, USA, pages 2081–2084, 2008.
[Amehraye 08b] A. Amehraye, D. Pastor, A. Tamtaoui & D. Aboutajdine.
From maskee to audible noise in perceptual speech enhan-
cement. International Journal of Signal Processing, vol. 5,
no. 2, pages 93–96, 2008.
[Amehraye 09] A. Amehraye, L. Fillatre, D. Pastor & D. Aboutajdine.
A perceptual filter for unmasked noise prevention. to be
submitted to Speech Communications, 2009.
[ANSI 89] ANSI. Method for Measuring the Intelligibility of Speech
over Communication Systems. 1989.
[Azirani 95] A. Akbari Azirani, R. Le Bouquin-Jeannes & G. Fau-
con. Optimizing Speech Enhancement by exploiting mas-
king properties of the human earusing a Wiener filtering
under signal presence uncertainty. In Proc. of ICASSP,
volume 1, pages 800–803, 1995.
[Azirani 96] A. Akbari Azirani, R. Le Bouquin-Jeannes & G. Faucon.
Speech Enhancement using a Wiener filtering under signal
presence uncertainty. In Proceedings of the European Si-
gnal Processing Conference, EUSIPCO, volume 2, pages
971–974, 1996.
[Beaugeant 98] C. Beaugeant, V. Turbin, P. Scalart & A. Gilloire. New
optimal filtering approaches for hands-free telecommuni-
162 BIBLIOGRAPHIE
cation terminals. Signal Processing, vol. 64, pages 33–

47(15), Jan 1998.
[Beaugeant 99] C. Beaugeant & P. Scalart. Noise reduction using per-
ceptual spectral change. In 6th European Conference on
Speech Communication and Technology, EUROSPEECH
99, pages 2543–2546, Hungary, sep 1999.
[Beerendes 92] J. Beerendes & J. Stemerdink. A perceptual audio quality
measurement based on a psychoacoustic sound represen-
tation. J. Audio Eng. Soc, vol. 40, pages 963–972, 1992.
[Berouti 79] M. Berouti, R. Schwartz & J. Makhoul. Enhancement of
speech corrupted by acoustic noise. In Proc. of ICASSP,
volume I, pages 208–211, 1979.
[Bhatnagar 02] M. Bhatnagar. A modified spectral subtraction method
combined with perceptual weighting for speech enhance-
ment. phd thesis at UT-Dallas, 2002.
[Boll 79] S. Boll. Suppression of acoustic noise in speech using spec-
tral subtraction. IEEE Trans. Acoust., Speech, Signal Pro-
cessing, vol. 27, pages 113–120, 1979.
[Bunieti 97] L. Bunieti. Traitement automatique de la parole en mi-
lieu bruité : étude de modèles connexionnistes statiques et
dynamiques. Université Henri Poincaré - Nancy 1, 1997.
[Cappe 94] O. Cappe. Elimination of the musical noise phenome-
non with the Ephraim and Malah noise suppressor. IEEE
Trans. on Speech and Audio Processing, vol. 2(2), pages
345–349, Avr 1994.
[Cohen 02] I. Cohen. Noise estimation by minima controlled recursive
averaging for robust speech enhancement. IEEE Signal
Process. Lett, vol. 9, pages 12–15, Jan 2002.
[Cohen 03] I. Cohen. Noise spectrum estimation in adverse environ-
ments :improved minima controlled recursive averaging.
IEEE Trans. Speech Audio Process, vol. 11, pages 466–
475, Sept 2003.
[Deng 03] L. Deng, J. Droppo & A. Acero. Recursive estimation of
nonstationary noise using iterative stochastic approxima-
tion for robust speech recognition. IEEE Trans. Speech
Audio Processing, vol. 11, pages 568–580, Nov 2003.
[Dimitriadis 98] D. Dimitriadis & P. Maragos. Robust AM-FM Features for
Speech Recognition. IEEE Signal procesing letters, vol. 24,
pages 267–285, Jul 1998.
[Dupont 00] S. Dupont & J. Luettin. Audio-visual speech modeling for
continuous speech recognition. IEEE Trans. on Multime-
dia, vol. 2(3), pages 141–151, Sept 2000.
BIBLIOGRAPHIE 163
[Ephraim 84] Y. Ephraim & D. Malah. Speech enhancement using a mi-

nimum mean square error short-time spectral amplitude
estimator. IEEE Trans. Acoust., Speech, Signal Proces-
sing, vol. ASSP-32, pages 1109–1121, Dec 1984.
[Ephraim 95] Y. Ephraim & H.L. Van Trees. A signal subspace approach
for speech enhancement. IEEE Trans. Speech and Audio
Processing, vol. 3, pages 251–266, 1995.
[Erkelens 07] J. Erkelens, J. Jensen & R. Heusdens. A data-driven ap-
proach to optimizing spectral speech enhancement methods
for various error criteria. Speech Commun., vol. 49, no. 7-
8, pages 530–541, 2007.
[Fairbanks 58] G. Fairbanks. Test of phonetic differentiation : the rhyme
test. Journal of the Acoustical Society of America, vol. 30,
pages 596–600, 1958.
[Faucheur 07] N. Le Faucheur & V. gautier turbin. Method for measu-
ring an audio signal perceived quality degraded by a noise
presence. Brevet, vol. ASSP-32, pages 1109–1121, Jun
2007.
[Furui 01] S. Furui. Digital speech processing, synthesis, and recog-
nition. Second Edition, Marcel Dekker Inc., New York.,
2001.
[G.107 03] UIT-T G.107. Le modèle E : modèle de calcul utilisé pour
la planification de la transmission. 2003.
[G.729 96] IUT-T Rec. G.729. Coding of speech at 8 kbit/s using
conjugate structure algebraic-Code-Excited Linear Predic-
tion (CS-ACELP). 1996.
[Gales 96] M. Gales & S. Young. Cepstral parameter compensation
for HMM recognition. In Ph. D. Dissertation, ECE De-
partment, CMU, 1996.
[Gauvain 94] J. Gauvain & C. Lee. Maximum a posteriori estimation
for multivariate Gaussian mixture observations of Markov
chains. IEEE Trans. Speech Audio Process, vol. 2(2),
pages 291–298, 1994.
[Gong 95] Y. Gong. Speech recognition in noisy environments : a
survey. Speech communications, vol. 16, pages 261–291,
Apr 1995.
[Grundlehner 05] B. Grundlehner, J. Lecoq, R. Balan & J. Rosca. Perfor-
mance assessement method for speech enhancement sys-
tems. In Proc. IEEE BENELUX/DSP Valley signal pro-
cessing symposium, 2005.
[Gustafsson 98] S. Gustafsson, P. Jax & P. Vary. A novel psychoacousti-
cally motivated audio enhancement algorithm preserving
background noise characteristics. In Proc. of the IEEE
ICASSP’98, Seattle, pages 397–400, 1998.
164 BIBLIOGRAPHIE
[Halton 06] J. Halton, C. Cerisara, D. Fohr, Y. Laprie & K. Smaili.

Reconnaissance automatique de la parole : Du signal à
son interprétation. Dunod, 2006.
[Hermansky 90] H. Hermansky. Perceptual linear predictive (PLP) ana-
lysis of speech. The Journal of the Acoustical Society of
America, vol. 87, pages 1738–1752, Apr 1990.
[Hermansky 94] H. Hermansky & N. Morgan. RASTA processing of speech.
IEEE Trans. Speech Audio Process, vol. 2, pages 578–589,
1994.
[Hermus 07] Kris Hermus, Patrick Wambacq & Hugo Van hamme. A
review of signal subspace speech enhancement and its ap-
plication to noise robust speech recognition. EURASIP
J. Appl. Signal Process., vol. 2007, no. 1, pages 195–195,
2007.
[Hu 04] Y. Hu & P. Loizou. Incorporating a psychoacoustic model
in frequency domain speech enhancement. IEEE Signal
Processing Letters, vol. 11(2), pages 270–273, Feb 2004.
[Hu 06] Y. Hu & P. Loizou. Evaluation of objective Measures for
speech enhancement. in Proc. Interspeech, pages 1447–
1450, 2006.
[Hu 07] Y. Hu & P. Loizou. A comparative intelligibility study of
speech enhancement algorithms. IEEE Signal Processing
Letters, vol. 4, pages 561–564, Apr 2007.
[Hu 08] Y. Hu & P. Loizou. Evaluation of objective quality Mea-
sures for speech enhancement. Evaluation of objective
Measures for speech enhancement, vol. 16, pages 229–238,
Jan 2008.
[IEC-Standard.60268-16 98] IEC-Standard.60268-16. Sound system equipment- Part
16 : Objective rating of speech intelligibility by speech
transmission index. 1998.
[ITU-R.500-10 02] ITU-R.500-10. Methodology for the subjective assessment
of the quality of television picture. 2002.
[Jabloun 03] F. Jabloun & B. Champagne. Incorporating the hu-
man,lebouquin hearing properties in the signal subspace
approach for speech enhancement. IEEE Trans. Speech
and Audio Processing, vol. 11, pages 700–708, 2003.
[J.Chen 01] J.Chen, K.K. Paliwal & S.Nakamura. Subtraction of ad-
ditive noise from corrupted speech for robust speech recog-
nition. In Proc. Acoustical Society of Japan (ASJ) Confe-
rence, Tsukuba, Japan,, volume I, pages 63–64, 2001.
[Johnston 88] J. D. Johnston. Transform coding of audio signals using
perceptual noise criteria. IEEE Jour. Selected Areas Com-
mun, vol. 6, pages 314–323, 1988.
BIBLIOGRAPHIE 165
[Jones 05] C. Jones & I. Jonsson. Automatic recognition of affec-

tive cues in the speech of car drivers to allow appropriate
responses. In Proceedings of the OZCHI 2005, Canberra,
Australia, pages 21–25, Nov 2005.
[Junqua 90] J. Junqua. Utilisation d’un modèle d’audition et de
connaissances phonétiques en reconnaissance automatique
de la parole. Traitement du signal, vol. 7, pages 275–284,
1990.
[Keagy 00] S. Keagy. Integrating voice and data networks : Practical
solutions for the new world of packetized voice over data
networks. Cisco Press, 2000.
[Klein 02] M. Klein & P. Kabal. Signal subspace speech enhancement
with perceptual post-filtering. In Proc. IEEE Int. Conf.
Acoustics, Speech, Signal Processing (Orlando, FL), vo-
lume I, pages 537–540, 2002.
[Kobatake 94] H. Kobatake & S.Matsunoo. Degraded word recogni-
tion based on segmental signal-to-noise ratio weighting.
In Proc. ICASSP’04, Adelaide, SA, Australia, volume I,
pages 425–428, 1994.
[Lee 91] C. Lee, C. Lin & B. Juang. Study on speaker adaptation
of the parameters of continuous density hidden Markov
models. IEEE Trans. Signal Processing, vol. 39(4), pages
806–814, Dec 1991.
[Lee 04] T. Lee & Kaisheng Yao. Speech enhancement by perceptual
filter with sequential noise parameter estimation. In Proc.
of ICASSP, volume I, pages 693–696, 2004.
[Leggetter 95] C. Leggetter & P. Woodland. Maximum likelihood linear
regression for speaker adaptation of continuous density
HMMs. Comput. Speech Lang, vol. 9, pages 171–185,
1995.
[Lim 78] J. Lim & A. Oppeenheim. All-pole modeling of degra-
ded speech. IEEE Trans. Acoust. Speech, Signal Process,
vol. 26, pages 197–210, Jun 1978.
[Lim 79] J. Lim & A. Oppenheim. Enhancement and bandwidth
compression of noisy speech. Proceedings of the IEEE,
vol. 67, pages 1586–1604, Dec 1979.
[Lin 02] L. Lin, W. H. Holmes & E. Ambikairajah. Speech denoi-
sing using perceptual modification of Wiener filtering. IEE
Electronic Letters, vol. 38, pages 1486–1487, Nov 2002.
[Liu 93a] F. Liu, Stern R., Huang X. & Acero A. Efficient Cepstral
Normalization for Robust Speech Recognition. In Procee-
dings of ARPA Speech and Natural Language Workshop,
pages 69–74, 1993.
166 BIBLIOGRAPHIE
[Liu 93b] F. Liu, R. Stern, X. Huang & R. Acero. Efficient Cepstral

Normalization for Robust Speech Recognition. In Procee-
dings of ARPA Speech and Natural Language Workshop,
pages 69–74. Morgan Kaufmann, 1993.
[Loizou 07] P. Loizou. Speech enhancement : Theory and practice.
CRC ; 1 edition, 2007.
[Ma 04] N. Ma, M. Bouchard & R. A. Goubran. Perceptual Kal-
man filtering for speech enhancement in colored noise.
In Proc. ICASSP’04, Montreal, Canada, volume 4, pages
1045–1048, 2004.
[Malfait 06] L. Malfait, J. Berger & M. Kastner. P.563 - The ITU-
T Standard for Single-Ended Speech Quality Assessment.
IEEE Trans on Audio, Speech, and Language Processing,
vol. 14, pages 1924–1934, Nov 2006.
[Manohar 06] K. Manohar & P. Rao. Speech enhancement in nonstatio-
nary noise environments using noise properties. Speech
communication, vol. 48, pages 96–109, Jan 2006.
[Mansour 88] D. Mansour & B. Juang. The short time modified cohe-
rence representation and its application for noisy speech
recognition. In Proc. of ICASSP88, pages 525–528, New
York, USA, Apr 1988.
[Martin 94] R. Martin. Spectral Subtration Based on Minimum Sta-
tistics. In Proc. Eur. Signal Processing Conf, pages 1182–
1185, 1994.
[Martin 01] R. Martin. Noise Power Spectral Density estimation Ba-
sed on Optimal Smoothing and Minimum Statistics. IEEE
Trans. on Speech and Audio Processing, vol. 9, pages 504–
512, Jul 2001.
[Martin 03] R. Martin. Statistical Methods for the Enhancement of
Noisy Speech. In iwaenc03, pages 1–6, kyoto, sep 2003.
[Mokbel 92] C. Mokbel. Reconnaissance de la parole dans le bruit :
bruitage/débruitage. phd thesis at TELECOM Paris,
1992.
[Molau 01] S. Molau, M. Pitz, R. Schluter & H. Ney. Computing mel-
frequency cepstral coefficients on the power spectrum. In
InProc IEEE Intl. Conf. Acoust., Speech, Signal Proc.,
2001.
[Montacié 87] C. Montacié & G. Chollet. Systèmes de référence pour
l’évaluation d’applications et la caractérisation de bases
de données en reconnaissance automatique de la parole.
In Actes des 16e JEP, volume I, 1987.
[Moreno 95] A. Moreno, S. Tortola, J. Vidal & J.A.R. Fonollosa. New
HOS-based parameter estimation methods for speech re-
BIBLIOGRAPHIE 167
cognition in noisy environments. In Proc. ICASSP’95,

Detroit, MI, USA, volume I, 1995.
[Nadeu 97] C. Nadeu, P. Leal & B. Juang. Filtering time sequences
of spectral parameters for speech recognition. Speech com-
munications, vol. 22, pages 315–332, Sept 1997.
[P.835 03] UIT-T P.835. Subjective test methodology for evaluating
speech communication systems that include noise suppres-
sion algorithm. 2003.
[P.861 98] UIT-T P.861. Objective quality measurement of telephone-
band (300-3400 Hz) speech codecs. 1998.
[P862 00] UIT-T P862. Perceptual evaluation of speech quality
(PESQ), an objective method for end-to-end speech quality
assessment of narrowband telephone networks and speech
codecs. 2000.
[Painter 00] T. Painter & A. Spanias. Perceptual coding of digital au-
dio. Proceedings of the IEEE, vol. 88, pages 451–515, Avr
2000.
[Pastor 02] D. Pastor, R. Gay & B. Groenenboom. A Sharp Upper-
Bound for the Probability of Error of the Likelihood Ratio
Test for Detecting Signals in White Gaussian Noise. IEEE
Transactions on Information Theory, vol. 48, pages 228–
238, 2002.
[Pastor 07a] D. Pastor. A theoritical result for processing signals tht
have unknown distributions and priors in white gaussian
noise. Computational statistics and data analysis, vol. 52,
pages 3167–3186, Oct 2007.
[Pastor 07b] D. Pastor & A. Amehraye. Algorithms and applications
for estimating the standard deviation of AWGN when ob-
servation are not signal-free. Journal of computers, vol. 2,
Sep 2007.
[Plapous 07] C. Plapous, C. Marro & P. Scalart. Improved Signal-to-
Noise Ratio Estimation or Speech enhancement. IEEE
Trans. Audio., Speech, and Language Processing, vol. 15,
pages 1753–1765, August 2007.
[Potamianos 04] G. Potamianos, C. Neti, J. Luettin, & I. Matthews. Audio-
visual automatic speech recognition : an overview. MIT
Press, Issues in audio-visual speech processing (G. Bailly,
E. Vatikiotis-Bateson, and P. Perrier,eds, 2004.
[Qijun 06] D. Qijun & C. Yanpu B. Zhengzhong. Optimizing Speech
Enhancement Based on Noise Masked Probability. In In-
ternational conference on signal processing, pages 1–4,
2006.
168 BIBLIOGRAPHIE
[Quackenbush 88] S. R. Quackenbush, T. P. Barnwell III & M. A. Clements.

Objective Measures of Speech Quality. Englewood Cliffs,
NJ : Prentice-Hall. 1988.
[Rabiner 07] Lawrence R. Rabiner & Ronald W. Schafer. Introduction
to digital speech processing. Now Publishers Inc., Hano-
ver, MA, USA, 2007.
[Rangachari 04] S. Rangachari, P. Loizou & Y. Hu. A noise estimation
algorithm with rapid adaptation for highly nonstationary
environments. In Proc. IEEE Internat. Conf. on Acoust.
Speech Signal Process, volume 1, pages 305–308, 2004.
[Rangachari 06] S. Rangachari & P. Loizou. A noise-estimation algorithm
for highly non-stationary environments. In Speech Com-
munication, volume 48, pages 220–231, 2006.
[Rix 01] A. Rix, J. Beerends, M. Hollier & A. Hekstra. Percep-
tual evaluation of speech quality (pesq)-a new method for
speech quality assessement of telephone networks and co-
decs. In Proc. ICASSP’04, Adelaide, SA, Australia, vo-
lume I, pages 749–752, 2001.
[S3.5 69] ANSI. S3.5. American National Standard Methods for
Calculation of the Articulation Index. 1969.
[Sarikaya 99] R. Sarikaya & J. Hansen. Auditory Masking Threshold
Estimation for Broadband Noise Sources with Application
to Speech Enhancement. In EUROSPEECH’99 : Inter.
Conf. On Speech Communication and Technology, Buda-
pest, Hungary, volume 6, pages 2571–2574, Sept 1999.
[Siohan 94] O. Siohan, Y. Gong & J.-P. Haton. A comparison of three
noisy speech recognition approaches. In Proc. Int. Conf.
on Spoken Language Processing, ICSLP’94, Yokohama,
Japan, volume 3, pages 1031–1034, 1994.
[Tohkura 87] Y. Tohkura. A Weighted Cepstral Distance Measure for
Speech Recognition. IEEE Trans. Acoust., Speech & Signal
Process., vol. ASSP-35, pages 1414–1422, 1987.
[Tomlinson 96] M. J. Tomlinson, M. J. Russell & N. M. Brooke. Integra-
tion of audio and visual information to provide highly ro-
bust speech recgnition. In InProc IEEE Intl. Conf. Acoust.,
Speech, Signal Proc., 1996.
[Tsoukalas 97] D. Tsoukalas, J. Mourjopoulos & G. Kokkinakis. Speech
enhancement based on audible noise suppression. IEEE
Trans. on Speech and audio processing, vol. 5, pages 497–
514, 1997.
[Tuffy 99] M. Tuffy & D. Laurenson. Estimating clean speech thre-
sholds for perceptual based speechenhancement. In 1999
IEEE Workshop on Applications of Signal Processing to
Audio and Acoustics, volume I, pages 17–130, Oct 1999.
[Udrea 08] R. Udrea, N. Vizireanu & S. Ciochina. An improved spec-
tral subtraction method for speech enhancement using a
perceptual weighting filter. IEEE Trans. on Multimedia,
vol. 18, pages 581–587, Jul 2008.
[Virag 99] N. Virag. Single channel speech enhancement based on
masking properties of the human auditory system. IEEE
Trans. Speech and Audio Processing, vol. 7, pages 126–
137, 1999.
[Virole 01] B. Virole. Psychologie de la surdité. 2ème Edition, De
Boeck Université., 2001.
[Wang 92] S. Wang, A. Sekey & A. Gersho. An objective measure for
predicting subjective quality of speech coders. IEEE J. on
Select. Areas in Commun., vol. SAC-10, pages 819–829,
Sept 1992.
[Wang 97] S. Wang, A. Sekey & A.Gersho. Modified bark spectral
distortion measure which uses noise masking threshold.
IEEE Speech Coding Workshop, vol. SAC-10, 1997.
[Yang 97] W. Yang, M. Dixon & R Yantorno. Modified bark spectral
distortion measure which uses noise masking threshold. In
IEEE Speech coding Workshop, pages 55–56, 1997.
[Yang 99] W. Yang, M. Dixon & R Yantorno. Enhanced modified
Bark spectral distorsion (EMBSD) :An objective speech
quality measure based on audible distorsion and cognition
model. Phd thesis, Temple University Graduate Board,
May 1999.
[Yanpu 02] C. Yanpu, Z. Jun, T. Wei & G. Yue. Speech Enhancement
Analysis based on Audible Distortion Criteria. In Interna-
tional Conference on Communication Technology, ICCT
’06, volume 1, pages 448–451, 2002.
[You 05] C. You, S. Koh & S. Rahardja. Subspace speech enhan-
cement for audible noise reduction. In Proc. of ICASSP,
volume 11, pages 145–148, 2005.
[Young 92] S. J. Young. Cepstral Mean Compensation for HMM
recognition in noise. In ESCA Workshop Proceedings
of Speech Processing in Adverse Conditions, Cannes-
Mandelieu, pages 123–126, 1992.
[Young 06] Young & all. The htk book (for htk version 3.4). Cam-
bridge University Engineering Department, 2006.
[Zwicker 81] E. Zwicker & R. Feldtkeller. Psychoacoustique : l’oreille,
récepteur d’information. Masson, 1981.

Memoire These Amehraye

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Memoire These Amehraye

Încărcat de

Drepturi de autor:

Formate disponibile

Thèse

l’Ecole Nationale Supérieure des

le grade de : Docteur de Télécom Bretagne

mention : Traitement du Signal et Télécommunications

Débruitage perceptuel de la parole

Président : Jacques FROMENT, Professeur à l’UBS, Vannes

Depuis une dizaine d’année, l’investigation des méthodes de débruitage de la parole

Liste des tableaux xvii

Liste des figures xix

2 Généralités sur le signal de parole 5

3 Évaluation de la qualité et de l’intelligibilité de la parole 25

4 État de l’art du débruitage mono-capteur de la parole 37

5.2.2 Cas du bruit coloré . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Estimation de la courbe de masquage 77

7 Débruitage perceptuel de la parole - limitations et contributions 95

8 Reconnaissance de la parole 117

8.4 Construction d’un système de reconnaissance de la parole sous HTK . . 128

9 Conclusion générale 139

A Echelle de notation de la norme P-835 143

B Filtre de Wiener 145

C Tables statistiques 147

D Un Système de reconnaissance de la parole sous HTK 149

ACR Absolute Category Rating

ISO International Standards Organisation

s(t) Signal de parole

2.1 Différentes classes du bruit . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.1 Échelle MOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

5.1 Algorithme C-ESE dans le cas du bruit blanc . . . . . . . . . . . . . . 71

8.1 Performance des systèmes de reconnaissance à base de monophones et

A.1 Echelle d’évaluation du signal vocal . . . . . . . . . . . . . . . . . . . . 143

D.1 Dictionnaire de la base TIdigits . . . . . . . . . . . . . . . . . . . . . . 150

D.2 Grammaire de la base TIdigits . . . . . . . . . . . . . . . . . . . . . . . 150

1.1 Cadre générale de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . 2

2.1 Modèle simple de production de la parole . . . . . . . . . . . . . . . . . 6

3.1 Résultats d’ANOVA correspondant à l’exemple du rendement de trois

4.1 Modèle de débruitage utilisé dans ce document . . . . . . . . . . . . . . 37

5.1 Spectrogramme d’un signal bruité par un bruit de conversation (Babble)

6.1 Estimation de la Courbe de Masquage CM vs Densité Spectrale de puis-

7.1 Maskee to audible noise phenomenon description . . . . . . . . . . . . . 97

7.3 Apparition du phénomène MAN après filtrage du bruit audible uniquement 98

8.1 Architecure d’un système de reconnaissance de la parole par HMM . . . 119

D.1 Fixation du modèle de silence Sp . . . . . . . . . . . . . . . . . . . . . 154

1.1 Présentation du problème

Le problème de débruitage de la parole n’est pas récent. Cependant, il constitue

Figure 1.1 — Cadre générale de la thèse

1.2 Contexte, motivations et objectifs

audio et la reconnaissance automatique de la parole pour la téléphonie mobile et la

1.3 Plan du document

2.1 La parole et le bruit

2.1.1 Production du signal de parole

2.1.2 Perception de la parole

Figure 2.1 — Modèle simple de production de la parole

sonne à la simple écoute de sa voix. Le timbre dépend de la corrélation entre la fréquence

2.1.3 Analyse et paramétrisation de la parole

Le signal de parole est un processus aléatoire non-stationnaire à long terme, mais

Le modèle de prédiction exploite le fait que les échantillons successifs du signal de

Cepstre : Le cepstre est basé sur une connaissance du modèle de production de la

Figure 2.2 — Détermination de la fréqeunce fondamentale par cepstre

Figure 2.3 — Chaı̂ne de calcul des coefficients MFCC

du hertz en mel la plus utilisée est la suivante :

– Pré-accentuation (pour donner plus d’énergie et renforcer la contribution des

2.1.4 Nature et caractéristiques du bruit

Tableau 2.1 — Différentes classes du bruit

Comme notre but est essentiellement le débruitage et la reconnaissance de la pa-